
PDFlib TET (Text Extraction Toolkit) macht die Texte einer PDF-Datei als Unicode-Strings oder strukturiertes XML verfügbar und liefert zudem detaillierte Informationen über Fonts und einzelne Zeichen. TET ist eine Entwickler-Software und kann als Software-Bibliothek (Komponente) oder als Kommandozeilen-Tool eingesetzt werden. Mit TET können die entsprechenden Unicode-Werte zum Text einer PDF-Datei und deren genaue Position auf der Seite ermittelt werden.
Zur Verbesserung der Ausgabequalität enthält TET Algorithmen zur Inhaltsanalyse und kann damit auch Wortgrenzen erkennen oder unnötige Textartefakte (Verdoppelungen durch Schatteneffekte oder simulierte Fettschrift) entfernen. Mit der Komponente pCOS können zudem beliebige PDF-Objekte wie Metadaten oder Hypertext angesprochen werden.
Voll funktionsfähige TET-Evaluierungsversionen mit Dokumentation und Beispielen können für alle unterstützten Plattformen von der TET-Downloadseite heruntergeladen werden. Nach dem Erwerb einer Lizenz und der Anwendung des Lizenzschlüssels wird die Evaluierungsversion für den produktiven Einsatz freigeschaltet.
zur Entwicklung einer Suchmaschine in PDF-Dateien
zur Textentnahme aus PDF zur Ablage in einer Datenbank
zum inhaltsabhängigen Archivieren oder Weiterverarbeiten von PDF-Dateien
zur Konvertierung in XML und Übergabe an Drittprogramme oder andere Formate
PDFlib TET verarbeitet alle Arten von PDF-Dateien:
alle PDF-Versionen einschließlich PDF 1.7 (Acrobat 8)
alle Font- und Encoding-Typen: Base-14-Fonts, TrueType, PostScript, OpenType, CID-Fonts
verschlüsseltes PDF mit 40- and 128-bit-Verschlüsselung (bei entsprechenden Zugriffsrechten oder Angabe des Passwortes)
Text in PDF ist normalerweise nicht als Unicode kodiert; PDFlib TET normalisiert daher allen Text nach Unicode:
TET konvertiert sämtlichen Text nach Unicode. In C wird der Text als UTF-8 oder UTF-16 zurückgegeben, bei allen anderen Programmiersprachen direkt als Unicode.
Ligaturen und andere zusammengesetzte Zeichen werden als Sequenz der beteiligten Unicode-Zeichen ausgegeben.
Herstellerabhängig kodierte Unicode-Zeichen werden erkannt und nach Möglichkeit in den allgemeinen Unicode-Zeichenraum abgebildet.
Zeichen ohne eigenes Unicode-Mapping werden als solche erkannt und auf ein konfigurierbares Ersatzzeichen abgebildet.
TET bietet volle Unterstützung zur Extraktion von chinesischem, japanischem und koreanischem Text. Alle vordefinierten CJK-CMaps (Encodings) werden erkannt; horizontale und vertikale Schreibrichtung werden unterstützt.
PDFlib TET liefert die grundlegende Zeicheninformation, bietet aber auch hochentwickelte Algorithmen zur Textanalyse:
erkennt Wortgrenzen und liefert Wörter statt einzelner Zeichen
kombiniert Wortteile nach Silbentrennung
entfernt überflüssige Textartefakte, etwa Verdoppelungen durch Schatteneffekte oder simulierte Fettschrift
ordnet den Ausgabetext in der Lesefolge an
fügt Textzeilen neu zusammen
PDFlib TET liefert zu Textojekten genaue Positionsdaten, etwa die Lage auf der Seite, die Zeichenbreite oder die Textausrichtung. Bestimmte Bereiche einer Seite können explizit von der Erfassung ausgeschlossen oder auch eingeschlossen werden, etwa um Kopf- oder Fußzeilen zu übergehen.
PDFlib TET umfasst pCOS (PDFlib Comprehensive Object System), eine Programmierschnittstelle mit einfacher Abfrage-Syntax zum konsistenten Zugriff auf PDF-Metadaten, Hypertext oder andere nicht-textuelle Informationen eines PDF-Dokuments.
PDFlib TET ist hoch portabel, extrem schnell, robust und für Multithread-Serverumgebungen geeignet. Der Bibliothekskern wurde in C für höchste Leistung bei geringstem Overhead geschrieben. Sprachbindungen gibt es für COM, C, C++, Java und .NET.
PDFlib TET wird in einem Programmpaket als Software-Bibliothek (Komponente) für diverse Programmierumgebungen und als Kommandozeilen-Tool für Batch-Prozesse geliefert. Beide Ausführungen bieten die gleiche Funktionalität, eignen sich aber für unterschiedliche Einsatzbereiche. Dazu einige Anhaltspunkte:
TET als Software-Bibliothek eignet sich besonders zur Integration in Desktop- oder Server-Anwendungen. Beispiele hierfür werden für alle gängigen Programmiersprachen mitgeliefert.
TET als Kommandozeilen-Tool erfordert keine Programmierung und eignet sich daher ideal zur Batch-Verarbeitung von PDF-Dokumenten. Neben reinem Text ist auch eine Ausgabe als XML möglich. Die Konfiguration erfolgt über Kommandozeilen-Parameter zur einfachen Integration in vorhandene Arbeitsabläufe.
Voll funktionsfähige Testversionen von TET mit Dokumentation und Beispielen können für alle Plattformen von unserer Website heruntergeladen und beliebig lange getestet werden.
PDFlib TET Plugin ist ein kostenloses Plugin zur Extraktion von Text aus PDF-Dokumenten. Das TET Plugin bietet einen einfachen Zugang zu den Funktionen des PDFlib Text Extraction Toolkit (TET). Obwohl das TET Plugin als Acrobat Plugin konzipiert ist, nutzt es keine Acrobat-Funktionen für den Text-Extrakt, sondern basiert komplett auf TET. Das TET Plugin wird als Technologie-Studie angeboten, um die mächtigen Funktionen von TET zu demonstrieren.