
Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text Extraction Toolkit (TET). Obwohl das TET Plugin als Plugin in Acrobat arbeitet, nutzt es nicht die Acrobat-eigenen Funktionen, sondern der Textextrakt beruht komplett auf der TET-Technologie.
Das Plugin wird von PDFlib GmbH als Technologiestudie zur Verfügung gestellt, um die mächtigen Funktionen von TET zu verdeutlichen. Da TET mehr bietet als der in Acrobat eingebaute Textextrakt und sein Interface einige interessante Funktionen enthält, bietet sich das TET Plugin als Ersatz für die in Acrobat eingebauten Kopier- und Suchfunktionen an. PDFlib TET kann viele Dokumente erfolgreich verarbeiten, aus denen Acrobat nur Unbrauchbares herausliest. Das TET Plugin bietet die folgenden Funktionen:
Kopieren von Text aus einem PDF-Dokument als reinen Text oder XML in die Zwischenablage oder eine Datei. Eine erweiterte Kontrolle des Clipboards erleichtert den Einsatz von Copy und Paste.
Kopieren von Lesezeichen aus einem PDF-Dokument.
Kopieren der XMP-Metadaten des Dokuments.
Finden von Wörtern im Dokument.
Extrahieren von Bildern
Die Textextraktion lässt sich durch Konfiguration genau an die eigenen Anforderungen anpassen. Die Einstellungen lassen sich speichern und wieder verwenden.
Das TET Plugin ist in vielen Punkten der in Acrobat eingebauten Kopierfunktion überlegen:
Die Ausgabe kann so angepasst werden, dass sie in vielen Programmen verwendet werden kann.
TET ist in vielen Fällen in der Lage den Text richtig zu interpretieren, in denen Acrobat nur Unbrauchbares kopiert.
Unbekannte Zeichen (für die keine gültiges Unicode-Mapping besteht) markiert TET mit einem roten Rand. Der Anwender kann auch entscheiden sie durch ein Zeichen seiner Wahl (etwa ein Fragezeichen) zu ersetzen.
TET verarbeitet Dokumente sehr viel schneller als Acrobat.
PDFlib Text Extraction Toolkit (TET) ist die Technologie, die hinter dem TET Plugin steckt. TET ist ein Entwickler-Werkzeug für die zuverlässige Extraktion von Text aus PDF-Dokumenten. TET stellt den Text aus einem PDF als Unicode-String zur Verfügung und liefert darüber hinaus auch genaue Informationen über Zeichen und Fonts sowie über deren Position auf der Seite.
Zusätzlich enthält TET erweiterte Algorithmen für die Inhaltsanalyse, mit denen sich Wortgrenzen und Spalten erkennen lassen. Auch doppelter Text kann entfernt werden, wie er manchmal durch Schatten oder künstlich gefettete Zeichen entsteht.
Zusätzlichen stellt das integrierte pCOS ein Interface zur Verfügung, mit dem sich weitere Daten aus dem PDF gewinnen lassen, etwa Metadaten, interaktive Elemente und vieles mehr.
PDFlib TET lässt sich zum Beispiel so verwenden:
Ein Searchengine um PDF-Unterstützung erweitern;
Text aus PDF-Dokumenten in einer Datenbank speichern;
Texte in andere Formate speichern, etwa XML;
PDF-Dokumente abhängig von ihrem Inhalt unterschiedlich verarbeiten.
TET steht sowohl als Programmierbibliothek für verschiedene Entwicklungsumgebungen zur Verfügung als auch als Commandline-Tool für den Batch-Betrieb. Beide bieten ähnliche Funktionen, eignen sich aber für unterschiedliche Einsatzzwecke.
Voll funktionsfähige Demoversionen von PDFlib TET stehen hier zur Verfügung.