Kostenloses TET Plugin

Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text and Image Extraction Toolkit (TET). Obwohl das TET Plugin als Plugin in Acrobat arbeitet, nutzt es nicht die Acrobat-eigenen Funktionen, sondern der Textextrakt beruht komplett auf der TET-Technologie.
Das Plugin wird von PDFlib GmbH als Technologiestudie zur Verfügung gestellt, um die mächtigen Funktionen von TET zu verdeutlichen. Da TET mehr bietet als der in Acrobat eingebaute Textextrakt und sein Interface einige interessante Funktionen enthält, bietet sich das TET Plugin als Ersatz für die in Acrobat eingebauten Kopier- und Suchfunktionen an. PDFlib TET kann viele Dokumente erfolgreich verarbeiten, aus denen Acrobat nur Unbrauchbares herausliest. Das TET Plugin bietet die folgenden Funktionen:

Kopieren von Text aus einem PDF-Dokument als reinen Text oder XML in die Zwischenablage oder eine Datei. Eine erweiterte Kontrolle des Clipboards erleichtert den Einsatz von Copy und Paste.

PDF in einen XML-Dialekt namens TETML konvertieren und in der Zwischenablage oder einer Datei ablegen.

Kopieren der XMP-Metadaten des Dokuments in die Zwischenablage oder eine Datei.

Finden von Wörtern im Dokument. Der Suchtext kann einfach eingegeben oder in hexadezimaler Syntax angegeben werden, um auch nach ungewöhnlichen Zeichen suchen zu können.

Alle Vorkommnisse eines Suchbegriffes auf einer Seite gleichzeitig hervorheben.

Extrahieren von Bildern als TIFF, JPEG, JPEG 2000 oder JBIG2.

Anzeigen von Farbraum- und Platzierungsinformationen von Bildern.

Die Textextraktion lässt sich durch Konfiguration genau an die eigenen  Anforderungen anpassen. Die Einstellungen lassen sich speichern und wieder verwenden.

Vorteile gegenüber der Kopierfunktion in Acrobat

Die Kopierfunktion des TET Plugins ist in vielen Punkten der in Acrobat eingebauten Kopierfunktion überlegen:

Die Ausgabe kann so angepasst werden, dass sie in vielen Programmen verwendet werden kann.

TET ist in vielen Fällen in der Lage den Text richtig zu interpretieren, in denen Acrobat nur Unbrauchbares kopiert.

Unbekannte Zeichen (für die keine gültiges Unicode-Mapping besteht) markiert TET mit einem roten Rand. Der Anwender kann auch entscheiden sie durch ein Zeichen seiner Wahl (etwa ein Fragezeichen) zu ersetzen.

TET verarbeitet Dokumente sehr viel schneller als Acrobat.

Bilder können interaktiv für den Export ausgewählt werden. Alernativ lassen sich auch alle Bilder einer Seite extrahieren.

Kleine Bildfragemente werden zu brauchbaren Bildern zusammengesetzt.

Was ist PDFlib TET?

PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen zu Farbe, Glyphen und Fonts sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bildformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält.

TET verfügt über einen ausgefeilten Algorithmus zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen und redundanten Text entfernen. Mit der pCOS-Schnittstelle können Sie zudem beliebige Objekte aus einem PDF-Dokument abfragen, zum Beispiel Metadaten oder interaktive Elemente.

Mit PDFlib TET können Sie:

PDF-Indexer für eine Suchmaschine implementieren

Texte und Bilder aus PDFs weiterverwerten

PDF-Inhalte in andere Formate konvertieren

PDFs abhängig vom Inhalt verarbeiten, z.B. anhand von Überschriften aufteilen (erfordert zusätzlich PDFlib+PDI)

Prüfen, ob eine bestimmte Stelle auf der Seite leer ist oder Text, Bilder oder Vektorgrafik enthält

TET steht sowohl als Programmierbibliothek für verschiedene Entwicklungsumgebungen zur Verfügung als auch als Commandline-Tool für den Batch-Betrieb. Beide bieten ähnliche Funktionen, eignen sich aber für unterschiedliche Einsatzzwecke.
Voll funktionsfähige Demoversionen von PDFlib TET stehen hier zur Verfügung.