PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen zu Farbe, Glyphen und Fonts sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bildformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält.
TET verfügt über ausgefeilte Algorithmen zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen oder redundanten Text entfernen, zum Beispiel Schatteneffekte oder künstliche Fettschrift. Mit der pCOS-Schnittstelle können Sie zudem beliebige Objekte aus einem PDF-Dokument abfragen, zum Beispiel Metadaten oder interaktive Elemente.
Evaluierung & Preise
Testversionen für alle unterstützten mobilen Geräte und Embedded Systems sind hier erhältlich. Zu Preisen der Versionen für mobile Geräte und Embedded Systems kontaktieren Sie uns bitte unter sales@pdflib.com.
Beispiele für die Nutzung von TET auf mobilen Geräten und Embedded Systems
Da PDF-Daten auch auf mobilen Geräten immer weiter verbreitet sind, gibt es verschiedene Szenarien, wie TET auf mobilen Geräten und Embedded Systems genutzt werden kann:
TET: Extrahieren von Text aus PDF-Dokumenten als XML
PDFlib TET kann dazu genutzt werden, Text- und Bilddaten aus beliebigen PDF-Dokumenten zu extrahieren und für die Wiederverwendung zur Verfügung zu stellen.
PDF-Anhänge in E-Mail
Der Inhalt von PDF-Anhängen kann von PDFlib TET zur Weiterverwendung zur Verfügung gestellt werden.
TET und PDFlib+PDI: Text finden und ändern
Da TET Text aus PDF-Dokumenten extrahiert, kann es auch genutzt werden, um Änderungen anhand von spezifischen Schlüsselwörtern zu machen. Dafür kommt eine Kombination von TET und PDFlib+PDI zum Einsatz. Sobald der Suchbegriff in einem bestimmten PDF gefunden wurde, kann PDFlib+PDI das Dokument importieren und an den Stellen, die mit TET identifiziert wurden, zum Beispiel Lesezeichen einfügen. Danach wird ein neues, geändertes PDF erzeugt. Beispiele dazu finden Sie im <link tet-cookbook tet-and-pdflib _blank>TET Cookbook.