PDFlib TET 5 - Text and Image Extraction Toolkit

Extract text from PDF: PDFlib TET PDF IFilter

Was ist PDFlib TET?

PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen zu Farbe, Glyphen und Fonts sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bildformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält.

TET verfügt über einen ausgefeilten Algorithmus zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen und redundanten Text entfernen. Mit der pCOS-Schnittstelle können Sie zudem beliebige Objekte aus einem PDF-Dokument abfragen, zum Beispiel Metadaten oder interaktive Elemente.

Mit PDFlib TET können Sie:

PDF-Indexer für eine Suchmaschine implementieren

Texte und Bilder aus PDFs weiterverwerten

PDF-Inhalte in andere Formate konvertieren

PDFs abhängig vom Inhalt verarbeiten, z.B. anhand von Überschriften aufteilen (erfordert zusätzlich PDFlib+PDI)

Prüfen, ob eine bestimmte Stelle auf der Seite leer ist oder Text, Bilder oder Vektorgrafik enthält

TET-Produktfamilie

Die TET-Produktfamilie besteht aus den folgenden Produkten:

Text and Image Extraction Toolkit (TET), das Kernprodukt zur Extraktion von Text, Bildern, Metadaten und anderen Elementen aus PDF.

TET PDF IFilter extrahiert Text und Metadaten aus PDF-Dokumenten, um sie Retrieval-Produkten unter Windows zugänglich zu machen. Es ist als separates Produkt verfügbar und eignet sich zur Anwendung mit Microsofts Retrieval-Produkten, wie Windows Search, Sharepoint- und SQL Server.

TET Plugin, ein kostenloses Plugin für Adobe Acrobat, um Text und Bilder aus PDF-Dokumenten zu extrahieren. Damit können Sie die hervorragende Text- und Bildextraktion von TET interaktiv testen.