PDFlib TET PDF IFilter - die Funktionalität im Detail



Akzeptierte PDF-Eingabe

TET PDF IFilter verarbeitet alle gängigen Varianten von PDF:

Alle PDF-Versionen bis  PDF 1.8 (Acrobat 9)

 

Verschlüsselte PDFs, die zum Öffnen kein Kennwort erfordern

Beschädigte PDF-Eingabedokumente werden repariert, falls möglich


XMP-Metadaten und Dokumentinfofelder

Die leistungsfähige Metadaten-Implementierung von TET PDF IFilter unterstützt das Property-System von Windows für Metadaten. TET PDF IFilter indiziert XMP-Metadaten (die reichhaltige XML-basierte Metadatenbeschreibungssprache von Adobe) sowie Standard- und benutzerdefinierte Dokumentinfofelder. Die Indizierung der Metadaten lässt sich auf verschiedenen Ebenen konfigurieren:

Dokumentinfofelder, Dublin-Core-Felder und andere gängige XMP-Properties werden auf entsprechende Windows-Properties wie Title, Subject oder Author abgebildet.

TET PDF IFilter ergänzt nützliche PDF-spezifische Pseudo-Properties wie Seitengröße, PDF/A-Konformitätslevel oder Fontnamen.

Nach allen relevanten vordefinierten XMP-Properties kann gesucht werden, z.B. nach dc:rights, xmpRights:UsageTerms oder xmp:CreatorTool.

Die Suche umfasst auch benutzerdefinierte XMP-Properties wie firmenspezifische Klassifizierungen oder PDF/A-Extension-Schemas.

Die XMP-Metadaten, die einzelnen Bildern auf PDF-Seiten beigefügt sind, lassen sich indizieren, und bild-spezifische XMP-Properties können zur Suche verwendet werden.

TET PDF IFilter bietet optional die Möglichkeit, Metadaten in den indizierten Rohtext zu integrieren. Damit können auch Volltextsuchmaschinen ohne Metadaten-Unterstützung (z.B. SQL Server) nach Metadaten suchen.


XMP-Bildmetadaten

TET PDF IFilter unterstützt nicht nur Dokumentmetadaten, sondern auch XMP-Metadaten, die einzelnen Bildern zugeordnet sind. In heutzutage üblichen Workflows werden mit dem Bild auch die Metadaten übertragen, z.B. aus der digitalen Kamera zu Photoshop über die Erstellung des Seitenlayouts bis zur PDF-Generierung. TET PDF IFilter ermittelt XMP-Bildmetadaten und macht sie damit durchsuchbar. So können Sie etwa nach Dokumenten suchen, die Bilder einer bestimmten Kategorie oder von einem bestimmten Photographen etc. enthalten. 


Internationalisierung

Die automatische Erkennung von Sprache bzw. Schriftsystem des  extrahierten Textes (Locale ID) verbessert die Ergebnisse von  Microsofts Algorithmen zur Bestimmung von Wortgrenzen und Wortstämmen, was insbesondere bei ostasiatischem Text wichtig ist.


PDF ist mehr als nur ein Stapel Seiten

TET PDF IFilter behandelt PDF-Dokumente als Container für weit mehr als nur die Seiteninhalte und indiziert alle relevanten Elemente eines PDF-Dokuments:

Seiteninhalte

Text in Lesezeichen

Eingebettete PDFs werden rekursiv verarbeitet, so dass auch Text in PDF-Dateianhängen durchsucht werden kann.

Es werden alle Dokumente eines PDF-Pakets indiziert. PDF-Pakete dienen in Acrobat 8 zur Zusammen­fassung von mehreren Dokumenten in einer einzigen PDF-Datei (die in Acrobat 9 Portfolio genannt wird).