
TET PDF IFilter verarbeitet alle gängigen Varianten von PDF:
Alle PDF-Versionen bis PDF 1.8 (Acrobat 9)
Verschlüsselte PDFs, die zum Öffnen kein Kennwort erfordern
Beschädigte PDF-Eingabedokumente werden repariert, falls möglich
Die leistungsfähige Metadaten-Implementierung von TET PDF IFilter unterstützt das Property-System von Windows für Metadaten. TET PDF IFilter indiziert XMP-Metadaten (die reichhaltige XML-basierte Metadatenbeschreibungssprache von Adobe) sowie Standard- und benutzerdefinierte Dokumentinfofelder. Die Indizierung der Metadaten lässt sich auf verschiedenen Ebenen konfigurieren:
Dokumentinfofelder, Dublin-Core-Felder und andere gängige XMP-Properties werden auf entsprechende Windows-Properties wie Title, Subject oder Author abgebildet.
TET PDF IFilter ergänzt nützliche PDF-spezifische Pseudo-Properties wie Seitengröße, PDF/A-Konformitätslevel oder Fontnamen.
Nach allen relevanten vordefinierten XMP-Properties kann gesucht werden, z.B. nach dc:rights, xmpRights:UsageTerms oder xmp:CreatorTool.
Die Suche umfasst auch benutzerdefinierte XMP-Properties wie firmenspezifische Klassifizierungen oder PDF/A-Extension-Schemas.
Die XMP-Metadaten, die einzelnen Bildern auf PDF-Seiten beigefügt sind, lassen sich indizieren, und bild-spezifische XMP-Properties können zur Suche verwendet werden.
TET PDF IFilter bietet optional die Möglichkeit, Metadaten in den indizierten Rohtext zu integrieren. Damit können auch Volltextsuchmaschinen ohne Metadaten-Unterstützung (z.B. SQL Server) nach Metadaten suchen.
TET PDF IFilter unterstützt nicht nur Dokumentmetadaten, sondern auch XMP-Metadaten, die einzelnen Bildern zugeordnet sind. In heutzutage üblichen Workflows werden mit dem Bild auch die Metadaten übertragen, z.B. aus der digitalen Kamera zu Photoshop über die Erstellung des Seitenlayouts bis zur PDF-Generierung. TET PDF IFilter ermittelt XMP-Bildmetadaten und macht sie damit durchsuchbar. So können Sie etwa nach Dokumenten suchen, die Bilder einer bestimmten Kategorie oder von einem bestimmten Photographen etc. enthalten.
Die automatische Erkennung von Sprache bzw. Schriftsystem des extrahierten Textes (Locale ID) verbessert die Ergebnisse von Microsofts Algorithmen zur Bestimmung von Wortgrenzen und Wortstämmen, was insbesondere bei ostasiatischem Text wichtig ist.
TET PDF IFilter behandelt PDF-Dokumente als Container für weit mehr als nur die Seiteninhalte und indiziert alle relevanten Elemente eines PDF-Dokuments:
Seiteninhalte
Text in Lesezeichen
Eingebettete PDFs werden rekursiv verarbeitet, so dass auch Text in PDF-Dateianhängen durchsucht werden kann.
Es werden alle Dokumente eines PDF-Pakets indiziert. PDF-Pakete dienen in Acrobat 8 zur Zusammenfassung von mehreren Dokumenten in einer einzigen PDF-Datei (die in Acrobat 9 Portfolio genannt wird).