PDFlib TET PDF IFilter - die Funktionalität im Detail



Akzeptierte PDF-Eingabe

TET PDF IFilter verarbeitet alle gängigen Varianten von PDF:

Alle PDF-Versionen bis Acrobat 9, inklusive ISO 32000-1

Geschützte PDFs, die zum Öffnen kein Kennwort erfordern

Beschädigte PDF-Eingabedokumente werden repariert


Unicode-Nachbearbeitung

TET PDF IFilter unterstützt Nachbearbeitung zur Verbesserung der Suchergebnisse:

Foldings erhalten, entfernen oder ersetzen Zeichen, um z.B. Interpunktionszeichen oder Zeichen aus einem irrelevanten Schriftsystem herauszufiltern.

Decompositions ersetzen ein Zeichen mit einer äquivalenten Folge von einem oder mehreren anderen Zeichen, z.B. beim Ersetzen eines chinesischen Zeichens durch das kanonisch äquivalente Unicode-Zeichen.

Text kann in alle vier Unicode-Normalformen konvertiert werden, z.B. um Texte in NFC-Form auszugeben, damit sie den Anforderungen einer Datenbank entsprechen.


Internationalisierung

Neben westlichem Text unterstützt TET PDF IFilter chinesischen, japanischen und koreanischen (CJK) Text. Alle CJK-Kodierungen werden erkannt; horizontale und vertikale Schreibrichtung werden korrekt behandelt. Die automatische Erkennung von Sprache bzw. Schriftsystem des extrahierten Textes (Locale ID) verbessert die Ergebnisse von Microsofts Algorithmen zur Bestimmung von Wortgrenzen und Wortstämmen, was insbesondere bei ostasiatischem Text wichtig ist.

Von rechts nach links laufende Schriften wie Hebräisch und Arabisch werden auch unterstützt. Dabei normalisiert TET PDF IFilter kontextabhängige Zeichenformen und sortiert den Text in logische Reihenfolge um.


PDF enthält mehr als nur Seiten

TET PDF IFilter behandelt PDF-Dokumente als Container für weit mehr als nur die Seiteninhalte und indiziert alle relevanten Elemente eines PDF-Dokuments:

Seiteninhalte

Text in Lesezeichen

Metadaten (siehe unten)

Eingebettete PDFs und PDF-Pakete werden rekursiv verarbeitet, so dass sich auch Text in PDF-Dateianhängen durchsuchen lässt.


XMP-Metadaten und Dokumentinfofelder

Die leistungsfähige Metadaten-Implementierung von TET PDF IFilter unterstützt das Property-System von Windows für Metadaten. TET PDF IFilter indiziert XMP-Metadaten sowie Standard- und benutzerdefinierte Dokumentinfofelder. Die Indizierung der Metadaten lässt sich auf verschiedenen Ebenen konfigurieren:

Dokumentinfofelder, Dublin-Core-Felder und andere gängige XMP-Properties werden auf entsprechende Windows-Properties wie Title, Subject oder Author abgebildet.

TET PDF IFilter ergänzt nützliche PDF-spezifische Pseudo-Properties wie Seitengröße, PDF/A-Konformitätslevel oder Fontnamen.

Nach allen relevanten vordefinierten XMP-Properties kann gesucht werden.

Die Suche umfasst auch benutzerdefinierte XMP-Properties wie firmenspezifische Klassifizierungen oder PDF/A-Extension-Schemas.

TET PDF IFilter bietet optional die Möglichkeit, Metadaten in den indizierten Rohtext zu integrieren. Damit können auch Volltextsuchmaschinen ohne Metadaten-Unterstützung (z.B. SQL Server) nach Metadaten suchen.