TET PDF IFilter Funktionalität

PDFlib TET PDF IFilter 5 - die Funktionalität im Detail

Akzeptierte PDF-Eingabe

TET PDF IFilter verarbeitet alle gängigen Varianten von PDF:

  • Alle PDF-Versionen bis Acrobat DC einschließlich ISO 32000-1 und 32000-2 (PDF 2.0)
  • Geschützte PDFs, die zum Öffnen kein Kennwort erfordern
  • Beschädigte PDF-Eingabedokumente werden repariert

Internationalisierung

Neben westlichem Text unterstützt TET PDF IFilter chinesischen, japanischen und koreanischen (CJK) Text. Alle CJK-Kodierungen werden erkannt; horizontale und vertikale Schreibrichtung werden korrekt behandelt. Die automatische Erkennung von Sprache bzw. Schriftsystem des extrahierten Textes (Locale ID) verbessert die Ergebnisse von Microsofts Algorithmen zur Bestimmung von Wortgrenzen und Wortstämmen, was insbesondere bei ostasiatischem Text wichtig ist.
Von rechts nach links laufende Schriften wie Hebräisch und Arabisch werden auch unterstützt. Dabei normalisiert TET PDF IFilter kontextabhängige Zeichenformen und sortiert den Text in logische Reihenfolge um.

PDF enthält mehr als nur Seiten

TET PDF IFilter behandelt PDF-Dokumente als Container für weit mehr als nur die Seiteninhalte und indiziert alle relevanten Elemente eines PDF-Dokuments:

  • Seiteninhalte
  • Text in Lesezeichen, Anmerkungen (Kommentare) und Formularfeldern
  • Metadaten (siehe unten)
  • Eingebettete PDFs und PDF-Pakete werden rekursiv verarbeitet, so dass sich auch Text in PDF-Dateianhängen durchsuchen lässt.

XMP-Metadaten und Dokument-Infofelder

Die leistungsfähige Metadaten-Implementierung von TET PDF IFilter unterstützt das Property-System von Windows für Metadaten. TET PDF IFilter indiziert XMP-Metadaten sowie Standard- und benutzerdefinierte Dokumentinfofelder. Die Indizierung der Metadaten lässt sich auf verschiedenen Ebenen konfigurieren:

  • Dokument-Infofelder, Dublin-Core-Felder und andere gängige XMP-Properties werden auf entsprechende Windows-Properties wie Title, Subject oder Author abgebildet.
  • TET PDF IFilter ergänzt nützliche PDF-spezifische Properties wie Seitengröße, PDF/A-Konformitätslevel oder Fontnamen.
  • Nach allen relevanten vordefinierten XMP-Properties kann gesucht werden.
  • Die Indizierung umfasst auch benutzerdefinierte XMP-Properties wie firmenspezifische Metadaten, digitale Signaturen oder den ZUGFeRD/Factur-X-Status.

TET PDF IFilter bietet optional die Möglichkeit, Metadaten in den indizierten Rohtext zu integrieren. Damit können auch Volltextsuchmaschinen ohne Metadaten-Unterstützung (z.B. SQL Server) nach Metadaten suchen.

Unicode-Nachbearbeitung

TET PDF IFilter unterstützt Unicode-basierte Nachbearbeitung zur Verbesserung der Suchergebnisse:

  • Foldings erhalten, entfernen oder ersetzen Zeichen, um z.B. Interpunktionszeichen oder Zeichen aus einem irrelevanten Schriftsystem herauszufiltern.
  • Dekompositionen ersetzen ein Zeichen mit einer äquivalenten Folge von einem oder mehreren anderen Zeichen, z.B. Ersetzen von schmalen, breiten oder vertikalen japanischen Zeichen oder lateinischen hochgestellten Zeichen mit dem entsprechenden normalen Zeichen.