PDFlib TET 5 - Besondere Vorteile für die Textextraktion

Enttrennung

TET entdeckt getrennte Wörter, die sich über mehrere Zeilen erstrecken, entfernt den Trennstrich und verbindet die Einzelteile wieder zu einem Wort. Das ist insbesondere für die Volltextsuche wichtig, damit auch Wörter, die nur getrennt vorkommen, gefunden werden. Bindestriche (im Unterschied zu Trennstrichen) werden gesondert behandelt, da sie nicht entfernt werden dürfen.

 

Trennstriche werden korrekt entfernt, Gedankenstriche bleiben jedoch erhalten

Schatten und künstliche Fettungen

Digitale Dokumente enthalten oft Text mit Schatten, bei denen der Schatteneffekt durch mehrfache versetzte Platzierung des Textes erzielt wird. Ähnlich werden auch Textfettungen häufig durch mehrfaches Übereinanderlegen des Textes simuliert. Solche Dokumente enthalten die einzelnen Buchstaben des Wortes mehrfach. Der patentierte Algorithmus von TET zur Schattenerkennung erkennt die Situation und beseitigt die doppelten Zeichen, um die Extraktion irrelevanter Buchstaben zu vermeiden. Während andere Produkte den schattierten oder künstlich gefetteten Text mehrfach extrahieren, entfernt TET die redundanten Zeichen korrekt. Während ein doppeltes Wort bei der Volltextsuche noch gefunden werden könnte, würde die Verdoppelung einzelner Buchstaben wie im Beispiel Treffer im Text vereiteln.

Andere Produkte extrahieren »Inttrroduccttiion«.
TET extrahiert korrekt »Introduction«.

Akzentzeichen

In vielen Sprachen werden Akzente und andere diakritische Zeichen nah an anderen Zeichen platziert, um kombinierte Zeichen zu bilden. Einige Satzprogramme, vor allem TeX, geben zwei getrennte Zeichen aus (Basiszeichen und Akzent), um ein kombiniertes Zeichen zu erzeugen. Um zum Beispiel das Zeichen ä zu erzeugen, wird zuerst der Buchstabe a auf der Seite platziert und dann die Umlautpunkte ¨ darüber gesetzt. TET erkennt dies und kombiniert die beiden Zeichen zu dem entsprechenden Buchstaben mit Akzent.

Andere Produkte extrahieren »Midi-Pyr´en´ees«.
TET extrahiert korrekt »Midi-Pyrénées«.

Ligaturen

Ligaturen kombinieren zwei oder mehr Zeichen zu einer einzigen Glyphe. Die gebräuchlichsten Ligaturen sind für die Kombinationen fi, fl und ffi im Gebrauch. Weniger verbreitet sind zum Beispiel Ligaturen für die Kombinationen Th, sp, ct, st. Wenn der Text aus digitalen Dokumenten extrahiert werden soll, müssen Ligaturen analysiert und zerlegt werden, damit sich der Text korrekt verwenden lässt. TET erkennt Ligaturen nach verschiedenen Kriterien und extrahiert korrekt zwei oder mehr Zeichen.

Andere Produkte extrahieren » e rst photographs«.
TET extrahiert korrekt »The first photographs«.

Initialen

Initialen (Drop Caps) sind große Anfangsbuchstaben zu Beginn eines Absatzes, wobei der Scheitel der Initiale mit der Höhe der Zeile bündig sind und der Rest des Zeichens sich über mehrere Zeilen nach unten erstreckt. Initialen werden benutzt, um den Start eines neuen Absatzes zu betonen. Wenn sie nicht korrekt behandelt werden, wird das erste Wort in zwei Teilen extrahiert: dem einzelnen ersten Buchstaben und dem verbleibenden Rest des Wortes.

Andere Produkte extrahieren zwei Wörter: »S« und »tellen«.
TET extrahiert korrekt das ganze Wort »Stellen«.

Unicode Mapping

Unicode-Mapping bildet die Grundlage der Text-Extraktion aus PDF: Jeder Glyphe auf einer Seite muss der korrespondierende Unicode-Wert zugeordnet werden. PDF erschwert diese Aufgabe dadurch, dass es eine Vielzahl von Font- und Encoding-Varianten unterstützt. Obwohl die meisten PDFs genügend Informationen zur Bestimmung der richtigen Unicode-Werte enthalten, ist das nicht immer der Fall. Im schlimmsten Fall enthält das Dokument nicht genügend Informationen, um nützlichen Text aus dem Dokument extrahieren zu können.


Der patentierte Algorithmus von TET zum Unicode-Mapping implementiert ein kaskadiertes Verfahren, das alle verfügbaren Informationen zur Bestimmung der Unicode-Werte nutzt. Für viele problematische Dokumente kann TET so gültigen Unicode-Text extrahieren, während andere Produkte nur nutzlosen Zeichensalat erkennen.

Andere Produkte extrahieren unbrauchbaren Zeichensalat,
TET liefert Text.

Bidirektinaler Text mit Arabisch und Hebräisch

PDF kodiert keinen logischen Text, sondern ist einfach ein Container für die Glyphen auf einer Seite. Arabischer und hebräischer Text läuft von rechts nach links. Diese Texte enthalten aber oft Einschübe von Zahlen oder Namen in westlichen Sprachen, die von links nach rechts zu lesen sind. Aus diesem Grund müssen solche Texte in beiden Leserichtungen interpretiert werden - daher auch der Begriff »bidirektional«. Arabisch bietet noch eine zusätzliche Herausforderung, weil die Zeichen je nach Kontext in bis zu vier verschiedenen Formen benutzt werden können. Diese Kontextformen müssen zu der entsprechenden isolierten Form normalisiert werden.

TET ordnet die Mischung aus links- und rechtsläufigem Text für eine korrekte Textausgabe in die logische Lesereihenfolge um.

Beschädigte PDF-Dokumente

PDF-Dokumente können bei der Übertragung oder aus anderen Gründen beschädigt werden. Der Reparaturmodus von TET stellt viele Arten von beschädigten PDF-Dokumenten wieder her. Manchmal sind die PDF-Daten so stark beschädigt, dass nicht einmal Acrobat sie anzeigen kann. Selbst in solch extremen Fällen extrahiert TET oft noch den Inhalt des Dokuments.

Die Seiteninhalte werden nicht einmal in Acrobat angezeigt, TET extrahiert den Text aber trotzdem korrekt.