Einzigartige Vorteile von TET



Enttrennung

TET entdeckt getrennte Wörter, die sich über mehrere Zeilen erstrecken, entfernt den Trennstrich und verbindet die Einzelteile wieder zu einem Wort. Das ist insbesondere für die Volltextsuche wichtig, damit auch Wörter, die nur getrennt vorkommen, gefunden werden. Bindestriche (im Unterschied zu Trennstrichen) werden gesondert behandelt, da sie nicht entfernt werden dürfen.

Trennstriche werden korrekt entfernt, Gedankenstriche bleiben jedoch erhalten.

Erkennung von Schatten und künstlichen Fettungen

Digitale Dokumente enthalten oft Text mit Schatten, bei denen der Schatteneffekt durch mehrfache versetzte Platzierung des Textes erzielt wird. Ähnlich werden auch Textfettungen häufig durch mehrfaches Übereinanderlegen des Textes simuliert. Daraus resultiert dann, dass das Dokument die einzelnen Buchstaben des Wortes mehrfach enthält. Der patentierte Algorithmus von TET zur Schattenerkennung identifiziert dieses Problem und beseitigt die doppelten Zeichen, um die überflüssige Extraktion bedeutungsloser Buchstaben zu vermeiden. Während andere Produkte den schattierten oder künstlich gefetteten Text mehrfach extrahieren, entfernt TET korrekterweise die redundanten Zeichen. Auch wenn ein doppeltes Wort bei der Volltextsuche noch gefunden werden könnte, würde die Verdopplung einzelner Buchstaben wie im Beispiel die Wiederauffindbarkeit verhindern.

Andere Produkte extrahieren »Inttrroduccttiion«

TET extrahiert »Introduction«

Akzente

In vielen Sprachen werden Akzente und andere diakritische Zeichen mit anderen Zeichen zu kombinierten Zeichengruppen zusammengesetzt. Manche Satzprogramme, vor allem TeX, geben zwei getrennte Zeichen aus (Basiszeichen und Akzent), um ein kombiniertes Zeichen zu setzen. Zum Beispiel wird für ein ä zunächst das Zeichen a auf der Seite platziert und dann oben mit den Umlautpunkten ¨ versehen. TET entdeckt diese Situation und fügt die beiden Zeichen zusammen, um wieder das richtige akzentuierte Zeichen zu erzeugen.

Andere Produkte extrahieren »Midi-Pyr´en´ees«

TET extrahiert »Midi-Pyrénées«

Ligaturen

Ligaturen kombinieren zwei oder mehr Zeichen zu einer einzigen Glyphe. Wenn der Text aus digitalen Dokumenten extrahiert werden soll, müssen Ligaturen analysiert und getrennt werden, damit sich der Text korrekt verwenden lässt. TET erkennt Ligaturen nach verschiedenen Kriterien und extrahiert korrekt zwei oder mehr Zeichen.

Andere Produkte extrahieren » e rst photographs«

TET extrahiert »The first photographs«

Bild-Defragmentierung

In vielen PDF-Dokumenten sind die enthaltenen Bilder von der erzeugenden Software in kleine Stücke zerlegt worden. Was wie ein einziges Bild aussieht, kann durchaus aus hunderten oder tausenden von Fragmenten bestehen. Unter anderem Microsoft Office und TeX produzieren solche Dokumente. TET entdeckt diese fragmentierten Bilder und verbindet sie wieder zu einem größeren Bild. Solche Bilder lassen sich nur dann sinnvoll wiederverwerten, wenn sie rekombiniert wurden.

Andere Produkte extrahieren 133 einzelne Streifen

TET extrahiert ein einziges größeres Bild