PDFlib TET 5 - Neue Features

Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.

Was ist neu in PDFlib TET 5.1?

Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:

Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben

Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams

Verbesserte Workarounds für nicht konforme Eingabedokumente

Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen

Reduzierter Speicherbedarf

Zahlreiche Fehlerbehebungen

Aktualisierte Sprachbindungen

Was ist neu in PDFlib TET 5.0?

Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:

Extrahieren von Text:

Abfrage von Füll- und Linienfarbe des Textes

Verbesserte Layout-Erkennung

Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout

Unterstützung vertikaler Fontmetrik für CJK-Text

 Extrahieren von Rasterbildern:

Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern

Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten

Extraktion von Bildmasken und Transparenzmasken

Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern

Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern

Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich

Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden

 Seitenverarbeitung:

Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF

Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden

Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden

Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält

 TETML:

TETML enthält Füll- und Linienfarbe der Glyphen

TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.

TETML enthält Details zu Farbraum und ICC-Profilen

TETML enthält Informationen über Ebenen und Seiten-Labels

Abfragen von Informationen aus PDF-Dokumenten:

pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften

pCOS-Pseudo-Objekte für Formularfelder

Weitere Verbesserungen:

Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren

Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe

Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung

Zahlreiche Verbesserungen in bestehenden TET-Features