PDFlib TET 5 - Neue Features
Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.
Was ist neu in PDFlib TET 5.2?
Folgende Features sind neu oder wurden für TET 5.2 erheblich verbessert:
- Verbesserte Tabellenerkennung mit Identifizierung von Zellen, die mehrere Zeilen oder Spalten umfassen
- Markierung von Artefakten (irrelevante Texte und Bilder) in TETML und der Programmierschnittstelle
- Extraktion von Text und Bilder aus Kommentaren und Füllmustern (Patterns)
- Verarbeitung von Inline-Bildern und Bildern in Soft Masks (Graphics State mit Transparenzgruppe)
- Neue Sprachbindung für .NET Core
- Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen
- Viele Fehlerkorrekturen, Verbesserungen und Workarounds für beschädigte PDF-Dateien
- Sicherheits-Updates für Fremdbibliotheken
- Optional können Textfarben in Separation und DeviceN in der einfacheren Alternativfarbe abgefragt werden statt im komplexen ursprünglichen Farbraum
- Kleinere Erweiterungen der pCOS-Schnittstelle
Was ist neu in PDFlib TET 5.1?
Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:
- Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben
- Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams
- Verbesserte Workarounds für nicht konforme Eingabedokumente
- Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen
- Reduzierter Speicherbedarf
- Zahlreiche Fehlerbehebungen
- Aktualisierte Sprachbindungen
Was ist neu in PDFlib TET 5.0?
Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:
Extrahieren von Text:
- Abfrage von Füll- und Linienfarbe des Textes
- Verbesserte Layout-Erkennung
- Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout
- Unterstützung vertikaler Fontmetrik für CJK-Text
Extrahieren von Rasterbildern:
- Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern
- Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten
- Extraktion von Bildmasken und Transparenzmasken
- Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern
- Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern
- Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich
- Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden
Seitenverarbeitung:
- Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF
- Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden
- Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden
- Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält
TETML:
- TETML enthält Füll- und Linienfarbe der Glyphen
- TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.
- TETML enthält Details zu Farbraum und ICC-Profilen
- TETML enthält Informationen über Ebenen und Seiten-Labels
Abfragen von Informationen aus PDF-Dokumenten:
- pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften
- pCOS-Pseudo-Objekte für Formularfelder
Weitere Verbesserungen:
- Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren
- Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe
- Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung
- Zahlreiche Verbesserungen in bestehenden TET-Features