PDFlib TET 5 - Neue Features

Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.

Was ist neu in TET 5.5?

Folgende Features sind neu oder wurden für TET 5.5 erheblich verbessert:

Sicherheits- und Performance-Updates aller Drittkomponenten
Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 8, PHP 8.3, Perl 5.38 and Ruby 3.2
viele kleinere Fehlerbehebungen und Verbesserungen

Was ist neu in PDFlib TET 5.4?

Folgende Features sind neu oder wurden für TET 5.4 erheblich verbessert:

Sicherheits- und Performance-Updates aller Drittkomponenten
Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 6/7, PHP 8.1/8.2, Perl 5.34/5.36 und Ruby 3.1
Unterstützung für ARM64/x86_64 Sprachbindungen auf macOS
verbesserte TIKA- und MediaWiki-Konnektoren
viele kleinere Fehlerbehebungen und Verbesserungen

Was ist neu in PDFlib TET 5.3?

Folgende Features sind neu oder wurden für TET 5.3 erheblich verbessert:

optimierte Verarbeitung von PDF-Ressourcen für höheren Durchsatz bei Dokumenten mit extrem hoher Anzahl von Bildern, Patterns oder anderen Ressourcen
Sicherheits- und Performance-Updates aller Drittkomponenten
robuste Verarbeitung beschädigter und illegaler PDF-Dokumente durch Test mit dem vollständigen PDF-Testkorpus »Issue Tracker« mit zehntausenden problematischen PDF-Dokumenten überprüft
erweiterte Plattform- und CPU-Unterstützung, z.B. macOS auf ARM64 und Linux auf ARM64
Zeitlimit kann angegeben werden, um die Verarbeitungszeit für lange oder komplexe Dokumente zu begrenzen
Verbesserungen in allen Sprachbindungen und Updates für die neuesten Sprachversionen, z.B. .NET 5, PHP 8, Perl 5.32 und Ruby 3.0
Unterstützung nativer Unicode-Strings für UTF-8, UTF-16 und UTF-32 in C++17 und C++20
Erkennung bestimmer Angriffskonstrukte, die mit legalen PDF-Elementen übermäßig große Datenstrukturen aufbauen
TETML für Sonderfälle verbessert
verbesserte Erkennung von Wort- und Absatzgrenzen sowie Listen
Unterstützung von Unicode 13
bessere Performance mit Classic .NET
viele kleinere Bugfixes und Verbesserungen
Character Collections und CMaps für PDF 2.0 aktualisiert

Was ist neu in PDFlib TET 5.2?

Folgende Features sind neu oder wurden für TET 5.2 erheblich verbessert:

Verbesserte Tabellenerkennung mit Identifizierung von Zellen, die mehrere Zeilen oder Spalten umfassen
Markierung von Artefakten (irrelevante Texte und Bilder) in TETML und der Programmierschnittstelle
Extraktion von Text und Bilder aus Kommentaren und Füllmustern (Patterns)
Verarbeitung von Inline-Bildern und Bildern in Soft Masks (Graphics State mit Transparenzgruppe)
Neue Sprachbindung für .NET Core
Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen
Viele Fehlerkorrekturen, Verbesserungen und Workarounds für beschädigte PDF-Dateien
Sicherheits-Updates für Fremdbibliotheken
Optional können Textfarben in Separation und DeviceN in der einfacheren Alternativfarbe abgefragt werden statt im komplexen ursprünglichen Farbraum
Kleinere Erweiterungen der pCOS-Schnittstelle

Was ist neu in PDFlib TET 5.1?

Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:

Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben
Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams
Verbesserte Workarounds für nicht konforme Eingabedokumente
Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen
Reduzierter Speicherbedarf
Zahlreiche Fehlerbehebungen
Aktualisierte Sprachbindungen

Was ist neu in PDFlib TET 5.0?

Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:

Extrahieren von Text:

Abfrage von Füll- und Linienfarbe des Textes
Verbesserte Layout-Erkennung
Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout
Unterstützung vertikaler Fontmetrik für CJK-Text

Extrahieren von Rasterbildern:

Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern
Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten
Extraktion von Bildmasken und Transparenzmasken
Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern
Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern
Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich
Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden

Seitenverarbeitung:

Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF
Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden
Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden
Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält

TETML:

TETML enthält Füll- und Linienfarbe der Glyphen
TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.
TETML enthält Details zu Farbraum und ICC-Profilen
TETML enthält Informationen über Ebenen und Seiten-Labels

Abfragen von Informationen aus PDF-Dokumenten:

pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften
pCOS-Pseudo-Objekte für Formularfelder

Weitere Verbesserungen:

Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren
Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe
Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung
Zahlreiche Verbesserungen in bestehenden TET-Features

Neu in TET