PDFlib TET 5 - Neue Features
Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.
Was ist neu in TET 5.5?
Folgende Features sind neu oder wurden für TET 5.5 erheblich verbessert:
- Sicherheits- und Performance-Updates aller Drittkomponenten
- Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 8, PHP 8.3, Perl 5.38 and Ruby 3.2
- viele kleinere Fehlerbehebungen und Verbesserungen
Was ist neu in PDFlib TET 5.4?
Folgende Features sind neu oder wurden für TET 5.4 erheblich verbessert:
- Sicherheits- und Performance-Updates aller Drittkomponenten
- Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 6/7, PHP 8.1/8.2, Perl 5.34/5.36 und Ruby 3.1
- Unterstützung für ARM64/x86_64 Sprachbindungen auf macOS
- verbesserte TIKA- und MediaWiki-Konnektoren
- viele kleinere Fehlerbehebungen und Verbesserungen
Was ist neu in PDFlib TET 5.3?
Folgende Features sind neu oder wurden für TET 5.3 erheblich verbessert:
- optimierte Verarbeitung von PDF-Ressourcen für höheren Durchsatz bei Dokumenten mit extrem hoher Anzahl von Bildern, Patterns oder anderen Ressourcen
- Sicherheits- und Performance-Updates aller Drittkomponenten
- robuste Verarbeitung beschädigter und illegaler PDF-Dokumente durch Test mit dem vollständigen PDF-Testkorpus »Issue Tracker« mit zehntausenden problematischen PDF-Dokumenten überprüft
- erweiterte Plattform- und CPU-Unterstützung, z.B. macOS auf ARM64 und Linux auf ARM64
- Zeitlimit kann angegeben werden, um die Verarbeitungszeit für lange oder komplexe Dokumente zu begrenzen
- Verbesserungen in allen Sprachbindungen und Updates für die neuesten Sprachversionen, z.B. .NET 5, PHP 8, Perl 5.32 und Ruby 3.0
- Unterstützung nativer Unicode-Strings für UTF-8, UTF-16 und UTF-32 in C++17 und C++20
- Erkennung bestimmer Angriffskonstrukte, die mit legalen PDF-Elementen übermäßig große Datenstrukturen aufbauen
- TETML für Sonderfälle verbessert
- verbesserte Erkennung von Wort- und Absatzgrenzen sowie Listen
- Unterstützung von Unicode 13
- bessere Performance mit Classic .NET
- viele kleinere Bugfixes und Verbesserungen
- Character Collections und CMaps für PDF 2.0 aktualisiert
Was ist neu in PDFlib TET 5.2?
Folgende Features sind neu oder wurden für TET 5.2 erheblich verbessert:
- Verbesserte Tabellenerkennung mit Identifizierung von Zellen, die mehrere Zeilen oder Spalten umfassen
- Markierung von Artefakten (irrelevante Texte und Bilder) in TETML und der Programmierschnittstelle
- Extraktion von Text und Bilder aus Kommentaren und Füllmustern (Patterns)
- Verarbeitung von Inline-Bildern und Bildern in Soft Masks (Graphics State mit Transparenzgruppe)
- Neue Sprachbindung für .NET Core
- Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen
- Viele Fehlerkorrekturen, Verbesserungen und Workarounds für beschädigte PDF-Dateien
- Sicherheits-Updates für Fremdbibliotheken
- Optional können Textfarben in Separation und DeviceN in der einfacheren Alternativfarbe abgefragt werden statt im komplexen ursprünglichen Farbraum
- Kleinere Erweiterungen der pCOS-Schnittstelle
Was ist neu in PDFlib TET 5.1?
Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:
- Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben
- Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams
- Verbesserte Workarounds für nicht konforme Eingabedokumente
- Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen
- Reduzierter Speicherbedarf
- Zahlreiche Fehlerbehebungen
- Aktualisierte Sprachbindungen
Was ist neu in PDFlib TET 5.0?
Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:
Extrahieren von Text:
- Abfrage von Füll- und Linienfarbe des Textes
- Verbesserte Layout-Erkennung
- Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout
- Unterstützung vertikaler Fontmetrik für CJK-Text
Extrahieren von Rasterbildern:
- Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern
- Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten
- Extraktion von Bildmasken und Transparenzmasken
- Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern
- Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern
- Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich
- Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden
Seitenverarbeitung:
- Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF
- Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden
- Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden
- Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält
TETML:
- TETML enthält Füll- und Linienfarbe der Glyphen
- TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.
- TETML enthält Details zu Farbraum und ICC-Profilen
- TETML enthält Informationen über Ebenen und Seiten-Labels
Abfragen von Informationen aus PDF-Dokumenten:
- pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften
- pCOS-Pseudo-Objekte für Formularfelder
Weitere Verbesserungen:
- Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren
- Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe
- Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung
- Zahlreiche Verbesserungen in bestehenden TET-Features