Neu in TET

PDFlib TET 5 - Neue Features

Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.

Was ist neu in TET 5.5?

Folgende Features sind neu oder wurden für TET 5.5 erheblich verbessert:

  • Sicherheits- und Performance-Updates aller Drittkomponenten
  • Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 8, PHP 8.3, Perl 5.38 and Ruby 3.2
  • viele kleinere Fehlerbehebungen und Verbesserungen

Was ist neu in PDFlib TET 5.4?

Folgende Features sind neu oder wurden für TET 5.4 erheblich verbessert:

  • Sicherheits- und Performance-Updates aller Drittkomponenten
  • Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen einschließlich .NET 6/7, PHP 8.1/8.2, Perl 5.34/5.36 und Ruby 3.1
  • Unterstützung für ARM64/x86_64 Sprachbindungen auf macOS
  • verbesserte TIKA- und MediaWiki-Konnektoren
  • viele kleinere Fehlerbehebungen und Verbesserungen

Was ist neu in PDFlib TET 5.3?

Folgende Features sind neu oder wurden für TET 5.3 erheblich verbessert:

  • optimierte Verarbeitung von PDF-Ressourcen für höheren Durchsatz bei Dokumenten mit extrem hoher Anzahl von Bildern, Patterns oder anderen Ressourcen
  • Sicherheits- und Performance-Updates aller Drittkomponenten
  • robuste Verarbeitung beschädigter und illegaler PDF-Dokumente durch Test mit dem vollständigen PDF-Testkorpus »Issue Tracker« mit zehntausenden problematischen PDF-Dokumenten überprüft
  • erweiterte Plattform- und CPU-Unterstützung, z.B. macOS auf ARM64 und Linux auf ARM64
  • Zeitlimit kann angegeben werden, um die Verarbeitungszeit für lange oder komplexe Dokumente zu begrenzen
  • Verbesserungen in allen Sprachbindungen und Updates für die neuesten Sprachversionen, z.B. .NET 5, PHP 8, Perl 5.32 und Ruby 3.0
  • Unterstützung nativer Unicode-Strings für UTF-8, UTF-16 und UTF-32 in C++17 und C++20
  • Erkennung bestimmer Angriffskonstrukte, die mit legalen PDF-Elementen übermäßig große Datenstrukturen aufbauen
  • TETML für Sonderfälle verbessert
  • verbesserte Erkennung von Wort- und Absatzgrenzen sowie Listen
  • Unterstützung von Unicode 13
  • bessere Performance mit Classic .NET
  • viele kleinere Bugfixes und Verbesserungen
  • Character Collections und CMaps für PDF 2.0 aktualisiert

Was ist neu in PDFlib TET 5.2?

Folgende Features sind neu oder wurden für TET 5.2 erheblich verbessert:

  • Verbesserte Tabellenerkennung mit Identifizierung von Zellen, die mehrere Zeilen oder Spalten umfassen
  • Markierung von Artefakten (irrelevante Texte und Bilder) in TETML und der Programmierschnittstelle
  • Extraktion von Text und Bilder aus Kommentaren und Füllmustern (Patterns)
  • Verarbeitung von Inline-Bildern und Bildern in Soft Masks (Graphics State mit Transparenzgruppe)
  • Neue Sprachbindung für .NET Core
  • Verbesserungen in allen Sprachbindungen und Aktualisierungen für die neuesten Sprachversionen
  • Viele Fehlerkorrekturen, Verbesserungen und Workarounds für beschädigte PDF-Dateien
  • Sicherheits-Updates für Fremdbibliotheken
  • Optional können Textfarben in Separation und DeviceN in der einfacheren Alternativfarbe abgefragt werden statt im komplexen ursprünglichen Farbraum
  • Kleinere Erweiterungen der pCOS-Schnittstelle

Was ist neu in PDFlib TET 5.1?

Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:

  • Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben
  • Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams
  • Verbesserte Workarounds für nicht konforme Eingabedokumente
  • Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen
  • Reduzierter Speicherbedarf
  • Zahlreiche Fehlerbehebungen
  • Aktualisierte Sprachbindungen

Was ist neu in PDFlib TET 5.0?

Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:

Extrahieren von Text:

  • Abfrage von Füll- und Linienfarbe des Textes
  • Verbesserte Layout-Erkennung
  • Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout
  • Unterstützung vertikaler Fontmetrik für CJK-Text

 Extrahieren von Rasterbildern:

  • Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern
  • Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten
  • Extraktion von Bildmasken und Transparenzmasken
  • Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern
  • Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern
  • Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich
  • Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden

 Seitenverarbeitung:

  • Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF
  • Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden
  • Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden
  • Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält

 TETML:

  • TETML enthält Füll- und Linienfarbe der Glyphen
  • TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.
  • TETML enthält Details zu Farbraum und ICC-Profilen
  • TETML enthält Informationen über Ebenen und Seiten-Labels

Abfragen von Informationen aus PDF-Dokumenten:

  • pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften
  • pCOS-Pseudo-Objekte für Formularfelder

Weitere Verbesserungen:

  • Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren
  • Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe
  • Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung
  • Zahlreiche Verbesserungen in bestehenden TET-Features