PDFlib pCOS 4 - Informationen aus PDFs abfragen

Was ist PDFlib pCOS?


PDFlib pCOS (PDF Information Retrieval Tool) bietet eine einfache und elegante Methode, um aus PDF-Dokumenten Informationen abzurufen, die nicht zum Seiteninhalt gehören. PDF-Metadaten, interaktive Elemente (Links, Formularfelder usw.) oder Seitengrößen sind zum Beispiel bequem mit pCOS abfragbar.
Mit pCOS können Sie zahlreiche interessante Elemente auslesen und für verschiedene Verwendungszwecke ausgeben. Da pCOS in einem einzigen Aufruf viele PDF-Dokumente verarbeiten kann, können Sie sehr einfach Übersichten über Dokument-Infofelder, Seitengrößen, Fonts und andere Eigenschaften erstellen. In Kombination mit tabellarischer Ausgabe erwächst daraus ein leistungsfähiges PDF-Verwaltungswerkzeug.
Für PDFlib pCOS gibt es vielseitige Einsatzmöglichkeiten in PDF-Workflows. Sie können PDFlib pCOS aber auch zur PDF-Fehlersuche oder zum Erlernen des Dateiformats verwenden. Einige typische Anwendungsfälle:

Eingehende Dokumente auf bestimmte Eigenschaften prüfen

Problemfälle in umfangreichen Dokumentbeständen ermitteln

Metadaten für Dokumentenmanagement zusammenfassen

Qualitätskontrolle von Dokumenten vor der Veröffentlichung

Workflows zur Speicherung und Bereitstellung von Dokumenten

Lesezeichen zusammenfassen

Komponenten von PDF-Dokumenten extrahieren, z.B. ICC-Profile

PDFs auf Sicherheitsrisiken überprüfen (JavaScript usw.)

Die pCOS-Schnittstelle ist auch in weiteren Produkten von PDFlib GmbH enthalten: wenn Sie PDFlib+PDI, PDFlib Personalization Server, TET oder PLOP/PLOP DS benutzen, können Sie die pCOS-Schnittstelle ebenfalls nutzen. Um Text oder Rasterbilder aus PDF-Seiten zu extrahieren, nutzen Sie bitte unser Produkt PDFlib TET.

pCOS-Cookbook

Das pCOS-Cookbook ist eine Sammlung von Programmierbeispielen, die zeigen, wie sich pCOS für verschiedene Anwendungsfälle zur Informationsbeschaffung nutzen lässt. Das Cookbook steht hier zur Verfügung und enthält Beispielcode, Eingabedokumente und exemplarische pCOS-Ausgabe. 

Funktionalität von PDFlib pCOS

Unterstützte Eingabeformate

PDFlib pCOS verarbeitet alle Varianten von PDF:

Alle PDF-Versionen bis Acrobat XI einschließlich ISO 32000

Verschlüsselte Dokumente (ggf. ist das Kennwort erforderlich)

Beschädigte PDF-Eingabedokumente werden repariert

Abfragen von Informationen aus PDF-Dokumenten

PDFlib pCOS bietet eine einfach zu nutzende Abfrageschnittstelle. Mit pCOS können Sie zahlreiche interessante Elemente auslesen, zum Beispiel:

Dokument-Infofelder und XMP-Metadaten

Allgemeine Angaben: Status von Linearisierung und Tagged PDF, Verschlüsselungsinformationen und Berechtigungseinstellungen, Anzahl von Seiten und Fonts

Fontinformationen mit Name, Einbettungsstatus usw.

Rasterbildinformationen: Größe, Bittiefe, Farbraum, Kompression, XMP

Details zu Farbräumen

Verweisziele (URLs) und Koordinaten von Web-Links

Lesezeichen mit Seitennummern, um ein Inhaltsverzeichnis zu erstellen

Formularfelder: vollständiger Feldname, Inhalt, Position usw.

Seitengröße, CropBox, Seitendrehung

Status von ISO-Standards: PDF/X, PDF/A, PDF/UA, PDF/E, PDF/VT

Geo-Referenzdaten

Dateianhänge auflisten oder extrahieren

Namen von Ebenen, symbolische Seitennamen, Artikel

Details zu Anmerkungen

Alle Kommentare mit Namen des jeweiligen Bearbeiters

Details zu digitalen Signaturen: Namen der Signaturfelder, signiert/unsigniert, Name des Unterzeichners, Datum und Grund der Signatur

ICC-Profile für Druckausgabebedingungen aus PDF/X- oder PDF/A-Dateien extrahieren

Eigenschaften von Blöcken für PDFlib Personalization Server

JavaScript auf Dokument-, Seiten-, Anmerkungs- und Feldebene

XML-Rechnungsdaten aus ZUGFeRD-Dokumenten abrufen

Eigenschaften von PDF-Packages/-Portfolios

Ausgabeformate

PDFlib pCOS erzeugt Ausgabe für verschiedene Zwecke:

Einfacher Text

Unicode-Text in den Formaten UTF-8 und UTF-16

Tabellarische Ausgabe zur Weiterverarbeitung in einer Tabellenkalkulation oder Datenbank

Extraktion von Binärdaten, z.B. ICC-Profile oder Dateianhänge

Benutzerdefinierte Formate zur individuellen Weiterverarbeitung

pCOS-Pfade - einfache Syntax für PDF-Objekte

Mit der übersichtlichen pCOS-Pfadsyntax können Sie auf PDF-Objekte zugreifen, ohne sich in komplizierten Baumstrukturen, wie bei Lesezeichen oder Formularfeldern, zu verzetteln. Die pCOS-Pfadsyntax bietet praktische Abkürzungen, mit denen Sie auf häufig benötigte PDF-Objekte zugreifen können, etwa auf Seiten, Fonts, Lesezeichen oder Formularfelder.

Verbesserungen in pCOS 4

Die pCOS-8-Programmierschnittstelle bietet zusätzliche komfortable Features, um unter anderem folgende PDF-Informationen abzurufen:
   - Seiten mit transparenten Objekten auf der Seite oder in Anmerkungen
   - verschlüsselte Dateianhänge
   - Identifizierung aller Varianten von PDF/A, PDF/E, PDF/UA, PDF/X und PDF/VT

generische Methode für die Unicode-Stringkonvertierung pCOS_convert_to_unicode()

aktualisierte Sprachbindungen:
    - Perl 5.8 - 5.18
    - PHP 5.3, 5.4 und 5.5
    - objektorientierte Schnittstelle für Python 2.6, 2.7, 3.2 und 3.3

verschiedenste nicht konforme PDF-Konstrukte werden akzeptiert

verbesserter Reparaturmodus für beschädigte PDF-Dokumente

verschiedene Fehlerbehebungen

pCOS als Bibliothek oder Kommandozeilen-Tool?

pCOS wird als Software-Bibliothek (Komponente) für verschiedene Entwicklungsumgebungen sowie als Kommandozeilen-Tool für Batch-Prozesse ausgeliefert. Beide Ausführungen bieten den gleichen Funktionsumfang, eignen sich aber für unterschiedliche Einsatzbereiche.

Die pCOS-Software-Bibliothek eignet sich...

...zur Integration in Desktop- oder Server-Anwendungen. Pro­grammierbeispiele für alle unterstützten Sprachbindungen sind im pCOS-Paket enthalten.

Das pCOS-Kommandozeilen-Tool eignet sich...

...zur Batch-Verarbeitung von PDF-Dokumenten. Es erfordert keine Programmierung, sondern kann über leistungsfähige Kommandozeilen-Optionen gesteuert und damit in komplexe Arbeitsabläufe integriert werden. Das pCOS-Kommandozeilen-Tool ergänzt die Funktionen der Bibliothek um:

Einfache Abfrage typischer PDF-Elemente, z.B. Lesezeichen, Anmerkungen, Metadaten, Formularfelder usw.

Erweiterte Abfrage komplexer Objekte und Steuerung des Ausgabeformats

Elemente wie z.B. Dateianhänge, ICC-Profile extrahieren

Ausgabe der Informationen als CSV oder in benutzerdefi­niertem Format zum Import in Tabellenkalkulation oder Datenbank

Rekursion zur Erfassung verschachtelter Objekte, z.B. Dictionaries oder Arrays

Unterstützte Entwicklungsumgebungen

PDFlib pCOS läuft überall - auf praktisch allen Computersystemen. Wir bieten 32- und 64-Bit-Pakete an und unterstützen alle gängigen Varianten von Windows, OS X/macOS, Linux und Unix.

Der Kern von pCOS ist in C und C++ geschrieben und auf Schnelligkeit und geringen Overhead optimiert. Über ein einfaches API (Application Programming Interface) lässt sich die pCOS-Funktionalität in zahlreichen Programmiersprachen nutzen:

COM für VB, ASP, etc.

C und C++

Java einschließlich Servlets und JSP

.NET für C#, VB.NET, ASP.NET, etc.

Perl

PHP

Python