PDFlib pCOS – Informationen aus PDFs abfragen


Was ist PDFlib pCOS?

PDFlib pCOS bietet eine einfache und elegante Methode, um aus PDF-Dokumenten Informationen abzurufen, die nicht zum Seiteninhalt gehören. PDF-Metadaten, interaktive Elemente (Links etc.) oder Seitengrößen sind zum Beispiel bequem mit pCOS abfragbar.
Mit pCOS können Sie zahlreiche interessante Elemente auslesen und für verschiedene Verwendungszwecke ausgeben. Da pCOS in einem einzigen Aufruf viele PDF-Dokumente verarbeiten kann, können Sie sehr einfach Übersichten über Dokumentinfofelder, Seitengrößen, Schriften und andere Eigenschaften erstellen. In Kombination mit tabellarischer Ausgabe erwächst daraus ein leistungsfähiges PDF-Verwaltungswerkzeug.
Im täglichen Umgang mit PDF bieten sich vielseitige Einsatzmöglichkeiten für pCOS. Sie können PDFlib pCOS aber auch zur Fehlersuche in problematischen PDF-Dateien oder zum Erlernen des PDF-Formats verwenden. Typische Anwendungsfälle sind:

Eingehende Dokumente auf bestimmte Eigenschaften überprüfen

PDFs auf Sicherheitsmängel oder aktive Inhalte (JavaScript etc.) überprüfen

Qualitätskontrolle von Dokumenten vor der Veröffentlichung

Problemfälle in umfangreichen Dokumentbeständen er­mitteln

Zusammenfassungen für Dokumentenmanagement er­stellen

Details von PDF-Datenstrukturen untersuchen

Funktionalität von PDFlib pCOS

Datenabfrage

PDFlib pCOS bietet eine einfach zu bedienende Abfrageschnitt­stelle, die die Parser-Programmierung überflüssig macht. Mit pCOS können Sie zahlreiche interessante Elemente extrahieren, wie zum Beispiel:

Allgemeine Angaben: Status von Linearisierung und Tagged PDF, Verschlüsselungsinformationen und Berechtigungseinstellungen, Seitenanzahl und Schriften

Dokumentinfofelder und XMP-Metadaten

Alle Schriften mit Name, Einbettungsstatus, etc.

Rasterbilder mit Größe, Bittiefe, Farbraum, Kompression, etc.

Farbrauminformationen für alle PDF-Farbvarianten

Verweisziele (URLs) und Koordinaten von Web-Links

Lesezeichen mit Seitennummern, um ein Inhaltsverzeichnis zu erstellen

Formularfelder: vollständiger Feldname, Inhalt, Position, etc.

Seitengröße, CropBox, Seitendrehung

Status von PDF/X- und PDF/A-konformen Dateien

Alle Dateianhänge auflisten oder extrahieren

Namen von Ebenen, symbolische Seitennamen, Artikel

Details zu Anmerkungen (Kommentaren)

Alle Kommentare mit Namen des jeweiligen Bearbeiters

Details zu digitalen Signaturen: Namen der Signaturfelder, unterzeichnet/nicht unterzeichnet, Name des Unterzeichners, Datum und Grund der Signatur

ICC-Profile für Druckausgabebedingungen aus PDF/X- oder PDF/A-Dateien extrahieren

Alle PDFlib-Blockeigenschaften auflisten

JavaScript auf Dokument-, Seiten-, Anmerkungs- und Feldebene

Unterstützte Eingabeformate

PDFlib pCOS verarbeitet alle gängigen Varianten von PDF:

Alle PDF-Versionen bis  PDF 1.7 (Acrobat 8)

RC4- und AES-Verschlüsselung (ggf. ist das Kennwort erforderlich)

Ausgefeiltes Sicherheitsmodell: selbst ohne Kennwort erhalten Sie bestimmte

Informationen, solange dies nicht die Interessen des Dokumentverfassers verletzt

Beschädigte PDF-Eingabedokumente werden repariert (falls möglich)

Ausgabeformate

PDFlib pCOS erzeugt Ausgabe für verschiedene Verwendungszwecke:

Einfacher Text

Tabellarische Ausgabe zur Weiterverarbeitung in einer Tabellenkalkulation oder Datenbank

Extraktion von Binärdaten zur Wiederverwendung, z.B. ICC-Profile oder

Dateianhänge

Unicode-Text in den Formaten UTF-8 und UTF-16

Benutzerdefinierte Formate zur individuellen Weiterverarbeitung

pCOS-Pfade – einfache Syntax für PDF-Objekte

Mit der übersichtlichen pCOS-Pfadsyntax können Sie auf PDF-Objekte zugreifen, ohne sich in komplizierten Baumstrukturen,  wie bei Lesezeichen oder Formularfeldern, zu verzetteln. Die pCOS-Pfadsyntax bietet praktische Kurznamen, mit denen Sie auf häufig benötigte PDF-Objekte, wie etwa Seiten, Schriften, Lesezeichen oder Formularfelder, zugreifen können.

pCOS als Bibliothek oder Kommandozeilen-Tool?

pCOS wird als Software-Bibliothek (Komponente) für verschiedene Entwicklungsumgebungen sowie als Kommandozeilen-Tool für Batch-Prozesse ausgeliefert. Beide Ausführungen bieten den gleichen Funktionsumfang, eignen sich aber für unterschiedliche Einsatzbereiche.

Die pCOS-Software-Bibliothek eignet sich...

...zur Integration in Desktop- oder Server-Anwendungen. Pro­grammierbeispiele für alle unterstützten Sprachbindungen sind im pCOS-Paket enthalten. Zahlreiche weitere Beispiele finden sich im pCOS-Cookbook auf der PDFlib-Website.

Das pCOS-Kommandozeilen-Tool eignet sich...

...zur Batch-Verarbeitung von PDF-Dokumenten. Es erfordert keine Programmierung, sondern kann über leistungsfähige Kommandozeilen-Optionen gesteuert und damit in komplexe Arbeitsabläufe integriert werden. Das pCOS-Kommandozeilen-Tool ergänzt die Funktionen der Bibliothek um:

Einfache Abfrage typischer PDF-Elemente, z.B. Lesezeichen, Anmerkungen, Metadaten, Formularfelder, etc.

Erweiterte Abfrage komplexer Objekte und Steuerung des Ausgabeformats

Elemente wie Dateianhänge, ICC-Profile, etc. extrahieren

Ausgabe der Informationen als CSV oder in benutzerdefi­niertem Format zum

Import in Tabellenkalkulation oder Datenbank

Rekursion zur Erfassung verschachtelter Objekte, z.B. Dictionaries oder Arrays

Unterstützte Entwicklungsumgebungen

PDFlib pCOS läuft überall – auf praktisch allen Computersystemen. Wir unterstützen alle gängigen Varianten von Windows, Mac OS, Linux und Unix.
Der Kern von pCOS ist in C geschrieben und auf Schnelligkeit und geringen Overhead optimiert. Über ein einfaches API (Application Programming Interface) lässt sich die pCOS-Funktionalität in zahlreichen Programmiersprachen nutzen:

COM für VB, ASP und zahlreichen anderen Sprachen

C und C++

Java einschließlich Servlets und Java Application Server

.NET für C#, VB.NET, ASP.NET, etc.

Perl

PHP