Was ist die pCOS-Schnittstelle?
pCOS bietet eine einfache und elegante Methode, um aus PDF-Dokumenten Informationen abzurufen, die nicht zum Seiteninhalt gehören (Seiteninhalte können mit PDFlib TET extrahiert werden). Die pCOS-Schnittstelle ist kein eigenständiges Produkt, sondern integrierter Bestandteil der folgenden Produkte:
- PDFlib+PDI (pCOS ist nicht im Basisprodukt PDFlib enthalten)
- PDFlib Personalization Server (PPS)
- Text and Image Extraction Toolkit (PDFlib TET)
- In TET PDF IFilter können Sie mit pCOS Informationen aus PDF-Dokumenten abfragen und zur Indizierung und Suche benutzen.
- PDFlib PLOP (enthält zusätzlich zur pCOS-Programmierschnittstelle auch das pCOS-Kommandozeilenwerkzeug)
- PDFlib PLOP DS (enthält zusätzlich zur pCOS-Programmierschnittstelle auch das pCOS-Kommandozeilenwerkzeug)
Mit pCOS können Sie zahlreiche interessante Elemente auslesen und für verschiedene Verwendungszwecke auslesen. Da pCOS in einem einzigen Aufruf viele PDF-Dokumente verarbeiten kann, können Sie sehr einfach Übersichten über Dokument-Infofelder, Seitengrößen, Fonts und andere Eigenschaften erstellen. In Kombination mit tabellarischer Ausgabe erwächst daraus ein leistungsfähiges PDF-Verwaltungswerkzeug.
Für pCOS gibt es vielseitige Einsatzmöglichkeiten in PDF-Workflows. Sie können pCOS aber auch zur PDF-Fehlersuche oder zum Erlernen des Dateiformats verwenden, z.B.:
- eingehende Dokumente auf bestimmte Eigenschaften prüfen
- Problemfälle in umfangreichen Dokumentbeständen ermitteln
- Metadaten für Dokumentenmanagement zusammenfassen
- Qualitätskontrolle von Dokumenten vor der Veröffentlichung
- Workflows zur Speicherung und Bereitstellung von Dokumenten
- Lesezeichen zusammenfassen
- Komponenten von PDF-Dokumenten extrahieren, z.B. ICC-Profile
- PDFs auf Sicherheitsrisiken überprüfen (JavaScript usw.)
pCOS-Cookbook
Das pCOS-Cookbook ist eine Sammlung von Programmierbeispielen, die zeigen, wie sich pCOS zum Auslesen von PDF-Informationen nutzen lässt. Das Cookbook steht hier zur Verfügung und enthält Code, Eingabedokumente und pCOS-Ausgabe.
Funktionalität von pCOS
Abfragen von Informationen aus PDF-Dokumenten
Mit pCOS können Sie zahlreiche interessante Elemente auslesen, zum Beispiel:
- Dokument-Infofelder und XMP-Metadaten
- allgemeine Angaben: Status von Linearisierung und Tagged PDF, Verschlüsselungsinformationen und Berechtigungseinstellungen, Anzahl von Seiten und Fonts
- Fontinformationen mit Name, Einbettungsstatus usw.
- Rasterbildinformationen: Größe, Bittiefe, Farbraum, Kompression, XMP
- Details zu Farbräumen
- Verweisziele (URLs) und Koordinaten von Web-Links
- Lesezeichen mit Seitennummern, um ein Inhaltsverzeichnis zu erstellen
- Formularfelder: vollständiger Feldname, Inhalt, Position usw.
- Seitengröße, CropBox, Seitendrehung
- Status von ISO-Standards: PDF/A, PDF/E, PDF/UA, PDF/VCR, PDF/VT, PDF/X
- Geo-Referenzdaten
- Dateianhänge auflisten oder extrahieren
- Namen von Ebenen, symbolische Seitennamen, Artikel
- Details zu Anmerkungen
- Kommentare mit Namen des jeweiligen Bearbeiters
- Details zu digitalen Signaturen: Name des Signaturfelds, signiert/unsigniert, Name des Unterzeichners, PAdES
- ICC-Profile für Druckausgabebedingungen aus PDF/X- oder PDF/A-Dateien extrahieren
- Eigenschaften von Blöcken für PDFlib Personalization Server
- JavaScript auf Dokument-, Seiten-, Anmerkungs- und Feldebene
- XML-Rechnungsdaten aus ZUGFeRD-Dokumenten extrahieren
- Eigenschaften von PDF-Packages/-Portfolios
Unterstützte Eingabeformate
pCOS verarbeitet alle Varianten von PDF:
- alle PDF-Versionen bis hin zu Acrobat DC, also PDF 1.7 (ISO 32000-1) einschließlich Extension Level 8 sowie PDF 2.0 (ISO 32000-2)
- verschlüsselte Dokumente (ggf. ist das Kennwort erforderlich)
- beschädigte PDF-Eingabedokumente werden repariert
Ausgabeformate
pCOS erzeugt Ausgabe für verschiedene Zwecke:
- einfacher Text
- Unicode-Text in den Formaten UTF-8 und UTF-16
- tabellarische Ausgabe zur Weiterverarbeitung in einer Tabellenkalkulation oder Datenbank
- extraktion von Binärdaten, z.B. ICC-Profile oder Dateianhänge
- benutzerdefinierte Formate zur individuellen Weiterverarbeitung
pCOS-Pfade - einfache Syntax für PDF-Objekte
Mit der übersichtlichen pCOS-Pfadsyntax können Sie auf PDF-Objekte zugreifen, ohne sich in komplizierten Baumstrukturen, wie bei Lesezeichen oder Formularfeldern, zu verzetteln. Die pCOS-Pfadsyntax bietet praktische Abkürzungen, mit denen Sie auf häufig benötigte PDF-Objekte zugreifen können, etwa auf Seiten, Fonts, Lesezeichen oder Formularfelder.
pCOS als Programmierschnittstelle oder Kommandozeilenwerkzeug?
pCOS ist als Programmierschnittstelle für verschiedene Entwicklungsumgebungen sowie als Kommandozeilenwerkzeug für Batch-Verarbeitung verfügbar. Beachten Sie, dass das Kommandozeilenwerkzeug nur in den Produktpaketen von PDFlib PLOP und PLOP DS enthalten ist. Beide Ausführungen bieten den gleichen Funktionsumfang, eignen sich aber für unterschiedliche Einsatzbereiche.
Die pCOS-Programmierschnittstelle eignet sich...
...zur Integration in Desktop- oder Server-Anwendungen. Programmierbeispiele für alle unterstützten Sprachbindungen sind in den Produktpaketen enthalten. Viele weitere Beispiele finden Sie im pCOS-Cookbook.
Das pCOS-Kommandozeilenwerkzeug eignet sich...
...zur Batch-Verarbeitung von PDF-Dokumenten. Es erfordert keine Programmierung, sondern kann über leistungsfähige Kommandozeilen-Optionen gesteuert und damit in komplexe Arbeitsabläufe integriert werden. Das pCOS-Kommandozeilenwerkzeug ergänzt die Funktionen der Bibliothek um:
- einfache Abfrage typischer PDF-Elemente, z.B. Lesezeichen, Anmerkungen, Metadaten, Formularfelder usw.
- erweiterte Abfrage komplexer Objekte und Steuerung des Ausgabeformats
- Elemente wie z.B. Dateianhänge, ICC-Profile extrahieren
- Ausgabe der Informationen als CSV oder in benutzerdefiniertem Format zum Import in Tabellenkalkulation oder Datenbank
- Rekursion zur Erfassung verschachtelter Objekte, z.B. Dictionaries oder Arrays
Evaluierung
Alle Produkte, die die pCOS-Schnittstelle enthalten, sind zur Evaluierung verfügbar. Voll funktionsfähige Evaluierungsversionen mit Dokumentation und Beispielen sind im Download-Bereich unserer Webseite verfügbar.