Technische Konzepte

Technische Konzepte von PDF/A

Grundlegende PDF/A-Anforderungen

PDF/A erfordert bestimmte PDF-Features and verbietet andere:

  • Um die genaue visuelle Reproduzierbarkeit von Text zu gewährleisten, müssen alle in einem Dokument verwendeten Fonts eingebettet sein. Die einzige Ausnahme sind Fonts, die für unsichtbaren Text verwendet werden; diese müssen nicht eingebettet werden.
  • Um die genaue Farb-Reproduzierbarkeit zu gewährleisten, müssen alle in einem Dokument verwendeten Farben in einer geräteunabhängigen Art und Weise definiert sein.
  • Metadaten müssen im XMP-Format eingebettet sein. Die PDF/A-Komformitätsstufe muss mit bestimmten XMP-Properties beschrieben worden sein. Während PDF/A-1/2/3 strenge Anforderungen an benutzerdefinierte Metadateneigenschaften stellt, wurde dies in PDF/A-4 gelockert.
  • Verschlüsselung darf nicht verwendet werden, um sicherzustellen, dass auf Dokumentinhalte ohne jede Einschränkung immer zugegriffen werden kann.
  • Bestimmte Anforderungen an Anmerkungen und Formularfelder garantieren, dass die Visualisierung unverändert bleibt und dass Bildschirm- und Druckausgabe identisch sind.

Zusätzlich zu diesen einfachen Anforderungen erfordert PDF/A jedoch verschiedene andere PDF-Features (z.B. bestimmte Einträge in den Font-Datenstrukturen) und verbietet einige kritische Strukturen (z.B. bestimmte Kombinationen von TrueType-Fonts und -Encodings). Es gibt viele Aspekte, die umgesetzt und von Software-Entwicklern überprüft werden müssen, damit ein standardkonformes PDF/A-Produkt daraus entsteht, denn PDF/A ist viel mehr als einfach nur »PDF mit eingebetteten Fonts und ohne Verschlüsselung«!

Weitere Einschränkungen in PDF/A-1

PDF/A-1 leidet ein bisschen darunter, dass es der erste Standard in der PDF/A-Familie war: Die Norm wurde zu einer Zeit erstellt, als wichtige PDF-Konzepte noch nicht ausgereift waren. Als Ergebnis sind die folgenden Funktionen in PDF/A-1 verboten, aber in den neueren Teilen erlaubt:

  • Alle Funktionen, die PDF 1.5 oder höher erfordern, z.B. JPEG-2000-Kompression und Ebenen (optionale Inhalte).
  • Transparenz: Obwohl Transparenz in PDF 1.4 möglich ist, wurde es für die Archivierung zu der Zeit als ungeeignet angesehen, weil es keine konsistente Beschreibung und Umsetzung für Transparenz-Unterstützung gab. Da identisches Verhalten nicht für alle PDF-Viewer garantiert werden konnte, wurde Transparenz in PDF/A-1 generell untersagt. Erst nach der Veröffentlichung von PDF/A-1 wurde die genaue Semantik der PDF-Transparenz geklärt und in ISO 32000-1 standardisiert; spätere Standards erlauben daher von vornherein die Verwendung von Transparenz.
  • Dateianhänge waren in PDF/A-1 verboten, um alle Dokumentinhalte voll archivierbar zu machen.

Geräteunabhängige Farbspezifikation

Um eine konsistente Farbwiedergabe über Ausgabegeräte und Zeit hinweg sicherzustellen, verlangt PDF/A die Verwendung von geräteunabhängigen Farben. In der Regel wird dies über ICC-Profile oder CIE-Lab-Farbspezifikationen realisiert. Die optionale Ausgabebedingung beschreibt die Farbeigenschaften des Dokuments. Während diese Konzepte in der grafischen Industrie weit verbreitet sind, sind PDF-Entwickler in einem Unternehmen nicht unbedingt mit Farbmanagement vertraut und müssen sich erst mit ICC-Profilen und verwandten Konzepten beschäftigen.

Rasterbilder wie TIFF und JPEG spielen in der Dokumenterstellung eine entscheidende Rolle. Eingescannte Papierdokumente und Fotos aus Digitalkameras sind gängige Beispiele für Rasterbilddaten in Dokument-Workflows. In vielen Fällen sind Rasterbilddaten in modernen Arbeitsabläufen heute bereits geräteunabhängig, meist durch ein eingebettetes ICC-Farbprofil oder standardisierte Farbräume wie sRGB. Solche Bilder sind für den Einsatz in PDF/A bereits vorbereitet. Ältere Bilddaten sind dagegen in vielen Fällen geräteabhängig, wie Schwarzweiß- oder RGB-Scans ohne zugehöriges ICC-Profil.

XMP-Metadaten und Extension-Schemas

Extensible Metadata Platform (XMP) ist ein XML-basiertes Format, das auf Basis von RDF (Resource Description Framework) modelliert wurde, der Grundlage der semantischen Web-Initiative des W3C. Im Jahr 2012 wurde XMP als ISO 16684-1 standardisiert. PDF/A verlangt für die Speicherung von Informationen über ein Dokument die Verwendung von XMP Metadaten innerhalb der PDF-Datei. XMP bietet ein leistungsstarkes und flexibles Framework für die Speicherung von vor- und benutzerdefinierten Eigenschaften für Metadaten. (Siehe separates PDFlib Whitepaper zu XMP).

Die XMP-Spezifikation umfasst mehr als ein Dutzend vordefinierte Schemas mit Hunderten sogenannter Properties für gängige Dokument- und Bildeigenschaften. Das am weitesten verbreitete vordefinierte XMP-Schema heißt Dublin Core. Es beinhaltet Eigenschaften wie Titel, Autor, Thema und Beschreibung.

XMP ist seinem Wesen nach erweiterbar, d.h. unternehmens- oder branchenspezifische Anforderungen an Metadaten können durch die Erstellung benutzerdefinierter Schemas erfüllt werden. PDF/A unterstützt dieses Konzept. Für eine automatisierte Abfrage verlangt PDF/A jedoch, dass zusätzlich eine maschinenlesbare Beschreibung der benutzerdefinierten Metadaten in das Dokument eingebettet ist. Dies wird durch eine »XMP-Extension-Schema-Beschreibung« erreicht: ein standardisierter Teil der XMP-Metadaten beschreibt den Aufbau der benutzerdefinierten Properties der XMP Metadaten.

Metadaten in PDF/A-4

Das mit PDF/A-1 eingeführte verworrene Konzept der XMP-Extension-Schemas fand bei Entwicklern und Anwendern nicht wirklich Anklang. Die Industrie musste mehrere Jahre lang darum kämpfen, die im Standardtext fehlenden Details über die Verarbeitung von Extension-Schemas herauszuarbeiten. Dies führte zu Frustration, da es einerseits schwierig war, PDF/A korrekt um benutzerdefinierte Metadaten-Properties zu ergänzen, und andererseits lösten Anwendungen, die keine benutzerdefinierten Properties verwendeten, dennoch XMP-bezogene Fehler in PDF/A-Validierern aus. PDF/A-4 beseitigt diese Probleme auf radikale Weise, indem es die Beschreibungen des XMP-Extension-Schemas vollständig abschafft. Sie werden durch eine maschinenlesbare Schemabeschreibung nach dem Relax NG-Standard ersetzt, der 2014 als ISO 16684-2 veröffentlicht wurde. Im Gegensatz zu den erforderlichen Extension-Schemas in PDF/A-1/2/3 sind Schemabeschreibungen in PDF/A-4 jedoch optional.

Eine weitere Problemquelle war die Anforderung, XMP-Metadaten mit den Dokument-Infofeldern zu synchronisieren. Dieser so genannte Crosswalk war in der ersten veröffentlichten Version von PDF/A-1 unterspezifiziert und in einigen Details sogar falsch. Da PDF 2.0, die Basis von PDF/A-4, die Dokument-Infofelder fast vollständig abschafft, erfordert PDF/A-4 keinen Metadatenabgleich mehr.

PDF/A-1/2/3-Konformität zu Level A: Tagged PDF

PDF/A-1a, PDF/A-2a und PDF/A-3a erfordern Tagged PDF. Während einfaches PDF lediglich den sichtbaren Inhalt auf einer Seite wiedergibt, muss für Tagged PDF die logische Dokumentstruktur innerhalb der Struktur-Hierarchie gespeichert werden. Tagged PDF bietet vordefinierte Strukturelement-Typen für die üblichen Teile eines Dokuments wie Überschriften, Tabellen und Listen. Sogenannte markierte Inhaltselemente können als Äquivalent des getaggten Inhalts in Markup-Sprachen betrachtet werden. Sie beziehen sich auf Elemente in diesem Strukturbaum. Ähnlich wie HTML und XML unterstützt Tagged PDF Attribute für Strukturelemente. Zum Beispiel können Tabellenelemente Attribute für die Eigenschaften von Zeilen- oder Spaltenbreite einer Tabellenzelle tragen.

Die Konformität zu Level A erfordert auch, dass für den gesamten Text im Dokument Unicode-Semantik zur Verfügung steht und dass logische Wörter durch Leerzeichen getrennt sind.

PDF/UA-1 (Universal Accessibility, Barrierefreiheit oder Zugänglichkeit) ist ein neuer Standard, der viele Aspekte von Tagged PDF klärt. Er wurde im Jahr 2012 als ISO 14289 veröffentlicht. Obwohl es keine direkte Beziehung zwischen beiden Normen gibt, kann ein PDF/A-Dokument gleichzeitig konform zu einem PDF/UA-Dokument sein. Wir empfehlen sogar, die PDF/UA-Anforderungen einzuhalten, wenn Sie PDF/A mit Konformitätsstufe A erstellen möchten, um die Zugänglichkeit zu verbessern. Weitere Informationen hierzu können Sie unserem Whitepaper zu PDF/UA entnehmen.

PDF/A-4 gibt die Konformitätsstufe A auf und erwähnt lediglich die Vorteile von Tagged PDF für die Wiederherstellung von Inhalten. Der Standard verweist auf PDF/UA für weitere Anleitungen, d.h. die obige Empfehlung ist nun im Standard enthalten.

PDF/A-2/3-Konformität zu Level U: Unicode-Anforderungen

PDF/A-2 und PDF/A-3 bieten neben der Konformität zu Level A und B auch die Konformität zu Level U. Level U verlangt korrekte Unicode-Semantik für den gesamten Text im Dokument, jedoch kein Tagged PDF. Diese Anforderung rührt daher, dass PDF eine Vielzahl von Font- und Encoding-Techniken unterstützt, die nicht alle Unicode-fähig sind. Zum Beispiel unterstützt PDF die in den 1980er Jahren eingeführten PostScript-Type-1-Fonts, während das Unicode-Konsortium seine Arbeit erst im Jahr 1991 aufnahm. Für Level A und U müssen zusätzliche Unicode-Werte für alle Zeichen von solchen Fonts enthalten sein, die diese Angaben nicht schon intern enthalten. Aber nicht alle Unicode-Werte sind akzeptabel: Werte in der Private Use Area (PUA) sind nicht erlaubt, da sie keine allgemeingültige Interpretation (Semantik) haben.

Symbolfonts wie Fonts mit Logos oder Piktogrammen sind ein wichtiger Anwendungsbereich dieser PDF/A-Anforderung. Da standardisierte Unicode-Werte für benutzerdefinierte symbolische Glyphen nicht verfügbar sind, muss geeignete Unicode-Semantik in einem als »ActualText« markierten Inhaltsattribut für den Text übergeben werden. Obwohl dieses Attribut üblicherweise nur in Tagged PDF verwendet wird, kann es auch in Dokumenten ohne Tags hinterlegt werden - genau das verlangt die Konformität zu Level U. »ActualText« kann einer einzelnen Glyphe oder einer Folge von mehreren Glyphen zugeordnet werden. Es kann aus einer beliebigen Unicode-Zeichenfolge bestehen.

PDF/A-4 eliminiert die Level-U-Konformität, empfiehlt aber Level-U-Unicode-Eigenschaften für alle Dokumente. Dies ist jedoch keine strikte Anforderung.

Anmerkungen und PDF/A-4 Konformitätslevel E

PDF unterstützt eine Vielzahl von Anmerkungen (Annotations) und Kommentaren, die Dokumente bereichern. Einige Arten von Anmerkungen sind in PDF/A verboten; erlaubte Anmerkungen müssen verschiedene Regeln einhalten.

In PDF/A-1 sind Sound- und Movie-Anmerkungen nicht erlaubt, da "die Unterstützung von Multimedia-Inhalten außerhalb des Anwendungsbereichs" des Standards liegt. Im gleichen Sinne verbieten PDF/A-2 und PDF/A-3 die neueren Annotationsarten 3D und Screen. PDF/A-4 verbietet Sound-, Screen- und Movie-Anmerkungen.

Darüber hinaus führt PDF/A-4 die Konformitätsstufe E ein. Sie kann als Nachfolger des PDF/E-Standards für PDF im Engineering-Bereich betrachtet werden, der keine breite Akzeptanz fand. PDF/A-4e erlaubt 3D- und Rich-Media-Anmerkungen zur Unterstützung interaktiver Anwendungen. In Bezug auf 3D-Daten empfiehlt der Standard RichMedia-Annotationen anstelle von 3D-Annotationen.

Eine weitere neue Bedingung in PDF/A-4, die auf PDF 2.0 zurückgeht, ist die Anforderung, dass die Darstellungen von Anmerkungen (annotation appearances) im Dokument enthalten sein müssen. Diese beschreiben die grafische Darstellung einer Instanz.

Das Appearance-Dictionary kann zwar eine Beschreibung der visuellen Darstellung (wie Rahmenstil, Farbe, Font usw.) enthalten, diese ist jedoch optional. Fehlt sie, ist es Aufgabe des PDF-Viewers, die visuelle Darstellung aus der Beschreibung zu erstellen, und nicht standardisiert. Um eine zuverlässige Darstellung von Anmerkungen zu gewährleisten, muss die PDF-Erstellungssoftware die visuelle Darstellung des Erscheinungsbildes aller Anmerkungstypen außer Popup und Link enthalten.

Ein Annotation-Dictionary enthält individuelle grafische Eigenschaften wie Rahmenstil, Farbe, Font usw. für seine grafische Darstellung. Optional kann eine vollständige Beschreibung des gesamten grafischen Erscheinungsbildes der Anmerkung (sog. "appearance stream") vorhanden sein. In diesem Fall wird die Anmerkung in allen PDF-Viewern identisch dargestellt. Fehlt jedoch die Annotation Appearance, muss der Betrachter es aus den grafischen Eigenschaften rekonstruieren. Da dieser Prozess nicht standardisiert ist, variiert das visuelle Ergebnis zwischen den PDF-Betrachtern.
Um solche Anzeigeunterschiede zu vermeiden, verlangt PDF/A-4 das Vorhandensein von Appearance-Streams der Annotation für alle Annotationstypen außer Popup und Link.

Dateianhänge und PDF/A-4 Konformitätslevel F

Anhänge können in ein PDF-Dokument auf Dokumentenebene oder auf einer Seite mit Hilfe von FileAttachment-Anmerkungen eingebettet werden. Die Regeln für eingebettete Dateien unterscheiden sich erheblich zwischen den PDF/A-Teilen:

  • PDF/A-1 verbietet Anhänge vollständig.
  • PDF/A-2 erlaubt Anhänge, aber die eingebetteten Dokumente müssen PDF/A-1 oder PDF/A-2 entsprechen.
  • PDF/A-3 erlaubt Anhänge mit beliebigem Inhaltstyp.
  • PDF/A-4 erlaubt Anhänge, die zu PDF/A-1, PDF/A-2 oder PDF/A-4 konform sind. Außerdem wird eine eigene Konformitätsstufe F eingeführt, die beliebige Inhaltstypen zulässt.

Digitale Signaturen

Digitale Signaturen in PDF-Dokumenten können verwendet werden, um die Integrität des Dokuments zu prüfen, die Person zu authentifizieren, die die Signatur erstellt hat, und das Datum und die Uhrzeit der Signatur zu bestimmen. Digitale Signaturen sind Bestandteil von PDF 1.4 und werden in PDF/A zugelassen. Mehrere Dokumentensignaturen unter Verwendung der PDF-Funktion zur inkrementellen Aktualisierung sind ebenfalls zulässig. Allerdings müssen die Signaturen bestimmte Anforderungen für PDF/A erfüllen:

  • Wenn die Signatur ein visuelles Erscheinungsbild hat (z.B. ein Bild oder eine textuelle Darstellung des Namens des Unterzeichners), muss dieses Erscheinungsbild die gleichen PDF/A-Anforderungen erfüllen wie andere Dokumentteile (geräteunabhängige Farbe, eingebettete Fonts, etc.).
  • PDF/A-2 und PDF/A-3 enthalten zusätzliche Anforderungen an die technischen Details der Signatur. Der Standard empfiehlt außerdem, Zeitstempel und Informationen zum Widerruf von Zertifikaten in die Signatur aufzunehmen.
  • PDF/A-4 erlaubt eine Zertifizierungssignatur, eine oder mehrere Genehmigungssignaturen und eine oder mehrere Zeitstempelsignaturen. Alle Signaturen müssen konform zu einem bestimmten PAdES-Profil sein.