Anforderungen

PDF/UA-1-Anforderungen an das Dateiformat

PDF/UA-1 basiert auf der ISO-Norm 32000-1 (PDF 1.7). PDF/UA fügt keine neuen Features hinzu, aber einige in PDF 1.7 noch optionale Aspekte sind bei PDF/UA-1 verbindlich vorgeschrieben. Die folgenden Voraussetzungen müssen in allen PDF/UA-1-Dokumenten erfüllt sein:

  • Das Dokument muss getagged sein. Während PDF 1.7 Anforderungen in Bezug auf die Verschachtelung und die Beziehung der verschiedenen Strukturelement-Typen stellt, erweitert und verfeinert PDF/UA-1 diese Regeln (siehe unten für Details).
  • Alle im Dokument verwendeten Fonts müssen eingebettet sein (außer den Fonts für unsichtbaren Text wie OCR-Ergebnisse).
  • Bestimmte Optionen für Ebenen sind nicht erlaubt.
  • Externe Inhalte sind nicht erlaubt (referenzierte XObjects wie bei PDF/X-5 vorgeschrieben).
  • Der Dokumenttitel muss in den Metadaten des Dok

Semantische Anforderungen

Bei der Erzeugung der Strukturhierarchie für PDF/UA müssen die folgenden semantischen Aspekte berücksichtigt werden:

  • Beim Tagging müssen die zur Dokumentstruktur passenden Strukturelemente verwendet werden: Eine Überschrift muss als solche ausgezeichnet werden. Eine Tabelle muss als Tabelle ausgezeichnet werden. Eine Liste muss als Liste ausgezeichnet werden.
  • Semantisch nicht relevante Inhalte dürfen nicht in die Dokumenthierarchie aufgenommen, sondern müssen als Artifacts gekennzeichnet werden. Typische Beispiele sind hier laufende Kopf-/Fußzeilen, Seitenzahlen und Hintergrundbilder.
  • Strukturelemente müssen in der logischen Lesereihenfolge angeordnet sein.
  • Wenn Informationen aufgrund von Farbe, Format oder Layout nicht anders zugänglich sind, muss der Inhalt entsprechend ausgezeichnet sein.
  • Text in einer Grafik verlangt das Attribut Alt und eine Erklärung, falls der Text keine natürliche Sprache ist (z.B. bei Font- oder Skript-Beispielen).
  • Für Bilder muss ein Alternativtext vorliegen; Bildunterschriften müssen mit dem Tag Caption versehen sein.
  • Für Links muss das zugehörige Element Link hinterlegt sein.
  • Für logisch zusammenhängende Gruppen von Grafikelementen darf nur ein einziges Tag Figure vergeben werden.
  • Fußnoten, Endnoten, Labels für Anmerkungen sowie Verweise auf Stellen im Dokument müssen entsprechend als Note oder Reference ausgezeichnet sein.

Die oben beschriebenen semantischen Voraussetzungen erschweren die automatische Konvertierung nicht getaggter PDF-Dokumente in konformes PDF/UA oder machen sie sogar unmöglich. Genauso wenig wird die Anwendung von OCR-Verfahren auf gescannte Dokumente ohne menschliche Intervention zu voll konformem PDF/UA führen. Zum Beispiel können alternative Texte für Bilder nicht automatisch hergeleitet werden.

Anforderungen an spezifische Tags

Alle in PDF 1.7 definierten Standard-Tags können in PDF/UA-1 verwendet werden. Bei der Verwendung anderer Tags muss eine Zuordnung solcher benutzerdefinierten Tags auf die Standard-Tags in der Datenstruktur Rolemap des Dokuments hinterlegt werden. Für bestimmte Standard-Elementtypen müssen verschiedene Regeln eingehalten werden:

  • Das Element Figure für Bilder und Grafiken, die keine Artefakte sind, verlangt das Attribut Alt oder ActualText.
  • Für logische Tabellen müssen Elemente vom Typ Table erzeugt werden. Für Tabellen, die nur zu Layoutzwecken erstellt wurden, dürfen diese Elemente jedoch nicht benutzt werden. Tabellen-Tags müssen korrekt verschachtelt sein, das Tag Table muss zum Beispiel Tabellenzeilen vom Typ TR enthalten, die aus Kopfzellen TH oder Datenzellen TD bestehen. Für Kopfzeilen-Elemente TH wird das Attribut Scope verlangt.
  • Tags für Überschriften müssen korrekt verschachtelt sein. Bei der Verwendung von Tags für nummerierte Überschriften (H1, H2, ...) müssen diese korrekt verschachtelt werden (d.h. es darf keine Ebene übersprungen werden). Bei der Verwendung von Tags für unnummerierte Überschriften (sogenannte streng strukturierte Dokumente) muss das Tag H verwendet werden, aber nicht mehr als einmal innerhalb eines Knotens im Strukturbaum. Überschriftenelemente dürfen keine Unterelemente haben.
  • Das Listenelement vom Typ L verlangt das Attribut ListNumbering, das das in der Liste verwendete Nummerierungssystem angibt, z.B. Disc für einen Kreis anstelle von Nummern, Decimal oder Upper-Roman.

Anforderungen an bestimmte Inhaltatypen

Die folgenden Voraussetzungen müssen für verschiedene Typen von PDF-Inhalten erfüllt sein:

  • Die natürliche Sprache eines Textes muss deklariert sein, entweder für das gesamte Dokument über das Dokumentinfo-Element Lang oder für einzelne Strukturelemente über das Attribut Lang. Unsichtbarer Text muss als Artifact ausgezeichnet sein, es sei denn es gibt eine dargestellte Entsprechung (zum Beispiel ein gescanntes Bild).
  • Vektorgrafiken und Rasterbilder müssen als Figure oder Artifact ausgezeichnet sein.
  • Anmerkungen und Formularfelder müssen im Strukturbaum enthalten sein und verlangen bestimmte Flags, um die Zugänglichkeit zu gewährleisten.

Unicode-Anforderungen

PDF/UA verlangt korrekte Unicode-Semantik für den gesamten Text im Dokument. Diese Anforderung rührt daher, dass PDF eine Vielzahl von Font- und Encoding-Techniken unterstützt, die nicht alle Unicode-fähig sind. Zum Beispiel unterstützt PDF die in den 1980er Jahren eingeführten PostScript-Type-1-Fonts, während das Unicode-Konsortium seine Arbeit erst im Jahr 1991 aufnahm. Für die PDF/UA-Konformität müssen zusätzliche Unicode-Werte für alle Zeichen von solchen Fonts enthalten sein, die diese Angaben nicht schon intern enthalten. Aber nicht alle Unicode-Werte sind akzeptabel: Werte in der Private Use Area (PUA) sind nicht erlaubt, da sie keine allgemeingültige Interpretation (Semantik) haben.

Symbolfonts wie Fonts mit Logos oder Piktogrammen sind ein wichtiger Bereich dieser PDF/UA-Anforderung. Da standardisierte Unicode-Werte für benutzerdefinierte symbolische Glyphen nicht verfügbar sind, muss geeignete Unicode-Semantik im Attribut ActualText übergeben werden. ActualText kann einer einzelnen Glyphe oder einer Folge von mehreren Glyphen zugeordnet werden und aus einer beliebigen Unicode-Zeichenfolge bestehen.

Als Beispiel nehmen wir Code 0x1A aus dem gängigen Font Wingdings. Dieses Zeichen zeigt das Bild einer Computer-Tastatur mit dem Glyphnamen keyboard und dem Unicode-Wert U+F037, der in PDF/UA-1 nicht akzeptiert wird. Der Glyphname könnte für die Erzeugung eines passenden ActualText verwendet werden, so zum Beispiel »Symbol für Keyboard«. Anzumerken ist, dass das programmatische Erzeugen von ActualText eine Notlösung bleibt; von einem menschlichen Betrachter ausgewählte Texte sind maschinengeneriertem ActualText immer vorzuziehen.

Weitere Empfehlungen

Obwohl in PDF/UA-1 nicht explizit vorgeschrieben, werden folgende Elemente empfohlen:

  • Zur besseren Navigation sind Lesezeichen zu empfehlen. Sie sollten die Lesereihenfolge und die Verschachtelung des Inhalts korrekt wiedergeben.
  • Tabellen sollten mit Kopfzeilen versehen sein.
  • Der Inhalt von Dateianhängen sollte selbst auch zugänglich sein.
  • Wenn vorhanden, sollten Seiten-Labels korrekt verwendet werden (z.B. römische Seitenzahlen).

PDF/UA und PDF/A

Die Archivierungsstandards PDF/A-1a, PDF/A-2a und PDF/A-3a erfordern den Einsatz von Tagged PDF. Obwohl es keine direkte Beziehung zwischen PDF/A-1a/2a/3a und PDF/UA-1 gibt, kann ein Dokument zugleich beiden Standards entsprechen. Wir empfehlen sogar, die PDF/UA-1-Anforderungen einzuhalten, wenn Sie PDF/A mit Kompatibilitätsstufe A erstellen möchten, um die Zugänglichkeit zu verbessern. Weitere Informationen hierzu finden Sie auf unseren PDF/A Webseiten.

Wir empfehlen statt PDF/A-1a die neueren Standards PDF/A-2a oder PDF/A-3a zu verwenden, denn zwischen PDF/UA-1 und PDF/A-1a besteht ein gewisser Konflikt: PDF/UA-1 erfordert den Eintrag Tabs für Seiten mit Anmerkungen. Dieser Schlüssel gibt die Tab-Reihenfolge für die Anmerkungen auf der Seite
an und erfordert die Angabe der »Strukturreihenfolge«. Allerdings ist dieser Schlüssel in PDF 1.4 nicht verfügbar und kann daher nicht in kombinierten PDF/A-1a- und PDF/UA-1-Dokumenten verwendet werden.