Grundsätze von Tagged PDF

Grundsätze von Tagged PDF

Werfen wir zunächst einen Blick auf Tagged PDF, da PDF/UA darauf basiert. Während PDF ursprünglich darauf ausgerichtet war, das visuelle Erscheinungsbild eines Dokuments zuverlässig zu erhalten, sind Informationen über die Dokumentstruktur nicht unbedingt enthalten. Zum Beispiel können Überschriften in Großbuchstaben oder fett gedruckt sein, aber es fehlt in einfachen PDF-Dokumenten ein expliziter Marker für »Überschrift«. Ähnlich wie bei XML-basierten Markup-Sprachen können die Inhalte im Tagged PDF »markiert« und in einer strukturellen Dokumenthierarchie organisiert werden. Jedem inhaltlich relevanten Element ist eine bestimmte Stelle in dieser Hierarchie zugewiesen. Inhaltlich nicht relevante Elemente (z.B. Seitenzahlen) werden als Artifacts ausgezeichnet.

Die logische Struktur in einem Tagged PDF wird von einer Hierarchie der Elemente beschrieben, der sogenannten Strukturhierarchie (auch logische Struktur oder Tag-Baum). Ausgehend von der obersten Ebene (Root, oft auch als Element Document bezeichnet), besteht die Strukturhierarchie aus einer beliebigen Anzahl von Ebenen. Auf jeder dieser Ebenen kann ein Element null oder mehrere der folgenden Objekttypen enthalten:

  • Weitere Strukturelemente; das Element Document kann zum Beispiel mehrere Elemente vom Typ Article enthalten und jedes Element Article wiederum beliebig viele Elemente vom Typ P (Paragraph, Absatz).
  • Seiteninhalt wie markierter Text und Grafiken auf einer Seite, aus importierten Bildern oder PDF-Seiten erzeugte XObjects, Anmerkungen und Formularfelder. Diese Objekte repräsentieren den zu einem Strukturelement gehörenden Inhalt.

Tagged PDF löst den potenziellen Konflikt zwischen der Reihenfolge der Content-Erstellung und der logischen Lesereihenfolge: der Inhalt einer PDF-Seite kann in beliebiger Reihenfolge erstellt werden, aber das Lesen des Textes in dieser ursprünglichen Reihenfolge entspricht nicht unbedingt der logischen Reihenfolge der Seiteninhalte. Im Gegensatz dazu ordnet der Strukturbaum Seiteninhalte nach ihrer logischen Reihenfolge, d.h. in der Reihenfolge, in der ein Mensch erwarten würde, sie zu lesen.