Kostenfreie PDF-Konverter – wie gut erstellen sie PDF/UA Dokumente aus Word-Dokumenten?

Eine exemplarische Analyse des CIB pdf brewers

Autorin: Birgit Peböck, Barrierefrei PDF OG, Co-Chair der LWG Working Group der PDF Association, eine internationale Arbeitsgruppe, die PDF-Techniken für PDF/UA und WCAG erarbeitet

Diese Frage nach kostenfreien Konvertern wird oft bei Schulungen an mich herangetragen. Vor allem der Konverter CIB pdf brewer wird immer wieder angefragt.
Es stellt sich natürlich dabei die Frage: Warum soll ich für ein Tool bezahlen, wenn ich das gleiche Ergebnis mit einem kostenlosen Werkzeug erhalten kann? Aber erhalte ich wirklich das gleiche Ergebnis?

Das hat mich veranlasst, mit einer Auswahl an typischen Testfällen eine Analyse des CIB pdf brewers im Hinblick auf die Barrierefreiheit der erzeugten PDF-Dokumente zu erstellen. Weitere Funktionen, die vom CIB pdf brewer zur Verfügung gestellt werden, bleiben hier unberücksichtigt.

Zusammenfassung der Ergebnisse

Bei oberflächlicher Betrachtung liefert der CIB pdf brewer ein barrierefreies PDF Dokument. Einer genauen Analyse hält er jedoch nicht stand.

Die typischen Fehler, die durch reine Word Konvertierung entstehen, werden mit dem CIB pdf brewer gefixt.
Die Konvertierung fokussiert auf die maschinenprüfbaren Kriterien, sodass die Prüfung mit dem PAC 2021 „lauter grüne Haken“ produziert. Viele vom Menschen zu prüfende Kriterien des PDF/UA Standard werden nicht erfüllt, vor allem dann, wenn die Dokument-Inhalte komplexer werden. Dadurch entsteht ein immenser zeitlicher Mehraufwand durch nachträgliches Bearbeiten im PDF.

Der CIB pdf brewer liefert NICHT die Qualität, die wir von kostenpflichtigen Werkzeugen kennen.

1 Grundlagen

Für die Analyse habe ich folgende Ressourcen zugrunde gelegt (Stand Jänner 2023):

  • PDF/UA Standard:
    Derzeit gültig ist der PDF/UA Standard ISO 14289-1. Der PDF/UA Standard ist weltweit gültig und muss erfüllt sein, damit ein PDF-Dokument als barrierefrei bezeichnet werden kann.
  • Matterhorn Protokoll
    Das Matterhorn Protokoll definiert eine Reihe präziser Fehlerbedingungen für den PDF/UA Standard und unterscheidet dabei zwischen maschinenprüfbaren und vom Menschen zu prüfenden Kriterien.
  • PDF-Techniken der PDF Association
    Eine Liaison Working Group (LWG) der PDF Association beschäftigt sich mit korrekten PDF-Techniken für PDF/UA konforme Dokumente. Die PDF-Techniken beschreiben im Detail wann die PDF/UA Kriterien erfüllt (Pass) oder nicht erfüllt (Fail) sind. In dieser Analyse werden besonders die PDF/UA Fundamentals referenziert. Das sind Kriterien, die für jedes PDF/UA konforme Dokument gelten, ganz egal, welche Inhalte sich darin finden:
    Fundamental 1: Technischen Grundregeln sind befolgt, es ist ein valides PDF
    Fundamental 2: Textinhalte sind maschinenlesbar
    Fundamental 3: Echte Inhalte und Artefakte werden unterschieden
    Fundamental 4: Logische Reihenfolge des Inhalts ist gewährleistet
    Fundamental 5: Tags sind semantisch korrekt
  • PDF Accessibility Checker 2021 (PAC 2021) als Prüfwerkzeug

2 Überblick über die Erfüllung der Fundamentals in den Testfällen

Testfall Fundamental 1 Fundamental 2 Fundamental 3 Fundamental 4 Fundamental 5
Überschriften Erfüllt Erfüllt Erfüllt Erfüllt Erfüllt
Absätze Erfüllt Erfüllt Erfüllt Erfüllt Erfüllt
Verzeichnisse Erfüllt Erfüllt Erfüllt Erfüllt Erfüllt
Fußnoten Nicht erfüllt Erfüllt Erfüllt Nicht erfüllt Nicht erfüllt
Listen Erfüllt Erfüllt Erfüllt Erfüllt Nicht erfüllt
Kopf- und Fußzeilen Erfüllt Erfüllt Nicht erfüllt Erfüllt Nicht erfüllt
Bilder Erfüllt Erfüllt Erfüllt Erfüllt Erfüllt
Diagramme Nicht erfüllt – Syntax Fehler verhindert Zugriff ab der Stelle des Auftretens
Bildbeschriftung Erfüllt Erfüllt Erfüllt Erfüllt Nicht erfüllt
Einfache Tabellen Erfüllt Erfüllt Erfüllt Erfüllt Nicht erfüllt
Komplexe Tabellen Erfüllt Erfüllt Erfüllt Erfüllt Nicht erfüllt

3 Testfälle

3.1 Überschriften

Überschriftenhierarchien werden korrekt umgesetzt.

3.2 Absätze

Solang das Dokument nur aus Absätzen besteht, wird der Tag-Baum korrekt erstellt, auch bei Absätzen, die über mehrere Seiten reichen.

3.3 Verzeichnisse

Verzeichnisse werden korrekt konvertiert, sofern sie in Word mit der dafür vorgesehenen Funktion erstellt werden.

3.4 Fußnoten

Neben der Warnung im PAC 2021 aufgrund des nicht korrekten Placements gibt es weitere Probleme. Die Fußnoten im Text können von Assistierenden Technologien nicht als solche erkannt werden, da sie wie eine normale Zahl im Absatz behandelt werden. Der Fußnotentext aller Fußnoten einer Seite wird in einem Note-Tag zusammengefasst, auch wenn es mehrere Fußnoten sind. Dieser Note-Tag wird nach der ersten Fußnote im Tag-Baum platziert. Somit ist der Hauptlesefluss immer mit dem Note-Tag unterbrochen und die Lesereihenfolge für den Fußnotentext für die zweite Fußnote nicht mehr korrekt. Siehe Abbildung 1 und Abbildung 2 oder beigefügtes Dokument „Test Fußnoten.pdf“

Screenreader-Vorschau PAC 2021 mit Markierung der vorher beschriebenen Probleme

Abbildung 1: Screenshot aus PAC 2021 Fußnotentest

Screenshot des PDF-Dokuments geöffnet in Acrobat

Abbildung 2: Screenshot des dazugehörigen PDF-Dokuments

3.5 Listen

Die Schachtelung von Listen wird korrekt umgesetzt.

Die Listenelemente werden inklusive Aufzählungszeichen oder -zahl in einen LBody-Tag konvertiert. Somit erscheint die Aufzählung als Teil des Listeneintrags (siehe Abbildung 3). Das kann bei Screenreadern zu Missverständnissen bei der Interpretation der Listeneinträge führen.

Sobald sich die Liste über mehrere Seiten erstreckt, wird auf der neu beginnenden Seite im Tag-Baum eine neue Liste begonnen. Für Assistierende Technologien erscheint die semantisch zusammengehörige Liste als zwei getrennte Listen (siehe Abbildung 3).

Screenreader-Vorschau aus PAC 2021 mit CIB konvertierte nummerierte Liste über zwei Seiten

Abbildung 3: Screenshot aus PAC 2021 einer nummerierten Liste mit CIB pdf brewer konvertiert

3.6 Kopf- und Fußzeilen

Kopf- und Fußzeilen werden beim Konvertieren immer artefaktet. Es gibt keine Möglichkeit, das vor der Konvertierung zu steuern. Falls sich wichtiger Inhalt in Kopf- oder Fußzeile befindet und sonst nirgends im Dokument vorkommt, geht dieser für Assistierende Technologien bei der Konvertierung verloren.

3.7 Bilder und Diagramme

Bilder, die mit der Layout-Option „Mit Text in Zeile“ eingefügt sind, werden korrekt in den Tag-Baum konvertiert.

Bilder, die mit anderen Layout-Optionen eingefügt werden, werden korrekt nach dem Absatz eingefügt, bei dem sie verankert sind.

Alternativtext wird korrekt konvertiert.

Diagramme, die mit der Layout-Option „Ursprüngliche Formatierung beibehalten und Arbeitsmappe einbetten“ aus Excel eingefügt werden, erzeugen einen Syntax-Fehler.

Die dazugehörige Bildbeschriftung wird in einen P-Tag konvertiert. Der semantisch korrekte Tag wäre ein Caption-Tag.

3.8 Tabellen

3.8.1 Einfache Tabellen

Alle Zellen der Tabelle werden als Datenzellen (TD – TableData) ausgegeben. Für Assistierende Technologien ist es nicht möglich, Überschriftenzellen (TH – TableHeader) zu identifizieren. Damit gibt es auch keine Verbindung zwischen Überschriften- und Datenzellen.

Wenn bei den Tabellenformatoptionen die Checkbox „Kopfzeile“ und Checkbox „Erste Spalte“ aktiviert sind, dann konvertiert Word die Überschriftenzellen korrekt mit einem TH-Tag. Das dabei entstehende Problem der nicht vorhandenen Verbindung zwischen Überschriftenzellen und dazugehörigen Datenzellen (Scope) wird von PAC als Fehler gemeldet. Es besteht der Verdacht, dass der CIB pdf brewer dieser Fehlermeldung entgehen wollte und deswegen alle Zellen als TD konvertiert werden. Damit gibt PAC bei der Prüfung der maschinenprüfbaren Kriterien keine Fehlermeldung mehr aus. Der Fehler wird nur durch eine händische Prüfung erkennbar. Siehe Abbildung 4 und beigefügtes Dokument „Test Tabellen.pdf“

3.8.2 Komplexe Tabellen

RowSpan und ColSpan werden bei verbundenen Zellen korrekt gesetzt. Die Tabelle bleibt regulär. Wie aber bereits bei der einfachen Tabelle, werden auch hier alle Überschriftenzellen mit TD konvertiert. Siehe Abbildung 4 und beigefügtes Dokument „Test Tabellen.pdf“

Screenreader-Vorschau PAC 2021 mit einfacher und komplexer Tabelle

Abbildung 4: Screenshot aus PAC 2021; einfache und komplexe Tabelle mit CIB pdf brewer konvertiert

4 Konfigurierbarkeit und User Interface

Der CIB pdf brewer ist leider nicht konfigurierbar. Sonderelemente wie Formeln, Blockzitate oder Definitionslisten für Glossare bzw. Abkürzungsverzeichnisse sind nicht vorhanden. Werden Tabellen zum Layoutieren verwendet, gibt es keine Möglichkeit, diese als Layout-Tabellen zu markieren. Sie werden somit immer als Tabellen in das PDF-Dokument konvertiert. Es wird außerhalb der angebotenen Funktion in Word, keine Möglichkeit angeboten, Elemente zu artefakten.

Es gibt keine Aussage über die Barrierefreiheit des User Interfaces. Eine Selbsterklärung zur Einhaltung der Barrierefreiheitsanforderungen für Desktop Anwendungen oder ein entsprechendes Gutachten ist nicht auffindbar. (Stand Jänner 2023)