Standardformate

Bildformate

Als Basis- bzw. Ausgangsformat sowie zur Archivierung wird meist das Bildformat TIFF   benutzt, wie es zum Beispiel auch die Deutsche Forschungsgemeinschaft in den DFG Praxisregeln Digitalisierung empfiehlt. Hier finden sich auch die Spezifikationen für die empfohlene Auflösung und Farbtiefe der Dateien.

Alternativ kommt teilweise auch PNG zum Einsatz, das sich – im Gegensatz zu TIFF, das noch in Vor-Internet Zeiten entstand – auch direkt im Browser anzeigen laesst.

Handelt es sich nicht um mit einem Flachbettscanner erzeugte Scans sondern um Aufnahmen, die mit Digitalkameras erzeugt wurden, so ist das Ausgangsformat zumeist ein produktspezifisches sog. RAW-Format: etwa CR2 fuer Canon, NEF fuer Nikon, etc. Ein Kopieren bzw. Umwandeln in das produkt-neutrale Format DNG kann in diesen Faellen nuetzlich sein, und zugleich zur Archivierung benutzt werden.

Die Formate JPEG, sowie seltener auch PNG – und zukuenftig eventuell auch WebP -, werden hingegen meist nur für die Präsentation im Browser benutzt.

TEI und METS/MODS

Für die Auszeichnung der Transkription, d.i. die  Abschrift eines Werks, sowie für die Erstellung des Inhaltsverzeichnisses gibt es zwei einschlägige Standards: METS/MODS (betreut durch die Library of Congress) und TEI (Text Encoding Initiative). Beide XML-Formate sind durch Schemata  (DTD bzw. RelaxNG) kontrollierbar und werden sowohl aktiv weiterentwickelt als auch umfassend durch die betreuenden Einrichtungen dokumentiert.

Beide können den prinzipiellen Zusammenhang zwischen physischer Struktur (Buchseiten bzw. deren Scans) und semantischer Textstruktur (Vorwort, Teile, Kapitel etc) beschreiben. Nur TEI erlaubt es jedoch, auch einen kompletten Volltext abzulegen und diesen semantisch auszuzeichnen. Damit ist die grundsaetzliche Verwendungsrichtung vorgezeichnet: METS/MODS fuer Applikationen, die sich grundsaetzlich nur auf der Ebene der bibliographischen Daten sowie eines Inhaltsverzeichnisses bewegen, und TEI fuer alle Faelle, bei denen eine tiefere Beschaeftigung mit dem Volltext auf der Basis einer semantisch ausgezeichneten Transkription gefragt ist.

Bibliographische Metadaten lassen sich in der MODS Sektion der METS/MODS Datei ablegen bzw. im TEI-Header. Hierfür müssen Sie allerdings transformiert werden. MARC- oder MAB-XML-Dateien sind  dafür als Ausgangsformat sinnvoll. Der Gemeinsame Bibliotheksverband (GBV) bietet mit seinem unapi Tool die Möglichkeit an, GBV-Datensätze in verschiedenen bibliographischen Formaten anzeigen zu lassen.

Im Folgenden eine Uebersicht ueber die Informationen, die in METS bzw. TEI  abgelegt werden koennen. Im Einzelfall ist immer zu prüfen (abhängig von Projektumfang, Ressourcen und Know How), welches Format sich für welche Daten am besten eignet:

  • bibliographische/bibliothekarische Metadaten (OPAC)
  • Metadaten zum digitalen Dokument (Urheber, Institution, Datum etc.)
  • Metadaten zur Erstellung der Transkription bzw. der semantischen Auszeichnung
  • kodikologische Metadaten (Exemplar-Beschreibung; nur TEI)
  • weitere allgemeine Metadaten zum Buch (z. B. GND-Angaben; nur TEI)
  • semantisch ausgezeichneter Volltext (nur TEI)
  • Identifier fuer punktgenaue Verweise auf Seiten/Textstellen
  • Vernüpfungsmöglichkeit mit anderen Dateien, die in der Anzeige virtuell „über“ die Seiten geblendet werden: logisch/inhaltlich korrigierte Textabfolge, Abbildungs-/Inhalts-/sonstige Verzeichnisse, Konkordanz-Dateien zu anderen Ausgaben (z.B. Editionen-Vergleich), Links zu Datenbanken etc. (nur TEI)

METS

Die Grundstruktur im METS ist immer ähnlich und wurde entwickelt, um die Verbindung von Bildreferenzen, Inhaltsverzeichnis-Angaben und bibliographischen Metadaten in einer Datei zusammenzuhalten. Großer Unterschied ist der Aufbau der Datei. METS legt hintereinander Sektionen (sections) an. In eine Sektion werden alle Bildreferenzen, in einer weiteren die Paginierungsangaben, in einer weiteren Angaben der Teile aus dem Inhaltsverzeichnis usw abgelegt.

TEI

Das TEI Format ist mit etwa 500 verfügbaren Elementen gegenüber METS wesentlich umfassender.  Im praktischen Projekt- und Anwendungskontext werden aus dem großen Set nur subsets verwendet, die wiederum nach bestimmten Projektanforderungen ausgewählt werden. Für die Erstellung eines solchen Regelwerks bietet die TEI einen eigenen webbasierten Schema-Generator an: ROMA.

In TEI ist die Datei nach der Scanabfolge geordnet. Um die einzelnen Bildreferenzen angeordnet wird die gesamte Transkription angeordnet (Paragraphen, Abbildungen, Zeilen, Spalten, Seitenumbrüche).

Das TEI Format wird zunehmend populärer und ist als „Text-Standard“ im Bereich der Digital Humanites anzusehen. Aktuell durchgeführte Projekte zur Volltext-Erschließung von digilaten Quellencorpora, z. B. die Carl-Maria-von-Weber-Gesamtausgabe, setzen verstärkt auf das TEI Format in der aktuellen Version (P5). Mittelfristig wird TEI wahrscheinlich im DFG-Viewer aufgerufen werden können. Der DFG-Viewer ist der Standard-Viewer für viele große Bibliotheken sowie für die Präsentation von Digitalisaten aus dem zvdd. In der DFG-Viewer Mailingliste wird die Formaterweiterung des Viewers derzeit diskutiert. Der Entwurf eines TEI-Anwendungsprofil 1.0.1 wurde bereits erstellt.

Anzeige der Dokumente

TEI-Dokumente weisen i.d.R. eine semantische Auszeichnung des Inhaltes auf, bei der die Zusatzinformationen um die Textbegriffe gelegt werden. Die Text Encoding Initiative bietet mit dem reichhaltigen Elementset eine Auszeichnung für nahezu jedes Textstück oder jede Textgattung. (Bei Handschriften und Urkunden kommen weitere Expertengruppen ins Spiel.) Hier ein Beispiel einer Darstellung im TEI:

<role>Hamlet</role>, <roleDesc>Prinz von Daenemark</roleDesc>, gespielt von <actor>Henry Irving</actor>

Die visuelle Wiedergabe im Originaltext koennte etwa so ausgesehen haben:

Hamlet, Prinz von Daenemark, gespielt von Henry Irving

Oder aber auch so:

Hamlet, Prinz von Daenemark, gespielt von Henry Irving

Prinzipiell sind die Auszeichnungen des TEI Dokumentes und die visuelle Wiedergabe im Originaltext etwas vollkommen Verschiedenes. Wir raten deshalb davon ab, auch nur im Ansatz zu versuchen, die Ausgabe der TEI Dokumente visuell an den Originaltext angleichen zu wollen! Wer die originale Wiedergabe bevorzugt, kann ja in den meisten Faellen die Scans konsultieren.

Nichtsdestotrotz muessen die TEI Dokumente für die Präsentation im Web in eine „darstellbare“ Form gebracht werden, d. h. eine Form, die den Text zwar nicht orginalgetreu, doch zumindest lesefreundlich präsentiert. Je nachdem, wie viele Besonderheiten die Textdarstellung haben soll, ist die Umwandlung in die Leseform aufwendig. Zu beachten sind etwa:

  • Tabellen
  • Bilder
  • Weitere Details bei mouse over
  • Spalten
  • Nummerierte Zeilenzählung
  • Glossen
  • Kritischer Apparat
  • Fussnoten

Die Transformation wird zumeist über XSL-T hergestellt. Für einfache Darstellungen lassen sich auch stylesheets des TEI-Konsortiums oder von TEI Boilerplate anpassen, so dass die Transformation nicht von Beginn an neu erstellt werden muss.

ALTO

Ein weiteres Format, das hier nur kurz angesprochen werden soll, ist METS-ALTO (Analyzed Layout and Text Object). METS-ALTO wird generell beim OCR-Vorgang generiert und dient dazu, wort- bzw. buchstabengenau zwischen Image und Transkription verweisen zu koennen. Technisch werden dabei fuer alle Buchstaben bzw. Worte des transkribierten Textes die jeweiligen Koordinaten im Scan angegeben, d.h. der Abstand vom linken und unteren Seitenrand. Verwendung findet dieses Format nur dann, wenn eine quasi mechanische Reproduktion des Textes gewuenscht ist, denn Mechanismen fuer eine semantische Auszeichnung sind nicht vorgesehen.

Spezifikationen

CSS Spezifikation: W3C Cascading Style Sheets home page, LAST UPDATED FRI 11 JAN 2013 06:20:08 AM CET

DFG Praxisregeln „Digitalisierung“

DTD Spezifikation:  W3C: Extensible Markup Language (XML) 1.1 (Second Edition) W3C Recommendation 16 August 2006, edited in place 29 September 2006 ; 2.8 PROLOG AND DOCUMENT TYPE DECLARATION.

LOC METS Spezifikation: METS: Überblick und Anleitung, July 1, 2011

LOC MODS Spezifikation: MODS guidance, July 9, 2012

RELAX NG home pageLast updated: 2012-08-11

TEI ROMA (Schemagenerator): Roma: generating customizations for the TEI

TEI Spezifikation: TEI: P5 Guidelines, released November 1, 2007

TIFF Spezifikation: TIFF Revision 6.0 : Final — June 3, 1992

XHTML Spezifikation: XHTML™ 1.0 The Extensible HyperText Markup Language (Second Edition) : A Reformulation of HTML 4 in XML 1.0 ; W3C Recommendation 26 January 2000, revised 1 August 2002

XSLT Spezifikation: XSL Transformations (XSLT) Version 1.0, W3C Recommendation 16 November 1999

Bearbeitung: IC/KEW

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s