Volltexte

Vorüberlegungen

Soll ein Werk digitalisiert werden, stellt sich sogleich die Frage nach der gewünschten Qualität der Digitalisates:

  • Reicht das Scannen der Seiten aus?
  • Sollen darüber hinaus einfache Strukturdaten (das Inhaltsverzeichnis) erfasst werden?

oder

  • Soll ein Volltext, d.h. eine vollständige elektronische Version des abgebildeten Textes mit angeboten werden? Soll der Volltext korrigiert oder unkorrigiert angeboten und (wie tief) soll er ausgezeichnet werden?

Bereitstellung (Produktion) von Volltext ist teuer – zeit- und kostenintensiv – und wird daher nur im begründeten Fall ins Auge gefasst werden.

Um entscheiden zu können, ob sich eine Volltext-Digitalisierung lohnt, ist es hilfreich, sich über eigene Kriterien der Auswahl klar zu werden:

  • Besteht ein (konkreter) wissenschaftlicher Bedarf?
  • Oder geht es vor allem um Bestandssicherung? Handelt es sich um kostbare Vorlagen/Unikate?
  • Wurden meine zur Digitalisierung vorgesehenen Werke bereits andernorts digitalisiert? Mit Volltext von welcher Qualität?

Zur Vermeidung von Mehrfachdigitalisierung ist einer Prüfung gängiger Nachweiskataloge/-portale – derzeit etwa Zentrales Verzeichnis Digitalisierter Drucke (zvdd), Karlsruher Virtueller Katalog (KVK), Portal der Europeana, Internet Archive, Project Gutenberg, Google Books[1] – angezeigt.

Ist die Entscheidung für Volltext gefallen, stellt sich die Frage, ob er inhouse erzeugt oder ein Dienstleister damit beauftragt werden soll. Dies wird von verfügbaren personellen und finanziellen Ressourcen abhängen.

Für die weitergehende Beschäftigung mit der Produktion von Volltexten sind die Ergebnisse des Projektes „IMPACT“[2] von Interesse. Ziel des von der Europäischen Kommission geförderten Projektes (2008-2012) waren ein besserer Zugang zu historischen Texten (die vielfach in Fraktur vorliegen) und allgemein der Abbau von Barrieren bei Massendigitalisierungen mit dem Ziel, das europäische kulturelle Erbe zu bewahren.

Vorgehen Volltexterfassung

Bei einer Volltexterfassung werden die ausgewählten Texte zunächst gescannt. Als Richtwert beim Scannen empfiehlt die Deutsche Forschungsgemeinschaft (DFG) für Graustufen oder Farbaufnahmen eine Mindestauflösung von 300 dpi bezogen auf das Format der Originalvorlage[3]. In diesem Zusammenhang kann erwähnt werden, dass der DFG-Viewer bisher noch keinen Volltext anzeigen kann. In der Praxis hat es sich mitunter bewährt, mit 400 dpi oder sogar 600 dpi zu scannen, wenn eine anschließende Volltexterfassung gewünscht ist – denn je besser der Ausgangsscan ist, desto besser die automatische Texterkennung.

Elektronisch lesbare sog. Volltexte werden mithilfe von Texterkennungssoftware (OCR) oder durch Abschreiben (Double Keying) erstellt. Oftmals werden beide Verfahren kombiniert: ein automatisch ausgelesener Text wird händisch korrigiert.

OCR

OCR (Optical Character Recognition)  bezeichnet die automatisierte Texterkennung innerhalb von Bildern. Ausgangspunkt ist eine Bilddatei, die von der Vorlage per Scanner erzeugt wird.

Qualität der Vorlage und Qualität des Scans entscheiden über das Ergebnis der automatischen Texterkennung. Buchformat, Buchzustand (Knitterfalten oder Wölbung), unterschiedliche Drucktechniken und Schriftarten, unterschiedliche Druckintensität, Mehrspaltigkeit oder auch Sprachvielfalt in der Vorlage – all das können Problempunkte bei der automatischen Texterkennung darstellen. Schräge/verzerrte Scans, verkrümmte Textlinien, Farbflecken, durchscheinende Seiten, schwarze Ränder beeinträchtigen die Qualität des OCR-Ergebnisses.

Bevor die OCR-Software über die Scans läuft, ist eine Bildvorbearbeitung sinnvoll, um eine höhere Erkennungsgenauigkeit zu ermöglichen. Zur Bildvorbearbeitung gehören ggf. die Randentfernung, eine geometrische Korrektur und die Binarisierung.

Die Frage nach der Randentfernung stellt sich oft als eine Frage des Geschmacks dar. Randentfernung kann zum einen bedeuten, dass der Rand um den Satzspiegel entfernt wird, also nur noch der reine Text ohne Rand zu lesen ist oder zum anderen, dass der Rand um das Buch herum entfernt wird. Nachteil der Randentfernung im erstgenannten Sinn ist, dass nicht ersichtlich ist, ob etwas Relevantes abgeschnitten wurde (z. B. Anmerkungen), auch die Ausmaße des Buches sind so nicht mehr abzuschätzen.

Bei der geometrischen Korrektur wird das Bild entzerrt, was zu einer Bildoptimierung führen kann.

Binarisierung bezeichnet die Erzeugung eines Binärbildes aus einem Graustufen- oder einem in einem Zwischenschritt zum Graustufenbild umgewandelten Farbbild. Ein Binärbild ist eine digitale Rastergrafik, deren Pixel nur die zwei Farben Schwarz und Weiß annehmen können.

Bei der Texterkennung durch eine OCR-Software wird die Bilddatei in Zeichen, Worte und Zeilen aufgeteilt. Zur Layouterkennung einer OCR gehört z. B. das Erkennen des Satzspiegels, wo Seiten- und Kapitelzahlen platziert sind, wie die logische Reihenfolge der Textblöcke, wie die Leserichtung ist, wo sich ggf. Tabellen, Abbildungen oder auch handschriftliche Anmerkungen befinden.[4]

Es ist i.d.R. möglich, in die Layouterkennung nachträglich selbst einzugreifen, um eine feinere/detailliertere Strukturanalyse zu erhalten.[5] Weitere Strukturmerkmale eines Buches können hierbei sein: Spaltentitel, Kolumnentitel, Bogenzählung, Inhaltsverzeichnisse, Fußnoten, Überschriften und ähnliches.

Als Ergebnis kann je nach OCR-Software der ausgelesene Text in eine Datenbank oder als Textdatei in einem definierten Format wie ASCII oder XML ausgegeben werden, ggf. auch mit Layout (HTML, PDF) oder  im E-Book-Format (z. B. EPUB)[6].

Im besten Fall stellt der OCR-Prozess nicht nur einen automatisierten Prozess dar, sondern wird durch einen Mitarbeiter/eine Mitarbeiterin begleitet, so dass manuelle Eingriffe bzgl. die seitenweise Korrektur und Kontrolle möglich sind. Auf diese Weise würde die Kontrolle des OCR-Textes nicht erst nach dem gesamten OCR-Texterkennungsprozess erfolgen, sondern bereits währenddessen.

Wenn das Ergebnis der automatischen Texterkennung nicht weiter bearbeitet wird, hat man „schmutzige OCR“ („dirty OCR“), d. h. einen unkorrigierten Volltext. Für die spätere elektronische Suche in solchem Volltext heißt das, dass nur eine Positivsuche durchgeführt werden kann, eine verlässliche Textbasis ist schmutziges OCR nicht[7]. Als Zwischenlösung kann unkorrigierter Volltext gute Dienste leisten – er gilt als „allemal besser als nichts“. Wichtig nur ist, dass ein Hinweis zur Qualität des Volltextes und damit zu den Suchbedingungen an prominenter Stelle zu finden ist. Darüber hinaus werden seriöse Anbieter den Volltext – unabhängig von seiner Qualität – immer (optional) anzeigen, damit sich die Nutzer ein eigenes Bild von der Qualität ihrer Suchbasis machen können.

Bei OCR-Software ist zwischen Open-Source- und kostenpflichtiger Software zu unterscheiden. Bei den kommerziellen Anbietern ist der Marktführer Abbyy[8] zu nennen. Zur Frakturerkennung hat die Firma das bislang unübertroffene Produkt „Abbyy historic OCR“ auf den Markt gebracht[9]. Open-Source-Lösungen bieten z.B. tesseract[10], GOCR[11], OCRopus[12] oder CuneiForm[13].

Bislang beherrscht noch keine OCR-Software den automatischen Wechsel zwischen Fraktur- und Antiquaschriften.

Double Keying

Beim Double Keying wird ein Text von zwei verschiedenen Bearbeiter/inne/n erfasst, also zweimal abgetippt, wonach die beiden Ergebnisse übereinandergelegt werden. Abweichungen zeigen so Korrekturbedarf an. Wegen der dort geringeren Lohnkosten wird Double Keying bevorzugt nach Osteuropa oder Asien vergeben.

Zusammenfassung

Die Entscheidung für OCR oder für Double Keying beruht in erster Linie auf finanziellen Überlegungen. Double Keying ist im Vergleich zu OCR deutlich teurer. Es ist also jeweils zu fragen, wie wichtig eine Volltexterfassung ist. Wird der Text für ein konkretes Projekt oder im Kontext eines größeren Forschungsprojektes digitalisiert, und welche Anforderungen ergeben sich hieraus – oder geht es um die vorsorgliche Konservierung des Bestandes und eine Bereitstellung „just-in-case“?

Heute stellt der Standard-Volltext noch eine mithilfe von OCR erstellte, unkorrigierte Fassung des Textes dar.

Volltexte werden nach ihrer Textgenauigkeit beurteilt. In der Literatur finden sich Angaben zu einer anzustrebenden Genauigkeit von „mindestens 99,85%“. Solche Werte sind aber nicht unproblematisch, denn zum einen muss unterschieden werden zwischen Wort- und Zeichengenauigkeit[14] und zum anderen stellt sich die Frage, wie sich die Erfassungsgenauigkeit sinnvoll und effektiv kontrollieren lässt.

In Unterlagen des „impact“-Projektes finden sich Aussagen, wonach Wortgenauigkeiten ab 70% und sogar darunter ausreichend sind, um brauchbare Ergebnisse zu bieten.[15] Die DFG allerdings schreibt in ihren Digitalisierungsrichtlinien: „Unterhalb einer Genauigkeit von 99,5% ist bei manueller Erfassung ein Ergebnis im Grunde wertlos. Anders ausgedrückt, bei 99% wäre jeder 100ste Buchstabe(!) falsch, pro Zeile also ca. ein Fehler.“ (http://www.dfg.de/download/pdf/foerderung/programme/lis/praxisregeln_digitalisierung.pdf, S. 11)

Wichtig ist, dass immer eine Qualitätskontrolle der angefertigten Dokumente erfolgen muss, v. a., wenn es sich um Arbeiten eines Dienstleisters handelt. Und gewiss ist, dass eine Textgenauigkeit von 99,99% immer nur durch manuelle Nachkorrektur des OCR-Textes bzw. durch Double Keying zu erreichen ist.

Vorgehen Textauszeichnung

Wenn der Volltext in korrigierter Form vorliegt, kann eine weiterführende Textauszeichnung (Tagging/Encoding) gewünscht sein. Die Textauszeichnung erfolgt in der Regel im xml-Format (s. dazu auch das Kapitel „Standardformatfragen“). Ziel der Textauszeichnung soll zum einen die genaue(re) formale Beschreibung des Textes sein. Hierzu zählen etwa die Auszeichnung der Absätze, der Zitate, der vorhandenen Abbildungen.

Zum anderen ist auch eine inhaltliche/semantische Auszeichnung möglich. Zu fragen ist allerdings, wie sinnvoll dies ist, lässt sich doch bestenfalls ein Bruchteil der Forschungsfragen, die an einen Text später möglicherweise herangetragen werden, schon voraussehen. Die Übergänge zwischen formaler und inhaltlicher Auszeichnung sind jedoch auch fließend.

Gängige inhaltliche Auszeichnungen sind etwa die Auszeichnung von Personen- und Ortsnamen im Text. Eine tiefergehende Auszeichnung wäre etwa die Markierung von Bildunterschriften oder sogar von Schrift innerhalb von Abbildungen.

Beim Erstellen von Volltext sollte immer der  angenommene Anwendungsfall (nebst den verfügbaren finanziellen Mitteln) bedacht werden.

Reicht ein mithilfe von OCR erstellter, unkorrigierter Text ohne weiteres Tagging, dann ist neben der reinen Imagedigitalisierung und der Nutzung einer OCR-Software ohne Korrekturgänge nichts weiter zu tun.

Soll ein Text korrigiert und vielleicht außerdem ausgezeichnet werden, sieht der Arbeitsablauf etwas anders aus. Möglich ist (und gängig, wenn beide Arbeiten an einen Dienstleister außer Haus vergeben werden), Korrektur und Auszeichnung in einem Schritt vorzunehmen.  Uns scheint jedoch sinnvoller, die  beiden Arbeitsschritte getrennt zu halten, d. h. zunächst die Korrektur vorzunehmen, und dann eine Kopie des korrigierten Textes als Basis für die Fertigung des xml-Dokumentes zu nutzen. So bleiben am Ende sowohl der korrigierte Volltext als auch das xml-Dokument als separate Dokumente verfügbar. Dies ist z.B. dann von Bedeutung, wenn der Volltext nicht „nur“ im Web angezeigt, sondern auch zum Ausdruck (etwa als PDF) oder als anderer Download zur weiteren elektronischen Bearbeitung/Verwendung angeboten werden soll.

An dem in xml-Format ausgezeichneten Dokument kann der Bearbeiter/die Bearbeiterin in weiteren Durchgängen noch weitere Strukturierungen  und Änderungen vornehmen.[16] Wichtig ist, dass das xml-Dokument valide (valid), also gültig, ist. Valide heißt, dass das generierte Dokument zum einen dem xml-Standard und zum anderen dem zuvor festgelegten, spezifischen Auszeichnungsschema entspricht.[17]

TEI

Die Text Encoding Initiative (TEI) wurde 1987 gegründet und stellt ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten zur Verfügung. [18] TEI hat sich zu einem De-facto-Standard innerhalb der Geisteswissenschaften entwickelt, wo es u. a. zur Kodierung elektronischer Editionen gedruckter Werke oder linguistischer  Informationen in Texten verwendet wird. Die von TEI herausgegebenen Guidelines geben Richtlinien vor, wie TEI in Digitalisierungsprojekten genutzt werden kann.[19]

Die TEI Guidelines unterteilen sich in 5 verschiedene Levels hinsichtlich der Tiefe der Auszeichnung:

Level Beschreibung
Level 1 Der Text wird mithilfe einer OCR-Software erstellt. Er hat eine den Bildern/digitalisierten Seiten nachgeordnete Bedeutung und kann als elektronischer Text nicht allein (ohne Bilder) stehen. Die Auszeichnung soll eine Unterstützung bei der Volltextsuche bieten.
Level 2 Der Text wird mithilfe einer OCR-Software erstellt und hat eine den Bildern weitgehend nachgeordnete Bedeutung, wenn auch die Navigation durch einfache Strukturauszeichnung (Abschnitte, Überschriften) erleichtert wird.
Level 3 Der Text wird mithilfe einer OCR-Software erstellt oder durch Abtippen. Einige Strukturmerkmale des Textes werden ausgezeichnet. Der Text kann mit oder auch ohne Bilder genutzt werden.
Level 4 Der Text wird mithilfe einer OCR-Software erstellt und nachkorrigiert oder abgeschrieben und kann ohne Bilder angeboten werden, um den Seitentext für Studierende, Wissenschaftler und andere Interessenten verfügbar zu machen.
Level 5 Der Text wird mithilfe einer OCR-Software erstellt und nachkorrigiert oder abgeschrieben und kann ohne Bilder angeboten werden, wie bei Level 4. Darüber hinaus erfolgt eine Auszeichnung, die umfangreiche „Handarbeit“ und Fachkenntnisse erfordert.

Qualitätskontrolle und Regressansprüche

Bei der Qualitätskontrolle ist es wichtig, dass der Auftraggeber zeitnah auf Vollständigkeit der Daten und Qualität der gescannten Seiten achtet, damit Fehler umgehend behoben werden können.

Stammen die digitalisierten Werke nicht aus dem eigenen Bestand, sondern sind aus anderen Einrichtungen entliehen, so sollten Leihfristen ausreichend großzügig bemessen sein bzw. Qualitätskontrollen so zügig durchgeführt werden, dass ein Vergleich mit der Scanvorlage bzw. ggf. notwendiges erneutes Scannen fehlender Seiten oder fehlerhafter Scans möglich ist.

Können Scanfehler wegen fehlender (u.U. an Leihgeber zurückgeschickter) Vorlage nicht behoben werden, ist es ein schwacher Trost, dass Minderleistung dem Dienstleister von der Rechnung abgezogen werden kann. Eine entsprechende Klausel für nichterbrachte Leistung sollte sich auf jeden Fall im Vertrag mit dem Dienstleiser finden.

Darüber hinaus kann es vorkommen, dass Werke beim Dienstleister beschädigt werden. Auch für diesen Fall gehören mögliche Regressansprüche in den Vertrag zwischen Auftraggeber und Dienstleister.

Kooperation mit der Berlin-Brandenburgischen Akademie der Wissenschaften (Projekt: Deutsches Textarchiv DTA)

Hier gelangen Sie zu Informationen zur Kooperation des Max-Planck-Institut für Bildungsforschung (MPIB) mit der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW).

Weiterführende Informationen


[1] ((Alle genannten Nachweiskataloge/portale hier mit URL angeben))

[5] S. dazu z. B. den Vortrag „BSB/ÖNB Demo Day – Strukturanalyse auf der Basis von OCR-Ergebnissen – Günter Mühlberger (ULB Tirol)

from IMPACT Centre of Competence“ unter: http://vimeo.com/32262342, Stand: 31.10.2012

[6] OCR-Software nach Produkt benennen, welche was bietet bzw. nur auf Abbyy Fine Reader 11 eingehen

[7] Positivsuche meint, dass zwar Treffer erzielt werden können, ein negatives Ergebnis einer Suche aber nicht verlässlich anzeigt, ob ein gesuchter Begriff im Text vorhanden ist oder nicht – da das gesuchte Wort womöglich lediglich fehlerhaft „erkannt“ wurde von der OCR.

[14] Hierzu lesen Sie bitte die FAQs

[16] Mit Hilfe von XML-Editoren, wie z. B.: xmlmind XML Editor (Open Source; http://www.xmlmind.com/xmleditor/) oder oxygen XML Editor (kostenpflichtig; http://www.oxygenxml.com/)

[17] Wenn bspw. in TEI ausgezeichnet wird, kann auf der Website des TEI-Konsortiums ein Schema selbst erzeugt werden: http://www.tei-c.org/Tools/#roma

Advertisements