Mehr als nur Scannen: Die Digitalisierung von Kulturgut in Deutschland
Bibliotheken digitalisieren Kulturgut. Das ist mittlerweile keine neuartige Aufgabe mehr, sondern eine klassische, wenn nicht sogar traditionelle. Mehr als zwanzig Jahre sind vergangen, seit die Deutsche Forschungsgemeinschaft (DFG) 1997 begann, die Digitalisierung von Buchbeständen zu fördern. Im Rückblick mag man es kaum glauben: Bereits in der Prä-Google-Ära starteten die ersten Digitalisierungsaktivitäten.
Doch weder für die weltweiten Digitalisierungsaktivitäten von Google noch für die deutsche Bibliothekslandschaft liegen aussagekräftige Statistiken vor, wie viel Kulturgut bislang in welchem Umfang und in welcher Qualität digitalisiert wurde. Das gilt für die Makro- ebenso wie für eine detaillierte Mikroperspektive. Dabei standen die Scanner seit mehr als zwei Jahrzehnten nicht still, vergleichbar den Druckerpressen ab der zweiten Hälfte des 15. Jahrhunderts.
Die Ergebnisse dieser älteren Medienrevolution sind gut dokumentiert: Mit den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke des 16., 17. und 18. Jahrhunderts sind weltweit einzigartige, verteilte und kollaborativ organisierte wissenschaftliche Datenbanken entstanden. In einem weiteren Schritt werden auch digitale Abbilder von Druckwerken der Vormoderne zur Verfügung gestellt.
Neue Methoden und Werkzeuge
Ungleich jünger als die Digitalisierungsaktivitäten in Bibliotheken ist der Bedeutungsgewinn von digital gestützten Forschungsansätzen in den Geistes- und Kulturwissenschaften. Der Ansatz als solcher ist nicht neu: Schon in den 1950er-Jahren begann der Linguist Roberto Busa damit, den „Index Thomisticus“ mithilfe von IBM zu erstellen, eine maschinell durchsuchbare Datenbank der Schriften des Theologen Thomas von Aquin. In den letzten zehn Jahren wurden viele weitere elektronische Werkzeuge aus anderen Fachdisziplinen erprobt, weiterentwickelt, an geisteswissenschaftliche Fragestellungen angepasst oder auch gänzlich neu konzipiert.
Der traditionelle Methodenkanon und die Analyseinstrumentarien in den Geistes- und Kulturwissenschaften werden hierdurch erweitert und entwickeln sich rasant weiter. Die Nutzung von neuen Werkzeugen und Methoden hat aber auch dazu geführt, dass die bisherige Datenbasis in Form von digitalisierten Objekten des kulturellen Erbes nicht mehr ausreicht, ob es nun Handschriften, gedruckte Werke, Fotografien, Bilder oder audiovisuelle Medien sind.
Bei diesen neuen Methoden geht es nicht mehr ausschließlich um hermeneutische, lesende und verstehende Arbeit. Hinzu kommen computergestützte Auswertungen. KunsthistorikerInnen etwa durchsuchen große Bildsammlungen, um Muster und neue Interpretationsspielräume zu entdecken. TextwissenschaftlerInnen finden per „Topic Modelling“ Themen in gewaltigen Textmengen. Netzwerkanalysen machen Zusammenhänge in Briefwechseln sichtbar. Wer hat an wen wie oft geschrieben? Wer stand mit wem eng in Beziehung?
Solche Auswertungen benötigen eine Datenbasis, die über digitale Abbilder und Datenformate wie TIFF-, JPEG- oder PDF-Dateien hinausgeht. Die Daten werden elektronisch viel tiefer erschlossen. Die Formate müssen nicht mehr nur menschen-, sondern auch maschinenlesbar und -analysierbar sein.
Digitalisierung von Kulturgut: Stand der Dinge
Ausgehend von diesen beiden Phänomenen hat sich eine Arbeitsgruppe des Forschungsprojekts DARIAH-DE seit 2016 mit der Digitalisierung von Kulturgut in Deutschland beschäftigt. ForscherInnen und ExpertInnen aus Museen, Archiven, Bibliotheken, Hochschulen und anderen Einrichtungen haben den derzeitigen Stand der Kulturgutdigitalisierung in Deutschland analysiert und ein Arbeitspapier veröffentlicht. Ein begleitendes Memorandum fasst die daraus abgeleiteten Forderungen zusammen.
Einen beispielhaften Einblick in die derzeitige Digitalisierungssituation bieten historische Drucke in deutschen Bibliotheken. Seit rund zwanzig Jahren werden Drucke des 16. bis 18. Jahrhunderts in entsprechenden Verzeichnissen – den sogenannten VD 16, VD 17 und VD 18 – katalogisiert, erschlossen und digitalisiert. Für die einzelnen Jahrhunderte sieht der Stand der Dinge wie folgt aus:
- Von rund 120.000 existierenden deutschen Druckausgaben des 16. Jahrhunderts sind etwa 106.000 im Verzeichnis erfasst. Etwa 67.000 Drucke sind mit einem Verweis auf digitalisierte Fassungen versehen. Geht man von der Gesamtmenge deutscher Druckausgaben des 16. Jahrhunderts aus, so sind rund 56 Prozent davon digital zugänglich.
- Aus dem 17. Jahrhundert sind knapp 300.000 Drucke im Verzeichnis nachgewiesen. Im Januar 2018 lagen 153.019 Drucke digitalisiert vor, was einem Digitalisierungsgrad von etwa 54 Prozent entspricht. Bis 2020 sollen etwa 90 Prozent der Drucke digitalisiert vorliegen, so die Planung.
- Aus dem 18. Jahrhundert lagen im Frühjahr 2018 rund 295.000 Monografien und etwa 5.000 Zeitschriftentitel digitalisiert vor. Bei rund 586.000 bibliographisch erfassten Monografien entspricht das einem Digitalisierungsgrad von gut 50 Prozent. Bei Zeitschriftentiteln sind rund 9.100 erfasst, damit liegt die Digitalisierungsquote bei knapp 55 Prozent.
Was zunächst ganz hoffnungsvoll wirkt, muss mit einigen Einschränkungen versehen werden:
- Für die Literatur des 19. Jahrhunderts gibt es keinen Überblick über die Gesamtzahl an erschienenen Titeln. Die in einzelnen Projekten erreichte Digitalisierungsquote dürfte weit unter den oben genannten Zahlen liegen.
- Im 20. Jahrhundert lässt die Nationalbibliografie zwar Rückschlüsse auf die Anzahl der erschienenen Titel zu. Urheberrechte schränken hier jedoch die Erstellung oder Bereitstellung von Digitalisaten für die Forschung stark ein, weshalb eine breit angelegte Digitalisierung bisher weder angegangen wurde noch konnte.
Außerdem bleibt festzustellen, dass die Digitalisate zumeist nicht in maschinenlesbarer und interpretierbarer Form vorliegen. Das war in der Vergangenheit auch nicht das Ziel, sollte es aber gerade bei zukünftigen Aktivitäten sein. GeisteswissenschaftlerInnen und ihre Communities sollten in Zukunft klarer als bislang artikulieren, für welche elektronische Methoden und Werkzeuge sie welche Formate, Auszeichnungssprachen und Erschließungstiefen benötigen. Erste Ideen und Anforderungen haben wir dazu für digitalisierte Texte, Bilder sowie Audio- und audiovisuelle Materialien formuliert und allgemeine Vorschläge für Anforderungen an medienübergreifende Digitalisierungstandards gemacht.
Was ist zu tun?
Die Probleme, die hier exemplarisch an den Bibliotheksbeständen gezeigt wurden, sind für Archive, Museen und wissenschaftliche Sammlungen von Universitäten vergleichbar, wenn nicht noch viel größer. Hier geht es nicht nur darum, die Digitalisierung der Bestände voranzutreiben. Auch die Bestände selbst müssen zunächst erschlossen, Verzeichnisse und andere Findmittel in digitaler Form zugänglich gemacht werden. In all diesen Institutionen liegt Material, das für die Forschung von unschätzbarem Wert ist und nicht nur orts- und zeitunabhängig verfügbar, sondern auch für die neuen Methoden und Werkzeuge der „Digital Humanities“ zur Verfügung stehen könnte.
Aus der Bestandsaufnahme zum Stand der Digitalisierung von Kulturgut ergeben sich weitere Schlussfolgerungen:
- Die Entwicklungen der letzten Jahrzehnte haben Grundlagen gelegt und Möglichkeiten gezeigt. Das Potenzial von datengetriebenen Forschungen in den Geistes- und Kulturwissenschaften ist aber noch lange nicht erreicht. Die Förderung auf Länder- und Bundesebene sollte besser koordiniert und zugleich ausgebaut werden.
- Die wissenschaftlichen Communities sollten die Digitalisierung auf der Grundlage der erfolgreichen Praxisregeln der DFG voranbringen und entsprechende Bedarfe anmelden, sodass zusätzliche Medien, neue Erschließungstiefen, maschinenlesbare Volltexte und Annotationen einbezogen werden. Auch das bestehende Urheberrecht muss weiterentwickelt werden, sodass der freie Zugang zum kulturellen Erbe auch jüngeren Datums möglich ist.
- Über die Digitalisierung von Kulturgut werden belastbare Kennzahlen benötigt, die dauerhaft erhoben werden sollten. Auf dieser Basis können Lücken und die nächsten Schritte ermittelt und angegangen werden.
All das kann nur dann gelingen, wenn Fachwissenschaften sowie Bibliotheken, Museen, Archive und andere Gedächtniseinrichtungen sich dieser Thematik gemeinsam annehmen, sich darüber austauschen und Maßnahmen koordinieren. So können Anforderungen an die Datenbeschaffenheit formuliert werden, die praxistauglich sind und der Forschung nützen.
2 Kommentare
1 Ohnename am 19. Juli, 2018 um 13:50
Ja wenn man nur eine Zentrale Koordinierungsstelle hätte… Ach hatten wir ja mal
https://de.wikipedia.org/wiki/Deutsches_Bibliotheksinstitut
2 Sebastian Köppl am 20. Juli, 2018 um 08:51
Sehr geehrte Dame, sehr geehrte Herren !
Ein guter, wenn auch in wesentlichen Punkten leider unvollständiger
Blick auf die guten Leistungen ,Probleme, Defizite und offenen Fragen.Aus der auf weite Strecken freilich noch ungesicherten digitalen Langzeitarchivierung erwächst die noch stärkere Pflicht der
besitzenden Häuser, die Originale zu schützen und die Sammlungszusammenhänge und Kontexte zu erhalten.Da Herr Stäcker an der HAB in Wolfenbüttel war, wird er, ebenso wie Frau Klaffki, dafür einen Blick haben.
Freundliche Grüße,
Sebastian Köpppl
(UB Bamberg, nicht mehr aktiv)
Was sagen Sie dazu?