Internet-Archivierung: Was bleibt vom Web?
iRights.info: Die Deutsche Nationalbibliothek ist so etwas wie das Gedächtnis der Nation. Welche digitalen Veröffentlichungen werden dort gesammelt?
Ute Schwens: Wir sind seit 2006 durch eine Erweiterung unseres gesetzlichen Auftrags dazu angehalten, uns um „Netzpublikationen“ zu kümmern. Es geht um die Sammlung und Erschließung von digitalen Publikationen unterschiedlicher Art.
Dazu gehören zum einen digitale Verlagspublikationen wie E-Books, elektronische Fachzeitschriften (E-Journals) und auch Hochschulschriften, die heute digital erscheinen. Zum anderen gehören auch Webseiten dazu. Wir kümmern uns um das technische Einsammeln, das sogenannte Webharvesting, die Erfassung und die dauerhafte Archivierung von Webseiten.
iRights.info: Wie läuft so ein Harvesting ab?
Ute Schwens: Zunächst einmal haben wir uns einen Dienstleister gesucht, der das Einsammeln technisch für uns erledigt. Dazu wird eine Software, ein sogenannter Crawler losgeschickt, der Angaben über bestimmte Internetadressen erhält. Jede Website besteht aus Menüpunkten und Links, man kann immer tiefer und weiter einsteigen. Der Crawler bekommt eine Angabe geliefert, wie viele Ebenen er abarbeiten soll, um die Inhalte einzusammeln.
Ein solcher Crawl wird derzeit zwei Mal im Jahr durchgeführt. Wir hatten ursprünglich mit einem häufigeren Rhythmus angefangen, haben dann aber festgestellt, dass bei den Seiten, die wir heute einsammeln, ein halbjährlicher Turnus ausreicht.
Web-Crawls zu Institutionen und Ereignissen
iRights.info: Welche Seiten sind das?
Ute Schwens: Es handelt sich vor allem um weitgehend statische Webseiten. Angefangen haben wir mit den wichtigsten Institutionen des Landes. Dazu gehören zum Beispiel die Seiten von politischen Parteien, Behörden, der Bundesregierung, den Landesregierungen, großen Verbänden, Religionsgemeinschaften oder wissenschaftlichen Gesellschaften. Im Moment sind es etwa 1.500 Websites.
iRights.info: Das klingt recht überschaubar.
Ute Schwens: Es ist natürlich bei weitem nicht ausreichend. Aber es ist ein Anfang, der es uns ermöglicht hat, Erfahrung zu sammeln. Die praktischen Abläufe haben wir jetzt im Griff, so weit man das bei einer Aufgabe sagen kann, bei der es immer wieder Überraschungen gibt.
Zusätzlich sammeln wir Webseiten anlässlich wichtiger gesellschaftlicher Ereignisse. Die Sammlung ist dann nicht auf bestimmte Institutionen gerichtet, sondern thematisch orientiert. Wir sammeln beispielsweise Webseiten rund um die Bundestagswahl oder die Fußball-Europameisterschaft. Da gehen wir einfach danach, was viele Menschen interessiert. Dazu recherchieren wir zunächst über eine Stichwortsuche und stellen eine Auswahl an Seiten zusammen.
Ungelöst: Archivierung von Musik
iRights.info: Werden nur textorientierte Webseiten gesammelt oder auch andere digitalen Inhalte, etwa Audio und Video?
Ute Schwens: Webinhalte gehen im Prinzip natürlich über Text hinaus, aber die Sammlung bei uns im Moment noch nicht. Beispielsweise prüfen wir derzeit, wie wir Musik aus dem Web archivieren können, da es zu unserem gesetzlichen Auftrag auch gehört, Musik zu sammeln.
Dazu stehen wir mit Verbänden aus der Musikwirtschaft in Verbindung, um herauszufinden, wie wir einen Prozess des Einsammelns oder der Ablieferung etablieren können. Beispielsweise finden sich auf den gängigen Musikplattformen – etwa von Apple, Amazon oder Spotify – zu weiten Teilen die gleichen Inhalte. Wir wollen aber natürlich nicht alles mehrfach einsammeln müssen.
Vielleicht werden wir die Inhalte zukünftig auch von Produzenten oder zwischengeschalteten Dienstleistern erhalten. Das ist alles noch nicht festgelegt. Musik in digitaler Form zu sammeln, ist für eine Bibliothek schwieriger als etwa elektronische Zeitschriften. Bei Zeitschriften gibt es durch den Verlag in der Regel einen klaren Ansprechpartner.
Befragung der Nutzer
iRights.info: Derzeit läuft auch eine Umfrage zum „digitalen Sammelauftrag der DNB“. Nutzer können angeben, welche Inhalte sie in einem Webarchiv erwarten würden. Wie kommt es dazu und was passiert mit den Ergebnissen?
Ute Schwens: Wir arbeiten hier mit dem Institut für Buchwissenschaft der Universität Mainz zusammen. Dort beschäftigt man sich übrigens nicht nur mit Büchern, sondern mit Schriftmedien allgemein. Die Studierenden, die den Fragebogen entworfen haben, widmen sich in einem Seminar der Frage, was aus dem heutigen Internet für die nächsten Generationen überliefert werden sollte.
Diese Frage ist auch für uns relevant. Wir haben zwar bereits Erfahrungen mit der Webarchivierung gesammelt. Aber uns ist auch klar geworden, dass beispielsweise ein Crawl aller .de-Adressen nur eine unzureichende Basis ist. Bei einem solchen Domaincrawl fehlen natürlich alle Seiten mit Endungen wie .com, .net, .info, .eu und so weiter. Zugleich haben wir entschieden, dass wir Webseiten nur selektiv sammeln können, also eine Auswahl benötigen.
iRights.info: Und wie gelangt man dann zu dieser Auswahl?
Ute Schwens: Wie wir dazu letztlich gelangen werden, wissen wir noch nicht, aber wir untersuchen es. Zum einen beschäftigt sich eine Kulturanthropologin bei der DNB mit dieser Frage. Zum anderen gibt uns die Umfrage der Universität Mainz die Möglichkeit, einen zusätzlichen Blickwinkel zu berücksichtigen. Die Ergebnisse können dann ein erstes Meinungsbild liefern. Das Ziel ist ein repräsentativer Ausschnitt, der zukünftigen Benutzern eine Idee davon vermittelt, wie das Web zum Beispiel im Jahr 2018 ausgesehen hat.
Wissenschaftler, Nutzer und Freaks
Letztlich wird eine Bibliothek auch nicht allein definieren können, was überlieferungswürdig ist und wie eine Auswahl zu archivierender Webseiten aussehen wird. Dazu müssen wir noch mit weitaus mehr Beteiligten und Kreisen sprechen. Etwa mit Wissenschaftlern, mit Internetnutzern, oder auch mit Freaks, die herausragende Kenntnisse auf einem bestimmten Gebiet besitzen.
Vielleicht werden wir über das selektive Harvesting hinaus auch Kooperationen mit anderen großen Sammlern eingehen, etwa dem Internet Archive oder großen Bibliotheken wie der Bayerischen oder der Berliner Staatsbibliothek, die mit eigenen Schwerpunkten im digitalen Bereich sammeln.
iRights.info: Wie groß müsste so ein repräsentativer Ausschnitt des deutschsprachigen Webs sein?
Ute Schwens: Auch das steht noch nicht fest. Es ist klar, dass wir bei weitem noch keinen repräsentativen Ausschnitt erreicht haben und er auch nicht bei 1.500 oder 2.000 überwiegend statischen Webseiten liegen, sondern es sich um eine sehr viel höhere Zahl handeln wird.
Für uns stand zunächst im Vordergrund, praktische Erfahrung in der Webarchivierung zu sammeln, etwa bei der Zusammenarbeit mit Dienstleistern, dem Bereitstellen der Daten und so weiter. Nun arbeiten wir uns schrittweise vor.
Dickstes Brett: Facebook
iRights.info: Wer in fünfzig Jahren etwas über unsere Gegenwart wissen will, wird auch um soziale Netzwerke nicht herumkommen.
Ute Schwens: Mit der Archivierung von Facebook, Twitter oder Instagram haben wir noch nicht angefangen. Aber es ist klar, dass wir uns damit beschäftigen müssen. Hier stehen wir im Moment vor der Frage, ob und wie sich eine Plattform wie zum Beispiel Facebook überhaupt archivieren lässt. Da sind wir noch weit entfernt von einer technischen Antwort, geschweige denn von einer organisatorischen Lösung.
Wir müssen aber nicht mit dem dicksten Brett anfangen. Es gibt auch viele kleinere Plattformen, auf denen sich gesellschaftliches Leben abspielt und sehr viele Interaktionen stattfinden. Etwa auf Blogs oder Literaturplattformen. Damit beschäftigen wir uns bereits – nicht wegen einer Präferenz für die Inhalte, sondern weil sie als Plattform fürs erste handhabbar sind.
iRights.info: Facebook zum Beispiel ist einerseits ein Teil des öffentlichen Lebens, andererseits wird es zur privaten Kommunikation in der Öffentlichkeit genutzt. Wo ziehen Sie da die Grenze, was aufbewahrt werden soll?
Ute Schwens: Als das Gesetz über die Deutsche Nationalbibliothek 2006 überarbeitet und unser Sammelauftrag auf Netzpublikationen erweitert wurde, haben wir bereits eine erste Definition erarbeitet, was davon umfasst ist. Zunächst haben wir die einfache Regel aufgestellt, beim digitalen Sammeln mit solchen Inhalten anzufangen, die ein physisches Pendant haben. Wir sammeln also unter anderem die digitalen Entsprechungen von Büchern, Zeitschriften und Musik.
Des Weiteren haben wir gesagt, dass wir das Web nur selektiv sammeln können. Bei der Gesetzesnovellierung war bereits klar, dass wir zum Beispiel keine Kommunikationsplattformen sammeln sollen.
Aber das Web entwickelt sich täglich weiter, sodass manche Unterscheidungen nicht mehr so klar sind wie zu Zeiten, als das Gesetz formuliert wurde. In einer konkretisierenden Verordnung zum Gesetz haben wir unter anderem festgelegt, keine rein privaten Webseiten zu sammeln. Seinerzeit dachten wir da beispielsweise an private Seiten mit Urlaubsfotos – die sammeln wir nicht.
Auf Plattformen und in den sozialen Medien ist das heute noch stärker vermischt und nicht mehr so leicht zu trennen. Für uns wird es auch hier um einen beispielhaften Ausschnitt gehen, der in der Zukunft zeigen wird, wie es gestern war.
Website-Tausch mit Bibliotheken
iRights.info: Bislang galt das deutsche Urheberrecht als Hürde zum Aufbau eines Webarchivs. Im März 2018 tritt eine Reform in Kraft, das „Urheberrechts-Wissensgesellschafts-Gesetz“. Was ändert sich für die Nationalbibliothek?
Ute Schwens: Durch das Gesetz ist eine rechtliche Lücke geschlossen worden. Wir hatten aus urheberrechtlicher Sicht bislang keine Sicherheit, dass wir Internetinhalte überhaupt im Wege des Webharvestings einsammeln dürfen. Nun ist klar, dass wir das dürfen. Es hat sich zwar niemand über unsere ersten Schritte und Tests beschwert, aber es war eben eine Lücke. Jetzt stehen wir beim Sammeln auf einer rechtssicheren Grundlage.
Zum anderen wird es mit dem neuen Gesetz möglich, mit weiteren sogenannten Pflichtexemplarbibliotheken zusammenzuarbeiten. Neben der DNB als Bundeseinrichtung gibt es solche Bibliotheken auch in den Bundesländern. Wir dürfen nun innerhalb der Pflichtexemplarbibliotheken archivierte Webseiten austauschen, wenn es zur Erfüllung des gesetzlichen Sammelauftrags gehört. Bislang hätten wir dazu den Rechteinhaber fragen müssen, der etwa im Impressum einer archivierten Website genannt wird. Das ist sehr aufwändig.
Während manche Teile des neuen Urheberrechts zudem befristet und an eine Evaluierung geknüpft sind, gilt das nicht für die Regelungen, die unmittelbar die DNB betreffen. Daher glauben wir, dass wir jetzt eine rechtssichere Basis haben und uns in drei Jahren nicht vorgehalten werden wird, dass das, was wir tun, nun doch nicht mehr sein dürfe.
Verlage und die DNB
iRights.info: Dennoch gab es erhebliche Diskussionen und auch Protest. Die FAZ veröffentlichte einen offenen Brief in eigener Sache. Der Vorwurf lautete, mit dem Gesetz werde ein kostenloses Zeitungsarchiv aufgebaut und das Archivgeschäft der Verlage zerstört.
Ute Schwens: Beim Webharvesting sammeln wir nur Inhalte, die frei im Netz verfügbar sind – nicht also solche, die nur mit Anmeldung oder hinter einer Bezahlschranke verfügbar sind. Die FAZ stellt manche ihrer Artikel temporär frei ins Netz und hatte Sorge, dass wir womöglich gezielt die jeweils gerade frei zugänglichen Artikel einsammeln und diese bei uns weiterhin frei zugänglich halten würden.
Darum ging es uns jedoch nie, da gab es eine ganze Reihe an Missverständnissen. Es bleibt ja in jedem Fall dabei, dass wir die archivierten Seiten nicht ins Netz stellen dürfen. Wir hätten uns gewünscht, dass wir zumindest solche Angebote, die ohnehin frei im Netz stehen, auch von uns aus frei verfügbar anbieten können. Aber das dürfen wir ohnehin nicht, dabei bleibt es auch. Das ist jetzt kein Thema mehr zwischen der FAZ und uns.
iRights.info: Als Nutzer fragt man sich, warum man in den Lesesaal der Nationalbibliothek nach Leipzig oder Frankfurt fahren muss, um eine archivierte Website zu lesen. Warum geht das zum Beispiel nicht in meiner Bibliothek vor Ort?
Ute Schwens: Eine Stadtbibliothek zum Beispiel darf aus urheberrechtlichen Gründen nicht ohne Weiteres Webseiten einsammeln. Zwischen der DNB und den Pflichtexemplarbibliotheken der Länder dürfen jetzt allerdings, wie erwähnt, auch Netzpublikationen übermittelt werden. Es ist aber noch nicht so weit, dass man von der DNB archivierte Webseiten in jeder Bibliothek einsehen kann.
Die Regelungen dazu betreffen nicht nur Webseiten, sondern auch digitale Publikationen, etwa von Verlagen. Bei einem kompletten Austausch der Inhalte unter den Bibliotheken würden die Verlage tatsächlich geschädigt. Aber innerhalb von Bibliotheken, die einen entsprechenden gesetzlichen Auftrag haben, streben wir das an.
Zum Beispiel haben wir etwa 1.400 Tageszeitungen digital in der DNB. Um nicht alles ein weiteres Mal einsammeln zu müssen, greifen die Pflichtexemplarbibliotheken der Länder auf diejenigen Titel zurück, die in ihrem Land erscheinen und können sie in ihren Lesesälen verfügbar machen. Das klappt schon jetzt. So wollen wir es auch mit archivierten Webseiten machen.
Was sagen Sie dazu?