Daten und Creative-Commons-Lizenzen – Trainingsmaterial für Künstliche Intelligenz
iRights.info berichtet und informiert seit Jahren über Creative Commons. In loser Folge stellen wir typische und oft nachgefragte Themen aus den deutschen Creative-Commons-FAQs vor und bereiten sie mit verschiedenen Schwerpunkten auf.
Insgesamt enthält die deutsche CC-Hilfeseite rund 130 Fragen und Antworten. In diesem Text geht es um grundsätzliche Fragen bei der Öffnung und Nutzung von Daten und Datenbanken mithilfe von Creative-Commons-Lizenzen sowie der Anwendung auf Künstliche-Intelligenz-Systeme.
Creative Commons: Häufig gestellte Fragen
Seit Mitte 2021 liegen rund 130 oft gestellte Fragen und ihre Antworten zu Creative Commons in deutscher Sprache vor. Die deutschen CC-FAQs („Frequently Asked Questions“) orientieren sich in Form und Inhalt am Vorbild der offiziellen US-amerikanischen CC-FAQs, kommen aber mit zahlreichen Besonderheiten für das deutsche und das europäische Recht.
Die deutschen CC-FAQs stehen hier kostenlos zur Verfügung. Eine Aufteilung in fünf große Blöcke erleichtert die Orientierung:
1. Über Creative Commons
2. Allgemeine Information über die CC-Lizenzen
3. Für Lizenzgeberinnen und Lizenzgeber
4. Für Lizenznehmerinnen und Lizenznehmer
5. Datenbanken, Daten und KI
Die deutschen FAQs stehen selbst unter einer Creative Commons-Lizenz (CC BY 4.0). Erstellt wurde das deutsche FAQ-Informationsangebot von Mitgliedern des deutschen Chapters von Creative Commons. Federführend dabei war Fabian Rack, Rechtsanwalt bei iRights.Law und Autor bei iRights.info.
Nicht an allen Forschungsdaten besteht urheberrechtlicher Schutz. In vielen Fachdisziplinen sind Daten und die dazugehörigen Datenbanken ohnehin frei zugänglich.
Wer der Allgemeinheit ermöglichen möchte, urheberrechtlich geschützte (Forschungs-)Daten und Datenbanken frei zu nutzen, kann sie mittels der Lizenz CC0 freigeben. Damit werden sie in die Gemeinfreiheit – auch genannt Public Domain – entlassen, indem weltweit auf alle urheberrechtlichen und verwandten Schutzrechte verzichtet wird, soweit das gesetzlich möglich ist.
Wer aber entscheidet, ob und wann eine Datenbank freigegeben werden darf? Was fällt bei Datenbanken alles unter die CC-Lizenz? Und wie lassen sich CC-lizenzierte Daten für das Trainieren Künstlicher Intelligenz nutzen? In Ergänzung zu Teil 4 der CC-FAQs haben wir Details zu Datenbanken und Creative Commons aus den FAQs zusammengetragen.
Was alles fällt unter die CC-Lizenz, wenn eine Datenbank unter einer CC-Lizenz lizenziert ist? Auch die jeweiligen Daten beziehungsweise Elemente aus der Datenbank?
Ob die CC-Lizenz an einer Datenbank auch deren Inhalte umfasst, hängt von der Umsetzung der Lizenzierung ab: Lizenzgeber:innen können Datenbanken als ganzes lizenzieren – also sowohl deren Struktur als auch die enthaltenen Elemente. Es ist aber auch möglich, die Datenbank und die darin enthaltenen Elemente separat und damit nicht einheitlich zu lizenzieren.
Wer eine Datenbank ohne weitere Hinweise mit einer CC-Lizenz versieht, lizenziert damit auch die einzelnen Elemente dieser Datenbank. Ohne weitere Erklärung können also bei der CC-Lizenzierung der Datenbank auch die einzelnen Elemente gemäß der Lizenz genutzt werden (die Elemente einer Datenbank fallen aber natürlich nur unter die Lizenzbedingungen, sofern sie überhaupt nach dem Urheberrecht oder verwandten Schutzrechten geschützt sind, siehe hier).
Sollen hingegen die Lizenzierung der Datenbank und ihrer enthaltenen Elemente (wie zum Beispiel Abbildungen) nicht gleich laufen, so müssen Lizenzgeber:innen das ausdrücklich kenntlich machen. Für diesen Anwendungsfall gibt es auch spezielle Lizenzen, die dies ausdrücklich klarstellen: Um allein eine Datenbank zu lizenzieren – also ihre Struktur, nicht die enthaltenen unabhängigen Elemente –, bieten sich die Open Data Commons Attribution License (ODC-By) beziehungsweise die Open Data Commons Open Database License (ODbL) an.
Wer entscheidet bei einer Datenbank darüber, ob sie unter einer CC-Lizenz geteilt werden darf?
Wie bei allen anderen Schutzgegenständen auch bestimmt der oder bestimmen die Rechteinhaber, ob eine Datenbank unter einer CC-Lizenz geteilt werden darf. Bei einer Datenbank nach dem sui generis-Schutz (siehe hier) ist dies der „Datenbankhersteller“. Anders als bei einem (Datenbank-)Werk ist Rechteinhaber nicht immer die Person oder Personengruppe, die die Datenbank geschaffen hat. Datenbankhersteller ist vielmehr, wer die Investition in die Beschaffung, Überprüfung oder Darstellung der Sammlung von Datenbankelementen geleistet hat.
Wenn Sie also die Datenbank CC-lizenziert veröffentlichen möchten und selbst nicht der Datenbankhersteller sind, müssen Sie dafür sorgen, dass Sie dafür beim Datenbankhersteller die nötigen Rechte einholen.
Möglicherweise muss man sich beim Teilen der Datenbank auch um die Rechte bezüglich der einzelnen in der Datenbank enthaltenen Elemente kümmern: Sofern diese Elemente für sich geschützt sind und Dritte Rechte daran innehaben, müssen auch diese Personen die nötigen Rechte einräumen, damit die Elemente der Datenbank (mit)lizenziert werden können. Wenn Sie die nötigen Rechte nicht haben, müssen Sie solche Elemente explizit von der CC-Lizenz ausnehmen, unter der die Datenbank steht. Sofern möglich sollte dies aber vermieden werden, da dies für die Nachnutzung der Datenbank(inhalte) eine Einschränkung darstellt.
Können CC-lizenzierte Inhalte für die Entwicklung neuer Technologien als Trainingsmaterial für Künstliche Intelligenz/Machine Learning eingesetzt werden?
Ja, die CC-Lizenzen sind auch für solche Nutzungen ausgelegt. Die gemäß der CC-Lizenzbedingung erlaubten Nutzungen sind so weit gefasst, dass sie auch für neue Technologien offen sind. Das ist einer der großen Vorteile beim Einsatz von CC-Lizenzen. Möglicherweise ist diese Nutzung aber auch ohne Lizenz zulässig.
Sofern beim Input von Trainingsmaterial für KI-Anwendungen urheberrechtlich geschützte Inhalte kopiert, abgewandelt oder geteilt werden müssen, decken die CC-Lizenzen dies ab – mit den jeweiligen Einschränkungen, falls die kommerzielle Nutzung (NC) oder Abwandlungen (ND) verboten sind.
Es ist aber sehr gut möglich, dass eine gesetzliche Erlaubnis diese Nutzungsformen erlaubt. Dann kommt es auf die CC-Lizenz gar nicht mehr an. Beispielsweise existiert in Deutschland eine Schranke für Text und Data Mining, die Kopien und Veränderungen von urheberrechtlich geschützten Inhalten für die automatisierte Analyse für nicht-kommerzielle Forschungszwecke erlaubt. In diesem Fall müssen sich Nutzer nicht an die Bedingungen der Lizenz halten, weil bei gesetzlichen Erlaubnissen deren Beschränkungen nicht greifen. Jüngst (Stand: 9. Juni 2021) werden auf Grund einer Reform des EU-Urheberrechts weitere neue Erlaubnisse für Mining geschaffen, die auch kommerzielle Umgebungen erfassen.
Welche weiteren Rechte anderer muss ich bei Trainingsmaterial für Machine Learning neben dem Urheberrecht beachten?
Möglicherweise berührt das Trainingsmaterial, das Sie einsetzen, oder die Ergebnisse, die Sie erzeugen, das Datenschutzrecht und Persönlichkeitsrechte, oder es kann mit ethischen Standards der Forschung in Konflikt geraten. Für diese Aspekte enthalten die CC-Lizenzen keine Regelung, denn die Nutzungsfreigabe, die die CC-Lizenzen erzeugen, ist allein auf den Schutz gemäß dem Urheberrecht gerichtet.
Die vier oben angeführten Fragen und Antworten entstammen den deutschen Creative-Commons-FAQs (Autoren: Rack/Jaeger/Klimpel/Kreutzer/Weitzmann) und stehen unter der Lizenz CC-BY-4.0. Die Auswahl der FAQs für diesen Beitrag erfolgte durch die Redaktion von iRights.info (El-Auwad/Fischer).
Übersicht: CC-FAQs auf iRights.info
Fragen oder Unsicherheiten bei Creative-Commons-Lizenzen? Die deutschen CC-FAQs helfen weiter! iRights.info bietet dazu eine siebenteilige Übersicht:
- Teil 1: Wozu es Creative-Commons-Lizenzen braucht und wie genau sie funktionieren
- Teil 2: Creative-Commons-Lizenzmodule richtig verstehen und anwenden – Beispiel Namensnennung (CC-BY)
- Teil 3: Creative-Commons-Lizenzmodule richtig kombinieren – Besonderheiten des NC-Moduls (non-commercial)
- Teil 4: Datenbanken und Creative-Commons-Lizenzen: Was gilt es grundsätzlich zu beachten?
- Teil 5: Daten und Creative-Commons-Lizenzen – Trainingsmaterial für Künstliche Intelligenz
- Teil 6: Creative Commons: Was tun bei Lizenzverstößen? Wie setze ich meine Rechte durch?
- Teil 7: Wie stehen Creative Commons zu Public Domain und Open Access?
Außerdem interessant: Das iRights.info-Dossier zu Creative Commons mit vielen hilfreichen Tipps und Texten.
Was sagen Sie dazu?