CC Signals – Anstandsregeln fürs KI-Training?
Traffic Signal with Four Arrow Signals by ykanazawa1999, CC BY-NC-SA 2.0
Dürfen KI-Anbieter fremde Inhalte im Netz sammeln, um damit ihre Modelle zu trainieren? Das ist wohl die größte Urheberrechtsfrage unserer Zeit. Abseits juristischer Auslegungsfragen und der Notwendigkeit, Szenario für Szenario gesondert zu betrachten, steht eine ernst zu nehmende Sorge im Raum. Denn sei es bei einem Kochrezept, den Ergebnissen investigativer Recherchen oder wissenschaftlichen Fragen – häufig gibt man sich schon mit der KI-Antwort zufrieden. Den Originalquellen gehen Publikum, Bekanntheit und Werbeeinnahmen verloren.
Bricht KI den Gesellschaftsvertrag der Openness?
Dem will die Organisation Creative Commons mit sogenannten „Signals“ begegnen. Das Konzept befindet sich derzeit in Entwicklung. In einem begleitenden Konzeptpapier „From Human Content to Machine Data“ beanstandet Creative Commons einen Bruch des Gesellschaftsvertrags der Openness, indem Informationen vermehrt nur noch über KI-Systeme vermittelt werden, die ihr Wissen aus aufwendig erstellten Originalquellen beziehen.
Nun wird es kaum überraschen, dass die Organisation Creative Commons, die seit 25 Jahren ein freies Lizenzmodell pflegt, sich für urheberrechtliche Nutzungsfreiheiten einsetzt und sich für offenes Wissen ausspricht, den Verwerfungen durch KI nicht mit einem strengeren Urheberrecht entgegnen will.
Keine neue Non-AI-CC-Lizenz
Die Grundlage für das Training von KI ist das massenhafte Einsammeln und Verarbeiten von Websites, Bildern, Texten, wissenschaftlichen Papers, aber auch freien und frei lizenzierten Inhalten wie der Wikipedia. Wo genau die Grenzen der gesetzlichen Erlaubnisse verlaufen (in der EU das Text und Data Mining, in den USA Fair Use), ist umstritten und derzeit Gegenstand gerichtlicher Auseinandersetzung. Dabei macht es gewiss einen Unterschied, ob etwa ein Sprachmodell besseres Übersetzen „lernt“ und sich dafür an fremden Texten trainiert, oder ob fremde Fachtexte kopiert werden, um eine Konkurrenzdatenbank aufzubauen.
Dies liefert auch einen der Gründe für die Organisation CC, keine neue „Non-AI“-Lizenz zu schaffen: Ein pauschales AI-Trainingsverbot in einer Lizenz stimmte häufig nicht mit der gesetzlichen Lage überein; die CC-Lizenzen haben nie etwas eingeschränkt, was gesetzlich erlaubt ist. Mit pauschalen KI-Verboten würde, so CC in dem erwähnten Papier, ein Monopol über freies Wissen behauptet, das es nicht gibt. Zudem würden auch wünschenswerte, unschädliche Nutzungen verhindert.
Im Übrigen ist unter dem bisherigen CC-Lizenzmodell KI-Training der lizenzierten Inhalte erlaubt; eine Einschränkung geschieht allenfalls für kommerzielle Zwecke durch das Lizenzmodul NC.
CC Signals: „Anstandsregeln“ statt Verboten
Der – neben technischen Maßnahmen – derzeit einzig rechtlich effektive Weg gegen das Training sind die KI-Opt-Outs (auch „Nutzungsvorbehalte“ genannt). Sie sind zumindest innerhalb der EU für kommerzielle Anbieter verbindlich.
Kein pauschales An oder Aus
Doch Bestimmungen zum KI-Training binär in „An oder Aus“ zu denken, ist in den Augen von CC zu pauschal. Vielmehr solle eine Nuancierung für den „machine reuse“ her, die ein neues Geben und Nehmen zwischen Inhalteerstellern und KI-Anbietern ermöglicht (CC spricht von „Reziprozität“).
Dem Konzept zufolge sollen „stewards of large collections of content or data“ sogenannte Signals zum Einsatz bringen, um eine Aussage darüber zu treffen, wie Inhalte und Daten genutzt werden dürfen. „Stewards“ können Plattform- und Infrastrukturbetreiber wie Kulturerbe-Einrichtungen, Repositorien oder Datenbanken gescannter Bücher sein.
Das Werkzeug der CC Signals adressiert weniger einzelne Kreative, die im CC-Kosmos als CC-Lizenzgeber Werk für Werk lizenzieren. Stattdessen geben die Stewards dem Modell zufolge als „Erklärende Partei“ („Declaring Party“) eine Ansage, wie unterschiedliche Fälle von „machine reuse“ von Sammlungen oder Datensätzen erfolgen soll.
Die Signals: Credit, Contribution und Open
Folgende Auswahl an „Signal Elements“ gibt es – samt Icons:
Credit. Es muss eine angemessene Nennung erfolgen („appropriate credit“). Ein KI-Anbieter muss hiernach benennen, wenn er mit einem Trainingsdatensatz sein Modell trainiert hat. Gemeint ist auch die Nutzung im Rahmen von sogenannter Retrieval Augmented Generation (RAG): Wenn das KI-System mit einem bestehenden Sprachmodell auf eine externe Wissensquelle der Declaring Party zugreift und mit deren Hilfe die Antwort generiert, so muss ein entsprechender Link auf die Quelle im User-Output erscheinen. So ähnlich handhaben es auch schon heutige Deep-Research-Angebote.
Direct Contribution. Wer einen Datensatz zum „machine reuse“ nutzt, soll einen Beitrag zum Betrieb des Dienstes leisten. Dies kann eine Geldzahlung oder eine Sachleistung sein. Ausdrücklich nicht gemeint ist hier eine Art Lizenzgebühr für die Nutzung.
Ecosystem Contribution. Auch hiernach soll ein Beitrag in Form von Geld oder Sachen fließen, diesmal aber nicht an die „Declaring Party“, sondern an das Ökosystem generell, um die Commons als Ganzes zu unterstützen. Ein interessanter Gedanke, aber hier ist das Konzept noch etwas nebulös.
Open. Das nutzende System muss hiernach die Codes oder generierte Datensätze anderen zur Nutzung zur Verfügung stellen. Zur genaueren Definition von „Open“ wird auf Standards verwiesen wie das Model Openness Framework oder die Open Source AI Definition. Eine Art Copyleft unter den Signals.
CC Signals sollen maschinenlesbar sein
Die CC Signals sollen von Crawlern verstanden werden, also maschinenlesbar sein. Zur technischen Implementierung stellt CC den Entwicklungsstand auf github dar. CC will zu allen Punkten noch best practices entwickeln, was besonders zu den beiden Contribution-Signals interessant werden dürfte. Die einzelnen Signal-Elemente sollen – abgesehen von „Credit“, das wie „BY – Attribution“ bei den CC-Lizenzen das Basismodul bildet – untereinander nicht kombinierbar sein.
Anders als die CC-Lizenzen knüpfen die Signals nicht am einzelnen Werk an, als mehr an eine Sammlung von Inhalten – die im Übrigen auch nicht urheberrechtlich geschützt sein müssen. Ein weiterer konzeptioneller Unterschied zu den CC-Lizenzen liegt darin, dass sie sich nur an „machine reuse“ bzw. „AI developers“ richtet, nicht an die Allgemeinheit und (jede) urheberrechtsrelevante Nutzung.
CC Signals – rechtlich verbindlich?
Die CC Signals setzen also Bedingungen für den „machine reuse“. Direkt vergleichbar mit dem „Some rights reserved“-Modell der CC-Lizenzen ist dies jedoch nicht. Denn anders als bei den CC-Lizenzen beanspruchen die CC Signals mehr eine soziale denn eine rechtliche Verbindlichkeit.
Hier wird man genauer hinsehen müssen. So sind durchaus Konstellationen denkbar, in denen die CC Signals für KI-Entwickler rechtsverbindlich werden. Dabei ist vorausgesetzt, dass ein Urheberrecht an den Inhalten besteht – sei es, weil Texte oder Bilder für „machine reuse“ kopiert werden, oder weil etwa eine für KI-Zwecke kopierte Datenbank eines Stewards als Ganzes geschützt ist. In diesen Fällen könnten die CC Signals als wirksamer KI-Opt-Out zu sehen sein – mit dem Effekt, dass zumindest kommerzielle Anbieter sich an die Signals halten müssen. Gleichzeitig wären die Signals eine Rückausnahme vom erklärten Opt-Out, eben unter den oben genannten Bedingungen Credit + Direct Contribution, Ecosystem Contribution oder Open. Fachjuristische Details werden noch zu klären sein.
Beispiele für Einsatzszenarien
Ein paar Beispiele lassen sich schon einmal bilden:
Ein Museum stellt eine Sammlung gemeinfreier, sprich rechtefreier Gemäldedigitalisate zur Verfügung. Crawlt nun ein kommerzieller KI-Anbieter die gesamte Datenbank ab und ist dies nach dem Datenbankherstellerrecht erlaubnispflichtig, könnten die CC Signals verbindlich sein und mit „Credit + Direct Contribution“ maschineninterpretierbar die Bedingung setzen, dass die Sammlung des Museums benannt werden (Credit) und ein Obolus an das bereitstellende Museum fließen muss (Direct Contribution).
Will ein Zeitungsportal zwar das Training generativer KI verhindern, nicht aber das Training einer Übersetzungs-KI, und will es gleichzeitig die Bedingung setzen, dass das trainierte Übersetzungs-Modell offen zur Verfügung gestellt wird, könnte das Portal eine Kombination aus den AI Preferences der IETF (Internet Engineering Task Force) und den CC Signals (Credit + Open) setzen. Hier kommt zum Tragen, dass die IETF mit ihren AI Preferences Szenarien wie allgemeines KI-Training und generative KI unterscheidet. Die Erläuterung der CC Signals erwähnt ausdrücklich eine Kombinierbarkeit mit den IETF-Signals.
Wo – anders als in den dargestellten Konstellationen – kein Urheberrecht greift, sind die Signals nicht bindend, sondern eben eine „Präferenz“. Orientierend am Wort „Signal“ sollte man wohl eher von „Impulsen“ als von Bedingungen sprechen.
Komplizierter wird es noch einmal, wenn Materialien sowohl CC-lizenziert als auch in einem CC Signals-Ökosystem anzutreffen sind: Hier hat das KI-System wohl die Wahl, die Inhalte fürs „machine reuse“ schlicht auf Grundlage der CC-Lizenz zu nutzen. Denn ein Konnex zwischen beidem oder gar eine Einschränkung der CC-Lizenz durch CC Signals ist nicht vorgesehen.
Das soziale Gefüge der Openness: Nicht nur Recht
Die Organisation CC ist als Fürsprecherin sowohl von Kreativen als auch von Openness und freier Zugänglichkeit im Zugzwang einer Positionierung zu KI in keiner ganz einfachen Situation. Dies zeigt sich auch an der Kritik, die im Forum bei github nachlesbar ist, und in der teils energisch formuliert wird, dass die CC Signals keinen Schutz gegen die Ausnutzung durch KI böten.
Offen, ob sich das Konzept bewährt
Dennoch ist das, was CC tut, konzeptionell folgerichtig. Die Werkzeuge von CC bauen immer schon auf dem bestehenden Urheberrecht auf und haben noch nie eigene Schutzrechte oder Restriktionen über das Gesetz hinaus geschaffen. Außerdem tragen die CC-Werkzeuge seit jeher zur Vermeidung von Transaktionskosten bei: Offenheit und Standards statt geschlossener Zugänge und individueller Aushandlung.
Sobald die CC Signals fertig entwickelt und im Einsatz sind, wird sich zeigen müssen, ob KI-Anbieter sie als soziale Norm achten werden – und inwieweit sich die Signals rechtlich durchsetzen lassen, wenn sie verbindlich sind, aber eine Nutzung im Rahmen des „machine reuse“ schwer nachweisbar ist.
Ohne Credit kein Anreiz
Auch Betreibern von KI-Systemen wird schließlich klar sein, dass das Geben und Nehmen im Kontext von KI neu ausgehandelt werden muss. Denn wenn Inhalte mangels Anreiz nicht mehr offen zur Verfügung gestellt werden oder überhaupt menschliche Schöpfungen unterbleiben, woran soll eine KI dann künftig lernen?
Das Konzept der CC Signals ist also von der – wünschenswerten – Vorstellung getragen, Openness beizubehalten, eine Alternative zu individuellen KI-Lizenzlösungen zu bieten und damit Startups und Nonprofit-Organisationen nicht außen vor zu lassen. Sie sind ein Versuch, Ordnung zu schaffen in einer Phase, in der sich zu KI alles sortieren muss.
CC hat angekündigt, in den nächsten Monaten weitere Details zu den Signals und deren Implementierung zu veröffentlichen.
Sie möchten iRights.info unterstützen?
iRights.info informiert und erklärt rund um das Thema „Urheberrecht und Kreativität in der digitalen Welt“. Alle Texte erscheinen kostenlos und offen lizenziert.
Wenn Sie mögen, können Sie uns über die gemeinnützige Spendenplattform Betterplace unterstützen und dafür eine Spendenbescheinigung erhalten. Betterplace akzeptiert PayPal, Bankeinzug, Kreditkarte, paydirekt oder Überweisung.
Besonders freuen wir uns über einen regelmäßigen Beitrag, beispielsweise als monatlicher Dauerauftrag. Für Ihre Unterstützung dankt Ihnen herzlich der gemeinnützige iRights e.V.!
DOI für diesen Text: https://doi.org/10.59350/af4sr-eax87 · automatische DOI-Vergabe für Blogs über The Rogue Scholar






Was sagen Sie dazu?