Was können AI Preferences, Paul Keller?
iRights (Fabian Rack): Was ist Ihre Rolle in der AI Preference Group der IETF?
Paul Keller: In diese Rolle bin ich mehr oder weniger hineingeraten. Wir hatten bereits Vorarbeit zu Internet-Standardisierungsprozessen geleistet, was mich letztlich in die Rolle des Editors für eines der zwei zentralen Dokumente geführt hat. Da das Ausgangsdokument von mir stammte, konnte ich meine Ideen einbringen, auch wenn sich solche Entwürfe durch die Gruppenarbeit massiv verändern können. Gemeinsam mit meinem Co-Editor Martin Thompson von Mozilla versuchen wir nun, den Prozess zu strukturieren und die Arbeitsgruppe zu einem erfolgreichen Abschluss zu bringen.
iRights: Sie sprechen von dem Papier, das vor einigen Jahren erschien und Umsetzungsmöglichkeiten für Opt-outs vorschlug?
Keller: Genau. Wir haben mittlerweile vier Papiere in dieser Reihe veröffentlicht. Das dritte aus dem März 2025 enthielt einen Annex mit einem konkreten Vorschlag für ein Vokabular. Dieser Annex bildet nun die Grundlage für den Internet-Draft der IETF-Arbeitsgruppe.
iRights: Was ist das Ziel dieser „Preferences“? Geht es allein um Nutzungsvorbehalte im Sinne der TDM-Nutzung, die dann auch eine Rolle für das KI-Training spielen? Oder geht es darüber hinaus? Ich denke hier zum Beispiel an Ansätze zu Pay-per-Crawl.
Keller: Worum es genau geht, das ist teilweise der Kern des Streits. Das Feld entwickelt sich so rasant, dass man Konzepte von vor zwei Monaten neu bewerten muss.
Ursprünglich ging es uns um die Schnittstelle zwischen europäischem Urheberrecht und dem KI-Training – also der Nutzung geschützter Werke als Input. Die TDM-Schranken des Gesetzgebers passen eigentlich gut auf dieses Phänomen, da die Definition – das Finden von Mustern und Korrelationen – die technischen Schritte beim KI-Training recht gut beschreibt.
Das Urheberrecht sieht zugleich vor, dass Rechteinhaber Vorbehalte geltend machen können, die bei Online-Inhalten maschinenlesbar sein müssen, und der AI Act sagt, dass man sich beim Trainieren von Modellen daran halten muss. Lange dachte man, eine einfache robots.txt reiche für die Opt-Outs aus, doch so einfach ließ sich die Frage nach dem richtigen maschinenlesbaren Vorbehalt nicht beantworten.
Global betrachtet wird es noch komplizierter: In den USA gilt Fair Use – ein Opt-Out im europäischen Sinne existiert dort nicht; Gerichte entscheiden unabhängig, ob eine Nutzung zulässig ist. Und in UK fehlt eine Schranke für kommerzielles TDM, weshalb man dort eher von einem Opt-in-Modell sprechen muss – denn Training ist ohne explizite Erlaubnis kaum möglich.
Opt-Out, Opt-In – all diese Kategorien funktionieren nicht global. Deshalb sprechen wir bei der IETF von „AI Preferences“. Es geht darum, die bevorzugte Nutzung maschinenlesbar zu artikulieren, was dann je nach nationalem Rechtsrahmen unterschiedliche Wirkungen entfaltet.

Foto: CC BY 4.0, Stewart Acker Holt
Der Politikwissenschaftler Paul Keller ist Mitgründer von Open Future, einem Thinktank, der sich mit offenem Internet, digitalen Gemeingüter und europäischer Digitalpolitik befasst.
Er ist außerdem Präsident der COMMUNIA Association for the Public Domain.
iRights: Der Fokus hat sich zudem über das reine Training hinaus erweitert…
Keller: Massiv. Heute interagieren KI-Systeme auch nach dem Training mit Werken – etwa durch KI-Zusammenfassungen oder das Einlesen von Dokumenten via Retrieval Augmented Generation, kurz RAG. Für Verleger ist das ein großes Problem, da diese Zusammenfassungen die eigentliche Quelle oft ersetzen. Auch hier stellt sich die Frage: Brauchen wir dafür eigene Präferenzsignale?
iRights: An wen würden sich solche Signale richten? An die Systemanbieter oder die Endnutzer, die beispielsweise Texte zusammenfassen lassen?
Keller: Darüber wird heftig gestritten. Rechteinhaber streben nach maximaler Kontrolle und würden am liebsten für jede Nachnutzung – ähnlich wie beim Pay-per-Crawl – eine Zustimmung oder Vergütung sehen. Das geht jedoch weit über das geltende Urheberrecht hinaus. Wenn ich Zugang zu einem Artikel habe, darf ich ihn lesen und für mich (oder Kollegen) zusammenfassen. Ein Chatbot ist hier oft nur ein Werkzeug des Nutzers.
Schwieriger wird es, wenn das System selbstständig im Netz recherchiert und Ergebnisse aggregiert. Hier argumentieren viele, dass die Aktion vom System ausgeht und nicht mehr vom individuellen Nutzer. Besonders Online-Publisher sehen dadurch ihr Geschäftsmodell gefährdet. Das Urheberrecht bietet hier momentan keine scharfen Grenzen mehr.
iRights: Ein weiteres Thema ist die Suche. Manche wollen das Training untersagen, aber in KI-Suchmaschinen auffindbar bleiben. Gibt es dafür bereits Lösungen?
Keller: Ein finales Vokabular gibt es noch nicht. Aber es herrscht Einigkeit darüber, dass es eine Differenzierung geben muss. Der Code of Practice der EU-Kommission zum AI Acts sieht vor, dass ein Opt-out für das Training nicht dazu führen darf, dass Inhalte aus der normalen Suche verschwinden.
Die technische Umsetzung ist jedoch kompliziert. Suchmaschinen basieren heute zu einem Großteil auf KI. Die Anbieter sagen: „Suche ohne KI gibt es nicht mehr.“ Die Rechteinhaber wollen aber „nur“ die klassische Suche, kein Training. Dass beides oft technisch gekoppelt ist, ist eher eine geschäftspolitische Entscheidung der großen Anbieter als eine technische Notwendigkeit. Das hat viel Vertrauen zerstört.
Was ist die Internet Engineering Task Force (IETF)?
Die Internet Engineering Task Force (IETF) wurde 1986 gegründet und ist die führende Organisation für die Entwicklung von Internet-Standards und Best Practices. Die Standards der IETF sind nicht verbindlich, werden aber auf freiwilliger Basis häufig von Internetnutzern, Netzbetreibern und Geräteherstellern übernommen. Die IETF trägt auf diese Weise zur Weiterentwicklung der technischen Basis des Internets bei.
iRights: Wie sieht es mit gemeinfreien Materialien aus? Sind die AI Preferences auch hierfür gedacht, etwa im Bereich des kulturellen Erbes?
Keller: Das ist ein Dilemma. Grundsätzlich sollte Gemeinfreies frei bleiben. Doch wir erleben eine massive Machtkonzentration: Wenige Akteure saugen das gesamte Wissen auf. Zudem verursacht die Bot-Nachfrage enorme Kosten. Museen und Bibliotheken, die ihre Bestände digitalisieren, werden nun von Scraping-Bots überrannt, was ihre Infrastruktur belastet.
Hier entstehen neue Modelle wie Wikimedia Enterprise. Wikipedia bleibt für Menschen frei, aber kommerzielle Anbieter, die tagesaktuelle Datenmassen benötigen, werden auf kostenpflichtige Schnittstellen verwiesen. Das ist kein urheberrechtlicher Vorbehalt, sondern eine vertragliche Lösung für den Infrastrukturzugang.
Strukturell wäre es vielleicht sinnvoller, statt über individuelle Lizenzen über eine KI-Abgabe oder Steuer nachzudenken. Kommerzielle Anbieter, die auf dem digitalisierten Menschheitswissen aufbauen, könnten so Institutionen wie Bibliotheken oder Wikipedia finanzieren, die dieses Wissen kuratieren und bewahren.
iRights: Wer könnte solche Lösungen am besten umsetzen? Braucht es globale Verträge oder reicht die EU-Ebene?
Keller: Utopisch gesehen bräuchten wir eine globale Lösung, da KI-Modelle weltweit operieren. Realistisch gesehen ist die EU mit ihrer Marktmacht von 500 Millionen Nutzern der beste Hebel. Einzelne Nationalstaaten oder Verwertungsgesellschaften sind gegenüber den Tech-Giganten oft zu machtlos. Es braucht regulative Kraft, da dieser Prozess auf freiwilliger Basis kaum funktionieren wird.
iRights: Was halten Sie von den CC Signals? Creative Commons hat sich ja gegen eine eigene „Non-AI-Lizenz“ entschieden.
Keller: Die CC Signals sind konzeptionell spannend, etwa, wo es mit der „Ecosystem Contribution“ um einen Beitrag fürs Training geht. Auch „Open“ aus den CC Signals ist ein spannender Ansatz, denn es folgt dem Gedanken: Eigentlich müssten KI-Modelle, die massiv auf Wikipedia-Daten basieren, konsequenterweise Open Source sein.
Nur: Mit der Logik des Urheberrechts ist das nur schwer zu steuern. Denn bei der Transformation von Texten in mathematische Parameter – also Zahlen und Fakten – wird der rechtliche Mechanismus buchstäblich übersprungen. Da diese Parameter selbst nicht urheberrechtlich geschützt sind, greift die Lizenz ins Leere und kann die Offenlegung des Modells nicht erzwingen.
Das Prinzip von Share Alike und Copyleft, das Wikipedia oder Linux groß gemacht hat, sicherte das Gemeingut: Wer auf dem Wissen anderer aufbaut, muss seine eigenen Beiträge ebenfalls teilen. Etwas, das in der Softwarewelt und Open Source hervorragend funktionierte, lässt sich hier nicht ohne Weiteres übertragen. Ohne rechtlichen Zwang werden große Firmen solche sympathischen, aber freiwilligen Regeln kaum gegen ihre wirtschaftlichen Interessen befolgen. Und ich glaube nicht, dass man das jetzt auf Basis – so sympathisch wie die Idee ist – irgendwie auf freiwilliger Basis reparieren kann, wenn es als „Backup“ beim Urheberrecht nicht funktioniert hat.
iRights: Was ist das Ziel für die IETF in diesem Jahr?
Keller: Wir müssen zwei Dinge unterscheiden: Das technische Update für die robots.txt und das eigentliche Vokabular. Mein Ziel wäre es, dieses Jahr drei oder vier Grundbegriffe wie „Text and Data Mining“, „AI Training“ und „Search“ fest zu definieren. Wenn wir uns auf diesen Kern konzentrieren, minimieren wir das Risiko, das Urheberrecht versehentlich zu überdehnen. Ein gemeinsames Vokabular liegt im Interesse aller – auch der Firmen, die dann rechtssicher wissen, was sie dürfen. Aber der IETF-Prozess endet erst, wenn echter Konsens herrscht. Und der ist schwer zu erreichen.
Redaktioneller Hinweis: Dieses Interview entstand im Rahmen der fachlichen Arbeit von NFDI4Culture. Das Konsortium befasst sich mit der Infrastruktur für Kulturdaten in der Wissenschaft.
Sie möchten iRights.info unterstützen?
iRights.info informiert und erklärt rund um das Thema „Urheberrecht und Kreativität in der digitalen Welt“. Alle Texte erscheinen kostenlos und offen lizenziert.
Wenn Sie mögen, können Sie uns über die gemeinnützige Spendenplattform Betterplace unterstützen und dafür eine Spendenbescheinigung erhalten. Betterplace akzeptiert PayPal, Bankeinzug, Kreditkarte, paydirekt oder Überweisung.
Besonders freuen wir uns über einen regelmäßigen Beitrag, beispielsweise als monatlicher Dauerauftrag. Für Ihre Unterstützung dankt Ihnen herzlich der gemeinnützige iRights e.V.!
DOI für diesen Text: https://doi.org/10.59350/w6km6-vpm71 · automatische DOI-Vergabe für Blogs über The Rogue Scholar






Was sagen Sie dazu?