Computer müssen Isländisch, Lettisch, Litauisch und Maltesisch noch lernen

Foto: Börkur Sigurbjörnsson, CC BY
Als Sprecher des Deutschen nimmt man bei der Nutzung aktueller Betriebssysteme, Rechner, Telefone und Internetdienste viele komfortable Annehmlichkeiten als gegeben hin. Natürlich steht der E-Mail-Dienst in einer deutschsprachigen Version zur Verfügung, der Kalender und die Tabellenkalkulation ebenfalls. Die Textverarbeitung ist seit Jahren in der Lage, Tipp- und einfache Grammatikfehler zu markieren. Besitzt eine Software keine deutschsprachige Schnittstelle, können sich viele Menschen mit dem Englischen behelfen.
Andere europäische Sprachen mit vielen Sprechern, speziell Spanisch, aber auch Französisch und Italienisch, schneiden ähnlich gut wie das Deutsche ab. Was ist aber mit den Sprachen mit deutlich weniger Sprechern, zum Beispiel Griechisch (circa 13 Millionen Sprecher weltweit), Tschechisch (circa 9,5 Millionen), Finnisch (circa 5 Millionen) und den noch kleineren, teils regionalen Sprachen wie Slowenisch (circa 2 Millionen), Baskisch (circa 650.000) oder Isländisch (circa 245.000)?
Die EU verfügt mit ihren 28 Mitgliedsstaaten über 24 offizielle Sprachen, im geografischen Europa werden mehr als 80 Sprachen gesprochen, hinzu kommen Sprachen von Immigranten, Diplomaten und Handelspartnern. Kann innerhalb der Union von einer solide aufgestellten digitalen Teilhabe gesprochen werden, wie sie für das Englische und die wenigen großen Sprachen gang und gäbe ist?
EU will übersetzen, schafft es aber nicht
In Wirtschaft und Wissenschaft mag das Englische den Status einer Verkehrssprache besitzen, im gesellschaftlichen Alltag jedoch nicht. Weniger als die Hälfte der etwa 500 Millionen Europäer besitzen Englischkenntnisse. Viele derjenigen, die die Sprache sprechen, tun dies nur auf geringem Niveau. Die politisch gewollte Dominanz einer Sprache ist keine Option, basiert Europa doch auf dem Prinzip der Einigkeit durch Vielfalt, auch in sprachlicher Hinsicht.
Tatsächlich betrachtet die EU unsere Sprachen als integralen und schützenswerten Teil des Kulturerbes, was sich unter anderem darin widerspiegelt, dass viele Jahre lang alle im Europaparlament geführten Debatten in alle offiziellen Sprachen übersetzt wurden. Aber trotz der weltweit größten Übersetzungsabteilung, die sich die europäischen Institutionen jährlich mehr als eine Milliarde Euro kosten lassen, können die eigenen, Mehrsprachigkeit favorisierenden Regularien nicht mehr in Gänze befolgt werden. Das Textvolumen ist so immens, dass Debatten, Resolutionen und Ausschreibungen nur noch selektiv übersetzt werden können.
Möchte man sich im Internet über ein Thema informieren, zu dem in der eigenen Sprache online keine Informationen vorliegen, in einer anderen jedoch schon, hat man zwangsläufig das Nachsehen. Sprachbarrieren sind das zentrale Hindernis bei der Schaffung eines gemeinsamen digitalen Binnenmarktes, wie er von der Europäischen Kommission propagiert wird. Noch besteht dieser aus isolierten Inseln, streng nach Sprachgrenzen getrennt. Da nur etwa ein Drittel der europäischen Bürger bereit ist, Produkte oder Dienstleistungen online zu kaufen, wenn der entsprechende Service nicht in der eigenen Muttersprache angeboten wird, verhindern Sprachbarrieren das Wachstum. Ideen, Innovationen, Wissen, Güter, Dialoge und Debatten können nicht ungehindert über Sprachgrenzen hinweg fließen.
Für kleine Sprachen fehlen Automatiken
Bei den heutigen Text- und Informationsmengen kann der Schlüssel zur Überwindung von Sprachgrenzen nur in möglichst vollautomatischen Übersetzungstechnologien liegen. Das europäische Exzellenznetzwerk Meta-Net hat im Rahmen der Studie „Europas Sprachen im digitalen Zeitalter“ 31 europäische Sprachen genauer untersucht. Die Studie, an der mehr als zweihundert Experten aus ganz Europa mitgewirkt haben, zeigt, dass mindestens 21 dieser Sprachen vom digitalen Aussterben bedroht sind. Für Isländisch, Lettisch, Litauisch oder Maltesisch existiert zum Beispiel keine ausreichende sprachtechnologische Unterstützung, um ihr digitales Überleben zu sichern.
Es fehlen nicht nur ausgereifte und einsetzbare Werkzeuge für Anwendungen wie Sprachein- und -ausgabe, sondern auch Basiswerkzeuge etwa für die syntaktische Analyse einzelner Sätze, die semantische Auflösung von Pronomina (worauf beziehen sich „er“, „sie“ oder „ihre“?) oder auch semantische Netze, die etwa „ist-ein“ oder „hat-Teil“-Beziehungen zwischen Konzepten wie „Mensch“ und „Lebewesen“ oder „Hand“ und „Finger“ repräsentieren.
Die Tabelle zeigt die alarmierenden Ergebnisse für das Anwendungsgebiet maschinelle Übersetzung:
Exzellent | Gut | Mittel | Fragmentarisch | Schwach bzw. keine |
---|---|---|---|---|
Englisch | Französisch | Deutsch | Baskisch | |
Spanisch | Italienisch | Bulgarisch | ||
Katalanisch | Dänisch | |||
Niederländisch | Estnisch | |||
Polnisch | Finnisch | |||
Rumänisch | Galizisch | |||
Ungarisch | Griechisch | |||
Irisch | ||||
Isländisch | ||||
Kroatisch | ||||
Lettisch | ||||
Litauisch | ||||
Maltesisch | ||||
Norwegisch | ||||
Portugiesisch | ||||
Schwedisch | ||||
Serbisch | ||||
Slowakisch | ||||
Slowenisch | ||||
Tschechisch | ||||
Walisisch |
Bei vielen Sprachen klaffen massive Lücken bezüglich der Unterstützung durch maschinelle Übersetzungstechnologien. Oftmals existieren nur rudimentäre oder schlicht gar keine Technologien. Besonderes Augenmerk muss nun folglich auf die vielen Sprachen aus den beiden letzten Gruppen gelegt werden, sodass diese technologisch aufschließen und ihre Sprecher zum Beispiel online mit ähnlich guten Anwendungen und Werkzeugen hantieren können wie Sprecher des Englischen, Spanischen oder Französischen, speziell im Bereich maschinelle Übersetzung gesprochener oder geschriebener Sprache.
Politische Teilhabe erschwert
Europas Sprachenvielfalt beeinträchtigt nicht nur die internationalen Handels- und Finanzbeziehungen, sie erschwert auch die europäische Integration und Binnenkommunikation. So können EU-Bürger wichtige Themen nicht grenzübergreifend diskutieren. Debatten über die Finanzkrise, zum Beispiel zwischen Griechen und Deutschen, finden nur über die Medien und Politiker statt. Gerade soziale Netzwerke verändern die politische Partizipation fundamental, doch kann die EU auf Grund der Sprachenvielfalt nicht davon profitieren. Nach dem Unfall in Fukushima wurde in ganz Europa über Atomkraft diskutiert – allerdings nur innerhalb der Sprachgemeinschaften. Auf europäischer Ebene hat diese Diskussion nie stattgefunden. Benötigt werden Technologien, die derartige Debatten ermöglichen.
Um für die geschilderten Probleme und für alle Länder Europas langfristige Lösungen zu erarbeiten, werden viele Jahre intensiver Forschung benötigt. Zur Vorbereitung und Koordinierung dieser Initiative wurde 2010 das mittlerweile aus 60 Forschungszentren in 34 Ländern bestehende Exzellenznetzwerk Meta-Net ins Leben gerufen. Das Ziel von Meta-Net ist es, ein Europa ohne Sprachbarrieren zu errichten, in dem Informationen, Wissen und Ideen ungehindert verbreitet werden und neue internationale Märkte entstehen können, ohne dabei jedoch die sprachliche Vielfalt Europas zu gefährden.
Meta-Net hat eigens eine „Strategische Forschungsagenda“ für das mehrsprachige Europa 2020 entwickelt, die Anfang 2013 vorgestellt wurde. Dieses Strategiepapier ist das Ergebnis von mehr als zwei Jahren intensiver Kooperation von zweihundert Forschern aus Wissenschaft und Industrie, die demonstrieren, welche wirtschaftlichen und gesellschaftlichen Vorteile durch eine Fokussierung auf das Thema Sprachtechnologie entstehen können. Im Zentrum stehen dabei maschinelle Übersetzungstechnologien für alle europäischen Sprachen, die sowohl eine hohe Übersetzungsqualität liefern als auch robust und präzise arbeiten, etwa für syntaktisch nicht wohlgeformte Eingabesätze.
Siri und Google Now machen es vor
Das Strategiepapier erläutert, wie Europa seine Sprachvielfalt als Wettbewerbsvorteil nutzen kann. Die europäische Forschung erfüllt die besten Voraussetzungen, um eine führende Rolle in der nächsten IT-Revolution zu spielen, in der die Mensch-Maschine-Kommunikation zunehmend über gesprochene oder geschriebene Sprache stattfinden wird – mit Siri und Google Now finden sich schon jetzt die ersten Vorboten dieser kommenden Technologierevolution in aktuellen Mobiltelefonen.
Von den drei großen Themenblöcken, auf die sich die Forschung in Europa in den kommenden Jahren konzentrieren sollte, ist die „Translingual Cloud” von zentraler Bedeutung. Diese Technologie soll Übersetzungsdienste für alle europäischen Bürger, Unternehmen und Organisationen bündeln und qualitativ hochwertige Ergebnisse durch maschinelle Übersetzung gesprochener und geschriebener Sprache bereitstellen, sodass diese Technologien nicht nur – wie alle aktuell verfügbaren Online-Systeme – benutzt werden, um sich schnell einen indikativen Überblick über einen Text zu verschaffen („inbound gist translation“). Ein Vorschlag ist die Entwicklung von Ansätzen, die für bestimmte Typen von Texten möglichst fehlerfreie Übersetzungen liefern, die dann etwa an externe Leser weitergegeben werden kann („high quality outbound translation“).
EU will Meta-Net unterstützen
Zur Realisierung seiner Anwendungsvisionen schlägt Meta-Net ein groß angelegtes Förderprogramm vor und ruft die EU, die Sprachgemeinschaften, alle Mitgliedstaaten und assoziierte Länder sowie Forschung und Industrie zu einer engen Zusammenarbeit auf. Im Rahmen seiner vierten Jahrestagung, Meta-Forum 2013, im September in Berlin wurden von internationalen Unternehmen und Verbänden, Fördereinrichtungen und nicht zuletzt von der Forschung der aktuelle Stand, jüngste Entwicklungen und insbesondere die nächsten Schritte diskutiert, um die oben nur angerissenen Ziele in die Realität umzusetzen.
Kurze Zeit später verzeichnete die Initiative entscheidende Fortschritte. Zunächst wurde der Forschungsplan der für die Digitale Agenda zuständigen Kommissarin Neelie Kroes präsentiert, die die Wichtigkeit und Dringlichkeit des Themas erkannt und Unterstützung signalisiert hat. Anfang Dezember schließlich wurde die Zukunft der maschinellen Übersetzung in einem Workshop im „Science and Technology Options Assessment“-Ausschuss des Europaparlaments diskutiert, der sich mittlerweile ebenfalls besorgt um die digitale Unterstützung von Europas Sprachen zeigt.
Im Rahmen des 2014 startenden EU-Förderprogramms Horizon 2020 werden gerade in die von Meta-Net als problematisch eingestuften Sprachen vermehrt Fördergelder investiert – ein erfreulicher Schritt in die richtige Richtung. Allerdings müssen in den kommenden Jahren weitere Investitionen folgen, um Europas Mehrsprachigkeit von einer wirtschaftlichen und gesellschaftlichen Barriere in ein Sprungbrett zu transformieren.
Georg Rehm ist am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) tätig und leitet dort gemeinsam mit Hans Uszkoreit die Initiative Meta-Net. Foto: Georg Rehm
.
Dieser Text ist auch im Magazin „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ erschienen. Sie können das Heft für 14,90 EUR bei iRights.Media bestellen. „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ gibt es auch als E-Book, zum Beispiel bei Amazon*, beim Apple iBook-Store* oder bei Beam (* Affiliate-Link).
Was sagen Sie dazu?