Erhaltung der sprachlichen und kulturellen Vielfalt in Europa und Förderung der technologischen Exzellenz und Führungsrolle
Ein Europäisches Konsortium für digitale Infrastruktur (European Digital Infrastructure Consortium, EDIC) ist ein neuer Mechanismus für länderübergreifende Projekte, der im Rahmen des Digital Decade Policy Programme 2030 geschaffen wurde. EDICs ermöglichen es den Mitgliedstaaten, Finanzmittel und andere Ressourcen auf flexible und effiziente Weise zu bündeln, um in transformative digitale Projekte zu investieren. EDICs können auch gemeinsame Standards und Interoperabilität sicherstellen.
Weitere Informationen darüber, was ein EDIC ist und was seine Hauptmerkmale sind, finden Sie in unserem News-Bereich.
Die Allianz für Sprachtechnologien
Die ALT-EDIC, die Allianz für Sprachtechnologien, wurde im Dezember 2023 als eine der ersten EDICs vorgeschlagen. Am 7. Februar 2024 gründete die Europäische Kommission mit dem Durchführungsbeschluss (EU) 2024/458 die ALT-EDIC offiziell.
Die ALT-EDIC wird von Frankreich koordiniert und umfasst
- Siebzehn Mitgliedsstaaten: Bulgarien, Dänemark, Finnland, Frankreich, Griechenland, Irland, Italien, Kroatien, Lettland, Litauen, Luxemburg, Niederlande, Polen, Slowenien, Spanien, Tschechien und Ungarn;
- Acht beobachtende Mitgliedstaaten: Österreich, Belgien, Zypern, Estland, Malta, Portugal, Rumänien und die Slowakei.
Die Aufgabe der ALT-EDIC besteht darin, eine gemeinsame europäische Dateninfrastruktur und Dienste für Sprachtechnologien zu entwickeln, um die technologische Wettbewerbsfähigkeit Europas zu stärken, sprachliche und multimodale Daten aus der gesamten Europäische Union und ihren Mitgliedstaaten zu sammeln und diese zu bündeln. Die Konsolidierung dieser Sprachdaten wird es der ALT-EDIC ermöglichen, die Entwicklung innovativer Large Language Models mit robusten mehrsprachigen und multimodalen Funktionalitäten zu unterstützen.
Im Einzelnen soll die ALT-EDIC die folgenden Aktivitäten durchführen:
Die ALT-EDIC wird den Language Data Space nutzen und vorhandene linguistische und multimodale Ressourcen in allen europäischen, nationalen und regionalen Sprachen aus der EU und den Mitgliedstaaten zusammenführen, u. a. durch die Entwicklung strategischer Daten, z. B. für Sprachen mit wenigen Sprechern (weniger als 10 Millionen Sprecher), bei denen das Training von Large Language Models (LLMs) naturgemäß eingeschränkt ist.
Die ALT-EDIC wird eine Sammlung bestehender Open-Source-Sprachmodelle zur Wiederverwendung durch industrielle Akteure einrichten und, speziell für KMU, spezifische Methoden zur Feinabstimmung entwickeln. Außerdem wird sie Bewertungs-, Zertifizierungs- und Normalisierungsmethoden bereitstellen, mit besonderem Schwerpunkt auf potenzieller Diskriminierung und Verzerrung durch Modelle der natürlichen Sprachverarbeitung (NLP).
Die ALT-EDIC wird als Startkapital-Pool fungieren, in dem öffentliche und private Mittel zusammengeführt werden, um neue Projekte für Large Language Models und Foundation Models mit multimodalen Fähigkeiten zu initiieren und zu entwickeln, unter anderem durch den Zugang zu den erforderlichen europäischen Hochleistungsrechnern.
Die ALT-EDIC wird einen Beitrag zur Entwicklung von Evaluierungsmethoden leisten, mit besonderem Schwerpunkt auf potenzieller Diskriminierung und Verzerrung durch NLP-Modelle, und Institutionen bei Investitionen in Langzeitstudien gezielt unterstützen.
Die ALT-EDIC wird als Beratungsstelle für öffentliche Verwaltungen fungieren und die Öffentlichkeit durch ein Kulturprogramm ansprechen, das auf künstlicher Intelligenz für Sprachen basiert und die Endnutzer von LT, die auch Datenproduzenten sind, in die Lage versetzt, sich den Herausforderungen der künstlichen Intelligenz und der Sprachtechnologien in einem mehrsprachigen Kontext zu stellen sowie zur Aufklärung der europäischen Bürger in Sachen künstliche Intelligenz beizutragen.
Welche Verbindung besteht zwischen dem ALT-EDIC und dem LDS?
Die ALT-EDIC ist ein Mehrländerprojekt, das von den Mitgliedstaaten, die sich zur Teilnahme bereit erklärt haben, betrieben und finanziert wird. Durch die Bündelung der Ressourcen können die Mitglieder die kritische Masse an Daten und anderen Ressourcen erreichen, die für die Erstellung und Feinabstimmung von LLMs erforderlich sind, was für ein einzelnes Mitglied nur schwer möglich wäre.
Der LDS ist einer von mehreren Datenräumen, die von der Kommission unterstützt werden, um ein Datenökosystem über viele Sektoren hinweg zu fördern. Der LDS wird eine Governance-Struktur für den Austausch von Daten aus verschiedenen Sektoren schaffen, die für die Entwicklung von Sprachtechnologie-Tools genutzt werden können. Diese Daten werden auch für die ALT-EDIC zur Verfügung stehen. Der LDS wird durch einen Vertrag im Rahmen des Digital Programmes finanziert.