Préserver la diversité linguistique et culturelle en Europe et promouvoir l'excellence et le leadership technologique
Un consortium européen pour l'infrastructure numérique (EDIC) est un nouveau mécanisme pour les projets multinationaux créé dans le cadre du programme politique de la décennie numérique à l’horizon 2030. Les EDIC permettent aux États membres de mettre en commun des financements et d'autres ressources de manière souple et efficace, afin d'investir dans des projets de transformation numérique. Les EDIC peuvent également garantir des normes communes et d'interopérabilité.
Pour plus d'informations sur ce qu'est un EDIC et ses principales caractéristiques, veuillez consulter notre section Nouvelles.
L'Alliance pour les technologies des langues
L'ALT-EDIC, l'Alliance for Language Technologies, a été proposée en décembre 2023 comme l'un des premiers EDIC. Le 7 février 2024, la Commission européenne a officiellement créé l'ALT-EDIC par la décision d'exécution (UE) 2024/458.
Coordonné par la France, l'ALT-EDIC compte
- Dix-sept États membres : Bulgarie, Croatie, Danemark, Espagne, Finlande, France, Grèce, Hongrie, Irlande, Italie, Lettonie, Lituanie, Luxembourg, Pays-Bas, Pologne, Slovénie et Tchéquie ;
- Huit États membres observateurs : Autriche, Belgique, Chypre, Estonie, Malte, Portugal, Roumanie et Slovaquie.
Le rôle de l'ALT-EDIC est de créer une infrastructure européenne commune de données et de services pour les technologies linguistiques afin de renforcer la compétitivité technologique de l'Europe tout en soutenant sa diversité culturelle. L'action principale d'ALT-EDIC consiste à collecter et à fédérer des données linguistiques et multimodales provenant de l'ensemble de l'Union européenne et de ses États membres. La consolidation de ces données linguistiques permettra à l'ALT-EDIC de favoriser le développement de grands modèles linguistiques innovants dotés de solides capacités multilingues et multimodales.
Plus précisément, l'ALT-EDIC mènera les activités suivantes :
ALT-EDIC s'appuiera sur le Language Data Space et fédérera les ressources linguistiques et multimodales existantes de l'UE et des États membres dans toutes les langues européennes, nationales et régionales, y compris par la création de données stratégiques telles que les langues ayant peu de locuteurs (moins de 10 millions de locuteurs) pour lesquelles il existe des limites inhérentes à la formation de grands modèles de langage (LLM).
ALT-EDIC créera un référentiel de modèles linguistiques existants à source ouverte en vue de leur réutilisation par les acteurs industriels et développera des méthodes spécifiques de mise au point, en particulier pour les PME, et fournira des méthodologies d'évaluation, de certification et de normalisation en mettant particulièrement l'accent sur la discrimination et les biais potentiels introduits par les modèles de traitement automatique du langage (TAL).
ALT-EDIC agira comme un fonds d'amorçage commun, rassemblant des ressources publiques et privées pour lancer et développer de nouveaux projets de grands modèles de langue et de modèles de base dotés de capacités multimodales, notamment en fournissant l'accès au système européen de calcul à haute performance nécessaire.
ALT-EDIC contribuera au développement de méthodologies d'évaluation en mettant l'accent sur la discrimination potentielle et les préjugés introduits par les modèles TAL, ainsi qu'à fournir un soutien spécifique aux institutions qui investissent dans les grands modèles de langue.
ALT-EDIC agira en tant que point de conseil pour les administrations publiques et atteindra le public par le biais d'un programme culturel basé sur l'intelligence artificielle pour les langues et permettant aux utilisateurs finaux des technologies automatique du langage, qui sont également des producteurs de données, de relever les défis de l'intelligence artificielle et des technologies du langage dans un contexte multilingue et de contribuer à éclairer le citoyen européen sur la question de l'intelligence artificielle.
Quel est le lien entre l'ALT-EDIC et le LDS ?
L'ALT-EDIC est un projet multinational, géré et financé par les États membres qui ont accepté d'y participer. En mettant leurs ressources en commun, les membres devraient atteindre la masse critique de données et d'autres ressources nécessaires pour créer et affiner les grands modèles linguistiques, ce qu'un membre seul aurait du mal à faire.
Le LDS est l'un des nombreux espaces de données soutenus par la Commission pour favoriser un écosystème de données dans de nombreux secteurs. Le LDS établira une structure de gouvernance pour l'échange de données provenant de différents secteurs, qui pourront être utilisées pour développer des outils de technologie linguistique. Ces données seront également mises à la disposition de l'ALT-EDIC. Le LDS est financé par un contrat dans le cadre du programme Digital.