Terminologie et travail en réseaux de langues

MARIANI Joseph, LIMSI –CNRS & IMMI

 

Résumé

Les technologies de la langue font l’objet d’un effort de recherche important depuis de nombreuses années, à la hauteur de la difficulté des problèmes scientifiques à résoudre et des enjeux pour l’accès à l’information et pour la communication. Il est apparu nécessaire de pouvoir disposer de ressources linguistiques et de méthodes d’évaluation des performances pour pouvoir développer correctement des technologies qui soient utilisables dans les différents domaines applicatifs concernés. La France s’est dotée de 2002 à 2006 d’un programme national, Techno-Langue, qui a eu pour objectif de produire les données et outils nécessaires pour la langue française. D’autres pays ont des programmes similaires pour leurs langues, sans qu’il y ait de coordination pour partager les expériences acquises et les ressources produites. Le multilinguisme présente un enjeu majeur pour l’Europe, avec un double objectif : préserver les cultures des Etats-Membres et faciliter la communication entre les citoyens de ces Etats. Dans une Europe qui possède 23 langues officielles, sans compter les langues régionales, cela présente un coût très important. Les technologies de la langue permettraient de diminuer ce coût tout en offrant une plus grande étendue de services. L’investissement à y consacrer nécessiterait une meilleure coordination des efforts de la Commission Européenne et des Etats-Membres, permettant la réalisation de systèmes de recherche d’informations inter-lingues, de traduction assistée par ordinateur, voire d’interprétation simultanée automatique intégrant plusieurs technologies pour ces différentes langues.

 

1. Les technologies de la langue [Cole et al, 1998]

1.1. Domaines couverts

Les technologies de la langue concernent le traitement automatique de la langue écrite (analyse morpho-syntaxique et syntaxique, compréhension et génération de textes, résumé automatique, extraction de terminologie, recherche d’informations, système de réponses aux questions, traduction automatique ou assistée par ordinateur...) et de la langue parlée (reconnaissance et compréhension de la parole, transcription, synthèse vocale, dialogue oral, reconnaissance du locuteur, reconnaissance de la langue, traduction vocale [Mariani, 2002]…

 

1.2. Ressources linguistiques, évaluation et standards

Il apparaît à présent nécessaire, pour pouvoir développer correctement ces technologies, de disposer de ressources linguistiques, de méthodes d’évaluation et de standards.

Les ressources linguistiques rassemblent les corpus, bruts et annotés, les lexiques, dictionnaires, thésaurus… Elles sont nécessaires pour mener les recherches en linguistique, et elles sont essentielles pour effectuer l’apprentissage des systèmes de traitement automatique de la langue fonctionnant sur des méthodes statistiques.

L’évaluation des technologies se fait en particulier dans le cadre de campagnes d’évaluation. Elles consistent à comparer les performances de différents systèmes fondés sur diverses approches, sur des données communes, selon un protocole commun. Ces évaluations comparatives apparaissent comme un indicateur de la qualité des recherches, à côté des classiques indices bibliométriques. Elles sont aussi un indicateur de l’avancée technologique. Elles permettent de s’affranchir des aprioris théoriques, le but étant d’obtenir les meilleurs résultats possibles, quelle que soit l’approche utilisée. Elles constituent donc un mélange de compétition et de coopération internationale, qu’on qualifie parfois du terme de « coopétition », et sont véritablement un nouveau mode d’accompagnement de la recherche technologique.

Enfin, il est nécessaire de pouvoir disposer de standards afin de pouvoir assurer la diffusion des ressources et des outils.

 

1.3. Besoin d’une infrastructure [Pierre, 2007]

Si la nécessité de ces ingrédients est à présent acquise, il apparaît aussi nécessaire de mettre en place une infrastructure pour pouvoir en disposer, ce qui implique un investissement important et une organisation. Concernant la production de ressources, il convient en effet de déterminer quelles sont les ressources nécessaires aux Recherches et  Développements, d’assurer leur production et leur interopérabilité (et donc d’établir les standards), de valider leur qualité et de gérer leur diffusion (sous les aspects juridiques et commerciaux). Concernant l’évaluation des technologies, il convient, pour les chercheurs et les industriels, de choisir les tâches selon les besoins, de produire et de diffuser les données communes aux participants, de déterminer les métriques et les protocoles d’évaluation et d’organiser la présentation et la discussion des résultats.

 

1.4 L’exemple américain

L’exemple a été donné par la Defense Advanced Research Agency (DARPA) du Département de la Défense américain, qui a initialisé une telle infrastructure à partir de 1987, en s’appuyant sur le National Institute of Standards and Technology (NIST, alors encore National Bureau of Standards (NBS)) et en créant le Linguistic Data Consortium (LDC) en 1991 [Cieri et al., 2006], sur une décision du congrès américain. A d’abord été considérée la reconnaissance de la parole, puis la reconnaissance du locuteur et de la langue, et, dans le domaine de l’écrit, la compréhension de textes (Message Understanding Conference (MUC)), la recherche d’informations (TREC), avec des extensions aux réponses aux questions (Q&A) et aux documents vidéo (TREC Video), la traduction automatique et, récemment, la « distillation » d’informations, avec le programme GALE, qui inclut transcription vocale, traduction et extraction d’informations, avec l’anglais comme langue cible.


Figure 1 : Histoire de la reconnaissance vocale à travers les campagnes d’évaluation du NIST (document NIST).

 

La figure 1 donne une présentation de l’histoire récente de la reconnaissance vocale à travers les campagnes d’évaluation organisées par le NIST. Y figurent les résultats obtenus par le meilleur système à chaque campagne annuelle d’évaluation, sous forme de taux d’erreurs donnés en échelle logarithmique. Les tâches deviennent de plus en plus difficiles dans le temps, passant de la reconnaissance de textes lus à voix haute, pour un vocabulaire d’un millier de mots, pour un seul locuteur ou pour plusieurs, à la dictée vocale de textes de journaux, pour des vocabulaires de 5000 puis 20000 mots, à la transcription d’émissions radiodiffusées ou télévisées, pour des vocabulaires de taille indéfinie et à la reconnaissance de parole conversationnelle, sur le canal téléphonique, pour l’anglais ou pour d’autres langues. On voit que les résultats vont s’améliorant sur chacune des tâches, ce qui est toujours rassurant pour les agences de financement qui voient ainsi que leur investissement a été utilisé à bon escient. Il est également intéressant de noter que lorsque ces campagnes ont été ouvertes à l’international en 1992, ce sont des laboratoires européens (Philips pour la reconnaissance monolocuteur et LIMSI-CNRS pour la reconnaissance multilocuteur) qui ont obtenu les meilleurs résultats, permettant ainsi de situer la recherche européenne du domaine sur l’échelle internationale. On peut aussi noter que lorsque les systèmes de dictée vocale ont atteint des performances acceptables au milieu des années 90, les produits utilisant ces technologies ont pu être commercialisées. A contrario, on note aussi que les performances sur la reconnaissance de parole conversationnelle sont restées à des taux d’erreurs élevés, justifiant le maintien d’un soutien public à la recherche malgré l’existence de solutions à des tâches plus simples.

Les activités américaines dans ce domaine ont porté initialement sur l’anglais américain, puis sur d’autres langues en fonction de leur intérêt géopolitique, mais la plupart des langues, dont le français, n’ont pas reçu un traitement comparable et il était impératif d’y pourvoir.

 

2. Le programme « Techno-Langue » (2002-2006)

2.1. Genèse [Mariani, 2008]

Ce programme fait suite à un rapport rédigé par un groupe de travail présidé par A. Danzin au sein du Conseil Supérieur de la Langue Française, dont le vice-président est le Délégué Général pour la Langue Française et les Langues de France, qui a été remis au Premier Ministre en novembre 2000.

Suite à ce rapport, une réunion interministérielle fut organisée en juin 2001, et trois actions furent décidées:

Veille technologique et évaluation des outils de traitement de la langue française (pilotée par le Ministère en charge de la Recherche, en partenariat avec les Ministères en charge de l’Industrie et de la Culture)

Développement des usages du traitement informatique de la langue française (pilotée par le Ministère de la Fonction Publique et de la Réforme de l’Etat, en partenariat avec le Ministère chargé de la Culture)

Formation de professionnels en ingénierie documentaire (pilotée par le Ministère de l’Education Nationale)

La première de ces actions aboutit au programme Techno-Langue. Il fut demandé de l’articuler avec les instruments existants, et en particulier les Réseaux de Recherche et d’Innovation Technologiques (RRIT), permettant de financer des projets applicatifs menés en partenariat entre recherche et industrie, et le programme VSE du Ministère de la Recherche sur la veille stratégique. Techno-Langue a donc eu pour objectif d’assurer le soutien au développement de technologies de la langue génériques validées qui puissent alimenter des projets applicatifs qui en ont besoin, qui conservent pour leur part un financement global de l’ordre de 110 M€ annuels, venant des mêmes trois ministères partenaires.

 

2.2. Appel à projets

L’appel à projet fut organisé autour de 4 volets :

Les ressources linguistiques : données écrites et orales (corpus, dictionnaires, bases terminologiques…) et outils de base de traitement de la langue (sous forme de Logiciels Libres)

Les standards, afin de consacrer un effort pour améliorer la présence Française dans les organismes internationaux

La veille technologique, en relation avec les actions alors en cours (dont le projet européen Euromap...)

L’évaluation de technologies (campagnes d’évaluation, permettant la comparaison de systèmes), et d’applications (avec la production et la diffusion de kits d’évaluation)

L’organisation du programme comprenait un Comité de Pilotage, composé de chercheurs et d’industriels, et de représentants des RRIT (dans les domaines du logiciel, des télécommunications, de l’audiovisuel et du multimédia) et des administrations (Ministères en charge de la Recherche, de l’Industrie, de la Culture et de la Défense), en recherchant un équilibre entre les chercheurs et les industriels, et entre les spécialistes du langage écrit et du langage parlé.

La durée maximale des projets était de 3 ans (2003 – 2005), les financements étant assuré pour chaque projet par l’un des trois ministères partenaires. La participation d’équipes étrangères dans les projets était fortement souhaitée, mais à la condition qu’ils apportent leurs propres financements.

 

2.3 Résultats de l’appel [Chaudiron, Mariani, 2006]

52 projets furent déposés, 28 retenus et 21 financés, regroupant 94 participants, dont 33 industriels, 40 laboratoires publics et 10 «autres participants» (Associations (AFCP, APIL…), Délégation Générale à l’Armement…). 11 laboratoires étrangers participèrent aux projets (Bell Labs (USA), NII (Japon), EPFL, LATL (Suisse), RALI (Canada)…).Le budget total du programme fut de 20 M€, dont 7,5 M€ d’aides publiques, sur 3 ans. Les projets retenus se placent dans les différents volets de l’appel.

 

2.3.1. Ressources Linguistiques (données)

Dictionnaires bilingues (Français - Anglais, Allemand, Espagnol, Italien, Arabe),

Dictionnaires spécialisés (aéronautique, sport, commerce, automobile…),

Dictionnaire de noms propres (Français, Anglais, Espagnol, Néerlandais, Italien, Portugais, Serbe),

Corpus annotés (français technique (corpus de normes AFNOR), journal Le Monde),

Corpus alignés (36 ouvrages du 19ème siècle (Français, Anglais, Espagnol, Italien)),

Corpus de voix d’enfants et de voix téléphonique de locuteurs de référence.

 

2.3.2. Ressources linguistiques (outils)

Boîte à outils de traitement de texte : segmenteur, analyseur morphosyntaxique et syntaxique, résolution de co-références, extracteur de terminologie et d’entités nommées, résumé automatique…

Boîte à outils pour aider à la création de ressources sémantiques : collecte et formatage de données, recherche d’informations sur le Web, éditeur d’ontologie terminologique, hiérarchisation de termes…

Boîte à outils de logiciels pour la reconnaissance du locuteur (en licence LPGL)

2.3.3. Standards

Pour l’écrit : Groupe miroir français du groupe ISO TC37-SC4 (ressources linguistiques)

Pour l’oral : participation à divers groupes de travail (VoiceXML, CCXML (W3C), UNL, Aurora (ETSI), Forum SALT, IETF)

2.3.4. Veille technologique

Mise en place d’un portail : http://www.technolangue.net

2.3.5. Campagnes d’évaluation [Chaudiron, 2007]

8 campagnes ont été organisée, 5 sur le traitement de l’écrit et 3 sur l’oral :

EASY: Analyse syntaxique (Journaux, textes médicaux, littéraires, transcription de parole…) [Paroubek, 2006]

ARCADE 2: Alignement de textes parallèles (phrases ou Entités Nommées (noms propres, noms de lieux…), entre le Français et l’Anglais, l’Allemand, l’Italien et l’Espagnol, ou entre le Français et l’Arabe, le Mandarin, le Grec, le Japonais, le Persan et le Russe [Chiao et al., 2006]

CESART: Extraction de terminologie, dans les domaines de la santé, de l’éducation, de la politique [Mustafa el Hadi et al., 2006]

EQUER: Recherche d’informations, sous forme de Question/Réponse (corpus généraliste ou médical) [Ayache et al., 2006]

CESTA: Traduction automatique (Anglais-Français et Arabe-Français), avec une étude spécifique des métriques d’évaluation (BLEU, NIST, mWER, X-score, WNM…) [Hamon et al, 2006]

EVASY: Synthèse vocale à partir du texte (Conversion graphème-phonème (noms propres), Prosodie (intonation, rythme, intensité) et systèmes complets de synthèse à partir du texte) [Boula de Mareüil et al., 2006]

MEDIA: Dialogue oral (avec production d’un corpus de dialogue « Magicien d’Oz » annoté (sur une tâche de réservation d’hôtels) et d’un dictionnaire sémantique, avec l’évaluation de la compréhension hors contexte et en contexte [Bonneau-Maynard et al., 2006]

ESTER: Transcription de parole en vue de l’indexation automatique [Gravier et al. 2004]

2.3.6. La campagne ESTER

La campagne ESTER est exemplaire au regard de l’objectif recherché. La tâche traitait de la transcription sous forme écrite et de l’indexation automatique d’émissions de radio. Elle a permis de constituer un très large corpus pour le français (1600 h enregistrées, dont 100 h transcrites manuellement, représentant 1 Million de mots, pour 350 locuteurs), qui permet au français d’apparaître au deuxième rang mondial, derrière l’anglais américain, pour des données de ce type. Cela signifie également que de telles données n’existent pas pour la plupart des langues dans le monde, et donc qu’il n’existe pas de systèmes de transcription d’émission de radio fonctionnant correctement pour la plupart de ces langues. La campagne d’évaluation d’ESTER a rassemblé 13 participants, dont 3 industriels. Les tâches abordées concernaient la transcription (en temps réel ou différé), la segmentation (entre bruit ou musique et parole, et pour la séparation ou l’identification de locuteurs), et la reconnaissance d’Entités Nommées (directement sur la parole, ou sur le texte transcrit). Faute de temps, la tâche de détection et de suivi de thèmes pour l’indexation fut reportée.

Un atelier final fut organisé entre les participants en mars 2005. Un Kit d’évaluation fut produit et distribué, incluant les données de développement et de test, le logiciel de mesure des performances, ainsi que les résultats, afin que des équipes de recherche ou des industriels qui n’ont pas participé à la campagne d’évaluation puissent comparer leurs résultats a posteriori. Une partie des données d’ESTER fut utilisée dans la campagne d’évaluation EASY sur les analyseurs syntaxiques, afin de mesurer leurs performances sur de la parole transcrite. On pourrait ainsi mesurer l’influence d’un module d’analyse syntaxique sur la qualité globale d’un système de transcription et d’indexation. Vers l’amont, un atelier fut organisé par ailleurs pour les linguistes, afin de leur présenter les données et les outils disponibles, ainsi que les résultats obtenus, qui permettent d’identifier des verrous qui nécessiteraient des recherches fondamentales en linguistique. Vers l’aval, un moteur de recherche dans les émissions de radio fut développé dans le cadre du projet applicatif RNTL Audiosurf, regroupant les PME Sinequa et Vecsys, le LIMSI-CNRS et Radio France. Ce système peut être utilisé en libre service sur le portail Audiosurf (http://audiosurf.org/). Une suite de la campagne (ESTER 2) est en cours de lancement, avec un financement de la Délégation Générale à l’Armement (DGA). Les tâches abordées sont l’indexation automatique (détection et suivi de thèmes), non couverte dans ESTER, et la prise en compte des accents régionaux, des émissions de télévision et de la parole spontanée, telle qu’on la trouve dans les interviews, les débats, les plateaux télé…

 

3. Ouverture Européenne et internationale

Le besoin de technologies de la langue s’affirme de plus en plus pour permettre la communication, au niveau national ou international.

 

3.1. Les besoins sur la Toile mondiale

Les besoins liés au multilinguisme deviennent de plus en plus aigus sur la Toile mondiale, et on note avec intérêt la mise à disposition d’outils linguistiques par Google pour gérer la Toile mondiale, en traitant 11 langues, et 25 paires de langues. La traduction des notices techniques devient cruciale dans une économie qui s’est globalisée, et les erreurs d’interprétation ont des conséquences dramatiques qui ont récemment défrayé la chronique à plusieurs reprises.

 

3.2. Le programme indien TDIL

On note également avec intérêt le lancement d’un programme indien sur les technologies de la langue (TDIL (Technology Development for Indian Languages) : http://tdil.mit.gov.in/), qui constitue une des 10 priorités nationales pour l’informatisation de la société en Inde. 19 langues sont considérées dans ce programme : l’Anglais et 18 langues indiennes : Assamese, Bengali, Gujrati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi, Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu et Urdu. Les technologies traitées sont la traduction automatique, la synthèse et la reconnaissance vocales, les moteurs de recherche, la reconnaissance de caractères, les correcteurs orthographiques, les ressources linguistiques…

 

3.3. Les besoins liés à la construction européenne

Le multilinguisme apparaît comme un élément spécifique de la construction européenne, qui présente un enjeu économique, culturel et politique, avec une double nécessité :

Celle de préserver les cultures des Etats Membres : On note par exemple une nette préférence pour accéder à des sites web dans la langue maternelle des utilisateurs (comme le montre une enquête pour 75% des allemands interrogés…). On peut souligner que 50% des citoyens Européens ne parlent qu’une langue, et que quand ils en parlent une deuxième, ce n’est pas toujours la même, et qu’à peine 3% des japonais parlent une langue étrangère.

Celle de permettre la communication entre les citoyens des Etats-Membres : Aux 27 Etats-Membres de l’Union Européenne correspondent 23 langues « officielles », sans même parler des langues régionales, soit 506 paires de langues à traduire. La Commission Européenne employait en 2005 1650 traducteurs, qui ont traduit 1,4 Millions de pages cette année là. Le Parlement Européen consacre 30% de son budget annuel, soit 300 M€, aux questions liées au multilinguisme et emploie 500 traducteurs.

Le multilinguisme est une nécessité pour l’Europe, mais le coût qu’il entraîne est donc très important. Les technologies de la Langue permettraient de réduire ce coût, tout en apportant une meilleure réponse à la demande. Mais l’effort à leur consacrer est énorme, si l’on considère le nombre de technologies à développer pour le nombre de langues ou de paires de langues, et sans doute trop important pour la Commission Européenne seule. Il y aurait donc un grand intérêt à le partager avec les Etats-Membres, en parfait accord avec la notion de subsidiarité [Lazzari, 2006].

 

3.4. Les instruments de la coopération

Pour ce faire, il existe des instruments. Partant du constat qu’à peine 15% de la recherche européenne était financée par la Commission, le Commissaire Busquin proposa le concept d’Espace Européen de la Recherche (ERA), afin de mieux coordonner les efforts de recherche de l’Union Européenne. Cela conduisit au programme des ERA-Net dans le 6ème PCRD, ayant pour objectif de coordonner entre eux les programmes nationaux européens, et au programme ERA-Net+ dans le 7ème PCRD, qui permet également une coordination avec ceux de la Commission, et le financement de projets de recherche communs. Il existe également depuis longtemps la possibilité de soutenir des projets à travers l’Article 169 du Traité de l’Union Européenne, réunissant des efforts soutenus en commun de manière tripartite par la Commission Européenne, les Etats-Membres et les industriels. Cette procédure est cependant lourde, puisqu’elle demande un accord du Conseil Européen et du Parlement, et un seul programme de ce type a été financé jusqu’à présent sur les maladies infectieuse tropicales, pour un budget total annoncé de 600 M€. Les thèmes évoqués pour le 7ème PCRD sont l’aide aux personnes dépendantes, le soutien aux PME, la Métrologie, la Recherche en mer Baltique… Il semble que seul le premier de ces thèmes ait été retenu jusqu’à présent.

 

3.5. Proposition de coordination des efforts européens

Les technologies de la Langue nous semblent bien adaptées au concept de l’ERA. La Commission Européenne pourrait avoir en priorité la responsabilité de veiller à assurer la coordination générale d’un tel programme (gestion, détermination des standards, évaluation des technologies, communication...) et le développement de Technologies de la Langue génériques, et chaque Etat-Membre aurait en priorité à assurer la couverture de sa ou de ses langue(s): production des ressources linguistiques qui sont essentielles pour le développement des technologies (corpus, lexiques, dictionnaires…) et développements ou adaptations des Technologies de la Langue tenant compte des spécificités de sa, ou de ses langue(s).

Le thème des technologies de la langue est actuellement dans le portefeuille des technologies de l’information et de la communication attribué à la Commissaire V. Reding. Depuis janvier 2007, un nouveau Commissaire a été nommé pour traiter spécifiquement du multilinguisme : Leonard Orban. Sous l’impulsion de son prédécesseur, J. Figel, qui avait également la charge de l’éducation, de la formation et de la culture, un rapport « Une nouvelle stratégie cadre pour le multilinguisme» a été rédigé en Novembre 2005. Suivant les recommandations de ce rapport, un Groupe de Haut Niveau sur le Multilinguisme a été créé en Novembre 2006. Une réunion ministérielle européenne sur le Multilinguisme est prévue en 2008, suivie de communications sur ce sujet devant le Parlement et le Conseil

L’intérêt pour ce thème est également exprimé par les Etats-Membres, comme on le trouve dans le« Mémorandum pour une Europe numérique » soumis par la France à la présidence finlandaise de l’Union Européenne en 2006, qui proposait comme un sujet de recherche spécifique prioritaire les «Technologies de la Langue pour une Europe Multilingue».

Ce thème est également présent dans de nombreuses initiatives européennes importantes. Dans celui de Bibliothèque Numérique Européenne, où la dimension multilingue est présente, mais qui aurait également besoin de passerelles interlingues, nécessitant de disposer de tels outils. L’Agence Européenne de Sécurité (ENISA) a proposé dans le domaine de l’Intelligence Economique la création d’une Plate-forme multilingue d’alerte et d’échange d’informations pour les Etats-Membres, qui aurait elle aussi besoin de technologies de la langue. L’Office de Brevets Européens a fait récemment l’objet de débat animé autour du nombre de langues dans lesquelles devaient être rédigés les brevets communautaires. Le coût prohibitif de la traduction a conduit à ne retenir que 3 langues, alors qu’un investissement dans le développement de technologies de la langue aurait pu permettre de considérer l’ensemble des langues, en réduisant les coûts et les délais…

 

3.6 Les technologies de la langue dans le 6ème PCRD

On note dans le 6ème PCRD un certain nombre de projets incluant une composante d’évaluation CLEF (Cross-Lingual Evaluation Forum), TC-Star, CHIL, AMI…), mais ces projets ne sont pas inscrits dans la durée, contrairement à la situation aux Etats-Unis [Mariani, 2002].

Le traitement du multilinguisme passe par un développement coordonné des technologies pour chacune des langues européennes. On en a l’illustration dans le Projet Intégré TC-Star [Lazzari, 2006] du 6ème PCRD, qui porte sur la traduction vocale, trois langues ayant été retenues (Anglais, Espagnol et Chinois). Un démonstrateur a été développé assurant la traduction vocale anglais-espagnol dans les deux directions, et portant sur les interventions au Parlement Européen. L’intérêt de cette application réside en la disponibilité de données de taille importante : enregistrements, transcriptions, traductions et interprétations par les interprètes et traducteurs du Parlement, permettant de construire les modèles statistiques correspondants. Il faut souligner qu’un tel démonstrateur a nécessité le développement d’un système de reconnaissance vocale et de synthèse de la parole pour chacune des deux langues, et de systèmes de traduction permettant le passage de l’une à l’autre. Il conviendrait à présent de généraliser ce démonstrateur à l’ensemble des langues officielles, et paires de langues, du Parlement.

 

3.7. Les technologies de la langue dans le 7ème PCRD

Dans le Programme “Cooperation” (ICT) du 7ème PCRD, les technologies de la langue figurent bien cachées dans le Pilier technologique «Simulation, visualisation, interaction, mixed realities», au sein du Challenge 2: Cognitive systems, Interaction, Robotics, qui ne comporte curieusement qu’un seul objectif, intitulé également “Cognitive systems, Interaction, Robotics ». Fort curieusement également, on trouve par contre ce thème en forte priorité dans le cadre de la partie « Coopération internationale », mais spécifiquement pour la langue arabe. Dans le programme portant sur les Infrastructures de recherche (ESFRI), le projet CLARIN a été mis en place qui porte sur la création d’une infrastructure pour les ressources et les outils linguistiques en appui aux Sciences Humaines et Sociales [Wittenburg et al., 2006]. Cela ne couvre donc pas le développement des technologies de la langue pour les applications qui en auraient besoin. Enfin dans le programme E-Content+, la mise en place d’un Réseau Thématique «Ressources linguistiques pour le traitement des langues» apparaît parmi les thèmes de l’appel 2007, qui concerne donc également les Sciences et Technologies de l’Information et de la Communication, mais les aspects liés au développement et à l’évaluation de technologies ne sont pas couverts, et le budget de 1 M€ annoncé ne permet pas d’envisager d’apporter la réponse technologique souhaitable à la hauteur des enjeux.

 

4. Conclusions

La France a pu mettre en place un programme national dans le domaine des Technologies de la Langue pour le Français, s’appuyant sur la production de ressources linguistiques, la détermination de standards, la veille technologique et l’évaluation. Sa pérennisation au-delà de ses trois ans d’existence et de financement demeure ouverte, et soulève la question de l’absence, en France ou en Europe, de l’équivalent d’une entité d’évaluation et de standardisation comparable au NIST.

Il apparaît une forte nécessité de disposer de Technologies de la Langue pour permettre le multilinguisme en Europe et dans le monde. C’est peut-être le thème le plus adapté entre tous à un effort partagé entre la Commission Européenne et les Etats-Membres, mais qui est malheureusement soutenu de manière insuffisante et non-coordonnée dans le 7ème PCRD, avec la crainte de devoir attendre la fin de celui-ci en 2013 pour le considérer à sa juste hauteur. La mise en place d’un groupe de haut niveau sur les technologies de la langue en soutien au multilinguisme pourrait aider à résoudre ce problème.

 

5. Références

Ayache C., Grau B., Vilnat A., 2006. EQueR: the French Evaluation campaign of Question-Answering Systems, LREC’06, Genoa, Italy, May 2006

Bonneau-Maynard H., Ayache C., Bechet F., Denis A., Kuhn A., Lefevre F., Mostefa D., Quignard M., Rosset S., Servan C., Villaneau J., 2006. Results of the French Evalda-Media evaluation campaign for literal understanding, LREC’06, Genoa, Italy, May 2006

Boula de Mareüil P., d'Alessandro C., Raake A., Bailly G., Garcia M., Morel M., 2006. A joint intelligibility evaluation of French text-to-speech synthesis systems: the EvaSy campaign, LREC’06, Genoa, Italy, May 2006

Chaudiron S., Mariani J., 2006. Techno-langue: The French National Initiative for Human Language Technologies (HLT), LREC’06, Genoa, Italy, May 2006

Chaudiron S. (éd.), 2007, « L’évaluation technologique dans le domaine du traitement automatique de la langue : les campagnes Technolangue », Hermès

Chiao Y., Kraif O., Laurent D., Nguyen T., Semmar N., Stuck F., Véronis J., Zaghouani W., 2006. Evaluation of multilingual text alignment systems: the ARCADE II project, LREC’06, Genoa, Italy, May 2006

Cieri C., Liberman M., 2006. More Data and Tools for More Languages and Research Areas: A Progress Report on LDC Activities, LREC’06, Genoa, Italy, May 2006

Cole R., Mariani J., Uszkoreit H., Varile N., Zaenen A., Zampolli A., Zue V., 1998. Survey of the State-of-the-Art in Human Language Technology, Cambridge University Press, http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html.

Gravier G., Bonastre J.F., Galliano S., Geoffrois E., Mc Tait K. and Choukri K., 2004. The ESTER evaluation campaign of Rich transcription of French Broadcast News.LREC’04, Lisbon, May 2004

Hamon O., Popescu-Belis A., Choukri K., Dabbadie M., Hartley A., Mustafa El Hadi W., Rajman M., Timimi I., 2006. CESTA: First Conclusions of the Technolangue MT Evaluation Campaign, LREC’06, Genoa, Italy, May 2006

Lazzari G. , 2006. Human Language Technologies for Europe. ITC IRST / TC-Star project report, http://www.tc-star.org, April 2006.

Mariani J., 2002. Are we loosing Ground to the US ? A contrastive analysis of US-EU research framework on HLT. http://www.hltcentral.org/page-975.0.shtml

Mariani J. (éd.), 2002, "Traitement Automatique du Langage Parlé: Reconnaissance", Hermès, juin 2002

Mariani J., 2008, "Research infrastructures for Human Language Technologies: A vision from France”. Speech Communication journal, à paraître 2008

Mustafa el Hadi W., Timimi I., Dabbadie M., Choukri K., Hamon O., Chiao Y., 2006. Terminological Resources Acquisition Tools: Toward a User-oriented Evaluation Model, LREC’06, Genoa, Italy, May 2006

Paroubek P., Robba I., Vilnat A., Ayache C., 2006. Data, Annotations and Measures in the EASY Evaluation Campaign for Parsers of French, LREC’06, Genoa, Italy, May 2006

Pierre, J., 2007. La Langue au coeur du numérique, Délégation Générale à la Langue Française et aux Langues de France, http://www.dglf.culture.gouv.fr, Février 2007.

Wittenburg P., Broeder D., Klein W., Levinson S., Romary L., 2006. Foundations of Modern Language Resource Archives, LREC’06, Genoa, Italy, May 2006

 

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org