![]() |
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
1. Les technologies de la langue [Cole et al, 1998] 1.1. Domaines couverts Les technologies de la langue concernent le traitement automatique de la langue écrite (analyse morpho-syntaxique et syntaxique, compréhension et génération de textes, résumé automatique, extraction de terminologie, recherche d’informations, système de réponses aux questions, traduction automatique ou assistée par ordinateur...) et de la langue parlée (reconnaissance et compréhension de la parole, transcription, synthèse vocale, dialogue oral, reconnaissance du locuteur, reconnaissance de la langue, traduction vocale [Mariani, 2002]…
1.2. Ressources linguistiques, évaluation et standards Il apparaît à présent nécessaire, pour pouvoir développer correctement ces technologies, de disposer de ressources linguistiques, de méthodes d’évaluation et de standards. Les ressources linguistiques rassemblent les corpus, bruts et annotés, les lexiques, dictionnaires, thésaurus… Elles sont nécessaires pour mener les recherches en linguistique, et elles sont essentielles pour effectuer l’apprentissage des systèmes de traitement automatique de la langue fonctionnant sur des méthodes statistiques. L’évaluation des technologies se fait en particulier dans le cadre de campagnes d’évaluation. Elles consistent à comparer les performances de différents systèmes fondés sur diverses approches, sur des données communes, selon un protocole commun. Ces évaluations comparatives apparaissent comme un indicateur de la qualité des recherches, à côté des classiques indices bibliométriques. Elles sont aussi un indicateur de l’avancée technologique. Elles permettent de s’affranchir des aprioris théoriques, le but étant d’obtenir les meilleurs résultats possibles, quelle que soit l’approche utilisée. Elles constituent donc un mélange de compétition et de coopération internationale, qu’on qualifie parfois du terme de « coopétition », et sont véritablement un nouveau mode d’accompagnement de la recherche technologique. Enfin, il est nécessaire de pouvoir disposer de standards afin de pouvoir assurer la diffusion des ressources et des outils.
1.3. Besoin d’une infrastructure [Pierre, 2007] Si la nécessité de ces ingrédients est à présent acquise, il apparaît aussi nécessaire de mettre en place une infrastructure pour pouvoir en disposer, ce qui implique un investissement important et une organisation. Concernant la production de ressources, il convient en effet de déterminer quelles sont les ressources nécessaires aux Recherches et Développements, d’assurer leur production et leur interopérabilité (et donc d’établir les standards), de valider leur qualité et de gérer leur diffusion (sous les aspects juridiques et commerciaux). Concernant l’évaluation des technologies, il convient, pour les chercheurs et les industriels, de choisir les tâches selon les besoins, de produire et de diffuser les données communes aux participants, de déterminer les métriques et les protocoles d’évaluation et d’organiser la présentation et la discussion des résultats.
1.4 L’exemple américain L’exemple a été donné par la Defense Advanced Research Agency (DARPA) du Département de la Défense américain, qui a initialisé une telle infrastructure à partir de 1987, en s’appuyant sur le National Institute of Standards and Technology (NIST, alors encore National Bureau of Standards (NBS)) et en créant le Linguistic Data Consortium (LDC) en 1991 [Cieri et al., 2006], sur une décision du congrès américain. A d’abord été considérée la reconnaissance de la parole, puis la reconnaissance du locuteur et de la langue, et, dans le domaine de l’écrit, la compréhension de textes (Message Understanding Conference (MUC)), la recherche d’informations (TREC), avec des extensions aux réponses aux questions (Q&A) et aux documents vidéo (TREC Video), la traduction automatique et, récemment, la « distillation » d’informations, avec le programme GALE, qui inclut transcription vocale, traduction et extraction d’informations, avec l’anglais comme langue cible.
La figure 1 donne une présentation de l’histoire récente de la reconnaissance vocale à travers les campagnes d’évaluation organisées par le NIST. Y figurent les résultats obtenus par le meilleur système à chaque campagne annuelle d’évaluation, sous forme de taux d’erreurs donnés en échelle logarithmique. Les tâches deviennent de plus en plus difficiles dans le temps, passant de la reconnaissance de textes lus à voix haute, pour un vocabulaire d’un millier de mots, pour un seul locuteur ou pour plusieurs, à la dictée vocale de textes de journaux, pour des vocabulaires de 5000 puis 20000 mots, à la transcription d’émissions radiodiffusées ou télévisées, pour des vocabulaires de taille indéfinie et à la reconnaissance de parole conversationnelle, sur le canal téléphonique, pour l’anglais ou pour d’autres langues. On voit que les résultats vont s’améliorant sur chacune des tâches, ce qui est toujours rassurant pour les agences de financement qui voient ainsi que leur investissement a été utilisé à bon escient. Il est également intéressant de noter que lorsque ces campagnes ont été ouvertes à l’international en 1992, ce sont des laboratoires européens (Philips pour la reconnaissance monolocuteur et LIMSI-CNRS pour la reconnaissance multilocuteur) qui ont obtenu les meilleurs résultats, permettant ainsi de situer la recherche européenne du domaine sur l’échelle internationale. On peut aussi noter que lorsque les systèmes de dictée vocale ont atteint des performances acceptables au milieu des années 90, les produits utilisant ces technologies ont pu être commercialisées. A contrario, on note aussi que les performances sur la reconnaissance de parole conversationnelle sont restées à des taux d’erreurs élevés, justifiant le maintien d’un soutien public à la recherche malgré l’existence de solutions à des tâches plus simples. Les activités américaines dans ce domaine ont porté initialement sur l’anglais américain, puis sur d’autres langues en fonction de leur intérêt géopolitique, mais la plupart des langues, dont le français, n’ont pas reçu un traitement comparable et il était impératif d’y pourvoir.
2. Le programme « Techno-Langue » (2002-2006) 2.1. Genèse [Mariani, 2008] Ce programme fait suite à un rapport rédigé par un groupe de travail présidé par A. Danzin au sein du Conseil Supérieur de la Langue Française, dont le vice-président est le Délégué Général pour la Langue Française et les Langues de France, qui a été remis au Premier Ministre en novembre 2000. Suite à ce rapport, une réunion interministérielle fut organisée en juin 2001, et trois actions furent décidées:
La première de ces actions aboutit au programme Techno-Langue. Il fut demandé de l’articuler avec les instruments existants, et en particulier les Réseaux de Recherche et d’Innovation Technologiques (RRIT), permettant de financer des projets applicatifs menés en partenariat entre recherche et industrie, et le programme VSE du Ministère de la Recherche sur la veille stratégique. Techno-Langue a donc eu pour objectif d’assurer le soutien au développement de technologies de la langue génériques validées qui puissent alimenter des projets applicatifs qui en ont besoin, qui conservent pour leur part un financement global de l’ordre de 110 M€ annuels, venant des mêmes trois ministères partenaires.
2.2. Appel à projets L’appel à projet fut organisé autour de 4 volets :
L’organisation du programme comprenait un Comité de Pilotage, composé de chercheurs et d’industriels, et de représentants des RRIT (dans les domaines du logiciel, des télécommunications, de l’audiovisuel et du multimédia) et des administrations (Ministères en charge de la Recherche, de l’Industrie, de la Culture et de la Défense), en recherchant un équilibre entre les chercheurs et les industriels, et entre les spécialistes du langage écrit et du langage parlé. La durée maximale des projets était de 3 ans (2003 – 2005), les financements étant assuré pour chaque projet par l’un des trois ministères partenaires. La participation d’équipes étrangères dans les projets était fortement souhaitée, mais à la condition qu’ils apportent leurs propres financements.
2.3 Résultats de l’appel [Chaudiron, Mariani, 2006] 52 projets furent déposés, 28 retenus et 21 financés, regroupant 94 participants, dont 33 industriels, 40 laboratoires publics et 10 «autres participants» (Associations (AFCP, APIL…), Délégation Générale à l’Armement…). 11 laboratoires étrangers participèrent aux projets (Bell Labs (USA), NII (Japon), EPFL, LATL (Suisse), RALI (Canada)…).Le budget total du programme fut de 20 M€, dont 7,5 M€ d’aides publiques, sur 3 ans. Les projets retenus se placent dans les différents volets de l’appel.
2.3.1. Ressources Linguistiques (données)
2.3.2. Ressources linguistiques (outils)
8 campagnes ont été organisée, 5 sur le traitement de l’écrit et 3 sur l’oral :
La campagne ESTER est exemplaire au regard de l’objectif recherché. La tâche traitait de la transcription sous forme écrite et de l’indexation automatique d’émissions de radio. Elle a permis de constituer un très large corpus pour le français (1600 h enregistrées, dont 100 h transcrites manuellement, représentant 1 Million de mots, pour 350 locuteurs), qui permet au français d’apparaître au deuxième rang mondial, derrière l’anglais américain, pour des données de ce type. Cela signifie également que de telles données n’existent pas pour la plupart des langues dans le monde, et donc qu’il n’existe pas de systèmes de transcription d’émission de radio fonctionnant correctement pour la plupart de ces langues. La campagne d’évaluation d’ESTER a rassemblé 13 participants, dont 3 industriels. Les tâches abordées concernaient la transcription (en temps réel ou différé), la segmentation (entre bruit ou musique et parole, et pour la séparation ou l’identification de locuteurs), et la reconnaissance d’Entités Nommées (directement sur la parole, ou sur le texte transcrit). Faute de temps, la tâche de détection et de suivi de thèmes pour l’indexation fut reportée. Un atelier final fut organisé entre les participants en mars 2005. Un Kit d’évaluation fut produit et distribué, incluant les données de développement et de test, le logiciel de mesure des performances, ainsi que les résultats, afin que des équipes de recherche ou des industriels qui n’ont pas participé à la campagne d’évaluation puissent comparer leurs résultats a posteriori. Une partie des données d’ESTER fut utilisée dans la campagne d’évaluation EASY sur les analyseurs syntaxiques, afin de mesurer leurs performances sur de la parole transcrite. On pourrait ainsi mesurer l’influence d’un module d’analyse syntaxique sur la qualité globale d’un système de transcription et d’indexation. Vers l’amont, un atelier fut organisé par ailleurs pour les linguistes, afin de leur présenter les données et les outils disponibles, ainsi que les résultats obtenus, qui permettent d’identifier des verrous qui nécessiteraient des recherches fondamentales en linguistique. Vers l’aval, un moteur de recherche dans les émissions de radio fut développé dans le cadre du projet applicatif RNTL Audiosurf, regroupant les PME Sinequa et Vecsys, le LIMSI-CNRS et Radio France. Ce système peut être utilisé en libre service sur le portail Audiosurf (http://audiosurf.org/). Une suite de la campagne (ESTER 2) est en cours de lancement, avec un financement de la Délégation Générale à l’Armement (DGA). Les tâches abordées sont l’indexation automatique (détection et suivi de thèmes), non couverte dans ESTER, et la prise en compte des accents régionaux, des émissions de télévision et de la parole spontanée, telle qu’on la trouve dans les interviews, les débats, les plateaux télé…
3. Ouverture Européenne et internationale Le besoin de technologies de la langue s’affirme de plus en plus pour permettre la communication, au niveau national ou international.
3.1. Les besoins sur la Toile mondiale Les besoins liés au multilinguisme deviennent de plus en plus aigus sur la Toile mondiale, et on note avec intérêt la mise à disposition d’outils linguistiques par Google pour gérer la Toile mondiale, en traitant 11 langues, et 25 paires de langues. La traduction des notices techniques devient cruciale dans une économie qui s’est globalisée, et les erreurs d’interprétation ont des conséquences dramatiques qui ont récemment défrayé la chronique à plusieurs reprises.
3.2. Le programme indien TDIL On note également avec intérêt le lancement d’un programme indien sur les technologies de la langue (TDIL (Technology Development for Indian Languages) : http://tdil.mit.gov.in/), qui constitue une des 10 priorités nationales pour l’informatisation de la société en Inde. 19 langues sont considérées dans ce programme : l’Anglais et 18 langues indiennes : Assamese, Bengali, Gujrati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi, Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu et Urdu. Les technologies traitées sont la traduction automatique, la synthèse et la reconnaissance vocales, les moteurs de recherche, la reconnaissance de caractères, les correcteurs orthographiques, les ressources linguistiques…
3.3. Les besoins liés à la construction européenne Le multilinguisme apparaît comme un élément spécifique de la construction européenne, qui présente un enjeu économique, culturel et politique, avec une double nécessité :
Le multilinguisme est une nécessité pour l’Europe, mais le coût qu’il entraîne est donc très important. Les technologies de la Langue permettraient de réduire ce coût, tout en apportant une meilleure réponse à la demande. Mais l’effort à leur consacrer est énorme, si l’on considère le nombre de technologies à développer pour le nombre de langues ou de paires de langues, et sans doute trop important pour la Commission Européenne seule. Il y aurait donc un grand intérêt à le partager avec les Etats-Membres, en parfait accord avec la notion de subsidiarité [Lazzari, 2006].
3.4. Les instruments de la coopération Pour ce faire, il existe des instruments. Partant du constat qu’à peine 15% de la recherche européenne était financée par la Commission, le Commissaire Busquin proposa le concept d’Espace Européen de la Recherche (ERA), afin de mieux coordonner les efforts de recherche de l’Union Européenne. Cela conduisit au programme des ERA-Net dans le 6ème PCRD, ayant pour objectif de coordonner entre eux les programmes nationaux européens, et au programme ERA-Net+ dans le 7ème PCRD, qui permet également une coordination avec ceux de la Commission, et le financement de projets de recherche communs. Il existe également depuis longtemps la possibilité de soutenir des projets à travers l’Article 169 du Traité de l’Union Européenne, réunissant des efforts soutenus en commun de manière tripartite par la Commission Européenne, les Etats-Membres et les industriels. Cette procédure est cependant lourde, puisqu’elle demande un accord du Conseil Européen et du Parlement, et un seul programme de ce type a été financé jusqu’à présent sur les maladies infectieuse tropicales, pour un budget total annoncé de 600 M€. Les thèmes évoqués pour le 7ème PCRD sont l’aide aux personnes dépendantes, le soutien aux PME, la Métrologie, la Recherche en mer Baltique… Il semble que seul le premier de ces thèmes ait été retenu jusqu’à présent.
3.5. Proposition de coordination des efforts européens Les technologies de la Langue nous semblent bien adaptées au concept de l’ERA. La Commission Européenne pourrait avoir en priorité la responsabilité de veiller à assurer la coordination générale d’un tel programme (gestion, détermination des standards, évaluation des technologies, communication...) et le développement de Technologies de la Langue génériques, et chaque Etat-Membre aurait en priorité à assurer la couverture de sa ou de ses langue(s): production des ressources linguistiques qui sont essentielles pour le développement des technologies (corpus, lexiques, dictionnaires…) et développements ou adaptations des Technologies de la Langue tenant compte des spécificités de sa, ou de ses langue(s). Le thème des technologies de la langue est actuellement dans le portefeuille des technologies de l’information et de la communication attribué à la Commissaire V. Reding. Depuis janvier 2007, un nouveau Commissaire a été nommé pour traiter spécifiquement du multilinguisme : Leonard Orban. Sous l’impulsion de son prédécesseur, J. Figel, qui avait également la charge de l’éducation, de la formation et de la culture, un rapport « Une nouvelle stratégie cadre pour le multilinguisme» a été rédigé en Novembre 2005. Suivant les recommandations de ce rapport, un Groupe de Haut Niveau sur le Multilinguisme a été créé en Novembre 2006. Une réunion ministérielle européenne sur le Multilinguisme est prévue en 2008, suivie de communications sur ce sujet devant le Parlement et le Conseil L’intérêt pour ce thème est également exprimé par les Etats-Membres, comme on le trouve dans le« Mémorandum pour une Europe numérique » soumis par la France à la présidence finlandaise de l’Union Européenne en 2006, qui proposait comme un sujet de recherche spécifique prioritaire les «Technologies de la Langue pour une Europe Multilingue». Ce thème est également présent dans de nombreuses initiatives européennes importantes. Dans celui de Bibliothèque Numérique Européenne, où la dimension multilingue est présente, mais qui aurait également besoin de passerelles interlingues, nécessitant de disposer de tels outils. L’Agence Européenne de Sécurité (ENISA) a proposé dans le domaine de l’Intelligence Economique la création d’une Plate-forme multilingue d’alerte et d’échange d’informations pour les Etats-Membres, qui aurait elle aussi besoin de technologies de la langue. L’Office de Brevets Européens a fait récemment l’objet de débat animé autour du nombre de langues dans lesquelles devaient être rédigés les brevets communautaires. Le coût prohibitif de la traduction a conduit à ne retenir que 3 langues, alors qu’un investissement dans le développement de technologies de la langue aurait pu permettre de considérer l’ensemble des langues, en réduisant les coûts et les délais…
3.6 Les technologies de la langue dans le 6ème PCRD On note dans le 6ème PCRD un certain nombre de projets incluant une composante d’évaluation CLEF (Cross-Lingual Evaluation Forum), TC-Star, CHIL, AMI…), mais ces projets ne sont pas inscrits dans la durée, contrairement à la situation aux Etats-Unis [Mariani, 2002]. Le traitement du multilinguisme passe par un développement coordonné des technologies pour chacune des langues européennes. On en a l’illustration dans le Projet Intégré TC-Star [Lazzari, 2006] du 6ème PCRD, qui porte sur la traduction vocale, trois langues ayant été retenues (Anglais, Espagnol et Chinois). Un démonstrateur a été développé assurant la traduction vocale anglais-espagnol dans les deux directions, et portant sur les interventions au Parlement Européen. L’intérêt de cette application réside en la disponibilité de données de taille importante : enregistrements, transcriptions, traductions et interprétations par les interprètes et traducteurs du Parlement, permettant de construire les modèles statistiques correspondants. Il faut souligner qu’un tel démonstrateur a nécessité le développement d’un système de reconnaissance vocale et de synthèse de la parole pour chacune des deux langues, et de systèmes de traduction permettant le passage de l’une à l’autre. Il conviendrait à présent de généraliser ce démonstrateur à l’ensemble des langues officielles, et paires de langues, du Parlement.
3.7. Les technologies de la langue dans le 7ème PCRD Dans le Programme “Cooperation” (ICT) du 7ème PCRD, les technologies de la langue figurent bien cachées dans le Pilier technologique «Simulation, visualisation, interaction, mixed realities», au sein du Challenge 2: Cognitive systems, Interaction, Robotics, qui ne comporte curieusement qu’un seul objectif, intitulé également “Cognitive systems, Interaction, Robotics ». Fort curieusement également, on trouve par contre ce thème en forte priorité dans le cadre de la partie « Coopération internationale », mais spécifiquement pour la langue arabe. Dans le programme portant sur les Infrastructures de recherche (ESFRI), le projet CLARIN a été mis en place qui porte sur la création d’une infrastructure pour les ressources et les outils linguistiques en appui aux Sciences Humaines et Sociales [Wittenburg et al., 2006]. Cela ne couvre donc pas le développement des technologies de la langue pour les applications qui en auraient besoin. Enfin dans le programme E-Content+, la mise en place d’un Réseau Thématique «Ressources linguistiques pour le traitement des langues» apparaît parmi les thèmes de l’appel 2007, qui concerne donc également les Sciences et Technologies de l’Information et de la Communication, mais les aspects liés au développement et à l’évaluation de technologies ne sont pas couverts, et le budget de 1 M€ annoncé ne permet pas d’envisager d’apporter la réponse technologique souhaitable à la hauteur des enjeux.
4. Conclusions La France a pu mettre en place un programme national dans le domaine des Technologies de la Langue pour le Français, s’appuyant sur la production de ressources linguistiques, la détermination de standards, la veille technologique et l’évaluation. Sa pérennisation au-delà de ses trois ans d’existence et de financement demeure ouverte, et soulève la question de l’absence, en France ou en Europe, de l’équivalent d’une entité d’évaluation et de standardisation comparable au NIST. Il apparaît une forte nécessité de disposer de Technologies de la Langue pour permettre le multilinguisme en Europe et dans le monde. C’est peut-être le thème le plus adapté entre tous à un effort partagé entre la Commission Européenne et les Etats-Membres, mais qui est malheureusement soutenu de manière insuffisante et non-coordonnée dans le 7ème PCRD, avec la crainte de devoir attendre la fin de celui-ci en 2013 pour le considérer à sa juste hauteur. La mise en place d’un groupe de haut niveau sur les technologies de la langue en soutien au multilinguisme pourrait aider à résoudre ce problème.
5. Références Ayache C., Grau B., Vilnat A., 2006. EQueR: the French Evaluation campaign of Question-Answering Systems, LREC’06, Genoa, Italy, May 2006 Bonneau-Maynard H., Ayache C., Bechet F., Denis A., Kuhn A., Lefevre F., Mostefa D., Quignard M., Rosset S., Servan C., Villaneau J., 2006. Results of the French Evalda-Media evaluation campaign for literal understanding, LREC’06, Genoa, Italy, May 2006 Boula de Mareüil P., d'Alessandro C., Raake A., Bailly G., Garcia M., Morel M., 2006. A joint intelligibility evaluation of French text-to-speech synthesis systems: the EvaSy campaign, LREC’06, Genoa, Italy, May 2006 Chaudiron S., Mariani J., 2006. Techno-langue: The French National Initiative for Human Language Technologies (HLT), LREC’06, Genoa, Italy, May 2006 Chaudiron S. (éd.), 2007, « L’évaluation technologique dans le domaine du traitement automatique de la langue : les campagnes Technolangue », Hermès Chiao Y., Kraif O., Laurent D., Nguyen T., Semmar N., Stuck F., Véronis J., Zaghouani W., 2006. Evaluation of multilingual text alignment systems: the ARCADE II project, LREC’06, Genoa, Italy, May 2006 Cieri C., Liberman M., 2006. More Data and Tools for More Languages and Research Areas: A Progress Report on LDC Activities, LREC’06, Genoa, Italy, May 2006 Cole R., Mariani J., Uszkoreit H., Varile N., Zaenen A., Zampolli A., Zue V., 1998. Survey of the State-of-the-Art in Human Language Technology, Cambridge University Press, http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html. Gravier G., Bonastre J.F., Galliano S., Geoffrois E., Mc Tait K. and Choukri K., 2004. The ESTER evaluation campaign of Rich transcription of French Broadcast News.LREC’04, Lisbon, May 2004 Hamon O., Popescu-Belis A., Choukri K., Dabbadie M., Hartley A., Mustafa El Hadi W., Rajman M., Timimi I., 2006. CESTA: First Conclusions of the Technolangue MT Evaluation Campaign, LREC’06, Genoa, Italy, May 2006 Lazzari G. , 2006. Human Language Technologies for Europe. ITC IRST / TC-Star project report, http://www.tc-star.org, April 2006. Mariani J., 2002. Are we loosing Ground to the US ? A contrastive analysis of US-EU research framework on HLT. http://www.hltcentral.org/page-975.0.shtml Mariani J. (éd.), 2002, "Traitement Automatique du Langage Parlé: Reconnaissance", Hermès, juin 2002 Mariani J., 2008, "Research infrastructures for Human Language Technologies: A vision from France”. Speech Communication journal, à paraître 2008 Mustafa el Hadi W., Timimi I., Dabbadie M., Choukri K., Hamon O., Chiao Y., 2006. Terminological Resources Acquisition Tools: Toward a User-oriented Evaluation Model, LREC’06, Genoa, Italy, May 2006 Paroubek P., Robba I., Vilnat A., Ayache C., 2006. Data, Annotations and Measures in the EASY Evaluation Campaign for Parsers of French, LREC’06, Genoa, Italy, May 2006 Pierre, J., 2007. La Langue au coeur du numérique, Délégation Générale à la Langue Française et aux Langues de France, http://www.dglf.culture.gouv.fr, Février 2007. Wittenburg P., Broeder D., Klein W., Levinson S., Romary L., 2006. Foundations of Modern Language Resource Archives, LREC’06, Genoa, Italy, May 2006
|
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |