![]() |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1) Introduction De tous les outils utilisés pour l'aide à la traduction, les aligneurs de textes sont, avec les mémoires de traduction, sans doute les plus précieux. Le principe de l'alignement est simple: il s'agit de mettre en correspondance deux textes (ou plus), supposés être la traduction l'un de l'autre. La correspondance se fait généralement au niveau des phrases, le mot restant une échelle inaccessible et à vrai dire, probablement non pertinente. Il est ensuite possible de rechercher des expressions sur un des textes, et de repérer alors leurs traductions dans les phrases alignées avec celles contenant les occurrences, ce qui permet d'exploiter le bi-texte obtenu. Depuis les premiers travaux (Gale&Church, 1991), de nombreuses études ont contribué à améliorer la technique. Le lecteur pourra consulter, entre autres (Simard et al., 1992), (Ma, 2006), (Véronis, 2000), (Dan Melamed, 1996) ou (Macklovitch&Langlais, 2004). Malheureusement, les logiciels créant ou manipulant des alignements souffrent de deux défauts. Tout d'abord, il est rarement possible de pouvoir éditer l'alignement obtenu pour corriger les inévitables erreurs. Ensuite, la recherche d'expressions dans des bi-textes se limite souvent à une recherche littérale, voire par expressions régulières. Ainsi, la moindre recherche de toutes les formes conjuguées d'un verbe se traduira par une énumération fastidieuse, et cela empirera lorsque l'on voudra effectuer des requêtes plus complexes. Nous avons donc combiné la puissance de l'aligneur XAlign (Loria, 2006) avec les capacités du logiciel de traitement de corpus Unitex (Paumier, 2006), afin de pallier à ces deux inconvénients. Nous commencerons par présenter XAlign et l'intégration qui en a été faite dans Unitex, puis nous donnerons un bref aperçu des possibilités offertes par ce dernier logiciel, notamment en ce qui concerne les requêtes linguistiques. Nous illustrerons les applications de cette association à travers un exemple simple d'étude linguistique sur un bi-texte français-roumain. Pour cela, nous présenterons un dictionnaire électronique du roumain, et nous montrerons comment en tirer parti sur notre bi-texte.
2) XAlign Ce logiciel d'alignement de textes a été développé au Loria par Patrice Bonhomme, Thi Minh Huyen NGuyen et Sean O'Rourke. Il travaille sur des textes encodés en TEI (http://www.tei-c.org) et suppose que ceux-ci sont découpés en phrases et paragraphes. Son fonctionnement entièrement statistique lui permet de tourner sur n'importe quelles langues. De plus, il utilise la notion de cognates, parfois appelés îlots de certitude, qui correspondent à des portions de texte non ambiguës sur lesquelles on peut ancrer l'alignement de façon fiable. Il s'agit généralement de noms propres ou d'expressions numériques. La particularité de XAlign est qu'il est réentrant, c'est-à-dire que l'on peut lui fournir en entrée un bi-texte partiellement aligné, qu'il utilisera comme ensemble de cognates. Ainsi, on peut utiliser un traitement quelconque pour repérer des cognates et utiliser ensuite XAlign pour construire un alignement plus fiable que s'il avait dû construire un alignement en partant de zéro. Ses performances sont comparables à celles de ses concurrents, c'est-à-dire qu'elles dépendent directement de la qualité de la segmentation en phrases et paragraphes des textes d'entrée. Nous effectuons cette segmentation à l'aide de grammaires de découpage complexes (Friburger et al., 2000), permettant de gérer des cas particuliers de façon très fine. Une fois les textes découpés, un programme se charge de les convertir au format TEI. Il ne reste alors plus qu'à lancer XAlign et à visualiser les résultats.
Comme le montre la figure 1, il est possible d'éditer très simplement l'alignement obtenu par simples clics. Nous verrons dans la section suivante comment on agir sur cet alignement au moyen de requêtes linguistiques.
3) Unitex Ce logiciel, développé à l'IGM, permet d'effectuer de puissantes requêtes linguistiques sur des textes. En effet, Unitex est fondé sur l'utilisation de larges ressources linguistiques, notamment des dictionnaires électroniques permettant d'identifier pour chaque mot simple ou composé, quelles sont ses interprétations possibles. Grâce à ces ressources, il est possible de formuler des requêtes linguistiques avancées, comme par exemple, obtenir toutes les formes d'un verbe à un temps donné. Ces requêtes peuvent se présenter sous la forme d'expressions régulières. Ainsi, l'expression: <avoir.V>.(<E>+<ADV>).<V:K> permet de reconnaître le verbe avoir, suivi par un adverbe facultatif, suivi par un participe passé, c'est-à-dire des formes au passé composé avec insertion éventuelle d'un adverbe. Il est même possible de formuler des requêtes encore plus complexes en recourant à des graphes décrivant des combinaisons bien plus riches que de simples expressions régulières:
Notre module d'alignement permet de tirer parti de telles requêtes linguistiques à des fins de traduction. Il est en effet possible d'effectuer une requête sur un texte, d'en obtenir la concordance et de visualiser la liste des phrases dans l'autre langue qui sont alignées avec des phrases de cette concordance. Ainsi, en utilisant l'expression ci-dessus, on pourrait aisément localiser les phrases contenant les traductions de participes passés français.
La figure 3 montre ce que l'on obtient en recherchant toutes les occurrences, conjuguées ou non, du verbe français regarder, dans le roman Les glycines d’Altea (Thiers, 1992) et leurs correspondants dans la traduction roumaine de ce roman. En comparant les résultats, nous constatons un nombre de divergences qui se prêtent à des commentaires d’ordre linguistique et traductologique. Ainsi constatons-nous que le verbe français apparaît dans les fragments illustrés par la fig. 3 quatre fois, chaque fois à une autre forme et que les hétéronymes roumains – dans la plupart des cas, des équivalents contextuels – ne se trouvent pas toujours à la même forme flexionnelle.
4) Une expérience linguistique Afin d'illustrer les possibilités de cet outil, nous avons étudié la correspondance des expressions au vocatif dans les deux textes. Pour cela, nous sommes partis du fait que le vocatif est morphologiquement marqué en roumain, ce qui rend son repérage relativement aisé. Nous avons donc décrit au moyen des graphes de la figure 4 une approximation de groupe nominal au vocatif. L'écriture de ces graphes est rendue très simple par l'utilisation sous-jacente du dictionnaire du roumain que nous présenterons plus loin, et grâce auquel, un simple code comme <N:V> permet de reconnaître n'importe quel nom au vocatif.
En appliquant la grammaire de la figure 4 au texte roumain, on obtient l'alignement de la figure 5. En examinant tous les occurrences repérées, on en déduit que le vocatif est représenté en français par les expressions suivantes: chère madame, madame, mademoiselle, ma chère, chère amie, chère Altea, Altea chérie, Tante, Pancrace, mon ami, cafard, les enfants, et monsieur le maire. En triant selon les traductions françaises, on obtient le tableau suivant:
Ce tableau met en évidence le fait que la traduction n'est pas constante, ni dans un sens, ni dans l'autre. Ainsi, chère madame est traduit par 4 séquences différentes, voire par la séquence vide, et l'une de ces traductions, doamnă dragă, correspond dans le texte français tantôt à chère madame, tantôt à chère amie. En revanche, il ne semble pas y avoir de nuance dans le texte roumain pour distinguer chère Altea et Altea chérie. Naturellement, ce procédé est soumis aux diverses ambiguïtés du texte. Ainsi, les formes vocatives des noms qui sont homographes avec d'autres cas ne peuvent être distinguées par le programme de recherche. C'est donc au niveau de la grammaire qu'il faut travailler pour donner un contexte permettant de lever le doute. Dans notre grammaire de la figure 4, on utilise des signes de ponctuation comme contexte. Il est cependant toujours possible de rencontrer des erreurs. Par exemple, on voit sur la figure 5, que le mot Hôtel a été considéré comme un vocatif par la grammaire. Il s'agit ici d'une erreur due à l'interprétation erronée de Hôtel comme étant un nom propre, à cause de la majuscule.
5) Un dictionnaire électronique du roumain Le dictionnaire électronique que nous utilisons est un dictionnaire DELA que nous avons élaboré à l’Institut Gaspard-Monge. Pour la réalisation de ce dictionnaire électronique du roumain nous avons utilisé plusieurs types de ressources lexicographiques: dictionnaires explicatifs (DEX’98, NODEX et la version numérique dexonline: http://dexonline.ro/), dictionnaires orthographiques (DOOM 2 et Dicţionar ortografic), dictionnaire morphologique (DMLR). Par ailleurs nous avons consulté plusieurs travaux de grammaires, dès plus généraux (GALR, GLR, Avram 1986, Lombard 1974) jusqu’aux plus ponctuels (Diaconescu 1962, Graur 1988), ce qui nous a permis de réfléchir à un formalisme plus unitaire de certains formes flexionnelles, i.e.: les formes de vocatif (Dumitriu & Guta, à paraître). Le principe des dictionnaires DELA est d’associer à chaque lemme qui constitue l’entrée d’un dictionnaire de formes canoniques, un code flexionnel renvoyant à une classe de flexion et à une grammaire de flexion spécifique représentée par un graphe permettant la génération en temps réel des paradigmes flexionnels qui constituent un dictionnaire des formes fléchies. Les grammaires de flexion tiennent compte aussi bien de la flexion externe (désinences) que de la flexion interne (alternances vocaliques et/ou consonantiques, position de l’alternance etc). La figure 6 montre un exemple de graphe de flexion correspondant à une certaine classe de noms masculins à double alternance (vocalique et consonantique). Le nombre des classes de flexion (et de grammaires associées) obtenu dépasse de loin le nombre de classes traditionnelles (Dumitriu, 2006a, 2006b). Nous donnons quelques chiffres à titre d’exemple: 296 classes et sous classes de flexion nominale (dont: 75 pour les noms masculins, 179 pour les noms féminins et 42 pour les noms neutres); 74 classes des adjectifs qualificatifs auxquelles s’ajoutent les classes des adjectifs pronominaux, etc. La figure 7 montre un extrait du dictionnaire roumain. Comme on peut le voir, chaque entrée est constituée d'une forme fléchie (en bleu), d'une forme canonique (en rouge), d'un code grammatical (N, V, Interj, etc.) éventuellement complété par des codes sémantiques (t), ainsi que d'une série optionnelle de codes flexionnels (dNfs, MiAfs, etc). Pour plus d'information sur ces dictionnaires électroniques et la méthode de flexion automatique utilisée pour les construire, le lecteur pourra se reporter à (Paumier, 2006).
Conclusion Le logiciel Unitex, librement accessible sur le site de l'IGM, est désormais doté de l'aligneur XAlign. La possibilité d'éditer à la souris les bi-textes obtenus et la puissance des requêtes linguistiques qu'il est possible de faire sur ces bi-textes en font un outil très puissant pour l'exploitation de données textuelles alignées. De plus, nous avons vu que les capacités d'exploration des données augmentaient nettement si l'on disposait de dictionnaires électroniques grâce auxquels on peut identifier simplement des classes entières de mots. Grâce aux différents types de codes prévus par les dictionnaires, les requêtes peuvent être d’ordre morpho-syntaxique, sémantique, stylistique, etc. Le dictionnaire roumain que nous avons présenté constitue donc une ressource linguistique très intéressante, susceptible d'être utilisée dans d'autres applications.
Remerciements Nous remercions vivement le Loria pour avoir accepté de mettre XAlign sous licence libre, ainsi que Patrick Watrin qui a contribué à l'intégration de cet aligneur dans Unitex. Nous remercions également Jacques Thiers, l'auteur du roman utilisé dans cet article qui a bien voulu nous laisser utiliser la forme électronique de son texte.
Références Avram, M., 1986, Gramatica pentru toţi, Ed. Academiei RSR, Bucureşti. Dan Melamed, I., 1996. A Geometric Approach to Mapping Bitext Correspondence, IRCS Technical Report #96-22, a revised version of the paper presented at the First Conference on Empirical Methods in Natural Language Processing (EMNLP), Philadelphia, PA, May. Diaconescu, P., 1962, Vocativul în –(u)le, dans SCL XIX, 5, p. 469 – 472. Dicţionarul explicativ al limbii române [DEX '98], Academia Română, Institutul de Lingvistică "Iorgu Iordan", Ed. Univers Enciclopedic, 1998. Dicţionar ortografic al limbii române [Dicţionar ortografic], 2002, Ed. Litera Internaţional. Dicţionar ortografic, ortoepic şi morfologic al limbii române [DOOM 2], 2005, IIe éd, Ed. Univers Enciclopedic. Dumitriu, D.-M. & A. Guta. Le vocatif des noms communs et des adjectifs du roumain, Ed. Aius, coll. Infolingua, 7, Craiova (à paraître). Dumitriu, D.-M., 2006a, Grammaires de flexion des noms roumains par automates finis, Ed. Aius, coll. Infolingua, 2, Craiova. Dumitriu, D.-M., 2006b, Grammaires de flexion des adjectifs roumains par automates finis, Ed. Aius, coll. Infolingua, 4, Craiova. Friburger N., Dister A. et D. Maure, 2000, Améliorer le découpage des phrases sous Intex, Revue Informatique et Statistique dans les Sciences Humaines, vol. 36, n°1-4, p. 181-200. Gale, W. & K. W. Church, 1991, "A Program for Aligning Sentences in Bilingual Corpora" Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, CA. Gramatica Limbii Române [GALR] 2005, Editura Academiei Române, Bucureşti. Graur, A., 1988, Puţină gramatică, Editura Academiei RSR, Bucureşti (les articles sur le vocatif. Irimia, D., 1997, Gramatica Limbii Române [GLR], Ed. Polirom, Iaşi. Lombard, A., 1974, La langue roumaine. Une présentation, Ed. Klincksieck, Paris. Lombard, A & C. Gâdei, 1981, Dictionnaire morphologique de la langue roumaine [DMLR], Ed. Academiei, Bucureşti. Loria, 2006, XAlign(Alignement multilingue). Ma, X., 2006, "Champollion: A robust parallel text sentence aligner". Proceedings of the fifth international conference on Language Resources and Evaluation (LREC), Genoa, Italy. Macklovitch, E. et P. Langlais, 2004, Le bitexte et ses applications tutoriel donnée à la conférence TALN , 19-22 avril, Fès, Maroc. Noul dicţionar explicativ al limbii române [NODEX], 2002, Ed. Litera Internaţional. Paumier, S., 2006, Unitex 1.2 User Manual, Simard, M., Foster, G. and Isabelle, 1992, "Using Cognates to Align Sentences in Bilingual Corpora", in Proceedings of the Fourth International Conference on Theoretical and Methodogical Issues in Machine translation (TMI92), (Montreal), 67-81. Thiers, J., 1992, Les glycines d’Altea, Ed. Albiana, Levie. Thiers, J., 1996, Parfum de glicine, Ed. Macedonski, Craiova (trad : Dana-Marina Dumitriu). Véronis, J., 2000, Alignement de corpus multilingues. In J.-M. Pierrel (Ed.), Ingénierie des langues (pp. 151-171). Paris: Editions Hermès.
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |