![]() |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Introduction Le projet « Collocations en contexte : extraction et analyse contrastive» (financé par l’Agence Universitaire pour la Francophonie) a comme objectif le développement d’un système d’extraction semi-automatique de collocations, qui exploitent des corpus alignés. Les collocations posent des problèmes pour les traducteurs, ainsi que pour les systèmes d’aide à la traduction, en ce qui concerne leur utilisation dans le bon contexte et sur le plan des choix des composants (prendre une décision se traduit en roumain par a lua o decizie, mais en anglais la traduction est réalisée avec le verbe ‘make’ : to make a decision ; to make good damages se traduit par dédommager en français, mais par ‘a compensa daunele’ en roumain). Pour ces raisons, les collocations ont fait l'objet de nombreuses études qui se concentrent sur la définition de la notion de collocation, l'identification de leurs propriétés syntaxiques, sémantiques et pragmatiques (Grossmann, Tutin, 2003), la création de dictionnaires électroniques (Blumenthal, 2007), (Mel’cuk et. al, 1984) et le développement d'outils d'extraction automatique des collocations. Malgré l'existence de quelques dictionnaires électroniques qui contiennent des descriptions de collocations en plusieurs langues (BLF (Verlinde et al, 2003)), peu de ressources qui proposent une description complète des propriétés morpho-syntaxiques des collocations et la plupart des dictionnaires offrent une vue limitée sur les données du dictionnaire. Pour pallier ce manque de ressources, des outils d’extraction de collocations à partir des corpus utilisent des méthodes statistiques (Evert, 2005) ou syntaxiques (Tutin, 2004, Seretan et al, 2004). Si les méthodes statistiques identifient beaucoup de candidats invalides (la précision est alors faible), les méthodes syntaxiques nécessitent beaucoup de ressources linguistiques (la précision est meilleure, mais les ressources nécessaires sont très complexes). Pour trouver un compromis entre la précision et le rappel, des méthodes hybrides (Daille, 1996) (appliquées pour identifier des termes dans un domaine limité) ont été développés (Smadja et al, 1990). Notre outil d’extraction combine méthodes statistiques et informations morpho-syntaxiques sur le comportement linguistique des collocations. Nous privilégions une approche avec peu de connaissances linguistiques, qui exploitent des corpus étiquetés et alignés. Nous présentons la méthodologie adoptée pour ce projet et les corpus utilisés. Nous allons présenter l’analyse linguistique qui serve de base pour définir les filtres linguistiques. Les outils d’extraction monolingues et bilingues sont présentés en détail, ainsi qu’une série de données extraites à partir des corpus anglais et français. Le projetPour atteindre cet objectif, nous avons adopté d’une part la définition traditionnelle de Hausmann (2004), qui considère la collocation comme une relation syntaxique entre une base et son collocatif, et d’autre part la notion morpho-syntaxique des collocations proposée pour l’allemand par (Heid, Ritz 2005), (Ritz, Heid 2006) qui prennent en compte les informations contextuelles autour des collocations (le complément direct ou indirect, le nombre, genre de la base ou du collocatif etc.). Selon cette approche, le contexte permet de définir des propriétés qui identifient les classes de collocations. La méthodologie que nous avons adoptée ici comporte donc plusieurs étapes de travail, et combine des méthodes statistiques et linguistiques:
Nous présentons ici une méthode d’extraction qui s’appuie sur une analyse linguistique concernant une classe spécifique des collocations, de type V-N, réalisée sur plusieurs corpus. Les corpusNous avons utilisé des corpus monolingues étiquetés qui permettront d'explorer les contextes des collocations dans chaque langue, et des corpus alignés multilingues qui seront utilisables pour une évaluation des résultats des trois outils. Nous utilisons un corpus multilingue aligné (AcquisCommunautaire-ACQ, (Steinberger et al, 2006)), en français, roumain, anglais et allemand. Il s’agit d’un corpus très spécialisé, contenant la législation européenne publiée depuis 1950 et caractérisé par un style juridico-administratif impersonnel et riche en expressions figées. Nous avons sélectionné un échantillon de documents comparables dans les trois langues (environ 15 millions de mots pour chaque langue du projet). Nous avons également utilisé des corpus monolingues contenant des journaux en français (Le Monde 2004, le Monde diplomatique 1980-1998 : environ 44 millions de mots), en allemand (une collection de journaux, 60 millions de mots) et en roumain (des textes journalistiques, des romans et des textes médicaux - 10 millions de mots). Pour l’anglais, nous avons utilisé le corpus BNC Baby. Ces corpus ont été étiquetés à l’aide du TreeTagger (Schmid, 1994) pour l’allemand, le français et l’anglais (ACQ et les corpus monolingues pour l’allemand et le français) et le TTL pour le roumain (Ion, 2007). Le corpus ACQ est aligné au niveau de propositions et des mots. Les outils d’extraction, ainsi que les outils d’alignement seront présentés dans les sections suivantes. Les constructions Verbe-Nom Vu la durée du projet, nous nous sommes concentrés sur l’étude d’une classe de collocations spécifique, les collocations de type Verbe-Nom. Ainsi, nous considérons que les collocations sont plus que des co-occurences (Sinclair, 1992), mais plutôt des constructions (une relation lexico-grammaticale qui est établie entre les deux éléments) (Golberg, …), (Hausmann, 2004). Nous avons analysé les combinaisons Verbe-Nom dans un modèle inspiré par (Halliday, 1985), sur trois niveaux (Gledhill, 2007) : la structure lexicale, la fonction syntaxique (Sujet, Prédicat, Complément), le type de procès exprimé par la construction Verbe-Nom. Du point de vue structurel, (Glehill, 2007) identifie deux classes de constructions VN à identifier: les prédicateurs complexes (le verbe et le nom forment un bloc et jouent le rôle de prédicat ensemble : avoir peur, a ţine seama/tenir compte, take account) et les structures prédicat+complément, ou le complément est plus indépendant (lua decizii/’prendre des decisions’, make decisions). Pour identifier ces classes d’une manière automatique, nous avons identifié un ensemble de propriétés morpho-syntaxiques, caractéristiques aux verbes et aux noms. Ainsi, les propriétés des constructions VN propres aux verbes sont : être équivalent à un seul verbe (make decisions = to decide, mais non a face obiectul=*a obiecta/’to make objections’), la valence et le passif (Comisia face un raport preşedintelui/’La Commission fait un rapport au président’ et Raportul a fost făcut de către comisie/’Le rapport a été fait par la commission’, mais Comisia face faţă situaţiei/’La comission fait face à la situation’ mais il n’est pas possible d’utiliser la forme passive: *Faţă a fost făcută). En ce qui concerne les propriétés caractéristiques au nom, nous étudions le déterminant (l’absence ou la présence systématique de l’article), la modification par une clause relative (qui n’est pas possible pour les prédicateurs complexes) ou la conversion vers un groupe nominal (comisia a luat o decizie = luarea deciziei, mais pas Nous avons fait l’hypothèse=le fait de l’hypothèse). Aucune de ces propriétés n’est pas suffisante pour identifier d’une manière unique la classe de constructions, seul le rôle sémantique joué par le nom (qui précise le procès exprimé par le verbe), permets de faire la distinction entre la classe prédicateur complexe et une structure classique prédicat+complément. Si le nom remplit la fonction de complément de portée (qui spécifie le procès exprimé par le prédicat), alors il s’agit d’un prédicateur complexe. Cette dernière analyse peut être validée seulement manuellement, mais les propriétés morpho-syntaxiques sont identifiés automatiquement dans un corpus étiquété. Les prédicateurs complexes sont caractérisés par une invariabilité morpho-syntaxique prononcée (absence du déterminant, pas de passivation possible etc.), alors que les structures prédicat+complément sont plus flexibles et le complément est plus indépendant sur un plan syntagmatique. L’outil d’extraction monolingue Nous avons développé un outil d’extraction monolingue des collocations, et nous utilisons la technologie développée par RACAI pour aligner des textes en deux langues et pour dériver des équivalences au niveau des lexèmes. Ce même système permet également d’identifier des équivalences pour des couples de mots, non seulement pour des mots contigües, mais pour des paires qui ont les deux propriétés suivantes:
Les résultats obtenus suite à la combinaison des deux propriétés indiquent que l’utilisation du score LL calculé pour des paires de mots qui remplissent des critères morpho-syntaxiques ou bien de la moyenne de la distance entre les mots constitue une approche efficace pour l’extraction des collocations du type verbe-nom (V-N/N-V). Une fenêtre de 11 mots (qui est le contexte où on cherche les cooccurrences) parcourt chaque phrase du texte lemmatisé et étiqueté, et chaque mot devienne, à un moment donné, le centre de la fenêtre [1]. Les mots qui sont introduits dans la fenêtre sont des noms ou des verbes; les autres parties des unités morphologiques ne sont pas pris en compte. Une base de données stocke toutes les paires de mots (sous forme de lemme) formées entre le centre de la fenêtre et les autres mots de cette dernière, et la distance [2] entre les mots qui composent ces paires. A titre de paires intéressantes, nous avons gardé les paires auxquelles correspond une déviation standard inférieure à un seuil de 1,5 (Manning & Schutze, 1999). Pour les paires intéressantes extraites, on calcule le score LL (qui doit être supérieur au seuil de 9). Employant la méthode ci-dessus présentée sur le corpus ACC roumain et français, nous avons obtenu une liste de collocations ordonnées en fonction du score LL. Nous retrouvons un ensemble de collocations commun aux deux langues (take account / ţine cont; make decisions / lua masuri ; give rise / face obiectul). Certaines, comme enter into force/entrer en vigueur, a fi adoptat la Bruxelles/done in Brussells sont des expressions spécifiques du langage juridique du corpus ACC.
Fig. 2. Les paires V-N les plus fréquentes, identifiées par un ensemble de propriétés morpho-syntaxiques plus ou moins invariables (nombre, déterminant, cas du complément indirect). Nous pouvons constater la présence des propriétés morpho-syntaxiques pertinents comme l’absence du déterminant (-), la préférence pour le nombre singulier et pour un cas spécifique pour les prédicateurs complexes dans les deux langues. Nous pouvons observer que les co-occurrences proposées pour l’anglais contiennent moins de prédicateurs complexes:
Les candidats collocationnels identifiés par l’outil d’extraction statistique monolingue, seront filtrés à l’aide des propriétés morpho-syntaxiques identifiées sur les corpus : la présence ou l’absence d’un article, la préférence pour une classe de prépositions etc.). Voilà quelques exemples de patrons qui permettent l’identification des prédicateurs complexes en roumain et en anglais :
Exemples 1) face *{1} NSRY *{1,5} NxOY
2) take *{1, 2} NNx
L’outil d’extraction bilingue L’alignement L’alignement automatique des textes est une étape nécessaire pour plusieurs applications TAL utilisées dans un contexte multilingue. L’alignement de deux corpus comparables offre des informations supplémentaires entre les relations établies entre un texte et sa traduction. Ces relations sont établies entre divers unités textuelles, des paragraphes, des phrases ou des mots. Dans notre cas, l’alignement lexical (au niveau des mots et des unités lexicales) sont utilisés pour trouver des constructions VN équivalentes (des collocations) dans les quatre langues du projet (anglais, français, allemand, roumain). Les alignements sont initialement réalisées sur les paires anglais-français, anglais-allemand, anglais-roumain. A partir de ces alignements, nous pouvons générer les paires français-allemand, français-roumain et allemand-roumain. Avant l’alignement lexical, il est nécessaire de passer par une étape d’alignement au niveau de la proposition ou de la phrase (qui n’est pas dépendante des langues source et cible). Une des méthodes d’alignement au niveau de la phrase (Gale, Church, 1991) utilise la longueur moyenne des phrases (le nombre de mots ou de caractères). Chen (1993) a développé une méthode qui s’appuie sur l’optimisation des probabilités de traduction des mots, une méthode qui est plus efficace que la méthode de Church, mais qui nécessite des ressources complexes. Le système de (Melamed, 1996) s’appuie sur un mappage géométrique et fait l’hypothèse qu’une proposition relative (calculée en fonction de la longueur du texte) va s’aligner avec une proposition située sur la même position relative. Une des méthodes d’alignement au niveau de la proposition qui est très répandue est celle de Moore (2002). Cette méthode hybride fonctionne en trois étapes : pendant la 1ere étape l’application utilise des méthodes qui s’appuient sur la longueur de la proposition et l’alignement géométrique. La deuxième étape filtre les candidats pour retrouver les alignements qui sont sûrs et, sur cette base, l’algorithme construit une liste d’équivalents de traduction. La troisième étape utilise les listes d’équivalents de traduction pour corriger l’alignement. Le système de Moore, ainsi qu’une méthode hybride développé par RACAI (Ceauşu et al, 2006) vont constituer les outils pour aligner les corpus ACQ au niveau des propositions pour les 4 langues étudiées. Le système d’alignement de RACAI utilise un classifieur de type vecteur support et il n’est pas dépendent de la langue. Son entraiment doit se faire à l’aide d’une partie restreinte du corpus (200 propositions, alignées manuellement). L’application utilise la distribution LIBSVM (Fan et al., 2005), avec les valeurs implicites pour les paramètres d’entraînement. L’alignement lexical a été réalisé initialement manuellement, et à l’aide de Uplug (Tiedemann, 2003). Pour l’alignement des corpus anglais-roumain, nous avons utilisé un outil d’alignement développé par RACAI (Tufis et al, 2005) qui utilise un algorithme iteratif. Pour chaque itération, l’alignement lexical va aligner divers catégories de mots comme les entités nommées, les nombres les dates, les mots contenu, les mots grammaticaux et les signes de ponctuation. L’alignement utilise plusieurs valeurs seuils pour identifier les alignements pertinents, à chaque itération. Un alignement entre deux unités lexicales (mots ou expressions) est caractérisé par une serie de propriétés dont les valeurs font partie de l’intervalle [0,1]. L’alignement lexical est indépendent de corpus et des unités lexicales qui le composent et peut être exploité dans un autre contexte. Ainsi, l’alignement lexical peut servir pour identifier les équivalents de traduction pour les collocations de type VN. Un exemple d’extraction Les candidats confirmés par l’outil d’extraction bilingue, sont, pour la plupart, des collocations pertinentes, où chaque élément de la collocation est traduit de la même façon qu’en dehors de cette combinaison. Les candidats collocationnels non confirmés sont également intéressants pour les traducteurs : la majorité de ces cas sont non-compositionnels ; c’est-à-dire leurs traductions impliquent souvent des traductions non-standard (mots uniques ou expressions). Nous présentons quelques données extraites à partir des corpus anglais et roumain (ACQ). Les équivalents de traduction communs peuvent être intégrés dans le dictionnaire multilingue de collocations, puisque nous retrouvons des spécificités pour chaque langue (le verbe utilisé qui n’est pas toujours la simple traduction de l’autre verbe, certains prépositions –into, on- sont nécessaires et sont intégrés dans le groupe verbal): To ask support= a cere sprijin/ demander de l’aide
Quelques cas spécifiques ont été identifiés dans le corpus aligné et qui n’ont pas d’équivalent de traduction, la traduction est un verbe. Les candidats extraits du corpus anglais sont caractérisés par une invariance des propriétés morpho-syntaxiques et sont des prédicateurs complexes L’alignement lexical permet alors d’identifier les traductions correctes : Turned a blind eye/lit. ‘tourner un oeil aveugle’= a ignorat/ignorer ConclusionNous avons présenté un outil d’extraction de collocations monolingue, qui combine méthodes statistiques et filtrage linguistique, mais également un outil d’extraction de collocations multilingue, qui nécessite des corpus alignés. La méthode d’alignement (propositionnel et lexical) est présentée en détail. Les candidats extraits pour chaque langue sont confrontés à une liste d’équivalents de traduction établie à partir des corpus alignés et sont utilisés pour alimenter un dictionnaire multilingue de collocations.
Remerciements éventuels Ce projet est financé par le réseau « Lexicologie, Terminologie, Traduction » de l’Agence Universitaire de la Francophonie. Nous remercions : D. Bourigault pour le corpus ACC français annoté syntaxiquement, R. Mihalcea (Université de Texas) pour le corpus NAACL, Dan Tufis (Académie Roumaine) pour le corpus RoCo et Dan Cristea (Université de Iasi, Roumaine) pour le corpus L4TE. Références Blumenthal, P., (2007) A Usage-based French Dictionary of Collocations, in: Y. Kawaguchi/T. Takagaki/N. Tomimori/Y. Tsuruga (éds.): Corpus-Based Perspectives in Linguistics, Amsterdam u.a.: Benjamins (Usage-Based Linguistic Informatics 6), 67-83. Ceauşu, A., Ştefănescu, D., Tufiş, D. (2006). Acquis Communautaire Sentence Alignment using Support Vector Machines, LREC 2006, Genoa, Italy Chen, S.F. (1993). Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio, 9-16 Daille, B. (1996) Study and Implementation of Combined Techniques for Automatic Extraction of Terminology , in Resnik, P. (ed.) The Balancing Act: Combining Symbolic and Statistical Approaches to Language, MIT Press, page 49—66. Evert, S. (2005). The Statistics of Word Cooccurrences: Word Pairs and Collocations. Ph.D. thesis, Institut für maschinelle Sprachverarbeitung, University of Stuttgart Fan, R.-E., Chen, P.-H. and Lin, C.-J. (2005). Working set selection using the second order information for training SVM. Technical report, Department of Computer Science, National Taiwan University Gale, W.A., Church, K.W. (1991). A program for Aligning Sentences in Bilingual Corpora. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, California, 177–184 Gledhill, C., (2007). La portée : seul dénominateur commun dans les constructions verbo-nominales, in Frath, P., Pauchard, J. & Gledhill, C. (éds) Actes du 1er colloque Res per nomen, Reims 24-36 mai 2007, Université de Reims, Champagne, 113-124. Gledhill C., Heid U., Mihăilă C., Rousselot F., Ştefănescu D., Todiraşcu A., Tufiş D. & Weller M. 2007. Collocations en contexte: extraction et analyse contrastive, Project Report for the Agence Universitaire pour la Francophonie ‘Réseau Lexicologie, Terminologie, Traduction’, Paris :1-38. Grossmann, F., Tutin, A.(eds.) (2003). Les collocations: analyse et traitement, Numéro special: « Travaux et Recherches en Linguistique Appliquée », ISSN: 1572-042X Hausmann, F.J. (2004). Was sind eigentlich Kollokationnen?, en K.Steyer (eds.) Wortverbindungen – mehr oder weniger fest, 309-334 Halliday, M., (1985). An Introduction to Functional Grammar. London, Arnold. Heid, U., Ritz, J. (2005) Extracting collocations and their contexts from corpora, Actes de COMPLEX-2005, Conference on Computational Lexicography and Text Research, Budapest Ion, R. (2007). TTL: A portable framework for to-kenization, tagging and lemmatization of large corpora. Research Institute for Artificial Intelligence, Romanian Academy, Bucharest (in Romanian), 22p. Manning, C. D., Schütze, H. (1999) Foundations of statistical natural language processing, MIT Press. Mel'čuck I. & all (1984) Dictionnaire explicatif et combinatoire du français contemporain, Recherches Lexico-Sémantiques, Montrèal, Presses Universitaires de Montréal. Melamed, I. D. (1996). A Geometric Approach to Mapping Bitext Correspondence. IRCS Technical Report 96-22, University of Pennsylvania Moore, R. C. (2002). Fast and Accurate Sentence Alignment of Bilingual Corpora. In Machine Translation: From Research to Real Users (Proceedings, 5th Conference of the Association for Machine Translation in the Americas, Tiburon, California), Springer-Verlag, Heidelberg, Germany, pp. 135-244 Ritz, J., Heid, U. (2006) Extraction tools for collocations and their morphosyntactic specificities, in: Proceedings of the Linguistic Resources and Evaluation Conference, LREC-2006, Genova, Italia, 2006. Seretan, V., Nerima, L., Wehrli, E. (2004). A tool for multi-word collocation extraction and visualization in multilingual corpora, Proceedings of EURALEX'2004, Lorient, France, Vol2, pp.755-766 Sinclair, J., (1991). Corpus, Concordance, Collocation, Oxford, Oxford University Press. Smadja, F. A., McKeown, K. R. (1990), Automatically extracting and representing collocations for language generation, Proceedings of the 28th annual meeting on Association for Computational Linguistics, 252-259, Pittsburgh, Pennsylvania. Schmid, D. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing. Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C. Erjavec, T., Tufiş, D., Varga, D. (2006), The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th LREC Conference, pp.2142-2147. Tiedemann, J (2003). Combining clues for word alignment. In Proceedings of the 10th EACL, Budapest, Hungary: 339–346 Todirascu, A, Gledhill, C, Stefănescu, D. (2007), Extracting Collocations in Context: the case of Romanian VN constructions, in Proceedings of RANLP’2007, Bulgaria Tutin, A (2004). Pour une modélisation dynamique des collocations dans les textes, Actes du congrès EURALEX'2004, Lorient, France, 2004, Vol. 1, 207-221 Tufiş, D., Ion, R., Ceauşu, A., Stefănescu D. (2006). Improved Lexical Alignment by Combining Multiple Reified Alignments, EACL2006, Italy. Tufiş, D., Ion, R., Ceauşu, A., Stefănescu D. (2005c). Combined Aligners. In Proceeding of the ACL2005 Workshop on “Building and Using Parallel Corpora: Data-driven Machine Translation and Beyond”, Ann Arbor, Michigan, Association for Computational Linguistics, pp. 107-110 Verlinde, S., Selva, T., Binon, J. (2003) Les collocations dans les dictionnaires d'apprentissage: repérage, présentation et accès, en Grosman F., Tutin, A. (eds.). Les collocations: analyse et traitement / - Amsterdam: De Werelt, 2003. - p. 105-115
A ce stade, nous appliquons la méthode de Smajda. Ce dernier nous permet d'identifier des paires intéressantes de mots non nécessairement adjacents. La distance est négative si la paire est composée du mot-cible et d’un mot placé avant ce dernier.
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |