Extraction de collocations monolingues et bilingues : application à la traduction

STEFANESCU Dan, ICIA, Academia Româna
CEAUSU Alexandru, ICIA, Academia Româna
ION Radu, ICIA, Academia Româna
TODIRASCU Amalia, LILPA, Université Marc Bloch Strasbourg
HEID Ulrich, IMS Stuttgart, Universität Stuttgart
GLEDHILL Christopher, LILPA, Université Marc Bloch Strasbourg
ROUSSELOT François, INSA Strasbourg

 

Introduction

Le projet « Collocations en contexte : extraction et analyse contrastive» (financé par l’Agence Universitaire pour la Francophonie) a comme objectif le développement d’un système d’extraction semi-automatique de collocations, qui exploitent des corpus alignés. Les collocations posent des problèmes  pour les traducteurs, ainsi que pour les systèmes d’aide à  la traduction, en ce qui concerne leur utilisation dans le bon contexte et sur le plan des choix des composants (prendre une décision se traduit en roumain par a lua o decizie, mais en anglais  la traduction est réalisée avec le verbe ‘make’ : to make a decision ; to make good damages se traduit par dédommager en français, mais par ‘a compensa daunele’ en roumain).

Pour ces raisons, les collocations ont fait l'objet de nombreuses études qui se concentrent sur la définition de la notion de collocation, l'identification de leurs propriétés syntaxiques, sémantiques et pragmatiques (Grossmann, Tutin, 2003), la création de dictionnaires électroniques (Blumenthal, 2007), (Mel’cuk et. al, 1984) et le développement d'outils d'extraction automatique des collocations. Malgré l'existence de quelques dictionnaires électroniques qui contiennent des descriptions de collocations en plusieurs langues (BLF (Verlinde et al, 2003)), peu de ressources qui proposent une description complète des propriétés morpho-syntaxiques des collocations et la plupart des dictionnaires offrent une vue limitée sur les données du dictionnaire. Pour pallier ce manque de ressources, des outils d’extraction de collocations à partir des corpus utilisent des méthodes statistiques (Evert, 2005) ou syntaxiques (Tutin, 2004, Seretan et al, 2004). Si les méthodes statistiques identifient beaucoup de candidats invalides (la précision est alors faible), les méthodes syntaxiques nécessitent beaucoup de ressources linguistiques (la précision est meilleure, mais les ressources nécessaires sont très complexes). Pour trouver un compromis entre la précision et le rappel, des méthodes hybrides (Daille, 1996) (appliquées pour identifier des termes dans un domaine limité) ont été développés (Smadja et al, 1990). Notre outil d’extraction combine méthodes statistiques et informations morpho-syntaxiques sur le comportement linguistique des collocations. Nous privilégions une approche avec peu de connaissances linguistiques, qui exploitent des corpus étiquetés et alignés.

Nous présentons la méthodologie adoptée pour ce projet et les corpus utilisés. Nous allons présenter l’analyse linguistique qui serve de base pour définir les filtres linguistiques. Les outils d’extraction monolingues et bilingues sont présentés en détail, ainsi qu’une série de données extraites à partir des corpus anglais et français.  

 

Le projet

Pour atteindre cet objectif, nous avons adopté d’une part la définition traditionnelle de Hausmann (2004), qui considère la collocation comme une relation syntaxique entre une base et son collocatif, et d’autre part la notion morpho-syntaxique des collocations proposée pour l’allemand par (Heid, Ritz 2005), (Ritz, Heid 2006) qui prennent en compte les informations contextuelles autour des collocations (le complément direct ou indirect, le nombre, genre de la base ou du collocatif etc.). Selon cette approche, le contexte permet de définir des propriétés qui identifient les classes de collocations. La méthodologie que nous avons adoptée ici comporte donc plusieurs étapes de travail, et combine des méthodes statistiques et linguistiques:

l’étude des données contextuelles d’une classe particulière des collocations (les constructions verbo-nominales (VN)) pour le roumain, le français et l’anglais, à partir des corpus monolingues et multilingues.

l’identification des classes de collocations pour les langues étudiées, à partir des propriétés morpho-syntaxiques contextuelles.

l’extraction des candidats collocationnels pour chaque langue, en s’appuyant sur des méthodes statistiques.

l’application, sur l'ensemble des candidats extraits pour les trois langues, des critères de classification syntaxique pour le filtrage des candidats (à base de patrons definis au 2)).

l’identification des équivalences de traduction pour un ensemble de corpus similaires alignés (roumain, français, allemande, anglais).

la constitution d'une base de données linguistiques des collocations multilingue ;

Nous présentons ici une méthode d’extraction qui s’appuie sur une analyse linguistique concernant une classe spécifique des collocations, de type V-N, réalisée sur plusieurs corpus.

 

Les corpus

Nous avons utilisé des corpus monolingues étiquetés qui permettront d'explorer les contextes des collocations dans chaque langue, et des corpus alignés multilingues qui seront utilisables pour une évaluation des résultats des trois outils. Nous utilisons un corpus multilingue aligné (AcquisCommunautaire-ACQ, (Steinberger et al, 2006)), en français, roumain, anglais et allemand. Il s’agit d’un corpus très spécialisé, contenant la législation européenne publiée depuis 1950 et caractérisé par un style juridico-administratif impersonnel et riche en expressions figées. Nous avons sélectionné un échantillon de documents comparables dans les trois langues (environ 15 millions de mots pour chaque langue du projet). Nous avons également utilisé des corpus monolingues contenant des journaux en français (Le Monde 2004, le Monde diplomatique 1980-1998 : environ 44 millions de mots), en allemand (une collection de journaux, 60 millions de mots) et en roumain (des textes journalistiques, des romans et des textes médicaux - 10 millions de mots). Pour l’anglais, nous avons utilisé le corpus BNC Baby. Ces corpus ont été étiquetés à l’aide du TreeTagger (Schmid, 1994) pour l’allemand, le français et l’anglais (ACQ et les corpus monolingues pour l’allemand et le français) et le TTL pour le roumain (Ion, 2007). Le corpus ACQ est aligné au niveau de propositions et des mots. Les outils d’extraction, ainsi que les outils d’alignement seront présentés dans les sections suivantes.

 

Les constructions Verbe-Nom

Vu la durée du projet, nous nous sommes concentrés sur l’étude d’une classe de collocations spécifique, les collocations de type Verbe-Nom. Ainsi, nous considérons que les collocations sont plus que des co-occurences (Sinclair, 1992), mais plutôt des constructions (une relation lexico-grammaticale qui est établie entre les deux éléments) (Golberg, …), (Hausmann, 2004).

Nous avons analysé les combinaisons Verbe-Nom dans un modèle inspiré par (Halliday, 1985), sur trois niveaux (Gledhill, 2007) : la structure lexicale, la fonction syntaxique (Sujet, Prédicat, Complément), le type de procès exprimé par la construction Verbe-Nom. Du point de vue structurel, (Glehill, 2007) identifie deux classes de constructions VN à identifier: les prédicateurs complexes (le verbe et le nom forment un bloc et jouent le rôle de prédicat ensemble : avoir peur, a ţine seama/tenir compte, take account) et les structures prédicat+complément, ou le complément est plus indépendant (lua decizii/’prendre des decisions’, make decisions). Pour identifier ces classes d’une manière automatique, nous avons identifié un ensemble de propriétés morpho-syntaxiques, caractéristiques aux verbes et aux noms. Ainsi, les propriétés des constructions VN propres aux verbes sont : être équivalent à un seul verbe (make decisions = to decide, mais non a face obiectul=*a obiecta/’to make objections’), la valence et le passif (Comisia face un raport preşedintelui/’La Commission fait un rapport au président’ et Raportul a fost făcut de către comisie/’Le rapport a été fait par la commission’, mais Comisia face faţă situaţiei/’La comission fait face à la situation’ mais il n’est pas possible d’utiliser la forme passive: *Faţă a fost făcută). En ce qui concerne les propriétés caractéristiques au nom, nous étudions le déterminant (l’absence ou la présence systématique de l’article), la modification par une clause relative (qui n’est pas possible pour les prédicateurs complexes) ou la conversion vers un groupe nominal (comisia a luat o decizie = luarea deciziei, mais pas Nous avons fait l’hypothèse=le fait de l’hypothèse).

Aucune de ces propriétés n’est pas suffisante pour identifier d’une manière unique la classe de constructions, seul le rôle sémantique joué par le nom (qui précise le procès exprimé par le verbe), permets de faire la distinction entre la classe prédicateur complexe et une structure classique prédicat+complément. Si le nom remplit la fonction de complément de portée (qui spécifie le procès exprimé par le prédicat), alors il s’agit d’un prédicateur complexe.

Cette dernière analyse peut être validée seulement manuellement, mais les propriétés morpho-syntaxiques sont identifiés automatiquement dans un corpus étiquété. Les prédicateurs complexes sont caractérisés par une invariabilité morpho-syntaxique prononcée (absence du déterminant, pas de passivation possible etc.), alors que les structures prédicat+complément sont plus flexibles et le complément est plus indépendant sur un plan syntagmatique.

 

L’outil d’extraction monolingue

Nous avons développé un outil d’extraction monolingue des collocations, et nous utilisons la technologie développée par RACAI pour aligner des textes en deux langues et pour dériver des équivalences au niveau des lexèmes. Ce même système permet également d’identifier des équivalences pour des couples de mots, non seulement pour des mots contigües, mais pour des paires qui ont les deux propriétés suivantes:

a) la distance entre les deux mots est relativement stable à l’intérieur des textes analysés  (la déviation standard calculée est inférieure à un seuil de 1,5)

b) la cooccurrence des deux éléments est statistiquement significative, les deux mots apparaissent ensemble plus souvent que par hasard (LogLikelihood - LL).

Les résultats obtenus suite à la combinaison des deux propriétés indiquent que l’utilisation du score LL calculé pour des paires de mots qui remplissent des critères morpho-syntaxiques ou bien de la moyenne de la distance entre les mots constitue une approche efficace pour l’extraction des collocations du type verbe-nom (V-N/N-V).

Une fenêtre de 11 mots (qui est le contexte où on cherche les cooccurrences) parcourt chaque phrase du texte lemmatisé et étiqueté, et chaque mot devienne, à un moment donné, le centre de la fenêtre [1]. Les mots qui sont introduits dans la fenêtre sont des noms ou des verbes; les autres parties des unités morphologiques ne sont pas pris en compte. Une base de données stocke toutes les paires de mots (sous forme de lemme) formées entre le centre de la fenêtre et les autres mots de cette dernière, et la distance [2] entre les mots qui composent ces paires. A titre de paires intéressantes, nous avons gardé les paires auxquelles correspond une déviation standard inférieure à un seuil de 1,5 (Manning & Schutze, 1999). Pour les paires intéressantes extraites, on calcule le score LL (qui doit être supérieur au seuil de 9).

Employant la méthode ci-dessus présentée sur le corpus ACC roumain et français, nous avons obtenu une liste de collocations ordonnées en fonction du score LL. Nous retrouvons un ensemble de collocations commun aux deux langues (take account / ţine cont; make decisions / lua masuri ; give rise / face obiectul). Certaines, comme enter into force/entrer en vigueur, a fi adoptat la Bruxelles/done in Brussells sont des expressions spécifiques du langage juridique du corpus ACC.

Mot1
Mot 2
LL
Art
Nb
Comp.
Classe
aduce/
'apporter'
Atingere/ 'ateinte' 51567.34864 - Sg Datif Prédicateur complexe
Înlocui/
'remplacer'
Text/
'texte'
43992.3067 Déf Sg, pl Acc Prédicat+ complément
Intra/
'entrer'
Vigoare/
'vigueur'
42527.03736 - Sg Acc
(în/'en')
Prédicateur complexe
Avea/
'avoir'
Tratat/
'tratat'
32050.11219 Déf Sg, pl Acc Non
Face/
'faire'
Obiectul/ 'obiectul' 30729.47663 Déf Sg Datif Prédicateur complexe
Modifica/
'modifier'
Regulamentul/
'reglement-le'
29141.39454 déf, - Sg, pl Acc
(la/'à', din/'de')
Prédicat+ complément
Lua/
'prendre'
Considerare/
'considération'
27062.0349 - Sg Nom Prédicateur complexe
Ţine/
'tenir'
Cont/
'compte'
26635.12649 - Sg Acc
(de/'de')
Prédicateur complexe

Fig. 2. Les paires V-N les plus fréquentes, identifiées par un ensemble de propriétés morpho-syntaxiques plus ou moins invariables (nombre, déterminant, cas du complément indirect).

Nous pouvons constater la présence des propriétés morpho-syntaxiques pertinents comme l’absence du déterminant (-), la préférence pour le nombre singulier et pour un cas spécifique pour les prédicateurs complexes dans les deux langues. Nous pouvons observer que les co-occurrences proposées pour l’anglais contiennent moins de prédicateurs complexes:

Mot1
Mot2
LL
Art
Nombre
Prép.
Classe
Have/avoir Regard/
'vue'
139337.613681525 - Sg to Non
Do/ 'faireé Brussels/ Bruxelles 58421.7707215154 - Sg in Non
Treaty/
traité
Establish/
etablir
55994.7655599668 déf Sg, pl - Non
Regulation/
règle
Bind/
lier
30228.6672675113 -     Non
Replace/
remplacer
Text/
texte
28022.7117842671 Déf, Sg, pl With, at Préd+ complément
Day/
jour
Follow/
suivre
27337.5653023155 Déf Sg, pl   Non
Take/
prendre
Account/
compte
26833.7653197018 - Sg of Prédicateur complexe
Give/
donner
Rise/
croissance
16367,174 - Sg to Prédicateur complexe

Les candidats collocationnels identifiés par l’outil d’extraction statistique monolingue, seront filtrés à l’aide des propriétés morpho-syntaxiques identifiées sur les corpus : la présence ou l’absence d’un article, la préférence pour une classe de prépositions etc.). Voilà quelques exemples de patrons qui permettent l’identification des prédicateurs complexes en roumain et en anglais :

 

Exemples

1) face *{1} NSRY *{1,5} NxOY

NSRY est un nom défini, nombre singulier, en cas accusatif ;NxOY est un nom défini, en cas datif ; *{x,y} – entre x et y mots peuvent apparaître entre le nom et le complément indirect.
Candidats sélectionnés parmi la liste des candidats les plus fréquents: face obiectul unui contract/faire l’objet d’un contrat, face faţă unei situaţii/faire face à une situation…

2) take *{1, 2} NNx

NNx – nom (singulier ou pluriel), *{1, 2} – un ou 2 mot entre le verbe et le nom
Les candidat sélectionnés parmi la liste des candidats les plus fréquents: take into account, take measures

 

L’outil d’extraction bilingue

L’alignement

L’alignement automatique des textes est une étape nécessaire pour plusieurs applications TAL utilisées dans un contexte multilingue. L’alignement de deux corpus comparables offre des informations supplémentaires entre les relations établies entre un texte et sa traduction. Ces relations sont établies entre divers unités textuelles, des paragraphes, des phrases ou des mots. Dans notre cas, l’alignement lexical (au niveau des mots et des unités lexicales) sont utilisés pour trouver des constructions VN équivalentes (des collocations) dans les quatre langues du projet (anglais, français, allemand, roumain). Les alignements sont initialement réalisées sur les paires anglais-français, anglais-allemand, anglais-roumain. A partir de ces alignements, nous pouvons générer les paires français-allemand, français-roumain et allemand-roumain. Avant l’alignement lexical, il est nécessaire de passer par une étape d’alignement au niveau de la proposition ou de la phrase (qui n’est pas dépendante des langues source et cible). Une des méthodes d’alignement au niveau de la phrase (Gale, Church, 1991) utilise la longueur moyenne des phrases (le nombre de mots ou de caractères). Chen (1993) a développé une méthode qui s’appuie sur l’optimisation des probabilités de traduction des mots, une méthode qui est plus efficace que la méthode de Church, mais qui nécessite des ressources complexes. Le système de (Melamed, 1996) s’appuie sur un mappage géométrique et fait l’hypothèse qu’une proposition relative (calculée en fonction de la longueur du texte) va s’aligner avec une proposition située sur la même position relative. Une des méthodes d’alignement au niveau de la proposition qui est très répandue est celle de Moore (2002). Cette méthode hybride fonctionne en trois étapes : pendant la 1ere étape l’application utilise des méthodes qui s’appuient sur la longueur de la proposition et l’alignement géométrique. La deuxième étape filtre les candidats pour retrouver les alignements qui sont sûrs et, sur cette base, l’algorithme construit une liste d’équivalents de traduction. La troisième étape utilise les listes d’équivalents de traduction pour corriger l’alignement.

Le système de Moore, ainsi qu’une méthode hybride développé par RACAI (Ceauşu et al, 2006) vont constituer les outils pour aligner les corpus ACQ au niveau des propositions pour les 4 langues étudiées. Le système d’alignement de RACAI utilise un classifieur de type vecteur support et il n’est pas dépendent de la langue. Son entraiment doit se faire à l’aide d’une partie restreinte du corpus (200 propositions, alignées manuellement). L’application utilise la distribution LIBSVM (Fan et al., 2005), avec les valeurs implicites pour les paramètres d’entraînement.

L’alignement lexical a été réalisé initialement manuellement, et à l’aide de Uplug (Tiedemann, 2003). Pour l’alignement des corpus anglais-roumain, nous avons utilisé un outil d’alignement développé par RACAI (Tufis et al, 2005) qui utilise un algorithme iteratif. Pour chaque itération, l’alignement lexical va aligner divers catégories de mots comme les entités nommées, les nombres les dates, les mots contenu, les mots grammaticaux et les signes de ponctuation. L’alignement utilise plusieurs valeurs seuils pour identifier les alignements pertinents, à chaque itération. Un alignement entre deux unités lexicales (mots ou expressions) est caractérisé par une serie de propriétés dont les valeurs font partie de l’intervalle [0,1]. L’alignement lexical est indépendent de corpus et des unités lexicales qui le composent et peut être exploité dans un autre contexte. Ainsi, l’alignement lexical peut servir pour identifier les équivalents de traduction pour les collocations de type VN.

 

Un exemple d’extraction

Les candidats confirmés par l’outil d’extraction bilingue, sont, pour la plupart, des collocations pertinentes, où chaque élément de la collocation est traduit de la même façon qu’en dehors de cette combinaison. Les candidats collocationnels non confirmés sont également intéressants pour les traducteurs : la majorité de ces cas sont non-compositionnels ; c’est-à-dire leurs traductions impliquent souvent des traductions non-standard (mots uniques ou expressions).  Nous présentons quelques données extraites à partir des corpus anglais et roumain (ACQ). Les équivalents de traduction communs peuvent être intégrés dans le dictionnaire multilingue de collocations, puisque nous retrouvons des spécificités pour chaque langue (le verbe utilisé qui n’est pas toujours la simple traduction de l’autre verbe, certains prépositions –into, on- sont nécessaires et sont intégrés dans le groupe verbal):

To ask support= a cere sprijin/ demander de l’aide
To take into account= a ţine cont/tenir compte
To find out the truth=a afla adevarul/apprendre la vérité
To carry on the activities= a exercita activităţile
To make decisions=a lua decizii/prendre des décisions

Quelques cas spécifiques ont été identifiés dans le corpus aligné et qui n’ont pas d’équivalent de traduction, la traduction est un verbe. Les candidats extraits du corpus anglais sont caractérisés par une invariance des propriétés morpho-syntaxiques et sont des prédicateurs complexes L’alignement lexical permet alors d’identifier les traductions correctes :

Turned a blind eye/lit. ‘tourner un oeil aveugle’= a ignorat/ignorer
Meets the eye/lit. ’rencontrer l’oeil’= a se vedea/voir
Give a hard time to/lit. ‘donner un temps difficile’=a priponi/attacher

 

Conclusion

Nous avons présenté un outil d’extraction de collocations monolingue, qui combine méthodes statistiques et filtrage linguistique, mais également un outil d’extraction de collocations multilingue, qui nécessite des corpus alignés. La méthode d’alignement (propositionnel et lexical) est présentée en détail. Les candidats extraits pour chaque langue sont confrontés à une liste d’équivalents de traduction établie à partir des corpus alignés et sont utilisés pour alimenter un dictionnaire multilingue de collocations.

 

Remerciements éventuels

Ce projet est financé par le réseau « Lexicologie, Terminologie, Traduction » de l’Agence Universitaire de la Francophonie. Nous remercions : D. Bourigault pour le corpus ACC français annoté syntaxiquement, R. Mihalcea (Université de Texas) pour le corpus NAACL, Dan Tufis (Académie Roumaine) pour le corpus RoCo et Dan Cristea (Université de Iasi, Roumaine) pour le corpus L4TE.

 

Références

Blumenthal, P., (2007) A Usage-based French Dictionary of Collocations, in: Y. Kawaguchi/T. Takagaki/N. Tomimori/Y. Tsuruga (éds.): Corpus-Based Perspectives in Linguistics, Amsterdam u.a.: Benjamins (Usage-Based Linguistic Informatics 6), 67-83.

Ceauşu, A., Ştefănescu, D., Tufiş, D. (2006). Acquis Communautaire Sentence Alignment using Support Vector Machines, LREC 2006, Genoa, Italy

Chen, S.F. (1993). Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio, 9-16

Daille, B. (1996) Study and Implementation of Combined Techniques for Automatic Extraction of Terminology ,  in Resnik, P. (ed.) The Balancing Act: Combining Symbolic and Statistical Approaches to Language, MIT Press, page 49—66.

Evert, S. (2005). The Statistics of Word Cooccurrences: Word Pairs and Collocations. Ph.D. thesis, Institut für maschinelle Sprachverarbeitung, University of Stuttgart

Fan, R.-E., Chen, P.-H. and Lin, C.-J. (2005). Working set selection using the second order information for training SVM. Technical report, Department of Computer Science, National Taiwan University

Gale, W.A., Church, K.W. (1991). A program for Aligning Sentences in Bilingual Corpora. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, California, 177–184

Gledhill, C., (2007). La portée : seul dénominateur commun dans les constructions verbo-nominales, in Frath, P., Pauchard, J. & Gledhill, C. (éds) Actes du 1er colloque Res per nomen, Reims 24-36 mai 2007, Université de Reims, Champagne, 113-124.

Gledhill C., Heid U., Mihăilă C., Rousselot F., Ştefănescu D., Todiraşcu A., Tufiş D. & Weller M. 2007. Collocations en contexte: extraction et analyse contrastive, Project Report for the Agence Universitaire pour la Francophonie ‘Réseau Lexicologie, Terminologie, Traduction’, Paris :1-38.

Grossmann, F., Tutin, A.(eds.) (2003). Les collocations: analyse et traitement, Numéro special: « Travaux et Recherches en Linguistique Appliquée », ISSN: 1572-042X

Hausmann, F.J. (2004). Was sind eigentlich Kollokationnen?, en K.Steyer (eds.) Wortverbindungen – mehr oder weniger fest, 309-334

Halliday, M., (1985). An Introduction to Functional Grammar. London, Arnold.

Heid, U., Ritz, J. (2005) Extracting collocations and their contexts from corpora, Actes de COMPLEX-2005, Conference on Computational Lexicography and Text Research, Budapest

Ion, R. (2007). TTL: A portable framework for to-kenization, tagging and lemmatization of large corpora. Research Institute for Artificial Intelligence, Romanian Academy, Bucharest (in Romanian), 22p.

Manning, C. D., Schütze, H. (1999) Foundations of statistical natural language processing, MIT Press.

Mel'čuck I. & all (1984) Dictionnaire explicatif et combinatoire du français contemporain, Recherches Lexico-Sémantiques, Montrèal, Presses Universitaires de Montréal.

Melamed, I. D. (1996). A Geometric Approach to Mapping Bitext Correspondence. IRCS Technical Report 96-22, University of Pennsylvania

Moore, R. C. (2002). Fast and Accurate Sentence Alignment of Bilingual Corpora. In Machine Translation: From Research to Real Users (Proceedings, 5th Conference of the Association for Machine Translation in the Americas, Tiburon, California), Springer-Verlag, Heidelberg, Germany, pp. 135-244

Ritz, J., Heid, U. (2006) Extraction tools for collocations and their morphosyntactic specificities, in: Proceedings of the Linguistic Resources and Evaluation Conference, LREC-2006, Genova, Italia, 2006.

Seretan, V., Nerima, L., Wehrli, E. (2004). A tool for multi-word collocation extraction and visualization in multilingual corpora, Proceedings of EURALEX'2004, Lorient, France, Vol2, pp.755-766

Sinclair, J., (1991). Corpus, Concordance, Collocation, Oxford, Oxford University Press.

Smadja, F. A., McKeown, K. R. (1990), Automatically extracting and representing collocations for language generation, Proceedings of the 28th annual meeting on Association for Computational Linguistics, 252-259, Pittsburgh, Pennsylvania.

Schmid, D. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing.

Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C. Erjavec, T., Tufiş, D., Varga, D. (2006), The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th LREC Conference, pp.2142-2147.

Tiedemann, J (2003). Combining clues for word alignment. In Proceedings of the 10th EACL, Budapest, Hungary: 339–346

Todirascu, A, Gledhill, C, Stefănescu, D. (2007), Extracting Collocations in Context: the case of Romanian VN constructions, in Proceedings of RANLP’2007, Bulgaria

Tutin, A (2004). Pour une modélisation dynamique des collocations dans les textes, Actes du congrès EURALEX'2004, Lorient, France, 2004, Vol. 1, 207-221

Tufiş, D., Ion, R., Ceauşu, A., Stefănescu D. (2006). Improved Lexical Alignment by Combining Multiple Reified Alignments, EACL2006, Italy.

Tufiş, D., Ion, R., Ceauşu, A., Stefănescu D. (2005c). Combined Aligners. In Proceeding of the ACL2005 Workshop on “Building and Using Parallel Corpora: Data-driven Machine Translation and Beyond”, Ann Arbor, Michigan, Association for Computational Linguistics, pp. 107-110

Verlinde, S., Selva, T., Binon, J. (2003) Les collocations dans les dictionnaires d'apprentissage: repérage, présentation et accès, en Grosman F., Tutin, A. (eds.). Les collocations: analyse et traitement / - Amsterdam: De Werelt, 2003. - p. 105-115

 

[1] A ce stade, nous appliquons la méthode de Smajda. Ce dernier nous permet d'identifier des paires intéressantes de mots non nécessairement adjacents.

[2] La distance est négative si la paire est composée du mot-cible et d’un mot placé avant ce dernier.

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org