![]() |
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
Dans le cadre de ce projet, on a décidé d’effectuer la prétraduction d’un texte de brevet.
Description du texte de départ Le texte qu’on choisi pour ce projet est un brevet Européen intitulé CO2-terminated rubber, numéro de publication EP 1373323, déposé par Firestone Polymers LLC le 2 janvier 2004. Ce brevet revendique la fabrication d’un polymère de lithium carboxyle pressurable en balles pour la production de gomme. L’organisation du texte suit le modèle typique des brevets. Il s’ouvre avec les pages de présentation avec le titre du brevet dans les trois langues de l'EPO (anglais, allemand et français), les données concernant la classification et la registration du brevet et un résumé (Abstract) de 62 mots qui explique le contenu général du brevet. Successivement, il y a la description en détail du procédé, divisée en sections plus spécifiques, comme par exemple le cadre de l’invention (Background of the invention) qui décrit l’état de l’art, avec des références à d’autres études, et qui met en évidence ses limites ; le résumé de l’invention (Summary of the invention), qui présente le contenu du brevet et les buts principaux de l’invention ; la description des formes de réalisation préférées (Detailed description of preferred embodiments), qui décrit en détail toutes les phases du procédé et les caractéristiques de l’invention en utilisant aussi des graphiques et des tableaux. Enfin, une section du brevet est entièrement consacrée aux revendications, qui en ce cas sont 10, dans les 3 langues de l'EPO, qui justement revendiquent le droit d’exclusivité sur l’invention. Du point de vue terminologique, il y a une prévalence de termes de spécialité relatifs aux éléments et aux composés chimiques (butadiene, tetramethylethylene diamine, acetonitrile) accompagnés de termes appartenant au secteur général de la chimie (polymer, additive, molecular weight).
Ressources utilisées pour la prétraduction Pour la prétraduction du brevet on a utilisé les ressources décrites ci-dessous.
Description des ressources Le procédé qu’on a suivi se compose de différentes phases, chacune caractérisée par l’utilisation d’un instrument différent:
Description des instruments utilisés Les instruments utilisés dans le cas de ce projet font partie de l’application SDL TRADOS 2007. Les applications TRADOS contiennent différents instruments, chacun ayant un rôle particulier. Pour développer ce projet nous avons utilisé les instruments suivants :
WinAlign est une application qui permet d’aligner un texte et sa traduction. Ce programme analyse les deux textes, le divise en segments et relie automatiquement les segments correspondants. Le traducteur peut établir le paramètre de segmentation en choisissant entre la segmentation au niveau de paragraphe, de phrase complète ou de phrase mitoyenne (Melby, 2000: 347, 348) la possibilité de reconnaissance automatique de(s) segments correspondants de la part du programme grandit proportionnellement au niveau de segmentation. L’alignement se base sur l’hypothèse intuitive, mais réaliste, que des phrases longues donnent lieu à des traductions longues et des phrases courtes donnent lieu à des traductions courtes (Véronis, 2000: 4). En utilisant des algorithmes combinés entre eux, l’instrument analyse les textes à la recherche de points d’ancrage, par exemple la première et la dernière phrase, et en utilisant les soi-disant cognates, c’est-à-dire les occurrences graphiquement identiques out très semblables (Véronis, 2000: 5) comme par exemple les dates, les symboles, les acronymes, etc. L’alignement peut évidemment trouver une série d’obstacles et produire des liaisons erronées, causées, par exemple, par des problèmes de segmentation, par l’absence d’uniformité dans le formatage des textes ou encore par l’absence de correspondance 1 :1 (eCoLoRe . eContent Localisation Resources for Translator Training). Pour cette raison, la phase d’alignement requiert en tout cas la supervision de l’usager qui doit confirmer ou corriger les hypothèses d’alignement fournies par l’instrument.
Translator’s Workbench est l’environnement de travail principal de TRADOS et permet d’utiliser et de gérer les ressources linguistiques crées par l’usager. Il permet surtout de créer une mémoire de traduction de deux manières différentes: à travers la traduction interactive ou à travers l’alignement de textes qui ont été déjà traduits. Dans le premier cas, le traducteur travaille directement dans l’environnement de TRADOS et donc sur un texte segmenté en mémorisant automatiquement les segments et les relatives traductions qui vont former la mémoire de traduction (TM). Dans le deuxième cas, le traducteur utilise des textes précédemment traduits qui sont alignés et importés dans une mémoire de traduction vide ou déjà existante. Les deux manières présentent des avantages, mais aussi des désavantages: la traduction interactive permet de produire une TM de bonne qualité puisqu’elle est directement contrôlée par le traducteur qui l’a crée ; toutefois elle est caractérisée, au moins au début, par une quantité plus faible de matériel; l’importation des alignements, au contraire, produit de grandes quantités de matériel, mais elle ne permet pas un contrôle aussi direct sur le matériel importé, surtout si on importe des textes traduits par d’autres personnes (Bowker, 2002: 111). Translator’s Workbench permet, en outre, de traduire un texte dans l’environnement de Word, en utilisant et en mettant à jour automatiquement une TM existante, et d’utiliser en même temps de possibles bases de données terminologiques qui peuvent elles aussi être mises à jour automatiquement. En installant TRADOS, en effet, l’environnement de Microsoft Word est modifié automatiquement et présente les deux barres contenant les instruments principaux de TRADOS et de MultiTerm. Translator’s Workbench peut aussi être utilisé avant de commencer le travail de traduction pour effectuer une analyse du texte de départ en le confrontant avec une mémoire de traduction existante. A travers un instrument d’analyse statistique, il est en effet possible d’obtenir un logfile contenant les données relatives aux segments déjà présents dans la TM, organisés selon les différents degrés de match, et d’autres données relatives au nombre total de segments à traduire, au nombre de lignes, de mots, etc. Une autre fonction particulièrement intéressante du Translator’s Workbench est la fonction de prétraduction (Translate) qui permet de prétraduire un texte en utilisant une mémoire de traduction et une base de données terminologique. De cette façon on obtient un texte hybride qui contient seulement des segments ou des termes traduit automatiquement par TRADOS. La prétraduction constituera la phase finale du procédé suivi dans ce projet et sera réalisée en utilisant des mémoires de traduction et une base de données terminologique.
MultiTerm Extract est une application qui permet d’extraire automatiquement la terminologie d’un corpus de textes. Selon les textes qu’on a à disposition, il est possible de créer des bases de données monolingues ou bilingues. Dans le premier cas, si on possède des textes dans une seule langue, MultiTerm Extract permettra d’extraire automatiquement de ces textes une liste de termes candidats. Dans le deuxième cas, en ayant à disposition un corpus de textes alignés, il sera possible d’extraire une liste de termes techniques associés à la relative traduction. Dans les deux cas, il faut se rappeler que MultiTerm Extract est un instrument d’extraction semi-automatique. Pour cette raison l’intervention du traducteur humain est toujours nécessaire pour confirmer ou modifier les résultats obtenus par l’extraction automatique. L’usager a, en outre, la possibilité d’établir des paramètres d’extraction selon ses propres exigences. Par exemple, il peut établir le nombre maximal ou minimal des mots qui composent le terme, le nombre maximal de traductions pour le même terme, le seuil de fréquence, et enfin le nombre minimal d’occurrences que le terme doit avoir à l’intérieur du corpus pour être considéré un terme candidat.
MultiTerm est l’application pour la gestion terminologique dans l’environnement TRADOS. Il permet de créer et de gérer des bases de données terminologiques qui peuvent être utilisées aussi en phase de traduction avec une éventuelle mémoire de traduction. Les bases de données terminologiques sont formées par des fiches terminologiques que l’usager peut personnaliser selon ses propres exigences. Ces fiches peuvent, en effet, contenir différents champs avec toutes les informations relatives au terme principal: à partir des champs basilaires, le terme, sa ou ses traductions dans le cas d’une base de données multilingue, à d’autres champs secondaires comme la définition, le contexte, les sources, les variantes, les notes de grammaire, etc. La base de données terminologique peut elle-aussi être réalisée de deux manières: soit avec l’insertion séquentielle et manuelle des fiches terminologiques, ou de façon automatique avec MulitTerm Extract. Dans le premier cas, les fiches peuvent être créées en utilisant la barre des instruments de MultiTerm présente sur Word. L’utilisation d’un système de gestion terminologique tel que MultiTerm offre de nombreux avantages surtout en ce qui concerne la gestion et la mise à jour de la base de données, la possibilité de faire des recherches simples et spécifiques, la possibilité d’utiliser la base de données en phase de traduction, et en assurant un niveau de cohérence terminologique plus élevé.
Les phases du procédé Dans ce paragraphe on va expliquer toutes les phases du procédé qu’on a suivi pour créer la mémoire de traduction et la base de données terminologique et pour effectuer la prétraduction d’un brevet en utilisant ces ressources de traduction. Le procédé s’est développé dans les phases suivantes:
La première phase concerne la récolte des textes qui formeront le corpus bilingue contenant les brevets et les relatives traductions. Le corpus final des textes est constitué par 60 brevets en langue anglaise et par les 60 traductions en italien. Pour repérer les textes originaux des brevets on a utilisé les sites web European Publication Server (http://www.epo.org/patents/patent-information/ european-patentdocuments/publication-server.html) et esp@cenet (http://ep.espacenet.com/) qui permettent d’effectuer des recherches en utilisant différents paramètres comme le Publication number (le numéro de publication du brevet), l’Application number (le numéro de la demande du brevet), la date de publication, le titre du brevet, le nom de l’inventeur, etc. Tous les brevets appartiennent au secteur chimique et sont caractérisés par des sous-secteurs plus spécifiques comme, par exemple, les différentes typologies de fibres, les composés et les dérivés chimiques.
Après la création du corpus contenant les textes en anglais e celui des textes en italien, on a procédé avec l’alignement des brevets avec WinAlign. Le projet d’alignement a été subdivisé en six sous-projets qui contiennent chacun 10 alignements (le numéro maximale permis WinAlign pour chaque projet). Pour créer un projet d’alignement il faut sélectionner le couple de langues, en ce cas anglais et italien, et insérer les 10 couples de textes à aligner. Maintenant on peut procéder avec l'alignement de chaque couple de textes. WinAlign produit en quelques secondes l’alignement automatique des deux textes et le traducteur se trouve devant un écran qui présente l’hypothèse d’alignement à accepter. En général, le procédé d’alignement des brevets a été plutôt rapide parce que les hypothèses d’alignement de WinAlign ne nécessitaient pas de beaucoup de corrections. Les problèmes principaux de l’alignement sont survenus à cause de fautes de formatage (par exemple le manque d’un point ou d’un espace entre une phrase et l’autre faisaient en sorte que les deux phrases semblaient une seule), la présence de tableaux et de listes formatés de façon différente ou simplement de fautes de segmentation. Pour construire la mémoire de traduction il est toujours conseillé de segmenter le plus possible le texte pour faciliter la recherche de correspondances au moment de la traduction. S'il s'agit de textes techniques, on applique une segmentation au niveau de la phrase, en utilisant le point comme élément de séparation. Dans le domaine de ce projet, en alignant des textes de brevet, on a décidé en quelques cas de diviser ultérieurement des phrases particulièrement longues en utilisant, par exemple, le point virgule comme élément de séparation. Pour séparer deux phrases réunies dans le même segment on utilise la commande Split Segment, pour réunir deux segments dans un seul segment on choisit Join Segment. S’il n’y a pas de problèmes de formatage, l’alignement automatique est plutôt correct même parce que, dans le domaine des brevets, la traduction respecte parfaitement l’organisation et la subdivision interne du texte original. Quand tous les segments sont correctement alignés, on termine l’alignement des textes à travers la commande Commit All Units et puis on procède avec l’alignement des fichiers qui suivent. Une fois terminés tous les alignements d’un projet, on valide tous les couples aligné à travers la commande Mark File Pair(s) as Finished. Le projet peut être exporté dans une mémoire de traduction.
Maintenant, il est possible de créer une mémoire de traduction en important les alignements effectués. La première phase consiste dans la création de la mémoire de traduction. Au moment de la création il est possible de spécifier des caractéristiques de la mémoire, par exemple les langues, les champs visualisés avec les segments (date de création, nom de l’usager, dernière utilisation, etc.), la possibilité d'associer plus d’une traduction au même segment, etc. Ensuite on procède avec l’importation des alignements, précédemment exportés de WinAlign en format .txt. Pour faire cela on ouvre la mémoire de traduction qu’on a crée et à travers la commande Import on importe les projets d’alignement. Même dans ce cas il est possible d’établir les paramètres d’importation. Avant tout, il faut spécifier l’entité de l’importation, et puis il faut en établir la modalité dans le cas où on importe un segment qui est déjà présent dans la mémoire. Selon les exigences, il est possible d’établir différents types d’information:
Dans ce projet, le choix d’une de ces options d’importation n’est pas relevant, vu que les alignements sont importés dans une mémoire de traduction vide. À la fin de chaque importation, dans la barre inférieure de Translator’s Workbench on peut visualiser le numéro d’unités de traduction importées (TU: Translation Unit). Dans notre projet on a importé 25410 unités de traduction. Pour contrôler l’état de la mémoire et obtenir les données de l’importation il est suffisant d'utiliser la commande Properties qui permet de visualiser une fenêtre résumant toutes les caractéristiques de la TM.
Une fois crée la mémoire de traduction, on extrait son contenu en format .tmx, un format d’échange obtenu à travers l’exportation du contenu de TM. Ensuite, on passe à la création de la base de données terminologique à travers un instrument d’extraction semi-automatique contenu dans SDL TRADOS 2007, c’est-à-dire MultiTerm Extract. Au moment de la création du projet d’extraction il faut établir une série de paramètres. Avant tout, on doit spécifier le type de projet: monolingue, bilingue ou compilation d’un dictionnaire. Dans ce cas, on sélectionnera le projet bilingue. Ensuite, on indique le nom du projet, la position où on veut le sauvegarder et on choisit les langues, dans notre cas anglais et italien. Puis on sélectionne les projets d'alignement à importer en format .txt. Une fois terminée l’importation des alignements on procède avec l’extraction et, même dans ce cas, il est possible de configurer les paramètres d'extraction. Nous avons fixé à 1 mot la longueur minimale du terme pour pouvoir obtenir les termes relatifs aux éléments chimiques, et à 5 mots la longueur maximale du terme de façon à obtenir même des occurrences de termes techniques relatifs à des compositions chimiques composés par plusieurs mots. Cela comportera parfois la présence de séquences de mots inutiles du point de vue terminologique, mais permettra de ne pas exclure des séquences chimiques longues qui, au contraire, peuvent être très intéressantes du point de vue terminologique. Une fois établis ces paramètres, on peut procéder avec l’extraction automatique de la terminologie. Dans ce cas, les termes repérés sont 22.173. À la fin de cette opération il y a une page qui permet au traducteur d'examiner et de corriger la terminologie trouvée par MultiTerm Extract. L’écran de travail de MultiTerm Extract est organisé en trois fenêtres :la première est la liste des termes et des équivalents, à partir de laquelle on peut valider ou éliminer des termes, la deuxième présente les données relatives au terme en évidence et la troisième tous les contextes dans lesquels le terme se trouve. Pour confirmer un terme et sa relative traduction il est suffisant d'insérer un tick dans le carré correspondant. En outre, il est possible d'insérer de nouveaux termes à travers la commande Add as New Term et Add as Translation. Pendant la phase de validation de la terminologie il est possible de contrôler le développement du travail à travers un philtre de visualisation qui permet de visualiser seulement les termes validés, non validés ou la liste complète des termes.
Après avoir obtenu la liste des termes finals on a procédé avec l’importation de la terminologie dans la base de données terminologique. Le procédé d’exportation des termes est très simple et permet d’importer la terminologie dans une base de données vide ou existante. Le projet d’extraction est exporté sous un format reconnaissable par MultiTerm et peut être effectué aussi dans des moments différents. On sélectionne les langues et on termine le procédé d’exportation. Une fois terminé le procédé avec MultiTerm Extract, le projet peut être importé dans la base de données terminologique ; en utilisant la commande Import de MultiTerm on commence la configuration de l’importation. Après avoir établis les paramètres d’importation, on choisit le fichier d’exportation du projet à importer dans la base de données. Enfin, on commande l’importation, sous forme de fiches terminologiques, du projet d’extraction automatique.
Prétraduction d’un brevet Après avoir créé une mémoire de traduction et avoir intégré la base de données terminologique on a choisi un brevet, appartenant au secteur de la chimie, auquel on a effectué une opération de prétraduction avec le but d'analyser les résultats produits par les deux ressources linguistiques. Avant de commencer avec la prétraduction, le texte a été formaté selon le modèle demandé par le client, de façon à effectuer la prétraduction directement sur le texte qui sera consigné au client. Pour effectuer la prétraduction du texte il est nécessaire d’ouvrir en même temps la mémoire et la base de données. Puis, il faut établir le degré de correspondance (Match Value) qu’on veut utiliser pour la TM aussi bien que pour la base de données. Dans ce cas on a décidé d’effectuer deux tentatives, la première avec un Match Value de 100% et la deuxième avec un Match Value de 90%. Une fois établis ces paramètres, il est possible de procéder avec la prétraduction à travers la commande Translate qui ouvrira la fenêtre de configuration. TRADOS produira un texte hybride contenant les segments et les termes traduits écrits avec une autre couleur par rapport au texte général.
TRADOS produit, en outre un logfile contenant les données relatives aux segements et aux termes traduits automatiquement.
On a utilisé en même temps deux mémoires de traduction: une mémoire générale, et une mémoire spécialisée appartenant au domaine de la chimie. Le but de la mémoire générale serait celui d’obtenir des résultats dans la traduction de la phraséologie typique du langage des brevets, c'est-à-dire, par exemple: the present invention relates to, according to the present invention, it is an object of the present invention, ecc. La mémoire spécifique du secteur chimique peut fournir des résultats aussi bien en ce qui concerne la phraséologie qu'en ce qui concerne le langage de la chimie.
En ce qui concerne la partie relative à la terminologie, on a utilisé une base de données terminologique contenant 2582 termes techniques du secteur de la chimie qui ont été le résultat de l’extraction effectuée avec MultiTerm Extract. La base de données terminologique représente la ressource la plus importante dans le domaine de cette prétraduction parce que l’attention du projet est principalement concentrée sur l’aspect terminologique de la traduction des brevets et aux possible résultats qu’on peut obtenir en utilisant un procédé d’extraction terminologique automatique.
Prétraduction La prétraduction du texte s’est développée en deux phases: la préparation du texte de départ et la véritable prétraduction.
Avant de commencer la prétraduction, il est nécessaire de confronter attentivement les deux textes originaux. Dans notre cas, le texte d’arrivée est parfaitement identique au texte de départ et donc il peut être transféré dans un modèle de formatage prédéfini. La phase de préparation du texte prévoit, en outre, une activité de pre-editing, c’est-à-dire un contrôle attentif du formatage, de la ponctuation, etc. Dans notre cas, il a été nécessaire de modifier des caractères spéciaux relatifs au langage de la chimie (CO2, P-COO-Li+, α-methyl styrene).
Une fois préparé le texte de départ, on peut procéder avec la phase d’editing, c’est-à-dire avec la prétraduction. A travers Translator’s Workbench et MultiTerm il est possible de lancer la prétraduction en établissant le degré de correspondance désiré, notamment 100% et 90% match.
Si on établit un degré de correspondance de 100%, TRADOS traduit seulement les segments et les termes qui résultent identiques à ceux contenus dans les mémoires de traduction et dans la base de donnés terminologique. Les résultats peuvent être, donc, peu satisfaisants du point de vue de la quantité, mais de haute qualité. Dans ce cas, la prétraduction du brevet en utilisant un match de 100% a produit des résultats assez satisfaisants, même si en présentant quelques problèmes. Au moment de la prétraduction, TRADOS crée automatiquement un logfile contenant toutes les informations relatives au procédé de prétraduction du texte. Dans le logfile il y a toutes les données relatives au texte en question, c’est-à-dire le numéro total de segments (146), le numéro total de mots (2537), le numéro de segments traduits automatiquement (9), le numéro des mots contenus dans les segments traduits (19) et le numéro totale de termes traduits en utilisant la base de données terminologique (267). Dans ce cas, on peut noter que, avec le pourcentage maximal de correspondance, les résultats sont numériquement assez contenus. Si on calcule le pourcentage de texte traduit automatiquement, on observe que, dans ce cas, en traduisant 267 termes sur un total de 2537 mots contenus dans le texte, TRADOS a traduit 10,5% de la terminologie, et en traduisant 9 segments sur un total de 146, TRADOS a traduit 6,2% des segments du texte.
La deuxième épreuve de prétraduction, réalisée en utilisant un match de 90%, a le but d’observer dans quelle manière change le résultat obtenu, aussi bien du point de vue quantitatif que qualitatif. Dans ce cas, en effet, vu que les termes set les segments ne doivent pas être identiques à ceux contenus dans les ressources utilisées, on s’attend que TRADOS propose une traduction même dans les cas où il n‘y a pas une correspondance complète, comme par exemple dans le cas de termes au pluriel. Avec une correspondance de 90%, le numéro de segments traduits n’a pas changé, tandis que le numéro des termes traduits a augmenté (301) par rapport à la preuve précédente. Le pourcentage des termes traduits devient donc de 11,8%, avec une augmentation de 12,7% par rapport au texte traduit avec un match de 100%.
Le texte prétraduit représente maintenant un point de départ pour le traducteur qui peut valider ou corriger les parties de texte traduites automatiquement et traduire manuellement les autres parties. Il peut aussi insérer le texte prétraduit dans un Traducteur Automatique, notamment dans le traducteur automatique du moteur de recherche de Google. Après avoir établis ses propres langues de travail et avoir commencé la traduction automatique du texte, on effectuera un contrôle des résultats obtenus. Dans notre cas, le texte prétraduit contient non seulement la terminologie prétraduite par TRADOS, mais aussi une traduction complète du texte effectuée par le TA de Google. L’objectif qu’on se pose est celui d'arriver à augmenter et perfectionner le plus possible les ressources linguistiques, de façon à obtenir des résultats meilleurs du point de vue qualitatif et quantitatif en diminuant, donc, le travail du traducteur qui pourrait être substitué par une simple activité de révision d’un texte qui est déjà en langue d’arrivé.
|
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |