![]() |
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
1. Introducere Rezoluţia anaforei este procesul prin care se determină dacă două expresii în limbaj natural se referă la aceeaşi entitate. Rezoluţia anaforei este o problemă importantă in cadrul sistemelor de procesare a limbajului natural. Sistemele de Extragere a Informaţiei (IE – Information Extraction), cum sunt cele construite în cadrul conferinţelor DARPA (DARPA Message Understanding Conferences – MUC), au dovedit că rezoluţia anaforei este o componentă atât de importantă a problemei de IE încât o sarcină separată pentru această problemă a fost definită şi evaluată începând cu MUC-6 (MUC-6 1995). Relaţiile de coreferinţă, aşa cum sunt descrise în MUC-6 (MUC-6 1995) şi MUC-7 (MUC-7 1997) sunt definite astfel: o relaţie de coreferinţă denotă o identitate a referinţei şi este stabilită între două componente textuale numite elemente marcabile, care pot fi grupuri nominale articulate hotărât, grupuri nominale demonstrative, substantive proprii, apoziţii, părţi ale grupurilor nominale ce funcţionează ca modificatori, pronume etc. Aşadar, procedeul de rezoluţie a anaforei descris în cadrul acestei lucrări este conceput pentru a trata grupuri nominale cât mai generale, şi nu este restricţionat la un anume tip de grupuri nominale, cum ar fi, de exemplu, pronumele. De asemenea, nu se fac nici un fel de restricţii asupra posibilelor elemente marcabile candidat, ceea ce înseamnă că toate elementele marcabile, indiferent dacă sunt „organizaţie”, „persoană” sau alte tipuri de entităţi, sunt luate în calcul. Capacitatea de a lega grupuri nominale care coreferă atât în interiorul frazelor cât şi în afara lor este foarte importantă pentru înţelegerea şi analiza discursului în general. Această înţelegere a discursului poate fi folosită fie pentru îmbunătăţirea sistemelor de traducere automată, prin creşterea preciziei de aliniere a lanţurilor coreferenţiale. O altă utilizare ar fi îmbunătăţirea unei aplicaţii de asistare a traducerii deja existente, cum ar fi Translator’s Workbench. Translator's Workbench stochează informaţiile lingvistice sub formă de "fişiere de memorare a traducerilor" (translation memory files), conţinând perechi de segmente (enunţuri) bilingve – numite "unităţi de traducere" (translation units). În acest mod, unităţile de traducere sunt reţinute în baza de date Workbench, putând fi reutilizate în diverse alte proiecte de traducere. Acest proces poate fi îmbunătăţit prin crearea de translation units care conţin nu o secvenţă de text ci un lanţ coreferenţial determinat anterior. În momentul în care un element al lanţului coreferenţial va fi tradus, toate celelalte elemente ale lanţului vor fi asociate cu traducerea sa. Lucrarea va fi structurată după cum urmează: capitolul al doilea este o descriere a procesului de rezoluţie a anaforei şi a dificultăţilor ataşate acestuia; capitolul al treilea este o descriere a potenţialelor utilizări ale elementelor de rezoluţie a anaforei pentru asistarea traducerii şi pentru îmbunătăţirea sistemelor de traducere automată; în ultimul capitol sunt descrise o serie de concluzii şi de potenţiale direcţii ulterioare de integrare a procesului de rezoluţie a anaforei în traducere.
2. Rezoluţia anaforei În cele ce urmează voi descrie o serie de abordări pentru rezolvarea problemei rezoluţiei anaforei. Acestea pot fi clasificate în două categorii: abordări lingvistice (metode care se bazează cu precădere pe cunoştinţe lingvistice şi cunoştinţe specifice domeniului pentru care se doreşte rezolvarea anaforei) şi abordări bazate pe învăţarea automată (metode care pornesc de la analiza datelor şi nu de la cunoştinţe teoretice).
2.1. Abordări lingvistice Abordările lingvistice sunt bazate pe cunoaşterea mecanismului de funcţionare a fiecărui limbaj şi au fost primele metode de recunoaştere a relaţiei de coreferinţă; unul dintre primii algoritmi este acela al lui Hobbs, publicat în 1986.
Algoritmul Hobbs (Hobbs, 1986) este una dintre cele mai vechi abordări pentru problema de rezoluţie a pronumelor. Acest algoritm se bazează pe arborele sintactic al frazei şi foloseşte constrângeri sintactice pentru rezoluţia pronominală. Pentru determinarea antecedentului unui pronume, iniţial sunt luaţi în calcul doar candidaţii din cadrul aceleiaşi fraze (arborele sintactic al frazei în care se află pronumele luat în calcul este parcurs pe lăţime – breadth first – de la stânga la dreapta). In cazul în care există noduri de nivel mai înalt în fraza curentă, atunci sunt propuşi posibilii antecedenţi rezultaţi dintr-o parcurgere pe lăţime, de la stânga la dreapta, a fiecărui subarbore. Apoi, arborii sintactici ai frazelor precedente, în ordine cronologică, sunt examinaţi conform aceluiaşi procedeu pentru a determina posibili antecedenţi. În esenţă, algoritmul Hobbs preferă entităţile aflate în aceeaşi frază cu anaforul şi apoi entităţile din frazele imediat anterioare frazei în care se află anaforul (Elango, 2005). Mai mult, în funcţie de poziţia pronumelui în cadrul frazei, diferite entităţi ale unei fraze pot deveni mai importante pentru procesul de rezoluţie.
Conform (Cristea, Dima 2001) şi (Cristea et al., 2002), pentru definirea unei abordări bazate pe reguli pentru rezoluţia anaforei, noţiunea de model de rezoluţie a anaforei este fundamentală. Conform (Cristea, Dima 2001), un astfel de model este descris ca având patru componente:
Definirea unui astfel de model permite determinarea oricărui tip de relaţie anaforică, inclusiv relaţia anaforică intre două substantive, ceea ce îl face mult mai flexibil decât modelul propus de Hobbs, care funcţionează doar pe o submulţime a relaţiilor anaforice. Acest tip de abordare este folosit si de (Strube, 1998)pentru rezoluţia pronumelor; el menţine o listă de entităţi, iar entitatea cea mai potrivită extrasă din acea listă este considerată antecedentul pronumelui curent (această căutare este efectuată după ce o serie de constrângeri, cum ar fi acordul în număr şi gen, sunt satisfăcute). Acest procedeu permite rezolvarea incrementală a pronumelor, ceea ce seamănă cu modul în care mintea umană rezolvă coreferinţe. Această abordare favorizează ca antecedenţi entităţile din aceeaşi frază cu pronumele de rezolvat.
2.2. Abordări bazate pe învăţare automată Se consideră ca o metodă de rezoluţie a anaforei se bazează pe învăţare automată dacă acumulează cunoştinţe folosind un algoritm de învăţare şi date de antrenare. Această abordare necesită un corpus de dimensiuni relativ mici de documente de antrenare, care au fost adnotate la lanţuri de coreferinţe. Unul dintre avantajele unei astfel de abordări este acela că nu necesită o cunoaştere aprofundată a mecanismelor limbajului pentru care se face antrenarea; de asemenea, o abordare bazată pe reguli este foarte costisitoare ca timp şi mult mai dificil de gestionat, întrucât numărul de reguli necesare este mare. Mai mult, o abordare bazată pe reguli poate funcţiona doar pentru limbajul pentru care a fost dezvoltat, pe când una bazată pe învăţare automată poate fi adaptată oricărei limbi, cu condiţia existenţei unui corpus de antrenare. În cazul în care limbajul luat în calcul nu are un corpus adnotat la coreferinţă sau nu are disponibile o parte din instrumentele necesare preprocesărilor, o abordare bazată pe reguli poate fi preferabilă. Antrenarea sistemului de rezoluţie a anaforei se realizează astfel: toate elementele marcabile din cadrul documentului de antrenare sunt determinate printr-o serie de module de procesare a limbajului (adnotare la parte de vorbire, determinare de grupuri nominale, dezambiguare semantică etc), aplicate succesiv, pe baza unei filozofii pipeline. După această preprocesare, sunt generate exemplele de antrenare, sub forma unor vectori de trăsături generaţi din perechi de elemente marcabile. Aceste exemple de antrenament sunt apoi oferite algoritmului de învăţare, care construieste un clasificator pentru determinarea relaţie de coreferinţă. Pentru a determina lanţurile coreferenţiale din cadrul unui document, sunt determinate toate elementele marcabile iar perechile de elemente care sunt candidate pentru relaţia de coreferinţă sunt oferite ca date de intrare pentru clasificator, care decide dacă cele două elemente coreferă sau nu.
O abordare statistică pentru rezoluţia anaforei a fost introdusă de (Ge et al., 1998); modelul probabilistic descris conţine o serie de trăsături sintactice şi semantice semnificative pentru rezoluţia pronominală, iar variabila aleatoare este antecedentul candidat pentru un pronume dat. Trăsăturile folosite sunt următoarele:
Numărul de apariţii poate fi motivat prin teoria centrelor (Grosz et al. 1995), conform căreia un subiect continuat este cel mai probabil candidat pentru un pronume. O versiune modificată a algoritmului lui Hobbs este folosită pentru a calcula distanţa dintre pronume şi un antecedent propus, pentru a putea lua în calcul atât distanţa cât şi structura sintactică.
Rezoluţia anaforei poate fi privită şi ca o problemă de clasificare de perechi. (Soon et al. 2001) adoptă o abordare bazată pe arbori de decizie. Problema de rezoluţie a anaforei este transformată într-o problemă de clasificare astfel: dată o pereche de elemente marcabile referă ele la acelaşi element? Un element marcabil poate fi un grup nominal sau un pronume, ceea ce generalizează problema de rezoluţie a anaforei dincolo de pronume. Toate elementele marcabile sunt determinate în pasul de preprocesare. Pentru învăţare este folosit un arbore de decizie, care învaţă o serie de reguli pe baza unei serii de trăsături calculate peste perechile de elemente marcabile. Trăsăturile folosite pentru antrenarea arborelui de decizie sunt descrise mai jos; este de remarcat faptul că aceste trăsături folosesc foarte puţină informaţie de natură sintactică:
Exemplele pentru antrenarea arborelui de decizie sunt extrase automat din corpus: exemplele pozitive sunt formate din perechi adiacente de elemente marcabile aflate în relaţie de coreferinţă, iar exemplele negative sunt generate grupând perechi de elemente marcabile astfel: între două elemente marcabile despre care se ştie că fac parte din acelaşi lanţ coreferenţial şi care sunt adiacente, sunt luate ca exemple negative perechile formate din toate elementele marcabile aflate între cele două, împreună cu al doilea element din pereche. (Ng, Cardie, 2001) propune o modificare la structura descrisă mai sus şi anume generarea de exemple de antrenare prin tratarea diferenţiată a grupurilor nominale şi a pronumelor. În plus propun extinderea mulţimii de trăsături prin adăugarea unui nou set de trăsături; mai precis, sistemul lor foloseşte trăsături care iau în calcul rolul gramatical al elementelor marcabile (subiect, complement direct etc) şi o serie de euristici. În ciuda adăugării acestor noi trăsături, precizia sistemului nu creşte semnificativ, iar aceasta se datorează fragmentării datelor. (Ng, Cardie, 2002) o altă extensie a structurii descrise mai sus prin includerea unui nou clasificator care decide dacă un sintagmă nominală este anaforică sau nu. Pentru antrenarea acestui clasificator este folosit un model de tip maximum entropy, iar pentru determinarea coreferinţei este folosită aceeaşi structură a unui arbore de decizie. (Zang et al., 2003) descrie o abordare bazată pe învăţarea prin competiţie; în loc să folosescă perechi de tipul antecedent – anafor pentru a crea o mulţime de exemple de antrenare, autorii folosesc o pereche de posibili antecedenţi asociaţi unui anafor, astfel încât unul dintre antecedenţii candidat constituie un exemplu pozitiv, iar al doilea un exemplu negativ. Motivul este acela că modelele cu un singur candidat nu sunt suficiente pentru a învăţa noţiunea de coreferinţă; modelul bazat pe doi candidaţi, descris mai sus, este avantajat prin faptul că este antrenat să recunoască diferenţa dintre exemplele pozitive şi cele negative.
3. Rezoluţiei anaforei şi traducerea Procesul de rezoluţie a anaforei permite păstrarea unei caracteristici fundamentale a discursului, mai exact coerenţa; în plus, pentru versiuni paralele ale unui text scris în limbi diferite, lanţurile coreferenţiale şi natura lor semantică nu se modifică semnificativ, proprietate utilă pentru traducere. Rezultatele procesului de rezoluţie a anaforei ar putea fi aplicat în două domenii ale traducerii asistate de calculator: traducerea automată şi memoriile de traducere.
Traducerea automată În cazul traducerii automate statistice, una dintre marile dificultăţi este aceea de a alinia corect sintagmele corespunzătoare din limba sursă şi limba destinaţie. În mod obişnuit, această aliniere se face folosind corpusuri mari de texte paralele, din care se extrag parametrii statistici ai alinierii textului din limba sursă în limba destinaţie. Prin folosirea procesului de rezoluţie a anaforei, este posibilă reducerea acestui corpus şi scăderea costului computaţional asociat cu calculul parametrilor de natura statistică. Procedeul de folosire a relaţiilor de coreferinţă pentru creşterea performanţelor de aliniere ale textului este următorul:
Întrucât o mare parte a sintagmelor nominale ale text fac parte dintr-un lanţ coreferenţial, alinierea acestora poate reduce considerabil atât erorile de aliniere cât şi cantitatea de text aliniat necesară antrenării unui sistem de aliniere de text. Pentru această aplicaţie, un sistem de rezoluţie a anaforei bazat pe învăţare automată este mai eficient, întrucât este intractabil să se creeze sisteme bazate pe abordări lingvistice.
Memorii de traducere O altă potenţială aplicaţie a rezoluţiei anaforei în domeniul traducerii ar fi îmbunătăţirea unei aplicaţii de asistare a traducerii deja existente, cum ar fi Translator’s Workbench. Translator's Workbench stochează informaţiile lingvistice sub formă de "fişiere de memorare a traducerilor" (translation memory files), care conţin perechi de segmente (enunţuri) bilingve numite "unităţi de traducere" (translation units). În acest mod, unităţile de traducere sunt reţinute în baza de date Workbench, putând fi reutilizate în diverse alte proiecte de traducere. Acest proces poate fi imbunătăţit prin crearea de translation units care conţin nu o secvenţă de text ci un lanţ coreferenţial determinat anterior. În momentul în care un element al lanţului coreferenţial va fi tradus, toate celelalte elemente ale lanţului vor fi asociate cu traducerea sa. De exemplu, pentru secvenţa de text de mai jos, determinarea principalului lanţ coreferenţial (Rupert Murdoch) şi completarea sa automată folosind traducerea conceptului ataşat lanţului coreferenţial poate ajuta traducătorul prin eliminarea unor activităţi repetitive sau prin dezambiguarea antecedenţilor unor pronume:
4. Concluzii Această lucrare discută posibilitatea utilizării procesului de rezoluţie a anaforei pentru îmbunătăţirea sistemelor de traducere automată şi a memoriilor de traducere. În ceea ce priveşte dezvoltările ulterioare, este necesară îmbunătăţirea rezultatelor obţinute de procesul de rezoluţie a anaforei. Sistemele de vârf pentru rezoluţia anaforei obţin rezultate de aproximativ 66%, ceea ce poate duce la erori de aliniere sau de traducere cauzate de erorile de preprocesare.
Bibliografie Cristea, D., Dima, G.E., 2001. An Integrating Framework for Anaphora Resolution. Information Science and Technology, Romanian Academy Publishing House, Bucharest, vol. 4, no. 3. Cristea, D. O. Postolache, G. Dima, C. Barbu, 2002, AR-Engine - A Framework for Unrestricted Coreference Resolution, Proceedings of LREC 2002, pp. 2000-2007. Las Palmas, Spain. Elango, P. Coreference Resolution: A Survey Technical Report, University of Wisconsin Madison, 2005. Ge, N., Hale, J., Charniak, E. A statistical approach to anaphora resolution. In Proceedings of the Sixth Workshop on Very Large Corpora, 1998. Grosz, B. J., Weinstein, S., Joshi, A. K. Centering: a framework for modeling the local coherence of discourse. Comput. Linguist., 21(2):203–225, 1995. Hobbs, J. Resolving pronoun references. Readings in natural language processing, pages 339–352, 1986. Ng, V. Cardie, C. Improving machine learning approaches to coreference resolution. Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL-02), 2002. Ng, V. Cardie, C. Identifying anaphoric and non-anaphoric noun phrases to improve coreference resolution. Proceedings of the 19th International Conference on Computational Linguistics (COLING-02), 2002. Soon, W. M., H. T. Ng, D. C. Y. Lim, 2001, A Machine Learning Approach to Coreference Resolution of Noun Phrases. Computational Linguistics (Special Issue on Computational Anaphora Resolution), Vol 27, No 4, pp. 521-544. Strube M. Never look back: an alternative to centering. In Proceedings of the 17th international conference on Computational linguistics, pages 1251–1257, 1998. Yang, X., Zhou, G., Su, J., Tan, C. L. Coreference resolution using competition learning approach. In ACL ’03: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, pages 176–183, 2003.
|
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |