![]() |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Introducere: Informaţie temporală în limbajul natural Privind un corpus ca o colecţie de documente selectate şi ordonate conform unor criterii lingvistice stabilite, el permite punerea în evidenţă, informarea şi fundamentarea unor teorii lingvistice specializate. Cum la ora actuală engleza este limba cu cea mai densă realizare de documente adnotate, ea este deseori utilizată ca sursă din care să se transfere adnotări specifice asupra altor limbi. Pentru limba română o serie de corpusuri paralele au fost deja create (Cristea, Forăscu, 2006), însă niciunul care să permită evidenţierea informaţiei temporale. Teoria logicii temporale s-a dovedit extrem de relevantă încă din anii ’70, mai ales în Inteligenţa Artificială. Posibilitatea de a identifica şi analiza informaţia temporală este de mare importanţă pentru multe dintre aplicaţiile Prelucrării Limbajului Natural precum traducerea automată (prin transferarea şi normalizarea referinţelor temporale precum şi mapările dintre timpurile verbelor), rezumarea multi-document, sistemele de întrebare răspuns, regăsirea şi extragerea informaţiei, etc. Informaţia temporală este reprezentată în limbajul natural prin (Mani et al., 2005):
Expresiile ce denotă timpul pot avea:
Evenimentele exprimate prin verbe pot fi temporal ancorate:
Pentru a codifica toate tipurile de expresii temporale, evenimente şi relaţii între acestea, a fost creat standardul TimeML (Pustejovsky et al., 2006), ale cărui fundamente s-au pus încă din 2002. Standardul reuneşte multe dintre eforturile anterioare de adnotare temporală, diferind de acestea prin separarea reprezentării evenimentelor şi a expresiilor temporale de legăturile de ancorare, ordonare sau dependenţă ce apar în texte. Standardul TimeML defineşte 7 etichete:
De provenienţă lingvistică, teoriile temporale au fost studiate şi formalizate cu predilecţie pentru limba engleză. Lucrarea prezintă cercetările efectuate pentru obţinerea corpusului paralel TimeBank, englez-român, care să fie folosit, printr-un import automat, la validarea acestor teorii pentru limba română. Secţiunea a doua prezintă corpusul TimeBank, realizarea versiunii româneşti a corpusului şi prelucrările corpusului paralel (alinierea versiunilor în română şi engleză, şi corectarea acesteia). Importul adnotărilor temporale şi al celor adiţionale din TimeBank 1.2 şi o analiză preliminară a acestui import sunt prezentate în capitolul 3. Ultimul capitol prezintă concluziile şi obiectivele viitoare ale cercetărilor.
2. Corpusul paralel TimeBank – englez-român 2.1. Corpusul TimeBank Realizarea corpusului TimeBank a început în 2002 în cadrul proiectului şi atelierului TERQAS [1]. Corpusul conţine în versiunea actuală 183 de fişiere de rapoarte de ştiri în limba engleză, adnotate conform cu TimeML v.1.2. (Pustejovsky et al., 2006). Corpusul este de dimensiuni mici, întrucât nu a fost creat ca un scop în sine, ci pentru a testa validitatea şi a demonstra aplicabilitatea limbajului TimeML. Documentele au fost selectate astfel încât să conţină multă informaţie temporală; ele conţin şi alte marcaje XML, inclusiv formatul documentelor, informaţie structurală, nume de entităţi, marcaje de propoziţie. TimeBank 1.2. este versiunea actuală a corpusului, conformă cu specificaţiile TimeML 1.2.1. Structura şi adnotarea corpusului sunt, în esenţă, aceleaşi cu cele din prima versiune a corpusului. TimeBank 1.2 este distribuit prin LDC [2] (Pustejovsky et al., 2006). Statisticile extrase automat din TimeBank 1.2 sunt ilustrate în Tabelul 1. Adnotarea documentelor a început cu o fază de preprocesare, când unele articole lexicale de tip evenimente şi semnale au fost marcate cu unele clase, timpuri sau aspecte ale acestora. După această etapă 5 adnotatori umani au completat adnotarea, verificând şi paşii de preprocesare şi corectitudinea în conformitate cu noua specificaţie TimeML 1.2.1. Tabelul 1: Statistici asupra corpusului TimeBank 1.2
Adnotarea temporală iniţială a corpusului este considerată „preliminară” întrucât s-a arătat (Boguraev, Ando, 2006) că apar greşeli sistematice datorate dimensiunii relativ reduse a corpusului şi inconsistenţelor în adnotare: legături temporale sau de subordonare inconsistente sau incomplete, clasificarea evenimentelor – în perfectare, adnotare incompletă a timpului şi aspectului unor evenimente.
2.2. Corpusul TimeBank – versiunea în limba română Textul englez, fără marcajele XML, a fost iniţial distribuit la două masterande la Lingvistică Computaţională, Facultatea de Informatică Iaşi. Un set minimal de recomandări de traducere a avut ca scop obţinerea unei traduceri unitare între traducători, o exprimare cursivă în limba română şi mai ales facilitarea unei alinieri lexicale optime între engleză şi română.
Varianta actuală în limba română a fost verificată manual, mai ales din cauza unor inconsistenţe şi lipsuri în traduceri, care nu ar fi permis o aliniere a unor elemente temporale esenţiale. În cele 4715 propoziţii în corpusul în limba română sunt 65375 unităţi lexicale (inclusiv semne de punctuaţie), din care 12640 sunt unice.
2.3. Adnotări ale corpusurilor TimeBank englez şi român În vederea alinierii lexicale, s-a folosit o preadnotare unitară a textelor paralele care să fie utilă aliniatorului lexical YAWA (Tufiş et al., 2006). Această procesare preliminară se referă la segmentarea la nivel de cuvânt, adnotarea cu etichete morfosintactice şi lematizarea textelor în engleză şi română. Modulul TTL (Ion, 2007) oferă aceste adnotări şi în plus, asigură o reprezentare uniformă a textelor adnotate în termenii codificării corpusului paralel într-un format XML similar cu formatul XCES (Ide et al., 2000). Segmentarea la nivel de cuvânt consideră că spaţiul nu este singurul delimitator de cuvinte şi nici nu este întotdeauna delimitator de cuvinte. Atât în engleză cât şi în română există expresii idiomatice care vor trebui considerate ca unităţi lexicale în procesul de aliniere Adnotarea morfosintactică se face cu ajutorul unui adnotator probabilistic care implementează adnotatorul TnT (Brants, 2000) bazat pe Modele Markov Ascunse; varianta folosită a TnT permite identificarea părţii de vorbire a cuvintelor necunoscute, mai exact cuvintele din clasele deschise. Setul de etichete morfosintactice este compatibil cu specificaţiile MULTEXT-East [3] fapt care permite reprezentarea uniformă a informaţiei morfosintactice în engleză şi în română. Lematizorul implementat în TTL este de asemenea unul probabilistic. O lemă candidată se generează pe baza unei mulţimi de reguli extrase automat dintr-un lexicon care conţine pentru fiecare formă ocurenţă a unui cuvânt, lema şi eticheta morfosintactică a acesteia. Lema unei noi forme ocurenţe a unui cuvânt de o etichetă morfosintactică dată este lema cea mai probabilă dintre toate lemele candidate după Modelul Markov al tuturor lemelor de aceeaşi etichetă din lexicon (Ion, 2007). Tot ca o cerinţă a alinierii lexicale, în corespondenţă n : m, s-au recunoscut, folosind expresii regulate peste secvenţe de etichete morfosintactice, grupuri nominale şi prepoziţionale nerecursive, complecşi verbali, adjectivali şi adverbiali.
2.4. Alinierea lexicală a corpusurilor Alinierea lexicală a corpusului paralel a fost realizată cu YAWA (Tufiş et al., 2006) pe ieşirea modulului TTL. Corpusul paralel TimeBank 1.2 a fost aliniat la nivel de unitate lexicală din română în engleză urmându-se patru faze specifice acestui aliniator. În fiecare dintre primele trei etape YAWA adaugă noi legături la cele create în etapa anterioară, fără a şterge nimic:
La încheierea alinierii evaluarea YAWA este: P = 88.80%, R = 74.83%, F = 81.22% Fazele 2 şi 4 sunt evident dependente de perechea de limbi aliniate dar regulile de aliniere şi cele de corecţie nu sunt integrate în corpul aliniatorului astfel încât să poată fi schimbate atunci când se doreşte alinierea altei perechi de limbi. În urma alinierii automate română-engleză a 181 de fişiere dintre cele 183 ale bitextului iniţial, au rezultat 91714 de corespondenţe, din care 25346 sunt alinieri la NULL (Forăscu, Ion, 2006). Neincluderea în aliniere a două fişiere a avut la bază lipsurile şi greşelile de traducere. Pentru a obţine un import optim al marcajelor temporale din corpusul original englezesc, alinierile au fost verificate manual. Majoritatea greşelilor s-au datorat unei delimitări incorecte a unor cuvinte, în special a numeralelor şi valorilor numerice, unei marcări morfo-sintactice perfectibile în cazul pronumelor posesive, a negaţiilor şi a unor adjective din engleză.
3. Marcarea corpusului TimeBank românesc 3.1. Importul automat Deoarece traducerea din engleză a corpusului a păstrat structura XML propoziţională, a fost posibilă parsarea corpusului englezesc şi pentru fiecare marcaj XML de propoziţie, conţinutul acestuia a fost înlocuit cu traducerea lui în română. Deşi traducerile au folosit un set de reguli suficient de restrictive, în cadrul unei propoziţii traduse în română ordinea cuvintelor se va schimba faţă de cea în engleză. Din acest motiv a fost folosită alinierea din română în engleză pentru a importa marcajul XML în sens invers. Importul marcajelor se face pentru orice pereche (Sro; Sen) din corpusul paralel TimeBank în care Ten este propoziţia echivalentă (Ten are acelaşi text brut ca şi Sen, însă Ten are structura XML pe care urmărim să o importăm (Forăscu & all, 2007):
Figura 1 Transfer al marcajului XML din română în engleză
Figura 2 Alinierea lexicală a secvenţei din figura 1
Un document ce include marcaje TimeML este privit ca fiind compus din trei părţi: partea de început a documentului (header), textul propriu-zis (ce conţine marcajele inline) şi partea finală ce conţine marcajele offline, cele de instanţiere a evenimentelor şi de legătură dintre elementele temporale ale textului. Procedura de import automat descrisă mai sus are în vedere doar marcajele inline – cele din header şi text. În cazul importului marcajelor offline s-a ţinut cont că acestea folosesc atribute ale marcajelor inline. Astfel, s-au importat automat doar acele marcaje offline pentru care atributele aparţin unor elemente deja importate în română. Tabelul 2 conţine o statistică asupra importului automat astfel realizat. Tabelul 2 Statistici la importul marcajelor în corpusul TimeBank 1.2. român
3.2. Analiza marcajelor importate Rezultatele obţinute prin importul automat sunt promiţătoare. Însă pentru a atinge unul dintre obiectivele iniţiale – crearea unui corpus paralel englez- român adnotat temporal în ambele limbi – am început validarea manuală, simultan cu evaluarea importului temporal pe corpus. Am avut în vedere analiza distinctă a patru situaţii de transfer al marcajelor:
Simultan cu validarea manuală a adnotărilor importate în română din TimeBank, am avut în vedere şi urmărirea tuturor elementelor temporale din corpusul englezesc. Aşa cum se va vedea, unele construcţii temporale nemarcate în varianta engleză au fost identificate şi propuse spre validare creatorilor TimeBank. Analiza preliminară a folosit zece fişiere ale corpusului, reprezentând aproximativ 10% din acesta. Fişierele marcate au fost urmărite în paralel (pentru română şi engleză), fără a interveni şi la marcajele offline (MAKEINSTANCE, ALINK, TLINK şi SLINK), întrucât acestea au fost importate automat doar dacă elementele pe care le identifică sau leagă erau deja marcate ca atare în textul românesc: o legătura temporală TLINK este importată dacă marcajele elementele ai căror identificatori îi foloseşte sunt deja importate. Tabelul 3 rezumă toate cele patru situaţii întâlnite în analiza importului automat
Tabelul 3. Situaţiile obţinute la importul automat
Modificările necesare la importul automat în cazul marcajului EVENT (37 cazuri – 4.5%) se datorează regulii TimeML care impune ca în cazul grupurilor sintactice, marcajul să se pună doar pe elementul principal (head-ul) al construcţiei. Acesta este cazul verbelor reflexive (în unele cazuri marcajul EVENT a inclus automat şi pronumele reflexiv), verbelor compuse din română şi locuţiunilor verbale. Fenomenele specifice limbii care trebuie luate în considerare la import sunt: intercalarea adverbelor şi conjuncţiilor între verbele ce formează un verb compus: also said – au mai spus; (he) also criticised – a şi criticat, situaţii în care marcajul EVENT s-a pus separat pe verbul auxiliar, creând astfel două „evenimente” identice ca identificatori, dar diferite ca lexicalizare; fenomenul de cliticizare a fost corect tratat la import. Situaţiile de transfer imposibil se datorează lipsei traducerilor: forces that harbor ill intentions – forţe străine cu intenţii rele – situaţie în care lipsa traducerii nu schimbă înţelesul; în cazul alinierii Poliţia a descoperit corpul (dezmembrat al) unui bărbat răpit - Police discover dismembered body of man kidnapped lipsa traducerii modifică înţelesul. Cazuri imposibile de transfer sunt şi cele în care traducerea este corectă, însă în română evenimentele din engleză nu sunt lexicalizate. Din cele 40 de evenimente neimportate automat doar patru au rămas nemarcate în urma validării manuale, celelalte fiind corectate. În ceea ce priveşte marcajul TIMEX3 – s-a întâlnit o situaţie de lipsă a alinierii: expresia temporală some time nu a inclus în alinierea cu limba română un timp mai lung grupul adjectival mai lung. Celelalte modificări de luat în considerare au în vedere demarcarea prepoziţiilor ca părţi din TIMEX3, ca de exemplu în: eight years (war) – (războiul) de opt ani. Pentru cele patru marcaje TIMEX3 nemarcate automat s-a făcut corecţia manual. Singura situaţie întâlnită de imposibilitate de transfer a marcajului SIGNAL are la bază nnelexicalizarea în limba română a prepoziţiei din engleză, în exprimări de genul: on Tuesday – marţi, unde prepoziţia on este marcată ca SIGNAL în engleză. Activitatea de validare şi corectare a permis identificarea unor elemente temporale (încă) nemarcate în corpusul TimeBank. Pentru marcajul EVENT am identificat 104 elemente noi: 5 din clasa REPORTING (say, said), 21 de tip stare (STATE) (belongs, look, ceiling, staying, war, policies), 70 din clasa OCCURENCE (substantive: missions, training, fight, (mediation) effort, demarcation, move, dar şi verbe: supervising, leading, include), 1 de tip I_ACTION (include) şi 7 din clasa I_STATE (like, think, (have the) power). Cauza pentru care am propus aceste noi evenimente este, cel mai des, faptul că orice propoziţie exprimă un eveniment, în sensul definiţiei din TimeML, chiar dacă uneori aceste evenimente nu sunt uşor sau chiar deloc ancorabile temporal. Cele două noi expresii temporale identificate pot primi amândouă valoarea PAST_REF, ceea ce înseamnă că valoarea nu este exactă, dar poate fi normalizată, conform cu standardul ISO 8601 extins, la o valoare non-specifică din trecut: once, not that long ago. Cele 19 elemente de legătura de tip SIGNAL nemarcate se datorează, cel mai probabil, greşelilor inevitabile de adnotare: several, when, meanwhile, time and again, after, on. Aşa cum am arătat, unele dintre aceste elemente nu sunt lexicalizate în limba română. Absenţa unor semnale (SIGNAL) nu a permis identificarea unor instanţieri multiple ale unor evenimente. Observaţiile de mai sus sunt consistente cu creatorii corpusului TimeBank [4]: corpusul încă necesită îmbunătăţiri şi recorectări mai ales în ceea ce priveşte clasele evenimentelor, marcajele şi legăturile temporale incomplete, legături de subordonare incomplete.
4. Concluzii şi etape viitoare Analiza arată că importul automat al marcajelor temporale din engleză reprezintă o soluţie la problema identificării informaţiei temporale, cu condiţia existenţei unui corpus paralel. Rata de succes a importului automat conduce spre concluzia că adnotarea manuală nu reprezintă o soluţie, deoarece este demonstrat că adnotarea temporală este foarte consumatoare de timp, deci scumpă (Forăscu, Solomon, 2004, pentru un studiu pentru limba română). Validarea manuală a marcării temporale automate în limba română (prin import) va fi încheiată. Corpusul astfel creat va fi folosit, în combinaţie cu metode specifice de învăţare automată, pentru crearea şi antrenarea unui adnotator temporal pentru limba română. Pentru evaluarea adnotatorului se vor avea în vedere şi alte domenii pe lângă cel de ştiri, precum beletristică, legislaţie etc. Adnotările temporale combinate cu cele de discurs vor fi aplicate pentru determinarea structurii temporale a discursului, rezumarea multi-document şi folosirea ontologiilor temporale pentru a obţine inferenţe despre evenimente în timp.
Bibliografie Boguraev, B., Ando, R. (2006). Analysis of TimeBank as a Resource for TimeML Parsing. In Proceedings of LREC 2006, Genoa, Italy, pp. 71-76. Brants, T. (2000). TnT – a statistical part-of-speech tagger. In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA, pp. 224–231. Cristea, D., Forăscu, C. (2006). Linguistic Resources and Technologies for Romanian Language. In Journal of Computer Science of Moldova, Academy of Science of Moldova, vol. 14, nr. 1(40), pp. 34-73, ISSN 1561-4042. Forăscu, C., Solomon, D. (2004). Towards a Time Tagger for Romanian. In Proceedings of the ESSLLI Student Session, August 2004, Nancy, France. Forăscu, C., Ion, R. (2006). TimeBank 1.2: O versiune adnotată în limba română. In C. Forăscu, D. Tufis, D. Cristea (eds.) Lucrările Atelierului Resurse lingvistice şi instrumente pentru prelucrarea limbii române, Iaşi, noiembrie 2006. Editura Universităţii Al.I. Cuza, ISBN 978-973-703-208-9. Forăscu, C., Ion, R., Tufiş, D. (2007). Semi-automatic Annotation of the Romanian TimeBank 1.2. In Orasan, C., Kubler, S.(eds.) Proceedings of the RANLP 2007 CALP (Computer-Aided Language Processing) workshop, september 2007, Borovets, Bulgaria. Ion, R. (2007). Metode de dezambiguizare semantică automată. Aplicaţii pentru limbile engleză şi română. Teză de doctorat susţinută la Academia Română. Ide, N., Bonhomme, P., Romary, L. (2000). XCES: An XML-based Encoding Standard for Linguistic Corpora. In Proceedings of the Second International Language Resources and Evaluation Conference., pp. 825-830. Mani, I., Pustejovsky, J., Gaizauskas, R. (eds.) (2005). The Language of Time: A Reader. Oxford University Press, ISBN-13: 978-0-19-926853-5, May 2005. Pustejovsky, J., Verhagen, M., Sauri, R., Littman, J., Gaizauskas, R., Katz, G., Mani, I., Knippen, B., Setzer, A. (2006). TimeBank 1.2. Linguistic Data Consortium, Philadelphia, ISBN: 1-58563-386-0. Tufiş, D., Ion, R., Ceauşu, A., Ştefănescu, D. (2006). Improved Lexical Alignment by Combining Multiple Reified Alignments. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL2006), Trento, Italy, 3-7 April, 2006, pp. 153-160. Tufiş, D., Barbu, A.M. (2002). Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing. In International Journal of Speech Technology. Kluwer Academic Publishers, no.5, pp.199-209, 2002, ISSN 1381-2416.
Temporal and Event Recognition for Question Answering Systems, http://www.timeml.org/site/terqas/index.html http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T08 http://www.timeml.org/site/timebank/timebank.html
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |