Un corpus paralel român-englez

FORĂSCU Corina, Facultatea de Informatică, Universitatea “Al.I.Cuza”, Iaşi - Institutul de Cercetări pentru Inteligenţă Artificială, Academia Română, Bucureşti

 

1. Introducere: Informaţie temporală în limbajul natural

Privind un corpus ca o colecţie de documente selectate şi ordonate conform unor criterii lingvistice stabilite, el permite punerea în evidenţă, informarea şi fundamentarea unor teorii lingvistice specializate. Cum la ora actuală engleza este limba cu cea mai densă realizare de documente adnotate, ea este deseori utilizată ca sursă din care să se transfere adnotări specifice asupra altor limbi. Pentru limba română o serie de corpusuri paralele au fost deja create (Cristea, Forăscu, 2006), însă niciunul care să permită evidenţierea informaţiei temporale.

Teoria logicii temporale s-a dovedit extrem de relevantă încă din anii ’70, mai ales în Inteligenţa Artificială. Posibilitatea de a identifica şi analiza informaţia temporală este de mare importanţă pentru multe dintre aplicaţiile Prelucrării Limbajului Natural precum traducerea automată (prin transferarea şi normalizarea referinţelor temporale precum şi mapările dintre timpurile verbelor), rezumarea multi-document, sistemele de întrebare răspuns, regăsirea şi extragerea informaţiei, etc.

Informaţia temporală este reprezentată în limbajul natural prin (Mani et al., 2005):

expresii temporale exprimate prin grupuri nominale, prepoziţionale sau adverbiale – ore (timp al zilei), date, durate: acum trei ore, mai 1984, anii 90, 5 februarie 2007, etc.; aceste expresii temporale referă timpul ca:

    punct (moment): Am deschis uşa la ora doisprezece.,

    interval: Am fost plecat ieri.

expresii ce denotă evenimente exprimate în principal, pe lângă adjective, clauze predicative sau grupuri frazale prepoziţionale, prin:

    propoziţii, mai exact prin centrul (eng. head) sintactic, anume verbul principal: Ion a plecat la munte.

    grupuri nominale: Greva va continua şi în zilele următoare.

Expresiile ce denotă timpul pot avea:

referinţe explicite (specificate), care referă la o intrare într-un sistem calendaristic / orar: amiază, 11.10.2006 (midday, 11.10.2006) ;

referinţe implicite (sub-specificate) -  pot fi evaluate doar prin intermediul unui timp indexat: anul viitor, săptămâna trecută, acum două ore;

referinţe vagi (nespecificate, neancorate), care nu pot fi corelate cu un punct sau interval exact de timp: după-amiază, în câteva săptămâni, acum câteva zile.

Evenimentele exprimate prin verbe pot fi temporal ancorate:

indirect, prin categoria morfologică a timpului şi

direct, prin modificatori adverbiali (adverbe de timp şi frecvenţă, grupuri nominale şi prepoziţionale şi clauze subordonate).

Pentru a codifica toate tipurile de expresii temporale, evenimente şi relaţii între acestea, a fost creat standardul TimeML (Pustejovsky et al., 2006), ale cărui fundamente s-au pus încă din 2002. Standardul reuneşte multe dintre eforturile anterioare de adnotare temporală, diferind de acestea prin separarea reprezentării evenimentelor şi a expresiilor temporale de legăturile de ancorare, ordonare sau dependenţă ce apar în texte.

Standardul TimeML defineşte 7 etichete:

pentru evenimente şi instanţe ale acestora

    EVENT: arată situaţii care se întâmplă, stări, circumstanţe în care ceva se întâmplă sau se menţine adevărat:  Female pilots were held up until now by the lack of piloting opportunities for them in the military.

    MAKEINSTANCE: marchează câte instanţieri sau realizări are un eveniment; marcajul include şi categoriile de timp şi aspect ale verbului: But they still have catching up to do two hundred and thirty four  Americans have flown  in space, only twenty six of  them women.

pentru expresii şi semnale temporale:

    TIMEX3: indică momente ale zilei, date şi durate: 25 October; nowadays.

    SIGNAL: marchează modul în care se leagă obiectele temporale: after, until.

pentru legături între evenimente sau între evenimente şi expresii temporale:

    TLINK: indică 13 tipuri de relaţii temporale (corespunzătoare celor definite de Allen)

    ALINK: indică o legatură aspectuală între un verb aspectual şi argumentul acestuia.

    SLINK: indică o legatură de subordonare între două evenimente.

De provenienţă lingvistică, teoriile temporale au fost studiate şi formalizate cu predilecţie pentru limba engleză. Lucrarea prezintă cercetările efectuate pentru obţinerea corpusului paralel TimeBank, englez-român, care să fie folosit, printr-un import automat, la validarea acestor teorii pentru limba română. Secţiunea a doua prezintă corpusul TimeBank, realizarea versiunii româneşti a corpusului şi prelucrările corpusului paralel (alinierea versiunilor în română şi engleză, şi corectarea acesteia). Importul adnotărilor temporale şi al celor adiţionale din TimeBank 1.2 şi o analiză preliminară a acestui import sunt prezentate în capitolul 3. Ultimul capitol prezintă concluziile şi obiectivele viitoare ale cercetărilor.

 

2. Corpusul paralel TimeBank – englez-român

2.1. Corpusul TimeBank

Realizarea corpusului TimeBank a început în 2002 în cadrul proiectului şi atelierului TERQAS [1]. Corpusul conţine în versiunea actuală 183 de fişiere de rapoarte de ştiri în limba engleză, adnotate conform cu TimeML v.1.2. (Pustejovsky et al., 2006). Corpusul este de dimensiuni mici, întrucât nu a fost creat ca un scop în sine, ci pentru a testa validitatea şi a demonstra aplicabilitatea limbajului TimeML. Documentele au fost selectate astfel încât să conţină multă informaţie temporală; ele conţin şi alte marcaje XML, inclusiv formatul documentelor, informaţie structurală, nume de entităţi, marcaje de propoziţie.

TimeBank 1.2. este versiunea actuală a corpusului, conformă cu specificaţiile TimeML 1.2.1. Structura şi adnotarea corpusului sunt, în esenţă, aceleaşi cu cele din prima versiune a corpusului. TimeBank 1.2 este distribuit prin LDC [2] (Pustejovsky et al., 2006). Statisticile extrase automat din TimeBank 1.2 sunt ilustrate în Tabelul 1.

Adnotarea documentelor a început cu o fază de preprocesare, când unele articole lexicale de tip evenimente şi semnale au fost marcate cu unele clase, timpuri sau aspecte ale acestora. După această etapă 5 adnotatori umani au completat adnotarea, verificând şi paşii de preprocesare şi corectitudinea în conformitate cu noua specificaţie TimeML 1.2.1.

Tabelul 1: Statistici asupra corpusului TimeBank 1.2

TimeML tags
#
events
7935
Instances
7940
timexes
1414
signals
688
alinks
265
slinks
2932
tlinks
6418
TOTAL
27592
General
#
propoziţii
4715
unităţi lexicale
61042
unităţi lexicale unice
10586

Adnotarea temporală iniţială a corpusului este considerată „preliminară” întrucât s-a arătat (Boguraev, Ando, 2006) că apar greşeli sistematice datorate dimensiunii relativ reduse a corpusului şi inconsistenţelor în adnotare: legături temporale sau de subordonare inconsistente sau incomplete, clasificarea evenimentelor – în perfectare, adnotare incompletă a timpului şi aspectului unor evenimente.

 

2.2. Corpusul TimeBank – versiunea în limba română

Textul englez, fără marcajele XML, a fost iniţial distribuit la două masterande la Lingvistică Computaţională, Facultatea de Informatică Iaşi. Un set minimal de recomandări de traducere a avut ca scop obţinerea unei traduceri unitare între traducători, o exprimare cursivă în limba română şi mai ales facilitarea unei alinieri lexicale optime între engleză şi română.

Propoziţiile în română sunt traduse într-o corespondenţă 1:1, ori de câte ori limba o permite. Alinierea la propoziţii se obţine direct prin traducere.

Se folosesc echivalenţi de traducere cu aceeaşi parte de vorbire, cuvintele româneşti fiind cât mai “apropiate” de corespondentele lor englezeşti: atunci când cuvântul englez are un cognate în română, acesta din urmă va fi folosit (sporadic -> sporadic şi nu mai rar), evitându-se parafrazările.

Se traduc toate cuvintele şi nu se introduc în traducere, din motive stilistice, cuvinte sau expresii fără corespondent în engleză.

Se foloseşte scrierea cu diacritice, conformă cu normele în vigoare ale limbii.

Timpurile verbelor se păstrează pe cât posibil, modificările fiind acceptate doar pe temeiuri lingvistice şi nu stilistice.

Se păstrează formatul folosit în engleză pentru date, momente ale zilei şi numere.

Varianta actuală în limba română a fost verificată manual, mai ales din cauza unor inconsistenţe şi lipsuri în traduceri, care nu ar fi permis o aliniere a unor elemente temporale esenţiale.

În cele 4715 propoziţii în corpusul în limba română sunt 65375 unităţi lexicale (inclusiv semne de punctuaţie), din care 12640 sunt unice.

 

2.3. Adnotări ale corpusurilor TimeBank englez şi român

În vederea alinierii lexicale, s-a folosit o preadnotare unitară a textelor paralele care să fie utilă aliniatorului lexical YAWA (Tufiş et al., 2006). Această procesare preliminară se referă la segmentarea la nivel de cuvânt, adnotarea cu etichete morfosintactice şi lematizarea textelor în engleză şi română. Modulul TTL (Ion, 2007) oferă aceste adnotări şi în plus, asigură o reprezentare uniformă a textelor adnotate în termenii codificării corpusului paralel într-un format XML similar cu formatul XCES (Ide et al., 2000).

Segmentarea la nivel de cuvânt consideră că spaţiul nu este singurul delimitator de cuvinte şi nici nu este întotdeauna delimitator de cuvinte. Atât în engleză cât şi în română există expresii idiomatice care vor trebui considerate ca unităţi lexicale în procesul de aliniere

Adnotarea morfosintactică se face cu ajutorul unui adnotator probabilistic care implementează adnotatorul TnT (Brants, 2000) bazat pe Modele Markov Ascunse; varianta folosită a TnT permite identificarea părţii de vorbire a cuvintelor necunoscute, mai exact cuvintele din clasele deschise. Setul de etichete morfosintactice este compatibil cu specificaţiile MULTEXT-East [3] fapt care permite reprezentarea uniformă a informaţiei morfosintactice în engleză şi în română.

Lematizorul implementat în TTL este de asemenea unul probabilistic. O lemă candidată se generează pe baza unei mulţimi de reguli extrase automat dintr-un lexicon care conţine pentru fiecare formă ocurenţă a unui cuvânt, lema şi eticheta morfosintactică a acesteia. Lema unei noi forme ocurenţe a unui cuvânt de o etichetă morfosintactică dată este lema cea mai probabilă dintre toate lemele candidate după Modelul Markov al tuturor lemelor de aceeaşi etichetă din lexicon (Ion, 2007).

Tot ca o cerinţă a alinierii lexicale, în corespondenţă n : m, s-au recunoscut, folosind expresii regulate peste secvenţe de etichete morfosintactice, grupuri nominale şi prepoziţionale nerecursive, complecşi verbali, adjectivali şi adverbiali.

 

2.4. Alinierea lexicală a corpusurilor

Alinierea lexicală a corpusului paralel a fost realizată cu YAWA (Tufiş et al., 2006) pe ieşirea modulului TTL. Corpusul paralel TimeBank 1.2 a fost aliniat la nivel de unitate lexicală din română în engleză urmându-se patru faze specifice acestui aliniator. În fiecare dintre primele trei etape YAWA adaugă noi legături la cele create în etapa anterioară, fără a şterge nimic:

1. alinierea cuvintelor conţinut (din clasele deschise) folosind un dicţionar de echivalenţi de traducere extras automat (Tufiş, Barbu, 2002); după această etapă precizia este mare însă recall-ul este îmbunătăţit în continuare: P = 94.08%, R = 34.99%, F = 51.00%.

2. aliniere la nivel de grup sintactic: se aliniază cuvintele aflate în acelaşi grup sintactic cu cuvintele deja aliniate la pasul anterior, utilizându-se reguli de aliniere. De exemplu, un substantiv românesc aliniat la unul englezesc care este precedat de un determinator, aliniază determinatorul englezesc la substantivul românesc (fata – the girl). Evaluarea alinierii după această etapă: P = 89.90%, R = 53.90%, F = 67.40%.

3. aliniere în secvenţe continue de cuvinte nealiniate: pe scheletul alinierii anterioare, se aliniază toate blocurile de indecşi consecutivi rămaşi nealiniaţi (Tufiş et al., 2006);

4. pasul de corecţie: corectează, chiar prin ştergerea unor legături, alinierea de la pasul 3.

La încheierea alinierii evaluarea YAWA este: P = 88.80%, R = 74.83%, F = 81.22%

Fazele 2 şi 4 sunt evident dependente de perechea de limbi aliniate dar regulile de aliniere şi cele de corecţie nu sunt integrate în corpul aliniatorului astfel încât să poată fi schimbate atunci când se doreşte alinierea altei perechi de limbi.

În urma alinierii automate română-engleză a 181 de fişiere dintre cele 183 ale bitextului iniţial, au rezultat 91714 de corespondenţe,  din care 25346 sunt alinieri la NULL (Forăscu, Ion, 2006). Neincluderea în aliniere a două fişiere a avut la bază lipsurile şi greşelile de traducere.

Pentru a obţine un import optim al marcajelor temporale din corpusul original englezesc, alinierile au fost verificate manual. Majoritatea greşelilor s-au datorat unei delimitări incorecte a unor cuvinte, în special a numeralelor şi valorilor numerice, unei marcări morfo-sintactice perfectibile în cazul pronumelor posesive, a negaţiilor şi a unor adjective din engleză.

 

3. Marcarea corpusului TimeBank românesc

3.1. Importul automat

Deoarece traducerea din engleză a corpusului a păstrat structura XML propoziţională, a fost posibilă parsarea corpusului englezesc şi pentru fiecare marcaj XML de propoziţie, conţinutul acestuia a fost înlocuit cu traducerea lui în română. Deşi traducerile au folosit un set de reguli suficient de restrictive, în cadrul unei propoziţii traduse în română ordinea cuvintelor se va schimba faţă de cea în engleză. Din acest motiv a fost folosită alinierea din română în engleză pentru a importa marcajul XML în sens invers.

Importul marcajelor se face pentru orice pereche (Sro; Sen) din corpusul paralel TimeBank în care Ten este propoziţia echivalentă (Ten are acelaşi text brut ca şi Sen, însă Ten are structura XML pe care urmărim să o importăm (Forăscu & all, 2007):

 

Figura 1 Transfer al marcajului XML din română în engleză

 

se construieşte lista E a perechilor formate din fragmente de text englezesc şi şirul de indecşi ai fragmentelor din Sen, în Ten. Deoarece tokenizarea în Sen este uneori diferită de cea din Ten, se foloseşte această listă pentru a mapa fragmente englezeşti din Ten pe secvenţe de indecşi din Sen, astfel încât să fie folosită alinierea lexicală dinspre română a acestor indecşi.
De exemplu – pentru textul ilustrat în figurile 1 şi 2 lista E = {<”Once”;1>, <”Colonel Collins”;2,3>, <”was”;4>, <”picked”; 5>, <”as”;6>, <”a”;7>, <”NASA”;8>, <”astronaut”;9>}.

se adaugă la fiecare element al listei E contextul XML în care apare.
Folosind exemplul anterior, lista devine E = {<”Once”;1; s,SIGNAL>, <”Colonel Collins”;2,3; s,ENAMEX>, <”was”;4; s>, <”picked”; 5; s,EVENT>, <”as”;6; s>, <”a”;7; s>, <”NASA”;8; s,ENAMEX>, <”astronaut”;9; s,EVENT>}.
Simultan cu marcajul XML, se păstrează şi atributele acestuia (când există).

se construieşte lista RW de cuvinte corespondente româneşti şi marcaje XML transferate, folosind alinierea lexicală dintre Sro şi Sen. Dacă un cuvânt din Sro nu este aliniat (aliniat cu cuvântul de index 0), contextul maximal (s) este folosit. Lista devine RW = {<”O dată ce”;1,2,3; s,SIGNAL>, <”Colonel Collins”;4,5; s,ENAMEX>, <”a fost”;6,7; s>, <”aleasă”; 8; s,EVENT>, <”ca”;9; s>, <”astronaut”;10; s,EVENT>, <”NASA”;11; s,ENAMEX> }.

 

Figura 2 Alinierea lexicală a secvenţei din figura 1

se construieşte lista finală  R de fragmente de text româneşti din RW folosind elementele adiacente din RW care apar în acelaşi context XML. Lista este întoarsă în format XML – figura 1.

Un document ce include marcaje TimeML este privit ca fiind compus din trei părţi: partea de început a documentului (header), textul propriu-zis (ce conţine marcajele inline) şi partea finală ce conţine marcajele offline, cele de instanţiere a evenimentelor şi de legătură dintre elementele temporale ale textului. Procedura de import automat descrisă mai sus are în vedere doar marcajele inline – cele din header şi text. În cazul importului marcajelor offline s-a ţinut cont că acestea folosesc atribute ale marcajelor inline. Astfel, s-au importat automat doar acele marcaje offline pentru care atributele aparţin unor elemente deja importate în română.  Tabelul 2 conţine o statistică asupra importului automat astfel realizat.

Tabelul 2 Statistici  la importul marcajelor  în corpusul TimeBank 1.2. român

Marcaje TimeML
#
% transfer
EVENT
7703
97.07
MAKEINSTANCE
7706
97.05
TIMEX3
1356
95.89
SIGNAL
668
97.09
ALINK
249
93.96
SLINK
2831
96.55
TLINK
6122
95.38
TOTAL
26635
96.53

 

3.2. Analiza marcajelor importate

Rezultatele obţinute prin importul automat sunt promiţătoare. Însă pentru a atinge unul dintre obiectivele iniţiale – crearea unui corpus paralel englez- român adnotat temporal în ambele limbi – am început validarea manuală, simultan cu evaluarea importului temporal pe corpus. Am avut în vedere analiza distinctă a patru situaţii de transfer al marcajelor:

1. Transfer perfect.

2. Transfer cu modificări ulterioare – atunci când în cele două limbi construcţiile temporale nu sunt identice, însă transferul se poate realiza prin reguli specifice.

3. Transfer cu modificări specifice fenomenelor lingvistice române, ca de exemplu cliticele, intercalarea conjuncţiilor şi adverbelor între verbele unui acelaşi grup verbal.

4. Transfer imposibil.

Simultan cu validarea manuală a adnotărilor importate în română din TimeBank, am avut în vedere şi urmărirea tuturor elementelor temporale din corpusul englezesc. Aşa cum se va vedea, unele construcţii temporale nemarcate în varianta engleză au fost identificate şi propuse spre validare creatorilor TimeBank.

Analiza preliminară a folosit zece fişiere ale corpusului, reprezentând aproximativ 10% din acesta. Fişierele marcate au fost urmărite în paralel (pentru română şi engleză), fără a interveni şi la marcajele offline (MAKEINSTANCE, ALINK, TLINK şi SLINK), întrucât acestea au fost importate automat doar dacă elementele pe care le identifică sau leagă erau deja marcate ca atare în textul românesc: o legătura temporală TLINK este importată dacă marcajele elementele ai căror identificatori îi foloseşte sunt deja importate.

Tabelul 3 rezumă toate cele patru situaţii întâlnite în analiza importului automat

 

Tabelul 3. Situaţiile obţinute la importul automat

Marcaje
EVENT
TIMEX3
SIGNAL
Transfer
Perfect
785
33
29
Cu modificări
37
3
-
Bazat pe fenomene specifice limbii
3
-
-
Imposibil
4
-
4
TOTAL (engleză)
829
36
33

Modificările necesare la importul automat în cazul marcajului EVENT (37 cazuri – 4.5%) se datorează regulii TimeML care impune ca în cazul grupurilor sintactice, marcajul să se pună doar pe elementul principal (head-ul) al construcţiei. Acesta este cazul verbelor reflexive (în unele cazuri marcajul EVENT a inclus automat şi pronumele reflexiv), verbelor compuse din română şi locuţiunilor verbale.

Fenomenele specifice limbii care trebuie luate în considerare la import sunt: intercalarea adverbelor şi conjuncţiilor între verbele ce formează un verb compus: also saidau mai spus; (he) also criticiseda şi criticat, situaţii în care marcajul EVENT s-a pus separat pe verbul auxiliar, creând astfel două „evenimente” identice ca identificatori, dar diferite ca lexicalizare; fenomenul de cliticizare a fost corect tratat la import.

Situaţiile de transfer imposibil se datorează lipsei traducerilor: forces that harbor ill intentions – forţe străine cu intenţii rele – situaţie în care lipsa traducerii nu schimbă înţelesul; în cazul alinierii Poliţia a descoperit corpul (dezmembrat al) unui bărbat răpit - Police discover  dismembered body of man kidnapped lipsa traducerii modifică înţelesul. Cazuri imposibile de transfer sunt şi cele în care traducerea este corectă, însă în română evenimentele din engleză nu sunt lexicalizate. Din cele 40 de evenimente neimportate automat doar patru au rămas nemarcate în urma validării manuale, celelalte fiind corectate.

În ceea ce priveşte marcajul TIMEX3 – s-a întâlnit o situaţie de lipsă a alinierii: expresia temporală  some time nu a inclus în alinierea cu limba română un timp mai lung  grupul adjectival mai lung. Celelalte modificări de luat în considerare au în vedere demarcarea prepoziţiilor ca părţi din TIMEX3, ca de exemplu în: eight years (war) – (războiul) de opt ani. Pentru cele patru marcaje TIMEX3 nemarcate automat s-a făcut corecţia manual.

Singura situaţie întâlnită de imposibilitate de transfer a marcajului SIGNAL are la bază nnelexicalizarea în limba română a prepoziţiei din engleză, în exprimări de genul: on Tuesday – marţi, unde prepoziţia on este marcată ca SIGNAL în engleză.

Activitatea de validare şi corectare a permis identificarea unor elemente temporale (încă) nemarcate în corpusul TimeBank. Pentru marcajul EVENT am identificat 104 elemente noi: 5 din clasa REPORTING (say, said), 21 de tip stare (STATE) (belongs, look, ceiling, staying, war, policies), 70 din clasa OCCURENCE (substantive: missions, training, fight, (mediation) effort, demarcation, move, dar şi verbe: supervising, leading, include), 1 de tip I_ACTION (include) şi 7 din clasa I_STATE (like, think, (have the) power).

Cauza pentru care am propus aceste noi evenimente este, cel mai des, faptul că orice propoziţie exprimă un eveniment, în sensul definiţiei din TimeML, chiar dacă uneori aceste evenimente nu sunt uşor sau chiar deloc ancorabile temporal.

Cele două noi expresii temporale identificate pot primi amândouă valoarea PAST_REF, ceea ce înseamnă că valoarea nu este exactă, dar poate fi normalizată, conform cu standardul ISO 8601 extins, la o valoare non-specifică din trecut: once, not that long ago.

Cele 19 elemente de legătura de tip SIGNAL nemarcate se datorează, cel mai probabil, greşelilor inevitabile de adnotare: several, when, meanwhile, time and again, after, on. Aşa cum am arătat, unele dintre aceste elemente nu sunt lexicalizate în limba română. Absenţa unor semnale (SIGNAL) nu a permis identificarea unor instanţieri multiple ale unor evenimente.

Observaţiile de mai sus sunt consistente cu creatorii corpusului TimeBank [4]: corpusul încă necesită îmbunătăţiri şi recorectări mai ales în ceea ce priveşte clasele evenimentelor, marcajele şi legăturile temporale incomplete, legături de subordonare incomplete.

 

4. Concluzii şi etape viitoare

Analiza arată că importul automat al marcajelor temporale din engleză reprezintă o soluţie la problema identificării informaţiei temporale, cu condiţia existenţei unui corpus paralel. Rata de succes a importului automat conduce spre concluzia că adnotarea manuală nu reprezintă o soluţie, deoarece este demonstrat că adnotarea temporală este foarte consumatoare de timp, deci scumpă (Forăscu, Solomon, 2004, pentru un studiu pentru limba română). Validarea manuală a marcării temporale automate în limba română (prin import) va fi încheiată. Corpusul astfel creat va fi folosit, în combinaţie cu metode specifice de învăţare automată, pentru crearea şi antrenarea unui adnotator temporal pentru limba română. Pentru evaluarea adnotatorului se vor avea în vedere şi alte domenii pe lângă cel de ştiri, precum beletristică, legislaţie etc.

Adnotările temporale combinate cu cele de discurs vor fi aplicate pentru determinarea structurii temporale a discursului, rezumarea multi-document şi folosirea ontologiilor temporale pentru a obţine inferenţe despre evenimente în timp.

 

Bibliografie

Boguraev, B., Ando, R. (2006). Analysis of TimeBank as a Resource for TimeML Parsing. In Proceedings of LREC 2006, Genoa, Italy, pp. 71-76.

Brants, T. (2000). TnT – a statistical part-of-speech tagger. In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA, pp. 224–231.

Cristea, D., Forăscu, C. (2006). Linguistic Resources and Technologies for Romanian Language. In Journal of Computer Science of Moldova, Academy of Science of Moldova, vol. 14, nr. 1(40), pp. 34-73, ISSN 1561-4042.

Forăscu, C., Solomon, D. (2004). Towards a Time Tagger for Romanian. In Proceedings of the ESSLLI Student Session, August 2004, Nancy, France.

Forăscu, C., Ion, R. (2006). TimeBank 1.2: O versiune adnotată în limba română. In C. Forăscu, D. Tufis, D. Cristea (eds.) Lucrările Atelierului Resurse lingvistice şi instrumente pentru prelucrarea limbii române, Iaşi, noiembrie 2006. Editura Universităţii Al.I. Cuza, ISBN 978-973-703-208-9.

Forăscu, C., Ion, R., Tufiş, D. (2007). Semi-automatic Annotation of the Romanian TimeBank 1.2. In Orasan, C., Kubler, S.(eds.) Proceedings of the RANLP 2007 CALP (Computer-Aided Language Processing) workshop, september 2007, Borovets, Bulgaria.

Ion, R. (2007). Metode de dezambiguizare semantică automată. Aplicaţii pentru limbile engleză şi română. Teză de doctorat susţinută la Academia Română.

Ide, N., Bonhomme, P., Romary, L. (2000). XCES: An XML-based Encoding Standard for Linguistic Corpora. In Proceedings of the Second International Language Resources and Evaluation Conference., pp. 825-830.

Mani, I., Pustejovsky, J., Gaizauskas, R. (eds.) (2005). The Language of Time: A Reader. Oxford University Press, ISBN-13: 978-0-19-926853-5, May 2005.

Pustejovsky, J., Verhagen, M., Sauri, R., Littman, J., Gaizauskas, R., Katz, G., Mani, I., Knippen, B., Setzer, A. (2006). TimeBank 1.2. Linguistic Data Consortium, Philadelphia, ISBN: 1-58563-386-0.

Tufiş, D., Ion, R., Ceauşu, A., Ştefănescu, D. (2006). Improved Lexical Alignment by Combining Multiple Reified Alignments. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL2006), Trento, Italy, 3-7 April, 2006, pp. 153-160.

Tufiş, D., Barbu, A.M. (2002). Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing. In International Journal of Speech Technology. Kluwer Academic Publishers, no.5, pp.199-209, 2002, ISSN 1381-2416.

[1] Temporal and Event Recognition for Question Answering Systems, http://www.timeml.org/site/terqas/index.html

[2]http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T08

[3] http://nl.ijs.si/ME

[4] http://www.timeml.org/site/timebank/timebank.html

 

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org