![]() |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Introducere Subiectul propus in această prezentare se înscrie în preocupările generale de construire a unor resurse lingvistice în format electronic pentru prelucrarea automată a limbii române. Mai precis, vom prezenta rezultatele a două proiecte de cercetare finalizate: un dicţionar morfologic [1] şi un silabisitor [2] , precum şi rezultatele parţiale ale unui proiect în curs de desfăşurare: un dicţionar de valenţe verbale [3]. Lucrarea de faţă prezintă, prin urmare, două baze de date: una de paradigme flexionare ale cuvintelor (numită “dicţionar morfologic”), cealaltă de forme flexionare despărţite în silabe, (numită “dicţionar de silabe”). Fiecare bază este disponibilă în două formate Unicode, text şi XML. În dicţionarul morfologic, principala informaţie a unei intrări constă în forma flexionară, lemă şi descrierea morfologică. Dacă un cuvânt nu are forme flexionare poziţia pentru forma flexionară este ocupată de lemă. În dicţionarul de silabe, o intrare conţine o formă flexionară, despărţirea ei în silabe şi un câmp pentru observaţii. Procedurile de construire ale acestor componente ale dicţionarelor, precum şi rezultatele obţinute formează conţinutul următoarelor trei secţiuni ale prezentului articol. În secţiunea 5 sunt descrise aspecte de reprezentare a intrărilor unui dicţionar de valenţe, şi a modul lui de construire. Articolul se încheie cu câteva concluzii şi perspective de continuare a cercetărilor.
2. Utilitatea unor astfel de dicţionare pentru prelucrarea automată a limbii naturale (PALN). Un dicţionar morfologic poate fi folosit oriunde e nevoie de un lematizator [4]. A preciza la ce este bun un lematizator ar fi o pierdere de vreme, dată fiind natura sa de instrument de bază în PALN. Pentru limba română există mai curând preocupări de a crea analizoare morfologice decât astfel de dicţionare de dimensiuni mari. Menţionăm în acest sens cel mai recent articol, de care avem ştiinţă, cel al lui Bârlădeanu şi Burciu (2006). O altă contribuţie este un instrument complex, numit RoLingva, care cuprinde forme flexionare, leme segmentate în silabe, informaţii de accentuare şi un analizor morfologic. RoLingva este însă un produs comercial autonom care nu poate fi folosit în aplicaţii PALN. Premisle de construire a unui dicţionar morfologic sunt prospectate şi în Ionescu (2003). Credem că un lematizor (care analizează sau generează) are două mari dezavantaje. Pe de-o parte, el nu e adecvat unei limbi cu un bogat sistem de alternanţe fonetice şi de forme neregulate, precum româna. Pe de altă parte, funcţionarea sa este în timp real prea lentă. Avantajul totuşi constă în capacitatea sa de a trata cuvintele necunoscute. În schimb, un dicţionar morfologic are un grad înalt de acurateţe şi funcţionează mult mai rapid. Punctul său slab îl reprezintă tocmai cuvintele noi. În ceea ce priveşte dicţionarul de silabe, el este util în mod clar în cercetările asupra vorbirii. Pentru cercetări în domeniul segmentării silabice, a se vedea Dinu (2006). În privinţa dicţionarului de valenţe, acesta este util în multe şi importante domenii ale PALN, amintim doar analizele de adâncime, folosite în Traducerea Automată şi sistemele Întrebare-răspuns, analizele de suprafaţă folosite, de pildă, în Recuperarea şi Extragerea de Informaţii şi chiar în dezambiguizarea părţilor de vorbire utilizată în adnotarea la nivel de cuvânt a corpusurilor şi în recunoaşterea vorbirii. În proiectul nostru orientăm dicţionarul de valenţe în special pentru folosirea lui în Dezambiguizarea Sensurilor Cuvintelor, care este o operaţie orientată semantic şi în care legătura dintre sensuri şi structuri de valenţe este pe deplin exploatată.
3. Proceduri de construire 3.1. Dicţionarul morfologic: RoMorfoDict Dicţionarul morfologic al limbii române, numit RoMorfoDict, se bazează pe un dicţionar tipărit (DOOM 1989) care indică scrierea corectă, pronunţarea şi câteva forme flexionare ale cuvintelor româneşti. El conţine aproximativ 65000 de intrări lexicale din vocabularul limbii române contemporane şi acoperă toate părţile de vorbire. Dicţionarul cuprinde şi combinaţii de cuvinte care prezintă dificultăţi de scriere, însă aceste dificultăţi au fost ignorate în demersul nostru. De fapt, în construirea automată a dicţionarului, am avut la dispoziţie o copie electronică a DOOM şi un inventar explicit de paradigme ale numelor şi verbelor. Paradigmele sunt explicite în sensul că am considerat a avea de a face cu două paradigme distincte dacă ele se deosebesc prin cel puţin o formă. Fiecărei paradigme îi sunt astfel specificate toate desinenţele corespunzătoare. O intrare din DOOM are următoarea structură de bază, în care PV înseamnă partea de vorbire, DMS - descrierea morfosintactică, iar FLEX - forma flexionară. lemma POS MSD1 INF1 MSD2 INF2 abandoná vb., ind. prez. 1 sg. abandonéz, 3 sg. şi pl. abandoneázã Intrarea de mai sus descrie verbul a abandona care are forma abandonez pentru indicativ prezent, persoana întâi singular şi forma abandonează pentru indicativ prezent persoana a treia singular şi plural. De observat că intrarea consemnează şi vocala accentuată chiar dacă acest lucru nu se practică în româna scrisă. Numărul de perechi DMS-FLEX merge de la zero (pentru cuvintele neflexibile) până la valori care depind fie de numărul de forme neregulate, fie de alegerea autorilor lingvişti. Pentru generarea automată a formelor flexionare au fost scrise două gramatici care să analizeze intrările verbale şi respectiv pe cele nominale (adică substantiv şi adjectiv). Pronumele a fost tratat ca o clasă închisă şi descris manual. În scrierea gramaticilor, am întâmpinat dificultăţi cauzate de contradicţiile de descriere prezente în dicţionarul tipărit., de lipsa unor informaţii explicite, dar şi de greşeli existente în copia electronică. După interpretarea intrării din DOOM, pasul următor a fost să se adauge restul de forme flexionare Aceasta s-a făcut prin parcurgerea următoarelor etape:
Rezultatul acestor operaţiuni a fost apoi verificat de studenţii implicaţi în grupul de cercetare. Prin intermediul unui program special verificarea s-a concentrat asupra următoarelor greşeli posibile:
În acest moment, RoMorphoDict are 775.969 intrări pentru aproximativ 65.000 leme.
3.2. Silabisitorul: RoSyllabiDict Construirea dicţionarului de silabe pentru cuvintele limbii române a reprezentat o continuare a dicţionarului morfologic prin aceea că formele flexionare au servit acum ca bază pentru segmentarea silabică. Am utilizat următoarele resurse:
Punctul critic al segmentării silabice în română îl reprezintă secvenţele vocalice care pot fi pronunţate ca diftongi/triftongi sau în hiat. În multe cazuri tipul de pronunţare nu poate fi dedus din context (a se vedea Dinu 2003). Pentru unele intrări, DOOM specifică vocalele în hiat, ca în exemplul următor: adáugă (sil. -da-u-). Uneori această informaţie e dată numai pentru lemă, alteori numai pentru o formă flexionară. Sunt multe situaţii de hiat care totuşi nu sunt specificate în DOOM. Această inconstanţă în descriere a reprezentat o sursă de erori în procesarea automată. Este de menţionat că noi am aplicat procedura pe forme nemarcate accentual deoarece aşa erau formele furnizate de resursele noastre de segmentare silabică amintite mai sus, chiar dacă dicţionarul morfologic supus segmentării silabice conţine accentuarea formelor flexionare. Merită totuşi spus că s-ar putea obţine rezultate mai bune dacă procedurile de segmentare silabică ar putea lua în consideraţie şi informaţia de accentuare, deoarece aceasta reduce numărul de ambiguităţi de tipul diftong/triftong/hiat. De exemplu, secvenţa -ei- poate fi analizată ca un diftong sau un hiat deşi -eí- este de fapt totdeauna un hiat. Am făcut, în continuare, unele îmbunătăţiri post prelucrare legate de accent, ca şi unele verificări parţiale. Dicţionarul are acum 525.530 de intrări al căror format este dat în secţiunea următoare.
4. Formatul intrărilor 4.1. Dicţionarul morfologic. RoMorphoDict este disponibil în format text pe trei coloane şi în format XML
Intrările pe trei coloane au structura următoare: FLEX<tab> LEM<tab> DMS, unde FLEX înseamnă formă flexionară, LEM -lemă, iar DMS -descriere morfosintactică. Exemplul (1) conţine diferite părţi de vorbire. Unele omonime precum a abandona, trebuie explicit descrise, altele pot fi contrase pe un singur rând dacă DMS rezultată nu produce ambiguităţi sau erori de interpretare. De exemplu, ultima linie în exemplul ‘japonéze japonéz s/adj.f/f-n.pl.n-a.neart.’ stă pentru ‘japonéze japonéz s.f.pl.n-a.neart.’ şi ‘japonéze japonéz adj.f-n.pl.n-a.neart.‘. (1) abandoná abandoná v.inf. únde únde adv/conjct.
Varianta XML a RoMorphoDict este mai informativă decât precedenta. În afară de descrierea morfosintactică (ca atribute ale elementelor entity şi form), ea furnizează informaţie despre numărul paradigmei (elementul parad), despre rădăcini (elementul rad) şi despre corespondenţele dintre rădăcini şi forme flexionare (prin intermediul atributului culoare), aşa cum se observă din următorul exemplu. (2) <entity type="verb">
4.2. Silabisitorul RoSyllabiDict este în format XML. O intrare este descrisă prin intermediul elementului form . Ea oferă informaţie despre cuvântul a cărui segmentare silabică este dată (atributul w, a se vedea exemplul 3a) şi situaţia în care se aplică segmentarea respectivă (atributul obs), dacă este necesar (3b, c). DOOM defineşte două tipuri de segmentare silabică: una preferată datorită pronunţării şi alta conformă cu structura internă a cuvântului. Cea de-a doua, denumită segmentare structurală, înseamnă despărţirea la limita afixelor pe care cuvântul le conţine, ca în (3b) Omonimele sunt diferenţiate numai dacă ele au segmentare silabică diferită, ca în cuvântul aburi, care ca verb este segmentat a-bu-ri, iar ca nume este segmentat a-buri. (3) a. <form w="abandona" obs=""> a-ban-do-ná</form> Să observăm că numai formele segmentate conţin informaţie de accent, Unicode, codificată ca vocală cu marcă diacritică de accent, ca în (1).
4.3. Dicţionarul de valenţe Dicţionarul de valenţe propune descrierea valenţelor verbelor într-o manieră care se depărtează întrucâtva de descrierile anterioare propuse în Ionescu şi Steriu (1999) şi în Drăghicescu (2002) prin principiile adoptate în stabilirea valenţelor şi a legăturilor dintre valenţe şi sensuri, precum şi prin convenţiile de reprezentare care se doresc mult mai explicite şi riguroase. Principiile adoptate le urmăresc în parte pe cele descrise în Şerbănescu (1994). Unele dintre ele se referă la ceea ce autoarea numeşte ‘reguli de redundanţă’ potrivit cărora nu sunt prinse în descrierile de valenţă fenomenele regulate din limba română, cum ar fi:
O intrare în dicţionarul nostru are structura reprezentată în exemplul (4). (4) a trăi ’to live’ 2. NP[nom, +animate] 3. NP[nom, +animate] După cum reiese din exemplul de mai sus descrierea valenţelor precizează următoarele tipuri de informaţii referitoare la verb sau la argumentele sale.
Descrierea din (4) este destinată uzului uman. Din aceasta va fi dedusă, intenţionăm prin mijloace automate, o descriere în format XML destinată aplicaţiilor PALN care va avea forma exemplificată în (5), corespunzătoare structurii argumentale 2 din exemplul (4) de mai sus. (5) <entry> Până în prezent s-a realizat descrierea în format text a circa 1500 de verbe, alese din lexiconul de bază al limbii române.
Concluzii şi perspective Articolul prezentat aici este destinat să umple un gol în câmpul resurselor electronice pentru limba română. Resursele vor fi făcute disponibile pe web, cel mai probabil pe site-ul Institutului de Lingvistică. Dicţionarele vor fi suplimentate cu intrări noi , corespunzătoare recentei ediţii DOOM (2005). Nu intenţionăm să introducem cuvinte noi din corpusuri, deoarece nu toate cuvintele din corpusuri rămân în vocabular, iar noi intenţionăm să păstrăm dicţionarele cât se poate de aproape de norma literară. Cuvintele din corpusuri pot fi înregistrate separat în dicţionare speciale. În privinţa dicţionarului de valenţe, a doua etapă principală este transpunerea din format text în format XML a valenţelor verbale descrise în dicţionar.
Referinţe Bîrlădeanu, A., N, Burciu, 2006, Crearea unui generator morfologic pentru verbele din limba română in C. Forescu, D. Tufis, D. Cristea (eds.) “Lucrarile atelierului Resurse Lingvistice si Instrumente pentru Prelucrarea Limbii Romane Iasi –noiembrie 2006, Editura Universitatii “Al. Ioan Cuza”, Iaşi, p. 119-122. DOOM – Dicţionarul ortografic, ortoepic şi morfologic al limbii române, Ed. Academiei, 1989. Dinu, L. P. 2003. An approach to syllables via some extensions of Marcus-contextual grammars. Grammars 6(1), , 2003, pp 1-12 Dinu, L.P., 2006. On the quantitative and formal aspects of the Romanian syllables, Revue Roumaine de Linguistique, LI (3-4), 2006, p. 477-498. Drăghicescu, J. (coord.), 2002. Dicţionar de Construcţii Verbale Român-Francez-Italian-Englez, Editura Universitaria, Craiova. Ionescu, E., 2003 Premiseale unui dicţionar morfologic electronic al limbii române în Florentina Hristea şi Marius Popescu (eds.) “Building Awarness in Language Technology”, Editura Universităţii din Bucureşti, 2003, p. 461-468. Ionescu, A., M. Steriu. 1999. Verbul Românesc. Dicţionar Sintactic, Editura Universităţii din Bucureşti. Şerbănescu, A., 1994, Pentru un dicţionar sintactic al verbelor româneşti, în SCL, XLV, nr. 3-4, Bucureşti, p. 133-150.
Proiect finanţat de CNCSIS prin grantul nr. 33549/18A/2002. Proiect “Silabisitor”, finanţat de Institutul Limbii Române prin contractul nr.8 / 2005. Proiect finanţat de CNCSIS prin grantul nr.1156/2005 Lematizor este un instrument software care face corespomdenţa dintre lema unui cuvânt (i.e. cuvântul său titlu) şi o formă flexionară a acestuia. întâlnită în text.
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |