Baze de date lexicale: dicţionar morfologic, silabisitor, dicţionar de valenţe verbal

BARBU Ana-Maria, Institutul de Lingvistică „Iorgu Iordan – Al. Rosetti

 

Rezumat
Lucrarea de faţă prezintă trei baze de date lexicale pentru limba română: un dicţionar morfologic, un dicţionar de cuvinte despărţite în silabe (silabisitor) şi un dicţionar de valenţe verbale. Dicţionarul morfologic conţine toate cuvintele aparţinând părţilor de vorbire flexionare în paradigme complete şi a părţilor de vorbire neflexionare. O intrare de dicţionar (corespunzătoare unei forme flexionare) conţine, la rândul ei, informaţii despre cuvântul-titlu, caracteristicile gramaticale, clasa de flexiune şi accentul formei respective. Dicţionarul este disponibil în două variante: una în format text şi alta în format XML. Silabisitorul conţine, descrierea în format XML a formelor flexionare, din dicţionarului morfologic, despărţite în silabe.  Cea de-a treia bază de date prezentată, dicţionarul de valenţe verbale, conţine informaţii sintactice şi semantice referitoare la verb şi la argumentele sale. O intrare de dicţionar reprezintă câte un verb, căruia îi sunt asociate structurile argumentale specifice, fiecărei asemenea structuri fiindu-i subordonat unul sau mai multe sensuri. Realizarea acestor baze de date se înscrie în preocupările generale de construire a unor resurse lingvistice în format electronic pentru prelucrarea automată a limbii române.

 

1. Introducere

Subiectul propus in această prezentare se înscrie în preocupările generale de construire a unor resurse lingvistice în format electronic pentru prelucrarea automată a limbii române. Mai precis, vom prezenta rezultatele a două proiecte de cercetare finalizate: un dicţionar morfologic [1] şi un silabisitor [2] , precum şi rezultatele parţiale ale unui proiect în curs de desfăşurare: un dicţionar de valenţe verbale [3].

Lucrarea de faţă prezintă, prin urmare, două baze de date: una de paradigme flexionare ale cuvintelor (numită “dicţionar morfologic”), cealaltă de forme flexionare despărţite în silabe, (numită “dicţionar de silabe”). Fiecare bază este disponibilă în două formate Unicode, text şi XML. În dicţionarul morfologic, principala informaţie a unei intrări constă în forma flexionară, lemă şi descrierea morfologică. Dacă un cuvânt nu are forme flexionare poziţia pentru forma flexionară este ocupată de lemă. În dicţionarul de silabe, o intrare conţine o formă flexionară, despărţirea ei în silabe şi un câmp pentru observaţii. Procedurile de construire ale acestor componente ale dicţionarelor, precum şi rezultatele obţinute formează conţinutul următoarelor trei secţiuni ale prezentului articol.  În secţiunea 5 sunt descrise aspecte de reprezentare a intrărilor unui dicţionar de valenţe, şi a modul lui de construire. Articolul se încheie cu câteva concluzii şi perspective de continuare a cercetărilor.

 

2. Utilitatea unor astfel de dicţionare pentru prelucrarea automată a limbii naturale (PALN).

Un dicţionar morfologic poate fi folosit oriunde e nevoie de un lematizator [4]. A preciza la ce este bun un lematizator ar fi o pierdere de vreme, dată fiind natura sa de instrument de bază în  PALN.

Pentru limba română există mai curând preocupări de a crea analizoare morfologice decât astfel de dicţionare de dimensiuni mari.  Menţionăm în acest sens cel mai recent articol, de care avem ştiinţă, cel al lui Bârlădeanu şi Burciu (2006). O altă contribuţie este un instrument complex, numit RoLingva, care cuprinde forme flexionare, leme segmentate în silabe, informaţii de accentuare şi un analizor morfologic. RoLingva este însă un produs comercial autonom care nu poate fi folosit în aplicaţii PALN. Premisle de construire a unui dicţionar morfologic sunt prospectate şi în Ionescu (2003).

Credem că un lematizor (care analizează sau generează) are două mari dezavantaje. Pe de-o parte, el nu e adecvat unei limbi cu un bogat sistem de alternanţe fonetice şi de forme neregulate, precum româna. Pe de altă parte,  funcţionarea sa este în timp real prea lentă. Avantajul totuşi constă în capacitatea sa de a trata cuvintele necunoscute. În schimb, un dicţionar morfologic are un grad înalt de acurateţe şi funcţionează mult mai rapid. Punctul său slab îl reprezintă tocmai cuvintele noi.

În ceea ce priveşte dicţionarul de silabe, el este util în mod clar în cercetările asupra vorbirii. Pentru cercetări în domeniul segmentării silabice, a se vedea Dinu (2006).

În privinţa dicţionarului de valenţe, acesta este util în multe şi importante domenii ale  PALN, amintim doar analizele de adâncime, folosite în Traducerea Automată şi sistemele Întrebare-răspuns, analizele de suprafaţă folosite, de pildă, în Recuperarea şi Extragerea de Informaţii şi chiar în dezambiguizarea părţilor de vorbire utilizată în adnotarea la nivel de cuvânt a corpusurilor şi în recunoaşterea vorbirii. În proiectul nostru orientăm dicţionarul de valenţe în special pentru folosirea lui în Dezambiguizarea Sensurilor Cuvintelor, care este o operaţie orientată semantic şi în care legătura dintre sensuri şi structuri de valenţe este pe deplin exploatată.

 

3. Proceduri de construire

3.1. Dicţionarul morfologic: RoMorfoDict

Dicţionarul morfologic al limbii române, numit RoMorfoDict,  se bazează pe un dicţionar tipărit (DOOM 1989) care indică scrierea corectă, pronunţarea şi câteva forme flexionare ale cuvintelor româneşti. El conţine aproximativ 65000 de intrări lexicale din vocabularul limbii române contemporane şi acoperă toate părţile de vorbire. Dicţionarul cuprinde şi combinaţii de cuvinte care prezintă dificultăţi de scriere, însă aceste dificultăţi  au fost ignorate în demersul nostru. De fapt, în construirea automată a dicţionarului, am avut la dispoziţie o copie electronică a DOOM şi un inventar explicit de paradigme ale numelor şi verbelor. Paradigmele sunt explicite în sensul că am considerat a avea de a face cu două paradigme distincte dacă ele se deosebesc prin cel puţin o formă. Fiecărei paradigme îi sunt astfel specificate toate desinenţele corespunzătoare. 

O intrare din DOOM are următoarea structură de bază, în care PV înseamnă partea de vorbire, DMS - descrierea morfosintactică, iar FLEX - forma flexionară.

lemma             POS              MSD1               INF1               MSD2               INF2

                                                                                                

   abandoná         vb.,     ind. prez. 1 sg.     abandonéz,     3 sg. şi pl.    abandoneázã 

Intrarea de mai sus descrie verbul a abandona care are forma abandonez pentru indicativ prezent, persoana întâi singular şi forma abandonează pentru indicativ prezent persoana a treia singular şi plural. De observat că intrarea consemnează şi vocala accentuată chiar dacă acest lucru nu se practică în româna scrisă. 

Numărul de perechi DMS-FLEX merge de la zero (pentru cuvintele neflexibile) până la valori care depind fie de numărul de forme neregulate, fie de alegerea autorilor lingvişti.

Pentru generarea automată a formelor flexionare au fost scrise două gramatici  care să analizeze intrările verbale şi respectiv pe cele nominale (adică substantiv şi adjectiv). Pronumele a fost tratat ca o clasă închisă şi descris manual.

În scrierea gramaticilor, am întâmpinat dificultăţi cauzate de contradicţiile de descriere prezente în dicţionarul tipărit., de lipsa unor informaţii explicite, dar şi de greşeli existente în copia electronică.

După interpretarea intrării din DOOM, pasul următor a fost să se adauge restul de forme flexionare  Aceasta s-a făcut prin parcurgerea următoarelor etape:

S-a identificat paradigma care furniza desinenţele tuturor formelor specificate în DOOM. A apărut posibilitatea să se obţină mai multe paradigme care să se potrivească cu desinenţele furnizate. In această situaţie, s-a creat o listă de paradigme, iar prima paradigmă identificată a fost luată în mod convenţional în consideraţie în vederea pasului următor. Pe de altă parte, dacă nu s-a găsit nicio paradigmă, inventarul a fost îmbogăţit cu paradigma ilustrată de respectiva intrare.

S-au îndepărtat desinenţele uneia sau a mai multe forme din DOOM cu scopul de a se obţine astfel rădăcina potrivită unor moduri sau timpuri diferite.

S-au reconstruit formele flexionare rămase (reprezentate prin căsuţele goale în tabloul de mai jos) din rădăcini şi din desinenţele corespunzătoare ale paradigmei.

 

Nr.
paradigmă
Indicativ prezent
1 sg
2 sg
3 sg
1 pl
2.pl
3 pl
Terminaţiile paradigmei
-éz
-ézi
-eáză
-äm
-áţi
-eáză
Formele din DOOM
abandon-éz
abandoneáză
abandoneáză

 

Rezultatul acestor operaţiuni a fost apoi verificat de studenţii implicaţi în grupul de cercetare. Prin intermediul unui program special verificarea s-a concentrat asupra următoarelor greşeli posibile:

Ambiguitatea – când există o listă de paradigme posibile. Ambiguitatea provine din faptul că uneori DOOM nu specifică toate formele distincte. De pildă, dacă pentru două verbe cu aceeaşi conjugare, mai puţin formele de imperativ, DOOM nu specifică în fiecare caz forma de imperativ, rezultatul este o ambiguitate de paradigmă. Într-un astfel de caz, trebuia ca studenţii să dezambiguizeze paradigmele.

Accentul. Sunt cazuri când în cursul conjugării accentul unui verb oscilează de pe rădăcină pe desinenţe. Programul de reconstrucţie a formelor flexionare a omis uneori să semnaleze acest fel de oscilaţie.  În acest caz s-a urmărit manual ca fiecare formă să aibă un singur accent.

Rădăcina. Cuvintele româneşti, după cum se ştie, prezintă un bogat inventar de alternanţe fonetice. De exemplu, formele flexionare ale unui verb pot avea până la cinci rădăcini fonetic diferite. Cazurile de acest fel puteau induce erori în procesul de flexiune automată.

Interpretarea erorilor. După cum e cunoscut, descrierile din dicţionarele tipărite nu sunt suficient de explicite pentru scopurile procesării automate. Era de aceea posibil ca gramaticile care analizau intrările să producă erori de interpretare.

În acest moment, RoMorphoDict are 775.969 intrări pentru aproximativ  65.000 leme.

 

3.2. Silabisitorul: RoSyllabiDict

Construirea dicţionarului de silabe pentru cuvintele limbii române a reprezentat o continuare a dicţionarului morfologic prin aceea că formele flexionare au servit acum ca bază pentru segmentarea silabică. Am utilizat următoarele resurse:

Un program de implementare a regulilor de segmentare silabică.

Informaţia cuprinsă în DOOM privitoare la segmentarea silabică.

Un inventar al diftongilor şi triftongilor româneşti.

Punctul critic al segmentării silabice în română îl reprezintă secvenţele vocalice care pot fi pronunţate ca diftongi/triftongi sau în hiat. În multe cazuri tipul de pronunţare nu poate fi dedus din context  (a se vedea Dinu 2003). Pentru unele intrări, DOOM specifică vocalele în hiat, ca în exemplul următor: adáugă (sil. -da-u-). Uneori această informaţie e dată numai pentru lemă, alteori numai pentru o formă flexionară. Sunt multe situaţii de hiat care totuşi nu sunt specificate în DOOM. Această inconstanţă în descriere a reprezentat o sursă de erori în procesarea automată.

Este de menţionat că noi am aplicat procedura pe forme nemarcate accentual deoarece aşa erau formele furnizate de resursele noastre de segmentare silabică amintite mai sus, chiar dacă dicţionarul morfologic supus segmentării silabice conţine accentuarea formelor flexionare. Merită totuşi spus că s-ar putea obţine rezultate mai bune dacă procedurile de segmentare silabică ar putea lua în consideraţie şi informaţia de accentuare, deoarece aceasta reduce numărul de ambiguităţi de tipul diftong/triftong/hiat. De exemplu, secvenţa -ei- poate fi analizată ca  un diftong sau un hiat deşi -eí- este de fapt totdeauna un hiat. Am făcut, în continuare, unele îmbunătăţiri post prelucrare legate de accent, ca şi unele verificări parţiale.

Dicţionarul are acum 525.530 de intrări al căror format este dat în secţiunea următoare.

 

4. Formatul intrărilor

4.1. Dicţionarul morfologic.

RoMorphoDict este disponibil în format text pe trei coloane şi în format XML

 

4.1.1 Formatul cu trei coloane

Intrările pe trei coloane au structura următoare: FLEX<tab> LEM<tab> DMS, unde FLEX înseamnă formă flexionară, LEM -lemă, iar DMS -descriere morfosintactică.

Exemplul (1) conţine diferite părţi de vorbire. Unele omonime precum a abandona, trebuie explicit descrise, altele pot fi contrase pe un singur rând dacă DMS rezultată nu produce ambiguităţi sau erori de interpretare. De exemplu, ultima linie în exemplul ‘japonéze japonéz s/adj.f/f-n.pl.n-a.neart.’ stă pentru ‘japonéze japonéz s.f.pl.n-a.neart.’ şi ‘japonéze japonéz adj.f-n.pl.n-a.neart.‘.

(1)        abandoná         abandoná         v.inf.
            abandoná         abandoná         v.ind.imperf.3sg.
            abandoná         abandoná         v.imper.neg.2sg.

            únde    únde     adv/conjct.
            zup      zup       interj.
            doi       doi       num.
            oricé    oricé    pr/det.m-f-n.sg.n-a.
            sub      sub       prep.
            japonéze          japonéz            s/adj.f/f-n.pl.n-a.neart.

 

4.1.2. Formatul XML

Varianta XML a RoMorphoDict este mai informativă decât precedenta. În afară de descrierea morfosintactică (ca atribute ale elementelor entity şi form), ea furnizează informaţie despre numărul paradigmei (elementul parad), despre rădăcini (elementul rad) şi despre corespondenţele dintre rădăcini şi forme flexionare (prin intermediul atributului culoare), aşa cum se  observă din următorul exemplu.

(2)      <entity type="verb">
          <parad>a-10</parad>
          <form mod="inf" color="0">usc&#225;</form>
          <form mod="ind" timp="prez." pers="1" nr="sg." color="1">us&#250;c</form>
          …….
          <rad color="1">usuc</rad>
          <rad color="0">usc</rad>
          </entity>

 

4.2. Silabisitorul

RoSyllabiDict este în format XML. O intrare este descrisă prin intermediul elementului form . Ea oferă informaţie despre cuvântul a cărui segmentare silabică este dată (atributul w, a se vedea exemplul 3a) şi situaţia în care se aplică segmentarea respectivă (atributul obs), dacă este necesar (3b, c).

DOOM defineşte două tipuri de segmentare silabică: una preferată datorită pronunţării şi alta conformă cu structura internă a cuvântului. Cea de-a doua, denumită segmentare structurală, înseamnă despărţirea la limita afixelor pe care cuvântul le conţine, ca în (3b)

Omonimele sunt diferenţiate numai dacă ele au segmentare silabică diferită, ca în cuvântul aburi, care ca verb este segmentat a-bu-ri, iar ca nume este segmentat a-buri.

(3)        a. <form w="abandona" obs=""> a-ban-do-n&#225;</form>

            b. <form w="ignorant" obs=""> ig-no-r&#225;nt</form>
            <form w="ignorant" obs="structural syllabification"> i-gno-r&#225;nt</form>

            c. <form w="aburi" obs="v.inf./v.perf.s."> a-bu-r&#237;</form>
            <form w="aburi" obs="s."> &#225;-buri</form>

Să observăm că numai formele segmentate conţin informaţie de accent, Unicode, codificată ca vocală cu marcă diacritică  de accent, ca în (1).

 

4.3. Dicţionarul de valenţe

Dicţionarul de valenţe propune descrierea valenţelor verbelor într-o manieră care se depărtează întrucâtva de descrierile anterioare propuse în Ionescu şi Steriu (1999) şi în Drăghicescu (2002) prin principiile adoptate în stabilirea valenţelor şi a legăturilor dintre valenţe şi sensuri, precum şi prin convenţiile de reprezentare care se doresc mult mai explicite şi riguroase. 

Principiile adoptate le urmăresc în parte pe cele descrise în Şerbănescu (1994). Unele dintre ele se referă la ceea ce autoarea numeşte ‘reguli de redundanţă’ potrivit cărora nu sunt  prinse în descrierile de valenţă fenomenele regulate din limba română, cum ar fi:

posibilitatea selecţiei alternative între membrii clasei de substituţie. Ex. complementul direct poate fi infinitiv sau conjunctiv;

realizarea unei poziţii sintactice printr-o parte de propoziţie sau o propoziţie;

fenomene de dublare a comp. direct sau a comp. indirect;

fenomene de neexprimare a subiectului;

realizarea complementul direct cu prepoziţia-morfem pe;

selecţia liberă a prepoziţiilor semantice;

promovarea posesorului ca dativ posesiv;

transformările de diateză pasivă şi impersonală.

O intrare în dicţionarul nostru are structura reprezentată în exemplul (4).

(4)        a trăi  ’to live’
            Argument structures:
            1. NP[nom, +animate]
            Senses:
                         to live: Victima trăieşte. ’The victim lives’.

            2. NP[nom, +animate]
            NP[ac, +period]
            (AdvP[manner] or PP[la/cu, -])
            Senses:
                         to spend: Ion îşi trăieşte tinereţea (intens / la maxim).
                         ’John lives his youth (intensively / at maximum)’.

                         to feel intensively: Spectatorii au trăit momentul (cu entuziasm).
                         ‘The public lived the moment (enthusiastically)’.

            3. NP[nom, +animate]
            PP[pentru, +goal]
            Senses:
                         to devote his/her life: Femeia trăieşte pentru răzbunarea soţului.
                         ’The woman lives for avenging his husband’.

După cum reiese din exemplul de mai sus descrierea valenţelor precizează următoarele tipuri de informaţii referitoare la verb sau la argumentele sale.

Restricţii morfo-sintactice:
            GN[nom],
            GP[la], GP[loc]
            GV[],  GV[], GV[3sg] etc.

Restricţii pe cuvântul-titlu:
            V[îşi], V[se] –reflexive
            V[3sg] –impersonale

Restricţii semantice: animat, scop, perioadă etc.

Alternanţe libere: /

Complemente opţionale: ( )

Sensurile subordonate valenţelor

Descrierea din (4) este destinată uzului uman. Din aceasta va fi dedusă, intenţionăm prin mijloace automate, o descriere în format XML destinată aplicaţiilor PALN care va avea forma exemplificată în (5), corespunzătoare structurii argumentale 2 din exemplul (4) de mai sus.

(5)  <entry>
            <verb msr=“”>trăi</verb>
            <str-arg. nr=“2”>
                 <arg nr=“1” caz=“nom”, restr-sem=”+animat”>GN</arg>
                 <arg nr=”2” caz=“ac”, restr-sem=”+perioadă”>GN</arg>
                 <arg nr=“3”>
                        <arg nr=“3.1” tip=“mod” restr-sem=“”>GAdv</arg>
                     <arg nr=“3.2” tip=“” prep=“la, cu” restr-sem=“”>GP</arg>
                 </arg>
                 <sensGrup>
                        <sens nr.1>
                          <sin>a petrece</sin>
                          <eg> Ion îşi trăieşte tinereţea (intens / la maxim);</eg>
                   </sens>
                        <sens nr.2>
                          <par>a resimţi intens</par>
                          <eg> Spectatorii au trăit momentul (cu entuziasm)</eg>
                      </sens>
                  </sensGrup>
            </entry>    

Până în prezent s-a realizat descrierea în format text a circa 1500 de verbe, alese din lexiconul de bază al limbii române.

 

Concluzii şi perspective

Articolul prezentat aici este destinat să umple un gol în câmpul resurselor electronice pentru limba română. Resursele vor fi făcute disponibile pe web, cel mai probabil pe site-ul Institutului de Lingvistică.

Dicţionarele vor fi suplimentate cu intrări noi , corespunzătoare recentei ediţii DOOM (2005). Nu intenţionăm să introducem cuvinte noi din corpusuri, deoarece nu toate cuvintele din corpusuri rămân în vocabular, iar noi intenţionăm să păstrăm dicţionarele cât se poate de aproape de norma literară. Cuvintele din corpusuri pot fi înregistrate separat în dicţionare speciale. 

În privinţa dicţionarului de valenţe, a doua etapă principală este transpunerea din format text în format XML a valenţelor verbale descrise în dicţionar.

 

Referinţe

Bîrlădeanu, A.,  N, Burciu, 2006, Crearea unui generator morfologic pentru verbele din limba română in C. Forescu, D. Tufis, D. Cristea (eds.) “Lucrarile atelierului Resurse Lingvistice si Instrumente pentru Prelucrarea Limbii Romane Iasi –noiembrie 2006, Editura Universitatii “Al. Ioan Cuza”, Iaşi, p. 119-122.

DOOM – Dicţionarul ortografic, ortoepic şi morfologic al limbii române, Ed. Academiei, 1989.

Dinu, L. P. 2003. An approach to syllables via some extensions of Marcus-contextual grammars. Grammars 6(1), , 2003, pp 1-12

Dinu, L.P., 2006. On the quantitative and formal aspects of the Romanian syllables, Revue Roumaine de Linguistique, LI (3-4), 2006, p. 477-498.

Drăghicescu, J. (coord.), 2002. Dicţionar de Construcţii Verbale Român-Francez-Italian-Englez, Editura Universitaria, Craiova.

Ionescu, E., 2003 Premiseale unui dicţionar morfologic electronic al limbii române  în Florentina Hristea şi Marius Popescu (eds.) “Building Awarness in Language Technology”, Editura Universităţii din Bucureşti, 2003, p. 461-468.

Ionescu, A., M. Steriu. 1999. Verbul Românesc. Dicţionar Sintactic, Editura Universităţii din Bucureşti.

Şerbănescu, A., 1994, Pentru un dicţionar sintactic al verbelor româneşti, în SCL, XLV, nr. 3-4, Bucureşti, p. 133-150.

 

[1]Proiect finanţat de CNCSIS prin grantul nr. 33549/18A/2002.

[2] Proiect “Silabisitor”, finanţat de Institutul Limbii Române prin contractul nr.8 / 2005.

[3] Proiect finanţat de CNCSIS prin grantul nr.1156/2005

[4] Lematizor este un instrument software care face corespomdenţa dintre lema unui cuvânt (i.e. cuvântul său titlu)  şi o formă flexionară a acestuia. întâlnită în text.

 

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org