Metode de analiză lingvistică a textelor în limba română pentru extragerea terminologică. Instrumente şi resurse

PEEV Luciana , CS I, SC Software ITC, Cluj
ŞERBAN Felicia, CS I, Institutul de Lingvistică şi Istorie Literară „Sextil Puşcariu”

 

Rezumat
Lucrarea prezintă aspecte legate de instrumentele, resursele lingvistice şi metodologii de analiză existente în sistemul TEZAROM care pot fi folosite cu succes în aplicaţii lingvistice (dicţionar morfologic, analizor morfologic, analizor fonologic, extractor de posibili termeni). 

resurse lexicale: lexicon de cunoştinţe lingvistice (morfologice, fonologice şi sintagmatice) cu posibilitatea de a alege un standard internaţional şi alinierea la acesta cu ajutorul generatoarelor;

lexicon specializat cu atribute sintagmatice;

metode pentru extragerea posibililor termeni;

Metodele care sunt prezentate unifică cercetările din domeniul limbajului natural cu cele din domeniul terminologiei şi terminografiei, oferind terminologilor unelte pentru a le uşura munca în domeniu.  

 

Lucrarea de faţă îşi propune să prezinte aspecte tehnice legate de resursele lingvistice şi metodologia de analiză a textelor utilizată în realizarea unor aplicaţii cu specific lingvistic de către grupul RoLingva de la Software ITC Cluj. Orice aplicaţie care are ca scop realizarea unei analize asupra unui text scris în limba română se bazează pe resurse lingvistice şi metode. Realizarea resurselor lingvistice necesită o muncă laborioasă prin care se modelează şi se formalizează diferite capitole ale gramaticii limbii române, fiind astfel create sisteme informatice complexe care pun la dispoziţia dezvoltatorului de soft instrumente puternice ce  conţin baze lingvistice cu atribute gramaticale, precum şi metode de analiză.

Sistemul informatic TEZAROM se compune dintr-o bază lingvistică de cunoştinţe complexă, metode de analiză morfologică, fonologică, sintagmatică şi generatoare care asigură maleabilitatea sistemului şi puterea de modelare a elementelor lingvistice în conformitate cu cerinţele aplicaţiilor proiectate sau cu standardele altor resurse lingvistice. Caracteristica de maleabilitate a sistemului TEZAROM ţine seama de apariţia pe plan internaţional a unor  noi standarde în domeniul tehnologiilor limbajului uman, de necesitatea interschimbului de informaţii între diverse sisteme lingvistice şi de alinierea cu uşurinţă la noi proiecte fără a pierde informaţia existentă, în favoarea acestora.

Sistemul informatic TEZAROM poate fi reprezentat astfel:

 
Figura 1

 

1. Resurse lingvistice şi metode de analiză

1.1. Trăsături ale tezaurului de cunoştinţe lingvistice

Studiile teoretice realizate de grupul RoLingva asupra morfologiei şi fonologiei au creat premisele elaborării tehnologiei lingvistice pentru limba română. Astfel, a fost realizat primul model formalizat al morfologiei şi fonologiei cu reguli şi metode care pot acoperi în totalitate sistemul flexionar al limbii române. Modelul, în afară de informaţiile referitoare la elementele morfologice, ortografice şi fonologice, păstrează informaţii incipiente despre atribute sintactice (de exemplu la verb informaţii despre tranzitivitate şi reflexivitate). Modelul morfologic respectă regulile gramaticale academice, ceea ce permite extinderea cu uşurinţă spre celelalte capitole ale gramaticii, reflectând faptul că diferitele capitole ale gramaticii se leagă între ele, existând o ierarhie a informaţiei. Modelul fonologic, de asemenea, respectă regulile larg acceptate şi se bazează pe un set de reguli şi algoritmi de determinare a acestora, iar în cazul analizei la nivel de text utilizează şi informaţiile morfologice caracteristice unui cuvânt, în vederea determinării corecte a părţii de vorbire (diferite părţi de vorbire, deşi sunt omonime, pot prezenta omografii). Desigur, determinarea corectă a părţii de vorbire se poate face cu condiţia ca analiza morfologică să fie urmată de o dezambiguizare a textului şi de o analiză, dacă nu sintactică, cel puţin sintagmatică. acest lucru poate sublinia necesitatea abordării analizei sintactice, respectiv sintagmatice.   

Sistemul TEZAROM a fost conceput ca un sistem deschis pentru a putea acoperi cu uşurinţă şi alte domenii ale gramaticii limbii române. Acesta permite îmbogăţirea bazei lexicale cu  atribute noi, care se pot lega cu uşurinţă de cele existente, având în vedere faptul că au fost respectate regulile în vigoare ale gramaticii şi permite, de asemenea, dezvoltarea metodelor cu reguli şi algoritmi noi, corespunzătoare noului capitol formalizat al gramaticii.

Modelele create au ţinut seama de faptul că limba română este o limbă care flexionează puternic şi permite realizarea de numeroase cuvinte noi prin sufixare şi prefixare, cuvinte, care la rândul lor, pot avea propria flexiune. Numărul formelor flexionate este mare şi practic, se poate pierde controlul asupra acestora, dacă se va face un simplu inventar a tuturor formelor însoţite de indicarea părţii de vorbire şi a categoriei gramaticale reprezentative pentru cuvânt. Din acest motiv, în tezaurul de cunoştinţe lingvistice s-a preferat obţinerea acestor forme, prin metode procedurale, pe bază de reguli, plecând de la o rădăcină condensată, liste de sufixe şi prefixe, şi o clasă flexionară părinte, care pot descrie în totalitate o intrare lexicală. Combinaţiile care se pot realiza astfel sunt foarte numeroase şi pot acoperi un lexic foarte bogat. Numărul de cuvinte care pot fi derivate din baza de cunoştinţe lingvistice este foarte mare, dacă descrierea la nivel de intrare lexicală este bine realizată. (prin derivare se obţin toate formele flexionare, prefixate sau sufixate). Capitolul dedicat formării cuvintelor din tezaurul de cunoştinţe lingvistice este la început, dar studii pentru realizarea unei tehnologii în acest sens au fost realizate şi în viitor se vor putea aplica. Efortul pentru îmbogăţirea inventarului lexical este mare în această manieră, dar mai redus decât cel al introducerii tuturor formelor flexionate, prefixate şi sufixate, cuvinte care de obicei nu se găsesc în dicţionare obişnuite. Pe baza cunoştinţelor lingvistice existente, pentru proiectul SIASTRO –  Sistem informatic pentru analiza sintagmatică a textelor în limba română. Fundamentare teoretică şi implementare s-a generat un lexicon destinat îmbogăţirii tezaurului cu atribute sintactice necesare analizei sintagmatice la nivel de sintagmă.

 

1.2. Model morfologic

Modelul morfologic este aplicat pe o bază lexicală de cunoştinţe din sistemul TEZAROM şi acoperă în întregime morfologia limbii române. Fiecare intrare din baza lexicală corespunde unui cuvânt-titlu pentru care au fost introduse atributele morfologice care-l caracterizează. Pentru verificare regulilor care folosesc aceste atribute s-au proiectat metode care pot realiza analiza morfologică a unei forme flexionare sau sinteza pentru un cuvânt-titlu (paradigma cuvântului). Descrierea şi codificarea atributelor ţine seama de  comportamentul rădăcinii şi a terminaţiilor în timpul flexiunii, având în vedere faptul că limba română este o limbă care flexionează puternic. Atributele utilizate de modelul morfologic sunt de două tipuri: statice şi dinamice. Atributele statice descriu o anumită caracteristică a cuvântului-titlu care nu se schimbă şi sunt valabile pentru toate părţile de vorbire. Din această categorie fac parte numele părţii de vorbire, genul la substantive, conjugarea la verbe etc. Atributele dinamice sunt specifice numai cuvintelor care flexionează şi sunt reprezentate prin clase flexionare. Se numesc dinamice pentru ca la un moment dat pot primi o valoare ce corespunde pentru o anumită categorie gramaticală (mod, timp, persoană, număr – la verb – şi caz, număr, determinare – la nominale). Astfel, există clase care definesc variaţiile rădăcinii, poziţia accentului şi clase care definesc terminaţiile în timpul flexiunii.

Pentru a obţine la un moment dat o anumită formă flexionară, asupra claselor se aplică reguli care prin derivare determină structura unei anumite forme flexionare. Un cuvânt-titlu este reprezentat printr-o rădăcină şi o clasă flexionară. Rădăcina, la rândul ei, poate reprezenta variaţii, fie din cauza alternanţelor fonetice, fie din cauza temelor multiple.

O rădăcină care prezintă variaţii se numeşte rădăcină părinte, iar clasa corespunzătoare se numeşte clasa părinte şi se reprezintă astfel:

               Radpărinte = r1@a@vr2    →  rad1, rad2... radn    
unde:       @a = clasă accent
               @v = clasă variaţie rădăcină
               Clasapărinte = Cp   →  clasa1, clasa2... clasan        

Derivarea rădăcinii Radpărinte şi clasei părinte Clasapărinte determină mulţimea de rădăcini reale împreună cu clasele lor flexionare.

Modelul morfologic definit are două metode care pot fi utilizate în diverse aplicaţii lingvistice, şi anume: 1) metodă de analiză morfologică şi 2) sinteză – generarea paradigmei.

Schematic, modelul morfologic se reprezintă astfel:

 
Figura 2

 

1.3. Model de silabisire

            Formalizarea silabaţiei a sistematizat regulile conform normelor şi a ţinut seama de faptul că analiza morfologică utilizează dicţionare de fragmente de cuvinte (prefixe, rădăcini, sufixe, flective), iar între aceste fragmente pot apărea tăieturi silabice. Din acest motiv s‑au definit o serie de reguli de silabisire la joncţiunea dintre fragmente. Regulile au fost definite astfel, încât şi excepţiile au putut fi modelate. Rezultatul este o silabisire 100% corectă. Desigur, se pot aplica şi algoritmi de silabisire, dar rezultatul lor nu este întotdeauna corect. Din acest motiv considerăm că modelul pentru silabisire pe care l‑am creat este superior. Sistemul de silabisire creat în TEZAROM se aplică atât silabaţiei fonetice, cât şi celei morfologice. Modelul de silabaţie realizat în TEZAROM a arătat că la concatenarea a două fragmente există două puncte critice unde pot sau nu apărea tăieturi silabice. Aceste puncte sunt în interiorul fragmentului din stânga şi/sau la joncţiunea dintre fragmente.

...+@si0frag@si1menti@si2+@sj0frag@sj1mentj@sj2+...

Interacţiunea codului din stânga fragmentului din dreapta sj0 determină apariţia tăieturii silabice în una sau în ambele poziţiile notate cu si1 şi si2.

 

1.4. Model fonologic

La realizarea modelului „fonetic” s-a ţinut seama de fonologia limbii române standard şi de interacţiunea fonologiei cu morfologia şi silabaţia. Modelul fonologic realizat urmăreşte atingerea a două obiective:

transcrierea fonetică a unui text scris în limba română în alfabetul internaţional IPA (The International Phonetic Alphabet);

transformarea textului transcris fonetic în şiruri de sunete reprezentate prin foneme sau difoneme, preluate dintr-o bază vocalică, împreună cu parametri prozodici, cu scopul obţinerii formei sonore a textului din limba română.  

Fonetica limbii române se bazează pe reguli foarte precise şi din acest motiv nu este necesară dezvoltarea unui dicţionar fonologic special, cum se întâmplă în limba engleză. Cuvintele care nu respectă regulile fonetice sunt în număr mic şi dintre acestea amintim: cuvintele care au în componenţă grafeme care prezintă o ambiguitate în recunoaşterea situaţiei fonetice, cuvintele străine intrate în limbă şi încă neacomodate, deosebiri de pronunţare între cuvintele din fondul vechi şi cuvintele neologice. Pentru acestea este necesară, înainte de transcrierea fonetică efectivă, o conversie grafem – grafem, prin care se realizează dezambiguizarea interpretării fonetice (de exemplu cuvinte care conţin litera x). Conversia grafem-grafem se poate face pe baza unei echivalenţe păstrate în baza lexicală de cunoştinţe.

Modelul fonologic a beneficiat de existenţa modelului morfologic, a informaţiilor de accentuare şi a modelului de silabaţie fonetică. Astfel, modelul morfologic poate transmite informaţii legate de categoria gramaticală şi poziţia accentului pentru un cuvânt analizat, iar modelul de silabaţie poate contribui la determinarea diftongilor, triftongilor şi a hiaturilor, procedeu necesar în determinarea vocalelor şi a semivocalelor. Cu aceste informaţii, modelul fonologic poate aplica regulile fonologice şi obţine transcrierea corectă pentru orice cuvânt.

Schematic, modelul fonologic se prezintă astfel:


Figura 3

 

1.5. Model sintagmatic – resurse lingvistice: LEXICON

Resursele lingvistice cuprinse în LEXICON sunt preluate din TEZAROM şi urmează să fie îmbogăţite cu atribute sintactice. La preluarea bazei lingvistice şi proiectarea atributelor sintactice s-a ţinut seama de existenţa unor standarde pe plan internaţional şi de posibilitatea trecerii de la un standard la altul fără a fi nevoie de prelucrări majore ulterioare. La crearea Lexiconului din baza de cunoştinţe lingvistice existente în TEZAROM s-a ţinut seama, în principal, de  standardul OLIF, care este un standard deschis conceput în anii ’90 ca un mijloc de a asigura interschimbul de informaţii între aplicaţiile NLP (Natural Language Proccesing).  Popularea bazei de date lexico-gramaticale s-a realizat prin intermediul unui extractor de resurse lingvistice care a preluat şi a prelucrat informaţia necesară din TEZAROM,  convertind-o în atribute lexicale, morfologice şi fonologice, conform specificaţiilor de definiţie a noii baze de date. În paralel s-a realizat un produs informatic prin care utilizatorii pot să verifice atributele morfologice şi fonologice şi să completeze noile atribute sintagmatice. Este un produs intermediar care permite, pe măsura completării datelor, şi realizarea de note şi observaţii la nivel de cuvânt-titlu. Concepţia sistemului permite utilizarea lui individuală, paralelă de către mai mulţi utilizatori, în aşa fel, încât toate informaţiile cu care s-a îmbogăţit sistemul pe platformele individuale să fie reunificate în sistemul ţintă unic. Caracteristicile administrative individuale sunt şi ele păstrate, astfel în baza de date finală se va putea recunoaşte – pentru fiecare intrare în parte – autorul original al informaţiei de specialitate. Atributele introduse vor putea fi preluate în sistemul informatic TEZAROM prin intermediul unui convertor de atribute, astfel baza de cunoştinţe din sistem se va îmbogăţi cu noile informaţii. Pentru alinierea resurselor lingvistice la noi standarde, sistemul va fi îmbogăţit cu generatoare de resurse lingvistice. De asemenea, pentru realizarea de noi aplicaţii lingvistice, în funcţie de complexitatea acestora, se vor crea noi generatoare de date.

Schema de dezvoltare a stemul informatic TEZAROM  arată astfel:

 
Figura 4

 

Avantajul sistemului constă în faptul că baza de cunoştinţe lingvistice este deschisă şi poate fi îmbogăţită cu uşurinţă oricând cu noi atribute definite clar, la acest nivel neexistând restricţii de memorie şi de timp, în schimb, aceasta nu va participa niciodată direct într-o  aplicaţie lingvistică. Proiectarea aplicaţiilor lingvistice vor apela la generatoarele de date şi vor primi baze de date particularizate conform cu cerinţele lor. Nicio aplicaţie, indiferent cât de complexă este, nu are nevoie de toată informaţia înmagazinată în TEZAROM.

 

2. Aplicaţii realizate pe baza resurselor şi metodelor lexicale existente în TEZAROM

Modele gramaticale formalizate până în prezent, exceptând modelul sintagmatic care este în curs de realizare, au fost utilizate cu succes într-o serie de aplicaţii lingvistice cu caracter educaţional sau experimental. Mai jos prezentăm o parte din aplicaţiile realizate care există şi sunt funcţionale.

 

2.1. DMR – Dicţionar morfologic al limbii române

Dicţionarul morfologic al limbii române este prima aplicaţie bazată pe tehnologia realizată şi constituie prima formă informatizată a unui dicţionar fundamental al limbii române, oferind informaţii morfologice complete. Baza lexicală a dicţionarului conţine inventarul de cuvinte cuprins în Dicţionarului explicativ al limbii române (DEX), ediţia II-a,  îmbogăţit cu cuvinte din Dicţionarul de neologisme şi DOOM, precum şi cuvinte uzuale de largă circulaţie în limba română literară actuală, dar absente din dicţionarele consultate.

Sistemul realizat poate răspunde corect la toate problemele legate de flexiunea cuvintelor (declinare, conjugare) accentuare, silabisire – atât morfologică cât şi fonetică – şi, de asemenea, poate da informaţii prin intermediul analizorului morfologic despre toate categoriile gramaticale ce corespund unei forme flexionate. În ceea ce priveşte flexiunea cuvintelor, s-a respectat norma pentru limba română stabilită de Academia Română prin lucrările de specialitate oferite de aceasta. 

Produsul DMR este pe suport CD şi este destinat în primul rând celor care învaţă limba română, la diferite niveluri, dar şi celor care studiază aspecte morfologice ale stadiului ei actual. Este foarte uşor de utilizat, iar mediul de lucru, prin aspectul său, sugerează utilizatorului ce trebuie să facă pentru a obţine informaţia dorită.

Forma de prezentare a paradigmei este variată, în funcţie de interesul utilizatorului, şi este comandată prin intermediul unor butoane. Indiferent de afişare, se vizualizează întotdeauna accentul prin sublinierea vocalei tonice. În figura de mai jos este prezentat modul de vizualizare a unei declinări.


Figura 5

 

Sistemul este dotat şi cu un analizor morfologic la nivel de cuvânt. Această facilitate vine în întâmpinarea celor care învaţă limba română, şi nu numai, oferindu-le posibilitatea recunoaşterii formei de dicţionar a cuvântului. Figura 6 prezintă un exemplu.


Figura 6

 

2.2. Analizor morfologic

          Altă aplicaţie practică este cea a unui analizor morfologic experimental care poate analiza texte în format RTF şi pune în evidenţă paşii parcurşi,  rezultatele fiind vizualizate într-un format hipertext. Realizarea analizei se face în doi paşi, şi anume: procesarea textului care transformă textul în elemente recunoscute de calculator şi analiza propriu-zisă. La procesare este posibil ca unele elemente necunoscute să dispară, iar altele să se transforme în şiruri de cuvinte recunoscute de calculator. Fluxul de date poate fi reprezentat astfel:

 
Figura 7

 

Procesarea textului identifică cuvintele din textul de intrare şi semnele de punctuaţie,   transformând abrevierile, numerele şi semnele matematice în cuvinte pentru ca textul să poată fi analizat din punct de vedere lexico-morfologic. Fluxul de ieşire în urma procesării este un text etichetat. Analiza lexico-morfologică preia acest text şi-l prelucrează din punct de vedere morfologic, rezultând un nou text etichetat cu informaţii morfologice. Avantajul utilizării rezultatelor intermediare în format hipertext este acela al vizualizării datelor intermediare şi depistarea analizelor eronate înainte de a se trece la proiectarea aplicaţilor comerciale. Prezentăm mai jos un exemplu de analiză morfologică aplicată unui text.


Figura 8

 

În fereastra de jos sunt date rezultatele analizei morfologice în format hipertext. Există şi un pas de dezambiguizare a textului care poate preceda paşii de analiză fonologică sau sintactică. Rezultatele dezambiguizării se pot vizualiza în panoul dedicat acestui proces.

 

2.3. Analizor fonologic

Altă aplicaţie practică este cea a unui analizor fonologic experimental care poate să analizeze texte în format RTF şi să pună în evidenţă paşii parcurşi, rezultatele fiind vizualizate într-un format hipertext. Realizarea analizei fonologice pleacă de la textul etichetat rezultat în urma analizei lexico-morfologice după dezambiguizare lui. Aplicaţia are rolul să pună în evidenţă superioritatea unui sistem bazat pe cunoştinţe lingvistice formalizate faţă de sistemele bazate exclusiv pe semnale fizice şi poate servi cu succes unor experienţe interesante în rafinarea metodelor şi algoritmilor propuşi în mod teoretic, dar încă insuficient probaţi în cazurile reale. Este un model de laborator deosebit de interesant, menit să susţină justeţea abordării pe baze lingvistice a întregului proces de sinteză a vorbirii din texte scrise, primul pas semnificativ în direcţia realizării unui sistem real. Sistemul permite experimente în vederea obţinerii sintezei dorite din text prin remodelarea datelor obţinute în urma analizei contextuale. Se poate interveni asupra grupării cuvintelor în procesul de rostire, a pauzelor, a valorii accentului la nivel de cuvânt sau de enunţ, simulând în felul acesta rezultatele prozodice. Se pot simula mai multe experimente în paralel şi păstra rezultatele pentru o comparare ulterioară. Fluxul de date poate fi reprezentat astfel:

 
Figura 9

 

Un text analizat cu sistemul experimental şi transcris fonetic arată astfel:


Figura 10

 

Modelul fonologic teoretic a fost aplicat, cu succes, asupra unei baze lexicale de aproximativ 75.000 de cuvinte-titlu care acoperă peste două milioane de cuvinte flexionate. Considerăm că verificarea aplicării modelului fonologic a fost făcută riguros şi rezultatele obţinute sunt edificatoare: modelul fonologic răspunde întru totul transcrierii fonetice din limba română.

 

2.4. Analizor sintagmatic

Analizorul sintagmatic este în curs de realizare. Rolul lui este de a studia algoritmii de recunoaştere a diferitelor sintagme şi de a semnala erorile înainte de a se trece la realizarea produsului propriu-zis de extragere a posibililor termeni. La realizarea lui se vor folosi modulele existente prezentate anterior: procesarea textului, analiza lexico-morfologică şi dezambiguizare, la care se va adăuga modulul de analiză sintagmatică.

În principiu un modul de analiză sintagmatică atribuie unui şir de intrare dat o descriere structurală relativă la o anumită gramatică (Hellwig (2002). Pentru aceasta sunt necesare:

un formalism gramatical, care să permită descrierea gramaticii limbii tratate;

o gramatică a limbii tratate descrisă în formalismul ales;

un algoritm care să determine dacă un şir de intrare este în conformitate cu gramatica limbii şi, în caz afirmativ, – structura ataşată acelui şir.

          Formal, analizorul sintagmatic poate fi o continuare a analizorului lexico-morfologic care preia textul de ieşire analizat şi etichetat, pentru a determina sintagmele pe baza gramaticii descrise. Rezultatul va fi un text analizat cu sintagme etichetate.


Figura 11

 

2.5. Extractor de termeni (EXTR)

În procesul de globalizare la care asistăm în prezent, transferurile internaţionale generează, pe lângă schimbul de produse, şi schimb de documente. Cantitatea de informaţii în format text a crescut vertiginos, iar traducerea documentaţiilor tehnice, legislative etc. dintr-o limbă în alta presupune nu numai cunoaşterea limbii, ci şi a domeniului, respectiv a  termenilor de specialitate care îi aparţin. Aici intervine contribuţia terminologului care stabileşte termenii dintr-un anumit domeniu pe baza materialului studiat. Munca de specialitate pe care o desfăşoară în determinarea posibililor termeni este laborioasă şi presupune parcurgerea unor corpusuri mari în găsirea unor contexte semnificative pentru  stabilirea unor definiţii relevante.

Extractorul de termeni vine în întâmpinarea terminologului, punându-i la dispoziţie instrumente care pot să-l ajute în găsirea termenilor, în stabilirea definiţilor şi a contextelor relevante pentru. Desigur, cunoaşterea termenilor este importantă şi în traduceri, dar stabilirea lor corectă poată fi făcută înaintea unui astfel de proces, în limba în care există documentaţia, în cazul de faţă, limba română.

Aplicaţia îi va permite utilizatorului să-şi creeze propriile proiecte pentru culegerea termenilor. În cadrul proiectului, utilizatorul va putea să definească structura termenilor, textele în care se va face căutarea, utilizarea sau nu a unor glose terminologice externe şi  stabilirea unei liste de nontermeni. Executarea proiectului prin intermediul aplicaţiei va oferi ca rezultate: lista posibililor termeni, conform cu opţiunile stabilite de utilizator, şi contextele în care termenii apar în textele selectate în proiect. Pe baza rezultatelor obţinute, printr-un proces interactiv, terminologul va putea să selecteze din lista posibililor termeni pe cei corecţi, specifici domeniului studiat, precum şi contextele relevante care susţin definiţia stabilită. De asemenea, va putea să creeze glose terminologice, dicţionare terminologice, fişe terminologice în formate oferite de aplicaţie sau importate  etc. Schematic, aplicaţia arată astfel: 

 
Figura 12

 

Aplicaţia pentru extragerea posibililor termeni urmează să fie proiectată şi va utiliza  modelele şi conceptele existente în sistemul informatic TEZAROM. Acesta va pune la dispoziţia proiectanţilor aplicaţiei baze de date particularizate, reguli şi metode.

 

Concluzii

Sistemul informatic TEZAROM creat pentru analiza lingvistică a textelor scrise în limba română se bazează pe o bogată experienţă acumulată în domeniul cercetării limbii române prin mijloace electronice şi poate fi utilizat cu succes într-o mulţime de aplicaţii, ultima aplicaţie în curs de realizare fiind cea dedicată extragerii termenilor de specialitate din diverse corpusuri. Sistemul se fundamentează pe normele statuate ale limbii şi este pus de acord cu prevederile celor mai importante lucrări de gramatică şi fonetică-fonologie, fiind astfel conceput încât să ofere utilizatorului rezultatele obţinute până acum (precum flexiunea cuvintelor, silabaţia, pronunţare), dar să aibă şi posibilitatea de a se extinde asupra altor compartimente ale limbii, pe măsură ce lucrările progresează.

Instrumentele create până în prezent au abordat domeniul morfologiei (aplicaţii realizate – Dicţionarul morfologic al limbii române pe suport CD şi analizorul morfologic), precum şi cel al fonologiei (indicarea silabisirii atât fonetice, cât şi morfologice, şi a pronunţării corecte a cuvintelor prin transcrierea automată în IPA), fiind perfect funcţionale (aplicaţii realizate – analizor fonologic); următoarea deschidere s‑a făcut spre identificarea sintagmelor prin modelarea elementelor de sintaxă (aplicaţie în curs de realizare – extragerea posibililor termeni de specialitate dintr-un text, printr-un sistem interactiv). Toate aceste instrumente, de maximă importanţă în acest moment când limba română a devenit limbă a Uniunii Europene. sunt destinate să faciliteze munca utilizatorului interesat de cercetarea sau de învăţarea limbii române.

 

CSI Luciana Peev
SC Software ITC Cluj SA din Cluj-Napoca
Tel.: 0264-587767
E-mail: luciana_peev@yahoo.com

dr. Felicia Şerban
CS I Institutul de Lingvistică
şi Istorie Literară „Sextil Puşcariu”
din Cluj-Napoca
Tel.: 0264-428 120
E-mail: feli_serban@yahoo.com

 

Referinţe bibliografice

Avram, A., 1958, «Semivocalele româneşti din punct de vedere fonologic», Studii şi cercetări lingvistice, p. 7-14.

Dascălu-Jinga, L., M. Teodorescu, A. Ulivi, 1988, Antologia fonetică a limbii române, Bucureşti, Institutul de Cercetări Etnologice şi Dialectologice.

Dicţionarul ortografic, ortoepic şi morfologic al limbii române, 1982/2005, ed. a 2‑a, Bucureşti, Univers Enciclopedic.

Dicţionarul explicativ al limbii române,1975/1996, ed. a 2‑a, Bucureşti, Univers Enciclopedic.

Draşoveanu, D. D., 1997, Teze şi antiteze în sintaxa limbii române, Cluj-Napoca, Clusium.

Gramatica limbii române, 1963, ediţia a II‑a revăzută şi adăugită, vol. I–II, Bucureşti, Editura Academiei.

Gramatica limbii române, 2005, vol. I. Cuvântul, vol. II. Enunţul, Bucureşti, Editura Academiei Române.

Lombard, A., C. Gâdei, 1981, Dictionnaire morphologique de la langue roumaine, Bucureşti, Editura Academiei.

Marcu, F., 2004, Marele dicţionar de neologisme, Bucureşti, Editura Saeculum I.O.

Marcu, F., C. Maneca, 1978, Dicţionar de neologisme, ed. a 3‑a, Bucureşti, Editura Academiei Române.

Peev, L., L. Bibolar, E. Jodal, 1996, «Un model de formalizare a morfologiei limbii române», Simpozionul internaţional „Limbaj şi tehnologie”, Bucureşti.

Peev, L., L. Bibolar, E. Jodal, 1997, «A Formalization Model of the Romanian Morphology»,International Workshop „Speech and Computer” SPECOM’97, Cluj-Napoca.

Ribeiro, R., L. Oliveira, I. Trancoso, 2003, «Using Morphosyntactic Information TTS Systems: Comparing Strategies for European Portuguese Spoken Language Systems Lab» (electronic ed.).

Sfîrlea, L., 1970, Pronunţia românească literară. Stilul scenic, Bucureşti, Editura Academiei.

Stan, I. T., 1996, Fonetica, Cluj-Napoca, Editura Presa Universitară Clujeană.

Şerban, F., L. Peev, L. Bibolar, D. Bucerzan, 1996, «Banca de date a limbii române – fonetică şi fonologie», în D. Tufiş (ed.), Limbaj şi tehnologie, Bucureşti, Editura Academiei Române, pp. 157-160.

Şerban, F., D. Bucerzan, L. Peev, L. Bibolar, 1998, «Database of the Romanian Language», Romània orientale, 11, pp. 99-112.

Şerban, F., L. Peev, L. Bibolar, 2000, «La base de données de la Langue roumaine», Terminometro: La terminologie en Roumanie et en République de Moldova, hors-série, 4, Atlas-Clusium, pp. 40-42.

Şuteu, F., E. Şoşa, 1993, Dicţionar ortografic al limbii române, Bucureşti, Editura Vestala, Editura Atos.

Tătaru, A.,1999, Dicţionar de pronunţare a limbii române, ed. a 2-a, Cluj-Napoca, Clusium.

Vasiliu, E., 1965, Fonologia limbii române, Bucureşti, Editura ştiinţifică.

Hellwig, Peter, 2002 Natural Language Parsers – A “Course in Cooking”

http://www.cl.uni-heidelberg.de/kurs/ws06/ecl/etc/pars02.pdf

http://www.rolingva.ro

 

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org