eDTLR – Dicţionarul tezaur al limbii române în format electronic

RĂSCHIP Marius , Universitatea Al. I. Cuza Iaşi, Facultatea de Informatică
CRISTEA Dan, Universitatea Al. I. Cuza Iaşi, Facultatea de Informatică, Institutul de Informatică Teoretică, Academia Română, filiala Iaşi
FORĂSCU Corina , Universitatea Al. I. Cuza Iaşi, Facultatea de Informatică, Institutul de Cercetări pentru Inteligenţă Artificială, Academia Română, Bucureşti

 

1. Introducere

Iniţiat de Bogdan Petriceicu Haşdeu la sfarşitul secolului XIX şi continuat de Alexandru Philippide până în 1905, Dicţionarul Limbii Române a fost preluat ca proiect prioritar al Academiei Române sub colectivul condus de Sextil Puşcariu. Între anii 1913 şi 1949, sub titlul Dicţionarul Academiei (DA), se publică literele A-C, D-De, F-K, L-lojniţă, iar după 1965, sub numele Dicţionarul Limbii Române (DLR), restul intrărilor (Haja et al., 2005). În cifre estimative, DA+DLR cuprinde, în 15.000 pagini, 175.000 de intrări şi 3.000.000 de exemple culese din 2.500 de referinţe bibliografice.

eDTLR este atât acronimul Dicţionarului tezaur al limbii române în formă electronică, cât şi  numele proiectului naţional început în septembrie 2007 [1], cu o durată de 3 ani, al cărui scop e să aducă în formă de dicţionar electronic DA+DLR. Trei Institute de Lingvistică ale Academiei Române, din Bucureşti, Cluj şi Iaşi, alături de Institutul de Cercetări în Inteligenţă Artificială al Academiei Române, Bucureşti, Institutul de Informatică Teoretică al filialei Iaşi a Academiei Române şi Universitatea „Al. I. Cuza” Iaşi prin Facultatea de Litere, coordonate de Facultatea de Informatică a aceleiaşi Universităţi colaborează în cadrul acestui proiect la realizarea seriilor reunite ale dicţionarului şi crearea unui index în sursele bibliografice. Activităţile principale ale proiectului sunt:

scanarea formei tipărite a DA+DLR şi recunoaşterea automată a caracterelor în fişierele scanate;

corectarea on-line colaborativă a formei obţinute anterior;

marcarea câmpurilor din intrările de dicţionar (sensuri şi definiţii, citate, explicaţii morfologice, etimologie etc.);

scanarea surselor bibliografice, identificarea citatelor în surse şi crearea legăturilor dintre citate şi surse;

crearea de instrumente software care să permită interogarea Dicţionarului în moduri variate.

Un tip special de acces va fi cel în sursele scanate: când un utilizator va face click pe un citat al unei intrări va primi un extras din sursa literară care înglobează citatul. Dimensiunea extrasului şi navigarea în surse va fi în conformitate cu legea drepturilor de autor şi a proprietăţii intelectuale.

În lucrarea de faţă sunt prezentate primele două activităţi din cele enumerate mai sus. O pagină scanată de dicţionar nu este altceva decât o fotografie digitală a paginii. Din aceasta se poate recunoaşte automat textul, dar în acest proces de recunoaştere optică a caracterelor (OCR - Optical Character Recognition) apar erori. Doar ultimele volume, tipărite după 1990, fiind „culese pe calculator” există sub formă de text electronic. Pentru a obţine o variantă apropiată de original într-un timp scurt şi pentru celelalte volume a fost lansat un site securizat pentru corectarea formei ce a rezultat din scanare şi recunoaşterea automată de caractere (Cristea et al., 2007). Site-ul funcţionează după principiul contribuţiilor benevole. Programul care gestionează baza de date a site-ului distribuie spre corectare utilizatorilor segmente (10-12 rânduri) din cuprinsul dicţionarului într-o secvenţă aleatoare. După ce o secţiune e corectată de cel puţin doi utilizatori benevoli, aceasta urmează să fie verificată de un expert lexicograf. În continuare, pe forma corectată se pot extrage automat câmpurile intrărilor de dicţionar.

 

2. Scanarea şi recunoaşterea automată a textului

Volumele dicţionarelor au fost tipărite aproape de-a lungul unui secol şi există variaţii importante ale calităţii hârtiei şi tipăriturii. Dacă hârtia veche necesită atenţie şi grijă la manevrare, tipăritura recentă are mai multe defecte. Sunt evidente în unele cazuri deformări ale tamburului de imprimare, nepotriviri între cerneală şi tipul de hârtie, semi-transparenţe, impregnarea prea puternică etc. O mare parte din defectele de hârtie au fost eliminate prin folosirea unui scanner profesional.

Fotografiile digitale, în etapa de prelucrare a imaginii, sunt tăiate, îndreptate si curăţate de unele defecte cum ar fi marginile negre obţinute prin scanare. Timpul de procesare a fost redus prin automatizarea completă a acestor operaţii. Au fost folosite bibliotecile software şi programele: Leptonica [2], ImageMagick [3], unpaper [4].

Pentru recunoaşterea automată a caracterelor şi împarţirea în extrase de 10-12 rânduri au fost evaluate soluţii profesionale, comerciale sau gratuite şi open-source. Printre cele mai performante soluţii comerciale pentru recunoaşterea automată de caractere din documente scanate se numără ABBYY FineReader Engine SDK [5], Nuance Omnipage Capture SDK [6], IRIS iDRS [7]. Toate sunt biblioteci software, oferind şi funcţii de prelucrare a imaginilor. ABBYY FineReader Engine SDK se distinge prin opţiunea de antrenare pe noi seturi de caractere. Un alt motor comercial de OCR a fost Tesseract [8], dar a urmat alt traseu: a fost dezvoltat de Hewlett-Packard ca apoi să fie oferit gratuit şi open-source. Acum face parte şi este dezvoltat de o echipă de voluntari în cadrul proiectului OCRopus [9]. Dintre proiectele open-source s-a optat pentru Gamera [10], o bibliotecă software pentru recunoaştere de caractere, însoţită de programe şi interfeţe facile pentru antrenare.

Pentru antrenare (figura 1) au fost identificate tipuri de caractere şi alese pagini care să acopere cât mai bine mulţimea de defecte şi particularităţi întâlnite. Din aceste pagini au fost culese exemple pentru fiecare caracter în parte.


Figura 1. Antrenarea în Gamera

 

Pe setul de caractere latine, acurateţea cea mai bună se obţine cu IRIS iDRS, urmat îndeaproape de ABBYY FineReader Engine SDK. Gamera, deşi într-o primă antrenare nu a obţinut rezultate comparabile, poate fi integrat într-o arhitectură continuă de antrenare-corectură-validare, în care se pot reduce multe dintre greşelile frecvente.

 

3. Corectarea on-line colaborativă

Asupra textului recunoscut automat din paginile scanate ale dicţionarului se vor efectua cel puţin două corecturi, în cascadă. Prima corectură este realizată de numeroşi voluntari care au  cunoştinţe cel puţin de bază în utilizarea calculatorului. Un ghid de utilizare a interfeţei prezintă utilizatorilor principalele acţiuni şi operaţiile de corectare. În ultima corectură, experţi lexicografi preiau textul corectat de voluntari, cu mai puţine erori în medie decât varianta iniţială, textul recunoscut automat.

Pentru un acces facil, interfaţa de corectare e integrată într-un site web a cărui adresă este https://consilr.info.uaic.ro/edtlr. La primul acces, atât voluntarii cât şi experţii sunt invitaţi să se înregistreze. Accesele ulterioare se fac pe baza numelui de cont şi a parolei date la înregistrare. Conturile experţilor sunt validate de administratorul site-ului. După autentificare, voluntarii lucrează cu interfaţa de corectare naivă, iar lexicografii cu interfaţa expert.

 

3.1. Interfaţa de corectare naivă


Figura 2. Interfaţa de corectare naivă

 

Interfaţa, ilustrată în figura 2, este constituită din două secţiuni orizontale, după cum urmează:

A. Secţiunea seturilor de caractere speciale include butoane pentru caractere Latine, Chirilice, Greceşti (implicit este afişat setul Latin)


Ultimele trei butoane din setul Latin sunt folosite pentru includerea unor caractere speciale.

 

B. Secţiunea editorului propriu-zis include două ferestre aşezate una lângă alta:


în stânga: fereastra originalului scanat      în dreapta: fereastra de editare/corectare

 

Utilizatorul, fie benevol, fie expert, urmăreşte textul scanat, redat în fereastra stângă şi corectează, în fereastra din dreapta, greşelile care apar după operaţia de recunoaştere automată a caracterelor.

La subsolul ferestrei de corectare (figura 2) se află următoarele butoane:

 - butonul de ştergere a formatării. Se utilizează pentru a lăsa porţiunea marcată de text fără nici o formatare;

 - butonul de formatare cu caractere aldine (bold);

 - butonul de formatare cu caractere cursive (italic);

 - butonul de formatare cu caractere coborâte (xsubscript);

 - butonul de formatare cu caractere urcate la umăr (xsuperscript);

 - butonul de formatare specifică a siglelor dicţionar. O siglă reprezintă o notaţie prescurtată a unei referinţe bibliografice.

De exemplu, în secvenţa:

Vămşană bună. ALRM I/II h 248/61. Văruşană dulce. ib. h 248/80.
şirurile ALRM I/II h 248/61 şi ib. h 248/80 trebuie marcate ca sigle dicţionar (ib. reprezintă aici prescurtarea de la ibidem). Pentru a uşura prelucrările ulterioare, numerele trebuie încorporate siglelor. De asemenea, două sau mai multe sigle, separate ori nu prin semne de punctuaţie, trebuie să fie unite într-un singur marcaj de siglă. De exemplu, în secvenţa: CATON, 81v/26, cf. POLIZU, CATON, 81v/26 şi POLIZU sunt sigle distincte, dar pentru a uşura lucrul, ele pot fi notate împreună. În momentul în care se aplică notaţia de siglă asupra unui şir, interfaţa realizează o transformare la caractere majuscule. În prelucrările ulterioare, siglele care sunt notate împreună, ca şi numerele de pagini din cadrul acestora, vor putea fi identificate şi separate automat. 

 - butonul de legare a caracterelor aparţinând unui singur cuvânt, care în original apar separate prin spaţii. Astfel de secvenţe pot apărea în redarea unor cuvinte titlu.

De exemplu, în secvenţa:
 - şirul
m u n te trebuie marcat drept cuvânt spaţiat.

 - butonul de marcare a unor zone de text cu defecte în imaginea originală, care fac imposibilă corectarea sigură, sau a unor caractere care nu se regăsesc în seturile de caractere latine, chirilice ori greceşti. Marcaje de acest gen vor semnala lexicografilor că respectivele secvenţe vor necesita o atenţie deosebită, eventual prin confruntare cu mai multe surse tipărite, în vederea realizării unor corecţii în perfectă concordanţă cu originalul.

 - butonul de revenire înapoi (undo).

 - butonul de reluare a ultimei schimbări (redo).

           

3.2 Interfaţa de corectare expert

            Rolul lexicografilor în procesul de corectare este dublu. În primul rând trebuie să valideze textul şi să rezolve ambiguităţile, atât în ceea ce priveşte ortografia textului cât şi formatarea acestuia. O formatare corectă a textului permite apoi codificarea adecvată a unor câmpuri speciale, precum cuvinte-titlu, sigle, etimologie etc. În al doilea rând experţilor li se cere să evalueze munca voluntarilor. Intenţia este de a promova voluntarii a căror contribuţie este de calitate.

Interfaţa expert, comparativ cu cea naivă, introduce în plus doar un singur grup de elemente care identifică autorul corecturii precedente şi afişează numărul de extrase corectate. Experţii lexicografi vor merge pe urma unui voluntar pentru a-l putea evalua. S-a optat pentru această metodă cu scopul de a stabiliza opinia expertului asupra voluntarului.


Figura 3. Interfaţa expert de corectare

Numele voluntarului face legătura cu o pagină de notare a paginii corectate de acesta:

După ce un expert corectează şi notează contribuţia voluntarului, se declanşează automat un proces de evaluare care adaugă o măsură obiectivă, dată de următoarele reguli:

dacă la prima corectură un segment este salvat fără modificări, atunci există o mare probabilitate ca acest lucru să fie datorat grabei voluntarului şi acesta este depunctat;

dacă diferenţa numerelor de caractere dintre varianta salvată şi cea primită pentru corectare este prea mare, atunci voluntarul poate fi suspectat de rea intenţie şi, prin urmare, este uşor depunctat;

dacă diferenţa dintre varianta salvată de voluntar şi cea salvată de expert este mică, atunci voluntarul este promovat.

Evaluarea finală a unui utilizator se obţine combinând notele date de experţii lexicografi cu evaluarea automată descrisă mai sus. Pentru a stimula activitatea de corectare benevolă, membrii proiectului eDTLR au iniţiat campanii de promovare a acestuia. Se va încerca, totodată, şi premierea corectorilor voluntari cu cea mai susţinută şi atentă activitate.

După corectare, secvenţele de dicţionar sunt integrate automat în forma integrală a dicţionarului. Segmentarea şi maniera de extragere aleatoare a secvenţelor împiedică orice tentativă de recuperare a dicţionarului în format electronic în această formă, încă nefinisată. Astfel, dacă cineva ar face 140.000 extrase, probabilitatea de a reconstitui o pagină formată din 12 segmente este de aproximativ 10 -55.

           

4. Concluzii

Realizarea eDTLR va permite în primul rând o viitoare unificare a formatelor celor două dicţionare, DA şi DLR. Printre altele, acest lucru va crea şi posibilitatea corelării eDTLR cu alte resurse lingvistice, cum este, de exemplu, wordnetul românesc (Tufiş et al., 2008).

eDTLR va deschide noi perspective în dezvoltarea de aplicaţii de anvergură privind traducerea automată, dezambiguizarea semantică a cuvintelor, selecţii de tipuri de intrări în vederea elaborării de noi dicţionare specializate (tematice, etimologice, frazeologice, terminologice etc.). Mai mult, eDTLR creează premisele unei viitoare activităţi de actualizare a acestui adevărat dicţionar tezaur al limbii române, în ritm cu însăşi evoluţia limbii.

 

Bibliografie

Dan Cristea, Marius Răschip, Corina Forăscu, Gabriela Haja, Cristina Florescu, Bogdan Aldea, Elena Dănilă (2007). The Digital Form of the Thesaurus Dictionary of the Romanian Language. In Proceedings of the 4th International IEEE Conference SpeD 2007, "Advances in Spoken Language Technology", C. Burileanu, H.N. Teodorescu (Eds.) Iasi, 10-12 Mai 2007, Romanian Academy Publishing House, ISBN 978-973-27-1516-1.

Gabriela Haja, Elena Dănilă, Corina Forăscu, Bogdan-Mihai Aldea (2005). Dicţionarul limbii române (DLR) în format electronic. Studii privind achiziţionarea, Editura Alfa, Iaşi.

Dan Tufiş, Radu Ion, Luigi Bozianu, Alexandru Ceauşu, Dan Ştefănescu (2008) Romanian WordNet: Current State, New Applications and Prospects. In Proceedings of 4th Global WordNet conference, GWC-2008, January 22-25 2008, Szeged, Hungary.

 

[1] https://consilr.info.uaic.ro/edtlr/wiki/

[2] http://www.leptonica.com/

[3] http://www.imagemagick.org/

[4] http://unpaper.berlios.de/

[5] http://www.abbyy.com/sdk/

[6] http://www.nuance.com/omnipage/capturesdk/

[7] http://www.irislink.com/c2-198/IDRS.aspx

[8] http://code.google.com/p/tesseract-ocr/

[9] http://code.google.com/p/ocropus/

[10] http://ldp.library.jhu.edu/projects/gamera/

 

Sponsor de aur / Partenaire Or


Sponsor de argint / Partenaire Argent

Ambassade de France
en Roumanie

Association Européenne
de Terminologie

Sponsor de bronz / Partenaire Bronze

Comitetul Electrotehnic
Român

Asociaţia Română
de Terminologie

 

 

Program / Programme
Comunicări / Communications

 

 

 

 

Seminar Internaţional „Instrumente pentru asistarea traducerii” - Acte / Séminaire international « Les outils d'aide à la traduction » - Actes
Editat de / Edité par : Uniunea latina/Union Latine
ISBN: 978-9-291220-37-3
2008

Terminometro | Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | Agenda | Pagini Internet

Uniunea Latină
Direcţia Terminologie şi Inginerie Lingvistică - DTIL
131, rue du Bac - F-75007 Paris
T: (33) 1 45 49 60 62   /   F: (33) 1 45 49 67 39
dtil@unilat.org