![]() |
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
1. Introducere Iniţiat de Bogdan Petriceicu Haşdeu la sfarşitul secolului XIX şi continuat de Alexandru Philippide până în 1905, Dicţionarul Limbii Române a fost preluat ca proiect prioritar al Academiei Române sub colectivul condus de Sextil Puşcariu. Între anii 1913 şi 1949, sub titlul Dicţionarul Academiei (DA), se publică literele A-C, D-De, F-K, L-lojniţă, iar după 1965, sub numele Dicţionarul Limbii Române (DLR), restul intrărilor (Haja et al., 2005). În cifre estimative, DA+DLR cuprinde, în 15.000 pagini, 175.000 de intrări şi 3.000.000 de exemple culese din 2.500 de referinţe bibliografice. eDTLR este atât acronimul Dicţionarului tezaur al limbii române în formă electronică, cât şi numele proiectului naţional început în septembrie 2007 [1], cu o durată de 3 ani, al cărui scop e să aducă în formă de dicţionar electronic DA+DLR. Trei Institute de Lingvistică ale Academiei Române, din Bucureşti, Cluj şi Iaşi, alături de Institutul de Cercetări în Inteligenţă Artificială al Academiei Române, Bucureşti, Institutul de Informatică Teoretică al filialei Iaşi a Academiei Române şi Universitatea „Al. I. Cuza” Iaşi prin Facultatea de Litere, coordonate de Facultatea de Informatică a aceleiaşi Universităţi colaborează în cadrul acestui proiect la realizarea seriilor reunite ale dicţionarului şi crearea unui index în sursele bibliografice. Activităţile principale ale proiectului sunt:
Un tip special de acces va fi cel în sursele scanate: când un utilizator va face click pe un citat al unei intrări va primi un extras din sursa literară care înglobează citatul. Dimensiunea extrasului şi navigarea în surse va fi în conformitate cu legea drepturilor de autor şi a proprietăţii intelectuale. În lucrarea de faţă sunt prezentate primele două activităţi din cele enumerate mai sus. O pagină scanată de dicţionar nu este altceva decât o fotografie digitală a paginii. Din aceasta se poate recunoaşte automat textul, dar în acest proces de recunoaştere optică a caracterelor (OCR - Optical Character Recognition) apar erori. Doar ultimele volume, tipărite după 1990, fiind „culese pe calculator” există sub formă de text electronic. Pentru a obţine o variantă apropiată de original într-un timp scurt şi pentru celelalte volume a fost lansat un site securizat pentru corectarea formei ce a rezultat din scanare şi recunoaşterea automată de caractere (Cristea et al., 2007). Site-ul funcţionează după principiul contribuţiilor benevole. Programul care gestionează baza de date a site-ului distribuie spre corectare utilizatorilor segmente (10-12 rânduri) din cuprinsul dicţionarului într-o secvenţă aleatoare. După ce o secţiune e corectată de cel puţin doi utilizatori benevoli, aceasta urmează să fie verificată de un expert lexicograf. În continuare, pe forma corectată se pot extrage automat câmpurile intrărilor de dicţionar.
2. Scanarea şi recunoaşterea automată a textului Volumele dicţionarelor au fost tipărite aproape de-a lungul unui secol şi există variaţii importante ale calităţii hârtiei şi tipăriturii. Dacă hârtia veche necesită atenţie şi grijă la manevrare, tipăritura recentă are mai multe defecte. Sunt evidente în unele cazuri deformări ale tamburului de imprimare, nepotriviri între cerneală şi tipul de hârtie, semi-transparenţe, impregnarea prea puternică etc. O mare parte din defectele de hârtie au fost eliminate prin folosirea unui scanner profesional. Fotografiile digitale, în etapa de prelucrare a imaginii, sunt tăiate, îndreptate si curăţate de unele defecte cum ar fi marginile negre obţinute prin scanare. Timpul de procesare a fost redus prin automatizarea completă a acestor operaţii. Au fost folosite bibliotecile software şi programele: Leptonica [2], ImageMagick [3], unpaper [4]. Pentru recunoaşterea automată a caracterelor şi împarţirea în extrase de 10-12 rânduri au fost evaluate soluţii profesionale, comerciale sau gratuite şi open-source. Printre cele mai performante soluţii comerciale pentru recunoaşterea automată de caractere din documente scanate se numără ABBYY FineReader Engine SDK [5], Nuance Omnipage Capture SDK [6], IRIS iDRS [7]. Toate sunt biblioteci software, oferind şi funcţii de prelucrare a imaginilor. ABBYY FineReader Engine SDK se distinge prin opţiunea de antrenare pe noi seturi de caractere. Un alt motor comercial de OCR a fost Tesseract [8], dar a urmat alt traseu: a fost dezvoltat de Hewlett-Packard ca apoi să fie oferit gratuit şi open-source. Acum face parte şi este dezvoltat de o echipă de voluntari în cadrul proiectului OCRopus [9]. Dintre proiectele open-source s-a optat pentru Gamera [10], o bibliotecă software pentru recunoaştere de caractere, însoţită de programe şi interfeţe facile pentru antrenare. Pentru antrenare (figura 1) au fost identificate tipuri de caractere şi alese pagini care să acopere cât mai bine mulţimea de defecte şi particularităţi întâlnite. Din aceste pagini au fost culese exemple pentru fiecare caracter în parte.
Pe setul de caractere latine, acurateţea cea mai bună se obţine cu IRIS iDRS, urmat îndeaproape de ABBYY FineReader Engine SDK. Gamera, deşi într-o primă antrenare nu a obţinut rezultate comparabile, poate fi integrat într-o arhitectură continuă de antrenare-corectură-validare, în care se pot reduce multe dintre greşelile frecvente.
3. Corectarea on-line colaborativă Asupra textului recunoscut automat din paginile scanate ale dicţionarului se vor efectua cel puţin două corecturi, în cascadă. Prima corectură este realizată de numeroşi voluntari care au cunoştinţe cel puţin de bază în utilizarea calculatorului. Un ghid de utilizare a interfeţei prezintă utilizatorilor principalele acţiuni şi operaţiile de corectare. În ultima corectură, experţi lexicografi preiau textul corectat de voluntari, cu mai puţine erori în medie decât varianta iniţială, textul recunoscut automat. Pentru un acces facil, interfaţa de corectare e integrată într-un site web a cărui adresă este https://consilr.info.uaic.ro/edtlr. La primul acces, atât voluntarii cât şi experţii sunt invitaţi să se înregistreze. Accesele ulterioare se fac pe baza numelui de cont şi a parolei date la înregistrare. Conturile experţilor sunt validate de administratorul site-ului. După autentificare, voluntarii lucrează cu interfaţa de corectare naivă, iar lexicografii cu interfaţa expert.
3.1. Interfaţa de corectare naivă
Interfaţa, ilustrată în figura 2, este constituită din două secţiuni orizontale, după cum urmează: A. Secţiunea seturilor de caractere speciale include butoane pentru caractere Latine, Chirilice, Greceşti (implicit este afişat setul Latin)
B. Secţiunea editorului propriu-zis include două ferestre aşezate una lângă alta:
Utilizatorul, fie benevol, fie expert, urmăreşte textul scanat, redat în fereastra stângă şi corectează, în fereastra din dreapta, greşelile care apar după operaţia de recunoaştere automată a caracterelor. La subsolul ferestrei de corectare (figura 2) se află următoarele butoane:
De exemplu, în secvenţa:
3.2 Interfaţa de corectare expert Rolul lexicografilor în procesul de corectare este dublu. În primul rând trebuie să valideze textul şi să rezolve ambiguităţile, atât în ceea ce priveşte ortografia textului cât şi formatarea acestuia. O formatare corectă a textului permite apoi codificarea adecvată a unor câmpuri speciale, precum cuvinte-titlu, sigle, etimologie etc. În al doilea rând experţilor li se cere să evalueze munca voluntarilor. Intenţia este de a promova voluntarii a căror contribuţie este de calitate. Interfaţa expert, comparativ cu cea naivă, introduce în plus doar un singur grup de elemente care identifică autorul corecturii precedente şi afişează numărul de extrase corectate. Experţii lexicografi vor merge pe urma unui voluntar pentru a-l putea evalua. S-a optat pentru această metodă cu scopul de a stabiliza opinia expertului asupra voluntarului.
Numele voluntarului face legătura cu o pagină de notare a paginii corectate de acesta: După ce un expert corectează şi notează contribuţia voluntarului, se declanşează automat un proces de evaluare care adaugă o măsură obiectivă, dată de următoarele reguli:
Evaluarea finală a unui utilizator se obţine combinând notele date de experţii lexicografi cu evaluarea automată descrisă mai sus. Pentru a stimula activitatea de corectare benevolă, membrii proiectului eDTLR au iniţiat campanii de promovare a acestuia. Se va încerca, totodată, şi premierea corectorilor voluntari cu cea mai susţinută şi atentă activitate. După corectare, secvenţele de dicţionar sunt integrate automat în forma integrală a dicţionarului. Segmentarea şi maniera de extragere aleatoare a secvenţelor împiedică orice tentativă de recuperare a dicţionarului în format electronic în această formă, încă nefinisată. Astfel, dacă cineva ar face 140.000 extrase, probabilitatea de a reconstitui o pagină formată din 12 segmente este de aproximativ 10 -55.
4. Concluzii Realizarea eDTLR va permite în primul rând o viitoare unificare a formatelor celor două dicţionare, DA şi DLR. Printre altele, acest lucru va crea şi posibilitatea corelării eDTLR cu alte resurse lingvistice, cum este, de exemplu, wordnetul românesc (Tufiş et al., 2008). eDTLR va deschide noi perspective în dezvoltarea de aplicaţii de anvergură privind traducerea automată, dezambiguizarea semantică a cuvintelor, selecţii de tipuri de intrări în vederea elaborării de noi dicţionare specializate (tematice, etimologice, frazeologice, terminologice etc.). Mai mult, eDTLR creează premisele unei viitoare activităţi de actualizare a acestui adevărat dicţionar tezaur al limbii române, în ritm cu însăşi evoluţia limbii.
Bibliografie Dan Cristea, Marius Răschip, Corina Forăscu, Gabriela Haja, Cristina Florescu, Bogdan Aldea, Elena Dănilă (2007). The Digital Form of the Thesaurus Dictionary of the Romanian Language. In Proceedings of the 4th International IEEE Conference SpeD 2007, "Advances in Spoken Language Technology", C. Burileanu, H.N. Teodorescu (Eds.) Iasi, 10-12 Mai 2007, Romanian Academy Publishing House, ISBN 978-973-27-1516-1. Gabriela Haja, Elena Dănilă, Corina Forăscu, Bogdan-Mihai Aldea (2005). Dicţionarul limbii române (DLR) în format electronic. Studii privind achiziţionarea, Editura Alfa, Iaşi. Dan Tufiş, Radu Ion, Luigi Bozianu, Alexandru Ceauşu, Dan Ştefănescu (2008) Romanian WordNet: Current State, New Applications and Prospects. In Proceedings of 4th Global WordNet conference, GWC-2008, January 22-25 2008, Szeged, Hungary.
https://consilr.info.uaic.ro/edtlr/wiki/ http://www.nuance.com/omnipage/capturesdk/ http://www.irislink.com/c2-198/IDRS.aspx http://code.google.com/p/tesseract-ocr/ http://code.google.com/p/ocropus/ http://ldp.library.jhu.edu/projects/gamera/
|
|
||||||||||||||||||||||||
|
|||||||||||||||||||||||||
| Limbile şi culturile pe Internet ― Studiu 2007 | Portalingua | | Uniunea Latină |