Locul Limbilor și al Culturilor Latine
pe Internet
Partea I: Limba
|
2.1 Metodologie Internet
Serviciile de căutare oferite în acces liber pe Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch ...) sunt instrumente extrem de puternice pentru că ele indexează o parte importantă a informațiilor prezentate în diferite spații ale Internetului (spațiul paginilor web, spațiul grupurilor de discuții, spațiile meniurilor sau ale documentelor Gopher, spațiul fișierelor accesibile în FTP. Acestea au fost concepute pentru căutarea de cuvinte sau de expresii în spațiile Internet, mai mult, unele oferă rezultate cantitative asupra numărului ocurențelor termenilor căutați. Acest "efect de limită" a fost utilizat de către autori pentru a măsura locul respectiv al limbilor și al culturilor latine în diverse spații culturale. Ei au decis să se concentreze asupra spațiilor Web și Usenet, care sunt cele mai reprezentative în evoluția Internetului2, fiind și cele unde serviciile acestuia sunt cele mai eficace.
Autorii au decis să prelucreze termenii din punct de vedere lingvistic înainte de a-i prelucra statistico-informatic utilizând serviciile de căutare. O echipă lingvistică a lucrat independent în acest mod, elaborând serii de șase termeni sau "funcții" (una pentru fiecare limbă a studiului) care să fie în același timp echivalente între ele (în ceea ce privește semnificația acestora, încărcătura semantică, sintaxa și frecvența utilizării) și distincte adică neomografe 3 - fie între ele, fie în raport cu alți termeni ai limbilor studiate sau în raport cu alte forme ale limbilor foarte bine reprezentate pe Internet. În realitate, autorii au căutat în mod sistematic să evite omografiile cu o singură limbă, dintre multe altele, care nu intră în cadrul studiului: germana - căci prezența sa pe Internet este fără îndoială considerabilă. Decizia de a evita formele de mai puțin de 4 litere a fost luată pentru a evita alte omografii posibile (mai ales cu siglele, dar nu numai cu acestea), restul trebuind să fie prelucrat la nivel statistic imediat ce intervalele semnificative vor fi apărut. Omografiile între cel puțin două din limbile studiate au apărut extrem de frecvent, mai ales între spaniolă și portugheză, dar nu numai - engleza și formele sale de origine latină punând de asemenea probleme, ca și împrumuturile etc.
Fiecare cuvânt sau "funcție" comparat(ă) include sau poate include variante de diferite categorii:
Cele șase limbi studiate prezintă diferențe tipologice. Cele de care studiul a trebuit să țină seama scot în evidență morfosintaxa. Exceptând diferențele de variație de gen, de număr, de caz, menționate mai sus, e bine să reamintim că în engleză, care este o limbă sintetică, o singură și unică formă poate avea două valori sintactice (substantiv și verb), de altfel, cu mai multe variante morfologie în alte limbi și poate fi echivalentă cu prea multe forme ale acestora, ceea ce face compararea imposibilă sau inutil de costisitoare. Particulele de genul prepozițiilor și pronumele au funcțiuni foarte diferite în funcție de limbile comparate, dar ele au fost în general îndepărtate de constrângerea evitării termenilor de mai puțin de patru litere.
În ciuda eforturilor depuse, se mențin câteva omografii care trebuie tratate drept cazuri particulare, pentru a evita distorsionarea rezultatelor. Cele mai frecvente sunt pluralele în "-IDADES" comune spaniolei și portughezei, care corespund cuvintelor în " -ités" din franceză ("uniformités" , "uniformidades" ), autorii au trebuit să caute, de asemenea, din forma lor la plural forma italiană în "-ita" care să corespundă în același timp și la singular și la plural. Deoarece numărarea formei în "-idades" dă un rezultat slab (sub 50), repartiția numărării între spaniolă și portugheză a fost făcută direct, prin observarea rezultatelor. În alte cazuri, am reluat numărarea între spaniolă și portugheză proporțional cu rezultatul indicat, pentru această formă, prin algoritmul de căutare/numărare pe limbă al serviciului AltaVista. Există un caz de omografie pentru limba româ nă (CAL și CAI pentru "cal" : omografe ale altor cuvinte în spaniolă, în italiană, în portugheză ...). De aceea formele CAL și CAI n-au mai fost numărate, ceea ce defavorizează limba româ nă. De altfel, și forma CAII a fost de asemenea eliminată deoarece este omograf cu numeroase sigle de pe Internet. LUNG ("plămân" în engleză) înseamnă "lung" în română. Efectul, foarte marginal de altfel, pentru limba engleză, nu a fost corectat. FACA și FACAS înseamnă "cuțit" și respectiv "cuțite" în limba portugheză dar, în același timp, sunt două forme ale conjugării verbului a face (faça și faças, în varianta lor fără diacritice). Rezultatul indicat a fost calculat a posteriori luând ca referință media generală pentru portugheză, în așa fel încât aceasta să nu fie penalizată. Forma MALADIE există în limba română cu același sens, dar este mai puțin folosită. Efectul este marginal. Forma BOLI (variantă de declinare a cuvântului franțuzesc MALADIE), care este o prescurtare foarte frecventă a cuvântului spaniol bolígrafo ("stilou"), a fost eliminată de la numărătoare. JOI (în limba română) este un cuvânt compus din trei litere, deci susceptibil de omografii cu sigle. JOIA este omograf cu cuvântul jóia fără diacritice care înseamnă "bijuterie". Rezultatul a fost calculat extrapolând mediile. MARTI este omograf cu numele unui personaj celebru (José Martí), fără diacritice, rezultatul său nu a fost contabilizat pentru cuvântul din limba română. Scorul cuvântului francez MARDI a fost diminuat de scorul lui MARDI GRAS, pentru a nu contabiliza această formă englezească. Munca de filtrare și de inserare a formelor echivalente din punct de vedere semantic a eliminat riscul sensurilor neechivalente (ceea ce noi am numit alteori "coliziuni semantice" ) nedetectate de travaliul lingvistic. Mai semnalăm că knife ("cuțit" în engleză) este utilizat câteodată ca verb "a înjunghia", deci, acest cuvânt favorizează limba engleză. Cuvintele portugheze care denumesc zilele săptămânii sunt sub forma "quarta-feira", unde primul termen indică numărul zilei. Zilele mai sunt indicate uneori fără al doilea termen (quarta pentru quarta-feira). Această formă simplă nu a fost luată în calcul, pentru a evita o confuzie cu sensul "al patrulea" . Această decizie defavorizează limba portugheză pentru cele cinci zile selecționate (mai ales pentru spațiul Usenet, în care sunt frecvente abrevierile). Notă metodologică: cantitatea site-urilor web indexate prin serviciul Hotbot pare a varia foarte mult de la o lună la alta. Nu s-au cunatificat toți termenii în același moment, compararea lor fiind întrucâ tva aleatorie. În schimb, pentru ceea ce ne interesează - ponderea relativă a limbilor -, proporțiile rămân sensibil aceleași oricare ar fi dimensiunea eșantionului indexat prin Hotbot.
Unul din elementele cele mai frustrante ale studiului a fost eșecul tentativei de lărgire a eșantionului prin utilizarea expresiilor în locul termenilor simpli. Echipa lingvistică a realizat un tabel cu cuvinte compuse sau expresii idiomatice plecând de la dicționare terminologice. A fost astfel constituit un nou eșantion de mai mult de șaizeci de termeni (de la 400 aleși la plecare). Totuși, primele măsurători au arătat o foarte mare dispersie a rezultatelor, mai ales în raport cu primul eșantion determinat. Din acest motiv, măsurătorile au fost întrerupte iar tentativa de reducere mai accentuată a mărimii intervalelor de încredere prin lărgirea eșantionului s-a soldat cu un eșec. Una din cauzele acestui fenomen aparține statisticii. Funcția matematică prin care se leagă numărul ocurențelor cuvintelor simple pe Internet poate fi legitim considerată ca fiind lineară: numărul citărilor în engleză (termen) = alpha x numărul citărilor în franceză (termen); am căutat să determinăm valoarea lui alpha printr-o eșantionare a cuvintelor simple. În schimb pentru expresii (cum ar fi " bunuri de consum" sau "cost al vieții"), funcția își pierde liniaritatea și funcția matematică poate deveni pătrată sau cubică, după cum expresia se compune din două sau trei cuvinte. În aceste condiții rezultatele se dovedesc a fi mai puțin coerente, bineînțeles, din cauza unor fenomene haotice. Pentru a înțelege acest fenomen, este suficientă compararea ponderii relative a unei expresii cu cea a termenilor expresiei respective. Să cităm două exemplu:
Reducerea numărului ocurențelor combinărilor de cuvinte simple este vertiginoasă (de la câteva milioane la 200!). În acest caz ne dăm seama că dimensiunea universului site-urilor Web nu este atât de mare cum pare la prima vedere. Astfel, compararea expresiei "cost al vieții" dă următoarele rezultate aberante, unde engleza apare ca cea mai puțin frecventă:
Intervalele de încredere pentru 90% și 99% din rezultate au fost stabilite utilizând distribuția T pentru Student 4, luâ nd ca ipoteză o distribuție de tip Normală.
În tabelul din Anexa 7 este indicat, pentru fiecare limbă, numărul citărilor termenilor în spațiul WWW, contorizate grație serviciului de căutare HotBot. Astfel, sunt luate în calcul toate citările în ansamblul paginilor Web la care se referă serviciul de căutare. Este prezentat mai jos numărul total al ocurențelor apărute, pentru toate conceptele și pentru fiecare limbă.
Sunt prezentate mai jos procentajele medii care reprezintă prezența limbilor latine în raport cu limba engleză. A se vedea tabelul detaliat, cuvânt cu cuvânt, în anexa 8 (Calcule statistice în spațiul WWW).
Coeficientul de variație este rădăcina pătrată a abaterii standard la puterea a II-a împărțit la media la pătrat. O valoare superioară lui 1 indică o dispersie foarte mare deci o medie puțin fiabilă. O valoare inferioară lui 1 indică o dispersie slabă și deci un rezultat cu atât mai fiabil cu cât valoarea este mai mică.
În tabelul din anexa 9 este indicat, pentru fiecare limbă, numărul citărilor termenilor în spațiul Usenet, numărate cu ajutorul serviciului DejaNews, ale căror totaluri, pentru fiecare limbă, sunt:
Sunt prezentate mai jos procentajele medii reprezentând prezența limbilor latine în raport cu limba engleză. A se vedea tabelul detaliat, cuvânt cu cuvânt, în anexa 10.
Rapoartele engleză/franceză și franceză/spaniolă au evoluat în modul următor între primul studiu și cel prezent:
Trebuie spus că limbile latine sunt în regres în 1998 față de anii precedenți? Nu, bineînțeles! Această evoluție este rezultatul următoarelor cauze:
Este incontestabil că natura eșantionului de referință influențează foarte mult rezultatele mediei și ale coeficientului de variație. Aproape nici un termen al eșantionului original L1 nu ar fi răspuns ansamblului criteriilor filtrului lingvistic stabilit cu rigoare pentru studiul L4! Dacă metodologia statistică a prezentului studiu ar fi fost aplicată eșantionului original, coeficientul de variație ar fi fost net superior lui 1 și intervalele de încredere ar fi fost foarte largi. Prelucrarea lingvistică a permis să se constate probabilitatea foarte mare de omografie între limbile latine. Eșantionul L1, determinat fără rigoare lingvistică, favoriza deci limbile latine, pe de o parte din cauza fenomenului omografiei, pe de altă parte din cauza unei alegeri a termenilor care nu erau destul de neutri din punct de vedere cultural. În ceea ce privește tendințele, este foarte dificil să se stabilească o legătură între acest studiu, foarte riguros din punct de vedere lingvistic, și studiile precedente. Totuși, pornind de la noul eșantion constituit, ar putea începe, în viitor, o analiză științifică a evoluțiilor. Una din concluziile prezentului studiu este imposibilitatea de a compara engleza cu o singură limbă neolatină, dată fiind marea probabilitate a unor omografii între limbile neolatine: într-adevăr, ocurențele unei aceleiași forme ar putea fi atribuite unei singure limbi, când de fapt ar trebui repartizate între mai multe limbi (astfel, forma "familia" înseamnă "familie" în același timp în spaniolă, în portugheză și în română).
Cu ocazia studiului L3 a fost făcută o comparație cu studiul Alis Technologies care punea sub semnul întrebării rezultatele acestuia, care supraestimau prezența limbii engleze. Rezultatele prezentate mai jos, considerate acum drept fiabile, au arătat o supraestimare a limbii franceze într-o proporție importantă (aproape 100%). Aceasta înseamnă că rezultatele Alis ar fi mai aproape de realitate decât păreau? Nu cu adevărat! Într-adevăr, dacă această comparare este restabilită azi în lumina rezultatelor mai riguroase care au fost obținute, atunci cifrele sunt mai apropiate de cele oferite de algoritmul de recunoaștere a limbilor AltaVista, dar rămân, totuși, departe de cele oferite de Alis, care continuă să favorizeze limba engleză, conform rezultatelor studiului nostru. Rezultatele studiului Alis sunt cele publicate pe Internet dar care nu au fost actualizate la data studiului nostru. Cele oferite de AltaVista sunt obținute grație metodei "complementului ansamblului vid" , descrisă în studiul L3. Comparațiile sunt realizate luând ca ipoteză un procentaj identic în engleză.
Tabelul
7:
Comparare cu cifrele obținute de studiul AltaVista În raport cu rezultatele studiului nostru:
Comparație cu rezultatele obținute de Alis Technologies În raport cu rezultatele studiului nostru:
Tabelul
8:
3. Perspective pentru o observare continuă
Este deci acum posibil să se determine cu regularitate dimensiunile, pornind de la același eșantion lingvistic, și prin urmare să se evalueze evoluția diferitelor limbi neolatine atât față de engleză cât și între ele. Pentru aceasta, ar fi de dorit să se automatizeze procesele de măsurare și de analiză a rezultatelor.
4. Referințele, pe Internet, ale lucrărilor conexe
Există, de asemenea, un recensămâ
nt, actualizat î n mod regulat, al datelor statistice pe Internet din America Latină și
Caraibe: <http://www.cr/latstat/>. Mai rămâ n referințele generale ale
statisticilor referitoare la Internet, care, î n prezent, nu cuprind capitole separate
dedicate limbilor sau culturilor : Un alt "clasic" al Internetului este Universitatea Georgia Tech, care realizează sondaje foarte riguroase despre utilizatorii spațiului WWW: <http://www.gvu.gatech.edu/user_surveys/> 2 Spațiul (FTP), numelor fișierelor nu prezintă caracteristicile dorite: poate exista aici corelația între numele fișierelor și limbă, dar aceasta este prea ocazională pentru a fi semnificativă. Spațiul Gopher, foarte legat din punct de vedere istoric de lumea universitară, a încetat să se mai extindă de câțiva ani. 3 În afara unei indicații contrare, vorbim de omografii translingvistice: omografele în interiorul unei aceleiași limbi vor fi considerate, în principiu, ca fiind un singur cuvânt (semn). 4 John E. Freund, "Mathematical Statistics", ediția a II-a, 1972, Prentice Hall International. Capitolul 9 "Estimation". 5 A tradus în engleză și a publicat studiile L1, C1, L2 și L3 în revista Matrix News.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||