| 3.
Prezentarea generală a studiului şi a rezultatelor sale
3.1 Metodologie Rezultatele sunt obţinute păstrând metodologia urmată începând din anul 1998. Mai întâi se realizează o selecţie cuprinzând 57 de termeni pentru fiecare limbă, fiecare admiţând variante ortografice în funcţie de semnele diacritice, variante sinonimice, dialectale sau morfosintactice şi care au aceeaşi semnificaţie în limbile studiate (detaliile criteriilor lingvistice: în 4.2 şi anexa 7). În continuare, se analizează şi se compară rezultatele pentru a deduce, în procente, prezenţa fiecărei limbi. Pentru fiecare termen, raportul limbilor latine faţă de limba engleză este utilizat ca o variabilă aleatorie, fiind aplicate tehnici statistice care iau ca ipoteză o distribuţie matematică curentă a acestei variabile aleatorii (curba lui Gauss, numită şi distribuţie "normală"). Rezultatele prezentate mai jos au fost obţinute prin sinteza scorurilor obţinute cu două motoare de căutare care au îndeplinit criteriile de selecţie descrise în anexa 4. Toate măsurătorile luate în calcul în acest studiu au fost efectuate în perioada august 2000 - iunie 2001.
3.2. Sinteză comentată a rezultatelor
Tabelul următor prezintă raportul mediu între fiecare limbă neolatină (şi limba germană) şi limba engleză, obţinut prin contorizarea ocurenţelor noastre în spaţiul Web în iunie 2001.
Tabelul 1:
Rezultatele pe care tocmai le-am citat permit evaluarea prezenţei limbilor neolatine şi, aproximativ, a limbii germane faţă de limba engleză; pentru a estima prezenţa absolută a acestor limbi în spaţiul Internet, este necesar, ca în prealabil, să construim o ipoteză privind prezenţa limbii engleze. Tabelul de mai jos arată valorile prezenţei absolute, stabilite plecând de la mediile pentru diverse ipoteze privind prezenţa limbii engleze.
Tabelul 2:
Acest tabel ne oferă o imagine mai precisă a ponderii absolute a limbilor studiate faţa de ansamblul paginilor prezente pe Internet. Unul din indicatorii cei mai semnificativi este cel al spaţiului disponibil pentru limbile rămase care ne permite să selectăm ipoteza unei prezenţe absolute a limbii engleze de aproximativ 52 % ca fiind cea mai probabilă. Pentru aceasta, este suficient să considerăm limbile chineză şi japoneză, care, foarte verosimil, au o pondere de acelaşi ordin ca şi limbile germană sau spaniolă (între 5 şi 8%), la fel cu limbile care au o reprezentare între 0,5% şi 2% (coreeană, olandeză, rusă şi cele patru limbi scandinave care însumează un total între 8% şi 10%), limbile cu o prezenţă foarte slabă, cum este româna (şi anume zece limbi cu 0,1% pentru un total de 1%) şi, în final, numeroasele limbi a căror prezenţă rămâne marginală. Această ultimă proporţie este cel mai dificil de estimat; reţinem ipoteza că cele 200 de limbi cu 0,01% au atins un total de 2%... Una din marile necunoscute, ale cărei consecinţe rămân de evaluat în viitor, este posibila multiplicare a limbilor pe Internet, totalul limbilor existente fiind între 3000 şi 6000. Aceste estimări ne fac să ajungem la o pondere totală de 25% pentru limbile nestudiate şi, deci, ne îndeamnă să susţinem ipoteza unei prezenţe absolute de 52% pentru limba engleză. Estimarea de 25% pentru ponderea limbilor neluate în calcul direct în studiu este susţinută de evoluţia dinamică a ponderilor acestor limbi descrisă în capitolul 4.3.3. 3.3. Relaţia dintre numărul locutorilor şi prezenţa lor pe Internet Este evident că valorile prezenţei absolute nu sunt un indicator perfect al vigorii unei limbi în reţelele internaţionale. Pentru a obţine un rezultat semnificativ ar trebui să se proporţioneze valorile care exprimă prezenţa limbilor pe Internet cu o valoare a prezenţei lor în lumea reală. Prezenţa relativă a limbilor este calculată fără a ţine seama în totalitate de factorul "plurilingvism". Această metodă implică anumite dificultăţi metodologice care au fost descrise în studiul L4.
Tabelul 3:
Tabelul
4:
Un rezultat egal cu 1 este, deci, considerat "normal", dacă este inferior lui 1 este considerat slab şi dacă este superior lui 1– respectabil. Un progres important pentru spaniolă şi portugheză, dar ele rămân, totuşi, sub pragul unei reprezentări "normale". Scor excelent pentru germană şi italiană şi rezultat bun pentru franceză. 3.4. Vitalitatea producerii de informaţii de către internauţi în funcţie de limba lor Un studiu Global Reach, ale cărui ultime rezultate au fost publicate la date de 31 martie 2001 (http://www.glreach.com), propune o valoare pentru numărul de utilizatori ai Internetului pentru fiecare limbă:
Tabelul 5:
Comparând aceste rezultate cu cele obţinute prin studiul nostru (a se vedea Tabelul 6), ar trebui să putem deduce care sunt segmentele lingvistice care produc cea mai multă informaţie pe Internet.
Tabelul 6:
Am obţinut un rezultat destul de important: proporţia paginilor disponibile pe Internet pentru fiecare limbă şi proporţia internauţilor prezenţi au acelaşi ordin de mărime ! Raportul dintre procentajul paginilor şi procentajul utilizatorilor are valori în jurul lui 1 pentru toate limbile studiate [11], de unde ar rezulta că, în prezent, cantitatea de pagini Web produse pentru o limbă este direct proporţională cu numărul internauţilor care vorbesc această limbă. Rezultatul obţinut de limba engleză ne surprinde: am fi putut să ne aşteptăm la o valoare mult mai mare sub influenţa plurilingvismului [12]. Aceasta ar putea, deci, să însemne că productivitatea locutorilor de limbă engleză este inferioară celei a locutorilor altor limbi menţionate, să fie dovada unui avans în producţia locutorilor altor limbi occidentale, conştienţi de miza lingvistică a Internetului ? Ar fi foarte interesant să aflăm aceste valori pentru cele mai recente limbi de pe Internet.
[6] Există, în această versiune a studiului, o diferenţă calitativă între rezultatele obţinute pentru limba germană şi cele pentru celelalte limbi. Într-adevăr, formarea cuvintelor în limba germană, foarte diferită faţă de celelalte limbi studiate până în prezent, ar "sancţiona-o" greu dacă am considera rezultatele obţinute cerând motoarelor noastre să facă o căutare "după cuvânt izolat" sau separat, adică fără nici un context înainte sau după termen. Pentru a obţine rezultate la fel de fiabile ca acelea stabilite pentru celelalte limbi, ar trebui, într-o etapă viitoare, să se realizeze căutări "după fiecare cuvânt neizolat" (i.e.: cu context nedeterminat înainte şi după termen) şi să utilizeze, ca ajutor, în măsura posibilităţilor, un factor numeric care exprimă diferenţa de cantitate a cuvintelor separate, în general între limbile studiate şi limba germană. Am ales ca soluţie păstrarea eşantionului şi extinderea lui la 57 de termeni germani echivalenţi şi căutarea şi după cuvânt izolat. Ni s-a părut necesară, pentru a începe să ne apropiem de această realitate lingvistică, o corecţie de cel puţin 30 % în plus faţă de rezultatele astfel obţinute. Cifra de 13,42% s-a obţinut prin aplicarea unei creşteri de 30% primului rezultat brut de 10,32%. [7] Rezultate majorate cu 30% (vezi nota 6). [8] Rezultate majorate cu 30% (vezi nota 6). [9] Rezultate majorate cu 30% (vezi nota 6). [10] Rezultate majorate cu 30% (vezi nota 6). [11] Diferenţele sunt mai mici de 25% în valoare absolută şi este dificil să tragem concluzii în ceea ce priveşte aceste diferenţe foarte mici, care sunt cuprinse în intervalele de încredere ale cifrelor anunţate de Global Reach, care nu beneficiază de o metodologie standard pentru toate limbile. [12] Proporţia locutorilor de limbi diferite de limba engleză care produc pagini în această limbă (sau traduc paginile lor în engleză) este, se ştie, foarte mare.
|