|
4 Rezultatele în detaliu 4.1 Metodologie Internet Evoluţia accelerată, de la ultimul nostru studiu, a motoarelor de căutare aflate pe Internet a făcut necesară o muncă suplimentară şi o analiză în profunzime a metodologiei Internet utilizate pentru obţinerea rezultatelor. Această muncă suplimentară a cuprins 3 etape:
În această etapă au fost identificate următoarele motoare: AltaVista, Excite, Fastsearch [14], Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo şi Webtop. Webtop, cel mai nou motor de căutare, n-a fost încă suficient testat pentru ca să decidem să ne asumăm riscul de a-l include. Hotbot, Lycos şi Yahoo au fost eliminate pentru că sunt în parteneriat cu alte motoare de căutare şi furnizează aceleaşi rezultate: Lycos utilizează indexul lui Fastsearch, şi Yahoo pe cel al lui Google. Hotbot şi iWon utilizează acelaşi index furnizat de Inktomi. Hotbot, pe care l-am ales pentru studiul precedent, n-a putut fi reutilizat, din păcate, pentru că nu mai indică rezultatele numărătorilor. Inktomi nu oferă direct utilizatorilor serviciile indexului său, rămâne deci iWon. În ceea ce priveşte Excite, nu a putut fi folosit, la fel ca şi Hotbot, nu furnizează rezultatele în momentul numărătorilor [15]. Au rămas, deci, în cursă şase motoare: AltaVista, Fastsearch, Google, Infoseek, iWon şi Northern Light.
O automatizare a procedeului de măsurare, detaliată în anexa 5, a permis producerea de rezultate pentru 6 motoare de căutare preselectate, fiecare prelucrând cele aproximativ 1600 de variante ale celor 57 de termeni selectaţi pentru fiecare limbă. Rezultatele obţinute au arătat mari divergenţe între motoare. ceea ce ne-a ridicat mari semne de întrebare în ceea ce priveşte metodologia noastră ! A reieşit cu claritate că trebuia făcut un efort de analiză amănunţită pentru a explica aceste divergenţe şi a detecta motoarele care oferă rezultatele cele mai credibile. Au fost definite mai multe criterii pentru a valida utilizarea unui motor de căutare pentru prezentul studiu. Un motor de căutare ca să poată fi un instrument al aplicării metodologiei noastre trebuie să posede următoarele caracteristici:
Rezultatele obţinute pentru fiecare motor, detaliile selectării lor, precum şi alte informaţii generale care privesc motoarele de căutare sunt disponibile în anexa 4.
Din totalul motoarelor preselectate au fost reţinute numai două, Google şi Fastsearch, pentru a servi, la momentul realizării primelor măsurători în august 2000, ca suport unui studiu privind prezenţa diferitelor limbi pe Internet. În acest prim moment, rezultatele lor au fost utilizate concomitent [16] la obţinerea rezultatelor finale. Proximitatea rezultatelor obţinute cu fiecare motor, plecând de la un index şi de la tehnici de căutare diferite, ni s-a părut a fi un bun argument pentru validitatea metodologiei noastre:
Însă, cu ocazia ultimei contorizări, realizată în iunie 2001, s-a dovedit că Google nu mai trata semnele diacritice într-o manieră satisfăcătoare şi de aceea am renunţat la rezultatele sale.
În afară de introducerea, ca un prim pas în extinderea cercetării, a echivalentelor pentru limba germană şi de corectarea anumitor erori care au apărut la scrierea variantelor [19], metodologia lingvistică rămâne neschimbată faţă de versiunea precedentă a studiului. Celor 57 de termeni selectaţi în 1998 li s-au adăugat echivalentele în limba germană. Fiecare termen, având un anumit număr de variante (ortografice, în funcţie de semnele diacritice, sinonimice, dialectale, morfosintactice …) a fost păstrat în continuare, fiind considerat atât echivalent cu corespondentul său în celelalte limbi studiate, cât şi distinctiv, adică fără (sau aproape fără) omografiile interlingvistice [20] ale variantelor sale sau alte obstacole în realizarea echivalentelor. Eşantionul celor 57 de termeni se găseşte în anexa 3.
Formarea cuvintelor în limba germană este foarte diferită de cea a celorlalte limbi abordate până în prezent în acest studiu: limbile de tipul germanei reunesc într-un singur cuvânt "compus" rădăcini care, în formele echivalente din celelalte limbi studiate (şi, cu unele excepţii, mult mai puţin decât germana şi engleza), se găsesc separate în cuvinte diferite, constituind o sintagmă. Aşadar, echivalentele fiind făcute între cuvinte necompuse şi, presupunând că se caută cuvinte separate, fără context nedeterminat înainte sau după, limba germană este "penalizată" foarte mult, deoarece formele foarte frecvente, cum ar fi Ziegenkäse, echivalentul lui "brânză de capră", sunt înlăturate sistematic. Un prim pas în rezolvarea acestei probleme a fost făcut prin adăugarea la rezultatele obţinute cu vechea metodologie a unui procent de 30%, ca prag probabil minim. Dar, pentru a avea rezultate la fel de fiabile ca acelea obţinute pentru celelalte limbi ar trebui, fără îndoială, ca în viitor să se prevadă căutări "după cuvinte neizolate" (cu şi fără context nedeterminat înainte sau după cuvânt), folosind pentru corecţie, în măsura posibilităţilor, un factor numeric care exprimă diferenţa cantitativă dintre cuvintele limbilor studiate şi limba germană. Acest factor de corecţie se poate afla, probabil, în cercetările efectuate în cadrul cercetărilor pe corpusuri paralelele interlingvistice.
Partea lingvistică a studiului reiese din anexele 3 şi 7. Pentru celelalte detalii ale metodologiei lingvistice se poate consulta versiunea precedentă a studiului, L4, capitolul 2.2. Reamintim faptul că am ţinut să includem, alături de formele cu semne diacritice (accente etc.), şi variantele fără diacritice, foarte frecvente pe Internet. În cazul limbii germane, nu am ţinut cont de distincţia morfosintactică majusculă / minusculă, care este neutralizată de motoarele noastre de căutare, nefiind, deci, pertinentă. De altfel, fusese luată decizia să nu fie incluse formele cu mai puţin de 4 litere pentru a evita omografiile posibile (mai ales cu sigle, dar nu numai). Omografiile între cel puţin două dintre limbile studiate au apărut extrem de frecvent, mai ales între spaniolă şi portugheză, dar nu numai, şi, bineînţeles, trebuiau evitate coincidenţele apărute în urma împrumutului între limbi. Uneori, unei omografii cazuale, cum este cea a variantelor limbii germane Montage / Montages (luni) cu forme ale limbii franceze i s-a adăugat o omografie de împrumut, deoarece cuvântul din limba franceză este împrumutat, pentru domeniul cinematografiei, de aproape toate celelalte limbi. 4.3. Metodologie statistică Intervalele de încredere la 90% şi 99% din rezultate au fost stabilite utilizând distribuţia T a lui Student, luând ca ipoteză o distribuţie de tip normal.
În tabelul 16 din anexa 4 sunt prezentate rezultatele cercetărilor obţinute în august 2000 în spaţiul WWW, pentru fiecare limbă, în funcţie de cele 6 motoare preselecţionate.
Sunt prezentate mai jos procentajele medii ale prezenţei pe Internet a limbilor latine (şi a limbii germane) faţă de limba engleză.
Tabelul 7:
Coeficientul de variaţie se calculează prin extragerea radicalului din abaterea-tip la pătrat împărţită la media la pătrat. O valoare superioară lui 1 indică o puternică dispersie, deci o medie puţin fiabilă. O valoare inferioară lui 1 indică o dispersie slabă, deci rezultatul este cu atât mai fiabil cu cât valoarea coeficientului este mai mică. Intervalul de încredere va fi deci, şi el, cu atât mai strâns cu cât valoarea coeficientului de variaţie este mai mică.
Potrivit concluziilor prezentate în capitolul 3.2.1, s-a ajuns la o prezenţă absolută a limbilor studiate de:
Astfel, spaniola, aşa cum am prevăzut în studiul precedent, depăşeşte în prezent limba franceză, iar germana se situează înaintea tuturor limbilor latine. Aceste rezultate au fost obţinute atât pe baza calculului rezultatelor relative (capitolul precedent), cât şi printr-o aproximare realistă a ponderii limbilor nestudiate, descrise la rubrica "restul". Aproximarea ponderii limbilor nestudiate a fost realizată plecând de la măsurarea întinderii domeniului fiecărei limbi cu motorul de căutare Fastsearch. La momentul efectuării acestei măsurători, Fastsearch prezenta un index de 360 de milioane de pagini repartizate pe 31 de limbi. Pentru a afla câte pagini conţine indexul pentru fiecare limbă (conform algoritmului de detecţie al lui Fast), trebuie să se utilizeze secţiunea "advanced search" (căutare avansată) şi să se facă o căutare, pentru fiecare limbă, pornind de la tehnica pe care am botezat-o în studiul nostru precedent "complementul ansamblului vid" (aflarea numărului de pagini care nu conţin un cuvânt inexistent) [23]. Rezultă tabelul 17 din anexa 6. Acest tabel prezintă o aproximare a ponderii fiecărei limbi, dedusă cu ajutorul algoritmului de recunoaştere a limbilor motorului de căutare, care, fără îndoială, nu este perfect. De exemplu, o căutare a literei "è" în site-urile limbii engleze dă (pentru Google sau Fastsearch) un rezultat de un milion de site-uri dar, mai ales, în tailandeză, coreeană, japoneză, rusă. Un alt mod de obţinere a ponderii limbilor nestudiate este urmărirea dinamicii acesteia între L4 şi L5. Plecând de la valorile absolute ipotetice descrise în capitolul 3.2.1 şi de la valorile absolute ale limbilor considerate în studiul realizat în septembrie 1998, se obţine tabelul următor:
Tabelul 8:
O dată în plus, ipoteza unei ponderi absolute a limbii engleze în jur de 50% este cea mai realistă. Într-adevăr, o progresie de mai puţin de 18,38% a celorlalte limbi [24] pare foarte nesatisfăcătoare: aceasta ar reprezenta o progresie de două ori mai puţin rapidă decât cea a limbii române şi de la 4 la 15 ori mai puţin rapidă decât cea a altor limbi neolatine studiate. Din contră, o creştere de 102% pentru limbile nestudiate ar părea exagerată: aceasta ar însemna o evoluţie mondială mai rapidă decât evoluţia marii majorităţi a limbilor neolatine (cu excepţia portughezei). O progresie, în medie, de 60% pentru limbile nestudiate le-ar aşeza la nivelul progresiei limbii franceze, ceea ce este mult mai credibil. Această confirmare ne consolidează ipoteza unui rezultat final de ordinul 50% ca valoare absolută pentru limba engleză.
4.4. Comparaţie cu alte studii
Raporturile engleză/franceză şi franceză/spaniolă au evoluat, între primul studiu şi cel de faţă, în felul următor [25]:
Tabelul 9:
Vă reamintim că cifrele scrise cursiv (de la L1 la L3) sunt prea aproximative pentru a putea fi luate în calcul. Observarea reală a început de la L4.
Studiul Alis nu a fost reluat din 1998, deci menţinem analiza făcută la L4. În schimb, Inktomi a publicat rezultate care au avut un larg ecou pe Internet, fiind utilizate în prezent ca sursă oficială pentru numeroase rapoarte.
Tabelul 10:
Aceste cifre construiesc o viziune eronată, potrivit căreia engleza continuă să fie limba a peste 80% din paginile Web. Totuşi, este uşor să descoperim o aberaţie în aceste rezultate, atât în prezentarea, cât şi în interpretarea lor... Într-adevăr, procentajul anunţat pentru limba engleză (86%) nu este obţinut în raport cu toate limbile, ci numai faţă de 10 limbi citate în tabel, chiar dacă totalul procentelor celor 10 limbi ajunge la 100%! Dacă luăm ipoteza că rămân 30% din paginile Web pentru limbile necitate, totalul pentru limba engleză ar fi atunci de: 86,54% x (100-30) = 60,58%!!! În afara acestui lapsus evident, care ştirbeşte semnificaţia rezultatelor absolute (dar nu împiedică majoritatea birourilor de marketing de pe Internet să reia aceste cifre absurde...), este interesant să comparăm rezultatele noastre, bazate pe un eşantion de termeni selecţionaţi după criterii lingvistice prezentate în rapoartele noastre, cu algoritmii de recunoaştere a limbilor utilizaţi de diverse motoare de căutare, al căror mecanism rămâne voalat. A se vedea, de exemplu, tabelul 17 în anexa 6, care prezintă cifrele obţinute cu motorul Fastsearch şi compararea lor cu cele ale studiului nostru. Până la proba contrarie, trebuie să considerăm că metoda noastră este mai riguroasă pe plan metodologic şi să conchidem că algoritmii de recunoaştere a limbilor pe Internet au supărătoarea tendinţă să supraevalueze rezultatele pentru limba engleză.
[13] Trebuie înţeles foarte bine că rezultatele numărătorilor sunt, în întregime, anexe funcţiei principale a motoarelor care este de a identifica paginile care conţin termenii căutaţi într-un ordin de relevanţă maximală. Anumite motoare furnizează valori ale totalului paginilor care răspund criteriului de căutare, altele nu. În toate cazurile trebuie luate toate precauţiile pentru a verifica foarte bine fiabilitatea datelor obţinute în urma numărătorilor. [14] Cunoscut şi sub numele de Alltheweb. [15] Acest neajuns a fost corectat între timp, rezultatele obţinute cu Excite vor fi luate în calcul la următoarea versiune a studiului, dacă îşi menţine această funcţie. [16] Pentru rezultatele statistice am fuzionat rezultatele celor două motoare pentru a obţine o serie mai lungă a valorilor variabilei noastre aleatoare. [17] Milioane de pagini în limba engleză. [18] Este vorba de rezultate brute, fără corecţia de 30%. [19] Este vorba de erori minore care nu au provocat o diferenţă notabilă faţă de rezultatele publicate în studiul precedent. Detalii în Anexa 3. [20] Este vorba de forme care au aceeaşi grafie în mai mult de o limbă; omografiile în interiorul aceleiaşi limbi sunt considerate ca fiind acelaşi cuvânt. [21] Rezultate majorate cu 30% (a se vedea nota 6). [22] Rezultate majorate cu 30% (a se vedea nota 6). [23] Argumentul de căutare este, de exemplu, < - "hgavdhjgduhgedujhgsdfyuhg">. [24] "Celelalte limbi" acoperă realităţi diferite, de la limbile scandinave şi asiatice cu progresie puternică la celelalte limbi, mai puţin difuzate, cu o progresie, probabil, mai lentă. [25] Trebuie să considerăm această progresie cu cea mai mare rezervă deoarece cifrele studiilor L1 la L3 nu prezintă caracteristicile de rigoare lingvistică obţinute începând cu studiul L4.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||