Locul Limbilor și al Culturilor Latine
pe Internet

  • Partea I: Limba

 

 

Cuprins

 

2. Detalii ale rezultatelor

 

2.1 Metodologie Internet

 

Serviciile de căutare oferite în acces liber pe Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch ...) sunt instrumente extrem de puternice pentru că ele indexează o parte importantă a informațiilor prezentate în diferite spații ale Internetului (spațiul paginilor web, spațiul grupurilor de discuții, spațiile meniurilor sau ale documentelor Gopher, spațiul fișierelor accesibile în FTP. Acestea au fost concepute pentru căutarea de cuvinte sau de expresii în spațiile Internet, mai mult, unele oferă rezultate cantitative asupra numărului ocurențelor termenilor căutați. Acest "efect de limită" a fost utilizat de către autori pentru a măsura locul respectiv al limbilor și al culturilor latine în diverse spații culturale. Ei au decis să se concentreze asupra spațiilor Web și Usenet, care sunt cele mai reprezentative în evoluția Internetului2, fiind și cele unde serviciile acestuia sunt cele mai eficace.

 

2.2 Metodologia Lingvistică

 

Rezultatele metodologiei explicate mai jos se găsesc în Anexa 5 (Lista termenilor eșantionului de referință)

 

2.2.1 Echivalențe și distincții grafice

Autorii au decis să prelucreze termenii din punct de vedere lingvistic înainte de a-i prelucra statistico-informatic utilizând serviciile de căutare. O echipă lingvistică a lucrat independent în acest mod, elaborând serii de șase termeni sau "funcții" (una pentru fiecare limbă a studiului) care să fie în același timp echivalente între ele (în ceea ce privește semnificația acestora, încărcătura semantică, sintaxa și frecvența utilizării) și distincte adică neomografe 3 - fie între ele, fie în raport cu alți termeni ai limbilor studiate sau în raport cu alte forme ale limbilor foarte bine reprezentate pe Internet.

În realitate, autorii au căutat în mod sistematic să evite omografiile cu o singură limbă, dintre multe altele, care nu intră în cadrul studiului: germana - căci prezența sa pe Internet este fără îndoială considerabilă. Decizia de a evita formele de mai puțin de 4 litere a fost luată pentru a evita alte omografii posibile (mai ales cu siglele, dar nu numai cu acestea), restul trebuind să fie prelucrat la nivel statistic imediat ce intervalele semnificative vor fi apărut.

Omografiile între cel puțin două din limbile studiate au apărut extrem de frecvent, mai ales între spaniolă și portugheză, dar nu numai - engleza și formele sale de origine latină punând de asemenea probleme, ca și împrumuturile etc.

 

2.2.2 Cuvinte și variante

Fiecare cuvânt sau "funcție" comparat(ă) include sau poate include variante de diferite categorii:

flh_dr.gif (54 octets) Variante fără diacritice și altele "incorecte". În cele cinci limbi latine care includ semne diacritice (accente, sedile sau altele), au fost mereu incluse o variantă cu toate aceste semne și una fără - "incorectă" desigur, dar foarte frecventă pe Internet. S-a ținut de asemenea cont de anumite forme neacceptate de către anumite dicționare sau lipsind din acestea, deci tot "incorecte" , dar verosimil prezente pe Internet - munca informatico-statistică însărcinându-se să confirme această eventuală prezență.

flh_dr.gif (54 octets) În cazul limbilor "pluricentrice" , adică ale celor care au mai mult de un centru normativ (de ex.: limba spaniolă cu spaniola vorbită în Spania și cea vorbită în diferite țări ale Americii Latine, limba portugheză cu portugheza vorbită în Portugalia și cea vorbită în Brazilia), când aceasta s-a dovedit necesar, s-au luat în calcul variante sinonimice, fie lexicale, fie ortografice.

flh_dr.gif (54 octets) În cel puțin un caz, două cuvinte care au rădăcină comparabilă nu confirmă aceeași semnificație conform limbilor dar, în schimb, amândouă sunt echivalente: aceste două forme au fost incluse în calitate de variante cvasisinonimice ad hoc ale aceluiași cuvânt: parity / equality (en), paridad / igualdad (sp), parité / égalité (fr), parita / uguglianza / eguaglianza (it).

flh_dr.gif (54 octets) Autorii au inclus câ teodată, pentru a spori cantitatea formelor căutate, variante morfologice de număr (singular sau plural). De altfel, ei au fost obligați să includă variante morfologice de număr, de gen și chiar de caz (incluzând și diferența articulat / nearticulat) - mai ales pentru mai multe substantive românești - în toate limbile care prezintă aceste variații.

 

2.2.3 Tratarea diferențelor tipologice pertinente

Cele șase limbi studiate prezintă diferențe tipologice. Cele de care studiul a trebuit să țină seama scot în evidență morfosintaxa. Exceptând diferențele de variație de gen, de număr, de caz, menționate mai sus, e bine să reamintim că în engleză, care este o limbă sintetică, o singură și unică formă poate avea două valori sintactice (substantiv și verb), de altfel, cu mai multe variante morfologie în alte limbi și poate fi echivalentă cu prea multe forme ale acestora, ceea ce face compararea imposibilă sau inutil de costisitoare.

Particulele de genul prepozițiilor și pronumele au funcțiuni foarte diferite în funcție de limbile comparate, dar ele au fost în general îndepărtate de constrângerea evitării termenilor de mai puțin de patru litere.

A se vedea în anexa 6 toate aspectele care privesc criteriile aplicate selecției cuvintelor studiate.

2.2.4 Prelucrarea omografiilor restante

În ciuda eforturilor depuse, se mențin câteva omografii care trebuie tratate drept cazuri particulare, pentru a evita distorsionarea rezultatelor.

Cele mai frecvente sunt pluralele în "-IDADES" comune spaniolei și portughezei, care corespund cuvintelor în " -ités" din franceză ("uniformités" , "uniformidades" ), autorii au trebuit să caute, de asemenea, din forma lor la plural forma italiană în "-ita" care să corespundă în același timp și la singular și la plural. Deoarece numărarea formei în "-idades" dă un rezultat slab (sub 50), repartiția numărării între spaniolă și portugheză a fost făcută direct, prin observarea rezultatelor. În alte cazuri, am reluat numărarea între spaniolă și portugheză proporțional cu rezultatul indicat, pentru această formă, prin algoritmul de căutare/numărare pe limbă al serviciului AltaVista.

Există un caz de omografie pentru limba româ nă (CAL și CAI pentru "cal" : omografe ale altor cuvinte în spaniolă, în italiană, în portugheză ...). De aceea formele CAL și CAI n-au mai fost numărate, ceea ce defavorizează limba româ nă. De altfel, și forma CAII a fost de asemenea eliminată deoarece este omograf cu numeroase sigle de pe Internet.

LUNG ("plămân" în engleză) înseamnă "lung" în română. Efectul, foarte marginal de altfel, pentru limba engleză, nu a fost corectat.

FACA și FACAS înseamnă "cuțit" și respectiv "cuțite" în limba portugheză dar, în același timp, sunt două forme ale conjugării verbului a face (faça și faças, în varianta lor fără diacritice). Rezultatul indicat a fost calculat a posteriori luând ca referință media generală pentru portugheză, în așa fel încât aceasta să nu fie penalizată.

Forma MALADIE există în limba română cu același sens, dar este mai puțin folosită. Efectul este marginal. Forma BOLI (variantă de declinare a cuvântului franțuzesc MALADIE), care este o prescurtare foarte frecventă a cuvântului spaniol bolígrafo ("stilou"), a fost eliminată de la numărătoare.

JOI (în limba română) este un cuvânt compus din trei litere, deci susceptibil de omografii cu sigle. JOIA este omograf cu cuvântul jóia fără diacritice care înseamnă "bijuterie". Rezultatul a fost calculat extrapolând mediile.

MARTI este omograf cu numele unui personaj celebru (José Martí), fără diacritice, rezultatul său nu a fost contabilizat pentru cuvântul din limba română.

Scorul cuvântului francez MARDI a fost diminuat de scorul lui MARDI GRAS, pentru a nu contabiliza această formă englezească.

 

2.2.5 Prelucrarea altor semnificații neechivalente

Munca de filtrare și de inserare a formelor echivalente din punct de vedere semantic a eliminat riscul sensurilor neechivalente (ceea ce noi am numit alteori "coliziuni semantice" ) nedetectate de travaliul lingvistic.

Mai semnalăm că knife ("cuțit" în engleză) este utilizat câteodată ca verb "a înjunghia", deci, acest cuvânt favorizează limba engleză.

Cuvintele portugheze care denumesc zilele săptămânii sunt sub forma "quarta-feira", unde primul termen indică numărul zilei. Zilele mai sunt indicate uneori fără al doilea termen (quarta pentru quarta-feira). Această formă simplă nu a fost luată în calcul, pentru a evita o confuzie cu sensul "al patrulea" . Această decizie defavorizează limba portugheză pentru cele cinci zile selecționate (mai ales pentru spațiul Usenet, în care sunt frecvente abrevierile).

Notă metodologică: cantitatea site-urilor web indexate prin serviciul Hotbot pare a varia foarte mult de la o lună la alta. Nu s-au cunatificat toți termenii în același moment, compararea lor fiind întrucâ tva aleatorie. În schimb, pentru ceea ce ne interesează - ponderea relativă a limbilor -, proporțiile rămân sensibil aceleași oricare ar fi dimensiunea eșantionului indexat prin Hotbot.

 

2.2.6 Alte elemente lingvistice luate în considerație în realizarea studiului

Unul din elementele cele mai frustrante ale studiului a fost eșecul tentativei de lărgire a eșantionului prin utilizarea expresiilor în locul termenilor simpli. Echipa lingvistică a realizat un tabel cu cuvinte compuse sau expresii idiomatice plecând de la dicționare terminologice. A fost astfel constituit un nou eșantion de mai mult de șaizeci de termeni (de la 400 aleși la plecare). Totuși, primele măsurători au arătat o foarte mare dispersie a rezultatelor, mai ales în raport cu primul eșantion determinat. Din acest motiv, măsurătorile au fost întrerupte iar tentativa de reducere mai accentuată a mărimii intervalelor de încredere prin lărgirea eșantionului s-a soldat cu un eșec. Una din cauzele acestui fenomen aparține statisticii. Funcția matematică prin care se leagă numărul ocurențelor cuvintelor simple pe Internet poate fi legitim considerată ca fiind lineară: numărul citărilor în engleză (termen) = alpha x numărul citărilor în franceză (termen); am căutat să determinăm valoarea lui alpha printr-o eșantionare a cuvintelor simple. În schimb pentru expresii (cum ar fi " bunuri de consum" sau "cost al vieții"), funcția își pierde liniaritatea și funcția matematică poate deveni pătrată sau cubică, după cum expresia se compune din două sau trei cuvinte. În aceste condiții rezultatele se dovedesc a fi mai puțin coerente, bineînțeles, din cauza unor fenomene haotice.

Pentru a înțelege acest fenomen, este suficientă compararea ponderii relative a unei expresii cu cea a termenilor expresiei respective. Să cităm două exemplu:

În engleză Numărul citărilor
(AltaVista)
Raport E/F
"networks" 3 834 260  
"development" 21 258 510  
"networks and development" 201  
"foundation network and development" 9  
     
În franceză:    
"réseaux" 326 250 0,09
"développement" 909 790 0,04
"réseaux et développement" 61 0,30
"association réseaux et développement" 40 44

Reducerea numărului ocurențelor combinărilor de cuvinte simple este vertiginoasă (de la câteva milioane la 200!). În acest caz ne dăm seama că dimensiunea universului site-urilor Web nu este atât de mare cum pare la prima vedere.

Astfel, compararea expresiei "cost al vieții" dă următoarele rezultate aberante, unde engleza apare ca cea mai puțin frecventă:

"cost of life" en 597
"cout de la vie" fr 1 431
"costo de la vida" es 669
"custo de vida" pt 747
"costo della vita" it 899

 

2.3 Metodologie statistică

 

Intervalele de încredere pentru 90% și 99% din rezultate au fost stabilite utilizând distribuția T pentru Student 4, luâ nd ca ipoteză o distribuție de tip Normală.

 

2.3.1 Rezultatele măsurătorilor î n spațiul WWW cu serviciul de căutare HotBot

În tabelul din Anexa 7 este indicat, pentru fiecare limbă, numărul citărilor termenilor în spațiul WWW, contorizate grație serviciului de căutare HotBot.

Astfel, sunt luate în calcul toate citările în ansamblul paginilor Web la care se referă serviciul de căutare. Este prezentat mai jos numărul total al ocurențelor apărute, pentru toate conceptele și pentru fiecare limbă.

 

Engleză

Spaniolă

Franceză

Italiană

Portugheză

Română

TOTAL

57 246 318

1 469 252

1 673 864

742 335

439 229

74 631

 

2.3.2 Calcule statistice în spațiul WWW

Sunt prezentate mai jos procentajele medii care reprezintă prezența limbilor latine în raport cu limba engleză. A se vedea tabelul detaliat, cuvânt cu cuvânt, în anexa 8 (Calcule statistice în spațiul WWW).

 

Spaniolă

Franceză

Italiană

Portugheză

Română

MEDIE

3,37%

3,75%

2,00%

1,09%

0,20%

Abatere standard

3,07%

1,78%

1,76%

0,99%

0,33%

Coeficient de variație

0,96

0,69

0,94

0,95

1,27

Coeficientul de variație este rădăcina pătrată a abaterii standard la puterea a II-a împărțit la media la pătrat. O valoare superioară lui 1 indică o dispersie foarte mare deci o medie puțin fiabilă. O valoare inferioară lui 1 indică o dispersie slabă și deci un rezultat cu atât mai fiabil cu cât valoarea este mai mică.

 

2.3.3 Rezultatele măsurătorilor în spațiul Usenet utilizând serviciul de căutare DejaNews

În tabelul din anexa 9 este indicat, pentru fiecare limbă, numărul citărilor termenilor în spațiul Usenet, numărate cu ajutorul serviciului DejaNews, ale căror totaluri, pentru fiecare limbă, sunt:

 

Engleză

Spaniolă

Franceză

Italiană

Portugheză

Română

TOTAL

39 158 982

1 702 736

665 327

713 603

183 346

32 741

 

2.3.4 Calcule statistice în spațiul Usenet

Sunt prezentate mai jos procentajele medii reprezentând prezența limbilor latine în raport cu limba engleză. A se vedea tabelul detaliat, cuvânt cu cuvânt, în anexa 10.

 

Spaniolă

Franceză

Italiană

Portugheză

Română

MEDIE

2,41%

1,44%

2,54%

1,12%

0,14%

Abatere standard

1,37%

1,65%

2,74%

5,47%

0,48%

Coeficient de variație

0,75

1,07

1,04

2,21

1,83

 

2.4 Comparare cu alte studii

 

2.4.1 Comparație cu studiile precedente

Rapoartele engleză/franceză și franceză/spaniolă au evoluat în modul următor între primul studiu și cel prezent:

 

 

Engleză/franceză

franceză/spaniolă

engleză/spaniolă

martie 1996 (L1)

21,91

2,40

52,58

martie 1997 (L2)

19,99

1,92

38,38

martie 1998 (L3)

17,60

1,33

23,32

sept. 1998 (L4)

35,59

1,11

39,53

Trebuie spus că limbile latine sunt în regres în 1998 față de anii precedenți? Nu, bineînțeles! Această evoluție este rezultatul următoarelor cauze:

flh_dr.gif (54 octets) modificările apărute în metoda statistică. Pentru prezentul studiu, autorii au lucrat pe raportul franceză/engleză și nu invers, în așa fel încât să se obțină o distribuție normalizată (adică cifre cuprinse între 0 și 1).

flh_dr.gif (54 octets) un eșantion de referință diferit.

Este incontestabil că natura eșantionului de referință influențează foarte mult rezultatele mediei și ale coeficientului de variație. Aproape nici un termen al eșantionului original L1 nu ar fi răspuns ansamblului criteriilor filtrului lingvistic stabilit cu rigoare pentru studiul L4! Dacă metodologia statistică a prezentului studiu ar fi fost aplicată eșantionului original, coeficientul de variație ar fi fost net superior lui 1 și intervalele de încredere ar fi fost foarte largi.

Prelucrarea lingvistică a permis să se constate probabilitatea foarte mare de omografie între limbile latine. Eșantionul L1, determinat fără rigoare lingvistică, favoriza deci limbile latine, pe de o parte din cauza fenomenului omografiei, pe de altă parte din cauza unei alegeri a termenilor care nu erau destul de neutri din punct de vedere cultural.

În ceea ce privește tendințele, este foarte dificil să se stabilească o legătură între acest studiu, foarte riguros din punct de vedere lingvistic, și studiile precedente. Totuși, pornind de la noul eșantion constituit, ar putea începe, în viitor, o analiză științifică a evoluțiilor.

Una din concluziile prezentului studiu este imposibilitatea de a compara engleza cu o singură limbă neolatină, dată fiind marea probabilitate a unor omografii între limbile neolatine: într-adevăr, ocurențele unei aceleiași forme ar putea fi atribuite unei singure limbi, când de fapt ar trebui repartizate între mai multe limbi (astfel, forma "familia" înseamnă "familie" în același timp în spaniolă, în portugheză și în română).

Aceasta dovedește necesitatea unei asocieri între Agence de la Francophonie și Uniunea Latină pentru conducerea acestui studiu

 

2.4.2 Comparație cu Alis și AltaVista

Cu ocazia studiului L3 a fost făcută o comparație cu studiul Alis Technologies care punea sub semnul întrebării rezultatele acestuia, care supraestimau prezența limbii engleze. Rezultatele prezentate mai jos, considerate acum drept fiabile, au arătat o supraestimare a limbii franceze într-o proporție importantă (aproape 100%). Aceasta înseamnă că rezultatele Alis ar fi mai aproape de realitate decât păreau? Nu cu adevărat! Într-adevăr, dacă această comparare este restabilită azi în lumina rezultatelor mai riguroase care au fost obținute, atunci cifrele sunt mai apropiate de cele oferite de algoritmul de recunoaștere a limbilor AltaVista, dar rămân, totuși, departe de cele oferite de Alis, care continuă să favorizeze limba engleză, conform rezultatelor studiului nostru.

Rezultatele studiului Alis sunt cele publicate pe Internet dar care nu au fost actualizate la data studiului nostru. Cele oferite de AltaVista sunt obținute grație metodei "complementului ansamblului vid" , descrisă în studiul L3. Comparațiile sunt realizate luând ca ipoteză un procentaj identic în engleză.

 

Tabelul 7:
Tabel comparativ cu rezultatele studiilor AltaVista și Alis

  ALTAVISTA ALIS

Agence de la Francophonie UL/FUNREDES

ANY

107 958 869

% FĂRĂ % CU (*) FĂRĂ CU comparație
  CORECȚIE CORECȚIE

AltaVista

Alis

ENGLEZĂ

70 065 677

64,90%

76,35%

84,00

82,30

76,35%

82,30

JAPONEZĂ

4 369 675

4,05%

4,76%

3,10

1,6

   
GERMANĂ

4 009 554

3,71%

4,37%

4,50

4,00

   
FRANCEZĂ

1 951 446

1,81%

2,13%

1,8

1,5

2,86

3,08

SPANIOLĂ

1 495 195

1,38%

1,63%

1,20

1,10

2,57

2,77

ITALIANĂ

1 490 109

1,38%

1,62%

1,00

0,80

1,53

1,65

PORTUGHEZĂ

905 676

0,84%

0,99%

0,70

0,70

0,83

0,90

ROMÂNĂ

28 052

0,03%

0,03%

   

0,15

 
 
RESTUL

23 643 485

 

25,77%

  Site-uri multilingve  
RESTUL CORECTAT

7 449 655

 

8,12%

 

15%

   

 

Comparare cu cifrele obținute de studiul AltaVista

În raport cu rezultatele studiului nostru:

1) rezultatele studiului AltaVista pentru limba engleză par fiabile.
2) rezultatele studiului AltaVista pentru limba franceză este subestimat cu 35%.
3) rezultatele studiului AltaVista pentru limba spaniolă este subestimat cu 58%.
4) rezultatele studiului AltaVista pentru limba italiană este supraestimat cu 6%.
5) rezultatul pentru limba portugheză al studiului AltaVista este supraestimat cu 16%.
6) rezultatul pentru limba română este subestimat cu 403%.

Comparație cu rezultatele obținute de Alis Technologies

În raport cu rezultatele studiului nostru:

1) Rezultatul Alis pentru limba engleză ni se pare prea mare.
2) Rezultatul Alis pentru le limba franceză este subestimat cu 106%.
3) Rezultatul Alis pentru limba spaniolă este subestimat cu 152%.
4) Rezultatul Alis pentru limba italiană este supraestimat de 106%.
5) Rezultatul Alis pentru limba portugheză este supraestimat de 28%.
6) Alis nu ia în calcul limba română.

 

Tabelul 8:
Sinteză comparativă a celor patru metode

 

EN/FR

FR/SP

EN/SP

METODA ALTAVISTA
"COMPLEMENTUL ANSAMBLULUI VID"

35,90

1,31

46,86

METODA ALIS

46,67

1,36

63,64

METODA FUNREDES APROX.

17,60

1,33

23,32

METODA FUNREDES/UL/AGENCE DE LA FRANCOPHONIE

35,59

1,11

39,53

 

3. Perspective pentru o observare continuă

 

Este deci acum posibil să se determine cu regularitate dimensiunile, pornind de la același eșantion lingvistic, și prin urmare să se evalueze evoluția diferitelor limbi neolatine atât față de engleză cât și între ele. Pentru aceasta, ar fi de dorit să se automatizeze procesele de măsurare și de analiză a rezultatelor.

 

4. Referințele, pe Internet, ale lucrărilor conexe

În ceea ce privește, în general, ponderea limbilor în spațiu WWW Internet, singura referință comună, pe care am menționat-o deja, este Alis Technologies:
Palmaresul limbilor Internetului: <http://babel.alis.com:8080/palmares.html>.

Acest site măsoară, pe limbi, spațiile utilizatorilor:
"Global statistics by language": <http://www.euromktg.com/globstats/>.

Pentru anumite spații lingvistice, anumite grupuri sau anumite persoane lucrează la adunarea informației existente și/sau la interpretarea acesteia:

Pentru spațiul francofon, CIDIF, cu sprijinul Agence de la Francophonie, a realizat și gestionează stadiul dezvoltării și utilizării rețelei î n spațiul francofon: <http://www1.cidif.org/franco>

Pentru spațiul hispanic lucrează doi cercetători la tema prezenței limbii spaniole  pe Internet:

José Millan, care a publicat mai multe articole accesibile pe Internet la adresa:
<http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>

Institutul Cervantes gestionează un Observator spaniol al ingineriei lingvistice:
<http://www.cervantes.es/oeil/Oeil0.htm>

Există, de asemenea, un recensămâ nt, actualizat î n mod regulat, al datelor statistice pe Internet din America Latină și Caraibe: <http://www.cr/latstat/>.
Cifrele sunt determinate aici plecâ nd de la sursa de referință obișnuită pentru acest gen de statistici: Network Wizard (<
http://www.nw.com>).

Mai rămâ n referințele generale ale statisticilor referitoare la Internet, care, î n prezent, nu cuprind capitole separate dedicate limbilor sau culturilor :
Matrix News, care realizează studii demografice pe Internet: <http://mids.org> 5

Un alt "clasic" al Internetului este Universitatea Georgia Tech, care realizează sondaje foarte riguroase despre utilizatorii spațiului WWW: <http://www.gvu.gatech.edu/user_surveys/>


2 Spațiul (FTP), numelor fișierelor nu prezintă caracteristicile dorite: poate exista aici corelația între numele fișierelor și limbă, dar aceasta este prea ocazională pentru a fi semnificativă. Spațiul Gopher, foarte legat din punct de vedere istoric de lumea universitară, a încetat să se mai extindă de câțiva ani.

flh_up.gif (64 octets)

3 În afara unei indicații contrare, vorbim de omografii translingvistice: omografele în interiorul unei aceleiași limbi vor fi considerate, în principiu, ca fiind un singur cuvânt (semn).

flh_up.gif (64 octets)

4 John E. Freund, "Mathematical Statistics", ediția a II-a, 1972, Prentice Hall International. Capitolul 9 "Estimation".

flh_up.gif (64 octets)

5 A tradus în engleză și a publicat studiile L1, C1, L2 și L3 în revista Matrix News.

 

Continuare

Cultura