Româna
[es - fr - it - pt]

Publicatii
Studiu asupra locului limbii franceze pe Internet
Introducere
Metodologie
Limitele metodologiei
Antecedente
Locul ocupat de limba franceză pe Internet
Alegerea motorului de căutare pentru acest studiu
Rezultate relative
Ipoteze privind noua evoluţie
Rezultate absolute 2003
Repartiţia paginilor in limba franceza pe ţari
Concluzii
Anexe

Pe scurt
Terminometro
Termilat
Agenda
Manifestari
Reuniuni care
au avut lac
Studiu asupra locului limbii franceze pe Internet

Locul ocupat de limba franceză pe Internet  

 

Alegerea motorului de căutare pentru acest studiu

Motorul de căutare utilizat pentru măsurarea locului ocupat de limba franceză pe Internet este Google. Motivele acestei alegeri sunt talia indexului său, coerenţa rezultatelor, precum şi volumul informaţiilor disponibile [9]. Rapiditatea sa de răspuns în tratarea căutărilor a constituit un atu suplimentar.

Rezultate relative

PREZENŢA RELATIVĂ PE INTERNET ÎN RAPORT CU LIMBA ENGLEZĂ
 
februarie 2002
decembrie 2002
SPANIOLĂ
11,60%
10,83%
FRANCEZĂ
9,60%
8,82%
ITALIANĂ
6,51%
5,28%
PORTUGHEZĂ
5,62%
4,55%
ROMÄNĂ
0,33%
0,23%
GERMANĂ
14,41%
13,87%

 

Faţă de valorile anului 2002, se remarcă un regres net al limbilor latine în raport cu limba engleză, şi aceasta pentru prima dată de la începutul studiilor noastre. Graficul următor prezintă o viziune mai generală a evoluţiei procentajului relativ la limbile latine în raport cu limba engleză în cursul ultimilor 5 ani.

Evoluţia limbilor latine şi a limbii germane în raport cu limba engleză a trecut prin trei faze: o dezvoltare importantă între 1998 şi 2000 [10], urmată de o stagnare în 2001 şi în fine de un regres începând cu 2002.

Ipoteze privind noua evoluţie

Odată eliminate eventualele erori în utilizarea motoarelor [11], regresul şi scăderea ponderii limbilor latine şi a limbii germane pe Internet începând cu 2002 s-ar putea explica prin mai mulţi factori (şi combinarea acestora):

Scăderea sensibilă a producţiei de pagini web în diferitele sectoare lingvistice latine şi germanofone.

Influenţa indirectă a limbilor neluate în consideraţie în acest studiu.

Creşterea importantă a numărului de pagini în limba engleză.

O situaţie particulară legată de motoarele de căutare.

Reducerea producţiei de pagini web în diferitele sectoare lingvistice studiate

Reducerea producţiei în ţările de limbă latină sau germanică este puţin probabilă. Cifrele avansate de Global Reach [12] arată că proporţia de internauţi de limbă latină sau germanofonă nu a încetat să crească începând cu 2001. Numărul total de utilizatori conectaţi la Internet în 2003 este estimat la 622 milioane [13] faţă de 452 milioane în 2001. În aceaşi perioadă, proporţia de internauţi anglofoni trece de la 47% la 37%, în timp de proporţia de locutori de limbi latine sau germanice trece de la 20% la 26%, ceea ce implică o reducere a distanţei de mai bine de 15%. Rezultatele precedente ale studiului LC al FUNREDES au subliniat o corelaţie aproape lineară între proporţia de pagini produse într-o limbă dată şi proporţia de internauţi vorbitori ai acestei limbi. Regresul uniform al limbilor studiate în raport cu limba engleză întăreşte convingerea că trebuie căutată în altă parte cauza acestui nou fenomen.

Influenţa limbilor care nu au fost luate în consideraţie pentru acest studiu

În ultimii trei ani, ponderea limbilor non-europene pe Internet a crescut în mod sensibil. Potrivit Global Reach, în decurs de un an, proporţia de internauţi vorbitori de limbi netrate în cadrul studiului FUNREDES a trecut de la 32% la 37%, cu un record înregistrat pentru populaţia de internauţi chinezi, care se apropie acum de 70 de milioane (mai mult de 10% din populaţia totală).

În condiţiile în care rezultatele brute ale studiului FUNREDES derivă din relaţia dintre limbile latine şi limba engleză, producţia de pagini în alte limbi nu ar trebui să aibă o influenţă directă. Totuşi, rămâne plauzibilă ideea că această populaţie de noi internauţi (provenită mai ales din Asia) ar putea produce pagini în limba engleză în mod semnificativ [14], ceea ce ar consolida creşterea numărului de pagini în limba engleză, explicând în acelaşi timp astfel scăderea (relativă) a rezultatelor în limbi latine şi în limba germană.

Această ipoteză a fost infirmată de un studiu complementar asupra repartiţiei lingvistice a Internetului în limba engleză între diferitele domenii vizate (în particular, .cn şi .kr [15]). Rezultatele au arătat că producţia de pagini în limba engleză în afara domeniilor generice (.com, .net, .edu) şi a domeniilor naţionale ale principalelor ţări anglofone (.us, .uk, .au, .ca) este foarte redusă [16]. Detalierea rezultatelor acestui studiu complementar este disponibilă în anexa 2.

Creşterea considerabilă a numărului de pagini în limba engleză

O explicaţie perfect acceptabilă ar fi oferită de relativa creştere a producţiei de pagini web în limba engleză a ţărilor anglofone (Statele Unite, Canada, Marea Britanie şi Australia), în măsura în care acest fapt s-ar traduce printr-o scădere uniformă a proporţiei de pagini în celelalte limbi. Cu toate acestea, nimic nu ar permite explicarea unui asemenea fenomen, mai ales în condiţiile în care proporţia de internauţi anglofoni este în continuă scădere. Chiar dacă nu putem înlătura definitiv posibilitatea unei creşteri a producţiei de pagini web în limba engleză, analiza desfăşurată ne face să favorizăm în mod special o ultimă ipoteză, aceea a unei situaţii induse de utilizarea motoarelor de căutare în metodologia propusă.

Situaţie legată direct de motoarele de căutare

Nu există cifre sigure referitoare la numărul total al paginilor existente pe Internet. Printre studiile cele mai recente, Cyveillance aprecia, în iulie 2000, că Internetul conţine mai bine de 2 miliarde de pagini în creştere exponenţială. Am putea estima, pornind de la acest studiu şi sprijinindu-ne pe alte surse, că talia Internetului, în 2003, este de ordinul a 20 de miliarde de pagini. Alte studii [17] analizau fenomenul "web-ului invisibil" [18] şi evaluau, în 2000, numărul paginilor web la mai bine de 500 de miliarde.

Numărul de pagini existente pe Internet este un factor-cheie în evaluarea motorului de căutare care va fi utilizat pentru studiu. Dacă studiem cifrele oferite de Cyveillance şi cele prezentate de Google privind talia indexului său în 2000, putem considera că Google indexa jumătate din paginile prezente pe Internet la această dată (coeficientul propus era acelaşi pentru Altavista între 1996 şi 1999). Am putea deci deduce cu o anumită siguranţă că indexul motoarelor de căutare oferea o bună imagine statistică a repartiţiei limbilor pe Internet.

Pornind însă de la ipoteza de 20 de miliarde de pagini existente pe Internet în 2003, Google nu mai indexează decât 15% din totalitatea spaţiului web vizibil. În acest context, este evident că proprietăţile statistice ale eşantionului indexat vor avea o puternică influenţă asupra rezultatelor noastre, în condiţiile în care ceea ce măsuram în mod obiectiv este procentajul de pagini indexate într-o limbă dată în raport cu paginile indexate în limba engleză [19].

Modul de indexare Google se bazează pe criteriul de popularitate al unei pagini [20]. Obiectivul urmărit de acest criteriu este favorizarea paginilor celor mai vizitate şi mai citate în ordinea prezentării răspunsurilor la o căutare. Cu toate acestea, una din consecinţele folosirii acestui criteriu este eliminarea din spaţiul de căutare a paginilor spre care numărului de linkuri este foarte redus sau provine de la site-uri considerate ele însele drept puţin populare. Este evident că aceasta metoda are tendinţa de a amplifica distanţele în ambele sensuri (accelerând vizibilitatea paginilor bine citate şi, în acelaşi timp, limitând progresul paginilor neindexate). De asemenea, este limpede că această metodă favorizează paginile cele mai vechi – care au avut timp să îşi constituie o reţea de popularitate – şi penalizează paginile recente, mai ales în cazul limbilor mai puţin răspândite, probabilitatea linkurilor desemnându-le fiind cu atât mai redusă.

În condiţiile în care comunitatea de internauţi anglofoni este cea mai numeroasă şi cu cea mai mare tradiţie pe Internet, putem deduce în mod rezonabil că paginile în limba engleză au o probabilitate mai mare de a fi prezente în cadrul unei indexări parţiale a paginilor web. Cum motoarele de căutare indexează, începând cu 2001, un procentaj din ce în ce mai redus de pagini, putem deci considera în mod legitim că Internetul în limba engleză este din ce în ce mai favorizat. Aceasta ar fi situaţia cea mai plauzibilă pentru explicarea scăderii relative a ponderii limbilor latine şi a limbii germane faţă de limba engleză în cadrul studiului FUNREDES între 2002 şi 2003.

Această derivă a motoarelor de căutare ridică în mod evident problema validităţii ultimelor rezultate ale acestui studiu şi a metodologiei utilizate. Pentru elucidarea acestei situaţii, trebuie avute în vedere următoarele observaţii:

1) Studiul de faţă rămâne, până în prezent (!), singurul care produce rezultate cifrate în mod regulat, păstrând o totală transparenţă asupra metodelor şi a procedurilor folosite.

2) Care este de fapt existenţa reală a unei pagini web neindexate de motoarele de căutare? Punctul de vedere al utilizatorilor este condiţionat în mod implicit de viziunea motoarelor de căutare asupra Internetului. Astfel, o pagină neindexată este virtual inexistentă, chiar dacă ea există în spaţiul virtual !

Noile rezultate ale studiului FUNREDES/Uniunea Latină nu mai prezintă repartiţia lingvistică a Internetului, ci repartiţia lingvistică a Internetului făcut vizibil de către motoarele de căutare. Această constatare are în mod evident importante implicaţii asupra politicilor eficace referitoare la producţia de conţinuturi într-o limbă dată, cum va fi explicat în cadrul concluziei.

Rezultate absolute 2003

Repartiţia absolută a limbii engleze, a limbilor latine şi a limbii germane pe Internet este determinată pornind de la cifrele relative obţinute de FUNREDES şi de la alţi factori, cum ar fi: numărul de internauţi pe limbă, compararea cu rezultatele precedente, precum şi alte studii paralele. Se poate estima deci că rezultatele sunt fiabile cu o marjă de eroare de mai mult sau mai puţin 10%.

Prezenţă absolută pe Web
ENGLEZĂ
45,0%
SPANIOLĂ
4,87%
FRANCEZĂ
3,97%
ITALIANĂ
2,38%
PORTUGHEZĂ
2,05%
ROMÄNĂ
0,10%
GERMANĂ
6,24%
ALTE LIMBI
35,39%

Relaţia dintre numărul de locutori şi prezenţa acestora pe Internet

Este evident că valorile de prezenţă absolută nu constituie un indicator perfect al vigorii unei limbi în cadrul reţelelor. Pentru a obţine un rezultat semnificativ, valorile care exprimă prezenţa limbilor pe Internet trebuie adaptate la dimensiunile prezenţei acestora în lumea reală. Prezenţa relativă a acestor limbi este calculată fără a ţine cont neapărat de factorul "plurilingvism". Această metodă prezintă dificultăţi metodologice care au fost descrise în cadrul studiului L4.

Ponderea limbilor studiate
(sursă Uniunea Latină [21] - cifre rotunjite în milioane, 2000)

 
Engleză
Spaniolă
Franceză
Italiană
Portugheză
Română
Germană
Prezenţă absolută (număr de locutori)
630
375
130
60
190
30
120
Prezenţă relativă (procentaj mondial)
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2%

 

Prezenţă ponderată pe Internet

 
Prezenţă absolută 2003
Prezenţă ponderată 1998
Prezenţă ponderată 2000
Prezenţă ponderată 2003
ENGLEZĂ
45%
7,14
5,71
4,29
SPANIOLĂ
4,87%
0,40
0,78
0,78
FRANCEZĂ
3,97%
1,30
2,02
1,83
ITALIANĂ
2,38%
1,50
2,77
2,38
PORTUGHEZĂ
2,05%
0,26
0,68
0,65
ROMÄNĂ
0,10%
0,30
0,38
0,21
GERMANĂ
6,24%
Indisponibil
3,15
3,12

Un coeficient egal cu 1 este considerat drept un rezultat "normal"; dacă este mai mic decât 1, este considerat drept redus iar dacă este mai mare decât 1, drept respectabil.

Vitalitatea producţiei de informaţii a internauţilor pe limbi

Un studiu al Global Reach [22] propune următoarele valori ale numărului de utilizatori Internet pe limbi:

Raportând aceste rezultate la cele obţinute în cadrul studiului nostru, putem deduce care sunt segmentele lingvistice care produc cele mai multe informaţii pe Internet.

Productivitatea locutorilor

 
Pagini
Internauţi
P/I
ENGLEZĂ
45%
37%
1,22
SPANIOLĂ
4,87%
7,6%
0,64
FRANCEZĂ
3,97%
4,2%
0,95
ITALIANĂ
2,38%
3,9%
0,62
PORTUGHEZĂ
2,05%
3,1%
0,67
ROMÂNĂ
0,10%
0,4%
0,28
GERMANĂ
6,24%
6,8%
0,92

 

După engleză, franceza este limba cea mai bine plasată pe Internet, în raport cu numărul de internauţi francofoni.


 
 

[9] Google Watch de exemplu.

[10] Se observă că prezenţa limbii franceze depăşeşte pe cea a limbii spaniole începând cu 1999.

[11] În noiembrie 2002, nici Google, nici AlltheWeb nu prezentau rezultate consistente (tratament nesatisfăcător al semnelor diacritice, rezultate aleatorii). În decembrie 2002, o nouă serie de măsurători au arătat că Google prezenta din nou rezultate coerente pentru studiul nostru.

[12] http://www.glreach.com/globstats/. Global Reach desfăşoară de mai mulţi ani o muncă de compilare privind numărul de utilizatori Internet clasaţi pe limbi şi pe ţări. Chiar dacă sursele utilizate nu sunt destul de consistente pentru a construi indicatorii respectivi (cărora le conferim o încredere de + 20%), acesta rămâne un instrument suficient de fiabil pentru determinarea tendinţele.

[13] Rezultatele în limba franceză au fost actualizate pornind de la informaţiile oferite de site-ul http://www.mediametrie.fr care a servit drept sursă pentru Global Reach.

[14] De exemplu, o prezenţă de ordinul a 5% din paginile în limba engleză aparţinând domeniul chinez (.cn) ar avea o influenţă semnificativă, ţinând cont de viteza de dezvoltare a acestui domeniu. O asemenea cifră ar fi plauzibilă în condiţiile în care internauţii vorbitori de limbă chineză reprezintă în momentul de faţă mai mult de 10% din populaţia mondială de internauţi.

[15] China şi Coreea.

[16] De exemplu, numai 0,25% din paginile web în limba engleză aparţin domeniului .cn.

[17] Studiul BrightPlanet de exemplu: http://www.brightplanet.com/.

[18] "Web-ul invizibil" este partea din Internet neindexată de către motoarele de căutare şi care, potrivit BrightPlanet, este de 400 de ori mai importantă numeric decât partea indexată de aceste motoare. Web-ul invizibil ar cuprinde paginile web despre care nu există referinţe (nici un link nu indică aceste pagini), paginile protejate prin parolă, documente în formate neindexabile, numeroasele baze de date, precum şi reţelele Intranet. Informaţii suplimentare (în limba engleză):
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp.

[19] Persoanelor care s-ar putea mira de desfăşurarea unui asemenea arsenal metodologic, în condiţiile în care motoarele de căutare sunt ele însele capabile să recunoască limbile şi când le este posibil, cu puţină ingeniozitate, să producă propriul lor calcul al paginilor pe limbi (vezi metoda complementului ansamblului vid la adresa: http://www.funredes.org/LC/francais/L3.html), trebuie să le răspundem că studiile noastre au demonstrat în mod consistent că aceşti algoritmi nu sunt fiabili sau, în orice caz, nu suficient de fiabili pentru a măsura locul limbilor pe Internet.

[20] Popularitatea unei pagini web depinde de numărul celorlalte pagini care fac referinţă la ea (număr de linkuri), precum şi de popularitatea site-ului de la care sunt stabilite aceste referinţe, originalitatea metodei bazându-se pe recurenţa indirectă astfel introdusă.

[21] Explicaţii suplimentare:
http://www.unilat.org/dtil/lenguainternet/ro/limba/limba_anexa#ANEXA 2 .

[22] http://www.glreach.com/globstats





131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster