Italiano
[es - fr - pt - ro]

Publicazioni
Studio sul posto del francese in Internet
Introduzione
Metodologia
Limiti della metodologia
Antecedenti
Il posto del francese nella rete
Scelta del motore per questo studio
Risultati relativi
Ipotesi relativa alla nuova evoluzione
Risultati assoluti 2003
Ripartizione delle pagine in francese per paese
Conclusioni
Allegati

Scorciatoie
Terminometro
Termilat
Calendario
Manifestazioni
Manifestazioni passate
Studio sul posto del francese in Internet

Il posto del francese nella rete  

 
 

Scelta del motore per questo studio

Il motore di ricerca utilizzato per misurare il posto del francese è Google. Le ragioni di questa scelta sono la dimensione del suo indice, la coerenza dei suoi risultati, come pure l'ampiezza delle informazioni disponibili [9] che lo riguardano. Un punto supplementare è quello della rapidità di risposta alle richieste.

Risultati relativi

PRESENZA RELATIVA NELLA RETE RISPETTO ALL’INGLESE
 
febbraio 2002
dicembre 2002
SPAGNOLO
11,60%
10,83%
FRANCESE
9,60%
8,82%
ITALIANO
6,51%
5,28%
PORTOGHESE
5,62%
4,55%
ROMENO
0,33%
0,23%
TEDESCO
14,41%
13,87%

 

Si nota un netto regresso delle lingue latine rispetto all'inglese confrontando i valori del 2002, e questo per la prima volta dall'inizio dei nostri studi. La grafica che segue presenta una visione più generale dell'evoluzione della percentuale relativa delle lingue latine rispetto all'inglese nel corso dei ultimi 5 anni.

 

L’evoluzione delle lingue latine e del tedesco rispetto all'inglese è passata attraverso tre fasi : un forte aumento tra il 1998 e il 2000 [10], seguito da una stagnazione nel 2001 e infine un calo a partire dal 2002.

Ipotesi relativa alla nuova evoluzione

Una volta eliminati i possibili errori nell'utilizzo dei motori [11], il rallentamento e il calo di peso delle lingue latine e del tedesco nella Rete a partire dal 2002 potrebbero spiegarsi attraverso più fattori (e la loro combinazione) :

Il sensibile rallentamento della produzione di pagine web nei vari settori linguistici latini e germanici.

L’influenza indiretta delle lingue non prese in considerazione nello studio.

L'aumento importante del numero di pagine in inglese.

Una situazione particolare legata ai motori di ricerca.

Rallentamento della produzione di pagine web nei vari settori linguistici studiati

Il rallentamento della produzione nei paesi di lingua latina o germanica è poco probabile. Le cifre di Global Reach [12] mostrano che la proporzione di internauti di lingua latina o di espressione tedesca non ha cessato di aumentare dal 2001. Il numero totale di utilizzatori connessi a Internet nel 2003 è stimato in 622 milioni [13] contro i 452 milioni nel 2001. Nello stesso periodo, la proporzione di internauti anglofoni passa dal 47% al 37%, mentre la proporzione di locutori delle lingue latine o germaniche passa dal 20% al 26%, il che implica una riduzione di più del 15% dello scarto. I risultati precedenti dello studio LC di FUNREDES hanno mostrato una correlazione quasi lineare tra la proporzione di pagine prodotte in una lingua data e la proporzione di internauti locutori di questa lingua. Il calo uniforme delle lingue studiate rispetto all'inglese rafforza la convinzione che bisogna cercare altrove la causa di questo nuovo fenomeno.

Influenza delle lingue non prese in considerazione nello studio

Da tre anni, il peso delle lingue non europee su Internet cresce sensibilmente. Secondo Global Reach, in un anno, la proporzione di internauti locutori delle lingue non coperte dallo studio di FUNREDES è passato dal 32% al 37% con un record per la popolazione di internauti cinesi che adesso si avvicinano ai 70 milioni (più del 10% del totale).

Nella misura in cui i risultati lordi dello studio di FUNREDES derivano da una relazione tra le lingue latine e l’inglese, la produzione di pagine in altre lingue non dovrebbe avere un'influenza diretta. Ciononostante, è plausibile che questa popolazione di nuovi internauti (soprattutto venuti dall'Asia) possa produrre in inglese in modo significativo [14], il che rafforzerebbe la crescita delle pagine in inglese e spiegherebbe dunque il calo (relativo) simultaneo dei risultati delle lingue latine e del tedesco.

Questa ipotesi è stata invalidata da uno studio complementare della ripartizione linguistica di Internet in inglese tra i vari domini presi in considerazione (in particolare, .cn e .kr [15]). E' risultato che la produzione delle pagine in inglese al di fuori dei domini generici (.com, .net, .edu) e dei domini nazionali dei principali paesi anglofoni (.us, .uk, .au, .ca) è molto debole [16]. Il dettaglio dei risultati di questo complemento di studio è disponibile nell'allegato 2.

Aumento importante del numero di pagine in inglese

Un aumento relativo di crescita nella produzione delle pagine in inglese da parte dei grandi paesi anglofoni (Stati Uniti, Canada, Regno Unito e Australia) sarebbe una spiegazione assolutamente plausibile nella misura in cui si traducesse con un abbassamento uniforme della proporzione di pagine nelle altre lingue. Ciononostante, nulla permetterebbe di spiegare un tale fenomeno, soprattutto nella misura in cui la proporzione di internauti anglofoni non cessa di diminuire. Sebbene nulla faccia scartare formalmente la possibilità di un aumento della produzione delle pagine web in inglese, la nostra analisi ci porta a favorire piuttosto l'ultima ipotesi, quella cioè di una situazione conseguente all'utilizzo dei motori di ricerca nella nostra metodologia.

Situazione legata ai motori di ricerca

Non ci sono cifre sicure relative al numero totale di pagine della Rete. Tra gli studi più recenti, Cyveillance stimava, nel luglio 2000, che Internet contenesse più di 2 miliardi di pagine e che la crescita era esponenziale. Si potrebbe stimare, partendo da questo studio e da altri confronti, che la dimensione della Rete, nel 2003, è dell'ordine di 20 miliardi di pagine. Altri studi [17] analizzano il fenomeno del "web invisibile" [18] e stimavano, nel 2000, il numero di pagine web in più di 500 miliardi.

Il numero di pagine della Rete è un fattore chiave nella valutazione del motore di ricerca che verrà utilizzato per lo studio. Se si considerano le cifre di Cyveillance e quelle presentate da Google relative alla dimensione del suo indice nel 2000, possiamo dire che Google registrava la metà delle pagine presenti in Internet a quella data (l’ordine di grandezza era lo stesso per AltaVista tra il 1996 e il 1999). Potevamo quindi dedurne con una certa sicurezza che l'indice dei motori di ricerca dava una buona immagine statistica della ripartizione delle lingue nella Rete.

Con una ipotesi di 20 miliardi di pagine in Internet nel 2003, Google non registra più del 15% dello spazio web visibile totale. In questo contesto, è chiaro che le proprietà statistiche del campione indicizzato hanno una forte influenza sui nostri risultati, in quanto quello che noi misuriamo obiettivamente è la percentuale di pagine indicizzate in una lingua data rispetto alle pagine indicizzate in inglese [19].

Il modo di indicizzazione di Google si basa sul criterio di popolarità di una pagina [20]. Lo scopo di questo criterio è di favorire le pagine più visitate e le più referenziate in ordine di apparizione delle risposte alle richieste. Ciononostante, una delle conseguenze è che elimina dallo spazio di ricerca le pagine verso le quali il numero di link è molto debole o provengono da siti essi stessi considerati come poco popolari. E' chiaro che questo metodo tende ad amplificare gli scarti in questi due sensi (accelera la visibilità delle pagine che sono ben referenziate e, allo stesso tempo, limita lo sviluppo delle pagine non indicizzate). E' anche logico che il metodo favorisca le pagine più vecchie –che hanno avuto il tempo di farsi una nicchia di popolarità– e penalizza le pagine nuove, soprattutto nelle lingue poco diffuse dato che la probabilità di link sarà ancora più debole.

Nella misura in cui la comunità degli internauti anglofoni è la più numerosa e la più vecchia in Internet, si può ragionevolmente dedurre che le pagine in inglese hanno una probabilità più forte di essere presenti in occasione di una indicizzazione parziale delle pagine. Dato che i motori di ricerca indicizzano, dal 2001, una percentuale sempre più debole di pagine, si può dunque legittimamente pensare che Internet in inglese è sempre più favorito. E' la situazione più plausibile per spiegare il calo relativo del peso delle lingue latine e del tedesco rispetto all'inglese nello studio di FUNREDES tra il 2002 e il 2003.

Questa deriva dai motori di ricerca si basa certamente sulla questione della validità degli ultimi risultati di questo studio e della metodologia impiegata. Due fattori sono da prendere in considerazione per rispondere a questo fatto:

1) Questo lavoro resta, ancora oggi (!), il solo a produrre delle cifre in modo regolare e con una totale trasparenza sui metodi e i procedimenti utilizzati.

2) Qual è la reale esistenza di una pagina non indicizzata da un motore? La visione della Rete da parte dei motori di ricerca condiziona implicitamente la visione degli utilizzatori. Una pagina non indicizzata è virtualmente inesistente, sebbene esista nello spazio virtuale !

I risultati dello studio FUNREDES/Unione Latina non presentano più la ripartizione linguistica della Rete, bensì la ripartizione linguistica della Rete resa visibile dai motori di ricerca. Questa constatazione ha evidentemente delle forti implicazioni sulle politiche efficaci per i contenuti in una data lingua, come sarà spiegato nel capitolo conclusivo.

Risultati assoluti 2003

La ripartizione assoluta dell'inglese, delle lingue latine e del tedesco in Internet viene determinata partendo dalle cifre relative ottenute da FUNREDES, altri fattori quali il numero di internauti per lingua, un confronto con i risultati precedenti, nonché studi paralleli. Si possono stimare risultati affidabili in una forchetta di più o meno il 10%.

Presenza assoluta nella Rete
INGLESE
45,0%
SPAGNOLO
4,87%
FRANCESE
3,97%
ITALIANO
2,38%
PORTOGHESE
2,05%
ROMENO
0,10%
TEDESCO
6,24%
ALTRE LINGUE
35,39%

Relazione tra il numero dei locutori e la loro presenza nella Rete

E' evidente che i valori di presenza assoluta non sono un perfetto indicatore del vigore di una lingua nelle reti. Per ottenere un risultato significativo, è opportuno fare una proporzione dei valori che esprimono la presenza delle lingue in Internet con l'auna della loro presenza nel mondo reale. La presenza relativa di queste lingue viene calcolata senza tener pienamente conto del fattore "plurilinguismo". Questo metodo comporta degli scogli metodologici che vengono descritti nello studio L4.

Peso delle lingue studiate
(Fonte Unione Latina
[21] - cifre arrotondate in milioni, 2000)

 
Inglese
Spagnolo
Francese
Italiano
Portoghese
Romeno
Tedesco
Presenza assoluta (numero di locutori)
630
375
130
60
190
30
120
Presenza relativa (percentuale mondiale)
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2%

 

Presenza ponderata nella Rete

 
Presenza assoluta 2003
Presenza ponderata 1998
Presenza ponderata 2000
Presenza ponderata 2003
INGLESE
45%
7,14
5,71
4,29
SPAGNOLO
4,87%
0,40
0,78
0,78
FRANCESE
3,97%
1,30
2,02
1,83
ITALIANO
2,38%
1,50
2,77
2,38
PORTOGHESE
2,05%
0,26
0,68
0,65
ROMENO
0,10%
0,30
0,38
0,21
TEDESCO
6,24%
Non disponible
3,15
3,12

Un quoziente uguale a 1 è da considerarsi come un risultato "normale" ; se è inferiore a 1, come debole e se è superiore a 1, come rispettabile.

Vitalità della produzione d’informazione degli internauti per lingua

Uno studio di Global Reach [22] propone un valore per il numero di utilizzatori di Internet per lingua :

Confrontando questi risultati con quelli del nostro studio, è possibile dedurre quali sono i segmenti linguistici che producono il maggior numero di informazioni nella Rete.

Produttività dei locutori

 
Pagine
Internauti
P/I
INGLESE
45%
37%
1,22
SPAGNOLO
4,87%
7,6%
0,64
FRANCESE
3,97%
4,2%
0,95
ITALIANO
2,38%
3,9%
0,62
PORTOGHESE
2,05%
3,1%
0,67
ROMENO
0,10%
0,4%
0,28
TEDESCO
6,24%
6,8%
0,92

 

Dopo l'inglese, il francese è la lingua meglio posizionata in Internet rispetto al numero degli internauti francofoni.


 
 

[9] Per esempio Google Watch.

[10] Si noterà che la presenza del francese passa sotto quella dello spagnolo a partire dal 1999.

[11] Nel novembre 2002, né Google, né AlltheWeb davano dei risultati consistenti (cattiva gestione dei segni diacritici, risultati aleatori, ecc.). Nel dicembre 2002, nuove misurazioni hanno dimostrato che Google dava nuovamente dei risultati coerenti per il nostro studio.

[12] http://www.glreach.com/globstats/. Global Reach da anni fa un lavoro di compilazione che concerne il numero di utilizzatori di Internet per lingue e per paese. Anche se non c’è consistenza nelle fonti utilizzate per costruire questi indicatori (ai quali attribuiamo una confidenza di + 20%), questo resta uno strumento affidabile per comprendere le tendenze.

[13] I risultati del francese sono stati aggiornati partendo dalle indormazioni del sito http://www.mediametrie.fr che Global Reach utilizza come fonte.

[14] Per esempio, una presenza dell'ordine del 5% delle pagine in inglese nel dominio cinese (.cn) avrebbe una influenza significativa tenuto conto della velocità d’accrescimento del dominio cinese. Una tale cifra sarebbe plausibile nella misura in cui gli internauti di lingua cinese rappresentano ora più del 10% della popolazione mondiale degli internauti.

[15] Cina e Corea.

[16] Per esempio, solo lo 0,25% delle pagine web in inglese appartengono al dominio cn.

[17] Quella di BrightPlanet per esempio : http://www.brightplanet.com/.

[18] Il "web invisibile" è la parte di Internet non indicizzata dai motori di ricerca e che, secondo BrightPlanet, è più di 400 volte più estesa della parte indicizzata dai motori. Il web invisibile comprenderebbe le pagine web che non sono inserite (nessun link porta a queste pagine), le pagine protette da una parla chiave, i documenti dal formato non registrabile, numerose banche di dati, come pure le reti intranet. Per maggiori informazioni (in inglese) :
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp.

[19] Alle persone che potrebbero stupirsi dello spiegamento di un tale arsenale metodologico visto che i motori di ricerca sono in gradi essi stessi di riconoscere le lingue e che è possibile, con un po’ di astuzia, produrre il loro stesso conteggio di pagine per lingua (si veda la metodologia del complemento dell’insieme vuoto all’URL http://www.funredes.org/LC/francais/L3.html), dobbiamo rispondere che, in modo consistente, i nostri studi hanno dimostrato che questi algoritmi non sono affidabili e, in ogni caso, non in modo sufficiente per la misurazione del posto occupato dalle lingue.

[20] La popolarità di una pagina dipende dal numero di altre pagine che vi fanno riferimento (numero di link), come pure dalla popolarità del sito a partire dal quale vengono fatti questi riferimenti, la ricorrenza indiretta così innescata rende originale la metodologia.

[21] Si vedano le spiegazioni :
http://www.unilat.org/dtil/lenguainternet/it/lingua/lingua_allegati.htm#Allegato 2.

[22] http://www.glreach.com/globstats





131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster