3. Presentazione generale dello studio e dei risultati

3.1 Metodologia

I risultati sono ottenuti conservando la metodologia seguita a partire dal 1998. Per prima cosa, una selezione di 57 termini per lingua, ognuno che comporta delle varianti ortografiche, secondo la presenza o meno di segni diacritici, sinonimici, dialettali o morfosintattici e con un significato e una portata equivalente nelle lingue studiate (dettagli dei criteri linguistici : par. 4.2 e allegato 7). In seguito, si tratta di analizzare e di comparare i risultati per dedurne, con il metodo statistico, delle percentuali di presenza in ognuna delle lingue. Per ogni termine, il rapporto delle lingue latine nei confronti dell'inglese viene utilizzato come una variabile aleatoria e le tecniche della statistica vengono applicate prendendo come ipotesi una distribuzione matematica corrente di questa variabile aleatoria (la corva di Gauss detta anche distribuzione "normale").

I risultati presentati qui di seguito sono stati ottenuti facendo la sintesi dei punteggi rilevati sui due motori di ricerca che hanno soddisfatto i criteri di selezione descritti nell'allegato 4. Tutte le misure prese in considerazione in questo studio sono state fatte tra agosto 2000 e giugno 2001.

 

3.2. Sintesi commentata dei risultati

 

3.2.1. Risultati relativi rispetto all'inglese

La seguente tabella presenta il rapporto medio tra ogni lingua latina (e il tedesco) e l'inglese, ottenuto con la misura dell'occorrenza dei termini nello spazio Web, eseguito nel giugno 2001.

Tabella 1 :
Medie delle lingue latine (e del tedesco) rispetto all'inglese

SPAGNOLO 10,95%
FRANCESE 8,86%
ITALIANO 5,88%
PORTOGHESE 5,40%
ROMENO 0,32%
TEDESCO > 13,42% stimato [6]

 

3.2.2 Risultati assoluti

I risultati appena citati permettono di valutare la presenza delle lingue latine e, approssimativamente del tedesco, rispetto all'inglese ; per calcolare la presenza assoluta di queste lingue nello spazio della Rete, è prima di tutto necessario fare una ipotesi sulla presenza assoluta dell'inglese. La tabella qui sotto mostra i valori di presenza assoluta, stabiliti a partire dalle medie per diverse ipotesi di presenza dell'inglese.

Tabella 2:
Presenza assoluta delle lingue studiate sulla rete

Se INGLESE = 65% 60% 55% 52% 50% 45% 40%
Allora SPAGNOLO = 7,12% 6,57% 6,02% 5,69% 5,48% 4,93% 4,38%
Allora FRANCESE = 5,76% 5,32% 4,87% 4,61% 4,43% 3,99% 3,54%
Allora ITALIANO = 3,82% 3,53% 3,23% 3,06% 2,94% 2,65% 2,35%
Allora PORTOGHESE = 3,51% 3,24% 2,97% 2,81% 2,70% 2,43% 2,16%
Allora ROMENO = 0,21% 0,19% 0,18% 0,17% 0,16% 0,14% 0,13%
Allora TEDESCO [7] 8,71 % 8,04% 7,37% 6,97% 6,70% 6,03% 5,37%
Rimarrà dunque uno spazio per le altre lingue 5,83% 13,10% 20,35% 24,96% 27,59% 34,83% 42,07%

 

Questa tabella ci dà una idea più precisa del peso assoluto delle lingue studiate rispetto all'insieme delle pagine presenti sulla rete. Uno degli indicatori più significativi è quello dello spazio disponibile per le lingue rimanenti che ci permette di selezionare l'ipotesi di una presenza assoluta dell'inglese più probabile che si avvicina al 52%.

Basta per questo considerare il cinese e il giapponese, che verosimilmente hanno un peso dello stesso ordine di quello del tedesco o dello spagnolo (tra il 5 e l'8%), come pure quello delle lingue che rappresentano tra lo 0,5% e il 2% (coreano, olandese, russo e le quattro lingue scandinave per un totale tra il 8 e il 10%), quello delle lingue la cui presenza è molto debole, come il romeno (cioè una dozzina di lingue dallo 0,1% per un totale dell'1%) e, infine, le numerosissime lingue la cui presenza resta marginale. Questa ultima proporzione è la più difficile da stimare ; considerando l'ipotesi di 200 lingue allo 0,01%, si raggiunge un totale del 2%... Una delle grandi incognite, le cui conseguenze saranno da valutare in futuro, è la possibile moltiplicazione delle lingue su Internet, dato che il totale delle lingue esistenti è calcolato tra 3000 e 6000 …

Queste stime ci fanno arrivare a un peso totale del 25% per le lingue non studiate e dunque ci spinge a sostenere l'ipotesi di una presenza assoluta del 52% per l'inglese.

Questa stima della cifra del 25% per il peso delle lingue non prese in considerazione direttamente nello studio è rafforzata dall'evoluzione dinamica del peso di queste descritto in dettaglio nel capitolo 4.3.3.

 

3.3. Relazione tra il numero di locutori e la loro presenza sulla Rete

È evidente che i valori di presenza assoluta non sono un perfetto indicatore della forza di una lingua sulle reti. Per ottenere un risultato significativo, conviene proporzionare i valori che esprimono la presenza delle lingue su Internet con il metro della loro presenza nel mondo reale. La presenza relativa di queste lingue è calcolata senza tenere pienamente conto del fattore "plurilinguismo". Questo metodo comporta degli scogli metodologici che sono stati descritti in occasione dello studio L4.

Tabella 3 :
Peso delle lingue studiate (cifre arrotondate in milioni)

  Inglese Francese Italiano Portoghese Romeno Spagnolo Tedesco
Presenza assoluta (numero di locutori) 630 130 60 190 30 375 120
Presenza relativa (percentuale mondiale) 10,50% 2,17% 1% 3,17% 0,50% 6,25% 2%

 

Tabella 4:
Presenza ponderata delle lingue studiate nello spazio WWW

  Presenza assoluta 2001 Presenza ponderata 1998 Presenza ponderata 2000 Presenza ponderata 2001
INGLESE 52% 7,14 5,71 4,95
FRANCESE 4,61% 1,30 2,02 2,12
ITALIANO 3,06% 1,50 2,77 3,06
PORTOGHESE 2,81% 0,26 0,68 0,88
ROMENO 0,17% 0,30 0,38 0,34
SPAGNOLO 5,69% 0,40 0,78 0,91
TEDESCO 6,97% Non disponibile 3,15 [8] 3,49 [9]

 

Un quoziente uguale a 1 è dunque considerato come un risultato "normale" ; se è inferiore a 1, come debole e se è superiore a 1, come un risultato rispettabile.

Forte progressione dello spagnolo e soprattutto del portoghese, ma i due restano comunque al di sotto della soglia di una rappresentazione "normale". Eccellente punteggio del tedesco e dell'italiano e buon risultato del francese.

 

3.4. Vitalità della produzione d'informazione degli internauti secondo le lingue

Uno studio Global Reach di cui gli ultimi risultati datano del 31 marzo 2001 (http://www.glreach.com) propone un valore per il numero di utilizzatori di Internet per lingua :

Tabella 5:
Numero di internauti classificati per lingua (in milioni)

  Inglese Francese Italiano Portoghese Romeno Spagnolo Tedesco Resto
Internauti (in milioni) 215,6 16,6 14,2 11,5 0,6 20,4 27,5 146,2
Ripartizione in % 47,6% 3,7% 3,1% 2,5% 0,13% 4,5% 6,1% 32,2%

 

Mettendo questi risultati in relazione con quelli ottenuti nel nostro studio (si veda tabella 6), dovrebbe essere possibile dedurre quali sono i segmenti linguistici che producono la maggiore informazione sulla Rete.

Tabella 6:
Produttività dei locutori

  Pagine Internauti P/I
INGLESE 52% 47,6% 1,09
FRANCESE 4,61% 3,7% 1,25
ITALIANO 3,06% 3,1% 0,98
PORTOGHESE 2,81% 2,5% 1,12
ROMENO 0,17% 0,13% 1,31
SPAGNOLO 5,69% 4,5% 1,26
TEDESCO 6,97% [10] 6,1% 1,14

 

Otteniamo un risultato abbastanza importante : le proporzioni per lingua delle pagine disponibili sulla rete e quella degli Internauti presenti sono dello stesso ordine di grandezza ! Il rapporto percentuale di pagine su percentuale di utilizzatori si situa attorno a 1 per tutte le lingue studiate [11], il che dimostrerebbe che oggi la quantità delle pagine della rete prodotte in una lingua è direttamente proporzionale al numero di internauti che praticano quella lingua. Il risultato dell'inglese sorprende : ci si poteva aspettare un valore molto più alto sotto l'influenza del plurilinguismo [12]. Questo potrebbe dunque significare che la produttività dei locutori anglofoni è inferiore a quella dei locutori nelle altre lingue menzionate, ed è prova di un premio di produzione delle popolazioni di locutori di altre lingue occidentali, coscienti delle poste linguistiche di Internet ? Sarebbe molto interessante conoscere questi stessi valori per le lingue più recenti in Internet...

 

[6] C'è, in questa versione, una differenza di qualità tra i risultati ottenuti per il tedesco e per le altre lingue studiate fino a oggi, la si "penalizzerebbe" molto se si tenesse conto dei risultati stabiliti chiedendo ai motori di fare una ricerca "per parola isolata" o separata, cioè senza alcun contesto primo o dopo. Per arrivare ad avere dei risultati tanto deboli quanto quelli stabiliti per le altre lingue, bisognerebbe in un secondo tempo considerare delle ricerche "per parola non isolata" (con contesto prima e dopo) e aiutarsi peraltro, nella misura del possibile, di un fattore cifrato che esprima la differenza di qualità delle parole separate tra le lingue dello studio o tra certe lingue dello studio e il tedesco. La nostra soluzione in questo caso è stata di mantenere il campione tale e quale, considerarlo con la stessa metodologia linguistica riguardo ai 57 termini tedeschi equivalenti e cercare ancora per parola isolata. Una correzione del 30 % almeno in aumento, rispetto ai risultati così ottenuti, ci è parsa necessaria per iniziare ad avvicinarci a questa realtà linguistica. La cifra di 13,42% viene ottenuta applicando un aumento del 30% al primo risultato lordo del 10,32 %.

ritornare

[7] Risultati maggiorati al 30% (si veda la nota 6).

ritornare

[8] Risultati maggiorati al 30% (si veda la nota 6).

ritornare

[9] Risultati maggiorati al 30% (si veda la nota 6).

ritornare

[10] Risultati maggiorati al 30% (si veda la nota 6).

ritornare

[11] Gli scarti sono inferiori al 25% nel valore assoluto e difficilmente si può trarre delle conclusioni a proposito di queste deboli variazioni che sono probabilmente all'interno degli intervalli di confidenza delle cifre annunciati da Global Reach, i quali non beneficiano di una metodologia standard per tutte le lingue.

ritornare

[12] La proporzione dei locutori di lingue diverse dall'inglese che producono delle pagine in inglese (o traducono anche le loro pagine in inglese) sappiamo bene che è molto elevata.

ritornare