Italiano
[es - fr - pt - ro]

Publicazioni
Studio sul posto del francese in Internet
Introduzione
Metodologia
Limiti della metodologia
Antecedenti
Il posto del francese nella rete
Ripartizione delle pagine in francese per paese
Conclusioni
Allegati
Allegato 1 : Produzione di pagine in francese per dominio
Allegato 2 : Produzione di pagine in inglese per dominio
Allegato 3 : Calcolo della proporzione di pagine webnel dominio nazionale
Allegato 4 : Confronto dei risultati con l'aiuto della funzione "ricerca per paese " di Google

Scorciatoie
Terminometro
Termilat
Calendario
Manifestazioni
Manifestazioni passate
Studio sul posto del francese in Internet

Allegati  

 

Allegato 3 : Calcolo della proporzione di pagine web nel dominio nazionale
  Per stabilire la proporzione totale di pagine in francese per ogni paese, bisogna sommare le pagine contate nel dominio nazionale di ogni paese e le pagine che corrispondono a quei paesi ospitati presso dei server che utilizzano dei nomi di dominio generici [33]. La seconda parte della somma pone dei problemi di definizione ed è particolarmente difficile da stabilire.

Si può considerare come una definizione accettabile che un sito web è "presente" in un paese se è ospitato da un server localizzato su un territorio. Con questa definizione, il sito di una impresa francese ospitato negli Stati Uniti sarà conteggiato quale sito nordamericano e il sito di una organizzazione senegalese ospitato in Francia dovrà essere conteggiato come francese. Allo stesso modo, il sito di un organismo internazionale quale http://www.unesco.org dato che ha il suo server in Francia sarà considerato francese. Si notino bene i limiti della definizione.

Per procedere all'individuazione della località dei server, sono disponibili tre tipi di informazione:

qual è il proprietario del nome del dominio (funzione whois [34]) ?

quali sono i server che danno il servizio di gestione del nome del dominio (anche questo fornito dalla funzione whois) ?

e qual è l'indirizzo IP [35] del server ?

Le due prime informazioni danno una idea del luogo in cui si può trovare il server che ospita un sito, ma non permettono comunque di ottenere una certezza (nulla vieta di aver un proprietario di sito o un server di dominio in un paese diverso da quello del sito). Degli organi regionali (quali arin.net) assegnano i numeri di IP per paese e per fornitori. E' ragionevole pensare che con i loro destinatari tengano il conto delle parti di numeri di IP attribuiti (un po' come una banca centrale che conserva i numeri dei biglietti di banca).

Quando il motore Google procede, indipendentemente dal nome di dominio, all'identificazione delle pagine per paese [36], deve per forza fare appello a una delle tre informazioni citate. Noi facciamo l'ipotesi che lo faccia attraverso una banca dati dei numeri di IP che fa corrispondere un paese a un numero di IP.

Questo metodo ha i suoi limiti. L’osservazione dimostra che parecchi siti non sono chiaramente associati a un paese (è il caso del nostro sito <funredes.org>). In numerosi casi, gli Stati Uniti appaiono come il paese di siti esterni (è il caso del sito haitiano <rehred-haiti.net>). L’ipotesi della banca di dati (numero di IP, paese) permette di comprendere queste anomalie. Un fornitore di un piccolo paese acquisisce spesso le sue serie di numeri di IP da un fornitore degli Stati Uniti che non gli dà obbligatoriamente delle serie identificabili nella banca dati. Peraltro, l'ampiezza dei risultati dimostra che Google per le sue ricerche utilizzerebbe circa il 10% di questa banca dati (in altri termini, il 90% dei siti sfuggono alla ricerca per paese di Google).

Tenuto conto di questi limiti, la migliore opzione resta di chiedere il parere di specialisti dei domini in ogni paese e di prendere in considerazione la loro stima, anche se è molto spesso intuitiva e dunque approssimativa. In assenza di risposta, la sola opzione per evitare di indicare delle cifre arbitrarie è quella di ricostruire i valori con l'aiuto della funzione di ricerca per paese di Google procedendo a un riaggiustamento delle cifre per normalizzarle (fare in modo che il totale quadri e ripartire gli aumenti in modo coerente) e facendo l'ipotesi (che per fortuna è confortata dalla coerenza dei risultati ottenuti) che non ci sia troppa deformazione statistica e che si possa estrapolare i valori ottenuti a partire dal 10% dei siti.

E' così che, partendo dall'organizzazione per paese dell'indice di Google, è stata calcolata la proporzione di pagine web in un dominio nazionale. La tecnica di complemento dell'insieme vuoto è stata utilizzata per ogni dominio nazionale [37], poi per i domini generici in ogni paese [38]. Per esempio, per la Francia, si ottengono i seguenti risultati:

 
Dominio nazionale (fr)
.com
.org
.net
.edu
.info
Altri
Numero di pagine
(in migliaia)
8 740
5 550
3 200
2 880
26
248
149

 

Dunque in Francia ci sarebbero 8,7 milioni di pagine indicizzate nel dominio nazionale e 12 milioni nei domini generici. Si può dunque calcolare che, secondo Google, il 42% [39] delle pagine presenti in Francia appartengono al dominio nazionale.

I risultati per l'insieme dei paesi sono i seguenti [40]:

EUROPA
 
.NAZ
.generico
%NAZ
ALBANIA
16
0
100%
GERMANIA
40700
10540
79%
BELGIO
2710
3524
43%
BULGARIA
384
686
36%
SPAGNA
3780
7042
35%
FRANCIA
8740
12053
42%
ITALIA
8970
6864
57%
LITUANIA
927
74
93%
LUSSEMBURGO
232
761
23%
MACÉDONIA
162
10
94%
MOLDOVA
127
18
88%
MONACO
35
46
43%
PAESI BASSI
10600
6983
60%
POLONIA
7260
974
88%
PORTOGALLO
1300
758
63%
REP. CECA
6120
1176
84%
ROMANIA
1400
243
85%
REGNO UNITO
18000
16632
52%
RUSSIA
14500
3384
81%
SLOVENIA
439
957
31%
SVIZZERA
6220
5613
53%
TOTALE
132622
78338
63%

ASIE ET OCÉANIE
 
.NAZ
.generico
%NAZ
CAMBOGIA
14,70
2
87%
CINA
6530,00
5876
53%
GIAPPONE
24500,00
8669
74%
LAOS
14,40
0
100%
MAURITIUS
52,40
9
85%
NUOVA CALEDONIA
46,90
36
56%
POL. FRANCESE
47,40
2
95%
SEYCHELLES
4,66
0
100%
VANUATU
95,60
0
100%
VIETNAM
175,00
47
79%
W. E FUTUNA
0,01
0
100%
TOTALE
31481,07
14643
68%

 
.NAZ
.generico
TOTALE
187240
160766

 

 

AMÉRIQUES
  .NAZ .generico %NAZ
ARGENTINA
1640
1668
50%
BRASILE
7170
1632
81%
CANADA
6520
14730
31%
CILE
766
342
69%
DOMINICA
2
0
100%
STATI UNITI
6560
49078
12%
GUADALUPA
4
6,8
36%
GUYANA
3
0
100%
HAITI
0
0
MARTINICA
3
1,4
69%
ST P. & MIQUELON
0
0
ST. LUCIA
6
0
100%
TOTALE
22673
67458,2
25%

AFRICA E MEDIO ORIENTE
 
.NAZ
.generico
%NAZ
BENIN
3,80
3,22
54%
BURKINA
14,60
3,77
79%
BURUNDI
3,41
0,00
100%
CAMERUN
15,30
1,86
89%
CAPO VERDE
3,15
0,00
100%
CENTRAFRICA
0,76
0,00
100%
COMORE
0,05
0,00
100%
COSTA D'AVORIO
40,80
4,13
91%
GIBUTI
8,71
0,00
100%
EGITTO
76,80
201,06
28%
GABON
1,08
9,73
10%
GUINEA
0,95
4,42
18%
GUINEA EQUAT.
0,00
0,00
LIBANO
69,70
30,00
70%
MADAGASCAR
14,50
0,07
100%
MALI
4,05
0,74
85%
MAROCCO
57,70
40,84
59%
NIGER
5,34
0,00
100%
REP. CONGO
0,98
0,00
100%
REP. DEM. CONGO
40,00
0,00
100%
REUNION
0,45
0,00
100%
RUANDA
4,33
0,95
82%
SENEGAL
37,50
7,25
84%
CIAD
0,45
0,00
100%
TOGO
2,97
4,41
40%
TUNISIA
55,90
14,54
79%
TOTALE
463,28
327
59%

 

Tutti i paesi della Francofonia, come pure la maggior parte dei paesi produttori di pagine web, sono presenti in questa tabella. Come si può vedere, il numero totale di pagine è vicino a 350 milioni mentre l'indice di Google comporta più di 3 miliardi di pagine indicizzate. Si può comunque sperare che questo errore nell'indicizzazione delle pagine per paese sia uniforme e possa dare una immagine credibile della proporzione di pagine web per dominio nazionale (%NAZ).

Un'altra anomalia di questi risultati è chiaramente quella della cifra degli Stati Uniti che noi non abbiamo dunque utilizzato. Abbiamo moltiplicato per 2 la cifra del 2%, che avevamo determinato in occasione dello studio del 2001, per tener conto della progressione del dominio .us.

Utilizzando la proporzione di pagine web in un dominio nazionale con i risultati calcolati per ogni dominio, si ottengono i risultati seguenti:

Prima della ripartizione dei domini generici:

Domini Generici
47,2%
Europa
41,2%
America
12,4%
Africa e Medio Oriente
0,6%
Asia e Oceania
0,3%
Resto
0,7%
TOTALE
100%

 

Dopo la ripartizione dei domini generici :

Domini generici
0%
Europa
93,9%
Americhe
33,6%
Africa e Medio Oriente
0,9%
Asia e Oceania
0,3%
Resto
1,4%
TOTALE
130%

 

Le percentuali dei siti fuori dominio nazionale dovranno essere "normalizzati" per raggiungere il totale del 100% [41]. I risultati ottenuti sono quelli presentati nella tabella a pagina 12.


 
 

[33] Cioè, per esempio, il numero di pagine presenti sul territorio francese in siti del tipo "http://www.mon_site.com", in più pagine in siti del tipo "http://www.mon_site.fr".

[34] Siti come quello di "Network Solutions" (http://www.networksolutions.com/) danno informazioni sulla proprietà dei diversi siti.

[35] L’indirizzo nel Protocollo Internet : si veda http://www.commentcamarche.net/internet/ip.php3 per la definizione di un indirizzo IP.

[36] Questa opzione è accessibile a partire dalla sezione "Strumenti linguistici " di Google.

[37] Per esempio, una ricerca del tipo "-dasfsdafasdfasdfadbb site:.fr" darà il numero totale di pagine presenti nell'indice di Google sotto il dominio .fr.

[38] Bisogna realizzare, nella sezione "Strumenti linguistici" di Google, una ricerca del tipo "-dasfsdafasdfasdfadbb site:.DOM" dove DOM prende i valori dei domini generici e del paese.

[39] 8,7/(8,7+12)

[40] Le quantità delle pagine sono in migliaia.

[41] L’equazione Tx(x-1) è applicata dove T = 1,527. Si tratta di un aumento non uniforme (in forma di parabola) dei valori per colmare il 30%, per fare in modo di preservare i valori 0% e 100%.





131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster