Il posto delle lingue
e delle culture latine in Internet

 

 

Indice

 

2. Risultati in dettaglio

 

2.1 Metodologia Internet

 

I motori di ricerca offerti in libero accesso su Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch...) sono strumenti estremamente potenti poiché indicizzano una porzione notevole delle informazioni presenti nei diversi spazi Internet (spazio delle pagine web, spazio dei gruppi di discussione, spazio dei menù o dei documenti Gopher, spazio degli schedari accessibili in FTP). Essi sono stati concepiti per la ricerca di parole o espressioni all’interno degli spazi considerati, e, in più, alcuni di essi offrono risultati quantitativi circa il numero di occorrenze dei termini ricercati. È questo "effetto collaterale" che gli autori hanno utilizzato per misurare il rispettivo posto delle lingue latine nei diversi spazi culturali. Hanno deciso di concentrarsi sugli spazi Web e Usenet che sono i più rappresentativi dell’evoluzione di Internet 2 e sono quelli dove gli strumenti di cui dispongono sono i più efficaci.

 

2.2 Metodologia linguistica

 

I risultati della metodologia di seguito spiegati si trovano nell’allegato 5 (Elenco dei termini del campione di riferimento)

 

2.2.1 Equivalenze e distinzioni grafiche

Gli autori hanno deciso di trattare i termini da un punto di vista linguistico prima di trattarli in modo statistico-informatico con i motori di ricerca. Un gruppo linguistico ha così lavorato in maniera indipendente elaborando delle serie di sei termini o "funzioni" (una per ognuna delle lingue considerate) che fossero al tempo stesso equivalenti tra loro (quanto a significato, portata semantica, sintassi, frequenza d’uso) e distinte, ossia non omografe 3 — cosa che poteva essere tra esse sia rispetto agli altri termini delle lingue studiate, sia rispetto ad altre forme nelle lingue molto presenti in Internet.

In realtà gli autori si sono impegnati ad evitare sistematicamente le omografie con una sola delle innumerevoli lingue che non entravano nel quadro dello studio: il tedesco – poiché la sua presenza su Internet è certamente considerevole. La decisione di evitare forme con meno di 4 lettere è stata presa per evitare altre possibili omografie (in particolare con le sigle, ma non unicamente), il resto doveva essere trattato a livello statistico non appena fossero comparsi scarti significativi.

Le omografie tra almeno due delle lingue studiate si sono rivelate estremamente frequenti, in particolare tra spagnolo e portoghese, ma non solo – pure l'inglese e le sue forme di origine latina pongono dei problemi, come anche le parole prese a prestito, ecc.

 

2.2.2 Parole e varianti

Ogni parola o "funzione" comparata include o può includere delle varianti di diversi tipi:

Varianti senza diacritici e altre "scorrette". Nelle cinque lingue latine che includono dei segni diacritici (accenti, cediglie o altri), sono state sempre incluse una variante della parola con tutti questi segni e un’altra senza – "scorrette", certo, ma molto frequenti su Internet. Si è tenuto ugualmente conto di alcune forme non accettate da alcuni dizionari o assenti in altri, dunque ancora "scorrette", ma verosimilmente presenti nella rete – il lavoro informatico-statistico si è incaricato di confermare questa eventuale presenza.

Nel caso delle lingue pluricentriche, ossia che hanno più di un centro normativo (es. lo spagnolo con lo spagnolo della Spagna e quello dei vari paesi dell’America Latina, il portoghese con il portoghese del Portogallo e quello del Brasile), quando ciò si è rivelato necessario, si è tenuto conto delle varianti sinonimiche sia lessicali che ortografiche.

In almeno un caso, due parole con radice confrontabile non confermano lo stesso significato secondo le lingue, ma, in compenso, l’insieme delle due è equivalente: queste due forme sono state incluse in quanto varianti quasi-sinonimiche ad hoc di una stessa parola: parity / equality (in), paridad / igualdad (sp), parité / égalité (fr), parità / uguaglianza / eguaglianza (it)...

Gli autori, per aumentare la quantità di forme ricercate, hanno incluso a volte delle varianti morfologiche di numero (singolare o plurale). Inoltre, sono stati costretti ad includere delle varianti morfologiche di numero, di genere e anche di caso (ivi compresa la differenza determinata/non determinata) – questo in particolare per molti nomi rumeni – in tutte le lingue che comportano queste variazioni.

 

2.2.3 Trattamento delle differenze tipologiche pertinenti

Le sei lingue studiate presentano delle differenze tipologiche. Quelle di cui lo studio ha dovuto tenere conto rientrano nel campo della morfosintassi. Fatta eccezione delle differenze di variazione nel genere, nel numero o nel caso di cui sopra, è opportuno ricordare che in inglese, lingua sintetica senza pari, una sola e uguale forma può avere due valori sintattici (sostantivo e verbo), con molteplici varianti morfologiche nelle altre lingue per di più, ed equivalere così a moltissime forme in queste ultime, il che rende il confronto impossibile e inutilmente costoso.

Particelle come preposizioni o pronomi hanno funzioni molto diverse a seconda delle lingue confrontate, ma esse sono state già in generale scartate per la costrizione di evitare le parole con meno di quattro lettere.

Vedere nell’allegato 6 tutti gli aspetti riguardanti i criteri applicati alla selezione delle parole studiate.

 

2.2.4 Trattamento delle omografie restanti

Nonostante gli sforzi impiegati sopravvivono alcune omografie che è necessario trattare come altrettanti casi particolari, in modo da evitare distorsioni nei risultati.

Le più frequenti sono le plurali in "-IDADES" comuni allo spagnolo e al portoghese, che corrispondono alle parole in "-ités" del francese ("uniformités", "uniformidades") — e che gli autori hanno dovuto ricercare anche nelle loro forme plurali, la forma italiana "-ità" corrispondente al tempo stesso al singolare e al plurale. Dal momento che il conteggio della forma in "-idades" dà un risultato debole (inferiore a 50), la divisione del conteggio tra spagnolo e portoghese è stata fatta direttamente, osservando i risultati. Negli altri casi, abbiamo diviso il conteggio tra spagnolo e portoghese in proporzione al risultato indicato, per questa forma, dall’algoritmo di ricerca/conteggio per lingua di AltaVista.

C’è un caso di omografia a partire dal rumeno (CAL e CAI per "cavallo" : omografe di altre parole in spagnolo, in italiano, in portoghese...). È per questo che le forme CAL e CAI non sono state conteggiate, il che penalizza il rumeno. D'altronde, la forma CAII è stata ugualmente eliminata perché omografa di sigle frequenti su Internet.

LUNG ("polmone" in inglese) significa "lungo" in rumeno. L’effetto, molto marginale a favore dell’inglese, non è stato corretto.

FACA e FACAS significano rispettivamente "coltello" e "coltelli" in portoghese, ma sono ugualmente due forme di coniugazione del verbo fare (faça e faças, nella loro variante senza diacritici). Il risultato indicato è stato calcolato a posteriori prendendo come riferimento la media generale del portoghese, in modo da non penalizzarlo.

La forma MALADIE esiste in rumeno con lo stesso significato, ma è poco usata. L’effetto è marginale. La forma BOLI (variante casuale rumena della parola francese MALADIE) è un’abbreviazione molto frequente di bolígrafo in spagnolo ("penna") ed è stata eliminata dal conteggio.

JOI ("giovedì" in rumeno) è una parola di tre lettere, dunque suscettibile di omografia con delle sigle. JOIA è omografa del portoghese jóia senza diacritico che significa "gioiello". Il punteggio è stato calcolato estrapolando la media.

MARTI è omografa del nome di un celebre personaggio (José Martí), senza diacritico, e il suo punteggio non è stato conteggiato per il rumeno "mardi".

Il punteggio di MARDI in francese è stato diminuito del punteggio di MARDI GRAS per non contabilizzare questa forma inglese.

 

2.2.5 Trattamento degli altri significati non equivalenti.

Il lavoro di filtro e l’inserimento di forme semanticamente equivalenti hanno praticamente eliminato i rischi di significati non equivalenti (ciò che abbiamo chiamato in altre occasioni "collisioni semantiche") non percepiti nel lavoro linguistico.

Resta knife ("coltello" in inglese) che è a volte utilizzato come il verbo "pugnalare", e questa parola favorisce dunque l’inglese.

Le forme portoghesi dei giorni della settimana sono della forma "quarta-feira", dove il primo termine indica il numero del giorno. A volte i giorni sono indicati direttamente senza il secondo termine (quarta per quarta-feira). Di questa forma semplificata non è stato tenuto conto, per evitare una confusione con il senso di "quarto". Questa decisione ha sfavorito la lingua portoghese per i cinque giorni selezionati (in particolare per lo spazio Usenet, nel quale le abbreviazioni sono frequenti).

Nota metodologica: la quantità di siti indicizzati da Hotbot sembra variare enormemente da un mese all’altro. Non tutti i termini sono stati misurati nello stesso momento, il che rende qualche volta il confronto tra i termini un po’ aleatorio. In compenso, per ciò che ci interessa — il peso relativo delle lingue — le proporzioni restano sensibilmente le stesse qualunque sia la dimensione del campione indicizzato da Hotbot.

 

2.2.6 Altri elementi linguistici presi in considerazione durante lo studio

Uno degli elementi tra i più frustranti dello studio è stato un tentativo di estensione del campione utilizzando delle espressioni al posto dei termini semplici. Il gruppo linguistico ha prodotto una tabella delle parole composte o di espressioni idiomatiche a partire da dizionari terminologici. In questo modo è stato costituito un nuovo campione di più di sessanta termini (su 400 scelti in partenza). Tuttavia, le prime misurazioni hanno mostrato una forte dispersione dei risultati, in particolare in rapporto al primo campione stabilito. Per questa ragione le misurazioni sono state interrotte e il tentativo di ridurre molto di più la dimensione degli intervalli di fiducia aumentando la dimensione del campione si è quindi concluso con uno scacco. Una delle ragioni di questo fenomeno si deve alla statistica. La funzione matematica che collega la quantità di occorrenze di parole semplici su Internet può essere considerata legittimamente lineare: numero di ricorrenze in inglese (termine) = alpha X numero di ricorrenze in francese (termine); abbiamo cercato di determinare il valore alpha mediante un campionamento di parole semplici. In compenso, per espressioni (come " beni di consumo " o " costo della vita "), la funzione perde la sua linearità e la funzione matematica può diventare al quadrato o al cubo a seconda che l’espressione sia composta da due o da tre parole. In queste condizioni, i risultati si rivelano meno coerenti certamente a ragione di fenomeni caotici.

Per capire questo fenomeno è sufficiente confrontare il peso relativo di un’espressione con quello dei termini della suddetta espressione. Citiamo due esempi:

In inglese Numero di ricorrenze
(AltaVista)
Rapporto A/F
"networks" 3 834 260  
"development" 21 258 510  
"networks and development" 201  
"foundation network and development" 9  
 
In francese    
"réseaux" 326 250 0,09
"développement" 909 790 0,04
"réseaux et développement" 61 0,30
"association réseaux et développement" 40 44

 

La riduzione del numero di occorrenze di combinazioni di parole semplici è vertiginosa (da vari milioni a 200!). È in questo caso che si prende coscienza che la dimensione dell’universo dei siti Web non è così enorme come al primo approccio.

Così, il confronto dell’espressione "costo della vita" dà i seguenti risultati, aberranti, dove l’inglese compare come il meno frequente:

"cost of life" en 597
"costo de la vida" es 669
"cout de la vie" fr 1 431
"costo della vita" it 899
"custo de vida" pt 747

 

2.3 Metodologia statistica

 

Gli intervalli di fiducia al 90% e 99% dei risultati sono stati stabiliti utilizzando la distribuzione T di Student 4, considerando l’ipotesi di una distribuzione di tipo Normale.

 

2.3.1 Risultati delle misurazioni nello spazio WWW con il motore di ricerca HotBot

Nella tabella dell’allegato 7 sono indicati, per ciascuna lingua, il numero di ricorrenze dei termini nello spazio WWW, conteggiati grazie al motore HotBot.

Così si è tenuto conto di tutte le ricorrenze comparse nell’insieme delle pagine Web riferite dal motore. Ecco il numero totale delle occorrenze comparse per tutti i concetti e per lingua:

Inglese

Spagnolo

Francese

Italiano

Portoghese

Rumeno

TOTALE

57 246 318

1 469 252

1 673 864

742 335

439 229

74 631

 

2.3.2 Calcoli statistici nello spazio WWW

Ecco le percentuali medie che rappresentano la presenza delle lingue latine in rapporto all’inglese. Vedere la tabella in dettaglio parola per parola nell’allegato 8 (Calcoli statistici nello spazio WWW).

Spagnolo

Francese

Italiano

Portoghese

Rumeno

MEDIA

3,37%

3,75%

2,00%

1,09%

0,20%

Scarto-Tipo

3,07%

1,78%

1,76%

0,99%

0,33%

Coefficiente di variazione

0,96

0,69

0,94

0,95

1,27

Il coefficiente di variazione è la radice quadrata dello scarto-tipo al quadrato divisa per la media al quadrato. Un valore superiore a 1 indica una forte dispersione dunque una media molto debole. Un valore inferiore a 1 indica una debole dispersione e quindi un risultato tanto più affidabile quanto più il valore è debole.

 

2.3.3 Risultato delle misurazioni nello spazio Usenet con motore di ricerca DejaNews

Nella tabella dell’allegato 9 sono indicati, per ciascuna lingua, il numero di ricorrenze dei termini nello spazio Usenet, conteggiate grazie al motore DejaNews, i cui totali per lingua sono:

Inglese

Spagnolo

Francese

Italiano

Portoghese

Rumeno

TOTALE

39 158 982

1 702 736

665 327

713 603

183 346

32 741

 

2.3.4 Calcoli statistici nello spazio Usenet

Ecco le percentuali medie che rappresentano la presenza delle lingue latine in rapporto all’inglese. Vedere la tabella in dettaglio parola per parola nell’allegato 10.

Spagnolo

Francese

Italiano

Portoghese

Rumeno

MEDIA

2,41%

1,44%

2,54%

1,12%

0,14%

Scarto-Tipo

1,37%

1,65%

2,74%

5,47%

0,48%

Coefficiente di variazione

0,75

1,07

1,04

2,21

1,83

 

2.4 Confronto con altri Studi

 

2.4.1 Confronto con gli studi precedenti

Tra il primo studio e il presente i rapporti inglese/francese e francese/spagnolo si sono evoluti nel seguente modo.

 

Inglese/francese

francese/spagnolo

inglese/spagnolo

Marzo 1996 (L1)

21,91

2,40

52,58

Marzo 1997 (L2)

19,99

1,92

38,38

Marzo 1998 (L3)

17,60

1,33

23,32

Sett. 1998 (L4)

35,59

1,11

39,53

Questo vuol dire che le lingue latine sono in recessione rispetto agli anni precedenti? Chiaramente no! Questa evoluzione è dovuta a due ragioni principali:

A delle modifiche apportate al metodo statistico. Per il presente studio, gli autori hanno lavorato sul rapporto francese/inglese e non l’inverso, in modo da avere una distribuzione normalizzata (ossia delle cifre comprese tra 0 e 1).

Ad un campione di riferimento diverso.

È innegabile che la natura del campione di riferimento influisce sensibilmente sui risultati rispetto alla media e al coefficiente di variazione. Quasi nessuno dei termini del campione originale di L1 risponde all’insieme dei criteri del filtro linguistico stabilito con rigore dallo studio L4! Se la metodologia statistica del presente studio fosse applicata al campione originale, il coefficiente di variazione sarebbe molto superiore a 1 e gli intervalli di fiducia molto ampi.

Il lavoro linguistico ha permesso di verificare le assai forti probabilità di omografia tra le lingue latine. Il campione di L1, determinato senza pretese linguistiche particolari, favoriva quindi le lingue latine, da una parte a causa del fenomeno delle omografie, dall’altra a causa di una scelta di termini che non erano del tutto "culturalmente neutri".

Per quanto riguarda le tendenze è dunque molto difficile stabilire un legame tra questo studio, molto rigoroso sul piano linguistico, e gli studi precedenti. Tuttavia, d’ora in avanti può cominciare un’analisi scientifica delle evoluzioni, a partire dal nuovo campione costituito.

Una delle conclusioni del presente studio è che si rivela impossibile comparare l’inglese con una sola lingua latina, viste le grandi possibilità di omografi tra le lingue latine: infatti, le occorrenze di una stessa forma potrebbero essere attribuite ad una sola lingua, mentre dovrebbero essere suddivise tra varie lingue (così, la forma "familia" significa "famiglia" allo stesso tempo in spagnolo, in portoghese e in rumeno).

Questo dimostra la necessità di un’associazione tra l’Agence de la Francophonie e l’Unione Latina per la conduzione di questo studio.

 

2.4.2 Confronto tra Alis e AltaVista

All’epoca dello studio L3 era stato fatto un confronto con lo studio di Alis Technologies che metteva in questione i risultati di Alis che sopravvalutavano la presenza dell’inglese. I risultati presentati in seguito, ora ritenuti deboli, rivelano una sopravvalutazione del francese in una proporzione notevole (intorno al 100%). Questo significa che le cifre di Alis erano più vicine alla realtà di quanto sembrasse? Veramente no! In effetti, se questo confronto si stabilisce nuovamente oggi, alla luce dei risultati più rigorosi che sono stati ottenuti, le cifre sono allora relativamente prossime a quelle indotte dall’uso dell’algoritmo di riconoscimento delle lingue di AltaVista ma ancora lontane da quelle di Alis, che favorisce sempre la lingua inglese, secondo i risultati del nostro studio.

Le cifre di Alis sono quelle che sono state pubblicate e che non sono state aggiornate alla data del nostro studio. Quelle di AltaVista sono state ottenute grazie al "complemento dell’insieme vuoto", descritto nello studio L3. I confronti vengono fatti prendendo come ipotesi una percentuale identica in inglese.

 

Tabella 7:
Tabella comparativa con i risultati di AltaVista e di Alis

 

ALTAVISTA

ALIS

AGENCE DE LA FRANCOPHONIE/UL/FUNREDES

ANY

107 958 869

% SENZA % CON (*) SENZA CON confronto con
  CORREZIONE CORREZIONE

AltaVista

Alis

INGLESE

70 065 677

64,90%

76,35%

84,00

82,30

76,35%

82,30

GIAPPONESE

4 369 675

4,05%

4,76%

3,10

1,6

   
TEDESCO

4 009 554

3,71%

4,37%

4,50

4,00

   
FRANCESE

1 951 446

1,81%

2,13%

1,8

1,5

2,86

3,08

SPAGNOLO

1 495 195

1,38%

1,63%

1,20

1,10

2,57

2,77

ITALIANO

1 490 109

1,38%

1,62%

1,00

0,80

1,53

1,65

PORTOGHESE

905 676

0,84%

0,99%

0,70

0,70

0,83

0,90

RUMENO

28 052

0,03%

0,03%

   

0,15

 
 
IL RESTANTE

23 643 485

 

25,77%

  Siti multilingua  
IL RESTANTE CORRETTO

7 449 655

 

8,12%

 

15%

   

 

Confronto con le cifre ottenute a partire da AltaVista

In rapporto ai risultati del nostro studio:

1) La cifra di AltaVista per l’inglese sembra debole.
2) La cifra di AltaVista per il francese è sottovalutata del 35%.
3) La cifra di AltaVista per lo spagnolo è sottovalutata del 58%.
4) La cifra di AltaVista per l'italiano è sottovalutata del 6%.
5) Il risultato del portoghese di AltaVista è sopravvalutato del 16%.
6) Il risultato del rumeno è sottovalutato del 403%.

Confronto con le cifre pubblicate da Alis Tecnologie

In rapporto ai risultati del nostro studio:

1) Il risultato di Alis per l'inglese ci sembra troppo elevato.
2) La cifra di Alis per il francese è sottovalutata del 106%.
3) La cifra di Alis per lo spagnolo è sottovalutata del 152%.
4) La cifra di Alis per l'italiano è sopravvalutata del 106%.
5) Il risultato di Alis quanto al portoghese è sopravvalutata del 28%.
6) Alis non tiene conto della lingua rumena.

 

Tabella 8:
Sintesi comparativa dei quattro metodi

IN/FR

FR/SP

IN/SP

METODO ALTAVISTA
"COMPLEMENTO DELL’INSIEME VUOTO

35,90

1,31

46,86

METODO ALIS

46,67

1,36

63,64

METODO FUNREDES APPROSS.

17,60

1,33

23,32

METODO FUNREDES/UL/AGENCE DE LA FRANCOPHONIE

35,59

1,11

39,53

 

3. Prospettive per un proseguimento dell’osservazione

 

Ora è possibile riprodurre le misurazioni a partire dello stesso campione linguistico, a intervalli regolari, e dunque poter valutare l’evoluzione rispettiva delle diverse lingue latine al tempo stesso in rapporto all’inglese e tra di loro. Per farlo, sarebbe auspicabile automatizzare il processo di misurazione e di produzione dei risultati.

 

4. Riferimenti ai lavori connessi, su Internet

 

Per quanto riguarda il peso delle lingue in generale nello spazio WWW di Internet, l’unico riferimento conosciuto è quello, già citato, di Alis Technologies:
Palmarès des langues de la Toile : <http://babel.alis.com:8080/palmares.html>.

Questo sito misura gli spazi di utenti per lingua:
"Global statistics by language": <http://www.euromktg.com/globstats/>.

Per alcuni spazi linguistici, alcuni gruppi o persone lavorano per riunire l’informazione e/o commentarla:

Per lo spazio francofono, il CIDIF, con l’appoggio dell’Agenzia per la Francofonia realizza e gestisce L’état du développement et de l’utilisation de l’inforoute dans l’espace francophone : <http://www1.cidif.org/franco>

Per l’ispanità, due ricercatori lavorano sul tema di Internet e la lingua spagnola :

Il signor José Millan, che ha pubblicato vari articoli accessibili a partire da:
<http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>

L’Istituto Cervantes gestisce un Osservatorio spagnolo delle industrie della lingua:
<http://www.cervantes.es/oeil/Oeil0.htm>

Su Internet esiste anche un censimento regolarmente aggiornato di dati statistici in America Latina e Caraibi: <http://www.cr/latstat/>.

Le cifre sono stabilite a partire dalla fonte di riferimento comune per questo genere di statistiche: Network Wizard (<http://www.nw.com>).

Restano i riferimenti generali sulle statistiche relative a Internet che, a tutt’oggi, non comprendono sezioni speciali per le lingue o le culture:
Matrix News che procede a degli studi demografici su Internet : <
http://mids.org>5

Un altro "classico" è l’Università Georgia Tech, che procede a dei sondaggi molto rigorosi sugli utenti del WWW : <http://www.gvu.gatech.edu/user_surveys/>


2 Lo spazio (FTP) dei nomi di file non presenta le caratteristiche desiderate: vi può essere una correlazione tra i nomi di file e la lingua, ma troppo occasionale per essere significativa. Lo spazio Gopher, storicamente troppo legato al mondo universitario, da alcuni anni ha cessato di crescere.

3 Salvo indicazione contraria, noi parliamo di omografi translinguistici: gli omografi all’interno di una stessa lingua saranno considerati, in linea di principio come il medesimo termine (grafico).

4 John E. Freund "Mathematical Statistics". 2nd edition, 1972, Prentice Hall International. Chapter 9 "Estimation".

5 E che ha tradotto in inglese e pubblicato gli studi L1, C1, L2 e L3 nella rivista Matrix News.

 

Continuare

La Cultura