Il posto delle lingue
e delle culture latine in Internet
PARTE 1 : LA LINGUA
|
I motori di ricerca offerti in libero accesso su Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch...) sono strumenti estremamente potenti poiché indicizzano una porzione notevole delle informazioni presenti nei diversi spazi Internet (spazio delle pagine web, spazio dei gruppi di discussione, spazio dei menù o dei documenti Gopher, spazio degli schedari accessibili in FTP). Essi sono stati concepiti per la ricerca di parole o espressioni allinterno degli spazi considerati, e, in più, alcuni di essi offrono risultati quantitativi circa il numero di occorrenze dei termini ricercati. È questo "effetto collaterale" che gli autori hanno utilizzato per misurare il rispettivo posto delle lingue latine nei diversi spazi culturali. Hanno deciso di concentrarsi sugli spazi Web e Usenet che sono i più rappresentativi dellevoluzione di Internet 2 e sono quelli dove gli strumenti di cui dispongono sono i più efficaci.
Gli autori hanno deciso di trattare i termini da un punto di vista linguistico prima di trattarli in modo statistico-informatico con i motori di ricerca. Un gruppo linguistico ha così lavorato in maniera indipendente elaborando delle serie di sei termini o "funzioni" (una per ognuna delle lingue considerate) che fossero al tempo stesso equivalenti tra loro (quanto a significato, portata semantica, sintassi, frequenza duso) e distinte, ossia non omografe 3 cosa che poteva essere tra esse sia rispetto agli altri termini delle lingue studiate, sia rispetto ad altre forme nelle lingue molto presenti in Internet. In realtà gli autori si sono impegnati ad evitare sistematicamente le omografie con una sola delle innumerevoli lingue che non entravano nel quadro dello studio: il tedesco poiché la sua presenza su Internet è certamente considerevole. La decisione di evitare forme con meno di 4 lettere è stata presa per evitare altre possibili omografie (in particolare con le sigle, ma non unicamente), il resto doveva essere trattato a livello statistico non appena fossero comparsi scarti significativi. Le omografie tra almeno due delle lingue studiate si sono rivelate estremamente frequenti, in particolare tra spagnolo e portoghese, ma non solo pure l'inglese e le sue forme di origine latina pongono dei problemi, come anche le parole prese a prestito, ecc.
Ogni parola o "funzione" comparata include o può includere delle varianti di diversi tipi:
Le sei lingue studiate presentano delle differenze tipologiche. Quelle di cui lo studio ha dovuto tenere conto rientrano nel campo della morfosintassi. Fatta eccezione delle differenze di variazione nel genere, nel numero o nel caso di cui sopra, è opportuno ricordare che in inglese, lingua sintetica senza pari, una sola e uguale forma può avere due valori sintattici (sostantivo e verbo), con molteplici varianti morfologiche nelle altre lingue per di più, ed equivalere così a moltissime forme in queste ultime, il che rende il confronto impossibile e inutilmente costoso. Particelle come preposizioni o pronomi hanno funzioni molto diverse a seconda delle lingue confrontate, ma esse sono state già in generale scartate per la costrizione di evitare le parole con meno di quattro lettere.
Nonostante gli sforzi impiegati sopravvivono alcune omografie che è necessario trattare come altrettanti casi particolari, in modo da evitare distorsioni nei risultati. Le più frequenti sono le plurali in "-IDADES" comuni allo spagnolo e al portoghese, che corrispondono alle parole in "-ités" del francese ("uniformités", "uniformidades") e che gli autori hanno dovuto ricercare anche nelle loro forme plurali, la forma italiana "-ità" corrispondente al tempo stesso al singolare e al plurale. Dal momento che il conteggio della forma in "-idades" dà un risultato debole (inferiore a 50), la divisione del conteggio tra spagnolo e portoghese è stata fatta direttamente, osservando i risultati. Negli altri casi, abbiamo diviso il conteggio tra spagnolo e portoghese in proporzione al risultato indicato, per questa forma, dallalgoritmo di ricerca/conteggio per lingua di AltaVista. Cè un caso di omografia a partire dal rumeno (CAL e CAI per "cavallo" : omografe di altre parole in spagnolo, in italiano, in portoghese...). È per questo che le forme CAL e CAI non sono state conteggiate, il che penalizza il rumeno. D'altronde, la forma CAII è stata ugualmente eliminata perché omografa di sigle frequenti su Internet. LUNG ("polmone" in inglese) significa "lungo" in rumeno. Leffetto, molto marginale a favore dellinglese, non è stato corretto. FACA e FACAS significano rispettivamente "coltello" e "coltelli" in portoghese, ma sono ugualmente due forme di coniugazione del verbo fare (faça e faças, nella loro variante senza diacritici). Il risultato indicato è stato calcolato a posteriori prendendo come riferimento la media generale del portoghese, in modo da non penalizzarlo. La forma MALADIE esiste in rumeno con lo stesso significato, ma è poco usata. Leffetto è marginale. La forma BOLI (variante casuale rumena della parola francese MALADIE) è unabbreviazione molto frequente di bolígrafo in spagnolo ("penna") ed è stata eliminata dal conteggio. JOI ("giovedì" in rumeno) è una parola di tre lettere, dunque suscettibile di omografia con delle sigle. JOIA è omografa del portoghese jóia senza diacritico che significa "gioiello". Il punteggio è stato calcolato estrapolando la media. MARTI è omografa del nome di un celebre personaggio (José Martí), senza diacritico, e il suo punteggio non è stato conteggiato per il rumeno "mardi". Il punteggio di MARDI in francese è stato diminuito del punteggio di MARDI GRAS per non contabilizzare questa forma inglese. Il lavoro di filtro e linserimento di forme semanticamente equivalenti hanno praticamente eliminato i rischi di significati non equivalenti (ciò che abbiamo chiamato in altre occasioni "collisioni semantiche") non percepiti nel lavoro linguistico. Resta knife ("coltello" in inglese) che è a volte utilizzato come il verbo "pugnalare", e questa parola favorisce dunque linglese. Le forme portoghesi dei giorni della settimana sono della forma "quarta-feira", dove il primo termine indica il numero del giorno. A volte i giorni sono indicati direttamente senza il secondo termine (quarta per quarta-feira). Di questa forma semplificata non è stato tenuto conto, per evitare una confusione con il senso di "quarto". Questa decisione ha sfavorito la lingua portoghese per i cinque giorni selezionati (in particolare per lo spazio Usenet, nel quale le abbreviazioni sono frequenti). Nota metodologica: la quantità di siti indicizzati da Hotbot sembra variare enormemente da un mese allaltro. Non tutti i termini sono stati misurati nello stesso momento, il che rende qualche volta il confronto tra i termini un po aleatorio. In compenso, per ciò che ci interessa il peso relativo delle lingue le proporzioni restano sensibilmente le stesse qualunque sia la dimensione del campione indicizzato da Hotbot.
Uno degli elementi tra i più frustranti dello studio è stato un tentativo di estensione del campione utilizzando delle espressioni al posto dei termini semplici. Il gruppo linguistico ha prodotto una tabella delle parole composte o di espressioni idiomatiche a partire da dizionari terminologici. In questo modo è stato costituito un nuovo campione di più di sessanta termini (su 400 scelti in partenza). Tuttavia, le prime misurazioni hanno mostrato una forte dispersione dei risultati, in particolare in rapporto al primo campione stabilito. Per questa ragione le misurazioni sono state interrotte e il tentativo di ridurre molto di più la dimensione degli intervalli di fiducia aumentando la dimensione del campione si è quindi concluso con uno scacco. Una delle ragioni di questo fenomeno si deve alla statistica. La funzione matematica che collega la quantità di occorrenze di parole semplici su Internet può essere considerata legittimamente lineare: numero di ricorrenze in inglese (termine) = alpha X numero di ricorrenze in francese (termine); abbiamo cercato di determinare il valore alpha mediante un campionamento di parole semplici. In compenso, per espressioni (come " beni di consumo " o " costo della vita "), la funzione perde la sua linearità e la funzione matematica può diventare al quadrato o al cubo a seconda che lespressione sia composta da due o da tre parole. In queste condizioni, i risultati si rivelano meno coerenti certamente a ragione di fenomeni caotici. Per capire questo fenomeno è sufficiente confrontare il peso relativo di unespressione con quello dei termini della suddetta espressione. Citiamo due esempi:
La riduzione del numero di occorrenze di combinazioni di parole semplici è vertiginosa (da vari milioni a 200!). È in questo caso che si prende coscienza che la dimensione delluniverso dei siti Web non è così enorme come al primo approccio. Così, il confronto dellespressione "costo della vita" dà i seguenti risultati, aberranti, dove linglese compare come il meno frequente:
Gli intervalli di fiducia al 90% e 99% dei risultati sono stati stabiliti utilizzando la distribuzione T di Student 4, considerando lipotesi di una distribuzione di tipo Normale.
Nella tabella dellallegato 7 sono indicati, per ciascuna lingua, il numero di ricorrenze dei termini nello spazio WWW, conteggiati grazie al motore HotBot. Così si è tenuto conto di tutte le ricorrenze comparse nellinsieme delle pagine Web riferite dal motore. Ecco il numero totale delle occorrenze comparse per tutti i concetti e per lingua:
Ecco le percentuali medie che rappresentano la presenza delle lingue latine in rapporto allinglese. Vedere la tabella in dettaglio parola per parola nellallegato 8 (Calcoli statistici nello spazio WWW).
Il coefficiente di variazione è la radice quadrata dello scarto-tipo al quadrato divisa per la media al quadrato. Un valore superiore a 1 indica una forte dispersione dunque una media molto debole. Un valore inferiore a 1 indica una debole dispersione e quindi un risultato tanto più affidabile quanto più il valore è debole.
Nella tabella dellallegato 9 sono indicati, per ciascuna lingua, il numero di ricorrenze dei termini nello spazio Usenet, conteggiate grazie al motore DejaNews, i cui totali per lingua sono:
Ecco le percentuali medie che rappresentano la presenza delle lingue latine in rapporto allinglese. Vedere la tabella in dettaglio parola per parola nellallegato 10.
Tra il primo studio e il presente i rapporti inglese/francese e francese/spagnolo si sono evoluti nel seguente modo.
Questo vuol dire che le lingue latine sono in recessione rispetto agli anni precedenti? Chiaramente no! Questa evoluzione è dovuta a due ragioni principali:
È innegabile che la natura del campione di riferimento influisce sensibilmente sui risultati rispetto alla media e al coefficiente di variazione. Quasi nessuno dei termini del campione originale di L1 risponde allinsieme dei criteri del filtro linguistico stabilito con rigore dallo studio L4! Se la metodologia statistica del presente studio fosse applicata al campione originale, il coefficiente di variazione sarebbe molto superiore a 1 e gli intervalli di fiducia molto ampi. Il lavoro linguistico ha permesso di verificare le assai forti probabilità di omografia tra le lingue latine. Il campione di L1, determinato senza pretese linguistiche particolari, favoriva quindi le lingue latine, da una parte a causa del fenomeno delle omografie, dallaltra a causa di una scelta di termini che non erano del tutto "culturalmente neutri". Per quanto riguarda le tendenze è dunque molto difficile stabilire un legame tra questo studio, molto rigoroso sul piano linguistico, e gli studi precedenti. Tuttavia, dora in avanti può cominciare unanalisi scientifica delle evoluzioni, a partire dal nuovo campione costituito. Una delle conclusioni del presente studio è che si rivela impossibile comparare linglese con una sola lingua latina, viste le grandi possibilità di omografi tra le lingue latine: infatti, le occorrenze di una stessa forma potrebbero essere attribuite ad una sola lingua, mentre dovrebbero essere suddivise tra varie lingue (così, la forma "familia" significa "famiglia" allo stesso tempo in spagnolo, in portoghese e in rumeno).
Allepoca dello studio L3 era stato fatto un confronto con lo studio di Alis Technologies che metteva in questione i risultati di Alis che sopravvalutavano la presenza dellinglese. I risultati presentati in seguito, ora ritenuti deboli, rivelano una sopravvalutazione del francese in una proporzione notevole (intorno al 100%). Questo significa che le cifre di Alis erano più vicine alla realtà di quanto sembrasse? Veramente no! In effetti, se questo confronto si stabilisce nuovamente oggi, alla luce dei risultati più rigorosi che sono stati ottenuti, le cifre sono allora relativamente prossime a quelle indotte dalluso dellalgoritmo di riconoscimento delle lingue di AltaVista ma ancora lontane da quelle di Alis, che favorisce sempre la lingua inglese, secondo i risultati del nostro studio. Le cifre di Alis sono quelle che sono state pubblicate e che non sono state aggiornate alla data del nostro studio. Quelle di AltaVista sono state ottenute grazie al "complemento dellinsieme vuoto", descritto nello studio L3. I confronti vengono fatti prendendo come ipotesi una percentuale identica in inglese.
Tabella
7:
Confronto con le cifre ottenute a partire da AltaVista In rapporto ai risultati del nostro studio:
Confronto con le cifre pubblicate da Alis Tecnologie In rapporto ai risultati del nostro studio:
Tabella
8:
3. Prospettive per un proseguimento dellosservazione
Ora è possibile riprodurre le misurazioni a partire dello stesso campione linguistico, a intervalli regolari, e dunque poter valutare levoluzione rispettiva delle diverse lingue latine al tempo stesso in rapporto allinglese e tra di loro. Per farlo, sarebbe auspicabile automatizzare il processo di misurazione e di produzione dei risultati.
4. Riferimenti ai lavori connessi, su Internet
Su Internet esiste anche un censimento regolarmente aggiornato di dati statistici in America Latina e Caraibi: <http://www.cr/latstat/>. Le cifre sono stabilite a partire dalla fonte di riferimento comune per questo genere di statistiche: Network Wizard (<http://www.nw.com>). Restano i riferimenti generali sulle
statistiche relative a Internet che, a tuttoggi, non comprendono sezioni speciali
per le lingue o le culture: Un altro "classico" è lUniversità Georgia Tech, che procede a dei sondaggi molto rigorosi sugli utenti del WWW : <http://www.gvu.gatech.edu/user_surveys/> 2 Lo spazio (FTP) dei nomi di file non presenta le caratteristiche desiderate: vi può essere una correlazione tra i nomi di file e la lingua, ma troppo occasionale per essere significativa. Lo spazio Gopher, storicamente troppo legato al mondo universitario, da alcuni anni ha cessato di crescere. 3 Salvo indicazione contraria, noi parliamo di omografi translinguistici: gli omografi allinterno di una stessa lingua saranno considerati, in linea di principio come il medesimo termine (grafico). 4 John E. Freund "Mathematical Statistics". 2nd edition, 1972, Prentice Hall International. Chapter 9 "Estimation". 5 E che ha tradotto in inglese e pubblicato gli studi L1, C1, L2 e L3 nella rivista Matrix News.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||