Apresentação

 

2. DETALHE DOS RESULTADOS

 

2.1 Metodologia Internet

 

Os motores de pesquisa oferecidos em livre acesso na Internet (AltaVista, HotBot, Excite, DejaNews, Veronica, FtpSearch são instrumentos poderosíssimos porque indexam uma parte importante das informações presentes nos diferentes espaços da Internet (páginas web, grupos de discussão, menus ou documentos Gopher, fichários acessíveis em FTP). Eles foram concebidos para a pesquisa de palavras ou expressões no interior desses espaços e alguns dão até resultados quantitativos sobre o número de ocorrência dos palavras procuradas. E este " effet de bord " que os autores utilizaram para medir o respectivo lugar das línguas e das culturas latinas nos diversos espaços culturais. Eles decidiram se concentrar nos espaços Web e Usenet, que são os mais representativos da evolução da Internet2 e onde as suas ferramentas são mais eficazes.

 

2.2 Metodologia lingüística

 

Os resultados da metodologia explicada abaixo se encontra no anexo 5
(Lista dos termos da amostragem de referência)

 

2.2.1.Equivalências e diferenças gráficas

Os autores decidiram tratar as palavras lingüísticamente antes de tratá-las de maneira estatístico-informática com os motores de pesquisa. Uma equipe lingüística trabalhou assim, elaborando séries de seis palavras ou "funções" (uma em cada uma das línguas escolhidas) que fossem ao mesmo tempo equivalentes entre elas (quanto ao significado, valor semântico, sintaxe, freqüência) e distintas, quer dizer não homógrafas3, seja entre elas, em relação a outras palavras das línguas estudadas, ou a outras formas nas línguas presentes na Internet.

Na realidade, os autores tentaram evitar as homografias com a única das inúmeras línguas que não entrou no estudo: o alemão - porque sua presença na Internet é certamente considerável. A decisão de evitar formas de menos de quatro letras foi tomada afim de evitar outras homografias possíveis (principalmente com siglas), o resto devendo ser tratado a nível estatístico desde que diferenças significativas apareçam.

As homografias entre pelo menos duas línguas estudadas se mostraram bastante freqüentes, principalmente, mas não somente, entre o português e o espanhol- o inglês e suas formas de origem latina causando também problemas, assim como os empréstimos, etc.

 

2.2.2. Palavras e variantes

Cada palavra ou "função" comparada inclui ou pode incluir variantes de diferentes espécies:

Variantes sem diacríticos e outras "incorretas". Nas cinco línguas latinas que possuem sinais diacríticos aparentes (acentos, cedilhas ou outros), foram sempre incluídas uma variante da palavra com todos o seus acentos e uma outra sem - "incorreta", mas bastante freqüente na Internet. Foram igualmente levadas em conta certas formas não aceitas por alguns ou ausentes de alguns dicionários, porque "incorretas" mas bem presentes na Tela- confirmadas pelo trabalho informático-estatístico.

No caso das línguas tendo mais de um centro normativo (o espanhol da Espanha e dos outros países da América Latina, o português de Portugal e do Brasil), variantes sinônimas lexicais ou ortográficas foram levadas em conta.

Em pelo menos um caso, duas palavras de raízes comparáveis não têm o mesmo significado de acordo com as línguas mas o conjunto das duas é, no entanto, equivalente: essas duas formas foram incluídas enquanto variantes quase sinônimas ad hoc de uma mesma palavra: parity / equality (EN), paridad / igualdad (ES), parité / égalité (FR), parità / uguglianza / eguaglianza (IT)...

Para aumentar a quantidade das formas pesquisadas os autores incluíram, às vezes, variantes morfológicas de número (singular e plural). Em outros casos eles foram obrigados a incluir variantes morfológicas de número, gênero e caso em todas as línguas que comportam essas variações (inclusive a diferença determinado / não determinado)- principalmente para vários nomes romenos.

 

2.2.3 Tratamento das diferenças tipológicas pertinentes

As seis línguas estudadas apresentam diferenças tipológicas. O estudo levou em conta a morfossintaxe. Com exceção das diferenças de gênero, número ou nos casos acima, vale lembrar que em inglês uma só forma pode ter dois valores sintáxicos (nome e verbo), com variantes morfológicas nas outras línguas e equivaler assim a muitas formas nessas últimas, o que torna a comparação impossível.

Partículas como preposições ou pronomes têm funções bem diferentes de acordo com as línguas comparadas, mas elas já tinham sido descartadas pela obrigação de se evitar os palavras com menos de quatro letras.

Ver no anexo 6 todos os aspectos referentes aos critérios aplicados à seleção das palavras estudadas.

 

2.2.4 Tratamento das homografias restantes

Apesar de todos os esforços, subsistem algumas homografias que devemos tratar como casos particulares, de modo a evitar distorções nos resultados.

As mais freqüentes são os plurais em "IDADES" comuns ao espanhol e ao português, que correspondem às palavras em "ités" em francês ("uniformités", "uniformidades") e que os autores tiveram que procurar também na sua forma no plural a forma italiana em "ità" correspondendo ao mesmo tempo ao singular e ao plural.

Há um caso de homografia a partir do romeno (CAL e CAI por "cavalo": homógrafos de outras palavras em espanhol, português, italiano...). É por isso que as formas CAL e CAI não foram contadas, o que penaliza o romeno. A forma CAII foi também eliminada porque é homógrafa de siglas freqüentes na Internet.

LUNG ("pulmão" em inglês) significa "longo" em romeno. O efeito, marginal em favor do inglês, não foi corrigido.

FACA e FACAS são igualmente duas formas da conjugação do verbo fazer (faça e faças- sem diacríticos). O resultado foi indicado a posteriori tomando como referência a média geral do português de maneira a não penalizá-lo.

A forma MALADIE (doença em francês) existe em romeno com o mesmo significado mas é pouco usada. O efeito é marginal. A forma BOLI (variante casual romena da palavra francesa MALADIE) é uma abreviação freqüente de bolígrafo ("caneta") em espanhol e foi eliminada da contagem.

JOI ("quinta-feira" em romeno) é uma palavra de três letras e, consequentemente, suscetível de homografia com siglas. JOIA é homógrafo do português jóia sem diacrítico. O resultado foi calculado extrapolando a média.

MARTI é homógrafo de um personagem célebre (José Marti), sem diacrítico, e seu resultado não foi contabilizado para o romeno "mardi".

O resultado de MARDI (terça-feira) em francês foi diminuído do resultado de MARDI GRAS (terça-feira gorda) para não contabilizar essa forma inglesa.

 

2.2.5. Tratamento dos outros significados não equivalentes

O trabalho de filtragem e a inversão de formas semanticamente equivalentes, praticamente eliminou os riscos de significados não equivalentes (o que chamávamos de "colisões semânticas") não percebidas no trabalho lingüístico.

Acontece que knife ("faca" em inglês) é às vezes usado como o verbo "apunhalar", o que favorece o inglês.

As formas portuguesas dos dias da semana, por exemplo, "quarta feira" são freqüentemente usadas sem o segundo termo (quarta por quarta-feira). Essa forma simples não foi levada em conta para evitar uma confusão com o sentido de "quarta". Essa decisão prejudica a língua portuguesa nos cincos dias selecionados (principalmente no espaço Usenet onde as abreviaturas são freqüentes).

Nota metodológica: a quantidade de endereços indexados por HotBot parece variar muito de um mês para o outro. As palavras não foram medidas no mesmo momento, o que torna as comparações um pouco aleatórias. Por outro lado, no que nos interessa - o peso relativo das línguas - as proporções continuam as mesmas não importa qual seja a dimensão da amostra indexada por HotBot.

 

2.2.6. Outros elementos lingüísticos levados em consideração pelo estudo

Um dos elementos mais frustrantes do estudo foi o fracasso de uma tentativa de extensão de uma amostragem utilizando expressões em vez de palavras simples. A equipe lingüística produziu um quadro de palavras compostas ou de expressões idiomáticas a partir de dicionários terminológicos. Uma nova amostragem de mais de sessenta palavras foi assim constituída (entre 400 selecionadas no princípio). No entanto, as primeiras medidas mostraram uma grande dispersão dos resultados, principalmente em relação à primeira amostra estabelecida. Por essa razão, as medidas foram interrompidas e a tentativa de reduzir ainda mais os intervalos de confiança, aumentando o tamanho da amostra, acabou em fracasso. Uma das razões desse fenômeno é a estatística. A função matemática que liga a quantidade de ocorrências de palavras simples na Internet pode ser considerada legitimamente como linear: números de citações em inglês (palavra) = alpha X números de citações em francês (palavra); procuramos determinar o valor alpha por uma amostragem de palavras simples. Por outro lado, para expressões (como "bens de consumo" ou "custo de vida"), a função perde sua linearidade e a função matemática pode tornar-se quadrática ou cúbica dependendo se a expressão se compõe de duas ou três palavras. Em tais condições, os resultados se mostram menos coerentes, certamente em razão de fenômenos caóticos.

Para compreender esse fenômeno, basta comparar o peso relativo de uma expressão aos termos da mesma expressão. Citemos dois exemplos:


Em inglês
Número
de citações

(Alta Vista)
Ratio A/F
"networks" 3 834 260  
"development" 21 258 510  
"networks and development" 201  
"foundation networks
and development"
9  
 
Em francês    
"réseaux" 326 250 0,09
"développement" 909 790 0,04
"réseaux et développement" 61 0,30
"association réseaux
et développement"
40 44

A redução do número de ocorrências de combinações de palavras simples é vertiginosa (de vários milhões à 220!). É nesse caso que vemos que o tamanho dos endereços Web não é tão grande como pensamos.

Assim, a comparação da expressão "custo de vida" dá os seguintes resultados, onde o inglês aparece como o menos freqüente:

"cost of life" en 597
"costo de la vida" es 669
"cout de la vie" fr 1 431
"costo della vita" it 899
"custo de vida" pt 747

 

2.3 Metodologia estatística

 

Os intervalos de confiança a 90% e 99% dos resultados foram estabelecidos empregando a distribuição T de Student4, tomando como hipótese uma distribuição do tipo Normal.

 

2.3.1. Resultados das medidas no espaço WWW com o motor de pesquisa HotBot

No quadro em anexo 7 são indicados, para cada língua, a freqüência de citações das palavras no espaço WWW, contabilizadas com a ajuda do motor HotBot.

Desse modo, todas as citações que aparecem no conjunto das páginas referenciadas pelo motor são levadas em conta. Eis o número total de ocorrências para todos os conceitos e por língua:

Inglês

Espanhol

Francês

Italiano

Português

Romeno

TOTAL

57 246 318

1 469 252

1 673 864

742 335

439 229

74 631

 

2.3.2. Cálculos estatísticos no espaço WWW

Eis as percentagens médias representando a presença das línguas latinas comparadas com o inglês. Ver quadro detalhado palavra por palavra no anexo 8 (Cálculos estatísticos no espaço WWW).

 

Espanhol

Francês

Italiano

Português

Romeno

MÉDIA

3,37%

3,75%

2,00%

1,09%

0,20%

Diferença

3,07%

1,78%

1,76%

0,99%

0,33%

Coeficiente de variação

0,96

0,69

0,94

0,95

1,27

 

O coeficiente de variação é a raiz quadrada da diferença ao quadrado divido pela média ao quadrado. Um valor superior a 1 indica uma forte dispersão, logo uma média fraca. Um valor inferior a 1 indica uma fraca dispersão e, consequentemente, um resultado muito mais confiável.

 

2.3.3. Resultados das medidas no espaço Usenet com o motor de pesquisa DejaNews

No quadro anexo 9 estão indicados, para cada língua, o número de citações no espaço Usenet, calculados graças ao motor DejaNews, cujos totais por língua são:

 

Inglês

Espanhol

Francês

Italiano

Português

Romeno

TOTAL

39 158 982

1 702 736

665 327

713 603

183 346

32 741

 

2.3.4. Cálculos estatísticos no espaço Usenet

Eis as percentagens médias representando as línguas latinas comparadas ao inglês. Ver quadro detalhado no anexo 10.

 

Espanhol

Francês

Italiano

Português

Romeno

MÉDIA

2,41%

1,44%

2,54%

1,12%

0,14%

Diferença

1,37%

1,65%

2,74%

5,47%

0,48%

Coeficiente de variação

0,75

1,07

1,04

2,21

1,83

 

2.4 Comparação com outros estudos

 

2.4.1 Comparação com os estudos precedentes

As relações inglês/francês e francês/espanhol evoluíram da seguinte maneira entre o primeiro e o presente estudo:

 

Inglês/francês

francês/espanhol

inglês/espanhol

Março 1996 (L1)

21,91

2,40

52,58

Março 1997 (L2)

19,99

1,92

38,38

Março 1998 (L3)

17,60

1,33

23,32

Set. 1998 (L4)

35,59

1,11

39,53

Quer dizer que houve recuo em relação aos outros anos? E claro que não! Esta evolução tem duas razões principais:

flh_bl_dr.gif (60 octets) Mudanças no método estatístico. Nesse estudo os autores trabalharam na relação francês/inglês e não o contrário, de modo a ter uma distribuição normal (quer dizer, números entre 0 e1).

flh_bl_dr.gif (60 octets) Uma amostragem de referência diferente.

E inegável que a natureza da amostragem de referência influencia bastante os resultados quanto à média e ao coeficiente de variações. Quase nenhuma das palavras da amostragem original de L1 respondia ao conjunto dos critérios do filtro lingüístico estabelecido com rigor para o estudo L4! Se a metodologia lingüística do presente estudo fosse aplicada à amostragem original, o coeficiente de variação seria muito superior a 1 e os intervalos de confiança muito grandes.

O trabalho lingüístico permitiu constatar as inúmeras probabilidades de homografias entre as línguas latinas. A amostragem de L1, determinada sem pretensão lingüística particular favorecia pois as línguas latinas, de um lado por causa desse fenômeno de homografias e, por outro, por causa da escolha de palavras que não eram "culturalmente neutras".

Quanto às tendências, é difícil estabelecer uma ligação entre esse estudo, rigoroso no plano lingüístico, e os precedentes. No entanto, uma análise científica das evoluções pode ser feita a partir dessa amostragem..

Uma das conclusões desse estudo é a de que é impossível comparar o inglês com uma só língua latina, visto as grandes probabilidades de homografia entre essas: com efeito, as ocorrências de uma mesma forma poderiam ser atribuídas a uma língua quando elas deveriam ser divididas entre várias (assim, a forma "família" é a mesma em espanhol, português e romeno).

Isto prova a necessidade de uma associação entre a Agence de la Francophonie e a União Latina para levar acabo esse estudo.

 

2.4.2 Comparação com Alis e AltaVista

No estudo L3, foi feita uma comparação com o estudo da Alis Technologies questionando os resultados desta, os quais superestimavam a presença do inglês. Os resultados abaixo, hoje julgados dignos de confiança, mostram uma superestimação do francês numa proporção importante (à volta de 100%). Isto significa que os resultados da Alis estavam mais próximos da verdade do que pareciam? Mais ou menos. Na verdade, se essa comparação fosse feita de novo hoje à luz dos resultados mais rigorosos que foram obtidos, os resultados estariam relativamente próximos aos do processamento de dados de reconhecimento das línguas na AltaVista mas sempre distantes dos da Alis, que favorece sempre a língua inglesa.

Os resultados da Alis são os publicados na Internet e que não foram reutilizados até a data do nosso estudo. Os da AltaVista foram obtidos graças ao método de "complemento do conjunto vazio", descrito no L3. As comparações são feitas tomando por hipótese uma percentagem idêntica em inglês.

 

Quadro 7:
Quadro comparativo com os resultados na AltaVista e Alis

    ALTA VISTA ALIS

AGENCE DE LA FRANCOPHONIE/UL/FUNREDES

ANY

107 958 869

% SEM % COM (*) SEM COM comparação com
    CORREÇÃO CORREÇÃO

AltaVista

Alis

INGLÊS

70 065 677

64,90%

76,35%

84,00

82,30

76,35%

82,30

JAPONÊS

4 369 675

4,05%

4,76%

3,10

1,6

   
ALEMÃO

4 009 554

3,71%

4,37%

4,50

4,00

   
FRANCÊS

1 951 446

1,81%

2,13%

1,8

1,5

2,86

3,08

ESPANHOL

1 495 195

1,38%

1,63%

1,20

1,10

2,57

2,77

ITALIANO

1 490 109

1,38%

1,62%

1,00

0,80

1,53

1,65

PORTUGUÊS

905 676

0,84%

0,99%

0,70

0,70

0,83

0,90

ROMENO

28 052

0,03%

0,03%

   

0,15

 
 
RESTO

23 643 485

 

25,77%

  Endereços multilíngues  
RESTO CORRIGIDO

7 449 655

 

8,12%

 

15%

   

 

Comparação com os números obtidos a partir da AltaVista

Em comparação com os resultados de nosso estudo:

1) O resultado da AltaVista para o inglês parecem confiáveis.
2) O resultado da AltaVista para o francês é subestimado em 35%.
3) O resultado da AltaVista para o espanhol é subestimado em 58%.
4) Os resultados da AltaVista para o italiano é superestimado em 6%.
5) O resultado do português da Alta Vista é superestimado em 16%.
6) O resultado do romeno é subestimado em 403%.

 

Comparação com os números publicados pela Alis Technologies

Em comparação com nosso estudo:

1) O resultado da Alis para o inglês nos parece muito alto.
2) O resultado da Alis para o francês é subestimado em 106%.
3) O resultado da Alis para o espanhol é subestimado em 152%.
4) O resultado da Alis para o italiano é superestimado em 106%.
5) O resultado da Alis quanto ao português é superestimado em 28%.
6) Alis não leva em conta a língua romena.

 

Quadro 8:
Síntese comparativa dos quatro métodos

EN/FR

FR/ES

EN/ES

MÉTODO ALTAVISTA
"COMPLEMENTO DO CONJUNTO VAZIO"

35,90

1,31

46,86

MÉTODO ALIS

46,67

1,36

63,64

MÉTODO FUNREDES APROX.

17,60

1,33

23,32

MÉTODO FUNREDES/UL/AGENCE DE LA FRANCOPHONIE

35,59

1,11

39,53

 

3. PERSPECTIVAS PARA A CONTINUAÇÃO DA OBSERVAÇÃO

 

É possível hoje reproduzir as medidas, com intervalos regulares, a partir da mesma amostragem lingüística e poder avaliar a respectiva evolução das diferentes línguas latinas em relação ao inglês e entre elas. Para isso seria preciso automatizar o processo de medida e de produção dos resultados.

 

4. REFERÊNCIAS, NA INTERNET, DOS TRABALHOS CONEXOS

 

flh_bl_dr.gif (60 octets) Peso das línguas em geral no espaço WWW da Internet, a única referência conhecida é a da Alis Technologies:
Classificação das línguas da Tela: <
http://babel.alis.com:8080/palmares.html>.

flh_bl_dr.gif (60 octets) Espaço dos utilizadores por línguas:
"Global statistics by language": <
http://www.euromktg.com/globstats/>.

flh_bl_dr.gif (60 octets) Em alguns espaços lingüísticos, alguns grupos ou pessoas trabalham reunindo as informações existente e/ou comentando-as:

No espaço francófono, o CIDIF, com o apoio da Agence de la Francophonie, realizou e gere L’état du développement et de l’utilisation de l’inforoute dans l’espace francophone: <http://www1.cidif.org/franco>

Para o espanhol, dois pesquisadores trabalham sobre o tema da Internet e a língua espanhola:

flh_bl_dr.gif (60 octets) José Millan, que publicou vários artigos acessíveis a partir de: <http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>

flh_bl_dr.gif (60 octets) O Instituto Cervantes gera um Observatório espanhol das indústrias da língua: <http://www.cervantes.es/oeil/Oeil0.htm>

Existe também um recenseamento regularmente corrigido de dados estatísticos na Internet na América Latina e Caribe:<http:/www.cr/latstat/>.

Os números são estabelecidos a partir da fonte de referência habitual para esse gênero de estatísticas: Network Wizard <http://www.nw.com>.

Restam as referências gerais sobre as estatísticas relativas à Internet que, até hoje não possuem seções especiais para as línguas ou culturas:
Matrix News que realiza estudos demográficos na Internet: <http://mids.org>.5

Um outro "clássico" é a Universidade Georgia Tech que realiza sondagens rigorosas sobre os utilizadores da WWW: <http://www.gvu.gatech.edu/user_surveys/>.

 


2 O espaço (FTP) dos nomes dos fichários não apresentam as características desejadas: pode haver correlação entre nomes de fichários e língua mas bastante ocasional para ser significativa. O espaço Gopher, muito ligado historicamente ao mundo universitário, parou de crescer há alguns anos.

flh_up.gif (64 octets)

3 Exceto indicação contrária falamos de homografias translingüísticas: os homógrafos na mesma língua serão considerados como uma só palavra.

4 John E. Freund Mathematical Statistics, 2a Ed., 1972, Prentice Hall International, capítulo 9 " Estimation ".

flh_up.gif (64 octets)

5 Quem traduziu em inglês e publicou os estudos L1, C1, L2 e L3 na revista Matrix News.

flh_up.gif (64 octets)

 

Continuação

Cultura