PARTE 1: A LÍNGUA
|
Os motores de pesquisa oferecidos em livre acesso na Internet (AltaVista, HotBot, Excite, DejaNews, Veronica, FtpSearch são instrumentos poderosíssimos porque indexam uma parte importante das informações presentes nos diferentes espaços da Internet (páginas web, grupos de discussão, menus ou documentos Gopher, fichários acessíveis em FTP). Eles foram concebidos para a pesquisa de palavras ou expressões no interior desses espaços e alguns dão até resultados quantitativos sobre o número de ocorrência dos palavras procuradas. E este " effet de bord " que os autores utilizaram para medir o respectivo lugar das línguas e das culturas latinas nos diversos espaços culturais. Eles decidiram se concentrar nos espaços Web e Usenet, que são os mais representativos da evolução da Internet2 e onde as suas ferramentas são mais eficazes.
Os autores decidiram tratar as palavras lingüísticamente antes de tratá-las de maneira estatístico-informática com os motores de pesquisa. Uma equipe lingüística trabalhou assim, elaborando séries de seis palavras ou "funções" (uma em cada uma das línguas escolhidas) que fossem ao mesmo tempo equivalentes entre elas (quanto ao significado, valor semântico, sintaxe, freqüência) e distintas, quer dizer não homógrafas3, seja entre elas, em relação a outras palavras das línguas estudadas, ou a outras formas nas línguas presentes na Internet. Na realidade, os autores tentaram evitar as homografias com a única das inúmeras línguas que não entrou no estudo: o alemão - porque sua presença na Internet é certamente considerável. A decisão de evitar formas de menos de quatro letras foi tomada afim de evitar outras homografias possíveis (principalmente com siglas), o resto devendo ser tratado a nível estatístico desde que diferenças significativas apareçam. As homografias entre pelo menos duas línguas estudadas se mostraram bastante freqüentes, principalmente, mas não somente, entre o português e o espanhol- o inglês e suas formas de origem latina causando também problemas, assim como os empréstimos, etc.
Cada palavra ou "função" comparada inclui ou pode incluir variantes de diferentes espécies:
As seis línguas estudadas apresentam diferenças tipológicas. O estudo levou em conta a morfossintaxe. Com exceção das diferenças de gênero, número ou nos casos acima, vale lembrar que em inglês uma só forma pode ter dois valores sintáxicos (nome e verbo), com variantes morfológicas nas outras línguas e equivaler assim a muitas formas nessas últimas, o que torna a comparação impossível. Partículas como preposições ou pronomes têm funções bem diferentes de acordo com as línguas comparadas, mas elas já tinham sido descartadas pela obrigação de se evitar os palavras com menos de quatro letras.
Apesar de todos os esforços, subsistem algumas homografias que devemos tratar como casos particulares, de modo a evitar distorções nos resultados. As mais freqüentes são os plurais em "IDADES" comuns ao espanhol e ao português, que correspondem às palavras em "ités" em francês ("uniformités", "uniformidades") e que os autores tiveram que procurar também na sua forma no plural a forma italiana em "ità" correspondendo ao mesmo tempo ao singular e ao plural. Há um caso de homografia a partir do romeno (CAL e CAI por "cavalo": homógrafos de outras palavras em espanhol, português, italiano...). É por isso que as formas CAL e CAI não foram contadas, o que penaliza o romeno. A forma CAII foi também eliminada porque é homógrafa de siglas freqüentes na Internet. LUNG ("pulmão" em inglês) significa "longo" em romeno. O efeito, marginal em favor do inglês, não foi corrigido. FACA e FACAS são igualmente duas formas da conjugação do verbo fazer (faça e faças- sem diacríticos). O resultado foi indicado a posteriori tomando como referência a média geral do português de maneira a não penalizá-lo. A forma MALADIE (doença em francês) existe em romeno com o mesmo significado mas é pouco usada. O efeito é marginal. A forma BOLI (variante casual romena da palavra francesa MALADIE) é uma abreviação freqüente de bolígrafo ("caneta") em espanhol e foi eliminada da contagem. JOI ("quinta-feira" em romeno) é uma palavra de três letras e, consequentemente, suscetível de homografia com siglas. JOIA é homógrafo do português jóia sem diacrítico. O resultado foi calculado extrapolando a média. MARTI é homógrafo de um personagem célebre (José Marti), sem diacrítico, e seu resultado não foi contabilizado para o romeno "mardi". O resultado de MARDI (terça-feira) em francês foi diminuído do resultado de MARDI GRAS (terça-feira gorda) para não contabilizar essa forma inglesa.
O trabalho de filtragem e a inversão de formas semanticamente equivalentes, praticamente eliminou os riscos de significados não equivalentes (o que chamávamos de "colisões semânticas") não percebidas no trabalho lingüístico. Acontece que knife ("faca" em inglês) é às vezes usado como o verbo "apunhalar", o que favorece o inglês. As formas portuguesas dos dias da semana, por exemplo, "quarta feira" são freqüentemente usadas sem o segundo termo (quarta por quarta-feira). Essa forma simples não foi levada em conta para evitar uma confusão com o sentido de "quarta". Essa decisão prejudica a língua portuguesa nos cincos dias selecionados (principalmente no espaço Usenet onde as abreviaturas são freqüentes). Nota metodológica: a quantidade de endereços indexados por HotBot parece variar muito de um mês para o outro. As palavras não foram medidas no mesmo momento, o que torna as comparações um pouco aleatórias. Por outro lado, no que nos interessa - o peso relativo das línguas - as proporções continuam as mesmas não importa qual seja a dimensão da amostra indexada por HotBot.
Um dos elementos mais frustrantes do estudo foi o fracasso de uma tentativa de extensão de uma amostragem utilizando expressões em vez de palavras simples. A equipe lingüística produziu um quadro de palavras compostas ou de expressões idiomáticas a partir de dicionários terminológicos. Uma nova amostragem de mais de sessenta palavras foi assim constituída (entre 400 selecionadas no princípio). No entanto, as primeiras medidas mostraram uma grande dispersão dos resultados, principalmente em relação à primeira amostra estabelecida. Por essa razão, as medidas foram interrompidas e a tentativa de reduzir ainda mais os intervalos de confiança, aumentando o tamanho da amostra, acabou em fracasso. Uma das razões desse fenômeno é a estatística. A função matemática que liga a quantidade de ocorrências de palavras simples na Internet pode ser considerada legitimamente como linear: números de citações em inglês (palavra) = alpha X números de citações em francês (palavra); procuramos determinar o valor alpha por uma amostragem de palavras simples. Por outro lado, para expressões (como "bens de consumo" ou "custo de vida"), a função perde sua linearidade e a função matemática pode tornar-se quadrática ou cúbica dependendo se a expressão se compõe de duas ou três palavras. Em tais condições, os resultados se mostram menos coerentes, certamente em razão de fenômenos caóticos. Para compreender esse fenômeno, basta comparar o peso relativo de uma expressão aos termos da mesma expressão. Citemos dois exemplos:
A redução do número de ocorrências de combinações de palavras simples é vertiginosa (de vários milhões à 220!). É nesse caso que vemos que o tamanho dos endereços Web não é tão grande como pensamos. Assim, a comparação da expressão "custo de vida" dá os seguintes resultados, onde o inglês aparece como o menos freqüente:
Os intervalos de confiança a 90% e 99% dos resultados foram estabelecidos empregando a distribuição T de Student4, tomando como hipótese uma distribuição do tipo Normal.
No quadro em anexo 7 são indicados, para cada língua, a freqüência de citações das palavras no espaço WWW, contabilizadas com a ajuda do motor HotBot. Desse modo, todas as citações que aparecem no conjunto das páginas referenciadas pelo motor são levadas em conta. Eis o número total de ocorrências para todos os conceitos e por língua:
Eis as percentagens médias representando a presença das línguas latinas comparadas com o inglês. Ver quadro detalhado palavra por palavra no anexo 8 (Cálculos estatísticos no espaço WWW).
O coeficiente de variação é a raiz quadrada da diferença ao quadrado divido pela média ao quadrado. Um valor superior a 1 indica uma forte dispersão, logo uma média fraca. Um valor inferior a 1 indica uma fraca dispersão e, consequentemente, um resultado muito mais confiável.
No quadro anexo 9 estão indicados, para cada língua, o número de citações no espaço Usenet, calculados graças ao motor DejaNews, cujos totais por língua são:
Eis as percentagens médias representando as línguas latinas comparadas ao inglês. Ver quadro detalhado no anexo 10.
2.4 Comparação com outros estudos
As relações inglês/francês e francês/espanhol evoluíram da seguinte maneira entre o primeiro e o presente estudo:
Quer dizer que houve recuo em relação aos outros anos? E claro que não! Esta evolução tem duas razões principais:
E inegável que a natureza da amostragem de referência influencia bastante os resultados quanto à média e ao coeficiente de variações. Quase nenhuma das palavras da amostragem original de L1 respondia ao conjunto dos critérios do filtro lingüístico estabelecido com rigor para o estudo L4! Se a metodologia lingüística do presente estudo fosse aplicada à amostragem original, o coeficiente de variação seria muito superior a 1 e os intervalos de confiança muito grandes. O trabalho lingüístico permitiu constatar as inúmeras probabilidades de homografias entre as línguas latinas. A amostragem de L1, determinada sem pretensão lingüística particular favorecia pois as línguas latinas, de um lado por causa desse fenômeno de homografias e, por outro, por causa da escolha de palavras que não eram "culturalmente neutras". Quanto às tendências, é difícil estabelecer uma ligação entre esse estudo, rigoroso no plano lingüístico, e os precedentes. No entanto, uma análise científica das evoluções pode ser feita a partir dessa amostragem.. Uma das conclusões desse estudo é a de que é impossível comparar o inglês com uma só língua latina, visto as grandes probabilidades de homografia entre essas: com efeito, as ocorrências de uma mesma forma poderiam ser atribuídas a uma língua quando elas deveriam ser divididas entre várias (assim, a forma "família" é a mesma em espanhol, português e romeno).
No estudo L3, foi feita uma comparação com o estudo da Alis Technologies questionando os resultados desta, os quais superestimavam a presença do inglês. Os resultados abaixo, hoje julgados dignos de confiança, mostram uma superestimação do francês numa proporção importante (à volta de 100%). Isto significa que os resultados da Alis estavam mais próximos da verdade do que pareciam? Mais ou menos. Na verdade, se essa comparação fosse feita de novo hoje à luz dos resultados mais rigorosos que foram obtidos, os resultados estariam relativamente próximos aos do processamento de dados de reconhecimento das línguas na AltaVista mas sempre distantes dos da Alis, que favorece sempre a língua inglesa. Os resultados da Alis são os publicados na Internet e que não foram reutilizados até a data do nosso estudo. Os da AltaVista foram obtidos graças ao método de "complemento do conjunto vazio", descrito no L3. As comparações são feitas tomando por hipótese uma percentagem idêntica em inglês.
Quadro
7:
Comparação com os números obtidos a partir da AltaVista Em comparação com os resultados de nosso estudo:
Comparação com os números publicados pela Alis Technologies Em comparação com nosso estudo:
Quadro
8:
3. PERSPECTIVAS PARA A CONTINUAÇÃO DA OBSERVAÇÃO
É possível hoje reproduzir as medidas, com intervalos regulares, a partir da mesma amostragem lingüística e poder avaliar a respectiva evolução das diferentes línguas latinas em relação ao inglês e entre elas. Para isso seria preciso automatizar o processo de medida e de produção dos resultados.
4. REFERÊNCIAS, NA INTERNET, DOS TRABALHOS CONEXOS
Existe também um recenseamento regularmente corrigido de dados estatísticos na Internet na América Latina e Caribe:<http:/www.cr/latstat/>. Os números são estabelecidos a partir da fonte de referência habitual para esse gênero de estatísticas: Network Wizard <http://www.nw.com>. Restam as referências gerais sobre as
estatísticas relativas à Internet que, até hoje não possuem seções especiais para as
línguas ou culturas: Um outro "clássico" é a Universidade Georgia Tech que realiza sondagens rigorosas sobre os utilizadores da WWW: <http://www.gvu.gatech.edu/user_surveys/>.
2 O espaço (FTP) dos nomes dos fichários não apresentam as características desejadas: pode haver correlação entre nomes de fichários e língua mas bastante ocasional para ser significativa. O espaço Gopher, muito ligado historicamente ao mundo universitário, parou de crescer há alguns anos. 3 Exceto indicação contrária falamos de homografias translingüísticas: os homógrafos na mesma língua serão considerados como uma só palavra. 4 John E. Freund Mathematical Statistics, 2a Ed., 1972, Prentice Hall International, capítulo 9 " Estimation ". 5 Quem traduziu em inglês e publicou os estudos L1, C1, L2 e L3 na revista Matrix News.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||