Português
[es - fr - it - ro]

Publicações
Estudo sobre a posição do francês na Internet
Introdução
Metodologia
Limites da metodologia
Antecedentes
A posição do francês na rede
Escolha do programa para este estudo
Resultados relativos
Hipóteses referentes à nova evolução
Resultados absolutos 2003
Repartição das páginas em francês por país
Conclusões
Anexos

Manchetes
Termilat
Agenda
Eventos
Eventos passados
Estudo sobre a posição do francês na Internet

A posição do francês na rede  

 
 

Escolha do programa para este estudo

O sistema de busca utilizado para medir a posição do francês foi Google. As razões dessa escolha foram o tamanho de seu índice, a coerência de seus resultados, além da amplitude de informações disponíveis [9] a respeito. Outra vantagem desse motor é a rapidez das respostas às pesquisas.

Resultados relativos

PRESENÇA RELATIVA NA REDE EM RELAÇÃO AO INGLÊS
 
Fevereiro 2002
Dezembro 2002
ESPANHOL
11,60%
10,83%
FRANCÊS
9,60%
8,82%
ITALIANO
6,51%
5,28%
PORTUGUÊS
5,62%
4,55%
ROMENO
0,33%
0,23%
ALEMÃO
14,41%
13,87%

 

Observamos um claro recuo das línguas latinas em relação ao inglês em comparação com os valores de 2002, e isso pela primeira vez desde o início de nossos estudos. O gráfico abaixo apresenta uma visão mais geral da evolução da porcentagem relativa das línguas latinas em relação ao inglês nos últimos cinco anos.

 

A evolução das línguas latinas e do alemão em relação ao inglês passou por três fases : um forte aumento entre 1998 e 2000 [10], seguido de uma estagnação em 2001 e, por fim, uma queda a partir de 2002.

Hipóteses relativas à nova evolução

Uma vez eliminados os possíveis erros na utilização dos programas [11], a diminuição e a queda do peso das línguas latinas e do alemão na rede a partir de 2002 podem ser explicadas por diversos fatores (que podem ser combinados) :

A diminuição sensível da produção de páginas web nos diferentes setores lingüísticos latinos e germanófonos.

A influência indireta das línguas não levadas em conta no estudo.

O forte aumento do número de páginas em inglês.

Uma situação particular, vinculada aos programas de busca.

Diminuição da produção de páginas web nos diferentes setores lingüísticos estudados

A diminuição da produção nos países de língua latina ou germânica é pouco provável. Os números da Global Reach [12] mostram que a proporção de internautas de línguas latinas ou germânicas só fez aumentar desde 2001. Estima-se o número total de usuários conectados à Internet, em 2003, a 622 milhões [13], contra 452 milhões em 2001. No mesmo período, a proporção de internautas anglófonos passou de 47% a 37%, enquanto que a proporção de locutores de línguas latinas ou germânicas passou de 20% a 26%, reduzindo a diferença de mais de 15%. Os resultados anteriores do estudo LC da FUNREDES mostraram uma correlação quase linear entre a proporção de páginas produzidas numa determinada língua e a proporção de internautas locutores dessa mesma língua. A queda uniforme das línguas estudadas em relação ao inglês reforça nossa convicção de que é preciso buscar outras causas para esse novo fenômeno.

Influência das línguas não levadas em conta neste estudo

Há três anos, o peso das línguas não européias na Internet vem crescendo consideravelmente. Segundo a Global Reach, no intervalo de um ano, a proporção de internautas locutores das línguas não abordadas no estudo da FUNREDES passou de 32% a 37%, com um recorde para a população de internautas chineses, que são cerca de 70 milhões (mais de 10% do total).

Na medida em que os resultados brutos do estudo da FUNREDES derivam de uma relação entre as línguas latinas e o inglês, a produção de páginas em outras línguas não deveria exercer uma influência direta. No entanto, é plausível que essa população de novos internautas (sobretudo da Ásia) tenha uma produção significa em inglês [14], o que reforçaria o crescimento das páginas em inglês e explicaria, assim, a queda (relativa) simultânea dos resultados das línguas latinas e do alemão.

Essa hipótese foi invalidada por um estudo complementar da repartição lingüística da Internet em inglês entre os diferentes domínios avaliados (em particular, .cn e .kr [15]). Revelou-se que a produção das páginas em inglês fora dos domínios genéricos (.com, .net, .edu) e dos domínios nacionais dos principais países anglófonos (.us, .uk, .au, .ca) é muito fraca [16]. Os detalhes desse estudo complementar estão disponíveis no anexo 2.

Aumento considerável do número de páginas em inglês

Um crescimento relativo da produção de páginas em inglês pelos grandes países anglófonos (Estados Unidos, Canadá, Inglaterra e Austrália) seria uma explicação absolutamente plausível, na medida em que isso se traduziria por uma queda uniforme da quantidade de páginas nas outras línguas. Contudo, nada permitiria explicar tal fenômeno, sobretudo tendo em conta que a proporção de internautas anglófonos não deixa de diminuir. Apesar de nada permitir que se descarte formalmente a possibilidade de um aumento da produção de páginas web em inglês, nossa análise nos conduz a privilegiar a última hipótese, ou seja, a de uma situação conseqüente da utilização dos programas de busca em nossa metodologia.

Situação vinculada aos programas de busca

Não existem números seguros no que se refere à quantidade total de páginas na Rede. Entre os estudos mais recentes, Cyveillance calculava, em julho de 2000, que a Internet continha mais de 2 bilhões de páginas e que o crescimento era exponencial. Poderíamos estimar, a partir desse estudo e através de outras comparações, que o tamanho da Rede, em 2003, equivale a cerca de 20 bilhões de páginas. Outros estudos [17] analisaram o fenômeno da "web invisível" [18] e estimaram o número de páginas web, no ano 2000, a mais de 500 bilhões.

O número de páginas da Rede é um fator chave na avaliação do programa de busca utilizado para nosso estudo. Se considerarmos os números da Cyveillance e aqueles apresentados por Google referentes ao tamanho de seu índice em 2000, podemos dizer que Google indexava a metade das páginas presentes na Internet nessa data (a proporção era a mesma para AltaVista entre 1996 e 1999). Era possível deduzir, portanto, e com certa segurança, que os índices dos sistemas de busca davam uma boa imagem estatística da repartição das línguas na Rede.

Com uma hipótese de 20 bilhões de páginas na Internet em 2003, Google indexa somente 15% do espaço web visível total. Nesse contexto, é evidente que as propriedades estatísticas da amostra indexada exercem uma forte influência sobre nossos resultados, já que o que medimos objetivamente é a porcentagem de páginas indexadas numa determinada língua em relação às páginas indexadas em inglês [19].

O modo de indexação de Google baseia-se no critério de popularidade de uma página [20]. O objetivo desse critério é favorecer as páginas mais visitadas e mais referenciadas na ordem de aparição das respostas às pesquisas. No entanto, uma das conseqüências é que ele elimina do espaço de busca as páginas para as quais o número de enlaces é muito baixo ou provenientes de sites considerados como pouco populares. É claro que esse método tende a ampliar a defasagem nos dois sentidos (ele aumenta a visibilidade das páginas bem referenciadas e, ao mesmo tempo, limita o desenvolvimento das páginas não indexadas). É igualmente lógico que o método favoreça as páginas mais antigas – que tiveram tempo de adquirir uma certa notoriedade – e penaliza as páginas novas, sobretudo nas línguas pouco divulgadas, pois a probabilidade de enlaces será ainda menor.

Na medida em que a comunidade de internautas anglófonos é a mais numerosa e a mais antiga da Internet, podemos deduzir que as páginas em inglês têm uma probabilidade maior de estarem presentes numa indexação parcial das páginas. Como os programas de busca indexam, desde 2001, uma porcentagem cada vez menor de páginas, podemos legitimamente pensar que a Internet em inglês é cada vez mais favorecida. Esta é a situação mais plausível para explicar a queda relativa do peso das línguas latinas e do alemão em relação ao inglês no estudo da FUNREDES entre 2002 e 2003.

Esse descompasso dos programas de busca coloca, evidentemente, a questão da validade dos últimos resultados desse estudo e da metodologia empregada. Dois fatores devem ser levados em conta para responder a essa questão :

1) Esse trabalho permanece, até hoje (!), como o único capaz de produzir dados de modo regular e com uma total transparência quanto aos métodos e procedimentos usados.

2) Qual é a existência real de uma página não indexada por um programa de busca ? A visão da Internet pelos sistemas de busca condiciona implicitamente a visão dos usuários. Uma página não indexada é virtualmente inexistente, apesar de ela existir no espaço virtual !

Os resultados do estudo FUNREDES/União Latina já não apresentam a repartição lingüística da Internet, mas a repartição lingüística da Rede tornada visível pelos programas de busca. Essa constatação tem evidentemente fortes implicações no que se refere às políticas eficazes para os conteúdos numa determinada língua, como será explicado no capítulo de conclusão.

Resultados absolutos 2003

A repartição absoluta do inglês, das línguas latinas e do alemão na Internet é determinada a partir dos números relativos obtidos pela FUNREDES, além de outros fatores como o número de internautas por língua, a comparação com resultados anteriores e estudos paralelos. Os resultados podem ser considerados confiáveis, com uma margem de mais ou menos 10%.

Presença absoluta na Rede
INGLÊS
45,0%
ESPANHOL
4,87%
FRANCÊS
3,97%
ITALIANO
2,38%
PORTUGUÊS
2,05%
ROMENO
0,10%
ALEMÃO
6,24%
OUTRAS LÍNGUAS
35,39%

Relação entre o número de locutores e sua presença na Rede

É evidente que os valores de presença absoluta não são um indicador perfeito do vigor de uma língua nas redes. Para obter um resultado significativo, é necessário comparar os valores que expressam a presença das línguas na Internet com sua presença no mundo real. A presença relativa dessas línguas é calculada sem levar suficientemente em conta o fator "plurilingüismo". Esse método traz em si certas dificuldades metodológicas que foram descritas na análise L4.

Peso das línguas estudadas
(Fonte União Latina [21] - números arredondados em milhões, 2000)

 
Inglês
Espanhol
Francês
Italiano
Português
Romeno
Alemão
Presença absoluta (número de locutores)
630
375
130
60
190
30
120
Presença relativa (porcentagem mundial)
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2%

 

Presença ponderada na Rede

 
Presença absoluta 2003
Presença ponderada 1998
Presença ponderada 2000
Presença ponderada 2003
INGLÊS
45%
7,14
5,71
4,29
ESPANHOL
4,87%
0,40
0,78
0,78
FRANCÊS
3,97%
1,30
2,02
1,83
ITALIANO
2,38%
1,50
2,77
2,38
PORTUGUÊS
2,05%
0,26
0,68
0,65
ROMENO
0,10%
0,30
0,38
0,21
ALEMÃO
6,24%
Não disponível
3,15
3,12

Um quociente igual a um deve ser considerado como um resultado "normal" ; se ele for inferior a 1, como fraco, e se for superior a 1, como considerável.

Vitalidade da produção de informação dos internautas por língua

Um estudo da Global Reach [22] propõe um valor para o número de usuários da Internet por língua :

 

Colocando esses resultados em relação com os de nosso estudo, podemos deduzir quais são os segmentos lingüísticos que mais produzem informações na Rede.

Produtividade dos locutores

 
Páginas
Internautas
P/I
INGLÊS
45%
37%
1,22
ESPANHOL
4,87%
7,6%
0,64
FRANCÊS
3,97%
4,2%
0,95
ITALIANO
2,38%
3,9%
0,62
PORTUGUÊS
2,05%
3,1%
0,67
ROMENO
0,10%
0,4%
0,28
ALEMÃO
6,24%
6,8%
0,92

 

Após o inglês, o francês é a língua mais bem posicionada na Internet em relação ao número de internautas francófonos.


Notas
 

[9] Google Watch, por exemplo.

[10] Cabe observar que a presença do francês torna-se menor que a do espanhol a partir de 1999.

[11] Em novembro de 2002, nem Google, nem AlltheWeb deram resultados consistentes (má gestão dos sinais diacríticos, resultados aleatórios). Em dezembro de 2002, novas análises mostraram que Google voltava a dar resultados coerentes para nosso estudo.

[12] http://www.glreach.com/globstats/. Global Reach desenvolve, há anos, um trabalho de compilação referente ao número de usuários da Internet por língua e por país. Mesmo não havendo consistência nas fontes utilizadas para conceber esses indicadores (aos quais atribuímos uma confiabilidade de ± 20%), esse trabalho permanece uma ferramenta suficientemente confiável para compreender as tendências.

[13] Os resultados do francês foram atualizados a partir das informações do site http://www.mediametrie.fr, que serve de fonte para a Global Reach.

[14] Por exemplo, uma presença de cerca de 5% das páginas em inglês no domínio da China (.cn) teria uma influência significativa visto a velocidade de crescimento do domínio chinês. Tal número seria plausível na medida em que os internautas sinófonos representam hoje mais de 10% da população mundial de internautas.

[15] China e Coréia.

[16] Por exemplo, somente 0,25% das páginas web em inglês pertencem ao domínio .cn.

[17] A de BrightPlanet, por exemplo : http://www.brightplanet.com/.

[18] A "web invisível" é a parte da Internet não indexada pelos programas de busca e que, segundo a BrightPlanet, é mais de 400 vezes superior à parte indexada. A web invisível incluiria as páginas web que não são referenciadas (sem nenhum link que indique essas páginas), as páginas protegidas por uma senha, os documentos em formato não indexável, diversas bases de dados, além das redes intranet. Para mais informações (em inglês) :
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp.

[19] A quem possa surpreender o uso de tamanho arsenal metodológico quando os próprios programas são capazes de reconhecer as línguas e de produzir, com um pouco de astúcia, sua própria estimativa das páginas por língua (ver o « método do complemento do conjunto vazio » na URL http://www.funredes.org/LC/francais/L3.html), devemos responder que, de modo consistente, nossos estudos mostraram que esses algoritmos não são confiáveis ou, em todo caso, não o são de forma suficiente para uma análise da posição das línguas.

[20] A popularidade de uma página depende do número de outras páginas que se referem a ela (número de enlaces), além da popularidade do site a partir do qual essas referências são feitas. A recorrência indireta introduzida dessa forma é que dá ao método sua originalidade.

[21] Ver explicações :
http://www.unilat.org/dtil/lenguainternet/pt/lingua/linguas_anexo1.htm#ANEXO 2.

[22] http://www.glreach.com/globstats

 





131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster