| |
Escolha do programa para
este estudo
O sistema de busca utilizado para medir a posição
do francês foi Google. As razões
dessa escolha foram o tamanho de seu índice,
a coerência de seus resultados, além
da amplitude de informações
disponíveis [9] a respeito.
Outra vantagem desse motor é a rapidez
das respostas às pesquisas.
Resultados relativos
|
PRESENÇA RELATIVA NA REDE EM RELAÇÃO
AO INGLÊS |
| |
Fevereiro 2002 |
Dezembro 2002 |
| ESPANHOL |
11,60% |
10,83% |
| FRANCÊS |
9,60% |
8,82% |
| ITALIANO |
6,51% |
5,28% |
| PORTUGUÊS |
5,62% |
4,55% |
| ROMENO |
0,33% |
0,23% |
| ALEMÃO |
14,41% |
13,87% |
Observamos um claro
recuo das línguas latinas em relação
ao inglês em comparação
com os valores de 2002, e isso pela
primeira vez desde o início de nossos estudos.
O gráfico abaixo apresenta uma visão
mais geral da evolução da porcentagem
relativa das línguas latinas em relação
ao inglês nos últimos cinco anos.

A evolução das línguas latinas
e do alemão em relação ao
inglês passou por três fases : um
forte aumento entre 1998 e 2000 [10],
seguido de uma estagnação em 2001
e, por fim, uma queda a partir de 2002.
Hipóteses relativas
à nova evolução
Uma vez eliminados os possíveis
erros na utilização dos programas
[11], a diminuição
e a queda do peso das línguas latinas e
do alemão na rede a partir de 2002 podem
ser explicadas por diversos fatores (que podem
ser combinados) :
A diminuição sensível da
produção de páginas web
nos diferentes setores lingüísticos
latinos e germanófonos.
A influência indireta das línguas
não levadas em conta no estudo.
O forte aumento do número de páginas
em inglês.
Uma situação particular, vinculada
aos programas de busca.
Diminuição
da produção de páginas
web nos diferentes setores lingüísticos
estudados
A diminuição da produção
nos países de língua latina ou germânica
é pouco provável. Os números
da Global Reach [12]
mostram que a proporção de internautas
de línguas latinas ou germânicas
só fez aumentar desde 2001. Estima-se o
número total de usuários conectados
à Internet, em 2003, a
622 milhões [13], contra
452 milhões em 2001. No mesmo período,
a proporção
de internautas anglófonos passou de 47%
a 37%, enquanto que a proporção
de locutores de línguas latinas ou germânicas
passou de 20% a 26%, reduzindo a diferença
de mais de 15%. Os resultados anteriores do estudo
LC da FUNREDES mostraram uma correlação
quase linear entre a proporção
de páginas produzidas numa determinada
língua e a proporção de internautas
locutores dessa mesma língua. A queda uniforme
das línguas estudadas em relação
ao inglês reforça nossa convicção
de que é preciso buscar outras causas para
esse novo fenômeno.
Influência das
línguas não levadas em conta neste
estudo
Há três anos, o peso das línguas
não européias na Internet vem crescendo
consideravelmente. Segundo a Global Reach, no
intervalo de um ano, a proporção
de internautas locutores das línguas não
abordadas no estudo da FUNREDES passou de 32%
a 37%, com um recorde para a população
de internautas chineses, que são cerca
de 70 milhões (mais de 10% do total).
Na medida em que os resultados
brutos do estudo da FUNREDES derivam de
uma relação
entre as línguas latinas e o inglês,
a produção de páginas em
outras línguas não deveria exercer
uma influência direta. No entanto, é
plausível que essa população
de novos internautas (sobretudo
da Ásia) tenha uma produção
significa em inglês [14],
o que reforçaria o crescimento das páginas
em inglês e explicaria, assim, a queda (relativa)
simultânea dos resultados das línguas
latinas e do alemão.
Essa hipótese foi invalidada
por um estudo complementar da repartição
lingüística da Internet em inglês
entre os diferentes domínios
avaliados (em particular, .cn e .kr [15]).
Revelou-se que a produção das páginas
em inglês fora dos domínios genéricos
(.com, .net, .edu) e dos domínios nacionais
dos principais países anglófonos
(.us, .uk, .au, .ca) é
muito fraca [16]. Os detalhes
desse estudo complementar estão disponíveis
no anexo 2.
Aumento considerável
do número de páginas em inglês
Um crescimento relativo da produção
de páginas em inglês pelos grandes
países anglófonos (Estados Unidos,
Canadá, Inglaterra e Austrália)
seria uma explicação absolutamente
plausível, na medida em que isso se traduziria
por uma queda uniforme da quantidade de páginas
nas outras línguas. Contudo, nada permitiria
explicar tal fenômeno, sobretudo tendo em
conta que a proporção de internautas
anglófonos não deixa de diminuir.
Apesar de nada permitir que se descarte formalmente
a possibilidade de um aumento da produção
de páginas web em inglês, nossa análise
nos conduz a privilegiar a última hipótese,
ou seja, a de uma situação conseqüente
da utilização dos programas de busca
em nossa metodologia.
Situação
vinculada aos programas de busca
Não existem números seguros no
que se refere à quantidade total de páginas
na Rede. Entre os estudos mais recentes, Cyveillance
calculava, em julho de 2000, que a Internet continha
mais de 2 bilhões de páginas e que
o crescimento era exponencial. Poderíamos
estimar, a partir desse estudo e através
de outras comparações, que o tamanho
da Rede, em 2003, equivale a
cerca de 20 bilhões
de páginas. Outros estudos [17]
analisaram o fenômeno
da "web invisível" [18]
e estimaram o número de páginas
web, no ano 2000, a mais de 500 bilhões.
O número de páginas da Rede é
um fator chave na avaliação do programa
de busca utilizado para nosso estudo. Se considerarmos
os números da Cyveillance e aqueles apresentados
por Google referentes ao tamanho de seu índice
em 2000, podemos dizer que Google indexava a
metade das páginas presentes na
Internet nessa data (a proporção
era a mesma para AltaVista entre 1996 e 1999).
Era possível deduzir, portanto, e com certa
segurança, que os índices dos sistemas
de busca davam uma boa imagem estatística
da repartição das línguas
na Rede.
Com uma hipótese de 20 bilhões
de páginas na Internet em 2003, Google
indexa somente 15%
do espaço web visível total.
Nesse contexto, é evidente que as propriedades
estatísticas da amostra indexada
exercem uma forte influência sobre nossos
resultados, já que o que medimos objetivamente
é a porcentagem de páginas indexadas
numa determinada língua em
relação às páginas
indexadas em inglês [19].
O modo de indexação
de Google baseia-se no critério de popularidade
de uma página [20]. O
objetivo desse critério é favorecer
as páginas mais visitadas e mais referenciadas
na ordem de aparição das respostas
às pesquisas. No entanto, uma das conseqüências
é que ele elimina
do espaço de busca as páginas para
as quais o número de enlaces é muito
baixo ou provenientes de sites considerados como
pouco populares. É claro que esse método
tende a ampliar a defasagem nos dois sentidos
(ele aumenta a visibilidade das páginas
bem referenciadas e, ao mesmo tempo, limita o
desenvolvimento das páginas não
indexadas). É igualmente lógico
que o método favoreça as páginas
mais antigas – que tiveram tempo de adquirir
uma certa notoriedade – e penaliza
as páginas novas, sobretudo nas
línguas pouco divulgadas, pois a probabilidade
de enlaces será ainda menor.
Na medida em que a comunidade de internautas
anglófonos é a mais numerosa e a
mais antiga da Internet, podemos deduzir que as
páginas em inglês têm uma probabilidade
maior de estarem presentes numa indexação
parcial das páginas. Como os programas
de busca indexam, desde 2001, uma porcentagem
cada vez menor de páginas, podemos legitimamente
pensar que a Internet em inglês é
cada vez mais favorecida. Esta é a situação
mais plausível para explicar a queda relativa
do peso das línguas latinas e do alemão
em relação ao inglês no estudo
da FUNREDES entre 2002 e 2003.
Esse descompasso dos programas de busca coloca,
evidentemente, a questão
da validade dos últimos resultados
desse estudo e da metodologia empregada. Dois
fatores devem ser levados em conta para responder
a essa questão :
1) Esse trabalho permanece, até hoje
(!), como o único
capaz de produzir dados de modo regular e com
uma total transparência
quanto aos métodos e procedimentos usados.
2) Qual é a existência
real de uma página não
indexada por um programa de busca ? A visão
da Internet pelos sistemas de busca condiciona
implicitamente a visão dos usuários.
Uma página não indexada é
virtualmente inexistente, apesar de ela
existir no espaço virtual !
Os resultados do estudo FUNREDES/União
Latina já não apresentam a repartição
lingüística da Internet, mas a
repartição lingüística
da Rede tornada visível
pelos programas de busca. Essa constatação
tem evidentemente fortes implicações
no que se refere às políticas eficazes
para os conteúdos numa determinada língua,
como será explicado no capítulo
de conclusão.
Resultados absolutos 2003
A repartição absoluta do inglês,
das línguas latinas e do alemão
na Internet é determinada a partir dos
números relativos obtidos pela FUNREDES,
além de outros fatores como o número
de internautas por língua, a comparação
com resultados anteriores e estudos paralelos.
Os resultados podem ser considerados confiáveis,
com uma margem de mais ou menos 10%.
|
Presença absoluta na Rede |
| INGLÊS |
45,0% |
| ESPANHOL |
4,87% |
| FRANCÊS |
3,97% |
| ITALIANO |
2,38% |
| PORTUGUÊS |
2,05% |
| ROMENO |
0,10% |
| ALEMÃO |
6,24% |
| OUTRAS LÍNGUAS |
35,39% |
Relação
entre o número de locutores e sua presença
na Rede
É evidente que os valores de presença
absoluta não são um indicador perfeito
do vigor de uma língua nas redes. Para
obter um resultado significativo, é necessário
comparar os valores que expressam a presença
das línguas na Internet com sua presença
no mundo real. A presença relativa
dessas línguas é calculada sem levar
suficientemente em conta o fator "plurilingüismo".
Esse método traz em si certas dificuldades
metodológicas que foram descritas na análise
L4.
Peso
das línguas estudadas
(Fonte União
Latina [21] -
números arredondados em milhões,
2000)
| |
Inglês |
Espanhol |
Francês
|
Italiano |
Português |
Romeno |
Alemão |
| Presença
absoluta (número de locutores) |
630 |
375 |
130 |
60 |
190 |
30 |
120 |
| Presença relativa
(porcentagem mundial) |
10,50% |
6,25% |
2,17% |
1% |
3,17% |
0,50% |
2% |
Presença
ponderada na Rede
| |
Presença absoluta 2003 |
Presença ponderada 1998
|
Presença ponderada 2000 |
Presença ponderada 2003 |
| INGLÊS |
45% |
7,14 |
5,71 |
4,29 |
| ESPANHOL |
4,87% |
0,40 |
0,78 |
0,78 |
| FRANCÊS |
3,97% |
1,30 |
2,02 |
1,83 |
| ITALIANO |
2,38% |
1,50 |
2,77 |
2,38 |
| PORTUGUÊS |
2,05% |
0,26 |
0,68 |
0,65 |
| ROMENO |
0,10% |
0,30 |
0,38 |
0,21 |
| ALEMÃO |
6,24% |
Não disponível |
3,15 |
3,12 |
Um quociente igual a um deve ser considerado
como um resultado "normal" ; se ele
for inferior a 1, como fraco,
e se for superior a 1, como considerável.
Vitalidade da produção
de informação dos internautas
por língua
Um estudo da Global Reach
[22] propõe um valor
para o número de usuários da Internet
por língua :

Colocando esses resultados em relação
com os de nosso estudo, podemos deduzir quais
são os segmentos lingüísticos
que mais produzem informações na
Rede.
Produtividade
dos locutores
| |
Páginas
|
Internautas
|
P/I |
| INGLÊS |
45% |
37% |
1,22
|
| ESPANHOL |
4,87% |
7,6% |
0,64 |
| FRANCÊS |
3,97% |
4,2% |
0,95
|
| ITALIANO |
2,38% |
3,9% |
0,62 |
| PORTUGUÊS |
2,05% |
3,1% |
0,67 |
| ROMENO |
0,10% |
0,4% |
0,28 |
| ALEMÃO |
6,24% |
6,8% |
0,92
|
Após o inglês, o francês é
a língua mais bem posicionada na Internet
em relação ao número de internautas
francófonos.
|