Español
[fr - it - pt - ro]

Publicaciones
Estudio sobre el lugar del francés en Internet
Introducción
Metodología
Límites de la metodología
Antecedentes
El lugar del francés en la red
Elección del motor para este estudio
Resultados relativos
Hipótesis relativas a la nueva evolución
Resultados absolutos de 2003
Repartición de las páginas en francés por países
Conclusiones
Anexos

Titulares
Terminometro
Termilat
Agenda
Eventos
Eventos pasados
Estudio sobre el lugar del francés en Internet

El lugar del francés en la red  

 
 

Elección del motor para este estudio

Google ha sido el motor de búsqueda utilizado para medir el lugar del francés en la Red. Las razones de esta elección son tanto el tamaño de su índice, la coherencia de sus resultados, así como la amplitud de la información disponible [9]. Una ventaja suplementaria es la rapidez de respuesta a las búsquedas.

Resultados relativos

PRESENCIA RELATIVA EN LA REDEN RELACIÓN CON EL INGLÉS
 
febrero 2002
diciembre 2002
ESPAÑOL
11,60%
10,83%
FRANCÉS
9,60%
8,82%
ITALIANO
6,51%
5,28%
PORTUGUÉS
5,62%
4,55%
RUMANO
0,33%
0,23%
ALEMÁN
14,41%
13,87%

 

Se observa una neta regresión de las lenguas latinas en relación con el inglés en comparación con los valores del año 2002, y ello por primera vez desde el inicio de nuestros estudios. El gráfico siguiente presenta una visión más general de la evolución del porcentaje relativo de las lenguas latinas en relación con el inglés en el transcurso de los 5 últimos años.

 

La evolución de las lenguas latinas y del alemán en relación con el inglés ha pasado por tres fases: un fuerte aumento entre 1998 y 2000 [10], seguido de un estancamiento en 2001 y de una disminución a partir de 2002.

Hipótesis relativas a la nueva evolución

Una vez eliminados los posibles errores en la utilización de los motores [11], la disminución y la regresión del peso de las lenguas latinas y del alemán en la Red a partir de 2002 podrían explicarse por diversos factores (y su combinación):

La disminución sensible del ritmo de la producción de páginas web en los diferentes sectores lingüísticos latinos y germanófonos.

La influencia indirecta de las lenguas no consideradas en el estudio.

El aumento importante del número de páginas en inglés.

Una situación particular cuyo origen se halla en los motores de búsqueda.

Disminución del ritmo de producción de páginas web en los distintos sectores lingüísticos estudiados

La disminución de la producción en los países de lengua latina o germánica es poco probable. Las cifras de Global Reach [12] muestran que la proporción de internautas de lengua latina o alemán no ha cesado de aumentar desde 2001. El número total de usuarios conectados en Internet en 2003 se estima en 622 millones [13] frente a 452 millones en 2001. En el mismo período, la proporción de internautas anglófonos pasa de 47% a 37%, mientras que la proporción de hablantes de lenguas latinas o germánicas pasa de 20% a 26%, lo que implica una reducción de más de 15%. Los resultados precedentes del estudio LC de FUNREDES mostraron una correlación casi lineal entre la proporción de páginas producidas en una lengua dada y la proporción de internautas hablantes de esta lengua. La baja uniforme de las lenguas estudiadas en relación con el inglés refuerza la convicción de que hay que buscar en otra parte la causa de este nuevo fenómeno.

Influencia de las lenguas no tomadas en cuenta en el estudio

Desde hace tres años, el peso de las lenguas no europeas en Internet crece sensiblemente. Según Global Reach, en un año, la proporción de internautas que hablan lenguas no cubiertas por el estudio de FUNREDES ha pasado del 32% al 37%, con un récord para la población de internautas chinos que alcanza actualmente 70 millones (más del 10% del total).

En la medida en que los resultados brutos del estudio de FUNREDES derivan de una relación entre las lenguas latinas y el inglés, la producción de páginas en otros idiomas no debería tener una influencia directa. Sin embargo, es probable que esta población de nuevos internautas (sobre todo venida de Asia) produzca en inglés de manera significativa [14], lo que reforzaría el crecimiento de las páginas en inglés y explicaría por lo tanto la baja (relativa) simultánea de los resultados de las lenguas latinas y del alemán.

Esta hipótesis ha sido refutada por un estudio complementario de la repartición lingüística del Internet en inglés entre los diferentes dominios concernidos (en particular, .cn y .kr [15]). De allí que la producción de las páginas en inglés, aparte de los dominios genéricos (.com, .net, .edu) y de los dominios nacionales de los principales países anglófonos (.us, .uk, .au, .ca) sea muy escasa [16]. El detalle de los resultados de este complemento de estudio se encuentra disponible en el anexo 2.

Aumento importante del número de páginas en inglés

Una ganancia relativa de crecimiento en la producción de las páginas en inglés por parte de los grandes países anglófonos (Estados Unidos, Canadá, Reino Unido y Australia) supondría una explicación completamente verosímil en la medida en que ésta se traduciría en una disminución uniforme de la proporción de páginas en los otros idiomas. Sin embargo, nada permite explicar tal fenómeno, sobre todo en la medida en que la proporción de internautas anglófonos no deja de disminuir. A pesar de que nada permita descartar formalmente la posibilidad de un aumento de la producción de páginas web en inglés, nuestro análisis nos lleva a favorecer más bien la última hipótesis, a saber una situación que resulta de la utilización de los motores de búsqueda en nuestra metodología.

Situación con respecto a los motores de búsqueda

No existen cifras seguras relativas al número total de páginas en la Red. Entre los estudios más recientes, Cyveillance estimaba, en julio de 2000, que Internet contenía más de 2.000 millones de páginas y que el crecimiento era exponencial. Se podría estimar, a partir de este estudio y por otras intersecciones, que el tamaño de la Red, en 2003, es del orden de 20.000 millones de páginas. Otros estudios [17] analizan el fenómeno de la "web invisible" [18] y estimaban, en 2000, el número de páginas web a más de medio billón.

El número de páginas de la Red es un factor clave en la evaluación del motor de búsqueda que va a utilizarse para el estudio. Si consideramos las cifras de Cyveillance y las presentadas por Google relativas al tamaño de su índice en el año 2000, puede decirse que Google indiziba la mitad de las páginas presentes en Internet en aquella época (el orden de magnitud era el mismo para AltaVista entre 1996 y 1999). Se podía por lo tanto deducir con cierta seguridad que el índice de los motores de búsqueda daba una imagen estadística satisfactoria en cuanto a la repartición de las lenguas en la Red.

Con una hipótesis de 20.000 millones de páginas en Internet en 2003, Google no indiza más allá del 15% del espacio web visible total. En este contexto, está claro que las propiedades estadísticas de la muestra indizada ejercen una fuerte influencia sobre nuestros resultados, puesto que lo que nosotros medimos objetivamente es el porcentaje de páginas indizadas en un idioma dado en relación con las páginas indizadas en inglés [19].

El modo de indización de Google reposa en el criterio de popularidad de una página [20]. La finalidad de este criterio es favorecer las páginas más visitadas y las más referenciadas en el orden de aparición de las respuestas a las búsquedas. Sin embargo, una de las consecuencias es que este motor elimina del espacio de búsqueda aquellas páginas hacia las cuales el número de enlaces es muy bajo o que provienen de sitios considerados a su vez como pocos populares. Está claro que este método tiene tendencia a amplificar las distancias en ambos sentidos, acelerando la visibilidad de las páginas que se encuentran bien referenciadas y, al mismo tiempo, limitando el desarrollo y la expansión de las páginas no indizadas. Es asimismo lógico que el método favorece las páginas más antiguas –que han tenido tiempo de hacerse un nicho de popularidad– y penaliza las páginas nuevas, sobre todo en lenguas poco extendidas, ya que la probabilidad de enlaces será aún menor.

En la medida en que la comunidad de internautas anglófonos es la más numerosa y la más antigua en Internet, podemos razonablemente deducir que las páginas en inglés tienen una mayor probabilidad de estar presentes cuando la indización de las páginas es parcial. Como los motores de búsqueda indizan, desde 2001, un porcentaje cada vez más bajo de páginas, se puede por lo tanto pensar legítimamente que el Internet en inglés se encuentra cada vez más favorecido. Se trata de la explicación más plausible de la disminución relativa del peso de las lenguas latinas y del alemán en relación con el inglés en el estudio de FUNREDES entre 2002 y 2003.

Esta desviación a causa de los motores de búsqueda plantea por supuesto la cuestión de la validez de los últimos resultados de este estudio y de la metodología utilizada. Para responder a esta cuestión hay que tomar en cuenta dos factores

1) Este trabajo continúa siendo, aún hoy (!), el único en proporcionar cifras de manera regular y con total transparencia acerca de los métodos y procedimientos utilizados.

2) ¿Cuál es la existencia real de una página no indizada por un motor? La visión de la Red por los motores de búsqueda condiciona implícitamente la visión de los usuarios. ¡Una página no indizada es virtualmente inexistente, aunque exista en el espacio virtual !

Los resultados del estudio FUNREDES/Unión Latina ya no presentan la repartición lingüística de la Red, sino la repartición lingüística de la Red que los motores de búsqueda hacen visible. Esta constatación comporta evidentemente fuertes implicaciones sobre las políticas eficaces para los contenidos de una lengua dada, tal como se explicará en el capítulo que sirve de conclusión.

Resultados absolutos de 2003

Se determina la repartición absoluta del inglés, de las lenguas latinas y del alemán en Internet a partir de cifras relativas obtenidas por FUNREDES, de otros factores tales como el número de internautas por idioma, una intersección con los resultados precedentes, así como estudios paralelos. Los resultados se pueden estimar dignos de confianza con un margen de más o menos el 10%.

Presencia absoluta en la Red
INGLÉS
45,0%
ESPAÑOL
4,87%
FRANCÉS
3,97%
ITALIANO
2,38%
PORTUGUÉS
2,05%
RUMANO
0,10%
ALEMÁN
6,24%
OTROS IDIOMAS
35,39%

Relación entre el número de hablantes y su presencia en la Red

Es evidente que los valores de presencia absoluta no son un indicador perfecto del vigor de un idioma en las redes. Para obtener un resultado significativo, conviene proporcionar los valores que expresan la presencia de las lenguas en Internet en correlación con su presencia en el mundo real. La presencia relativa de estas lenguas se calcula sin tener en cuenta plenamente el factor del "plurilingüismo". Este método comporta escollos metodológicos que ya fueron descritos el estudio L4.

Peso de los idiomas estudiados
(Fuente Unión Latina [21]- cifras redondeadas en millones, 2000)

 
Inglés
Español
Francés
Italiano
Portugués
Rumano
Alemán
Presencia absoluta (número de hablantes)
630
375
130
60
190
30
120
Presencia relativa (porcentaje mundial)
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2%

 

Presencia ponderada en la Red

 
Presencia absoluta 2003
Presencia ponderada 1998
Presencia ponderada 2000
Presencia ponderada 2003
INGLÉS
45%
7,14
5,71
4,29
ESPAÑOL
4,87%
0,40
0,78
0,78
FRANCÉS
3,97%
1,30
2,02
1,83
ITALIANO
2,38%
1,50
2,77
2,38
PORTUGUÉS
2,05%
0,26
0,68
0,65
RUMANO
0,10%
0,30
0,38
0,21
ALEMÁN
6,24%
No disponible
3,15
3,12

Un cociente igual a 1 debe considerarse como un resultado "normal"; si es inferior a 1, como débil y si es superior a 1, como respetable.

Vitalidad de la producción de información de los internautas por idioma

Un estudio de Global Reach [22] propone un valor para el número de usuarios de Internet por idioma:

Al relacionar resultados en relación con los de nuestro estudio, es posible deducir los segmentos lingüísticos que producen más información en la Red.

Productividad de los hablantes

 
Páginas
Internautas
P/I
INGLÉS
45%
37%
1,22
ESPAÑOL
4,87%
7,6%
0,64
FRANCÉS
3,97%
4,2%
0,95
ITALIANO
2,38%
3,9%
0,62
PORTUGUÉS
2,05%
3,1%
0,67
RUMANO
0,10%
0,4%
0,28
ALEMÁN
6,24%
6,8%
0,92

Luego del inglés, el francés es el idioma que ocupa una mejor posición en Internet en relación con el número de internautas francófonos.


Notas
 

[9] Google Watch por ejemplo.

[10] Cabe observar que la presencia del francés pasa por debajo de la del español a partir de 1999.

[11] En noviembre de 2002, ni Google, ni AlltheWeb presentaban resultados consistentes (mala gestión de los signos diacríticos, resultados aleatorios, etc.). En diciembre de 2002, nuevas mediciones mostraron que Google volvía a generar resultados coherentes para nuestro estudio.

[12] http://www.glreach.com/globstats/. Global Reach lleva a cabo desde hace años un trabajo de compilación relativo al número de usuarios de Internet por lengua y por país. Aunque no haya consistencia en las fuentes utilizadas para construir estos indicadores (a los que nosotros otorgamos una confianza de + 20%), es una herramienta razonablemente digna de confianza para comprender las tendencias.

[13] Los resultados del francés han sido actualizados a partir de la información del sitio http://www.mediametrie.fr que sirve de fuente a Global Reach.

[14] Por ejemplo, una presencia del orden del 5% de las páginas en inglés en el dominio de China (.cn) tendría una influencia significativa habida cuenta de la velocidad de crecimiento del dominio chino. Tal cifra sería pausible en la medida en que los internautas sinohablantes representan actualmente más del 10% de la población mundial de internautas.

[15] China y Corea.

[16] Por ejemplo, sólo el 0,25% de las páginas web en inglés pertenecen al dominio .cn.

[17] El de BrightPlanet por ejemplo: http://www.brightplanet.com/.

[18] La "web invisible" es la parte de Internet no indizada por los motores de búsqueda y que, según BrightPlanet, es más de 400 veces más extensa que la parte indizada por los motores. La web invisible comprendería las páginas web que no están referenciadas (ningún enlace envía hacia esas páginas), las páginas protegidas con una contraseña, los documentos en los formatos no indizables, numerosas bases de datos, así como las redes intranet. Para mayor información (en inglés):
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp.

[19] A quienes sorprenda el despliegue de tal arsenal metodológico cuando los motores son en principio y por sí mismos capaces de reconocer los idiomas y que es posible, con un poco de astucia, obtener la propia cuenta de las páginas por lenguas (ver el método del complemento del conjunto vacío en la URL http://www.funredes.org/LC/espanol/L3.html), a estas personas les debemos responder que, de manera consistente, nuestros estudios han demostrado que estos algoritmos no son dignos de confianza y, en cualquier caso, no lo suficientemente para una medición del lugar de las lenguas.

[20] La popularidad de una página depende del número de otras páginas que hacen referencia a ella (número de enlaces), así como de la popularidad del sitio a partir del cual estas referencias son establecidas; la recurrencia indirecta introducida de esta manera constituye la originalidad del método.

[21] Ver explicaciones:
http://www.unilat.org/dtil/lenguainternet/es/lengua/lenguas_anexo.htm#Anexo 2.

[22] http://www.glreach.com/globstats






131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster