Índice

2. Detalle de los resultados

 

2.1 Metodología Internet

 

Los motores de búsqueda de acceso libre en Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch...) son herramientas sumamente poderosas, puesto que indexan gran parte de las informaciones presentes en los diferentes espacios de Internet: espacio de las páginas web, espacio de los grupos de discusión o tertulias, espacio de los menús o de los documentos Gopher, espacio de los ficheros accesibles en FTP. Han sido concebidos para la búsqueda de palabras o de expresiones dentro de estos espacios y algunos de ellos ofrecen, además, resultados cuantitativos sobre el número de ocurrencias de las palabras buscadas. Este "beneficio secundario" fue usado por los autores para medir el lugar que ocupan las lenguas y las culturas latinas en los diversos espacios. Decidieron concentrar el trabajo en los espacios web y Usenet, que son los más representativos de la evolución de Internet2 y también aquellos en que las herramientas disponibles son más eficaces.

 

2.2 Metodología lingüística

 

Los resultados de la metodología aquí explicada pueden leerse en el anexo 5 (Lista de palabras de la muestra de referencia)

 

2.2.1 Equivalencias y distinciones gráficas

Los autores decidieron procesar lingüísticamente las palabras a buscar, antes de procesarlas de manera estadístico-informática con los motores de búsqueda. Un equipo lingüístico trabajó primero de manera independiente, elaborando series de seis palabras "funciones" (una en cada uno de los idiomas tratados) que sean por una parte equivalentes (en cuanto à su significación y alcance referencial, su sintaxis, su frecuencia de uso) y distintivas, es decir no homógrafas3 — tanto entre sí como en relación con palabras de idiomas muy presentes en Internet.

En realidad, desde esta perspectiva lingüística se trató sistemáticamente de evitar las homografías con una sola de las lenguas no estudiadas: el alemán, dada su importancia en Internet y se tomó asimismo la decisión de no incluir formas de menos de cuatro letras para evitar otras homografías posibles (en particular, pero no solamente, con siglas). El resto de los problemas homográficos se trató en el momento informático-estadístico, interpretando como tales el surgimiento de desvíos significativos en las cifras, con respecto a los promedios.

Las homografías entre al menos dos de los idiomas del estudio se mostraron sumamente frecuentes, en general –pero no solamente– entre el castellano y el portugués; el inglés y sus formas de origen latino plantearon problemas, así como los préstamos.

 

2.2.2 Palabras y variantes

Cada palabra o "función" comparada incluye o puede incluir variantes de distinta especie:

Variantes sin diacríticos y variantes "incorrectas". En los cinco idiomas latinos, cuya escritura incluye signos diacríticos (acentos, etc.), se incluyó siempre una variante de la palabra con y otra sin todos estos signos –"incorrecta" pero muy frecuente en Internet. También se incluyeron a veces formas no siempre aceptadas o ausentes de muchos diccionarios, en otro sentido "incorrectas" pero muy probablemente presentes en Internet. Aquí también, el trabajo informático-estadístico confirmó su presencia sospechada.

En el caso de idiomas pluricéntricos, es decir, con más de un centro normativo (por ejemplo, el castellano de Europa y de los distintos países de América Latina, el portugués de Portugal y de Brasil), se tomaron en cuenta, cuando cabía, variantes sinonímicas léxicas u ortográficas.

En un caso, hubo que considerar dos palabras de la misma raíz como una sola ya que el alcance de su significación diverge, tomadas separadamente, y coincide si se las toma juntas, como variantes sinonímicas: parity / equality (en), paridad / igualdad (es), parité / égalité (fr), parità / uguglianza / eguaglianza (it)...

Se eligió incluir a veces, para incrementar la cantidad de las formas a buscar, variantes morfológicas de número (singular o plural). Otras veces se hizo en cambio obligatorio, para conservar las equivalencias, incluir variantes morfológicas de número y de género en los idiomas que las presentan y aun de flexión casual (diferencia determinado / no determinado incluida) –en varios sustantivos rumanos.

 

2.2.3 Procesamiento de diferencias tipológicas

En las seis lenguas estudiadas existen diferencias tipológicas: en un extremo, el inglés es un idioma sintético, con poca flexión, en el otro, el rumano, es una lengua flexiva cuyos sustantivos tienen casos morfológicos. Aparte de la inclusión de las variaciones citadas de número, género y caso cuando correspondía, dado que en inglés, a menudo, la misma forma puede tener dos valores sintácticos (sustantivo y verbo) con muchas variantes morfológicas en los demás idiomas para establecer las equivalencias, se evitaron estas formas, que hubieran hecho la comparación imposible o inútilmente costosa.

Otro escollo evitado lo constituyeron partículas tales como preposiciones o pronombres, de funciones no comparables, pero en general ya se habían quedado afuera por el criterio de evitar palabras de menos de cuatro letras.

Véase en el anexo 6 el conjunto de los criterios que se tuvieron en cuenta para la selección de palabras a buscar.

 

2.2.4 Procesamiento de las homografías restantes

A pesar de todo, subsistieron algunas homografías en la muestra que fueron tratadas estadísticamente como casos particulares, de modo de evitar distorsiones en los resultados.

Las homografías restantes más frecuentes han sido los plurales en "-IDADES" comunes al castellano y al portugués –que hubo que incluir obligatoriamente en plural, puesto que la forma italiana en "-ità" es singular y plural a la vez. Cuando la medición de la forma en "-idades" da un resultado bajo (inferior a 50), la distribución entre castellano y portugués se hizo directamente, por observación de los resultados. En los otros casos, se repartió la cifra entre el castellano y el portugués proporcionalmente con el resultado indicado al respecto por el algoritmo de AltaVista de búsqueda por idioma.

Hay un ejemplo de homografías a partir del rumano (CAL y CAI por "caballo": homógrafos de palabras en castellano, en italiano, en portugués...) que dio lugar a no contar estas formas, en detrimento del rumano. Y la forma casual CAII de la misma palabra fue eliminada por homógrafa de siglas frecuentes en Internet.

LUNG ("pulmón" en inglés) significa "largo" en rumano. El efecto, muy marginal en favor del inglés, no fue corregido.

FACA y FACAS significan respectivamente no sólo "cuchillo" y "cuchillos", en portugués, sino que son dos formas conjugadas del verbo "hacer" (faça y faças, variantes sin diacríticos). El resultado que se indica fue calculado a posteriori, tomando como referencia el promedio general del portugués, de modo de no desfavorecerlo.

La forma MALADIE existe en rumano con el mismo sentido de "enfermedad" que la forma francesa, de la que es préstamo, pero no es muy frecuente y su efecto es marginal. La forma BOLI (variante casual rumana de "enfermedad") se usa muy frecuentemente por bolígrafo en castellano y debió ser eliminada.

JOI (variante de "jueves" en rumano) es una palabra de tres letras, candidata a homógrafa, y JOIA es homógrafa del la palabra jóia de portugués (sin diacrítico), que significa "joya". El resultado respectivo se calculó por extrapolación del promedio.

MARTI (variante de "martes" en rumano) es homógrafa del nombre del célebre cubano José Martí (variante sin diacrítico) y no fue contabilizada.

A la cifra de MARDI ("martes" en francés) se le quitó lo que correspondería a MARDI GRAS, como se designa el "martes de carnaval" en francés pero, de manera idéntica, en inglés.

 

2.2.5 Procesamiento de otras significaciones no equivalentes

El trabajo de filtro y la inserción de formas equivalentes ha eliminado prácticamente el riesgo de significaciones no equivalentes (lo que en versiones precedentes del trabajo llamamos "colisiones semánticas") que no se hubieran percibido en el nivel lingüístico.

Quedan los siguientes escollos. Por una parte, knife ("cuchillo" en inglés) significa a veces "acuchillar" o "apuñalar" y, al incluir esta forma, favorecemos en alguna medida el inglés.

Por otra parte, en portugués los días de la semana se designan como en "quarta-feira", palabra compuesta en que el primer término indica un número ordinal; pero a veces se excluye, al hablar o escribir, el segundo término (quarta en vez de quarta-feira). No se tuvo en cuenta esta forma simple como variante, para evitar la confusión con "cuarta", decisión que desfavorece aquí al portugués en los cinco días de la semana seleccionados (sobre todo en el espacio Usenet, en que estas formas abreviadas son más frecuentes).

Nota metodológica: La cantidad de sitios indexados por Hotbot parece variar mucho de mes en mes. Como las mediciones de las palabras no se hicieron todas en el mismo momento, las comparaciones son algo aleatorias. Pero en cuanto a lo que nos interesa –el peso relativo de los idiomas– las proporciones siguen siendo esencialmente las mismas, sea cual fuere la dimensión del corpus indexado por Hotbot.

 

2.2.6 Otros elementos lingüísticos considerados

Uno de los elementos más frustrantes de este trabajo fue el fracaso de un intento de extender la cantidad de palabras de la muestra usando expresiones en lugar de palabras simples. El equipo lingüístico seleccionó una cantidad de palabras compuestas, términos especializados recogidos en diccionarios terminológicos. Se estableció una muestra complementaria de más de sesenta términos (a partir de 400 en un comienzo). Pero las primeras mediciones mostraron ya una gran dispersión de los resultados, en particular con respecto a la primera muestra. De modo que se decidió suspender estas mediciones y el intento de reducir así la dimensión de los intervalos de confianza aumentando la de la dimensión fracasó. Una de las razones de este fenómeno es estadística. La función matemática que relaciona la cantidad de ocurrencias de palabras simples en Internet puede ser considerado lineal: cantidad de ocurrencias en inglés (palabra) = alpha X cantidad de ocurrencias en castellano (palabra), etc. Tratamos de determinar el valor alpha para una muestra de palabras simples. Pero en el caso de expresiones (como "bienes de consumo" o "costo de la vida"), la función deja de ser lineal y puede llegar a ser de segundo grado (cuadrática) o incluso cúbica, según esté compuesta por dos o tres palabras simples. Así los resultados son menos coherentes seguramente debido a fenómenos caóticos.

Para comprender este fenómeno, bastará comparar el peso relativo de una expresión con cada una de las palabras que la componen. Veamos dos ejemplos

En inglés Cantidad de ocurrencias
(AltaVista)
Relación A/F
"networks" 3 834 260  
"development" 21 258 510  
"networks and development" 201  
"foundation network and development" 9  
 
En francés:    
"réseaux" 326 250 0,09
"développement" 909 790 0,04
"réseaux et développement" 61 0,30
"association réseaux et développement" 40 44,00

La reducción de la cantidad de ocurrencias de combinaciones de palabras simples es vertiginosa (¡de varios millones a 200!). Y aquí uno se da cuenta de que la dimensión del universo de los sitios web no es tan grande como suponíamos.

Así, la comparación de la expresión "costo de la vida" da los resultados siguientes, aberrantes, en que el inglés aparece como el idioma menos frecuente:

"cost of life" en 597
"costo de la vida" es 669
"cout de la vie" fr 1 431
"costo della vita" it 899
"custo de vida" pt 747

 

2.3 Metodología estadística

 

Los intervalos de confianza entre 90% y 99% de los resultados se establecieron según la distribución T de Student4, siguiendo la hipótesis de una distribución de tipo normal.

 

2.3.1 Resultados de las mediciones en el espacio WWW con el motor de búsqueda HotBot

En el cuadro del anexo 7 se indican, en cada lengua, la cantidad de ocurrencias de las palabras en el espacio WWW, según el motor de búsqueda HotBot.

Se toman en cuenta todas las ocurrencias en el conjunto de las páginas web referenciadas por HotBot. Lo que sigue es la cantidad total de ocurrencias de todas las palabras contadas, por idioma.

 

Inglés

Castellano

Francés

Italiano

Portugués

Rumano

TOTAL

57 246 318

1 469 252

1 673 864

742 335

439 229

74 631

 

2.3.2 Cálculos estadísticos en el espacio WWW

Estos son los porcentajes promedio de la presencia de los idiomas latinos en relación con el inglés. Véase el detalle palabra por palabra en el anexo 8 (Cálculos estadísticos en el espacio WWW).

 

Castellano

Francés

Italiano

Portugués

Rumano

PROMEDIO

3,37%

3,75%

2,00%

1,09%

0,20%

Desviación tipo

3,07%

1,78%

1,76%

0,99%

0,33%

Coeficiente de variación

0,96

0,69

0,94

0,95

1,27

El coeficiente de variación es la raíz cuadrada de la variación tipo al cuadrado dividida por el promedio al cuadrado. Un valor superior a 1 indica una dispersión importante, luego un promedio poco fiable. Un valor inferior a 1 indica una dispersión pequeña, luego un resultado tanto más fiable cuanto menor es ese valor.

 

2.3.3 Resultado de las mediciones en el espacio Usenet con el motor de búsqueda DejaNews

El cuadro en el anexo 9 indica la cantidad de ocurrencias de las palabras seleccionadas, en cada idioma, en el espacio Usenet, contadas con el motor DejaNews, los totales respectivos son los siguientes:

 

Inglés

Castellano

Francés

Italiano

Portugués

Rumano

TOTAL

39 158 982

1 702 736

665 327

713 603

183 346

32 741

 

2.3.4 Cálculos estadísticos en el espacio Usenet

Estos son los porcentajes promedio de la presencia de los idiomas latinos en relación con el inglés. Véase el detalle palabra por palabra en el anexo 10 (Cálculos estadísticos en el espacio Usenet).

 

Castellano

Francés

Italiano

Portugués

Rumano

PROMEDIO

2,41%

1,44%

2,54%

1,12%

0,14%

Desviación tipo

1,37%

1,65%

2,74%

5,47%

0,48%

Coeficiente de variación

0,75

1,07

1,04

2,21

1,83

 

2.4 Comparación con otros estudios

 

2.4.1 Comparación con los estudios precedentes

Las relaciones inglés/francés y francés/castellano evolucionaron entre el primer estudio realizado y éste de la manera siguiente:

 

Inglés/francés

Francés/castellano

Inglés/castellano

Marzo 1996 (L1)

21,91

2,40

52,58

Marzo 1997 (L2)

19,99

1,92

38,38

Marzo 1998 (L3)

17,60

1,33

23,32

Sept. 1998 (L4)

35,59

1,11

39,53

¿Significa esto que las lenguas latinas han retrocedido en 1998 en relación con los años anteriores? Por supuesto que no. Estos cambios se deben a dos principales razones:

A modificaciones de la metodología estadística. En el estudio presente, se ha trabajado con la relación francés/inglés y no a la inversa, de modo de obtener una distribución normalizada (es decir, cifras entre 0 y 1).

A una muestra de referencia distinta.

Es indudable que las características de la muestra de referencia tienen gran influencia en los resultados con respecto al promedio y al coeficiente de variación. Casi ninguna de las palabras de la muestra original de L1 respondería al conjunto de criterios del filtro lingüístico riguroso establecido en este estudio L4. Si la metodología estadística aquí aplicada se hubiera aplicado a la primera muestra, el coeficiente de variación sería muy superior a 1 y los intervalos de confianza mucho mayores.

El trabajo lingüístico permitió constatar que las probabilidades de homografías entre las lenguas latinas son muy altas. La muestra de L1, establecida sin mayor pretensión lingüística, favorecía a lenguas latinas tanto por este fenómeno de homografías como debido a una selección de palabras no bastante "culturalmente neutras".

De modo que, en cuanto a las tendencias, resulta difícil relacionar este estudio y su rigor lingüístico, con los precedentes. Pero se puede comenzar un análisis científico de las evoluciones a partir de la nueva muestra de referencia.

Una de las conclusiones de este estudio es la imposibilidad de comparar el inglés con un solo idioma latino, dadas las muchas probabilidades de homografías entre idiomas latinos: las ocurrencias de una misma forma se podrían atribuir a un solo idioma cuando corresponderían a más de uno (así la forma "familia" tiene el mismo significado en castellano, en portugués y en rumano).

Esto prueba la necesidad de una asociación entre la Agence de la Francophonie y la Unión Latina para llevar a cabo el estudio.

 

2.4.2 Comparación con Alis y Altavista

En ocasión del estudio L3, se había realizado una comparación con el estudio realizado por Alis Technologies, cuestionando sus resultados que sobrestimaban la presencia del inglés. Los resultados presentados aquí, considerados ahora fiables, muestran una importante sobrestimación del francés (cerca de un 100%). ¿Quiere decir que las cifras de Alis estaban más próximas de la realidad que lo que parecían? No es el caso. Si realizamos nuevamente la comparación teniendo en cuenta los resultados más rigurosos obtenidos ahora, las cifras se acercan relativamente a las que resultan del uso del algoritmo de reconocimiento de idiomas de AltaVista, pero siguen alejadas de las cifras de Alis, que sigue privilegiando excesivamente al inglés.

Las cifras de Alis son las que se han publicado en Internet, sin actualización en el momento de este estudio. Las de AltaVista, han sido obtenidas mediante el método del "complemento del conjunto vacío" descrito en el estudio L3. Las comparaciones se han realizado partiendo de la hipótesis de un porcentaje idéntico en inglés.

 

Cuadro 7:
Comparación con los resultados de Altavista y de Alis

    ALTAVISTA ALIS

AGENCE FRANCOPHONIE/UL/FUNREDES

ANY

107 958 869

% SIN % CON (*) SIN CON comparación con
    CORRECCIÓN CORRECCIÓN

AltaVista

Alis

INGLÉS

70 065 677

64,90%

76,35%

84,00

82,30

76,35%

82,30

JAPONÉS

4 369 675

4,05%

4,76%

3,10

1,6

   
ALEMÁN

4 009 554

3,71%

4,37%

4,50

4,00

   
FRANCÉS

1 951 446

1,81%

2,13%

1,8

1,5

2,86

3,08

CASTELLANO

1 495 195

1,38%

1,63%

1,20

1,10

2,57

2,77

ITALIANO

1 490 109

1,38%

1,62%

1,00

0,80

1,53

1,65

PORTUGUÉS

905 676

0,84%

0,99%

0,70

0,70

0,83

0,90

RUMANO

28 052

0,03%

0,03%

   

0,15

 
 
EL RESTO

23 643 485

 

25,77%

  Sitios multilingues  
EL RESTO CORREGIDO

7 449 655

 

8,12%

 

15%

   

 

Comparación con los resultados obtenidos a partir de AltaVista

En relación con nuestro estudio:

1) La cifra de AltaVista para el inglés nos parece demasiado baja.
2) La cifra de AltaVista para el francés está subestimada en un 35%.
3) La cifra de AltaVista para el castellano está subestimada en un 58%.
4) La cifra de AltaVista para el italiano está sobrestimada en un 6%.
5) La cifra de AltaVista para el portugués está sobrestimada en un 16%.
6) La cifra de AltaVista para el rumano está subestimada en un 403%.

Comparación con los resultados publicados por Alis Technologies

En relación con nuestro estudio:

1) La cifra de Alis para el inglés nos parece demasiado alta.
2) La cifra de Alis para el francés está subestimada en un 106%.
3) La cifra de Alis para el castellano está subestimada en un 152%.
4) La cifra de Alis para el italiano está sobrestimada en un 106%.
5) La cifra de Alis para el portugués está sobrestimada en un 28%.
6) Alis no considera el rumano.

 

Cuadro 8:
Síntesis comparativa de los cuatro métodos

 

EN/FR

FR/SP

EN/SP

MÉTODO ALTAVISTA
"COMPLEMENT DEL CONJUNTO VACÍO"

35,90

1,31

46,86

MÉTODO ALIS

46,67

1,36

63,64

MÉTODO FUNREDES APPROX.

17,60

1,33

23,32

MÉTODO FUNREDES/UL/AGENCE FRANCOPHONIE

35,59

1,11

39,53

 

3. Perspectivas para un seguimiento de la observación

     

En adelante va a resultar posible retomar las mediciones regularmente, a partir de la misma muestra de referencia lingüística y poder así evaluar la evolución de cada uno de los idiomas latinos en relación con el inglés y entre sí. Para llevarlo a cabo, sería deseable automatizar el proceso de medición y de producción de resultados.

     

4. Referencias, en Internet, de trabajos afines

 

En cuanto a la importancia de los idiomas en general en el espacio WWW de Internet, la única referencia conocida es la ya mencionada de Alis Technologies:
Palmarès des langues de la Toile: <
http://babel.alis.com:8080/palmares.html>

El sitio siguiente mide, por su parte, los espacios de los usuarios por idioma:
Global statistics by language: <
http://www.euromktg.com/globstats/>

En relación con algunos espacios lingüísticos, existen grupos o personas que trabajan paran reunir la información existente y/o comentarla:

En el espacio francófono, el CIDIF, con el apoyo de la Agence de la Francophonie ha llevado a cabo y se ocupa de administrar L’état du développement y de l’utilisation de l’inforoute dans l'espace francophone: <http://www1.cidif.org/franco>

En el mundo hispanohablante, dos centros de trabajo:

José Antonio Millán, que ha publicado varios artículos accesibles a partir de:
<
http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>

El Instituto Cervantes y su Observatorio Español de las Industrias de la Lengua:
<
http://www.cervantes.es/oeil/Oeil0.htm>

Un recuento que se actualiza regularmente de datos estadísticos sobre Internet en América Latina y el Caribe se puede consultar en: <http://www.cr/latstat/>. Sus cifras provienen de la fuente de referencia habitual en este tipo de estadísticas: Network Wizard (<http://www.nw.com>).

Y, por último, se pueden señalar las referencias generales acerca de las estadísticas sobre Internet –que, hasta hoy, no incluyen secciones referidas a lenguas o culturas:
Matrix News, que realiza estudios demográficos sobre Internet: <
http://mids.org>5

Y otro "clásico": la Universidad Georgia Tech, que realiza encuestas rigurosas sobre los usuarios de WWW: <http://www.gvu.gatech.edu/user_surveys/>


2 El espacio (FTP) de los nombres de ficheros no presenta las características deseadas: pueden existir correlaciones entre nombres de ficheros e idiomas, pero demasiado ocasionales para ser significativas. El espacio Gopher, históricamente estrechamente relacionado con el mundo universitario, ha dejado de crecer desde hace ya unos años.

3 Salvo indicación contraria, se tratará de homografías translingüísticas: los homógrafos dentro de un mismo idioma son considerados, en principio, como la misma palabra (gráfica).

4 John E. Freund, Mathematical Statistics, 2da edición, 1972, Prentice Hall International, Cap. 9 "Estimation".

5 Y que tradujo al inglés y publicó los estudios precedentes L1, C1, L2 y L3 en la revista Matrix News.

 

Continuación del estudio

La cultura