- Primera parte: las lenguas
2.1 Metodología Internet
Los motores de búsqueda de acceso libre en Internet (AltaVista, Hotbot, Excite, DejaNews, Veronica, FtpSearch...) son herramientas sumamente poderosas, puesto que indexan gran parte de las informaciones presentes en los diferentes espacios de Internet: espacio de las páginas web, espacio de los grupos de discusión o tertulias, espacio de los menús o de los documentos Gopher, espacio de los ficheros accesibles en FTP. Han sido concebidos para la búsqueda de palabras o de expresiones dentro de estos espacios y algunos de ellos ofrecen, además, resultados cuantitativos sobre el número de ocurrencias de las palabras buscadas. Este "beneficio secundario" fue usado por los autores para medir el lugar que ocupan las lenguas y las culturas latinas en los diversos espacios. Decidieron concentrar el trabajo en los espacios web y Usenet, que son los más representativos de la evolución de Internet2 y también aquellos en que las herramientas disponibles son más eficaces. 2.2 Metodología lingüística
Los autores decidieron procesar lingüísticamente las palabras a buscar, antes de procesarlas de manera estadístico-informática con los motores de búsqueda. Un equipo lingüístico trabajó primero de manera independiente, elaborando series de seis palabras "funciones" (una en cada uno de los idiomas tratados) que sean por una parte equivalentes (en cuanto à su significación y alcance referencial, su sintaxis, su frecuencia de uso) y distintivas, es decir no homógrafas3 tanto entre sí como en relación con palabras de idiomas muy presentes en Internet. En realidad, desde esta perspectiva lingüística se trató sistemáticamente de evitar las homografías con una sola de las lenguas no estudiadas: el alemán, dada su importancia en Internet y se tomó asimismo la decisión de no incluir formas de menos de cuatro letras para evitar otras homografías posibles (en particular, pero no solamente, con siglas). El resto de los problemas homográficos se trató en el momento informático-estadístico, interpretando como tales el surgimiento de desvíos significativos en las cifras, con respecto a los promedios. Las homografías entre al menos dos de los idiomas del estudio se mostraron sumamente frecuentes, en general pero no solamente entre el castellano y el portugués; el inglés y sus formas de origen latino plantearon problemas, así como los préstamos.
Cada palabra o "función" comparada incluye o puede incluir variantes de distinta especie:
En las seis lenguas estudiadas existen diferencias tipológicas: en un extremo, el inglés es un idioma sintético, con poca flexión, en el otro, el rumano, es una lengua flexiva cuyos sustantivos tienen casos morfológicos. Aparte de la inclusión de las variaciones citadas de número, género y caso cuando correspondía, dado que en inglés, a menudo, la misma forma puede tener dos valores sintácticos (sustantivo y verbo) con muchas variantes morfológicas en los demás idiomas para establecer las equivalencias, se evitaron estas formas, que hubieran hecho la comparación imposible o inútilmente costosa. Otro escollo evitado lo constituyeron partículas tales como preposiciones o pronombres, de funciones no comparables, pero en general ya se habían quedado afuera por el criterio de evitar palabras de menos de cuatro letras.
A pesar de todo, subsistieron algunas homografías en la muestra que fueron tratadas estadísticamente como casos particulares, de modo de evitar distorsiones en los resultados. Las homografías restantes más frecuentes han sido los plurales en "-IDADES" comunes al castellano y al portugués que hubo que incluir obligatoriamente en plural, puesto que la forma italiana en "-ità" es singular y plural a la vez. Cuando la medición de la forma en "-idades" da un resultado bajo (inferior a 50), la distribución entre castellano y portugués se hizo directamente, por observación de los resultados. En los otros casos, se repartió la cifra entre el castellano y el portugués proporcionalmente con el resultado indicado al respecto por el algoritmo de AltaVista de búsqueda por idioma. Hay un ejemplo de homografías a partir del rumano (CAL y CAI por "caballo": homógrafos de palabras en castellano, en italiano, en portugués...) que dio lugar a no contar estas formas, en detrimento del rumano. Y la forma casual CAII de la misma palabra fue eliminada por homógrafa de siglas frecuentes en Internet. LUNG ("pulmón" en inglés) significa "largo" en rumano. El efecto, muy marginal en favor del inglés, no fue corregido. FACA y FACAS significan respectivamente no sólo "cuchillo" y "cuchillos", en portugués, sino que son dos formas conjugadas del verbo "hacer" (faça y faças, variantes sin diacríticos). El resultado que se indica fue calculado a posteriori, tomando como referencia el promedio general del portugués, de modo de no desfavorecerlo. La forma MALADIE existe en rumano con el mismo sentido de "enfermedad" que la forma francesa, de la que es préstamo, pero no es muy frecuente y su efecto es marginal. La forma BOLI (variante casual rumana de "enfermedad") se usa muy frecuentemente por bolígrafo en castellano y debió ser eliminada. JOI (variante de "jueves" en rumano) es una palabra de tres letras, candidata a homógrafa, y JOIA es homógrafa del la palabra jóia de portugués (sin diacrítico), que significa "joya". El resultado respectivo se calculó por extrapolación del promedio. MARTI (variante de "martes" en rumano) es homógrafa del nombre del célebre cubano José Martí (variante sin diacrítico) y no fue contabilizada. A la cifra de MARDI ("martes" en francés) se le quitó lo que correspondería a MARDI GRAS, como se designa el "martes de carnaval" en francés pero, de manera idéntica, en inglés.
El trabajo de filtro y la inserción de formas equivalentes ha eliminado prácticamente el riesgo de significaciones no equivalentes (lo que en versiones precedentes del trabajo llamamos "colisiones semánticas") que no se hubieran percibido en el nivel lingüístico. Quedan los siguientes escollos. Por una parte, knife ("cuchillo" en inglés) significa a veces "acuchillar" o "apuñalar" y, al incluir esta forma, favorecemos en alguna medida el inglés. Por otra parte, en portugués los días de la semana se designan como en "quarta-feira", palabra compuesta en que el primer término indica un número ordinal; pero a veces se excluye, al hablar o escribir, el segundo término (quarta en vez de quarta-feira). No se tuvo en cuenta esta forma simple como variante, para evitar la confusión con "cuarta", decisión que desfavorece aquí al portugués en los cinco días de la semana seleccionados (sobre todo en el espacio Usenet, en que estas formas abreviadas son más frecuentes). Nota metodológica: La cantidad de sitios indexados por Hotbot parece variar mucho de mes en mes. Como las mediciones de las palabras no se hicieron todas en el mismo momento, las comparaciones son algo aleatorias. Pero en cuanto a lo que nos interesa el peso relativo de los idiomas las proporciones siguen siendo esencialmente las mismas, sea cual fuere la dimensión del corpus indexado por Hotbot.
Uno de los elementos más frustrantes de este trabajo fue el fracaso de un intento de extender la cantidad de palabras de la muestra usando expresiones en lugar de palabras simples. El equipo lingüístico seleccionó una cantidad de palabras compuestas, términos especializados recogidos en diccionarios terminológicos. Se estableció una muestra complementaria de más de sesenta términos (a partir de 400 en un comienzo). Pero las primeras mediciones mostraron ya una gran dispersión de los resultados, en particular con respecto a la primera muestra. De modo que se decidió suspender estas mediciones y el intento de reducir así la dimensión de los intervalos de confianza aumentando la de la dimensión fracasó. Una de las razones de este fenómeno es estadística. La función matemática que relaciona la cantidad de ocurrencias de palabras simples en Internet puede ser considerado lineal: cantidad de ocurrencias en inglés (palabra) = alpha X cantidad de ocurrencias en castellano (palabra), etc. Tratamos de determinar el valor alpha para una muestra de palabras simples. Pero en el caso de expresiones (como "bienes de consumo" o "costo de la vida"), la función deja de ser lineal y puede llegar a ser de segundo grado (cuadrática) o incluso cúbica, según esté compuesta por dos o tres palabras simples. Así los resultados son menos coherentes seguramente debido a fenómenos caóticos. Para comprender este fenómeno, bastará comparar el peso relativo de una expresión con cada una de las palabras que la componen. Veamos dos ejemplos
La reducción de la cantidad de ocurrencias de combinaciones de palabras simples es vertiginosa (¡de varios millones a 200!). Y aquí uno se da cuenta de que la dimensión del universo de los sitios web no es tan grande como suponíamos. Así, la comparación de la expresión "costo de la vida" da los resultados siguientes, aberrantes, en que el inglés aparece como el idioma menos frecuente:
Los intervalos de confianza entre 90% y 99% de los resultados se establecieron según la distribución T de Student4, siguiendo la hipótesis de una distribución de tipo normal.
En el cuadro del anexo 7 se indican, en cada lengua, la cantidad de ocurrencias de las palabras en el espacio WWW, según el motor de búsqueda HotBot. Se toman en cuenta todas las ocurrencias en el conjunto de las páginas web referenciadas por HotBot. Lo que sigue es la cantidad total de ocurrencias de todas las palabras contadas, por idioma.
Estos son los porcentajes promedio de la presencia de los idiomas latinos en relación con el inglés. Véase el detalle palabra por palabra en el anexo 8 (Cálculos estadísticos en el espacio WWW).
El coeficiente de variación es la raíz cuadrada de la variación tipo al cuadrado dividida por el promedio al cuadrado. Un valor superior a 1 indica una dispersión importante, luego un promedio poco fiable. Un valor inferior a 1 indica una dispersión pequeña, luego un resultado tanto más fiable cuanto menor es ese valor.
El cuadro en el anexo 9 indica la cantidad de ocurrencias de las palabras seleccionadas, en cada idioma, en el espacio Usenet, contadas con el motor DejaNews, los totales respectivos son los siguientes:
Estos son los porcentajes promedio de la presencia de los idiomas latinos en relación con el inglés. Véase el detalle palabra por palabra en el anexo 10 (Cálculos estadísticos en el espacio Usenet).
2.4 Comparación con otros estudios
Las relaciones inglés/francés y francés/castellano evolucionaron entre el primer estudio realizado y éste de la manera siguiente:
¿Significa esto que las lenguas latinas han retrocedido en 1998 en relación con los años anteriores? Por supuesto que no. Estos cambios se deben a dos principales razones:
Es indudable que las características de la muestra de referencia tienen gran influencia en los resultados con respecto al promedio y al coeficiente de variación. Casi ninguna de las palabras de la muestra original de L1 respondería al conjunto de criterios del filtro lingüístico riguroso establecido en este estudio L4. Si la metodología estadística aquí aplicada se hubiera aplicado a la primera muestra, el coeficiente de variación sería muy superior a 1 y los intervalos de confianza mucho mayores. El trabajo lingüístico permitió constatar que las probabilidades de homografías entre las lenguas latinas son muy altas. La muestra de L1, establecida sin mayor pretensión lingüística, favorecía a lenguas latinas tanto por este fenómeno de homografías como debido a una selección de palabras no bastante "culturalmente neutras". De modo que, en cuanto a las tendencias, resulta difícil relacionar este estudio y su rigor lingüístico, con los precedentes. Pero se puede comenzar un análisis científico de las evoluciones a partir de la nueva muestra de referencia. Una de las conclusiones de este estudio es la imposibilidad de comparar el inglés con un solo idioma latino, dadas las muchas probabilidades de homografías entre idiomas latinos: las ocurrencias de una misma forma se podrían atribuir a un solo idioma cuando corresponderían a más de uno (así la forma "familia" tiene el mismo significado en castellano, en portugués y en rumano).
En ocasión del estudio L3, se había realizado una comparación con el estudio realizado por Alis Technologies, cuestionando sus resultados que sobrestimaban la presencia del inglés. Los resultados presentados aquí, considerados ahora fiables, muestran una importante sobrestimación del francés (cerca de un 100%). ¿Quiere decir que las cifras de Alis estaban más próximas de la realidad que lo que parecían? No es el caso. Si realizamos nuevamente la comparación teniendo en cuenta los resultados más rigurosos obtenidos ahora, las cifras se acercan relativamente a las que resultan del uso del algoritmo de reconocimiento de idiomas de AltaVista, pero siguen alejadas de las cifras de Alis, que sigue privilegiando excesivamente al inglés. Las cifras de Alis son las que se han publicado en Internet, sin actualización en el momento de este estudio. Las de AltaVista, han sido obtenidas mediante el método del "complemento del conjunto vacío" descrito en el estudio L3. Las comparaciones se han realizado partiendo de la hipótesis de un porcentaje idéntico en inglés.
Cuadro
7:
Comparación con los resultados obtenidos a partir de AltaVista En relación con nuestro estudio:
Comparación con los resultados publicados por Alis Technologies En relación con nuestro estudio:
Cuadro
8:
3. Perspectivas para un seguimiento de la observación
En adelante va a resultar posible retomar las mediciones regularmente, a partir de la misma muestra de referencia lingüística y poder así evaluar la evolución de cada uno de los idiomas latinos en relación con el inglés y entre sí. Para llevarlo a cabo, sería deseable automatizar el proceso de medición y de producción de resultados.
4. Referencias, en Internet, de trabajos afines
Un recuento que se actualiza regularmente de datos estadísticos sobre Internet en América Latina y el Caribe se puede consultar en: <http://www.cr/latstat/>. Sus cifras provienen de la fuente de referencia habitual en este tipo de estadísticas: Network Wizard (<http://www.nw.com>). Y, por último, se
pueden señalar las referencias generales acerca de las estadísticas sobre Internet
que, hasta hoy, no incluyen secciones referidas a lenguas o culturas: Y otro "clásico": la Universidad Georgia Tech, que realiza encuestas rigurosas sobre los usuarios de WWW: <http://www.gvu.gatech.edu/user_surveys/> 2 El espacio (FTP) de los nombres de ficheros no presenta las características deseadas: pueden existir correlaciones entre nombres de ficheros e idiomas, pero demasiado ocasionales para ser significativas. El espacio Gopher, históricamente estrechamente relacionado con el mundo universitario, ha dejado de crecer desde hace ya unos años. 3 Salvo indicación contraria, se tratará de homografías translingüísticas: los homógrafos dentro de un mismo idioma son considerados, en principio, como la misma palabra (gráfica). 4 John E. Freund, Mathematical Statistics, 2da edición, 1972, Prentice Hall International, Cap. 9 "Estimation". 5 Y que tradujo al inglés y publicó los estudios precedentes L1, C1, L2 y L3 en la revista Matrix News.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||