II Seminario Interamericano sobre la Gestión de Lenguas
Presentación
Programa
Recomendaciones
Otras ponencias

Langues latines sur l'Internet (comparaison entre l'anglais et les autres langues latines)

Daniel Pimienta  

 

 

[DIAPOSITIVA 1]

[DIAPOSITIVA 2]


Introduction
 

L'étude des langues latines sur l'Internet se concentre sur un seul espace de l'Internet : la Toile. La méthode permet de déterminer, avec une bonne précision statistique, la présence des langues dans l'espace des pages Internet indexées par les moteurs de recherche. L'extrapolation des résultats vers l'espace entier est d'autant plus risquée que l'espace des pages indexées est un sous-ensemble de taille réduite de l'espace total. Dans tous les cas, il existe un espace de la Toile qui n'est pas indexé par les moteurs de recherche, constitué de pages protégées par mot de passe, de bases de données et d'une partie de pages générées dynamiquement par des programmes comme Java. Quoique cet espace soit riche en information pertinente et pourrait avoir une taille d'un ordre de grandeur supérieur à la partie " visible " de la Toile, il échappe à nos recherches. Enfin, et c'est bien regrettable, nos résultats ne font aucune espèce de distinction en ce qui concerne la nature, la qualité et la pertinence des pages Internet.

Dans des études précédentes, la place des langues dans l'espace des " groupes de discussion " (Usenet) avait été mesurée grâce à un moteur spécialisé (DéjaNews). Ce moteur a été repris par Google en 2001 mais les tentatives d'utilisation ont été abandonnées pour cause d'incohérence des résultats. Il n'est pas exclu que nous puissions revenir dans le futur sur cet espace de mesure.

Enfin, les deux espaces les plus riches de l'Internet puisqu'ils touchent à sa partie la plus noble et la plus humaine, à savoir celui des courriers électroniques et celui des communautés virtuelles, ne sont pas mesurés. En ce qui concerne les communautés virtuelles, il faut cependant noter que la présence de plus en plus fréquente sur l'Internet des mémoires des contributions dans les listes de discussion et l'existence de nombreux systèmes de conférences sur l'Internet permettent d'en tenir indirectement compte.

[DIAPOSITIVA 3]

Une première approximation à la mesure de la présence des cultures sur l'Internet a également été réalisée dans le passé. Quoique ayant de très grandes limitations méthodologiques, cette étude a été réalisée, à trois reprises, en juin 1996, en septembre 1998 et en septembre 2001, avec une cohérence dans la méthode, ce qui a permis d'établir d'intéressants paramètres sur les évolutions [1].

Pour le lecteur curieux ou intéressé par un approfondissement, l'ensemble des résultats obtenus depuis 1996 et des détails sur les méthodologies sont documentés, en toute transparence, sur le site http://funredes.org/lc.

[DIAPOSITIVA 4]

Globalement, une progression de plus de 10% des indicateurs culturels latins par rapport à l'anglais entre 1996 et 1998 et de plus de 50% entre 1998 et 2001 a été constatée.


I. Contexte
 

Sur près de 6 000 l'on dit que deux langues disparaissent tous les mois.

[DIAPOSITIVA 5]

Les langues les plus parlées dans le monde sont :

Avec plus de 200 millions de locuteurs : le chinois (mandarin et autres variantes inclus), l'anglais et l'hindou, l'espagnol, le russe et l'arabe.

[DIAPOSITIVA 6]

Avec 100 à 200 millions de locuteurs : le bengalais, le portugais, le japonais, l'indonésien, l'allemand et le français.

[DIAPOSITIVA 7]

En ce qui concerne plus particulièrement les langues latines, la répartition est la suivante :

375 millions de locuteurs pour l'espagnol

190 millions de locuteurs pour le portugais

130 millions de locuteurs pour le français

60 millions de locuteurs pour l'italien

30 millions de locuteurs pour le roumain

Étant donné que notre étude comporte des données comparatives entre l'anglais et les langues néolatines, notons que l'anglais compte 630 millions de locuteurs, soit moins que l'ensemble des locuteurs de langues latines.

[DIAPOSITIVA 8]

En juillet 2001, Internet comptait 200 millions de serveurs, 400 millions d'usagers et 2 milliards de pages. Sachant que la croissance moyenne annuelle de ces trois élément est, respectivement, de plus 100 et 200 %, on estime aujourd'hui le nombre de pages Internet à 10 milliards.

[DIAPOSITIVA 9]

En février 2003, le nombre de pages référencées par les grands moteurs de recherche était réparti comme suit :

Google : 3 milliards

MSN Search : 3 milliards

Hotbot : 3 milliards

FAST : 2 milliards

WISENUT : 1,5 milliards

ALTAVISTA : 1 milliard

Avec une hypothèse de 10 milliards de pages sur l'Internet en 2003, Google, par exemple, n'indexe plus que 30 % de l'espace Internet visible total.

Le mode d'indexation de Google repose sur le critère de popularité d'une page. Le but de ce critère est de favoriser les pages les plus visitées et les plus référencées dans l'ordre d'apparition des réponses aux requêtes. Cependant, l'une de ces conséquences est qu'il élimine de l'espace de recherche les pages vers lesquelles le nombre de liens est très faible ou provient de sites eux-mêmes considérés comme peu populaires.

[DIAPOSITIVA 8]

En ce qui concerne la présence de l'anglais et des langues latines sur l'Internet, la répartition absolue de l'anglais et des langues latines sur l'Internet est déterminée à partir de chiffres relatifs obtenus par FUNREDES, d'autres facteurs tels que le nombre d'internautes par langue, un recoupement avec les résultats précédents, ainsi que d'études parallèles. On peut estimer les résultats fiables dans une fourchette de plus ou moins 10%. Il est évident que les valeurs de présence absolue ne sont pas un indicateur parfait de la vigueur d'une langue sur les réseaux. Pour obtenir un résultat significatif, il convient de proportionner les valeurs exprimant la présence des langues sur l'Internet à l'aune de leur présence dans le monde réel. La présence relative de ces langues est calculée sans tenir pleinement compte du facteur "plurilinguisme". Un quotient égal à 1 est à considérer comme un résultat "normal" ; s'il est inférieur à 1, comme faible et s'il est supérieur à 1, comme respectable.

On peut ainsi en déduire que l'anglais, le français et l'italien sont représentés de façon respectable, mais que l'espagnol, le portugais et le roumain sont faiblement représentés.

On note également une baisse dans la production de pages anglophones et roumanophones mais une nette augmentation de celle de pages en espagnol, français, italien et portugais : +95 % pour l'espagnol, +150 % pour le portugais, etc.

Le graphique suivant présente une vue plus générale de l'évolution du pourcentage relatif des langues latines par rapport à l'anglais au cours des 5 dernières années. L'évolution des langues latines et de l'allemand par rapport à l'anglais est passée par trois phases : une forte augmentation entre 1998 et 2000 (on notera que la présence du français passe sous celle de l'espagnol dès 1999), suivie d'une stagnation en 2001 et enfin d'une baisse à partir de 2002.

Le ralentissement et la baisse du poids des langues latines et de l'allemand sur la Toile à partir de 2002 pourraient s'expliquer par plusieurs facteurs :

le ralentissement sensible de la production de pages Internet dans les différents secteurs linguistiques latins et germanophones ;

l'influence indirecte des langues non prises en compte dans l'étude ;

la hausse importante du nombre de pages en anglais ;

une situation particulière liée aux moteurs de recherche.

[DIAPOSITIVA 10]


II. Langues
 

Une étude de Global Reach propose une valeur pour le nombre d'utilisateurs de l'Internet par langue :

37 % de locuteurs anglophones, 7,6 % de locuteurs hispanophones, 4 % de locuteurs francophones, etc.

En mettant ces résultats en rapport avec ceux de notre étude, il est possible d'en déduire quels sont les segments linguistiques qui produisent le plus d'informations sur la Toile.

On peut en déduire qu'après l'anglais, le français est la langue la mieux positionnée sur l'Internet par rapport au nombre d'internautes francophones.


III. Conclusions

 

On peut donc noter une nette réduction de la dominance de l'anglais sur Internet : en effet, les pages anglophones passent sous la barre des 50 % ; une croissance relative moins forte du français par rapport à l'espagnol et au portugais, des résultats surprenants pour l'italien, une accélération de la production de pages en portugais et une nette augmentation de la production de contenus en langues latines.

Aujourd'hui, on note que la croissance des langues latines par rapport à l'anglais est, pour la première fois depuis 1996, devenue négative (perte de 10 à 25%). Les pourcentages des langues latines par rapport à l'anglais reculent par rapport aux positions de mi-2001. L'explication de ce recul n'est à trouver ni dans la réalité d'une baisse de la production des langues latines, ni dans une hausse de la production des pages en anglais. Elle est probablement liée au fait que les moteurs de recherche ne pouvant plus indexer une proportion de pages existantes aussi large que les années précédentes -la proportion des pages indexées par rapport au total passant de 30-50% à 10-15%-, la sélection des pages indexées, basée sur le nombre et la qualité des liens vers une page, favorise l'anglais au détriment des langues latines.

Le français est aujourd'hui présent dans environ 4% des pages sur la Toile. Cela continue de le placer comme une des langues les mieux représentées en proportion du nombre d'internautes de cette langue.

À la lumière des faits précédents, une bonne politique pourrait s'orienter vers la promotion des pages existantes plutôt que seulement vers la production de pages nouvelles, ainsi que vers le soutien aux moteurs francophones et à toutes les actions de promotion de contenus francophones de bonne qualité sur l'Internet. Par ailleurs, il semble que la France ait besoin, spécifiquement au sein de la Francophonie, d'une politique de sensibilisation et d'incitation à la production.

Il est illusoire d'espérer une hausse substantielle de la production des pages francophones en Afrique (et en Asie) et un impact significatif sur la production globale tant que le nombre d'internautes restera d'un ordre de grandeur inférieur. Ici, la politique efficace doit se concentrer sur la réduction du fossé numérique en l'accompagnant d'une éducation pour obtenir des internautes conscients des enjeux et capables de produire des contenus.

Le français, l'espagnol et le portugais ont un espace de locuteurs qui n'est pas limité à un seul pays et joue souvent un rôle de langue véhiculaire dans certaines régions du monde. Ce sont des atouts stratégiques pour le monde virtuel globalisé et l'espagnol, en particulier, connaît un essor spectaculaire en raison de sa position géostratégique qui en fait à la fois la langue d'un continent et la seconde langue des États-Unis.


Notas
 

[1] Globalement, une progression de plus de 10% des indicateurs culturels latins par rapport à l'anglais entre 1996 et 1998 et de plus de 50% entre 1998 et 2001 a été constatée.








131, rue du Bac - F-75007 Paris
T: (33 1) 45 49 60 62   /   F: (33 1) 45 49 67 39
dtil@unilat.org
webmaster