Le processus permettant d’obtenir des
données sur le web francophone s’appuie
sur les travaux réalisés par FUNREDES
depuis 1996
sur la place des langues et cultures latines dans
l’Internet (http://funredes.org/LC/),
avec l’appui méthodologique de l’Union
latine pour la partie linguistique. Cette étude
permet d’actualiser les résultats
de l’étude L5 menée par FUNREDES
en 2001. Les détails concernant la méthodologie,
ainsi que les résultats obtenus lors de
précédentes mesures, sont disponibles
sur la page http://funredes.org/LC/francais/L5/.
La méthode repose sur l’étude
de l’index d’un certain nombre de
moteurs de recherche tels que Google ou Alltheweb,
ainsi que sur la sélection d’un échantillon
de termes [1]
selon des critères
linguistiques [2]
garantissant la qualité des résultats.
Le résultat obtenu en appliquant des méthodes
statistiques classiques
[3] sur les données est
une indication [4]
du poids relatif des langues latines par rapport
à l’anglais. Pour en déduire
la valeur absolue du poids des langues latines
dans l’Internet, il faut établir
une hypothèse sur le poids absolu de l’anglais
sur la Toile, ce qui se fait par recoupements.
L’utilisation continue de cette méthode
depuis 1998 permet de donner une image de l’évolution
du poids du français dans l’Internet
au cours des 5 dernières années.
À chaque itération de cette étude,
il est nécessaire d’analyser le comportement
des moteurs de recherche tant dans leur
façon d’indexer les pages présentes
sur l’Internet que dans la manière
dont ils gèrent le résultat des
requêtes. Une fois cette analyse faite,
le moteur qui répond le mieux aux critères
de l’étude est sélectionné.
Dans certains cas, quand les anomalies détectées
répondent de manière cohérente
à une logique compréhensible –comme
c’est souvent le cas dans la gestion des
diacritiques–, les résultats sont
redressés.
La méthodologie utilisée pour
obtenir la répartition de l’Internet
francophone entre les différents pays reprend
la procédure établie pour le cas
de la langue espagnole en 2001, à l’occasion
du Congrès international sur la langue
espagnole de Valladolid [5].
La méthode de comptage à partir
des mots de l’échantillon linguistique
est appliquée sélectivement à
l'intérieur
des domaines Internet concernés.
Le moteur de recherche mesure ainsi le nombre
d’occurrences des mots de l’échantillon
par domaine [6]
(.com, .net, .fr, .sn…). Pour chaque mot
de l’échantillon, on obtient une
répartition par domaine
[7]. La moyenne de ces résultats
donne une image de la répartition de l’Internet
francophone par domaine.
|