Français
[es - it - pt - ro]

Publications
La place du français dans l'Internet
Introduction
Méthodologie
Limites de la méthodologie
Antécédents
La place du français sur la Toile
Repartition des pages en français par pays
Conclusions
Annexes

Dépêches
Termilat
Agenda
Manifestations
Manifestations
passées
La place du français dans l'Internet

Méthodologie  

 

 

Le processus permettant d’obtenir des données sur le web francophone s’appuie sur les travaux réalisés par FUNREDES depuis 1996 sur la place des langues et cultures latines dans l’Internet (http://funredes.org/LC/), avec l’appui méthodologique de l’Union latine pour la partie linguistique. Cette étude permet d’actualiser les résultats de l’étude L5 menée par FUNREDES en 2001. Les détails concernant la méthodologie, ainsi que les résultats obtenus lors de précédentes mesures, sont disponibles sur la page http://funredes.org/LC/francais/L5/.

La méthode repose sur l’étude de l’index d’un certain nombre de moteurs de recherche tels que Google ou Alltheweb, ainsi que sur la sélection d’un échantillon de termes [1] selon des critères linguistiques [2] garantissant la qualité des résultats. Le résultat obtenu en appliquant des méthodes statistiques classiques [3] sur les données est une indication [4] du poids relatif des langues latines par rapport à l’anglais. Pour en déduire la valeur absolue du poids des langues latines dans l’Internet, il faut établir une hypothèse sur le poids absolu de l’anglais sur la Toile, ce qui se fait par recoupements. L’utilisation continue de cette méthode depuis 1998 permet de donner une image de l’évolution du poids du français dans l’Internet au cours des 5 dernières années.

À chaque itération de cette étude, il est nécessaire d’analyser le comportement des moteurs de recherche tant dans leur façon d’indexer les pages présentes sur l’Internet que dans la manière dont ils gèrent le résultat des requêtes. Une fois cette analyse faite, le moteur qui répond le mieux aux critères de l’étude est sélectionné. Dans certains cas, quand les anomalies détectées répondent de manière cohérente à une logique compréhensible –comme c’est souvent le cas dans la gestion des diacritiques–, les résultats sont redressés.

La méthodologie utilisée pour obtenir la répartition de l’Internet francophone entre les différents pays reprend la procédure établie pour le cas de la langue espagnole en 2001, à l’occasion du Congrès international sur la langue espagnole de Valladolid [5]. La méthode de comptage à partir des mots de l’échantillon linguistique est appliquée sélectivement à l'intérieur des domaines Internet concernés. Le moteur de recherche mesure ainsi le nombre d’occurrences des mots de l’échantillon par domaine [6] (.com, .net, .fr, .sn…). Pour chaque mot de l’échantillon, on obtient une répartition par domaine [7]. La moyenne de ces résultats donne une image de la répartition de l’Internet francophone par domaine.


Notes
 

[1] Voir l’échantillon sur la page
http://funredes.org/LC/francais/L5/L5appendix_3.html#table_15.

[2] Voir la liste des critères de sélection linguistiques qui permettent de s’approcher d’une signification et d’une portée sémantique équivalentes ainsi que d’éviter les distorsions :
http://funredes.org/LC/francais/L5/L5appendix_7.html.

[3] La méthode de Fischer est appliquée à partir de l’hypothèse d’une distribution normale.

[4] La moyenne des valeurs est établie, ainsi que les "intervalles de confiance", à 90 et 99%.

[5] Document original en espagnol : http://funredes.org/LC/L5/valladolid.html.
Document en français présentant les mêmes travaux :
http://funredes.org/LC/L5/CahiersNumFinal.html.

[6] 85 domaines sont pris en compte, soit plus de 11 000 recherches gérées automatiquement.

[7] Par exemple : une recherche sur Google pour le mot "vérité" donne 700 000 occurrences. Si on restreint cette recherche au domaine .fr, le comptage est réduit à 202 000, c'est-à-dire 29% de 700 000 ; si on la restreint au domaine canadien .ca, on trouve 75 000, soit un peu plus de 10% ; si on l’applique sur le domaine du Maroc (.ma), le résultat est de 2 000, soit environ 0,3%.

 






131, rue du Bac - F-75007 Paris
Tél. : (33 1) 45 49 60 62   /   Télécopie : (33 1) 45 49 67 39
dtil@unilat.org
webmestre