Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Esprit du vinaigre
Archives
11 mai 2005

Attention avant de tricher

Faites ce jeu un jour avec des amis : pariez l'apéro sur le fait que le premier chiffre (celui le plus à gauche) du nombre d'habitants d'une commune prise au hasard dans l'annuaire est 1, 2, 3 ou 4.

Quel intérêt me direz-vous ? Ce chiffre peut être n'importe lequel entre 1 et 9 et donc vous avez 4 chances sur 9 (44%) d'avoir raison et 56% d'avoir tort. Eh bien, si j'étais vous, je tenterais quand même le coup : parce que vous avez presque 70% de chances de gagner !

Un autre jour, pariez sur le premier chiffre de la superficie d'une commune prise au hasard dans le dictionnaire. Et là, pariez qu'il se trouve dans l'intervalle 1-3 plutôt que dans l'intervalle 7-9. Vos chances sont de 60% dans le premier cas et de seulement 15% dans le second.

En fait, c'est un phénomène assez étrange, mais quand on prend des séries de chiffres, la répartition statistique du premier chiffre n'est pas équitable. D'après la légende, c'est un astronome (Newcomb) qui a trouvé ça en 1881 en constatant que certaines pages des tables de logarithmes étaient plus usées que d'autres (ou variante, que le premier tome était plus utilisé que le deuxième qui lui même était plus utilisé que le troisième).

Il édicte donc une loi assez empirique : la probabilité que le premier chiffre d'un nombre pris dans un ensemble quelconque de données "naturelles" soit X est égal à log (1 + 1/X).

En 1931, un mathématicien, Frank Benford, après avoir étudié des milliers de données (des longueurs de fleuves, des cours de bourse, des recensements démographiques, des constantes physiques, ...) confirme la formule édictée par Newcomb et la rend célèbre. Enfin, cette formule a été démontrée en 1996 par Terence Hill (un homonyme de l'acteur, je suppose).

Dans le tableau ci-dessous, voici les probabilités théoriques prévues par la loi de Benford et les fréquences réelles des premiers chiffres pour les populations, les superficies et les nombres de logements des communes françaises.

Chiffre initial Proba Pop. Superf. Nbre log
1 30.1% 30.7% 33.5% 30.0%
2 17.6% 18.5% 14.8% 16.7%
3 12.5% 12.6% 10.0% 11.9%
4 9.7% 9.1% 8.5% 9.6%
5 7.9% 8.2% 7.8% 7.2%
6 6.7% 6.4% 7.3% 7.0%
7 5.8% 5.6% 6.6% 6.4%
8 5.1% 4.7% 5.9% 5.3%
9 4.6% 4.0% 5.6% 4.8%

Il y a des séries de nombres où l'on arrive intuitivement à appréhender cette loi. Par exemple, si on choisit une maison quelconque dans une rue au hasard et qu'on regarde le premier chiffre du numéro de la maison. S'il y a 19 maisons dans la rue, il y a 10 fois plus de maisons qui commence par le chiffre 1 que par 2, 3 ou 9. S'il y a 59 maisons dans la rue, les chiffres 6, 7 8 et 9 seront 10 fois moins nombreux que les autres. Il faut une rue de 99 maisons pour que le chiffre 9 rattrape son retard. Et puis quand on passe à des rues à 100 ou 200 maisons, à nouveau les petits chiffres prennent de l'avance sur les gros. Et à moins qu'il n'y ait que des grandes rues, les petits chiffres seront donc plus nombreux que les gros.

Alors, il y a bien sûr des ensembles de chiffres sur lequels cela ne marche pas : comme les numéros de téléphone en France qui commencent tous par zéro. Mais sur la plupart des ensembles de données réelles, cela fonctionne plutôt bien.

Certains se servent même de ces résultats pour traquer des fraudes. Imaginez un inspecteur qui analyse les volumes de vente des différents articles d'une grande surface. Si le gérant veut frauder, il va remplacer les véritables chiffres de vente par des chiffres pris au hasard. Et là, mauvaise surprise pour lui, la loi de Benford ne s'applique pas pour les nombres aléatoires. D'où une distorsion dans la répartition des chiffres à gauche qui va mettre la puce à l'oreille de l'inspecteur.

On est bien sûr dans le domaine de la probabilité et il se peut tout à fait que des résultats non truqués ne s'accordent pas avec la loi de Benford. Mais cette méthode est effectivement utilisée (du moins aux USA) pour traquer les fraudes à l'assurance ou dans des enquêtes boursières.

Et vous savez maintenant ce qu'il vous reste à faire si ... non, rien. Je n'ai rien dit !

Publicité
Commentaires
C
oui, je sais ce qu'il me reste à faire : prendre une bonne dose d'aspirine...
Esprit du vinaigre
Publicité
Derniers commentaires
Publicité