Significativité statistique – L'Économiste Sceptique

La significativité statistique permet de mesurer l’existence ou l’inexistence d’un effet à partir de données empiriques ou expérimentales

Précisions

De manière simple, la significativité statistique est un indicateur de la vraisemblance de l’argument « l’effet $x$ existe ».

Savoir si un effet donné est statistiquement significatif est déterminé à l’aide de différents tests statistiques, chaque test étant adapté à un type de données particulier (ou à leur distribution statistique).

La significativité statistique est associée à la théorie dite fréquentiste en statistiques. Elle est très largement utilisée par de nombreuses disciplines, au rang desquelles figure la science économique. Pour cette raison, elle est au cœur de la méthode scientifique actuelle.

En détails

La significativité consiste à identifier si l’échantillon que l’on a dans notre base de données est « cohérent » avec la théorie ou l’effet que l’on cherche à tester.

Supposons que l’on souhaite savoir si l’effet « une augmentation des salaires réduit la pauvreté » est vrai à partir d’une base de données que l’on aura récolté d’une façon ou d’une autre.

On va définir deux hypothèses :

L’hypothèse nulle $H_0$ : l’augmentation des salaires ne réduit pas la pauvreté (il n’y a pas d’effet)
L’hypothèse alternative $H_1$ : l’augmentation des salaires ne réduit pas la pauvreté (il y a un effet)

On réalise ensuite différents tests statistiques sur notre base de données. Ces tests calculent la p-value, comprise entre 0 et 1. Si elle est inférieure à certains seuils (0.05, 0.01 ou 0.001), on s’autorisera à rejeter l’hypothèse nulle, c’est-à-dire à considérer que l’effet testé existe vraisemblablement.

À noter que la p-value n’est pas la probabilité que l’hypothèse nulle soit vraie. Il s’agit simplement d’un critère de décision (et difficile à expliquer simplement) quant au rejet (ou à l’acceptation) de l’hypothèse nulle.

Erreur de type 1 et erreur de type 2

Même si parfaitement exécutée, la méthode de la significativité statistique peut intrinsèquement générer des erreurs dites d’identification. On parle de deux types d’erreurs : les erreurs de type 1 et les erreurs de type 2.

Erreur de type 1 : on mesure un effet là où il n’en existe pas. C’est ce que l’on appelle un faux positif.
Erreur de type 2 : on ne mesure pas d’effet alors qu’il en existe un. C’est ce que l’on appelle un faux négatif.

	$H_0$ est vraie (il n’y a pas d’effet)	$H_0$ est fausse (il y a un effet)
On ne rejette pas $H_0$ (on conclue à l’absence d’effet)	✓ L’identification est correcte Vrai négatif	✗ Erreur de type 2 Faux négatif
On rejette $H_0$ (on conclue qu’il y a un effet)	✗ Erreur de type 1 Faux positif	✓ L’identification est correcte Vrai positif

Si la théorie que l’on teste est vraie (ce qui est un gros « si »), le seuil de la p-value donne la probabilité d’avoir un faux négatif. Mais comme en pratique on ne sait pas ex ante quelles sont les théories qui sont vraies, il est virtuellement impossible d’interpréter la p-value de cette manière (à moins de commettre un sophisme de la pétition de principe).

Limites

Les tests de significativité statistique ne sont pas parfaits, et ont dernièrement fait l’objet de nombreuses critiques. Plusieurs limites connues existent. En voici quelques unes.

Mauvaise interprétation de la p-value

La p-value est souvent mal interprétée, y compris dans la littérature scientifique. Une erreur courante consiste à l’interpréter comme la probabilité que l’hypothèse nulle (« il n’y a pas d’effet ») soit vraie.

Oubli de la taille de l’effet

Au-delà de la significativité statistique d’un résultat, il est malheureusement courant d’oublier de commenter la taille de l’effet mesuré : si l’effet existe mais qu’il est d’une taille très petite, est-ce vraiment nécessaire d’y consacrer de l’attention ?

Une version encore plus problématique consiste à interpréter la p-value comme la taille de l’effet : ça n’est pas parce que la p-value est très petite (donc que l’effet mesuré est statistiquement très significatif) que l’effet en question est nécessairement important en taille.

Seuil de la p-value

Le choix du seuil de la p-value va nécessairement influencer les résultats qui seront considérés comme fiables des autres : plus le seuil est haut, plus on est « tolérant à l’imprécision ».

Cela étant, dans certains domaines les données empiriques sont par nature très imprécises – typiquement, les sciences humaines et sociales. Cela « oblige » les chercheurs de ces disciplines à accepter une « tolérance à l’imprécision » plus grande. Cette tolérance est, en comparaison, nettement plus restreinte en physique des particules.

Sur-interprétation

Un test unique de significativité ne permet pas en lui-même de conclure à l’existence (ou à l’inexistence) d’un effet. En général, d’autres études sont nécessaires pour corroborer le résultat du test.

Taille de l’échantillon

Lorsque l’échantillon utilisé pour mesurer l’effet est très grand, n’importe quelle effet extravagant pourra être mesuré. Cette limite est décrite par la loi des très grands nombres.

Ressources supplémentaires

Wikipédia (en français)
Wikipédia (en anglais)
La plus grosse confusion des sciences : la p-value par Science4All
Cinq exemples de limites de la p-value, toujours par Science4All
Et encore cinq autres exemples