Les Variables de confusion
Nicolas Gauvrit in Statistiques : Méfiez-vous !
Les corrélations, lorsqu'elles sont avérées, ne sont [...] pas nécessairement des causalités et doivent être utilisées avec rigueur uniquement dans des situations proches de celles qui ont présidé à leur découverte. Il n'en reste pas moins que certaines corrélations sont très surprenantes. Bien qu'on sente qu'il ne s'agit pas d'une causalité directe, on ne peut s'empêcher de chercher le pourquoi du lien. Une étude très sérieuse est la suivante : dans une école primaire, on fait passer à tous les élèves un test d'orthographe. Il s'agit d'une petite dictée de quelques lignes. Nous comptons ensuite le nombre de fautes dans la dictée pour chaque élève. Nous relevons aussi la pointure (taille des pieds). Les résultats sont donnés par la figure 35.[...] si deux grandeurs sont liées, il se peut qu'il n'y ait en fait aucune causalité entre elles. Il se peut qu'aucune relation logique ne puisse alors être établie entre les deux variables. Mais il se peut aussi qu'on trouve une causalité indirecte, passant par une autre variable (ou grandeur). Dans un tel cas, on appelle cette variable cachée variable de confusion. Figure 35 - Diagramme de dispersion du nombre de fautes d'orthographe en fonction de la pointure. Les élèves ayant les plus grands pieds font moins de fautes.
L'exemple des fautes d'orthographe et de la taille des pieds est un cas très simple où une telle variable de confusion intervient. La variable en question est bien sûr l'âge ! Dans une école, les plus grands pieds correspondent aussi - en moyenne et globalement, bien entendu - aux élèves les plus vieux, donc à ceux de CM2, bien meilleurs que les CE1 ou les CP en orthographe... Et le mystère s'évanouit. La figure 36 montre un diagramme causal qui explique le lien entre nos deux variables
Figure 36 - Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion âge. Les plus grandes pointures se trouvent chez les élèves les plus âgés, meilleurs en orthographe.
Des instituts de recherche financés par les fabricants d'huile d'olive industrielle ont été amenés à "découvrir" que l'huile d'olive était bonne pour la santé. Ce type de "recherche" dont la conclusion est imposée par le payeur est malheureusement de plus en plus courant de nos jours, où la recherche s'appuie sur le secteur privé pour trouver des ressources. Cela est très connu pour l'industrie pharmaceutique, mais c'est également vrai dans d'autres domaines. Il s'agit là (et sans revenir sur la difficulté d'interprétation de l'espérance de vie) d'une énorme entourloupe statistique. Non pas qu'il n'y ait pas effectivement de lien entre la consommation d'huile d'olive et l'espérance de vie, et même nous pouvons le parier, sur l'état de santé. Mais rien ne prouve que ce lien soit causal. Du fait que l'on compare le sud et le nord, de nombreuses variables de confusion possibles peuvent être imaginées, en commençant par le niveau de vie général. On imagine bien que les producteurs de la croisette peuvent vivre plus longtemps que les anciens mineurs du Nord qui toussent les derniers morceaux de leurs poumons encrassés. Et l'huile d'olive n'aurait rien à voir avec ça ! Une autre variable de confusion possible est par exemple l'ensoleillement, mais la liste est bien entendue infinie (consommation de poisson, température de l'air, proximité de la Méditérannée...).
Et bien si ! C'est ce que montre un exemple réel discuté dans Attention, statistiques ! de Joseph Klatzman. Pour chaque pays, des économistes ont relevé la consommation moyenne d'alcool par habitant ainsi que l'espérance de vie à la naissance. Nous ne rentrerons pas dans les détails de ces indices, mais on peut admettre que les pays où l'espérance de vie est la plus grande sont ceux où l'on vit le mieux (du point de vue de la santé). La figure 38 montre l'allure du diagramme de dispersion que l'on obtient avec les données réelles. Les unités sont totalement arbitraires, et n'ont aucun intérêt direct. On commence à le comprendre en considérant la figure 39. On y découvre en effet que les pays les plus riches sont ceux où l'on boit le plus. On vit aussi plus longtemps dans ces pays. Mais si l'on vit longtemps aux États-Unis, ce n'est pas parce qu'on boit beaucoup, mais malgré cela. Figure 38 - Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays (en abscisse, unité arbitraire).
En fait, il faut considérer la variable de confusion "richesse du pays". Cette variable agit sur l'espérance de vie de manière inverse de la consommation d'alcool. Autrement dit, si l'on considère un pays comme la France, on peut dire que dans ce pays : (1) les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de réduire l'espérance de vie. Mais (2) d'un autre côté, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considérablement l'espérance de vie. Cette augmentation fait plus que compenser la réduction d'espérance de vie due à la consommation d'alcool. C'est pourquoi en France, tout en buvant beaucoup d'alcool, on vit plus vieux que dans un pays pauvre comme le Nigeria où cette consommation est très réduite. Le diagramme causal de la figure 40 donne une représentation de la situation.
Figure 39 - Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays (en abscisse, unité arbitraire).
Figure 40 - Diagramme causal correspondant à la consommation d'alcool et à l'espérance de vie. Les flèches les plus grasses correspondents aux effets les plus forts.
Pour aller plus loin : - Statistiques : Méfiez-vous ! Nicolas Gauvrit - Attention, statistiques !, Joseph Klatzman - Crimes contre la logique. Comment ne pas être dupe des beaux-parleurs. Jamie Whyte - Vous avez dit hasard ? : entre psychologie et mathématiques. Nicolas Gauvrit - 150 petites expériences de psychologie (pour mieux comprendre nos semblables), Serge Ciccotti. - Devenez sorciers, devenez savants, G.Charpak et H.Broch, Odile Jacob. - Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf
- Les pièges et erreurs statistiques - Les correlations illusoires - L'illusion de la guérison - Toutes les nouvelles en psychologie - Les illusions logiques - Le pouvoir des coïncidences - Gagnez au loto ! - Les actes rares - Les Actualités sur les corrélations |