Paul Meehl – Philosophie de la psychologie

Published by

on

Biographie

Paul Meehl est né en 1920 à Minneapolis, dans le Minnesota. Il a obtenu son doctorat en 1945 de l’université du Minnesota, devint immédiatement professeur à l’université du Minnesota et est mort en 2003 … à Minneapolis, dans le Minnesota.

Avec plusieurs de ses collègues, il fonda le Minnesota Center for the Philosophy of Science et est devenu la référence dans la philosophie des sciences appliquées à la psychologie.

Les critiques de la psychologie

Construit versus observation

Il a tout d’abord publié des articles sur la nécessité d’inclure les statistiques dans la psychologie. En 1948, il définit le concept de « construit hypothétique », des variables que l’on ne peut pas mesurer directement. Aujourd’hui, tous les troubles mentaux sont des construits hypothétiques. Ce que l’on mesure, ce sont les symptômes associés à ces troubles.

Pour pouvoir mesurer indirectement ces construits, il faut pouvoir mesurer la fidélité de la relation entre ces construits et les observations qui y sont associées. Meehl va alors, avec son collègue Cronbach, créer l’alpha de Cronbach qui est encore aujourd’hui un indicateur fortement utilisé de la validité interne d’une échelle, permettant de mesurer un construit hypothétique. Ils publient un article de référence en 1955. Dans ce même article, ils vont définir le concept de réseau nomologique. Pour s’assurer qu’il existe des correspondances entre les observations et les construits hypothétiques associés (par exemple entre le manque de sommeil, les pensées négatives etc… et la dépression), il faut :

  • Au moins deux construits observés,
  • Une ou plusieurs propositions théoriques, spécifiant les liens entre les construits, par exemple : « plus on a de pensées négatives, plus on souffre de dépression ».
  • Des règles de correspondance, permettant de mesurer chaque construit. Par exemple dans l’opérationnalisation : « sommeil » est mesuré en demandant « combien de temps avec vous dormi hier soir ? »
  • Les liens empiriques représentent des hypothèses avant la collecte des données, les généralisations empiriques représentent des hypothèses après la collecte des données.

Ils ont donc, dans le même article que celui créant l’alpha de Cronbach, fondé la création des tests psychologiques.

L’utilisation d’algorithmes dans les décisions cliniques

Un an auparavant, en 1954, Meehl sort son livre fondateur : Clinical versus statistical prediction: A theoretical analysis and a review of the evidence.

Dans ce livre, Meehl a évalué 20 études de recherche impliquant à la fois des prédictions statistiques et des prédictions humaines. Il a constaté que les prédictions statistiques étaient supérieures dans 11 études sur les 20, étaient égales aux jugements humains dans 8 cas et dans un seul cas, il avait trouvé un avantage au jugement clinique.

Il complémentera en 1965 avec 33 études montrant une supériorité des prédictions statistiques, statistiques, 17 matchs nuls et encore un seul article avec un avantage clinique. Howard Garb a ensuite vérifié la qualité de l’article avec une meilleure prédiction clinique et indique qu’il est de très mauvaise qualité. Il n’y a donc vraisemblablement aucun cas rapporté où le jugement humain est meilleur que celui des algorithmes dans les prédictions cliniques.

Il a donc été, dès le début, un fervent défenseur de l’utilisation des échelles cliniques pour le diagnostic des troubles mentaux en particulier pour éviter aux cliniciens de se tromper de jugement à cause de la faible qualité du jugement humain.

Les catégories ou les dimensions ?

Meehl sera très critique du DSM-3 et de l’utilisation de « checklists » pour qualifier un trouble mental. Plus exactement, il refuse l’idée d’une dichotomie des troubles mentaux « je suis dépressif ou non » et indique que la dépression doit être vue dans une intensité et un temps : il y a des moments de la vie où la dépression sera plus sévère que d’autres. Pour lui, les troubles mentaux ne doivent pas être catégorisés, mais mis sur un ensemble de continuums d’intensité, de sévérité, de temporalité etc. chaque continuum peut ensuite être agencé dans des dimensions, correspondant à un trouble spécifique.

Légende : Dans l’article de Fried, 2022, les lignes x, z et y sont des dimensions. Les catégories seraient les différentes couleurs. Ce que montre la figure, c’est que la dépression majeure (MDD) se distingue du trouble du stress post-traumatique sur la dimension x (les bleus sont plus à droite que les rouge), y (les rouges sont plus haut que les bleu) mais pas z (ils sont à peu près au milieu). De plus, vers le centre du plan, plusieurs rouges sont très proches des bleus car ils sont très similaires dans les 3 dimensions. La distinction rouge/bleu semble donc peu pertinente, moins que les dimensions.

Mais comment créer des dimensions selon des catégories ? Meehl va développer la notion de taxon, et fonder la discipline de la taxométrie. Les taxons sont des facteurs sous-jacents qui, mis ensemble, vont avoir un effet causal sur une vraie différence dans la population. Aujourd’hui, et grâce à l’influence de la taxométrie de Meehl, presque tous les troubles sont vus comme des dimensions, et non plus comme des catégories (Haslam et al., 2020).

Philosophie des sciences

Paradoxe de Meehl

En 1959, le livre de Popper La Logique de la découverte scientifique est enfin traduit en anglais (le livre est sortie en 1934 en langue allemande). Le lisant, Meehl se déclare complètement Poppérien. En 1989 il déclarera qu’en fait, il se considère plutôt comme un néo-poppérien éclectique. En effet, il est le premier à montrer un paradoxe, une faille dans le raisonnement Poppérien concernant les sciences sociales, qui fonctionnent à l’envers des sciences physiques. Ce paradoxe prendra le nom de paradoxe de Meehl. Ainsi, en 1967, Meehl publie l’article Theory-testing in psychology and physics: A methodological paradox.

Le paradoxe est en réalité assez simple : la plupart des « théories » psychologiques ne prédisent que la direction d’un effet, et comme toute intervention provoque quelque chose, les expériences psychologiques ont une probabilité de détecter l’effet très proche de 50% avec un échantillon assez important (50% de chance que l’effet soit positif, 50% qu’il soit négatif, peu importe la taille de l’effet). À l’inverse, les théories physiques sont plus difficiles à justifier avec une précision de mesure accrue, car elles font des prédictions précises.

Dit autrement, une hypothèse en psychologie serait de la forme « plus on a des pensées négatives fortes, plus on a un risque de dépression important » alors qu’en physique cela donnerait une hypothèse du type « un score entre 10 et 12 à l’échelle des pensées négatives amène à un score entre 13 et 15 à l’échelle de dépression ». Ce type d’hypothèse n’existe pas en psychologie car, par exemple, la dépression est un phénomène trop complexe pour émettre des hypothèses si précises, pour l’instant.

Dans cet article, Meehl développe d’autres points fondamentaux de la psychologie.

En premier, contrairement à la physique, l’hypothèse nulle est toujours fausse en psychologie, ce qui va à l’encontre de l’utilisation de Fischer de la P-valeur, ou l’hypothèse nulle devrait être toujours vraie. Ainsi, la p-value ne mesure pas la surprise associée à sa significativité, mais la puissance de l’expérimentation (le nombre de participants requis pour détecter un effet, même faux). Meehl sera un activiste de l’arrêt de l’utilisation de la p-valeur dans les sciences sociales, pour lui préférer l’idée d’intervalle de prédiction. La théorie Poppérienne du falsisficationnisme n’existe donc pas en psychologie, bien qu’elle prétende exister. Il dira que la psychologie se pare de la cape du falsificationisme sans l’être.

Pourquoi l’hypothèse nulle est toujours fausse ? Car en psychologie, « tout corrèle avec tout ». Il est presque impossible qu’une corrélation entre deux variables qui n’ont aucun lien soit réellement de 0. La plupart des corrélations entre tout est entre 0.1 et 0.5. Ainsi, quand les chercheurs en psychologie émettent l’hypothèse nulle « il n’y a pas de lien entre X et Y », ils émettent une hypothèse qui est forcément fausse.

En second, Meehl indique qu’il y a une distinction entre une hypothèse statistique et une théorie substantielle. Pour tester une théorie, on peut faire des millions d’hypothèses. Et des millions de théories peuvent mener à une même hypothèse. Par conséquent, une p-valeur inférieur à 0.05 est une preuve associée à une hypothèse statistique mais n’est pas une preuve de la qualité de la théorie associée.

Par conséquent des deux arguments précédents, trouver une preuve qui va dans la direction opposée à ce que prédit la théorie est une preuve beaucoup plus forte qu’un résultat est faux que ne l’est la preuve que la théorie soit vraie avec une différence prédite par l’hypothèse.

Meehl est ainsi beaucoup plus intéressé par la magnitude d’un effet (la taille d’effet et son intervalle de prédiction) que par une quelconque p-valeur.

En 1978, il développe plus loin son idée d’une distinction fondamentale entre un test statistique et une théorie. L’article s’appelle Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology et est extrêmement difficile à lire, à cause des formalisations mathématiques qu’il développe.

Fondamentalement, Meehl dit qu’il y a une relation telle que

Théorie -> Hypothèse auxiliaire -> Conditions expérimentales -> Observation

Si l’observation ne correspond pas à l’hypothèse, cela indique qu’il est très probable qu’il y ait un problème au niveau de l’observation, un peu moins probable mais probable quand même que le problème vienne des conditions expérimentales et encore moins probable que ça soit parce que l’hypothèse est vraiment fausse. Il est donc encore moins probable que l’observation étrange provienne d’un problème de la théorie. Meehl indique que le manque d’avancée en psychologie provient essentiellement du fait que les chercheurs remettent systématiquement en question les théories quand une observation va à l’encontre de la théorie.

Enfin en 1990, il va publier deux articles fondateurs de la méta-science (qu’il appelle méta-théorie, le terme méta-science n’apparaitra qu’au milieu des années 2000).

Les articles sont Appraising and amending theories: The strategy of Lakatosian defense and two principles that warrant it et Why Summaries of Research on Psychological Theories are Often Uninterpretable.

Lire ces articles nécessite d’avoir de bonnes connaissances sur la philosophie de Popper et de Lakatos, je vous invite donc à relire le billet de blog sur Popper qui propose une humble introduction.

Nous sommes plus impressionnés par la corroboration d’une théorie si elle prédit un résultat qui, sans la théorie, serait difficile à croire. La ceinture d’hypothèse auxiliaire de Lakatos implique que si notre observation ne correspond pas à une théorie, il faut alors modifier les hypothèses auxiliaires avant de rejeter la théorie. Dans le cas du test d’hypothèse nulle, prépondérante en psychologie, le test de prédictions de corrélation provenant de théories faibles est sujet à l’influence de facteurs dont les effets sont importants, opposés, variables, et inconnus. La conséquence de ces effets est que la revue de littérature en psychologie est très grandement non-interprétable. La raison, selon Meehl, est que l’utilisation de la p-valeur pour informer une théorie en psychologie, ou pour toute autre science faible, est une erreur.

Parmi les facteurs mentionnés par Meehl se trouvent : le biais d’expérimentateur (notamment les études qui ne sont pas réalisées en aveugle, où dont l’aveuglement de l’expérimentaliste et/ou du participant n’est pas correctement mesurée), un manque de puissance statistique énorme, le « crud » factor, l’idée que tout corrèle avec tout, ou que toutes les hypothèses nulles sont fausses, les biais de publication sous toutes leurs formes, et une pauvre validation des tests et des instruments de mesure.

Meehl donne l’exemple suivant : supposons que nous choisissions des théories au hasard et que nous les « testions » en choisissant une paire de variables au hasard et en testant leur corrélation. (Ces variables n’ont pas besoin d’avoir de rapport avec la théorie.) Compte tenu de la puissance statistique typique en psychologie entre 20% et 30% et d’un crud factor supposé que tout corrèle avec tout, la théorie sera « confirmée » au moins dans un cas sur trois. Autrement dit, même si les variables n’ont rien à avoir entre elles ni avec la théorie, on a une chance sur trois que l’hypothèse qui n’a aucun sens soit associée quand même à une p-valeur significative.

Ainsi, si les procédures standards en psychologie marchent aussi bien sur des données pourries que sur des « vraies » théories et données, que penser de la qualité de ces procédures ?

Selon Meehl, les hypothèses statistiques n’ont rien à voir avec les hypothèses scientifiques.

En agronomie, par exemple, la réfutation d’une hypothèse nulle est la preuve de ce que nous voulons savoir exactement : cet engrais fonctionne mieux que tel autre engrais. Mais, avec le crud factor et les nombreuses hypothèses différentes pour une même théorie en psychologie, la réfutation d’une hypothèse statistique n’informe presque pas l’hypothèse scientifique. Meehl indique que peu importe la théorie, quelques étudiants diplômés pourraient facilement trouver une douzaine d’explications pour laquelle une p-valeur est significative peu importe l’hypothèse, si on leur fournissait un petit-déjeuner gratuit et un tableau blanc.

L’effet de Meehl aujourd’hui

Bien que Paul Meehl soit presque inconnu de tous les étudiants en psychologie, il est encore aujourd’hui très probablement le psychologue le plus influent de tous les temps. Nous l’avons dit, il est responsable de la création de l’alpha de Cronbach, de la dimensionnalité des troubles mentaux, mais aussi précurseur de la méta-science. Ses théories et positions idéologiques ont profondément modifié la scientificité de la psychologie, mais aussi la pratique, de part sa défense de l’utilisation de tests rigoureux dans le diagnostic, ainsi que de sa critique du jugement clinique. Son article « pourquoi je n’assiste plus aux conférences de cas pratique » de 1978, dans lequel il décrit plus d’une dizaine de biais dans le jugement des cliniciens lorsqu’ils décrivent des cas pratiques, a profondément modifié l’usage des cas pratiques en psychologie clinique.

Le Crud Factor est encore un sujet de débat important dans la communauté scientifique (Orben & Lakens, 2020) : comment la p-valeur peut-être avoir un intérêt si l’hypothèse nulle est forcément fausse ? Ne faut-il pas la redéfinir ?  (Bialek et al., 2023 ; Benjamin et al., 2017, Lakens et al., 2018).

Comment faire des résumés de théories scientifiques si elles sont toutes impactées par les problèmes de sélection de publication, des problèmes méthodologiques de biais expérimentaux et de mauvaise qualité de mesure, sont associées à des hypothèses faibles et non falsifiables ?

En fait, la philosophie de Paul Meehl n’a jamais été aussi actuelle qu’aujourd’hui.

Il n’est donc pas étonnant qu’en 2024, l’université technologique d’Eidhoven a lancé le programme d’enseignement Paul Meehl, proposant des enseignements en méta-science, à travers une redécouverte des écrits de la légende de la psychologie clinique scientifique.

Laisser un commentaire