Le processus de la revue par les pairs est cassé.

Rappelons le processus général de la publication scientifique.

Les chercheurs vont rédiger un article, l’envoyer à un journal, et un éditeur en chef va le transmettre à un éditeur qui va trouver des « peer-reviewers », des chercheurs experts pour examiner l’article et émettre un avis sur l’acceptation ou non de l’article. Si l’article n’est pas accepté, il peut être rejeté ou soumis à des modifications, plus ou moins importante.

Si ce processus est logique, il peut produire de la science de qualité, car il permet à des chercheurs de valider la production d’autres chercheurs grâce à leur expertise du sujet. Notons que les décisions de l’éditeur reposent très fortement sur les choix des peer-reviewers et que les peer-reviewers ont donc un pouvoir important sur la décision finale d’accepter l’article.

https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/5367/2/11192_2006_Article_1797.pdf

Les peer-reviewers sont aussi vus par la société comme étant la clé de voute de la « scientificité ». Quand un article controversé indiquant qu’un nouveau trouble féminin a été créé par des entreprises pharmaceutiques, la rédactice en chef du Financial Time a immédiatement demandé « est-ce que l’article a été relu par les pairs ? » La réponse était oui. Pourtant, Richard Smith a relu l’article par lui-même et a trouvé de nombreuses erreurs, envoyant un mail aux auteurs pour les corriger. Ce n’est pourtant pas du peer-reviewing, si ?

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1420798/

En effet, de nombreuses études et objections ont été faites sur la qualité du peer-reviewing. En 1999, Richard Smith, éditeur en chef de BMJ disait que le peer-reviewing était « Lent, coûteux, très subjectif, fortement sujet aux biais, facile à abuser, et médiocre pour détecter les fautes, mêmes grossières. »

https://www.bmj.com/content/318/7175/4

Selon une revue récente, les peer-reviews peuvent être victimes des biais suivants :

https://www.mayoclinicproceedings.org/article/S0025-6196(18)30707-9/pdf

Tout d’abord, il est aujourd’hui clair qu’il y a une différence entre être expert d’un sujet et être expert dans la détection de la qualité des articles sur le sujet. Cela fait plus de 30 ans que de nombreuses études montrent que les peer-reviewers sont incapables de détecter des fautes et des erreurs méthodologiques dans les études.

En 1998, un manuscrit comportant 10 erreurs majeurs et 13 mineurs a été envoyé à 203 reviewers. 68% d’entre eux ont été incapables d’indiquer que les conclusions n’étaient pas supportées par les résultats. Ils ont identifié entre 17 et 40% des erreurs majeures, et 11 à 25% des erreurs mineures, soit largement moins de la moitié.

https://doi.org/10.1016/S0196-0644(98)70006-X

En 2008, 607 peer-reviewers de BMJ ont été randomisés pour être entrainé (ou non) à détecter des erreurs. Ils ont ensuite dû vérifier trois manuscrits différents. Sur 9 erreurs majeures, les reviewers en ont détecté 2.58, et 3 après l’entrainement à la détection d’erreur. Les chercheurs concluent que les peer-reviewers sont incapables de détecter des erreurs, et que l’entrainement n’a qu’un effet très faible sur la détection.

https://journals.sagepub.com/doi/full/10.1258/jrsm.2008.080062

Sur 93 articles publiés dans BMC en 2012, 90% n’avaient pas rapporté de détails cruciaux sur le protocole utilisés. En regardant la différence entre la pré-publication et la publication, les chercheurs ont remarqué que les peer-reviewers avaient amélioré légèrement le rapport du protocole en moyenne, mais qu’ils avaient parfois induits des changements négatifs, notamment en demandant des analyses non planifiées, bien plus sujettes à des faux positifs.

https://www.bmj.com/content/349/bmj.g4145.full

En utilisant des rapports ouverts et 76 études publiées puis rétractées, on se rend compte que seulement 8% des peer-reviewers avaient indiqués demander un rejet de l’article initial.

https://doi.org/10.1016/j.joi.2023.101423

En 2016, des chercheurs avaient conduit une revue systématique des essais randomisés contrôlés sur les processus de peer-reviewing. Ils ont trouvé que l’entrainement ainsi que l’utilisation de checklist n’améliorait pas la qualité du peer-reviewing. Ajouter un statisticien dans le peer-reviewing améliore le manuscrit final, tandis que l’open peer-reviewing avait un (tout petit) effet positif sur la qualité du peer-reviewing.

https://doi.org/10.1186/s12916-016-0631-5

En 2013, un article fait la revue des décisions prises sur le scandale Regenerus. Tout part d’un article publié dans Social Science Research qui indique que les enfants de couples Gay sont désavantagés par rapport aux enfants de couples hétérosexuels.

Ils se trouvent que les enfants de couples gays étaient aussi enfants de couples divorcés, ce qui peut expliquer l’essentiel de l’effet trouvé.

L’article a ensuite été utilisé par des détracteurs de l’homoparentalité. La question que se pose l’article en lien est : comment les peer-reviewers ont-ils fait pour laisser passer l’article alors qu’il est flagrant que l’effet provient du divorce et non de l’homoparentalité ?

https://doi.org/10.1080/19359705.2013.789459

On peut aussi penser à cette étude incroyable qui indique que les africains ont un QI autour de 70 alors qu’il n’y a eu aucune mesure de ce QI mais une extrapolation d’extrapolation du QI d’enfants ayant fui la guerre dans des camps en Israël. Un cas flagrant de racisme.

Heureusement, les chercheurs sur les réseaux sociaux se sont insurgés pour faire rétracter l’article en moins de deux semaines.

Retraction of Clark et al. (2020) and Editorial by Editor-in-Chief Patricia Bauer

C’est ce type de cas qui montre le pouvoir des réseaux sociaux face à l’incapacité des peer-reviewers de s’assurer de la qualité d’un article et de l’inaction des éditeurs qui ont tout à perdre à rétracter un article. Will Gervais qui n’est plus sur X avait répondu ainsi :

Si vous voulez en savoir plus, j’avais fait une vidéo YouTube sur le sujet à l’époque (c’était il y a trois ans déjà qu’est-ce que le temps passe vite):

Comment se fait-il que l’IHU de Didier Raoult ait pu publier 456 articles avec le même numéro d’approbation du comité d’éthique dont 135 dans le même journal ?

Selon Lonni Besançon, « les éditeurs scientifiques se fichent de publier des articles frauduleux ».

Elsevier investigating articles linked to controversial French researcher

D’ailleurs, si on y réfléchit, tous les articles frauduleux qui ont été découvert ont passé l’étape du peer-reviewing. Comment des personnes comme Darsee, Stapel (ou aujourd’hui Ariely) ont pu passer l’étape du peer-reviwing des centaines de fois sans aucun problème ? Cela montre à quel point « il est facile pour les données frauduleuses de continuer à passer le système ».

https://www.nature.com/articles/535031a

Il l’est d’autant plus facile que contrairement à une croyance populaire, la fraude scientifique n’est pas secrète, mais est bien connu des chercheurs dans les laboratoires, qui préfèrent se taire.

https://www.freemalaysiatoday.com/category/opinion/2023/12/11/scientific-fraud-is-more-open-than-secret/

Dans la recherche sur Alzheimer, au moins trois laboratoires de recherches ont été victime de fraudes de la part de leurs directeurs. En 2022

https://www.science.org/content/article/potential-fabrication-research-images-threatens-key-theory-alzheimers-disease

En 2023. Et ce, en mettant en grave danger les participants en cachant les effets secondaires des médicaments testés.

https://www.science.org/content/article/misconduct-concerns-possible-drug-risks-should-stop-stroke-trial-whistleblowers-say

C’est ainsi que Stapel indique dans son livre que tous les chercheurs de son domaine faisaient pareil que lui. C’est également le cas de Francesca Gino. Combien d’exemple faudra-t-il avant qu’on arrête ?

Gino: "…. auditing only my papers actively ignores a deeper reflection for the field,” she wrote. “Why is it that the focus of these efforts is solely on me?”"

Frankly, she's got a point.https://t.co/xPNEE9wdof
— James Heathers (Alfalfa Male) (@jamesheathers) November 7, 2023

Malgré le rôle principal du peer-reviewing, il n’y a aucun fond alloué à son étude, et la majorité des études sur le sujet sont faits par des chercheurs individuels. Comment s’assurer de la qualité du peer-reviewing si on ne le teste pas systématiquement ?

https://link.springer.com/article/10.1186/s41073-020-00092-1

D’ailleurs, comment les peer-reviewers décident d’accepter ou de rejecter un article ? Et bien on ne sait pas trop, mais en se basant sur les degrés d’accord entre les peer-reviewers sur un même article, leur accord est généralement très semblable à la chance pure.

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0010072

Il est donc très problématique que, comme mentionné au début du fil, les éditeurs se reposent essentiellement sur les peer-reviewers pour décider de l’acceptation d’un manuscrit.

D’ailleurs cela peut expliquer la raison pour laquelle les manuscrits publiés par Science ou Nature étaient souvent refusées par des revues moins prestigieuses, leur publication étant avant tout basée sur la chance.

https://www.science.org/doi/10.1126/science.1227833

De même, les tâches les plus importantes pour évaluer les articles ne sont jamais valorisés par les éditeurs. La tâche la plus importante, évaluer les risques de biais, n’est valorisé que par 5% des éditeurs de 171 journaux.

https://bmcmedicine.biomedcentral.com/articles/10.1186/s12916-015-0395-3

On note que dès 2003, des chercheurs recommandaient l’utilisation systématique d’évaluations internes et externes de leur processus de peer-reviewing pour éviter le « gate-keeping » et la toute puissance de l’éditeur favorisant leur vision de la science.

https://pubmed.ncbi.nlm.nih.gov/12652170/

En regardant les données de Frontiers, on se rend également compte de la sous-représentation massive des femmes, tant en termes d’éditrice que de peer-reviewer. On dépasse à peine les 30%.

https://elifesciences.org/articles/21718

Dans Nature on est plutôt autour de 20% de femmes.

https://www.nature.com/articles/541455a

Les peer-reviewers acceptent de lire un article selon leur domaine d’expertise, ce qui pose plusieurs problèmes. En premier, ce n’est pas parce qu’on est expert de son domaine qu’on est expert en peer-reviewing. En deuxième, cela favorise l’entre-soi. Et on a largement plus tendance à accepter un article de quelqu’un que l’on connait.

https://doi.org/10.1016/j.joi.2019.03.018

Le double blind n’existe pas. En 2019 dans le domaine biomédical, des peer-reviewers ont réussi à deviner les noms des auteurs dans 25 à 50% des cas. Quand il y a des preprints, les auteurs sont évidents. Connaitre le nom des auteurs augmente par deux les chances d’acceptation du manuscript. https://pubmed.ncbi.nlm.nih.gov/27856433/

En parlant d’expertise, on le définit souvent en tant que 1) confiance en l’expert, 2) fiabilité de l’expert, 3) calibration et 4) cohérence. Ces indicateurs favorisent une démographie particulière : les peer reviewers sont comme les éditeurs : des hommes blancs vieux. Il est nécessaire de repenser totalement la notion d’expertise afin d’engagement de manière plus inclusive la société scientifique, en valorisant davantage la pratique délibérée plutôt que des notions favorisant le biais de confirmation.

https://psycnet.apa.org/record/1993-40718-001

Le nombre de spin – de distortion des résultats pour les rendre plus positifs, est rarement détecté par les peer-reviewers et quand ils le sont, sont rarement modifiés par les auteurs. Les peer-reviewers ont aussi tendance à augmenter les spins dans l’abstract pour le rendre plus sexy !

https://doi.org/10.1016/j.jclinepi.2016.04.012

Les deux problèmes majeurs de la scientificité est la trop faible publication de résultats négatifs et le nombre extrêmement élevé de faux-positifs.

Sans faire une revue exhaustive des problèmes de réplicabilité (ça sera pour une prochaine fois). La plus grosse base de données indique que la moitié des recherches en psychologie qui ont été répliquées l’ont été avec succès. Cela indique que quand on lit un article scientifique, on a une chance sur deux de lire un article qui ne concerne pas un effet réplicable.

https://metaanalyses.shinyapps.io/replicationdatabase/

Cela associé à un taux dramatiquement faible de réplications dans les journaux en psychologie, de l’ordre de 0.2%, ce qui rend impossible la détecter systématique des faux positifs, qui peuvent être bien plus important que 50%.

https://osf.io/preprints/psyarxiv/sa6rc

La raison est simple, les éditeurs, peer-reviewers et lecteurs ne voient pas l’intérêt des réplications et de la publication des résultats nuls, donc ils ne les publient pas.

https://www.emerald.com/insight/content/doi/10.1108/CCSM-03-2016-0084/full/html?fullSc=1&WT.mc_id=Emerald_TrendMD_0

Pour diminuer le nombre de faux positifs publiés, on a mis en place un système obligeant les chercheurs à indiquer leurs hypothèses et plans d’analyses avant de conduire l’étude : c’est le pré-enregistrement.

Cependant, on constate qu’aucun peer-reviewer ne regarde le pré-enregistrement (3% des peer-reviewers).

Quel est donc l’intérêt de pré-enregistrer, si ceux qui sont censés valider la scientificité de nos articles s’en fichent ?

https://osf.io/nh7qw

Il est nécessaire de changer drastiquement la culture scientifique vers une culture plus rigoureuse et moins adepte de la nouveauté.

Comme disait Ioannidis en 2012, « La sauvegarde des principes scientifiques n’est pas quelque chose qui se fait une fois pour toutes. C’est un défi qui doit être relevé au quotidien, tant par les scientifiques que par l’ensemble des institutions scientifiques ».

https://journals.sagepub.com/doi/10.1177/1745691612464056

Concernant l’expertise, il se trouve que 233 personnes ont été meilleures que le hasard (59%à 67%) à prédire la réplication d’un article. Il n’y a donc pas d’expertise particulière associée à la détection de faux positifs.

https://journals.sagepub.com/doi/full/10.1177/2515245920919667

Dans un autre article, des chercheurs ont modélisé les caractéristiques de reviewers et indiquent que « L’exactitude des reviewers publics peut surpasser celle d’un petit groupe d’examinateurs experts si le groupe d’examinateurs publics est de taille suffisante. »

https://pubmed.ncbi.nlm.nih.gov/22350231/

Peut-être que des experts peuvent améliorer la qualité de leur revue grâce à l’utilisation de check-lists systématiques ?

De nombreuses échelles (24) existent pour vérifier la qualité d’une analyse de peer-reviewing. Sauf qu’aucune… ne définit la notion de qualité. Ainsi, on n’est pas capable de savoir quelle checklist pourrait être réellement utilisable pour améliorer la qualité du peer-reviewing.

https://link.springer.com/article/10.1186/s12874-019-0688-x

En 2015, un article propose l’idée que le système de peer-reviewing souffre d’un biais systématique de commensuration.

Les reviewers se focaliseraient sur certains aspects des articles ou des projets pour les accepter ou les refuser, aspects en contradiction avec la qualité de l’article. Ils favoriseraient l’innovation plutôt que la rigueur, les résultats positifs aux négatifs, les théories conservatrices aux résultats contredisant ces théories. Ces visions des reviewers (et des éditeurs) peuvent expliquer en grande partie les faux positifs dans la littérature scientifique.

Cliquer pour accéder à commensuration-peer-bias_carole-lee_2015.pdf

Un moyen d’améliorer la qualité du peer-review serait de rendre les rapports accessibles et transparents. Les peer-reviewers resteraient anonymes, mais leurs rapports seraient publics.

Une étude pilote de 18525 revues indiquent que ce type de rapport ne réduisait pas la volonté de relecture, ou de recommandation, et était favorisé par les lecteurs plus jeunes, qui produisait des revues plus positives et objectives. C’était d’autant plus le cas chez les hommes.

https://pubmed.ncbi.nlm.nih.gov/30659186/

De plus, l’open peer-reviewing est largement plébiscité par les chercheurs.

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0189311

Il est aussi possible de passer à un processus de peer-reviewing « post publication ». Selon les modèles mathématiques, la qualité de la revue serait supérieure…S’il y a de l’argent pour passer du temps dessus.

https://link.springer.com/article/10.1007/s00464-012-2171-1

Notons que si la critique des articles ci-dessus repose sur les peer-reviewers, c’est parce qu’il est difficile de faire des recherches sur les éditeurs. Il est ironique de constater que les individus à la base de la production scientifique sont réfractaires à l’étude scientifique de leurs pratiques.

https://elifesciences.org/articles/62529

Il est nécessaire de modifier les pratiques des éditeurs avant de modifier celles des peer-reviewers, celles-ci étant directement influencées par les politiques éditoriales.

https://link.springer.com/article/10.1007/s11948-015-9625-5

Il est également évident que les institutions ont un rôle fondamental à jouer dans la résolution de la crise de reproductibilité. Ce sont eux qui peuvent changer les incentives et l’allocation de financement pour financer des études plus rigoureuses, ou des équipes dédiées à vérifier la qualité des articles. Ce sont eux qui peuvent réduire les allocations à la science novatrice qui produit des faux positifs en masse.

https://journals.sagepub.com/doi/full/10.1177/1745691612459058

Ceux sont eux qui peuvent réduire le nombre exponentiel d’articles publiés en embauchant et favorisant les chercheurs qui produisent de la science de meilleure qualité, réplicables et répliquées.

https://www.sciencedirect.com/science/article/pii/S0016328717301969

Voici un graphique représentant l’ensemble des domaines à fortifier pour une fondation rationnelle du peer-reviewing:

https://journals.asm.org/doi/full/10.1128/mbio.03183-22

Une grande partie des sources provient de cet article : https://link.springer.com/article/10.1186/s13104-022-06016-0

On peut noter d’autres caractéristiques qui réduisent la qualité de l’évaluation, comme les « desk rejects » qui ne sont pas expliqués, l’augmentation massive du nombre de journaux et de processus allegés de peer-reviewing, notamment dans les « special issues » qui sont désormais majoritaires chez certains éditeurs, l’utilisation massive de Paper Mills, notamment associé à des « superchercheurs » de plus en plus nombreux, qui publient parfois un article tous les deux jours. 2023 est l’année de tous les records, avec 10 000 articles rétractés. Selon Retractation watch, il en faudrait dix fois plus pour assainir le corpus scientifique.

https://www.thetimes.co.uk/article/record-year-bad-science-studies-retracted-harvard-business-school-nature-hskq7fhv5

« Si l’évaluation par les pairs était un médicament, il ne serait jamais autorisé sur le marché, déclare Drummond Rennie, éditeur du Journal Of the American Medical Association. Le peer reviewing n’arriverait pas sur le marché parce que nous n’avons aucune preuve convaincante de ses avantages, mais beaucoup de preuves de ses défauts. »

Pourtant, il est le mode de fonctionnement principal de la recherche, que cela soit pour publier des articles, recevoir des financements, ou gagner un prix Nobel.

https://www.nature.com/articles/d41586-023-04027-w

Selon Richard Smith, « Il est ironique de constater que le cœur de la science provient d’un acte de foi plutôt que d’un processus rationnel. »

https://breast-cancer-research.biomedcentral.com/articles/10.1186/bcr2742

Adrien Fillon

Le processus de la revue par les pairs est cassé.

Laisser un commentaire Annuler la réponse.

Le processus de la revue par les pairs est cassé.

Partager :

Laisser un commentaire Annuler la réponse.