1 of 91

Rémi Gau

@RemiGau

Parapsychologie et

crise de la réplication

Brussels Skeptics in the pub

15 février 2020

@ComitPara1

2 of 91

Ce dont je ne vais pas (vraiment) vous parler:

Parapsychologie
Psychologie

Ménager vos attentes

3 of 91

Ce dont je ne vais pas (vraiment) vous parler:

Parapsychologie
Psychologie

Ce dont je vais vous parler:

Métascience

Ménager vos attentes

4 of 91

Prologue

5 of 91

1960 - aujourd’hui:

Critiques statistiques et épistémologiques

2005

“La plupart des résultats publiés sont faux”

2008

“Corrélations vaudous en neurosciences sociales”

Psychologie

Reference: What has happened down here is the winds have changed

6 of 91

2010 - 2011

Fraudes scientifiques

Psychologie

Diederik Stapel

Reference: What has happened down here is the winds have changed

7 of 91

Chapitre 1

Prédire le futur

8 of 91

Feeling the future

Reference: Feeling the future

9 of 91

Feeling the future

Reference: Feeling the future

10 of 91

Feeling the future

Reference: Feeling the future

11 of 91

Feeling the future

Reference: Feeling the future

12 of 91

9 expériences de “pré-cognition”
8 résultats positifs

Feeling the future

Reference: Feeling the future

13 of 91

Le moment statistique

14 of 91

Pour tester notre hypothèse

“Les gens arrivent à prédire l’avenir.”

On teste un “épouvantail” (H0)

“Les gens n’arrivent pas à prédire l’avenir.”

En supposant H0 vrai, ces résultats (R) sont-ils possibles?

Si H0 → ~R

On observe R

Donc ~H0

Le moment stat

15 of 91

Valeur-p (p-value)

“ En supposant que H0 est vraie, quel est la probabilité d’observer des résultats au moins aussi “extrêmes”? ”

Seuil de significativité : 5% (p < 0.05)

Le moment stat

16 of 91

Faux positif (“Accuser un innocent”)

“Si on répète l’expérience 100 fois et que l’effet que l’on cherche à mettre en évidence n’existe pas, on se trompera 5 fois.”

Le moment stat

17 of 91

Chapitre 1

Suite

18 of 91

9 expériences de “pré-cognition”
8 résultats positifs

“Les participants arrivaient à correctement identifier la future position des images érotiques significativement plus fréquemment (53.1%, p = .01) que le taux de chance de 50%.”

Feeling the future

Reference: Feeling the future

19 of 91

9 expériences de “pré-cognition”
8 résultats positifs

Donc en gros

Les gens arrivent à prédire l’avenir
Les évènements futurs influencent le présent

Feeling the future

Reference: Feeling the future

20 of 91

Feeling the future

“Nombre de critiques de l’article de Bem ont essayé de s’en débarrasser en cherchant LA faille - l’erreur méthodologique qui invalide complètement le papier. [...] Ayant lu de près le papier deux fois, je ne pense pas qu’il y ait une telle faille dans cet article de Bem.”

“Si on oublie la nature polémique du sujet de recherche de Bem, et qu’on évalue le papier sur des bases purement méthodologiques, je ne pense pas qu’il soit pire que le papier type qu’on trouve dans JPSP. En fait il est même probablement meilleur.”

Tal Yarkoni

Reference: The psychology of parapsychology

21 of 91

Nous voulons:

études rigoureuses minimisant les sources de biais
résultats statistiquement significatifs
taille d’effet conséquente
niveau de preuve proportionné à la plausibilité du phénomène
réplications indépendantes

Réactions - Sceptiques

Reference: The Skeptics' Guide to the Universe

22 of 91

Réactions - Sceptiques

23 of 91

Réactions - Psychologues

24 of 91

“La vraie question qui est dans l’esprit des gens est : qu’est ce qu’il y a bien pu se passer ? S’il est bien évident qu’un phénomène tel que la perception extra-sensorielle (PSE) n’existe pas, comment donc est-ce qu’un éminent chercheur en psychologie sociale a pu publier un article contenant autant de données en faveur de la PSE dans un des meilleurs journaux de psychologie sociale, après avoir été évalué par 4 autres psychologues ?

Ou pour le dire de manière plus prosaïque :

Réactions - Psychologues

Reference: The psychology of parapsychology

25 of 91

“La vraie question qui est dans l’esprit des gens est : qu’est ce qu’il y a bien pu se passer ? S’il est bien évident qu’un phénomène tel que la perception extra-sensorielle (PSE) n’existe pas, comment donc est-ce qu’un éminent chercheur en psychologie sociale a pu publier un article contenant autant de données en faveur de la PSE dans un des meilleurs journaux de psychologie sociale, après avoir été évalué par 4 autres psychologues ?

Ou pour le dire de manière plus prosaïque :

What the fuck?”

Réactions - Psychologues

Reference: The psychology of parapsychology

26 of 91

Chapitre 2

La crise

27 of 91

La crise de la rep...

Reference: Understanding of researcher behavior is required to improve data reliability

28 of 91

Many lab projects 1 (2014)

10 / 13 effets répliqués ; 36 labos ; n = 6400

Many lab projects 3 (2015)

3 / 10 effets répliqués ; 20 labos ; n = 2500

Many lab projects 2 (2018)

14 / 28 effets répliqués ; 60 labos ; n = 7000

L’étendue des dégâts

29 of 91

L’étendue des dégâts

Reproducibility Project: Psychology (2015) - 35 / 97 effets répliqués

30 of 91

Exemple

Facial feedback

31 of 91

Exemple

Facial feedback

32 of 91

50% des études ne peuvent pas être répliquées

Variable en fonction des sous-disciplines

Les effets sont plus petits dans les réplications

Perte de confiance & prise de conscience

Perte de confiance

33 of 91

Chapitre 3

Les causes

34 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Reference: A manifesto for reproducible science

35 of 91

Trop peu de réplications (1% - 1‰ des publications)

“Ce journal ne publie pas de réplications, qu’elles soient positives ou négatives.”

Causes - réplication

36 of 91

Trop peu de réplications directes

Causes - réplication

Reference: A Unified Framework to Quantify the Credibility of Scientific Findings

37 of 91

Trop peu de réplications directes

Le problème des réplications conceptuelles

“Pile : je gagne ; Face : tu perds”

Causes - réplication

38 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Peu de réplications

(1% - 1 ‰ des publications)

Reference: A manifesto for reproducible science

39 of 91

Causes - biais de publication

40 of 91

Causes - biais de publication

Reference: Measuring the Prevalence of Questionable Research Practices

41 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Peu de réplications

(1% - 1 ‰ des publications)

Biais de publication

(92% résultat positifs)

Reference: A manifesto for reproducible science

42 of 91

Causes - petits échantillons

43 of 91

Causes - petits échantillons

44 of 91

Des échantillons trop petits

“Pour chercher à montrer qu’un effet existe, il faut mettre au point une expérience qui a de bonnes chances de le détecter. C’est du simple bon sens. En terme statistique, on dit qu’une expérience doit avoir une puissance statistique suffisante.”

Gerd Gigerenzer

Causes - petits échantillons

Reference: Statistical Rituals: The Replication Delusion and How We Got There

45 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Peu de réplications

(1% - 1 ‰ des publications)

Biais de publication

(92% résultat positifs)

Faible puissance statistique

(50% de chance de détecter un effet de taille moyenne)

Reference: A manifesto for reproducible science

46 of 91

Pratiques de recherche critiquables

Questionable Research Practices

Causes - QRP

47 of 91

“Examinez les données sous tous les angles. [...] Si une partie des données suggèrent une nouvelle hypothèse, essayez de trouver de nouveaux arguments en sa faveur. Si vous voyez les traces d’un phénomène intéressant, essayez de réorganiser les données pour mieux le faire ressortir. Si il y a des participants, des essais ou un expérimentateur qui vous donnent des résultats anormaux, mettez-les de côté (temporairement). Partez à la pêche pour trouver quelque chose - n’importe quoi - d’intéressant.

Non, ce n’est pas immoral. Les règles de l’inférence scientifique et statistique que l’on sur-apprend à l’université s’appliquent au “contexte de justification”. [...] Mais dans le “contexte de la découverte”, il n’y a pas de règles formelles seulement des heuristiques et des stratégies. Comment est-ce que l’on découvre un nouveau phénomène ? [...] Dans le contexte restreint d’une étude empirique, il n’y a qu’une seule stratégie qui mène à la découverte : explorer les données.”

Daryl Bem

Causes - QRP

Reference: Writing the Empirical Journal Article

48 of 91

Recherche confirmatoire

résultats

Causes - QRP

données

analyse

49 of 91

Recherche confirmatoire

résultats

Causes - QRP

données

analyse

“Masser les données”

50 of 91

Recherche exploratoire

résultats

Causes - QRP

données

analyse

51 of 91

Recherche exploratoire

résultats

Causes - QRP

données

analyse

“Torturer les données”

52 of 91

Causes - QRP

53 of 91

Causes - QRP

Reference: An Agenda for Purely Confirmatory Research

54 of 91

HARKing: Hypothesizing After the Results are Known

“Quel article devriez-vous écrire? Il y a deux possibilités d’article :

l’article que vous aviez prévu d’écrire quand vous avez mis au point votre étude,
l’article qu’il est plus censé d’écrire une fois que vous avez vu les résultats.

Ces deux articles sont rarement similaires et la bonne réponse est B.”

Daryl Bem

Causes - QRP

Reference: Writing the Empirical Journal Article

55 of 91

Causes - QRP

Reference: Measuring the Prevalence of Questionable Research Practices

56 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Peu de réplications

(1% - 1 ‰ des publications)

Biais de publication

(92% résultat positifs)

Faible puissance statistique

(50% de chance de détecter un effet de taille moyenne)

HARking

(prévalence 50 - 90%)

Reference: A manifesto for reproducible science

57 of 91

P-hacking

“Optional stopping”

Causes - QRP

Reference: Measuring the Prevalence of Questionable Research Practices

58 of 91

P-hacking

“Optional stopping”
Exclusion

Causes - QRP

Reference: Measuring the Prevalence of Questionable Research Practices

59 of 91

P-hacking

“Optional stopping”
Exclusion
“Selective reporting”

Causes - QRP

Reference: Measuring the Prevalence of Questionable Research Practices

60 of 91

Simulations montrant qu’avec du p-hacking le taux de faux positif peut monter à plus de 60% (au lieu de 5%).

“L’étude 2 cherchait à savoir si écouter une chanson parlant de vieillesse permettait faire de rajeunir les gens.”

Causes - QRP

61 of 91

Générer une hypothèse

Mettre au point une étude

Collecter des données

Analyser les données et tester l’hypothèse

Interpréter les données

Publier ou mener une nouvelle expérience

Peu de réplications

(1% - 1 ‰ des publications)

Biais de publication

(92% résultat positifs)

Faible puissance statistique

(50% de chance de détecter un effet de taille moyenne)

HARKing

(prévalence 50 - 90%)

p-hacking

(prévalence 50 - 100%)

Reference: A manifesto for reproducible science

62 of 91

“Il est important de noter qu’aucun de ces problèmes, pris un à un, n’est vraiment terrible. [...] Mais quand on allie du “data peeking”, des seuils statistiques peu conservateurs, la recombinaison de différentes études pour n’en faire plus qu’une, des hypothèses flexibles et un tri sélectif des variables, vous obtenez une recette parfaite pour produire des résultats fallacieux.”

Tal Yarkoni

Causes - QRP - Bem

Reference: The psychology of parapsychology

63 of 91

“Ce dont il faut se rappeler c’est que ce type de trucage n’est pas inhabituel : bien au contraire, tout le monde fait ça. [...] La réalité est que les chercheurs sont des humains et que, comme tous humains, ils ont une profonde tendance à essayer de confirmer leurs croyances. [...] Et je ne dis pas ça pour m’en prendre aux motivations de Bem ; je pense que c’est vrai de tout chercheur - moi y compris.”

Tal Yarkoni

Causes - QRP - Bem

Reference: The psychology of parapsychology

64 of 91

Chapitre 4

Des “solutions”

65 of 91

Psychological Science Accelerator

66 of 91

Pré-enregistrement

67 of 91

Outcome switching

68 of 91

Registered reports

69 of 91

Registered reports

70 of 91

Défi sceptique

Registered reports

71 of 91

Défi sceptique
European Journal of Parapsychology (1976 - 1993)

Registered reports

Reference: Registered reports: an early example and analysis

72 of 91

Analyse multivers

73 of 91

1 lot de données - plusieurs équipes
1 équipe - plusieurs analyses

Analyse multivers

74 of 91

Analyse multivers

75 of 91

Conclusion

Ce que le futur nous réserve…peut-être

76 of 91

Expérience de pré-cognition de Bem
Protocole et registered report

Open science framework

Données en ligne et analyse en temps réel

Transparent psi project

77 of 91

78 of 91

79 of 91

1974

“Remote viewing”, Targ and Puthoff, Nature

Années 1970 - aujourd’hui

Expériences Ganzfeld

1994

“Does psi exist?”, Bem & Honorton, Psychological Bulletin

Parapsychologie

80 of 91

Feeling the future

Agréable?

Désagréable?

81 of 91

Feeling the future

Agréable?

Désagréable?

Barbarie

82 of 91

Feeling the future

Agréable?

Désagréable?

Barbarie

83 of 91

Définitions

84 of 91

Causes - biais de publication

85 of 91

Ne pas jeter le bébé...

vert bleu rouge noir

bleu vert noir rouge

86 of 91

Daryl Bem: on rigor

“I’m all for rigor,” he continued, “but I prefer other people do it. I see its importance—it’s fun for some people—but I don’t have the patience for it.” It’s been hard for him, he said, to move into a field where the data count for so much. “If you looked at all my past experiments, they were always rhetorical devices. I gathered data to show how my point would be made. I used data as a point of persuasion, and I never really worried about, ‘Will this replicate or will this not?’” (Engber 2017).

87 of 91

Null hypothesis statistical testing (NHST)

Most people get this one wrong, will you?

You compare the means of your control and experimental groups (say, n=20 in each). Independent means t-test is significant: t = 2.7, df = 18, p = .01. Please mark each of the statements below as “true” or “false.” “False” means that the statement does not follow logically from the above premises. Also note that several or none of the statements may be correct.

(1) You have absolutely disproved the null hypothesis (i.e., there is no difference between the population means).

(2) You have found the probability of the null hypothesis being true.

(3) You have absolutely proved your experimental hypothesis (that there is a difference between the population means).

(4) You can deduce the probability of the experimental hypothesis being true.

(5) You know, if you decide to reject the null hypothesis, the probability that you are making the wrong decision.

(6) You have a reliable experimental finding in the sense that if, hypothetically, the experiment were repeated a great number of times, you would obtain a significant result on 99% of occasions.

To know the answer, check: Statistical Rituals: The Replication Delusion and How We Got There

A review of studies with 839 academic psychologists and 991 students shows that the replication delusion existed among 20% of the faculty teaching statistics in psychology, 39% of the professors and lecturers, and 66% of the students. Two further beliefs, the illusion of certainty (e.g., that statistical significance proves that an effect exists) and Bayesian wishful thinking (e.g., that the probability of the alternative hypothesis being true is 1 – p), also make successful replication appear to be certain or almost certain, respectively. In every study reviewed, the majority of researchers (56%–97%) exhibited one or more of these delusions. Psychology departments need to begin teaching statistical thinking, not rituals, and journal editors should no longer accept manuscripts that report results as “significant” or “not significant.”

88 of 91

Causes structurelles

89 of 91

Référence en français

En français

J’ai trouvé (trop) peu de références en français sur ce sujet mais si vous en connaissez plus, n'hésitez pas à m’en faire part.

Sceptom

AFIS

Daryl Bem et l’astuce des tests multiples
Comment améliorer la reproductibilité de la recherche scientifique ?
Les sept péchés mortels du système de recherche (une fiche de lecture de l’excellent livre de Chris Chambers)

Youtube (Merci à Richard Monvoisin pour ces références)

90 of 91

References

En anglais

Il y a par contre beaucoup trop de références en anglais donc je me contente de mettre certaines références qui pourraient intéresser un public plutôt sceptique. N'hésitez pas à me contacter pour en savoir plus.

Youtube

Skeptical inquirer

Others

91 of 91

Podcasts

Books