R
Data Science
OpenPsychometrics
Profil des croyants
aux théories du complot
Analyse statistique avancée d'un dataset OpenPsychometrics sur les croyances
aux théories du complot. Qui croit aux théories sur les extraterrestres,
et pourquoi ? Réponses par ACP, ACM, clustering et random forest.
R
FactoMineR
factoextra
PCA / MCA
HCPC
Random Forest
dagitty
OpenPsychometrics
↗ Voir sur GitHub
15
Questions sur
les croyances
10
Traits de
personnalité TIPI
Projet réalisé en binôme avec Amina Kihal dans le cadre du cours
Analyse de données avancée, M2 Information-Communication, Paris Nanterre.
Source des données : OpenPsychometrics — dataset "Conspiracy Beliefs Scale"
(données collectées librement sur le web, format CSV).
Contexte & problématique
Le dataset OpenPsychometrics contient les réponses de milliers de participants
à 15 questions sur les théories du complot (Q1-Q15), 10 traits de personnalité TIPI,
et des variables socio-démographiques (genre, éducation, religion, lieu de vie...).
Une ACP exploratoire initiale sur les 15 questions révèle que
les questions Q3, Q8 et Q13 — relatives aux extraterrestres — forment un groupe
cohérent et distinct. L'analyse se concentre donc sur ce sous-ensemble,
avec la construction d'un score alien agrégé.
Hypothèses testées
H1 — Personnalité
Les individus croyant aux théories sur les extraterrestres présentent des traits de personnalité TIPI distincts.
✅ Confirmée — "Disorganized, careless" corrélé positivement. "Reserved, quiet" corrélé négativement.
H2 — Facteurs socio-démographiques
Des facteurs socio-démographiques spécifiques caractérisent les croyants aux théories alien.
✅ Confirmée — Genre féminin, milieu rural, niveau lycée, profil religieux associés au score alien élevé.
H3 — Clustering
Les croyants peuvent être regroupés en clusters distincts selon leurs caractéristiques.
✅ Confirmée — 3 clusters identifiés via HCPC, fortement structurés par la variable "urban".
Pipeline d'analyse
Import CSV
→
ACP exploratoire
→
Score alien
→
ACM variables
→
HCPC clustering
→
Random Forest
Méthodes statistiques
ACP (Analyse en Composantes Principales)
Exploration initiale des 15 questions. Identification des Q3/Q8/Q13 comme groupe cohérent (théories alien). Détection d'individus atypiques (ind. 2154, 756, 257).
ACM (Analyse des Correspondances Multiples)
Corrélation du score alien avec les variables catégorielles une par une : genre, éducation, religion, lieu de vie, latéralité. Score alien utilisé comme variable quantitative supplémentaire.
HCPC (Clustering hiérarchique)
3 clusters identifiés. Cluster 1 : zones urbaines et suburbaines. Cluster 2 : zones rurales (100% rural, v-test infini). La variable "urban" structure fortement la partition.
Random Forest + Arbre de décision
Modélisation prédictive du score alien. Split 80/20 train/test. Variables les plus importantes selon varImpPlot. Deux arbres : un sur l'éducation seule, un sur la religion seule.
Résultats clés
Le score alien (moyenne des questions Q3/Q8/Q13, normalisée sur 5) révèle une population distincte de croyants.
Les personnes s'identifiant comme femmes sont plus corrélées au score alien que les hommes, toutes choses égales par ailleurs.
Le niveau d'éducation "lycée" (high school) est associé à un score alien plus élevé. A contrario, les diplômés universitaires et de graduate degree croient moins aux théories alien.
Être religieux est positivement corrélé au score alien — confirmé par l'ACM et l'arbre de décision.
Le trait de personnalité TIPI "Disorganized, careless" est le plus fortement corrélé positivement, tandis que "Reserved, quiet" est corrélé négativement.
Les personnes ambidextres ou gauchères ont tendance à scorer plus haut que les droitières.
Le DAG (graphe acyclique dirigé) modélise les dépendances causales supposées entre variables via le package dagitty.
Limites & discussion
Les résultats sont associatifs, non causaux. La construction du score alien
(moyenne simple des 3 questions) est une simplification qui pourrait être affinée
par une pondération factorielle.
Le DAG proposé via dagitty repose sur des hypothèses théoriques a priori et non sur
des tests d'indépendance conditionnelle validés statistiquement sur ce dataset.