R Data Science OpenPsychometrics

Profil des croyants
aux théories du complot

Analyse statistique avancée d'un dataset OpenPsychometrics sur les croyances aux théories du complot. Qui croit aux théories sur les extraterrestres, et pourquoi ? Réponses par ACP, ACM, clustering et random forest.

R FactoMineR factoextra PCA / MCA HCPC Random Forest dagitty OpenPsychometrics
↗ Voir sur GitHub
2154+
Répondants
analysés
15
Questions sur
les croyances
10
Traits de
personnalité TIPI
3
Clusters
identifiés
Projet réalisé en binôme avec Amina Kihal dans le cadre du cours Analyse de données avancée, M2 Information-Communication, Paris Nanterre. Source des données : OpenPsychometrics — dataset "Conspiracy Beliefs Scale" (données collectées librement sur le web, format CSV).

Contexte & problématique

Le dataset OpenPsychometrics contient les réponses de milliers de participants à 15 questions sur les théories du complot (Q1-Q15), 10 traits de personnalité TIPI, et des variables socio-démographiques (genre, éducation, religion, lieu de vie...).

Une ACP exploratoire initiale sur les 15 questions révèle que les questions Q3, Q8 et Q13 — relatives aux extraterrestres — forment un groupe cohérent et distinct. L'analyse se concentre donc sur ce sous-ensemble, avec la construction d'un score alien agrégé.

Hypothèses testées

H1 — Personnalité
Les individus croyant aux théories sur les extraterrestres présentent des traits de personnalité TIPI distincts.
✅ Confirmée — "Disorganized, careless" corrélé positivement. "Reserved, quiet" corrélé négativement.
H2 — Facteurs socio-démographiques
Des facteurs socio-démographiques spécifiques caractérisent les croyants aux théories alien.
✅ Confirmée — Genre féminin, milieu rural, niveau lycée, profil religieux associés au score alien élevé.
H3 — Clustering
Les croyants peuvent être regroupés en clusters distincts selon leurs caractéristiques.
✅ Confirmée — 3 clusters identifiés via HCPC, fortement structurés par la variable "urban".

Pipeline d'analyse

Import CSV
ACP exploratoire
Score alien
ACM variables
HCPC clustering
Random Forest

Méthodes statistiques

ACP (Analyse en Composantes Principales)
Exploration initiale des 15 questions. Identification des Q3/Q8/Q13 comme groupe cohérent (théories alien). Détection d'individus atypiques (ind. 2154, 756, 257).
ACM (Analyse des Correspondances Multiples)
Corrélation du score alien avec les variables catégorielles une par une : genre, éducation, religion, lieu de vie, latéralité. Score alien utilisé comme variable quantitative supplémentaire.
HCPC (Clustering hiérarchique)
3 clusters identifiés. Cluster 1 : zones urbaines et suburbaines. Cluster 2 : zones rurales (100% rural, v-test infini). La variable "urban" structure fortement la partition.
Random Forest + Arbre de décision
Modélisation prédictive du score alien. Split 80/20 train/test. Variables les plus importantes selon varImpPlot. Deux arbres : un sur l'éducation seule, un sur la religion seule.

Résultats clés

Le score alien (moyenne des questions Q3/Q8/Q13, normalisée sur 5) révèle une population distincte de croyants.
Les personnes s'identifiant comme femmes sont plus corrélées au score alien que les hommes, toutes choses égales par ailleurs.
Le niveau d'éducation "lycée" (high school) est associé à un score alien plus élevé. A contrario, les diplômés universitaires et de graduate degree croient moins aux théories alien.
Être religieux est positivement corrélé au score alien — confirmé par l'ACM et l'arbre de décision.
Le trait de personnalité TIPI "Disorganized, careless" est le plus fortement corrélé positivement, tandis que "Reserved, quiet" est corrélé négativement.
Les personnes ambidextres ou gauchères ont tendance à scorer plus haut que les droitières.
Le DAG (graphe acyclique dirigé) modélise les dépendances causales supposées entre variables via le package dagitty.

Limites & discussion

Les résultats sont associatifs, non causaux. La construction du score alien (moyenne simple des 3 questions) est une simplification qui pourrait être affinée par une pondération factorielle.

Le DAG proposé via dagitty repose sur des hypothèses théoriques a priori et non sur des tests d'indépendance conditionnelle validés statistiquement sur ce dataset.

← Retour
Tous les projets
Projet suivant →
INA / MIP — OVNI et médias