R Data Science OpenPsychometrics

Profil des croyants
aux théories du complot

Analyse statistique avancée d'un dataset OpenPsychometrics sur les croyances aux théories du complot. Qui croit aux théories sur les extraterrestres, et pourquoi ? Réponses par ACP, ACM, clustering et random forest.

R FactoMineR factoextra PCA / MCA HCPC Random Forest dagitty OpenPsychometrics

↗ Voir sur GitHub

2154+

Répondants
analysés

Questions sur
les croyances

Traits de
personnalité TIPI

Clusters
identifiés

Projet réalisé en binôme avec Amina Kihal dans le cadre du cours Analyse de données avancée, M2 Information-Communication, Paris Nanterre. Source des données : OpenPsychometrics — dataset "Conspiracy Beliefs Scale" (données collectées librement sur le web, format CSV).

Contexte & problématique

Le dataset OpenPsychometrics contient les réponses de milliers de participants à 15 questions sur les théories du complot (Q1-Q15), 10 traits de personnalité TIPI, et des variables socio-démographiques (genre, éducation, religion, lieu de vie...).

Une ACP exploratoire initiale sur les 15 questions révèle que les questions Q3, Q8 et Q13 — relatives aux extraterrestres — forment un groupe cohérent et distinct. L'analyse se concentre donc sur ce sous-ensemble, avec la construction d'un score alien agrégé.

Hypothèses testées

H1 — Personnalité

Les individus croyant aux théories sur les extraterrestres présentent des traits de personnalité TIPI distincts.

✅ Confirmée — "Disorganized, careless" corrélé positivement. "Reserved, quiet" corrélé négativement.

H2 — Facteurs socio-démographiques

Des facteurs socio-démographiques spécifiques caractérisent les croyants aux théories alien.

✅ Confirmée — Genre féminin, milieu rural, niveau lycée, profil religieux associés au score alien élevé.

H3 — Clustering

Les croyants peuvent être regroupés en clusters distincts selon leurs caractéristiques.

✅ Confirmée — 3 clusters identifiés via HCPC, fortement structurés par la variable "urban".

Pipeline d'analyse

Import CSV

→

ACP exploratoire

→

Score alien

→

ACM variables

→

HCPC clustering

→

Random Forest

Méthodes statistiques

ACP (Analyse en Composantes Principales)

Exploration initiale des 15 questions. Identification des Q3/Q8/Q13 comme groupe cohérent (théories alien). Détection d'individus atypiques (ind. 2154, 756, 257).

ACM (Analyse des Correspondances Multiples)

Corrélation du score alien avec les variables catégorielles une par une : genre, éducation, religion, lieu de vie, latéralité. Score alien utilisé comme variable quantitative supplémentaire.

HCPC (Clustering hiérarchique)

3 clusters identifiés. Cluster 1 : zones urbaines et suburbaines. Cluster 2 : zones rurales (100% rural, v-test infini). La variable "urban" structure fortement la partition.

Random Forest + Arbre de décision

Modélisation prédictive du score alien. Split 80/20 train/test. Variables les plus importantes selon varImpPlot. Deux arbres : un sur l'éducation seule, un sur la religion seule.

Résultats clés

Le score alien (moyenne des questions Q3/Q8/Q13, normalisée sur 5) révèle une population distincte de croyants.

Les personnes s'identifiant comme femmes sont plus corrélées au score alien que les hommes, toutes choses égales par ailleurs.

Le niveau d'éducation "lycée" (high school) est associé à un score alien plus élevé. A contrario, les diplômés universitaires et de graduate degree croient moins aux théories alien.

Être religieux est positivement corrélé au score alien — confirmé par l'ACM et l'arbre de décision.

Le trait de personnalité TIPI "Disorganized, careless" est le plus fortement corrélé positivement, tandis que "Reserved, quiet" est corrélé négativement.

Les personnes ambidextres ou gauchères ont tendance à scorer plus haut que les droitières.

Le DAG (graphe acyclique dirigé) modélise les dépendances causales supposées entre variables via le package dagitty.

Limites & discussion

Les résultats sont associatifs, non causaux. La construction du score alien (moyenne simple des 3 questions) est une simplification qui pourrait être affinée par une pondération factorielle.

Le DAG proposé via dagitty repose sur des hypothèses théoriques a priori et non sur des tests d'indépendance conditionnelle validés statistiquement sur ce dataset.

← Retour

Tous les projets

Projet suivant →

INA / MIP — OVNI et médias