INA / MIP
R · IRaMuTeQ
5 328 notices
OVNI et représentations médiatiques
Séminaire MIP (Explorations numériques des archives INA) en collaboration avec l'EUR ArTec.
Analyse de 5 328 notices sur les OVNI et les extraterrestres dans les médias français
depuis 1967, par IRaMuTeQ et classification de Reinert.
R
IRaMuTeQ
Archives INA
MIP ArTec
Textométrie
Classification Reinert
Corpus multimédia
↗ Voir sur GitHub
Contexte institutionnel
Séminaire MIP — Explorations numériques des archives de l'INA,
organisé par les M2 CRDM, DES et DEFI en collaboration avec l'EUR ArTec (Université Paris Nanterre).
Sujet n°11 : "La vie, entre controverses et défis".
Encadrant·e·s : Camille Claverie et Marta Severo.
Projet collectif en groupe de 4 étudiants, travail en sprint sur corpus INA.
5 328
Notices
corpus initial
Questions de recherche
De quelle manière la représentation des OVNI et des extraterrestres diffère-t-elle selon les médias, et a-t-elle un impact sur la perception publique ?
Sur quels critères les médias se différencient-ils dans leur représentation du sujet ?
Le sujet des OVNI est-il abordé de manière crédule ou sceptique selon les différents médias ?
De quelle manière les supports médiatiques ont-ils influencé la perception publique des OVNI et extraterrestres ?
Corpus et sources
Journaux télévisés
Archives INA — JT nationaux depuis 1967. Traitement des résumés et titres.
Magazines
Presse magazine — notices descriptives, analyse des champs textuels.
Documentaires
Documentaires TV — descriptions longues, angle plus factuel ou sensationnaliste.
Fictions + Web
Contenus fictionnels et sources web. Titres et descriptions analysés séparément.
Méthode IRaMuTeQ
Le corpus INA a été converti au format IRaMuTeQ via un script R personnalisé
(fonction dataframe2iramuteq()),
avec une liste de mots à supprimer adaptée aux spécificités du corpus
(mots en langues étrangères, URLs, émojis, noms propres récurrents non informatifs).
La classification de Reinert (méthode des classes de discours)
regroupe les formes lexicales par leur indépendance statistique au test du chi2.
Deux analyses distinctes ont été menées : sur les résumés et
sur les titres web.
Résultats & conclusions
Similitude des sujets traités entre médias traditionnels et web, contrairement aux hypothèses initiales de différenciation forte.
Les classes de discours IRaMuTeQ révèlent des registres récurrents : scientifique/institutionnel, populaire/complot, dramatique/fiction.
Impossibilité de confirmer les hypothèses de recherche sur l'influence sur la perception publique — le corpus n'intègre pas de données d'audience ou d'engagement.
Piste identifiée : une analyse factorielle pour déterminer les variables corrélées entre types de médias et registres de traitement.
Biais identifiés et limites
Résumés qui parlent d'autres programmes (contamination du corpus)
Classes génériques peu discriminantes dans certaines partitions
Mots étrangers, emojis et sigles qui passent à travers le nettoyage IRaMuTeQ
Corpus biaisé vers les médias audiovisuels — sous-représentation de la presse écrite
Compétences mobilisées
Ce projet a mobilisé le travail sur corpus de données réelles
(archives institutionnelles INA), des méthodes à la fois qualitatives et quantitatives,
et a été réalisé en mode sprint dans un délai court en groupe de 4.
Le script R de conversion IRaMuTeQ et la liste de nettoyage ont été construits
entièrement par le groupe à partir des données brutes.