INA / MIP R · IRaMuTeQ 5 328 notices

OVNI et représentations médiatiques

Séminaire MIP (Explorations numériques des archives INA) en collaboration avec l'EUR ArTec. Analyse de 5 328 notices sur les OVNI et les extraterrestres dans les médias français depuis 1967, par IRaMuTeQ et classification de Reinert.

R IRaMuTeQ Archives INA MIP ArTec Textométrie Classification Reinert Corpus multimédia

↗ Voir sur GitHub

Contexte institutionnel

Séminaire MIP — Explorations numériques des archives de l'INA, organisé par les M2 CRDM, DES et DEFI en collaboration avec l'EUR ArTec (Université Paris Nanterre). Sujet n°11 : "La vie, entre controverses et défis". Encadrant·e·s : Camille Claverie et Marta Severo. Projet collectif en groupe de 4 étudiants, travail en sprint sur corpus INA.

5 328

Notices
corpus initial

990

Notices après
filtrage

1967

Borne
chronologique

Types de
médias

Questions de recherche

De quelle manière la représentation des OVNI et des extraterrestres diffère-t-elle selon les médias, et a-t-elle un impact sur la perception publique ?

Sur quels critères les médias se différencient-ils dans leur représentation du sujet ?

Le sujet des OVNI est-il abordé de manière crédule ou sceptique selon les différents médias ?

De quelle manière les supports médiatiques ont-ils influencé la perception publique des OVNI et extraterrestres ?

Corpus et sources

Journaux télévisés

Archives INA — JT nationaux depuis 1967. Traitement des résumés et titres.

Magazines

Presse magazine — notices descriptives, analyse des champs textuels.

Documentaires

Documentaires TV — descriptions longues, angle plus factuel ou sensationnaliste.

Fictions + Web

Contenus fictionnels et sources web. Titres et descriptions analysés séparément.

Méthode IRaMuTeQ

Le corpus INA a été converti au format IRaMuTeQ via un script R personnalisé (fonction dataframe2iramuteq()), avec une liste de mots à supprimer adaptée aux spécificités du corpus (mots en langues étrangères, URLs, émojis, noms propres récurrents non informatifs).

La classification de Reinert (méthode des classes de discours) regroupe les formes lexicales par leur indépendance statistique au test du chi2. Deux analyses distinctes ont été menées : sur les résumés et sur les titres web.

Résultats & conclusions

Similitude des sujets traités entre médias traditionnels et web, contrairement aux hypothèses initiales de différenciation forte.

Les classes de discours IRaMuTeQ révèlent des registres récurrents : scientifique/institutionnel, populaire/complot, dramatique/fiction.

Impossibilité de confirmer les hypothèses de recherche sur l'influence sur la perception publique — le corpus n'intègre pas de données d'audience ou d'engagement.

Piste identifiée : une analyse factorielle pour déterminer les variables corrélées entre types de médias et registres de traitement.

Biais identifiés et limites

Résumés qui parlent d'autres programmes (contamination du corpus)

Classes génériques peu discriminantes dans certaines partitions

Mots étrangers, emojis et sigles qui passent à travers le nettoyage IRaMuTeQ

Corpus biaisé vers les médias audiovisuels — sous-représentation de la presse écrite

Compétences mobilisées

Ce projet a mobilisé le travail sur corpus de données réelles (archives institutionnelles INA), des méthodes à la fois qualitatives et quantitatives, et a été réalisé en mode sprint dans un délai court en groupe de 4. Le script R de conversion IRaMuTeQ et la liste de nettoyage ont été construits entièrement par le groupe à partir des données brutes.