Vigie Citoyenne
AccueilPrésidentielle 2027
ThèmesStatistiques par thème empiriqueMarqueurs lexicauxTermes idéologiquement chargésSpectre médiatiqueOrientation gauche↔droite des sources↑ En tendanceMarqueurs et entités en hausse
MédiasPartis Politiques
Toutes les entitésPersonnalités, lieux et institutionsPersonnalitésPersonnes physiques citées dans les médiasLieuxPays, villes, régions et stadesInstitutionsMédias, ministères, associations, partis
ComparateurExplorerAnalysesArticles
Vigie Citoyenne

Projet citoyen d'analyse du pluralisme médiatique en France. Données issues de sources publiques, méthodologie transparente.

Navigation

  • Accueil
  • Articles
  • Comparateur

Ressources

  • Méthodologie
  • Confidentialité

© 2026 Vigie Citoyenne. Tous droits réservés.

Méthodologie

Transparence totale sur la collecte, l'analyse et la visualisation des données médiatiques.

Chiffres en temps réel

Mis à jour toutes les heures

8 264

Articles analysés

59%

Avec thèmes

30%

Avec marqueurs

0.28

Score qualité moy.

Sources titre-seul (20)

score 0.073

analyse sur 5–15 mots

Contenu complet (18)

score 0.612

Extraction NLP optimale

Durée moy. d'analyse : 0.0s par article · p95 : 0.2s

1. Collecte des données

Vigie Citoyenne ingère automatiquement les flux RSS de sources médiatiques françaises. L'ingestion est intégrée à l'application (endpoint `/api/ingest`, déployé sur Google Cloud Run) et déclenchée par une tâche planifiée.

Données collectées : titre, description, auteur, date de publication et lien. Seules les métadonnées publiquement disponibles dans les flux RSS sont indexées — aucun scraping de contenu payant.

Fréquence : toutes les 30 minutes. Chaque article est dédupliqué par son URL canonique avant d'être mis en file d'attente. Pour les sources ne fournissant que le titre, une description est parfois récupérée depuis les métadonnées `<head>` publiques de la page.

2. Analyse lexicale déterministe

L'analyse est déterministe et reproductible : aucune IA générative (LLM) n'intervient. Un même article produit toujours le même résultat, ce qui garantit la transparence et l'auditabilité.

Un seul passage spaCy (modèle `fr_core_news_lg`) sur chaque article fournit simultanément quatre signaux :

a) Entités nommées — personnes, organisations et lieux (PER / ORG / LOC), normalisés (« Prénom Nom », sigles institutionnels).

b) Marqueurs idéologiques — détectés par PhraseMatcher (sur le lemme et la forme minuscule) à partir d'un lexique curé, stocké en base de données.

c) Thèmes — classés à partir des lemmes du document (voir section 4).

d) Candidats de découverte — les groupes nominaux hors lexique sont collectés pour enrichir le lexique au fil du temps.

Des questions sur la méthodologie ? Contactez-nous.

Le traitement prend environ 30 millisecondes par article. Le worker tourne en local ; aucune donnée n'est envoyée à un service tiers.

3. Le lexique idéologique (source de vérité)

Un marqueur lexicalest un mot ou une expression (souvent une tournure journalistique de plusieurs mots) dont le choix — plutôt qu'un synonyme neutre — révèle une prise de position. Chaque marqueur porte deux étiquettes : un registre idéologique (lui-même associé à un thème canonique) et une orientation — droite, gauche ou neutre. C'est cette orientation, agrégée par source, qui permet de situer le vocabulaire d'un média sur un axe de lecture (ex. « violences policières » penche à gauche, « ensauvagement » à droite, pour un même sujet). Le lexique est stocké en base — il peut évoluer sans re-traiter le corpus.

RegistreThème dérivéExemples
SécuritaireSécuritélaxisme, ensauvagement, impunité
IdentitaireImmigrationgrand remplacement, islamisation, communautarisme
JudiciaireJusticerécidive, mise en examen, état de droit
ÉconomiqueÉconomieassistanat, néolibéralisme, austérité
ÉcologiqueEnvironnementeffondrement, transition, écoanxiété
PolitiquePolitiquemacronie, populisme, souveraineté
SocialSociétéwokisme, inégalités, précarité

Garde-fous :une liste noire (banlist) de mots et d'entités, gérée par les administrateurs, exclut les faux positifs. Les marqueurs trop rares (≤ 1 occurrence sur 7 jours) sont purgés automatiquement.

Comment le lexique s'enrichit (curation gouvernée)

Le lexique n'est pas figé. Le worker collecte les expressions hors lexique rencontrées dans les articles ; ces candidats sont triés en cascade, du filtre le moins coûteux au plus fiable :

  1. 1. Nettoyage déterministe — rejet automatique du bruit évident (chiffres, dates, lieux, termes apparus une seule fois).
  2. 2. Pré-filtre sémantique — un modèle d'embeddings mesure la proximité de chaque candidat avec le lexique existant et écarte les termes manifestement hors-sujet.
  3. 3. Classification assistée — un modèle de langage local propose un registre et une orientation. Il classe des candidats existants, il n'invente jamais de marqueur.
  4. 4. Validation humaine — un administrateur valide ou rejette chaque candidat avant son entrée dans le lexique.

Important :aucun terme n'entre dans le lexique sans validation humaine. Les outils d'IA ne font que dégrossir un grand volume de candidats — la décision finale est humaine, explicite et traçable. C'est ce qui distingue cette démarche d'une étiquetage automatique opaque.

4. Classification thématique

Le thème d'un article est déduit de deux signaux combinés, sans aucune génération de texte :

1. Le registre des marqueurs détectés — par exemple, un article riche en marqueurs « sécuritaires » penche vers le thème Sécurité (voir le tableau de la section 3).

2. Des ancres lexicales — des listes de lemmes discriminants par thème (ex. « asile », « frontière », « OQTF » → Immigration). Elles couvrent notamment les thèmes qu'aucun registre ne porte directement (Terrorisme, Religion, International).

La liste des thèmes est fermée : un article ne peut être rangé que dans l'une des 10 catégories canoniques (voir section 7). Aucun thème n'est inventé.

5. Visualisation et comparaison

Les données extraites alimentent plusieurs visualisations.

Matrice de l'Agenda — Heatmap montrant quels médias couvrent quels thèmes et dans quelles proportions.

Radar Lexical — Les registres idéologiques par source, pour détecter les vocabulaires orientés.

Personnalités citées — Classement des figures publiques par nombre d'occurrences et par média.

Comparateur — Analyse côte-à-côte du lexique employé par deux médias différents sur un même thème ou période.

6. Principes et limites

Vigie Citoyenne ne juge pas — elle expose. L'objectif n'est pas de qualifier un média de « bon » ou « mauvais », mais de fournir des données objectives pour que chacun puisse former son propre jugement.

Limites connues : la détection dépend de la couverture du lexique — un marqueur absent du lexique n'est pas comptabilisé (d'où la voie de découverte continue). La liste de 10 thèmes est volontairement réduite aux sujets les plus pertinents éditorialement. Le corpus est limité aux sources configurées et aux articles disponibles dans les flux RSS publics.

Limitation du corpus : la majorité des sources (CNews, Europe 1, Valeurs Actuelles, etc.) ne fournissent que le titre dans leur flux RSS — sans corps d'article. L'analyse se fait alors sur 5 à 15 mots, ce qui réduit la précision. Les sources avec contenu complet (Mediapart, France Info) obtiennent un score qualité nettement supérieur.

Transparence : la méthode est entièrement déterministe et le lexique est curé de façon explicite — chaque classification est traçable.

7. Les 10 thèmes canoniques

Un article ne peut être classé que dans l'une de ces 10 catégories strictes, sélectionnées pour leur pertinence éditoriale et politique. Les thèmes neutres (sport, culture, météo…) sont volontairement exclus.

Immigration

Flux migratoires, asile, sans-papiers

Sécurité

Délinquance, police, ordre public

Justice

Magistrature, peines, procès

Terrorisme

Islamisme, attentats, radicalisation

Religion

Laïcité, islam, séparatisme

Politique

Élections, partis, institutions

Économie

Fiscalité, chômage, retraites

Société

Inégalités, éducation, identité

Environnement

Climat, nucléaire, écologie

International

Géopolitique, guerre, diplomatie