La base de données de l'INSEE : Définition et enjeux

Pour produire une statistique de qualité, il est essentiel de savoir où chercher les informations. Les données susceptibles d’être utilisées par les statisticiens présentent des avantages et des inconvénients, car aucune d’entre elles n’est parfaitement ciblée ou exhaustive. Pour passer d’une donnée individuelle brute à un indicateur agrégé, il y a beaucoup de travail à fournir. C’est le cœur du métier des experts en statistiques de l’Insee.

Le statisticien public utilise une matière première originale : les données. Ce processus d’observation implique des choix qui n’ont rien de neutre. L’Insee, dont le rôle consiste à fournir une réponse (sous la forme de statistiques) à une question précise, commence par identifier la ou les sources permettant de construire cette statistique avec justesse et précision. Pour choisir les données qu’ils vont mobiliser, les statisticiens arbitrent selon la qualité des sources disponibles, mais aussi selon des considérations de budget, de temps nécessaire, de contrainte de délais, de type d’information souhaitée, de niveau de détail souhaité pour les statistiques à publier (Angel, 2023). Par exemple, la réalisation des enquêtes par sondage présente un coût, à la fois pour l’Insee qui doit mobiliser ses agents, mais aussi pour les ménages ou les entreprises enquêtés qui doivent dégager du temps pour répondre aux questions.

La donnée doit être facilement trouvée et comprise. L’Insee s’efforce de suivre les grands principes du Code de bonnes pratiques de la statistique européenne, pierre angulaire du cadre qualité commun aux instituts statistiques européens.

Les types de sources de données utilisées par l'INSEE

L’Insee utilise différents types de sources pour construire ses statistiques, en les combinant au mieux en fonction de leurs avantages et inconvénients. Ces pratiques ne sont pas propres à l’Insee ; les services statistiques de ministères utilisent aussi des sources diverses, notamment des enquêtes, des sources administratives ou des données collectées auprès d’entreprises ou d’opérateurs publics ; la part de ces différentes sources varie d’un ministère à l’autre, en fonction des questions posées, ou des données disponibles, avec un enjeu partagé : assurer la qualité de l’information produite. C’est le cas par exemple des statistiques produites par le service statistique ministériel de la sécurité intérieure, qui reposent sur deux piliers qui se complètent et s’enrichissent : les données administratives (infractions enregistrées par les services de gendarmerie et de police…) et les résultats des enquêtes de « victimation » auprès de la population.

Enquêtes par sondage

L’Insee réalise des enquêtes en interrogeant un échantillon représentatif de personnes ou d’entreprises sélectionnées au hasard (Ardilly et alii, 2022). L’enquête Emploi figure parmi les enquêtes les plus connues de l’Insee. Elle permet notamment de calculer le taux de chômage selon la définition du Bureau International du Travail (BIT), pour laquelle on a besoin de savoir si la personne est disponible pour occuper un emploi et si elle fait des démarches pour trouver un emploi (informations indisponibles dans des données administratives - figure 1). Menée sur un gros échantillon (environ 90 000 personnes de plus de 15 ans interrogées chaque trimestre), cette enquête permet à l’Insee de suivre chaque trimestre différents indicateurs du marché du travail en France.

Il n’est pas nécessaire d’interroger chaque logement : un échantillon tiré au hasard suffit. Pour disposer de résultats représentatifs, il est important que le maximum de personnes sélectionnées réponde à l’enquête. Pour la première visite les personnes sont contactées par un enquêteur ou une enquêtrice de l’Insee, tenus au secret professionnel, en vue d’une interrogation en face-à-face.

Un recueil plus précis pour les sujets complexes ou qui font appel à la mémoire. On ne dispose pas toujours du concept que l’on souhaite mesurer.

Sources administratives

Parmi ces données, conformément aux principes de nécessité et de minimisation, seules celles qui sont utiles à l’élaboration de statistiques peuvent être transmises à l’Insee. Par comparaison avec les enquêtes par sondage, les sources administratives présentent quatre avantages. En France, un dispositif juridique encadre rigoureusement la mobilisation et la protection des données utilisées à des fins de statistique par l’Insee. Le recours aux sources administratives est possible grâce à l’introduction en 1986 de l’article 7 bis de la loi du 7 juin 1951 modifiée sur l’obligation, la coordination et le secret en matière de statistiques. Depuis 2004, la transmission de données administratives est obligatoire lorsqu’elle émane d’une demande du ministre chargé de l’économie établie après avis du Conseil national de l’information statistique (Cnis).

Parmi les statistiques employant des données d’origine administrative, on retrouve les statistiques issues des bulletins d’état civil (naissances, décès), des statistiques concernant les résultats des entreprises (données fiscales, chiffres d’affaires via les déclarations de TVA), des données sur les revenus ou sur l’emploi salarié (cf. La DSN (pour Déclaration Sociale Nominative) est une formalité déclarative que doivent accomplir les entreprises employant des salariés, pour les administrations sociales et fiscales. L’objectif de cette déclaration est double : satisfaire le plus grand nombre possible d’obligations déclaratives existant dans le champ social, attribuer des droits aux salariés. Elle est par ailleurs mobilisée à des fins statistiques.

Ainsi, pour les salariés, l’Insee dispose de la nature des emplois (CDD, CDI, intérim, etc.), leur quotité de travail en cas de temps partiel, leur catégorie socio-professionnelle, leur lieu de travail, leurs autres emplois en cas de multi-activité ou encore leurs rémunérations (figure 2). L’institut dispose également d’informations concernant l’ancienneté du contrat ou des événements intervenant sur le contrat (début, rupture, interruption…).

Données massives ("Big Data")

L’apparition de données massives (« big data ») issues pour l’essentiel d’entreprises privées ou publiques a entraîné des réflexions stratégiques et techniques de la part de l’Insee et des différents instituts statistiques nationaux et internationaux. L’Insee a mené des recherches pour évaluer le potentiel de certaines sources ainsi qu’une concertation sous l’égide du Cnis, avec les principaux détenteurs de sources. L’objectif ? À ce jour, une seule statistique produite régulièrement par l’Insee repose en partie sur des données massives d’origine privée. Il s’agit de l’indice des prix à la consommation. Depuis 2016, l’article 3 bis de la loi du 7 juin 1951 permet à la statistique publique d’avoir accès à des données présentes dans des bases de données détenues par des personnes morales de droit privé (entreprises privées, sociétés civiles, groupements d’intérêt économique, associations) pour des usages statistiques exclusivement dans le cadre d’enquêtes, et ce sous des conditions très strictes. L’indice des prix à la consommation (IPC) constitue un exemple éclairant d’utilisation de cette méthode.

Tutoriel - L'Observatoire des indices INSEE

Formats de données

La statistique a recours, dans de nombreux domaines, aux micro-données, que ce soient des données d’enquête ou encore des données de registres. Au travers d’un modèle de données, qui conditionne le choix du format, la donnée doit être structurée. Selon le contexte de l’utilisation de la donnée par le métier, un grand nombre d’utilisateurs peuvent y avoir accès.

La modélisation de la donnée répond à un besoin de définir un langage commun, et être codifiée selon des conventions établies et partagées (Warnier, 1974). La donnée en cohérence avec les intentions des producteurs de cette donnée, doit être en mesure de la lire et de la comprendre sous une forme codifiée. De sa transmissibilité s’est très rapidement posée. La statistique a recours, dans de nombreux domaines, aux micro-données, que ce soient des données d’enquête ou encore des données de registres.

Une fois la collecte réalisée, un ensemble de formats pourra être mobilisé. La donnée transport de l’information, doit être structurée au travers d’un modèle de données, qui conditionne le choix du format. La donnée doit être accessible, très riche. Plus sa valeur ipso facto est importante, d’autant qu’il existe dans le monde de multiples sources de données, parfaitement ouvertes (open data), ouvertes sous condition (données accessibles aux chercheurs), via des conventions, ou bien payantes sous diverses formes.

Différents acteurs d’un système d’information peuvent utiliser ces informations. Plusieurs formats peuvent correspondre à un contexte donné. La statistique a recours, dans de nombreux domaines, aux micro-données, que ce soient des données d’enquête ou encore des données de registres. Chaque institut a ses spécificités propres à ses activités. Les sources de données sont diverses.

La donnée doit satisfaire les contraintes de volume et de calcul. Des formats compacts en termes d’espace vont être privilégiés. Le format tabulaire est un format classique pour la statistique. Il associe de manière canonique aux observations, et les colonnes aux variables, comme pour les systèmes de gestion de base de données (ou SGBD, encadré 1). C’est un formalisme informatique qui dépasse le champ de la statistique, pour traiter des volumes significatifs de données.

Il existe un large spectre de modèles de données. Des SGBD telles que Oracle ou MySQL, permettent le traitement de ces données. La donnée textuelle peut être aussi bien interprétés par une machine que lus par un humain. Les formats tabulaires comme le comma-separated values ou csv (figure 1b)) permettent aisément de compacter la donnée sous un format tabulaire.

Le format CSV présente cependant des inconvénients, avec en particulier la contrainte de l’adoption d’un délimiteur absent des données qu’il structure. Ces formats sont adaptés pour mettre à disposition des données. En revanche, le volume de données sollicitées est nécessairement limité. Les données ne se présentent pas toujours sous un format tabulaire. Le format JSON par exemple (figure 1d) est un format minimaliste qui introduit ce type de flexibilité.

Les métadonnées décrivent, et créent des liens entre les différentes sources de données. Les métadonnées permettent de relier la métadonnée avec la donnée de manière naturelle. L’accès à la donnée facilite sa mobilisation.

Le format Parquet est particulièrement adapté pour gérer de la donnée volumineuse et distante, sans la dupliquer (Ouvrir dans un nouvel ongletMauvière, 2022). Il existe de nombreuses représentations de la donnée, pas nécessairement tabulaires. Les données ne se présentent pas toujours sous un format tabulaire. Il existe de nombreuses représentations de la donnée, pas nécessairement tabulaires.

Questions à se poser pour choisir un format

Quel est l'usage ?
Quel est le degré de maîtrise des outils de traitement de données ?
Comment la donnée doit être stockée, traitée et gérée.

Métadonnées

La notion de métadonnées est consubstantielle à la donnée. Le référentiel de métadonnées statistiques de l’Insee, appelé RMéS, facilite la diffusion et la compréhension des données.

Diffusion des données de l'INSEE

L’Insee s’efforce de rendre son offre de données la plus à jour, lisible et accessible possible. La donnée doit être facilement trouvée et comprise. La présentation de statistiques de manière simple et cohérente sur insee.fr est donc un défi important. L’Insee propose des tableaux et des visuels simples, clairs et faciles à comprendre. Pour aller plus loin dans l’analyse, des données plus détaillées sont mises à disposition.

Les données de l’Insee se modernisent avec la possibilité de naviguer dans des cubes multidimensionnels, décrits via le standard international SDMX. Un exemple est le Tableau de Bord de l’Économie Française (TBEF), service multi‑thématique de datavisualisation sur le site insee.fr, selon trois volets géographiques (Europe, France, territoires) (figure 1).

L’Insee propose également une option de téléchargement des données. De nombreux jeux de données sont disponibles, notamment au format XLSX, pour les chercheurs ou certains acteurs locaux. La taille des fichiers de données est aussi un élément important de l’offre. Le contenu statistique des fichiers est également normé : chaque colonne du fichier correspond à une variable déclinée selon ses modalités.

L’Insee met à disposition des listes de codes pour comprendre les données. Des standards internationaux sont mobilisables pour décrire les données, comme DCAT. Les jeux de données sont affichés et permettent de visualiser et de télécharger les données.

L’Insee propose un moyen souple d’exploration des données pour permettre aux utilisateurs d’interroger le jeu de données et de récupérer uniquement les données d’intérêt. De nombreux organismes proposent des APIs (Ouvrir dans un nouvel ongletBoyd et alii, 2020), comme l’OCDE ou l’institut canadien StatCan.

Dans le cadre de la modernisation de son système d’information (projet Melodi), l’Insee a développé une API pour diffuser les données et assurer leur livraison dans l’entrepôt Melodi. L’objectif est de rendre les données plus accessibles et d’améliorer leur compréhension, notamment par des algorithmes d’intelligence artificielle.

Tableau récapitulatif des formats de données et de leurs usages

Format de données	Description	Avantages	Inconvénients	Usages
CSV	Format tabulaire séparé par des virgules	Compact, lisible par l'homme	Contraintes de délimiteur	Échange de données, publication
JSON	Format minimaliste, flexible	Adapté aux données non tabulaires	Structure évolutive	Services web, API
Parquet	Format de stockage en colonnes	Optimisé pour les données volumineuses	Complexe à manipuler directement	Big data, stockage distribué

Ce tableau résume les principaux formats de données utilisés par l'INSEE, leurs avantages, inconvénients et usages spécifiques.

Figure 1 : Tableau de Bord de l'Économie Française (Source : INSEE)

Figure 2 : Exemple de codification (Source : INSEE)

Figure 3 : Unités de mesure (Source : INSEE)

balises: #Insee