L'Utilisation des Big Data par l'Insee : Modernisation et Accessibilité des Données Statistiques

Dans le contexte de l'explosion de la data au cours des dernières décennies, l'Insee s'efforce de suivre les grands principes du Code de bonnes pratiques de la statistique européenne, pierre angulaire du cadre qualité commun aux instituts statistiques européens. L'objectif principal de l'Insee est de rendre son offre de données la plus à jour, lisible et accessible possible, touchant des domaines variés tels que l’emploi, les comptes nationaux, ou encore les indices de prix.

La donnée doit être facilement trouvée et comprise par son public dans le choix et la compréhension de la donnée. La présentation des statistiques de manière simple et cohérente sur insee.fr est donc un défi important, nécessitant l'utilisation de tableaux et de visuels simples, clairs et faciles à comprendre. Pour ceux qui souhaitent aller plus loin dans l’analyse, des données plus détaillées sont mises à disposition.

Un autre exemple est le Tableau de Bord de l’Économie Française (TBEF), service multi‑thématique de datavisualisation sur le site insee.fr, selon trois volets géographiques (Europe, France, territoires) (figure 1).

Les données carroyées de l'Insee

La taille des fichiers de données est aussi un élément important de l’offre. Des fichiers trop volumineux décourageraient certains utilisateurs, tandis que des fichiers trop petits (nécessité d’en consulter beaucoup pour analyser un sujet) perdraient facilement l'utilisateur. Ainsi, l'Insee propose une option de téléchargement des données, disponibles, notamment au format XLSX, qui précise s’il s’agit de l’âge en années révolues ou calendaires, pour comprendre les données (Bonnans, 2019). Ces fichiers sont adaptés pour les chercheurs ou certains acteurs locaux.

Le contenu statistique des fichiers est également normé. Chaque colonne du fichier correspond à une variable déclinée selon ses modalités. Prenons l'exemple de l'âge : l'Insee privilégie plutôt l’âge, avec des classes d’âge bien définies, comme 35 à 39 ans). On peut aussi trouver des listes de codes comme Y_GE75 (« 75 ans ou plus ») (figure 2). De plus, un glossaire permet de retrouver facilement les informations disponibles sur chaque variable.

Lire aussi: Accéder à la documentation Sirene

Cette normalisation facilite la comparaison des données d’un fichier de données à un autre lorsqu’elles ont le même sens. L'Insee utilise également un référentiel de métadonnées statistiques (RMéS) pour assurer la cohérence des données entre sources.

Les Cubes de Données : Une Nouvelle Ère pour l'Exploration des Données

L'offre de donnée de l’Insee se modernise avec la possibilité de naviguer dans ces cubes, appelés aussi « hypercubes » dont les dimensions sont les axes d’analyse. Ces cubes multidimensionnels sont décrits via le standard international SDMX, et plus particulièrement son modèle d’information. SDMX signifie Statistical Data and Metadata eXchange, un standard utilisé par leurs pays membres, à l’aide des technologies modernes de l’information.

La Définition de Structure de Données (ou « Data Structure Definition » en anglais, abrégé en DSD) renvoie aux informations contenues dans le fichier de données, et permet de comprendre les dimensions et les attributs du cube. Les dimensions correspondent aux axes d’analyse du phénomène observé, telles que le genre, l’âge ou le statut d’emploi. Les attributs, quant à eux, sont des informations complémentaires mais nécessaires à la compréhension de ce qui est mesuré.

Prenons l'exemple de la mesure du nombre de victimes d’agression ou de vol hors ménage selon l’âge et le sexe. Dans ce cas, les dimensions sont le sexe, l’âge et le type de violences. Il est crucial de comprendre que la mesure est exprimée en unités et non pas en milliers de personnes par exemple (figure 3).

Exploration et Manipulation des Cubes OLAP

Les cubes de données s'appuient sur le concept OLAP (Online Analytical Processing), acronyme d’« Online Analytical Processing ». Cette approche permet à l'utilisateur d'explorer dynamiquement et de construire ses propres extractions de tableaux, en manipulant les dimensions et les modalités. L'Insee est parmi les premiers à proposer ce moyen souple d’exploration. Plusieurs opérations sont possibles :

Lire aussi: Identifier une entreprise française

Le découpage en tranches : on fige une dimension à une valeur (en anglais « slice » pour tranche) en laissant varier les autres dimensions.
Le sous-ensemble de données : appelé aussi « dice » en anglais, pour obtenir un sous-ensemble de données du cube.
Le forage vers le haut ou vers le bas : il est possible de zoomer et dézoomer (en anglais « drill up » et « drill down ») sur la donnée.

Par exemple, il est possible de consulter les cubes issus du recensement agricole sur les exploitations, en sélectionnant les variables et/ou modalités pertinentes des différents axes. On peut ainsi affiner l'analyse en distinguant les tranches d'âge de 50 à 54 ans et 55 à 59 ans, voire pour chaque année de 50 à 59 ans. De même, on peut croiser les données selon leur catégorie socioprofessionnelle (figure 6b).

Catalogues de Données : Faciliter la Découverte des Ressources

Concevoir et structurer les jeux de données n’est pas suffisant. Il faut que l’inseenaute en connaisse l’existence ! Pour cela, l'Insee met à disposition un catalogue dédié, qui permet de découvrir les données associées. Pour bien les décrire, des standards internationaux sont mobilisables comme DCAT, qui signifie Data Catalog Vocabulary, utilisé pour décrire les informations, dans le cas des catalogues de données.

Ce catalogue permet de filtrer selon différents critères (figure 5), tels que le thème, la zone géographique (région, etc.) ou encore sa source. Les jeux de données sont alors affichés à droite, et l'utilisateur obtient sa description. C’est également le cas de l’institut de statistique allemand Destatis qui met à disposition ses données statistiques via son catalogue Genesis. Un lien permet de visualiser le jeu avant de le télécharger.

APIs : L'Automatisation de l'Accès aux Données

Les APIs (Application Programming Interface ou Interface de Programmation d’Application en français) permettent aux utilisateurs d'intégrer directement les données de l’Insee dans leur propre système d’information. De nombreux organismes proposent des APIs (Ouvrir dans un nouvel ongletBoyd et alii, 2020). C’est le cas aussi de l’OCDE ou de l’institut canadien StatCan. Les APIs permettent aux développeurs d'accéder directement à partir de ses bases de données, et par une requête de récupérer uniquement les données d’intérêt (Jacobson et alii, 2011).

Par simplification, supposons que le début de l’URL soit insee.api****. L'utilisateur peut interroger le jeu de données à l'aide de commandes telles que DATA (pour obtenir les données) ou STRUCTURE (pour avoir le détail des métadonnées). En effet, les outils de datavisualisation s’appuient généralement sur les APIs. L'utilisateur construit une requête en spécifiant les dimensions de celui-ci, telles que la catégorie socioprofessionnelle ou encore le sexe, et l’envoie à l’outil, qui l’affiche. Cela est possible puisqu’il a accès directement à la base de données de diffusion.

Lire aussi: Enjeux des Familles Homoparentales

Melodi : Un Projet de Modernisation de l'Offre de Données

Afin d'améliorer l’offre actuelle de données, et de faciliter l'accès aux données (via catalogue de données, API), l’Insee s’est engagé dans un projet de modernisation appelé Melodi. Ce projet a pour objectif de moderniser le système d’information statistique de l’Insee, en refondant notamment le référentiel de métadonnées statistiques de l’Insee, appelé RMéS. Les applications statistiques produisent les données à diffuser et assurent leur livraison dans l’entrepôt Melodi.

Perspectives d'Avenir : Données Ouvertes Connectées et Intelligence Artificielle

L'Insee explore de nouvelles pistes pour rendre ses données plus accessibles et compréhensibles, notamment en développant des thèmes très demandés ou nouveaux. On pense notamment à la technologie données ouvertes connectées (Linked Open Data ou LOD), qui vise à lier les données de l'Insee à des ressources universellement utilisées. Ainsi, au lieu d'utiliser une codification propre à l'Insee pour identifier une région, à l’avenir il devrait faire référence à cette codification universelle. Une requête portant sur cette région pointerait vers cette ressource. L'objectif est de rendre les données plus accessibles et d'améliorer leur compréhension par des algorithmes d’intelligence artificielle. Par exemple, un algorithme pourrait facilement identifier quel est le dernier taux de chômage ?

balises: #Insee