Comprendre les Appariements de Données : INSEE, DGFIP, CNAF, CNAV, CCMSA et leur Importance

L’Insee, et plus largement le service statistique public, collecte des informations d’origines diverses, notamment par des enquêtes sur échantillons ou par la réutilisation à des fins statistiques de données administratives. Ces données peuvent être utilisées seules, ou combinées à d’autres sources, au niveau individuel, pour fournir une information plus riche. C’est ce que l’on appelle « faire des appariements ».

On utilise des appariements de données parce qu’une source seule n’est pas toujours suffisante et ne couvre qu’une partie de ce que l’on veut analyser.

Pourquoi Apparier les Données ?

L'appariement des données est une pratique courante dans le domaine de la statistique publique et permet d'améliorer la qualité et la complétude des informations collectées. Voici quelques exemples concrets de l'utilité de cette méthode :

  • Statistiques complètes sur les revenus des ménages : Pour construire des statistiques complètes sur les revenus des ménages, on utilise des données issues des déclarations de revenus à l’impôt sur le revenu, mais on a également besoin des informations tirées de fichiers d’allocataires de prestations familiales et sociales (CAF, MSA, Cnav) qui permettent d’ajouter les prestations versées à l’ensemble des ménages. L’Insee a ainsi mis en place le dispositif Filosofi (Fichier localisé social et fiscal), qui permet d’avoir une vue plus complète des revenus des ménages en rapprochant les deux sources de données pour chaque individu.
  • Statistiques exhaustives sur les montants de retraites : Pour bâtir des statistiques exhaustives sur les montants de retraites, on a besoin de rassembler les données des différents régimes : Cnav pour les salariés, MSA pour les agriculteurs y compris salariés, SSI pour pour les artisans et commerçants, régimes spéciaux. C’est ce que fait l’échantillon interrégimes de retraités (EIR) construit par la Drees, le service statistique de la santé et des solidarités. Il apparie, pour un échantillon de retraités, des données sur leurs montants de retraite dans les différents régimes qui les concernent, afin de reconstituer leurs montants de retraite totale.
  • Évaluation de l’impact d’une aide sociale : Lorsque l’on veut évaluer l’impact d’une aide sociale, ou d’une aide à destination des entreprises, on apparie les données dont on dispose sur les bénéficiaires de l’aide avec un fichier qui décrit leur situation avant et après l’aide (par exemple l’emploi ou la réussite dans l’enseignement supérieur pour une personne, les résultats financiers pour une entreprise). On compare avec une situation de référence de personnes ou d’entreprises n’ayant pas bénéficié de l’aide.
  • Reconstitution des parcours des personnes : Lorsque l’on veut reconstituer des parcours des personnes. Par exemple, pour décrire l’insertion professionnelle des jeunes, on ajoute des informations sur l’emploi à des informations décrivant le parcours scolaire des jeunes diplômés des centres de formation d’apprentis (CFA) et des lycées professionnels. Le système d’information Inserjeunes, porté par la Depp et la Dares (respectivement les services statistiques chargés de l’éducation et de l’emploi), rapproche ainsi un extrait de la base de données administratives constituée pour la gestion de la scolarité de ces élèves et un extrait des données sur l’emploi issues des déclarations sociales nominatives qui sont remplies par les employeurs (figure 2). Autre exemple, pour mieux comprendre les difficultés des personnes bénéficiaires des minima sociaux et l’évolution de leur situation, on va apparier les données de revenus sur plusieurs années, avec les données d’emploi sur plusieurs années et obtenir ainsi des évolutions individualisées qu’on peut ensuite analyser.
  • Alléger les questionnaires d’enquête : Les statisticiens publics cherchent à éviter de demander à un ménage (ou à une entreprise) une information qu’il (elle) a déjà transmise à une administration, en particulier si elle est complexe et longue à reconstituer. Autre exemple, en 2009, les enquêtes annuelles auprès des entreprises ont connu un allègement très significatif grâce à une plus grande utilisation des données fiscales et sociales portant sur les entreprises. Ces dernières permettent de connaître pour chaque entreprise, sans lui redemander l’information, le chiffre d’affaires, l’excédent brut d’exploitation, la valeur ajoutée, le résultat comptable, les immobilisations, la marge commerciale, l’emploi total, l’emploi salarié, l’emploi non salarié, etc.

INSEE Logo

Exemples Concrets d'Appariements de Données

  • L’échantillon démographique permanent (EDP) : mis en place en 1967 apparie des données issues des recensements de la population et de l’état civil. Il s’est peu à peu enrichi par appariement avec de nouvelles sources. Il permet par exemple d’étudier la mobilité intergénérationnelle en termes de revenus [Abbas et Sicsic, 2022], de mettre en évidence le rôle protecteur du couple lors de la perte d’emploi [Fabre et Lacour, 2021] ou de mesurer les changements de résidence au moment du départ en retraite [Abbas et alii, 2022].
  • Les parcours scolaires : dès 1973, avec des panels d’élèves basés sur les données administratives issues de la gestion du système scolaire pour un échantillon d’élèves que l’on suit dans le temps. Ils ont permis d’abord d’observer les entrants en sixième, puis les élèves entrant en cours préparatoire à partir de 1978, puis ceux entrant en petite section à partir de 2021.
  • Les carrières salariales : dès 1976. Un panel permet de suivre dans le temps, pour un large échantillon de personnes, les emplois qu’elles occupent et les salaires perçus.

Comment Apparie-t-on les Données ?

Pour apparier deux fichiers de données, il faut se baser sur des variables communes présentes dans les deux fichiers sous la même forme ou qui peuvent être ramenées à la même forme pour être comparées.

Lire aussi: Identifier une entreprise française

Pour des appariements concernant des personnes, il peut s’agir de l’identifiant réservé aux appariements par le service statistique public comme le Code Statistique Non Signifiant, ou encore des noms et prénoms, des prénoms et adresses, ou dans des cas plus rares et très encadrés et prévus par un décret en Conseil d’État du NIR (Numéro d’inscription au répertoire au RNIPP).

Cadre Législatif et Principes Éthiques

La loi relative à l’informatique, aux fichiers et aux libertés de 1978, qui encadre le traitement informatique de ces données.

La plupart des instituts de statistiques utilisent des appariements de données. Ils sont préconisés au niveau européen, tout comme l’emploi de sources administratives, pour limiter les coûts et réduire la charge des personnes ayant à répondre à une enquête.

Chez nos collègues canadiens, les appariements font l’objet d’un texte juridique spécifique depuis 1986. Ils font depuis peu l’objet d’un examen de nécessité et de proportionnalité, conformément au cadre mis en place en 2019. Le principe de nécessité vise à s’assurer qu’il y a un bénéfice pour la société canadienne associée au traitement de données.

Pour le principe de proportionnalité, les experts de Statistique Canada déterminent comment recueillir uniquement les données nécessaires, en prenant en compte la nature plus ou moins sensible des données et en vérifiant qu’il n’y a pas d’alternative moins gourmande en données pour atteindre le même objectif.

Lire aussi: Enjeux des Familles Homoparentales

Focus sur la Pauvreté Monétaire

Le taux de pauvreté monétaire en France métropolitaine est évalué à partir de l’enquête Revenus fiscaux et sociaux (ERFS). L’enquête Revenus fiscaux et sociaux (ERFS) est la référence pour mesurer le taux de pauvreté au niveau national. Elle permet d’analyser les revenus et la pauvreté selon les caractéristiques du ménage. Les données issues de FiLoSoFi sont soumises au secret statistique.

La pauvreté monétaire est mesurée en France depuis 1970. La pauvreté monétaire touche en premier lieu les chômeurs (36,1 %). Les salariés ont le taux de pauvreté le plus faible (6,6 %).

En 2023, 2,3 millions de travailleurs sont pauvres. Près du tiers des travailleurs pauvres ont des revenus d’activité.

Les jeunes de moins de 25 ans sont plus touchés par la pauvreté. Un immigré est une personne née étrangère à l'étranger et résidant en France.

Le seuil de pauvreté est calculé en fonction de la distribution des niveaux de vie, de la population de France métropolitaine. Est considéré comme pauvre, toute personne ayant un niveau de vie inférieur au seuil de pauvreté défini au seuil de 60 % du niveau de vie médian. Au seuil de 60 %, le revenu correspondant est de 2 705 euros.

Lire aussi: Comprendre le Code APE

Il est important de noter que la pauvreté ne se limite pas à sa dimension monétaire. La pauvreté est beaucoup plus marquée dans les zones densément peuplées.

Taux de pauvreté sous Macron

Redistribution et Prestations Sociales

Les prestations sociales jouent un rôle essentiel dans la réduction de la pauvreté. Elles sont composées notamment des prestations familiales, des allocations logement, des minima sociaux et de la prime d’activité.

Parmi les principales prestations, on retrouve :

  • Les prestations familiales, qui sont moins ciblées sur les revenus modestes.
  • L'allocation aux adultes handicapés (AAH), qui garantit un revenu minimum aux personnes handicapées.
  • Les minima sociaux, tels que le revenu de solidarité active (RSA), l’allocation aux adultes handicapés (AAH) ou les allocations permettant d’atteindre le minimum vieillesse, notamment l’allocation de solidarité aux personnes âgées (Aspa).

Niveau de Vie et Unités de Consommation (UC)

Pour comparer le niveau de vie des ménages, on utilise une mesure du revenu corrigé par unité de consommation à l'aide d'une échelle d'équivalence. Les Unités de Consommation (UC) sont un système de pondération attribuant un coefficient à chaque membre du ménage et permettant de comparer les niveaux de vie de ménages de tailles ou de compositions différentes.

Le revenu disponible par unité de consommation (UC), également appelé "niveau de vie", est le revenu disponible par "équivalent adulte". Il est calculé en rapportant le revenu disponible du ménage au nombre d'unités de consommation qui le composent.

Ainsi, pour comparer le niveau de vie des ménages, on ne peut s'en tenir à la consommation par personne. En effet, les besoins d'un ménage ne s'accroissent pas en stricte proportion de sa taille. Aussi, pour comparer les niveaux de vie de ménages de taille ou de composition différente, on utilise une mesure du revenu corrigé par unité de consommation à l'aide d'une échelle d'équivalence.

balises: #Insee

Articles populaires: