IDEAS home Printed from https://ideas.repec.org/p/nse/doctra/m2023-03.html
   My bibliography  Save this paper

Appariements de donnees individuelles : concepts, methodes, conseils

Author

Listed:
  • L. MALHERBE

    (Insee)

Abstract

Un appariement consiste à rapprocher deux bases de données d’origine distincte partageant des unités statistiques communes mais contenant des informations différentes. Cette opération permet d'accroître l'information disponible dans les deux bases. Un cas classique pour le statisticien est l'appariement de fichiers de personnes. Les enjeux sont multiples : enrichissement de données d'enquête par des sources administratives, repérage de doublons, constitution de panels... La tâche est aisée lorsque les deux sources de données disposent d’un identifiant unique commun pour tous les individus, mais ce cas n'est pas fréquent. En l’absence d’un tel identifiant, il est nécessaire de mobiliser les champs caractérisant l'identité d'une personne (état civil, adresse, etc.) pour repérer les individus communs dans les deux bases. Ces traits d'identité pouvant être entachés d'erreurs, certains individus doivent être appariés malgré des informations légèrement différentes sur les champs servant à l’identification. Ce document constitue une introduction pratique aux appariements de données individuelles sur traits d'identité. Après avoir introduit le vocabulaire et les notions clés, il expose et illustre les enjeux et les méthodes associés aux différentes étapes d'un appariement. Un ensemble d'outils d'appariement open source sont présentés, et leurs avantages et inconvénients sont discutés. Des conseils pratiques sont également proposés afin de choisir l'approche la plus adaptée au cas rencontré, paramétrer au mieux l'appariement et éviter de tomber dans certains écueils. Un dépôt de code évolutif contenant des exemples d'appariements ainsi que des ressources d'autoformation est disponible à l'adresse suivante : Ouvrir dans un nouvel onglethttps://github.com/InseeFrLab/appariement

Suggested Citation

  • L. Malherbe, 2023. "Appariements de donnees individuelles : concepts, methodes, conseils," Documents de Travail de l'Insee - INSEE Working Papers m2023-03, Institut National de la Statistique et des Etudes Economiques.
  • Handle: RePEc:nse:doctra:m2023-03
    as

    Download full text from publisher

    File URL: https://www.insee.fr/fr/statistiques/fichier/version-html/7644535/M2023-03.pdf
    File Function: Document de travail "Méthodologie Statistique" de la DMCSI numéro M2023/03
    Download Restriction: no
    ---><---

    More about this item

    Keywords

    appariement; dedoublonnage; donnees individuelles; Fellegi-Sunter;
    All these keywords.

    JEL classification:

    • C50 - Mathematical and Quantitative Methods - - Econometric Modeling - - - General
    • C81 - Mathematical and Quantitative Methods - - Data Collection and Data Estimation Methodology; Computer Programs - - - Methodology for Collecting, Estimating, and Organizing Microeconomic Data; Data Access

    Statistics

    Access and download statistics

    Corrections

    All material on this site has been provided by the respective publishers and authors. You can help correct errors and omissions. When requesting a correction, please mention this item's handle: RePEc:nse:doctra:m2023-03. See general information about how to correct material in RePEc.

    If you have authored this item and are not yet registered with RePEc, we encourage you to do it here. This allows to link your profile to this item. It also allows you to accept potential citations to this item that we are uncertain about.

    We have no bibliographic references for this item. You can help adding them by using this form .

    If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item. If you are a registered author of this item, you may also want to check the "citations" tab in your RePEc Author Service profile, as there may be some citations waiting for confirmation.

    For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact: INSEE (email available below). General contact details of provider: https://edirc.repec.org/data/inseefr.html .

    Please note that corrections may take a couple of weeks to filter through the various RePEc services.

    IDEAS is a RePEc service. RePEc uses bibliographic data supplied by the respective publishers.