The World Bank Working for a World Free of Poverty Microdata Library
  • Data Catalog
  • Collections
  • Citations
  • Terms of use
  • About
  • Login
    Login
    Home / Central Data Catalog / WLD_2023_SYNTH-SVY-FR_V01_M
central

Données Synthétiques pour un Pays Imaginaire, Echantillon, 2023
Un fichier hiérarchique (relationel) destiné à des fins de simulation ou de formation

Monde, 2023
Get Microdata
Reference ID
WLD_2023_SYNTH-SVY-FR_v01_M
Producer(s)
Development Data Group, Data Analytics Unit
Metadata
DDI/XML JSON
Created on
Jul 07, 2023
Last modified
Jul 07, 2023
Page views
4580
Downloads
301
  • Study Description
  • Data Description
  • Documentation
  • Get Microdata
  • Identification
  • Version
  • Scope
  • Coverage
  • Producers and sponsors
  • Sampling
  • Survey instrument
  • Data collection
  • Data processing
  • Quality standards
  • Access policy
  • Data Access
  • Disclaimer and copyrights
  • Metadata production
  • Citation
  • Identification

    Survey ID number

    WLD_2023_SYNTH-SVY-FR_v01_M

    Title

    Données Synthétiques pour un Pays Imaginaire, Echantillon, 2023

    Subtitle

    Un fichier hiérarchique (relationel) destiné à des fins de simulation ou de formation

    Country/Economy
    Name Country code
    Monde WLD
    Study type

    Données synthétiques

    Series Information

    Ces fichiers de données font partie d'une collection de données entièrement synthétiques générées pour un pays imaginaire et destinées à des fins de simulation ou de formation. Les données sont disponibles en français et en anglais. Un fichier de recensement complet (population de ~10 millions d'individus) est également disponible dans ces deux langues.

    Other identifiers
    Type Identifier
    DOI https://doi.org/10.48529/42QP-VB86
    Abstract
    Ce jeu de données est un jeu de données relationnelles pour 8000 ménages, représentant un échantillon de la population d'un pays imaginaire à revenu intermédiaire. Le jeu de données contient deux fichiers de données : l'un avec des variables au niveau du ménage, l'autre avec des variables au niveau individuel. Il comprend des variables qui sont généralement collectées dans les recensements de la population (démographie, éducation, profession, caractéristiques des logements, fécondité, mortalité et migration) et dans les enquêtes auprès des ménages (dépenses des ménages, données anthropométriques pour les enfants, possession d'actifs). Les données ne comprennent que des ménages ordinaires (pas de ménages communautaires/institutionels). Le jeu de données a été créé à l'aide de REaLTabFormer, un modèle qui tire parti des méthodes d'apprentissage en profondeur ("deep learning"). Le jeu de données a été créé à des fins de formation et de simulation et n'est pas destiné à être représentatif d'un pays en particulier.

    Le jeu de données de la population complète (comprenant les données pour environ 10 millions d'individus) est également distribué sous forme de données ouvertes (open data).
    Kind of Data

    ssd

    Unit of Analysis

    Ménage, Individu

    Version

    Version Description

    V. 2023-05-01 8K HH FR

    Version Date

    2023-05-01T04:00:00.000Z

    Version Responsibility Statement

    Banque mondiale, Development Data Group

    Version Notes

    Données synthétiques générées au moyen du modèle RealTabFormer (échantillon de 8000 ménages), suivi d'un post-traitement. Version française.

    Scope

    Keywords
    données synthétiques données ouvertes données sécurisées démographie éducation mortalité fécondité malnutrition infantile travail, emploi logement eau et sanitation dépenses des ménages migration

    Coverage

    Geographic Coverage

    Le jeu de données est un jeu de données synthétiques pour un pays imaginaire. Il a été créé pour représenter la population de ce pays par province (équivalent à admin1) et par zones urbaines/rurales de résidence.

    Universe

    Le jeu de données est un jeu de données entièrement synthétique représentatif de la population résidente des ménages ordinaires pour un pays imaginaire à revenu intermédiaire.

    Producers and sponsors

    Primary investigators
    Name Affiliation
    Development Data Group, Data Analytics Unit Banque mondiale
    Funding Agency/Sponsor
    Name Abbreviation Grant number Role
    UNHCR-World Bank Joint Data Center on Forced Displacement JDC KP-P174174-TF0B5124 Subvention du travail de recherche pour le développement de données synthétiques dans le but d'évaluer les mesures statistiques de risque de divulgation.

    Sampling

    Sample frame

    Sample frame name

    Données Synthétiques pour un Pays Imaginaire, Population complète, 2023 ( WLD_2023_SYNTH-CENS-FR_v01_M)

    Custodian

    Banque mondiale

    Unit Type

    Ménage

    Is Primary

    true

    Sampling Procedure

    La taille de l'échantillon a été fixée à 8000 ménages. Le nombre fixe de ménages à sélectionner dans chaque zone de dénombrement a été fixé à 25. Dans une première étape, le nombre de zones de dénombrement à sélectionner dans chaque strate a été calculé, proportionnel à la taille de chaque strate (stratification par géo_1 et urbain/ rural). Ensuite, 25 ménages ont été sélectionnés au hasard dans chaque zone de dénombrement. Le script R utilisé pour dessiner l'exemple est fourni ressource externe.

    Response Rate

    Il s'agit d'un ensemble de données synthétiques; le "taux de réponse" est de 100 %.

    Weighting

    Les coefficients de pondération ont été calculés en tenant compte de la stratification. Voir le script R fourni en ressource externe.

    Survey instrument

    Questionnaires

    Le jeu de données est un jeu de données synthétique. Bien que les variables qu'il contient soient des variables généralement collectées à partir d'enquêtes par sondage ou de recensements de population, aucun questionnaire n'est disponible pour cet ensemble de données. Un "faux" questionnaire a cependant été créé pour l'échantillon de données extrait de cet ensemble de données, pour être utilisé comme matériel de formation.

    Methodology notes

    Le jeu de données a été généré à l'aide de REaLTabFormer, un modèle génératif hiérarchique à quatre niveaux. Le modèle de premier niveau est le générateur de composition du ménage, qui génère des variables qui définissent la composition de chaque ménage (taille du ménage et profil démographique de base des membres, y compris l'âge et le lien avec le chef de ménage). Le modèle de deuxième niveau est le générateur de variables au niveau du ménage, qui génère les variables dont les valeurs sont communes à tous les membres du ménage (telles que les caractéristiques du logement) en fonction de la composition du ménage. Le modèle de troisième niveau est le générateur du chef de ménage, qui génère des observations pour le chef de ménage sur la base de la sortie des deux modèles précédents. Le modèle de quatrième niveau est le générateur de membres du ménage, qui génère des données sur les membres du ménage, à l'exclusion du chef, pour les ménages de taille deux et plus. Le modèle de générateur de membre du ménage utilise les données générées par la composition du ménage, les variables au niveau du ménage et les modèles de générateur de chef de ménage. Ce modèle hiérarchique fournit des dépendances relationnelles au sein d'un ménage qui ne seraient pas garanties si tous les enregistrements étaient générés indépendamment.

    Pour implémenter les différents modèles, nous avons adopté une architecture de transformateur. Le générateur de composition de ménage est un modèle de décodeur qui génère des données à partir d'un bruit normalement distribué. Les trois autres modèles utilisent un modèle séquence à séquence inspiré de l'application de l'apprentissage en profondeur à la traduction linguistique.

    Des informations plus détaillées sont disponibles dans la documentation technique fournie sous forme de document PDF externe.

    Data collection

    Dates of Data Collection
    Start End
    2023 2023
    Time periods
    Start date End date
    2023 2023
    Mode of data collection
    • other

    Data processing

    Data Processing
    Type Description
    Création des données synthétiques Le processus de génération de données synthétiques est décrit en détail dans un document technique "Générer un ensemble de données synthétiques relationnelles pour un pays imaginaire - Documentation technique" fourni en tant que ressource externe.
    Data Editing

    Le processus de génération de données synthétiques comprenait un ensemble de "validateurs" (vérifications de cohérence, sur la base desquelles les observations synthétiques étaient évaluées et rejetées/remplacées si nécessaire). De plus, un post-traitement a été appliqué aux données pour aboutir aux fichiers de données distribués.

    Quality standards

    Other quality statement

    L'ensemble de données synthétiques vise à fournir une représentation réaliste d'un pays à revenu intermédiaire. Un ensemble d'indicateurs/tableaux de synthèse a été produit pour assurer l'aspect réaliste des données.

    Access policy

    Location of Data Collection

    World Bank Microdata Library

    URL for Location of Data Collection

    https://microdata.worldbank.org/index.php/catalog/study/WLD_2023_SYNTH-SVY-FR_v01_M

    Number of Files

    2 (un au niveau du ménage, un au niveau individuel). Les deux fichiers de données peuvent être fusionnés en utilisant la variable "id_men" comme clé de fusion.

    Notes

    Données ouvertes (sous license CC BY 4.0)

    Data Access

    Access authority
    Name
    World Bank, Microdata Library
    Restrictions

    L'ensemble de données a été généré en tant qu'ensemble de données entièrement synthétique. Le modèle utilisé pour créer les observations synthétiques comprend plusieurs procédures pour éviter le surajustement et la copie de données. De plus, les données utilisées pour former le modèle sont passées par des processus d'échantillonnage et de recodage qui rendent impossible de lier une observation synthétique à une observation réelle. L'ensemble de données est donc sûr pour la diffusion. Il peut être utilisé sans restriction et est partagé en tant que données ouvertes.

    Disclaimer and copyrights

    Disclaimer

    Les données doivent être utilisées uniquement à des fins de formation ou de simulation. Elles ne sont pas destinées à être représentatives d'un pays en particulier et ne doivent pas être utilisées à des fins d'inférence.

    Metadata production

    Producers
    Name Affiliation
    OD Banque mondiale
    Date of Metadata Production

    2023-05-01T04:00:00.000Z

    Metadata version

    DDI Document version

    1.0 FR

    Version date

    2023-05-01T04:00:00.000Z

    Citation

    Citation
    loading, please wait...
    Citation format
    Export citation: RIS | BibTeX | Plain text
    Back to Catalog
    The World Bank Working for a World Free of Poverty
    • IBRD IDA IFC MIGA ICSID

    © The World Bank Group, All Rights Reserved.

    This site uses cookies to optimize functionality and give you the best possible experience. If you continue to navigate this website beyond this page, cookies will be placed on your browser. To learn more about cookies, click here.