WLD_2023_SYNTH-CEN-FR_v01_M
Données Synthétiques pour un Pays Imaginaire, Population complète, 2023
Un fichier hiérarchique (relationel) destiné à des fins de simulation ou de formation
Name | Country code |
---|---|
Monde | WLD |
Données synthétiques
Ces fichiers de donnés font partie d'une collection de données entièrement synthétiques générées pour un pays imaginaire à des fins de simulation ou de formation. Les données sont disponibles en français et en anglais. Un échantillon de 8000 ménages est également disponible dans ces deux langues.
Type | Identifier |
---|---|
DOI | https://doi.org/10.48529/X5BG-SD13 |
ssd
Ménage, Individu
V. 2023-05-01 10M PP FR
2023-05-01T04:00:00.000Z
Banque mondiale, Development Data Group
Données générées à l'aide du modèle RealTabFormer (pour 10,003,891 individus / 2,501,755 ménages), avec post-processing. Version française.
Le jeu de données est un jeu de données synthétiques pour un pays imaginaire. Il a été créé pour représenter la population de ce pays par province (équivalent à admin1) et par zones urbaines/rurales de résidence.
Le jeu de données est un jeu de données entièrement synthétique représentatif de la population résidente des ménages ordinaires pour un pays imaginaire à revenu intermédiaire.
Name | Affiliation |
---|---|
Development Data Group, Data Analytics Unit | Banque mondiale |
Name | Abbreviation | Grant number | Role |
---|---|---|---|
Banque mondiale | JDC | KP-P174174-TF0B5124 | Subvention du travail de recherche pour le développement de données synthétiques dans le but d'évaluer les mesures statistiques de risque de divulgation. |
Le jeu de données est un jeu de données synthétique. Bien que les variables qu'il contient soient des variables généralement collectées à partir d'enquêtes par sondage ou de recensements de population, aucun questionnaire n'est disponible pour cet ensemble de données. Un "faux" questionnaire a cependant été créé pour l'échantillon de données extrait de cet ensemble de données, pour être utilisé comme matériel de formation.
Le jeu de données a été généré à l'aide de REaLTabFormer, un modèle génératif hiérarchique à quatre niveaux. Le modèle de premier niveau est le générateur de composition du ménage, qui génère des variables qui définissent la composition de chaque ménage (taille du ménage et profil démographique de base des membres, y compris l'âge et le lien avec le chef de ménage). Le modèle de deuxième niveau est le générateur de variables au niveau du ménage, qui génère les variables dont les valeurs sont communes à tous les membres du ménage (telles que les caractéristiques du logement) en fonction de la composition du ménage. Le modèle de troisième niveau est le générateur du chef de ménage, qui génère des observations pour le chef de ménage sur la base de la sortie des deux modèles précédents. Le modèle de quatrième niveau est le générateur de membres du ménage, qui génère des données sur les membres du ménage, à l'exclusion du chef, pour les ménages de taille deux et plus. Le modèle de générateur de membre du ménage utilise les données générées par la composition du ménage, les variables au niveau du ménage et les modèles de générateur de chef de ménage. Ce modèle hiérarchique fournit des dépendances relationnelles au sein d'un ménage qui ne seraient pas garanties si tous les enregistrements étaient générés indépendamment.
Pour implémenter les différents modèles, nous avons adopté une architecture de transformateur. Le générateur de composition de ménage est un modèle de décodeur qui génère des données à partir d'un bruit normalement distribué. Les trois autres modèles utilisent un modèle séquence à séquence inspiré de l'application de l'apprentissage en profondeur à la traduction linguistique.
Des informations plus détaillées sont disponibles dans la documentation technique fournie sous forme de document PDF externe.
Start | End |
---|---|
2023 | 2023 |
Start date | End date |
---|---|
2023 | 2023 |
Type | Description |
---|---|
Création des données synthétiques | Le processus de génération de données synthétiques est décrit en détail dans un document technique |
Le processus de génération de données synthétiques comprenait un ensemble de "validateurs" (vérifications de cohérence, sur la base desquelles les observations synthétiques étaient évaluées et rejetées/remplacées si nécessaire). De plus, un post-traitement a été appliqué aux données pour aboutir aux fichiers de données distribués.
L'ensemble de données synthétiques vise à fournir une représentation réaliste d'un pays à revenu intermédiaire. Un ensemble d'indicateurs/tableaux de synthèse a été produit pour assurer l'aspect réaliste des données.
World Bank Microdata Library
2 (un au niveau du ménage, un au niveau individuel). Les deux fichiers de données peuvent être fusionnés en utilisant la variable "id_men" comme clé de fusion.
Données ouvertes (sous license CC BY 4.0)
Name |
---|
World Bank, Microdata Library |
L'ensemble de données a été généré en tant qu'ensemble de données entièrement synthétique. Le modèle utilisé pour créer les observations synthétiques comprend plusieurs procédures pour éviter le surajustement et la copie de données. De plus, les données utilisées pour former le modèle sont passées par des processus d'échantillonnage et de recodage qui rendent impossible de lier une observation synthétique à une observation réelle. L'ensemble de données est donc sûr pour la diffusion. Il peut être utilisé sans restriction et est partagé en tant que données ouvertes.
Les données doivent être utilisées uniquement à des fins de formation ou de simulation. Elles ne sont pas destinées à être représentatives d'un pays en particulier et ne doivent pas être utilisées à des fins d'inférence.
Name | Affiliation |
---|---|
OD | Banque mondiale |
2023-05-01T04:00:00.000Z
1.0 FR
2023-05-01T04:00:00.000Z
This site uses cookies to optimize functionality and give you the best possible experience. If you continue to navigate this website beyond this page, cookies will be placed on your browser. To learn more about cookies, click here.