{"doc_desc":{"producers":[{"name":"OD","affiliation":"Banque mondiale"}],"prod_date":"2023-05-01T04:00:00.000Z","version_statement":{"version":"1.0 FR","version_date":"2023-05-01T04:00:00.000Z"}},"study_desc":{"title_statement":{"idno":"WLD_2023_SYNTH-CEN-FR_v01_M","title":"Donn\u00e9es Synth\u00e9tiques pour un Pays Imaginaire, Population compl\u00e8te, 2023","sub_title":"Un fichier hi\u00e9rarchique (relationel) destin\u00e9 \u00e0 des fins de simulation ou de formation ","identifiers":[{"type":"DOI","identifier":"https:\/\/doi.org\/10.48529\/X5BG-SD13"}]},"series_statement":{"series_info":"Ces fichiers de donn\u00e9s font partie d'une collection de donn\u00e9es enti\u00e8rement synth\u00e9tiques g\u00e9n\u00e9r\u00e9es pour un pays imaginaire \u00e0 des fins de simulation ou de formation. Les donn\u00e9es sont disponibles en fran\u00e7ais et en anglais. Un \u00e9chantillon de 8000 m\u00e9nages est \u00e9galement disponible dans ces deux langues. ","series_name":"Donn\u00e9es synth\u00e9tiques"},"version_statement":{"version":"V. 2023-05-01 10M PP FR","version_notes":"Donn\u00e9es g\u00e9n\u00e9r\u00e9es \u00e0 l'aide du mod\u00e8le RealTabFormer (pour 10,003,891 individus \/ 2,501,755 m\u00e9nages), avec post-processing. Version fran\u00e7aise.","version_date":"2023-05-01T04:00:00.000Z","version_resp":"Banque mondiale, Development Data Group"},"study_info":{"analysis_unit":"M\u00e9nage, Individu","data_kind":"ssd","nation":[{"abbreviation":"WLD","name":"Monde"}],"abstract":"Ce jeu de donn\u00e9es est un jeu de donn\u00e9es relationnelles pour la population enti\u00e8re (~10 millions d'habitants) d'un pays imaginaire \u00e0 revenu interm\u00e9diaire. Le jeu de donn\u00e9es contient deux fichiers de donn\u00e9es : l'un avec des variables au niveau du m\u00e9nage, l'autre avec des variables au niveau individuel. Il comprend des variables qui sont g\u00e9n\u00e9ralement collect\u00e9es dans les recensements de la population (d\u00e9mographie, \u00e9ducation, profession, caract\u00e9ristiques des logements, f\u00e9condit\u00e9, mortalit\u00e9 et migration) et dans les enqu\u00eates aupr\u00e8s des m\u00e9nages (d\u00e9penses des m\u00e9nages, donn\u00e9es anthropom\u00e9triques pour les enfants, possession d'actifs). Les donn\u00e9es ne comprennent que des m\u00e9nages ordinaires (pas de m\u00e9nages communautaires\/institutionels). Le jeu de donn\u00e9es a \u00e9t\u00e9 cr\u00e9\u00e9 \u00e0 l'aide de REaLTabFormer, un mod\u00e8le qui tire parti des m\u00e9thodes d'apprentissage en profondeur (\"deep learning\"). Le jeu de donn\u00e9es a \u00e9t\u00e9 cr\u00e9\u00e9 \u00e0 des fins de formation et de simulation et n'est pas destin\u00e9 \u00e0 \u00eatre repr\u00e9sentatif d'un pays en particulier.\n\nUn jeu de donn\u00e9es est \u00e9galement disponible pour un \u00e9chantillon de 8000 m\u00e9nages, sous forme de donn\u00e9es ouvertes (open data).","keywords":[{"keyword":"donn\u00e9es synth\u00e9tiques"},{"keyword":"donn\u00e9es ouvertes"},{"keyword":"donn\u00e9es s\u00e9curis\u00e9es"},{"keyword":"d\u00e9mographie"},{"keyword":"\u00e9ducation"},{"keyword":"mortalit\u00e9"},{"keyword":"f\u00e9condit\u00e9"},{"keyword":"malnutrition infantile"},{"keyword":"travail, emploi"},{"keyword":"logement"},{"keyword":"eau et sanitation"},{"keyword":"d\u00e9penses des m\u00e9nages"},{"keyword":"migration"}],"universe":"Le jeu de donn\u00e9es est un jeu de donn\u00e9es enti\u00e8rement synth\u00e9tique repr\u00e9sentatif de la population r\u00e9sidente des m\u00e9nages ordinaires pour un pays imaginaire \u00e0 revenu interm\u00e9diaire.","geog_coverage":"Le jeu de donn\u00e9es est un jeu de donn\u00e9es synth\u00e9tiques pour un pays imaginaire. Il a \u00e9t\u00e9 cr\u00e9\u00e9 pour repr\u00e9senter la population de ce pays par province (\u00e9quivalent \u00e0 admin1) et par zones urbaines\/rurales de r\u00e9sidence.","coll_dates":[{"start":"2023","end":"2023"}],"time_periods":[{"start":"2023","end":"2023"}],"quality_statement":{"other_quality_statement":"L'ensemble de donn\u00e9es synth\u00e9tiques vise \u00e0 fournir une repr\u00e9sentation r\u00e9aliste d'un pays \u00e0 revenu interm\u00e9diaire. Un ensemble d'indicateurs\/tableaux de synth\u00e8se a \u00e9t\u00e9 produit pour assurer l'aspect r\u00e9aliste des donn\u00e9es."}},"data_access":{"dataset_availability":{"access_place_url":"https:\/\/microdata.worldbank.org\/index.php\/catalog\/study\/WLD_2023_SYNTH-CEN-FR_v01_M","access_place":"World Bank Microdata Library","file_quantity":"2 (un au niveau du m\u00e9nage, un au niveau individuel). Les deux fichiers de donn\u00e9es peuvent \u00eatre fusionn\u00e9s en utilisant la variable \"id_men\" comme cl\u00e9 de fusion.","notes":"Donn\u00e9es ouvertes (sous license CC BY 4.0)"},"dataset_use":{"contact":[{"name":"World Bank, Microdata Library"}],"restrictions":"L'ensemble de donn\u00e9es a \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9 en tant qu'ensemble de donn\u00e9es enti\u00e8rement synth\u00e9tique. Le mod\u00e8le utilis\u00e9 pour cr\u00e9er les observations synth\u00e9tiques comprend plusieurs proc\u00e9dures pour \u00e9viter le surajustement et la copie de donn\u00e9es. De plus, les donn\u00e9es utilis\u00e9es pour former le mod\u00e8le sont pass\u00e9es par des processus d'\u00e9chantillonnage et de recodage qui rendent impossible de lier une observation synth\u00e9tique \u00e0 une observation r\u00e9elle. L'ensemble de donn\u00e9es est donc s\u00fbr pour la diffusion. Il peut \u00eatre utilis\u00e9 sans restriction et est partag\u00e9 en tant que donn\u00e9es ouvertes.","disclaimer":"Les donn\u00e9es doivent \u00eatre utilis\u00e9es uniquement \u00e0 des fins de formation ou de simulation. Elles ne sont pas destin\u00e9es \u00e0 \u00eatre repr\u00e9sentatives d'un pays en particulier et ne doivent pas \u00eatre utilis\u00e9es \u00e0 des fins d'inf\u00e9rence."}},"authoring_entity":[{"name":"Development Data Group, Data Analytics Unit","affiliation":"Banque mondiale"}],"production_statement":{"funding_agencies":[{"name":"Banque mondiale","role":"Subvention du travail de recherche pour le d\u00e9veloppement de donn\u00e9es synth\u00e9tiques dans le but d'\u00e9valuer les mesures statistiques de risque de divulgation.","grant":"KP-P174174-TF0B5124","abbr":"JDC"}]},"method":{"data_collection":{"research_instrument":"Le jeu de donn\u00e9es est un jeu de donn\u00e9es synth\u00e9tique. Bien que les variables qu'il contient soient des variables g\u00e9n\u00e9ralement collect\u00e9es \u00e0 partir d'enqu\u00eates par sondage ou de recensements de population, aucun questionnaire n'est disponible pour cet ensemble de donn\u00e9es. Un \"faux\" questionnaire a cependant \u00e9t\u00e9 cr\u00e9\u00e9 pour l'\u00e9chantillon de donn\u00e9es extrait de cet ensemble de donn\u00e9es, pour \u00eatre utilis\u00e9 comme mat\u00e9riel de formation.","coll_mode":["other"],"cleaning_operations":"Le processus de g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques comprenait un ensemble de \"validateurs\" (v\u00e9rifications de coh\u00e9rence, sur la base desquelles les observations synth\u00e9tiques \u00e9taient \u00e9valu\u00e9es et rejet\u00e9es\/remplac\u00e9es si n\u00e9cessaire). De plus, un post-traitement a \u00e9t\u00e9 appliqu\u00e9 aux donn\u00e9es pour aboutir aux fichiers de donn\u00e9es distribu\u00e9s."},"method_notes":"Le jeu de donn\u00e9es a \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9 \u00e0 l'aide de REaLTabFormer, un mod\u00e8le g\u00e9n\u00e9ratif hi\u00e9rarchique \u00e0 quatre niveaux. Le mod\u00e8le de premier niveau est le g\u00e9n\u00e9rateur de composition du m\u00e9nage, qui g\u00e9n\u00e8re des variables qui d\u00e9finissent la composition de chaque m\u00e9nage (taille du m\u00e9nage et profil d\u00e9mographique de base des membres, y compris l'\u00e2ge et le lien avec le chef de m\u00e9nage). Le mod\u00e8le de deuxi\u00e8me niveau est le g\u00e9n\u00e9rateur de variables au niveau du m\u00e9nage, qui g\u00e9n\u00e8re les variables dont les valeurs sont communes \u00e0 tous les membres du m\u00e9nage (telles que les caract\u00e9ristiques du logement) en fonction de la composition du m\u00e9nage. Le mod\u00e8le de troisi\u00e8me niveau est le g\u00e9n\u00e9rateur du chef de m\u00e9nage, qui g\u00e9n\u00e8re des observations pour le chef de m\u00e9nage sur la base de la sortie des deux mod\u00e8les pr\u00e9c\u00e9dents. Le mod\u00e8le de quatri\u00e8me niveau est le g\u00e9n\u00e9rateur de membres du m\u00e9nage, qui g\u00e9n\u00e8re des donn\u00e9es sur les membres du m\u00e9nage, \u00e0 l'exclusion du chef, pour les m\u00e9nages de taille deux et plus. Le mod\u00e8le de g\u00e9n\u00e9rateur de membre du m\u00e9nage utilise les donn\u00e9es g\u00e9n\u00e9r\u00e9es par la composition du m\u00e9nage, les variables au niveau du m\u00e9nage et les mod\u00e8les de g\u00e9n\u00e9rateur de chef de m\u00e9nage. Ce mod\u00e8le hi\u00e9rarchique fournit des d\u00e9pendances relationnelles au sein d'un m\u00e9nage qui ne seraient pas garanties si tous les enregistrements \u00e9taient g\u00e9n\u00e9r\u00e9s ind\u00e9pendamment.\n\nPour impl\u00e9menter les diff\u00e9rents mod\u00e8les, nous avons adopt\u00e9 une architecture de transformateur. Le g\u00e9n\u00e9rateur de composition de m\u00e9nage est un mod\u00e8le de d\u00e9codeur qui g\u00e9n\u00e8re des donn\u00e9es \u00e0 partir d'un bruit normalement distribu\u00e9. Les trois autres mod\u00e8les utilisent un mod\u00e8le s\u00e9quence \u00e0 s\u00e9quence inspir\u00e9 de l'application de l'apprentissage en profondeur \u00e0 la traduction linguistique.\n\nDes informations plus d\u00e9taill\u00e9es sont disponibles dans la documentation technique fournie sous forme de document PDF externe.","data_processing":[{"type":"Cr\u00e9ation des donn\u00e9es synth\u00e9tiques","description":"Le processus de g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques est d\u00e9crit en d\u00e9tail dans un document technique"}]},"study_development":[]},"schematype":"survey"}