1 of 59

Vive les métadonnées !

Les bases de Data Documentation Initiative (DDI)

Lundi 13 Juin 2022

Série de webinaires CODATA-Alliance DDI

 

2 of 59

Les bases de Data Documentation Initiative (DDI)

Vendredi 26 janvier 2023

Alina Danciu, Lucie Marie, Hilde Orten

 

3 of 59

Sommaire

3

  1. Introduction : Data Documentation Initiative (DDI), un standard FAIR
  2. Valoriser les données avec DDI
  3. DDI-Codebook
  4. DDI-Lifecycle
  5. DDI-CDI
  6. Conclusion

Vive les métadonnées, Juin 2022

4 of 59

Introduction

4

Vive les métadonnées, Juin 2022

5 of 59

Les principes FAIR

  • Facilement trouvable
  • Accessible
  • Interopérable
  • Réutilisable

“Les principes FAIR sont un ensemble de principes directeurs pour gérer les données de la recherche visant à les rendre faciles à trouver, accessibles, interopérables et réutilisables par [les chercheurs et leurs machines].”

https://www.ouvrirlascience.fr/fair-principles/

5

Vive les métadonnées, Juin 2022

6 of 59

Les principes FAIR quasi omniprésents…

  • Recommandation de l’UNESCO sur une science ouverte: la gestion des données de recherche devrait suivre les principes FAIR (et CARE).
  • Union Européenne Horizon Europe: les données de recherche devraient être FAIR.
  • “FAIR est le langage commun du EOSC”
  • Quasi impossible de trouver un projet qui ne s’appelle FAIR qqch… (FAIRsFAIR, FAIR Impact, FAIR Pillar, WorldFAIR, FAIRsFAIRsFAIR…)
  • Plus qu’une tendance?
  • Oui, parce que ce sont de bons principes pour la gestion et la réutilisation des données avec les technologies informatiques.
  • Rapport PWC: coût d'opportunité minimum de 10.2 Bn euros du fait de ne pas avoir les données FAIR: https://data.europa.eu/doi/10.2777/02999

6

Vive les métadonnées, Juin 2022

7 of 59

Les principes FAIR

  • Facilement trouvable
    • F1 Les données et les métadonnées sont identifiées par un identifiant global unique et pérenne.
    • F2 Les métadonnées décrivant les données sont riches.
    • F3 Les données et les métadonnées sont enregistrées et indexées dans un dispositif permettant de les rechercher.
    • F4 Les métadonnées spécifient l’identifiant de la donnée.
  • Accessible
    • A1 Les données et les métadonnées sont accessibles par leur identifiant via un protocole de communication standardisé.
      • A1.1 Le protocole utilisé est ouvert, libre et peut être implémenté de manière universelle.
      • A1.2 Le protocole utilisé permet l’authentification et l’autorisation si besoin.
    • A2 Les métadonnées sont accessibles même quand les données ne le sont plus.
  • Interopérable
    • I1 Les données et les métadonnées utilisent un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances.
    • I2 Les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR.
    • I3 Les données et les métadonnées incluent des liens vers d’autres (méta)données.
  • Réutilisable

https://datapartage.inrae.fr/Produire-des-donnees-FAIR

7

Vive les métadonnées, Juin 2022

8 of 59

Valoriser les données avec DDI

8

Vive les métadonnées, Juin 2022

9 of 59

Qu’est-ce que DDI ?

  • DDI = Data Documentation Initiative

  • Un standard international de métadonnées

    • Utilisé principalement en sciences sociales et comportementales, économie, santé
    • Un standard ouvert créé pour le partage et la réutilisation des données

  • Une structure pour décrire les données et les informations en lien avec celles-ci

  • Décrit des données d’enquête et des données provenant d’autres méthodes de collectes basés sur de l’observation

    • est en train d’évoluer pour couvrir de nouveaux types de données, ainsi que des données provenant d’autres domaines que les SHS ou la santé

9

Vive les métadonnées, Juin 2022

10 of 59

Pour en savoir plus

  • Site web DDI
    • http://www.ddialliance.org/
    • Un site de référence, en anglais
      • Apprendre (ressources auto-formation)
      • Produits
      • Événements
      • Publications
      • Collaborations
      • À propos de

10

Vive les métadonnées, Juin 2022

11 of 59

Pourquoi utiliser DDI?

DDI encourage la description complète des données pour leur exploration et analyse et soutient le partage des données. DDI étant une norme structurée, elle facilite l'interopérabilité des systèmes et peut être utilisée pour piloter ceux-ci. Une autre caractéristique de DDI est l'accent que la norme met sur la réutilisation des métadonnées ; « saisir une fois, utiliser souvent » signifie que vous pouvez ré-utiliser les métadonnées tout au long de leur cycle de vie pour éviter une duplication coûteuse des efforts.

Source: http://www.ddialliance.org/training/why-use-ddi

11

Vive les métadonnées, Juin 2022

12 of 59

Atouts de DDI

  • Interopérabilité

  • Contenu riche
    • Granularité fine

  • Accroît la « visibilité » des données
    • Précision dans la recherche

  • Communauté internationale

12

Vive les métadonnées, Juin 2022

13 of 59

Challenges de DDI

  • Complexité

  • Niveau d’adhésion des chercheurs

13

The DDI, FAIR Convergence Symposium 2020

14 of 59

Utilisateurs de DDI

Organisations

  • Banque mondiale
  • Université de Harvard
  • Sciences Po
  • Data Liberation Initiative (Statistics Canada)
  • US Census Bureau/MPC
  • ICPSR
  • INSEE France (et d’autres instituts statistiques à travers le monde)
  • Norwegian Agency for Shared Services in Education and Research (Sikt)
  • UK Data Archive
  • Zentralarchiv für Empirische Sozialforschung (GESIS)
  • RODA (Romanian Social Data Archive)

Projets

  • CESSDA Data Portal
  • Australian Social Science Data Archive
  • DAMES Project (UK)
  • DataFirst (at University of Cape Town)
  • Israel Social Science Data Center
  • ODESI (Canada)
  • Statistics New Zealand
  • ResearchDataGouv.fr

14

Vive les métadonnées, Juin 2022

15 of 59

Utilisateurs de DDI

15

Vive les métadonnées, Juin 2022

16 of 59

Public cible DDI

  • Ingénieurs données
  • Administrateurs d’entrepôts/banques de données
  • Financeurs
  • Producteurs de données
  • Chercheurs
  • Développeurs

16

Vive les métadonnées, Juin 2022

17 of 59

Commencer à utiliser DDI

  • Déroutant au début
    • Le processus est décomposé en étapes
  • Ressources utiles
  • Listes d’utilisateurs DDI

17

Vive les métadonnées, Juin 2022

18 of 59

Interprétation de DDI

  • Écrite en format XML
  • Besoin d’un outil pour l’interpréter
  • Les plus connus :
    • Nesstar
    • Colectica
    • Dataverse

Pour en savoir plus : https://ddialliance.org/resources/tools

18

Vive les métadonnées, Juin 2022

19 of 59

Interprétation de DDI (2)

  • Écrite en XML
    • Le schéma XML est une manière de baliser le texte en fonction de son sens et non de son apparence
    • Définition
      • Des balises disponibles
      • L’ordre dans lequel les balises apparaissent
      • Si les balises sont obligatoires ou optionnelles
      • Si les balises se répètent ou non

19

Vive les métadonnées, Juin 2022

20 of 59

Exemples de balises DDI

<titl>Canadian Community Health Survey, 2012: Annual Component </titl>

<labl>Questionnaire (.pdf)</labl>

<dataDscr><notes>The variables in this study are identical to earlier waves. </notes></dataDscr>

<titl>Canadian Gallup Poll, May 2000</titl>

<dataChck>Quality checks were performed by Carleton University Data Centre. </dataChck>

<titl>Survey of Household Spending, 2001 [Canada]</titl>

<varQnty>255</varQnty>

<titl>Canadian Gallup Poll, May 1949, #186</titl>

<copyright>Copyright Gallup Canada Inc., 1950</copyright>

20

Vive les métadonnées, Juin 2022

21 of 59

En résumé

  • DDI est un standard de métadonnées puissant à condition que
    • l’information correcte soit rentrée dans les champs corrects
  • Besoin d’outils pour éditer les métadonnées et les publier

21

Vive les métadonnées, Juin 2022

22 of 59

Produits DDI

  • Le standard DDI s’est développé à travers le temps
    • Continue à se développer en fonction des besoins des utilisateurs
  • Trois produits principaux existent actuellement
    • DDI Codebook
    • DDI Lifecycle
    • DDI CDI (à venir)
  • Chacun a été développé pour un but différent

22

Vive les métadonnées, Juin 2022

23 of 59

Produits DDI (2)

23

24 of 59

Alliance DDI

  • En charge du développement et maintien du standard
  • Jared Lyle (ICPSR) directeur
  • Conseil scientifique, Comité technique, Groupes de travail

Devenez membre de l’Alliance DDI!

24

25 of 59

DDI Codebook

25

Vive les métadonnées, Juin 2022

26 of 59

Besoins en termes de métadonnées

  • Quelles sont les informations qui sont indispensables pour l’utilisation d’un fichier de données ?
  • Quelles sont les informations supplémentaires que vous aimeriez avoir, au cas où elles seraient disponibles ?

26

Vive les métadonnées, Juin 2022

27 of 59

DDI Codebook

27

Data manager perdu

Métadonnées non structurées

Métadonnées structurées avec le standard DDI Codebook

DDI Codebook structures

Vive les métadonnées, Juin 2022

28 of 59

DDI Codebook

  • Une structure qui facilite la production de codebook qui peuvent être lus par l’homme et la machine
  • Utilisé pour documenter des enquêtes déjà produites

  • Construit pour produire un codebook physique
    • c’est-à-dire, décrire un jeu de données, une seule étude ou une seule édition ou vague d’une étude répétée
  • La version la plus récente est 2.5

28

Vive les métadonnées, Juin 2022

29 of 59

DDI Codebook (2)

  • Assez “simple”
  • Sections
    • Description du document
    • Description de l’étude
    • Description des fichiers de données
    • Description des variables
    • Autres documents liés à l’étude

29

Vive les métadonnées, Juin 2022

30 of 59

Colectica for Excel

  • Importer des fichiers de données à partir de SPSS, Stata ou SAS pour les documenter dans Excel
  • Exporter les métadonnées au format DDI

30

Vive les métadonnées, Juin 2022

31 of 59

Nesstar Publisher

  • Créer et éditer des métadonnées au format DDI
  • Extraire les métadonnées des logiciels statistiques
  • Valider les métadonnées et les variables
  • Documentation au niveau de la variable
  • Création de codebook

31

Vive les métadonnées, Juin 2022

32 of 59

Dataverse

  • Édition de métadonnées
    • Créer et éditer des métadonnées au format DDI (description de l’enquête)
    • Utilisation de vocabulaires contrôlés
  • Entrepôt de données et métadonnées
    • Moteur de recherche puissant
    • Plug-ins existent pour la documentation et l’exploration des variables (ex : Data Explorer)

32

Vive les métadonnées, Juin 2022

33 of 59

DDI Lifecycle

33

Vive les métadonnées, Juin 2022

34 of 59

Les spécifications DDI-L

  • Conçu :

    • Pour répondre à un large éventail d’exigences typiques de la gestion et de l’utilisation des métadonnées

    • Pour prendre en charge tous les types de réutilisation et pour fonctionner avec des approches par registre et par référentiel

34

Vive les métadonnées, Juin 2022

35 of 59

DDI-L : le cycle de vie des données

35

Vive les métadonnées, Juin 2022

36 of 59

DDI-L en 60 secondes

36

Vive les métadonnées, Juin 2022

37 of 59

DDI-L en 60 secondes

37

Vive les métadonnées, Juin 2022

38 of 59

DDI-L : spécifications et métadonnées

38

Vive les métadonnées, Juin 2022

39 of 59

DDI-L : réutilisation des métadonnées

39

Vive les métadonnées, Juin 2022

40 of 59

DDI-L en action : Base permanente des équipements

40

Vive les métadonnées, Juin 2022

41 of 59

Autres standards DDI

XKOS pour décrire les classifications

https://rdf-vocabulary.ddialliance.org/xkos.html

DISCO pour faciliter la découverte des jeux de données

https://rdf-vocabulary.ddialliance.org/discovery.html

SDTL pour représenter les commandes de transformation de données structurées

https://ddialliance.org/products/sdtl/1.0

41

Vive les métadonnées, Juin 2022

42 of 59

DDI - Cross-Domain Integration (DDI-CDI)

42

Vive les métadonnées, Juin 2022

43 of 59

DDI-CDI

  • Décrit différentes structures de données
  • Conçu pour fonctionner avec d’autres standards et décrire des données de domaines différents
  • Capture la provenance des données

Vive les métadonnées, Juin 2022

44 of 59

DDI-CDI

  • Complémentaire à DDI-C et DDI-L
  • Permet de décrire différents types de structuration de données
  • Restitue la provenance de données hétérogènes
  • Destiné à être utilisé dans un large éventail de domaines
    • Différents types de données et modèles
    • Terminologie plus abstraite/générales

44

Vive les métadonnées, Juin 2022

45 of 59

DDI-CDI

  • Nouveau type de spécification
  • À utiliser avec de nombreux autres standards
  • À utiliser comme un “compagnon” de DDI-C, DDI-L et autres standards (DCAT, PROV, etc.)
  • Ne les remplace pas
  • Ajoute un cadre pour décrire des types de données différents
  • Élargit la capacité de décrire les processus et la provenance

45

Vive les métadonnées, Juin 2022

46 of 59

DDI-CDI et FAIR

  • Beaucoup d'activités dans le monde des données pour rendre les données scientifiques plus Facilement trouvable et Accessible
  • Jusqu’à présent, pas autant d’intérêt pour les points Interopérable et Réutilisable
  • DDI-CDI se concentre sur ces aspects FAIR également
  • Il s’avère aussi très utile pour l’exploration des données
  • L'interopérabilité et la réutilisation des données dépendent des métadonnées
  • Historiquement, ces aspects de la gestion des données sont coûteux et n'ont pas été pleinement encouragés par les financeurs – FAIR change cette situation
  • L'accent mis aujourd'hui sur les données FAIR exige que nous fassions plus !

Vive les métadonnées, Juin 2022

47 of 59

DDI-CDI , un nouveau type de produit

DDI Codebook et DDI Lifecycle sont des spécifications de métadonnées pour les sciences sociales, comportementales et économiques

  • Ils sont suffisamment génériques pour être utilisés dans des domaines similaires (statistiques officielles, santé publique…)
  • Ils utilisent des termes et modèles spécifiques au domaine des SHS
  • DDI-CDI est différent : il est destiné à être utilisé dans un plus grand nombre de domaines
  • Différents types de données/modèles
  • Terminologie plus abstraite/générale

DDI-CDI est un nouveau type de spécification, destinée à être utilisée avec de nombreuses autres normes, dans le cadre des SHS et en dehors

Vive les métadonnées, Juin 2022

48 of 59

DDI-CDI : Étude de cas

Vive les métadonnées, Juin 2022

49 of 59

Conclusion

49

Vive les métadonnées, Juin 2022

50 of 59

Conclusion

  • Ne pas négliger l’importance des métadonnées

Coûts et bénéfices*

  • Prévoir le plus tôt possible la gestion des métadonnées dans le cycle de vie des données
  • Respecter les standards comme DDI et utiliser des vocabulaires contrôlés
  • Adapter sa stratégie au type de projet (données collectées, données hétérogènes…) et aux ressources (humaines, financières)

Yes, we can do it!

*Cf. Cost of not having FAIR research metadata doi: 10.2777/02999

50

Vive les métadonnées, Juin 2022

51 of 59

Stratégies

51

Le scénario A

  • Création de métadonnées standard, importation de métadonnées à partir de fichiers de données, prise en charge des systèmes d’exploration de données (portails, catalogues)

Le scénario B

  • Centralisation de la gestion des métadonnées : Single Source of Truth (entrepôt de données)
  • Usage optimal des outils et des processus de documentation existants dans le 1er niveau pour la création, l’édition des métadonnées
  • Gestion des versions possibles

Le scénario C

  • La collecte de métadonnées tout au long du cycle de vie des données dès la conception du projet (enquêtes, flux de données, données agrégées...)
  • La gestion et la documentation des données selon les producteurs et à travers le temps

Vive les métadonnées, Juin 2022

52 of 59

Outils DDI : sommaire

52

  • Références complémentaires :
    • European DDI Conference 2021. Training FAIR, Track 3: DDI Tools and Services

  • Outils les plus utilisés :
    • Colectica (pour Excel, Designer, Portal…)
    • Dataverse (édition + entrepôt)
    • Nesstar (édition)

Vive les métadonnées, Juin 2022

53 of 59

Questions ?

53

54 of 59

Remerciements

Contenu traduit et adapté à partir de diapositives rédigées par le groupe de travail DDI Training Group. Basé sur du contenu développé lors du workshop DDI Train-the-Trainers qui a eu lieu à Dagstuhl en 2018.

Traduction : Alina Danciu, Christophe Dzikowski

Révision de la traduction : François Loretan, Benjamin Peuch

La partie DDI-C et DDI-CDI est une adaptation en français de Jane Fry, Arofan Gregory, Hilde Orten. (2020, December 4) The DDI, FAIR Convergence Symposium 2020

La partie sur DDI-L et la diapo Stratégies ont été reprises à partir de Alina Danciu, Alexandre Mairot. (2019, March 14). Data Documentation Initiative (DDI), un standard de documentation des données. Webinaires Tuto Mate. https://doi.org/10.5281/zenodo.6590698

The DDI, FAIR Convergence Symposium 2020

54

55 of 59

Alina Danciu

Guillaume Duffes

Adrian Dușa

Lauren Eickhorst

Dan Gillman

Arofan Gregory

Taras Günther

Lea Sztuk Haahr

Sanda Ionescu

Jon Johnson

Chifundo Kanjala

Kaia Kulla

Remerciements

DDI Train-the-Trainers Dagstuhl workshop 2018 participants

Amber Leahey

Alexandre Mairot

Johan Fihn Marberg

Hayley Mills

Olof Olofsson

Hilde Orten

Anja Perry

Dan Smith

Wendy Thomas

Joachim Wackerow

Knut Wenzig

The DDI, FAIR Convergence Symposium 2020

56 of 59

Références

  • DDI Alliance. Data Documentation Initiative. http://www.ddi-alliance.org/
  • Fry, J., Cooper, A., Mowers, S., & Carrington, C. (2019). “Best Practices Document: based on DDI 2.x, version 3.1”. https://bit.ly/3mhLmmH
  • Jacobs, J. (2006). “Evolution of Data Documentation”. Workshop “A Gentle Introduction to DDI: What’s in it for Me?” presented at IASSIST 2006.
  • Orten, H., Beuster, B., & Jääskelainen, T. (2019). «What can DDI do for you? AN introduction to the DDI. Presented at EDDI 2019. DOI: 10.5281/zenodo.3597192
  • Perry, A. & Fry, J. “Introduction to DDI: Basic Concepts and How to Develop Skills for Training Researchers” IASSIST 2019.
  • Schloss Dagstuhl, October 2014. “DDI Basics”. https://bit.ly/2ZkdoTu
  • Vardigan, M. & Wackerow, J. (2013). DDI – A metadata standard for the community. Paper presented at the North American Data Documentation Initiative Conference (NADDI) 2013. https://bit.ly/2J7RDTQ

56

The DDI, FAIR Convergence Symposium 2020

57 of 59

57

Steine unsortiert

Steine sortiert

Bagger (3516880947_0f44a89c1c_z.jpg)

Bagger (lego-717196_960_720.png)

Bagger (3514881626_be3e87cc58_o.jpg)

Bagger (4485538519_d4ef5e284b_o.jpg)

Health (health-2640352_640.jpg)

Picture credits

The DDI, FAIR Convergence Symposium 2020

58 of 59

L’alliance DDI …

  • Organisation indépendante, membres actifs à travers le monde
    • Créée en 2003

  • Les membres ont leur mot à dire en ce qui concerne le développement de DDI

  • Directeur executif
    • Jared Lyle

  • Information en ligne
    • Membres, charte, règlements, formulaires …
    • Publications, conférences, groupes de travail, …

58

Vive les métadonnées, Juin 2022

59 of 59

L’alliance DDI

  • Organisation :

    • Bureau exécutif - L'organe de décision et de coordination de l'Alliance.
    • Conseil scientifique - Responsable du travail de développement de la norme.
    • Comité technique - Pour maintenir les différents produits DDI, en collaboration avec les différents groupes de travail de l'Alliance DDI.
    • Groupes de travail : ils se réunissent pour travailler sur différentes activités et différents sujets dans les domaines de travail de l'Alliance DDI.

59

Vive les métadonnées, Juin 2022