URFIST
rennes
Gérer, diffuser ses données de recherche :
Introduction aux enjeux, méthodes, pratiques
Florence Thiault
URFIST de Rennes
11 avril 2024
Unité Régionale de Formation à l’Information Scientifique et Technique - Bretagne et Pays de la Loire
* Stage / Formation
2
2
Plan
Introduction : repères sur l’émergence d’une problématique
4
« La science du XXIe siècle est la science de l’exploration des données » (F. André)
⮊ 1er paradigme (il y a 1000 ans) : recherche empirique pour décrire les phénomènes naturels�
⮊ 3e paradigme (depuis quelques décennies) : recherche informatisée basée sur des simulations de phénomènes complexes
⮊ 4e paradigme (aujourd’hui) : exploration de données, intégration des théories, simulations et expérimentations
Source : Jim Gray, cité par Joachim Schöpfel
Repères sur l’émergence d’une problématique
5
Source : Magali Moysan. Les plans de gestion de données, 2016
Que deviennent les données ?
Repères sur l’émergence d’une problématique
6
Enjeux liés à l’utilisation des données
H. Maisonneuve, AFIS, https://www.afis.org/Biais-et-embellissements-polluent-la-science
7
Dans le contexte du mouvement global de l’accès aux données
« Les contributions au libre accès se composent de résultats originaux de recherches scientifiques, de données brutes et de métadonnées, de documents sources, de représentations numériques de documents picturaux et graphiques, de documents scientifiques multimédias. »
Repères sur l’émergence d’une problématique
8
Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016
9
Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016
2018
2017
10
Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016
[ Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics ]
11
Problématique de l’accès aux données de la recherche
financée sur fonds publics
Jalons pour l’open research data
12
En France :
« II.- Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l'Etat, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. »�
Les politiques actuelles
13
Les politiques actuelles
Les politiques actuelles
14
Les politiques actuelles
15
16
« Engagée dans une politique de science ouverte […], l’ANR appelle les coordinateurs à considérer la question des données de recherche au moment du montage et tout au long du projet. L’Agence demande à ce que les publications consécutives aux projets qu'elle finance, soient déposées en texte intégral dans une archive ouverte, et imposera de plus un plan de gestion des données (DMP) pour les projets financés à partir de 2019. »
Modèle de DMP / PGD ANR sur DMP Opidor
Les politiques actuelles
17
Les enjeux actuels des données de la recherche
De nouvelles exigences et opportunités pour le chercheur
De nouvelles perspectives pour la science
Un meilleur retour pour la société
Chloée Fabre, Gestion et diffusion des données de recherches, Callisto 2022
Qu’entend-on par données de recherche ?
Définition et typologie des données�
19
Un questionnaire d’enquête sociologique
Un rapport de fouilles
Un modèle de
simulations sismiques
Un document d’archives
L’enregistrement d’un dialecte
Des séries statistiques
Qu’entend-on par données de recherche ?
Qu’entend-on par données de recherche ?�
20
Source : Marie Puren. Gérer les données de la recherche, 2018
21
Diversité des données de la recherche
Selon le projet, les données de la recherche peuvent être :
La définition de l’OCDE :
« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche » �(OECD Principles and Guidelines for Access to Research Data from Public Funding, 2007)
Qu’entend-on par données de recherche ?
22
« Cette expression ne couvre pas les analyses préliminaires ou projets de documents scientifiques, programmes de travaux de recherche futurs, examens par les pairs, communications personnelles avec des collègues, ou objets matériels (échantillons de laboratoire, souches bactériennes ou animaux de laboratoire, par exemple). »
« Autres objets numériques pertinents au regard de la recherche financés sur fonds publics : métadonnées, algorithmes, flux de travail, modèles et logiciels (y compris le code connexe) issus de la recherche financée en tout ou partie sur fonds publics et utilisés dans le cadre de travaux de recherche et de développement. »
Typologie selon l’origine et la valeur de préservation
23
Données d’observation
Ex.: mesures sismiques, images d’une étoile en fin de vie, enquêtes sociologiques, fouilles archéologiques…
Données d’expérimentation
Ex.: séquences peptidiques, résultats de réactions chimiques, observations sur des individus en situation de test…
Données computationnelles
Ex.: modélisation du changement climatique, « reproduction » du Big Bang, modèles économiques…
Records – Traces (C. Borgman)
Ex.: fonds de photographies, documents d’archives, textes de loi, ouvrages littéraires…
+ Données compilées ou dérivées
Ex.: bases de données compilées, corpus textuel préparé pour le TDM…
+ Données « de référence »
Ex.: décodage du génome humain, certaines données astronomiques…
C.L. Borgman, Qu’est-ce que le travail scientifique des données ? : Big data, little data, no data, 2020, en ligne, p. 46-47.
Typologie selon le format
24
M. Saby – Organiser, documenter et protéger ses données au quotidien (2019)
25
Cycle de vie des données de la recherche, CCSD, voir aussi INIST, adapté du modèle UK Data Archive
Collecter / créer les données; capturer les données avec les métadonnées; acquérir des données existantes d’un tiers.
Analyser et interpréter les données ; produire les résultats de recherche ; citer les sources de données.
Définir un espace de stockage des données
Définir les droits d’auteur et d’utilisation; contrôler les métadonnées et la documentation ; faire des copies de sauvegarde; publier et partager les données.
Préparer les données pour la conservation; migrer les données vers le meilleur format et un support adapté; les sauvegarder et les décrire dans un entrepôt de données; définir les accès et promouvoir les données archivées
Entrer, numériser, transcrire, traduire les données ; vérifier, valider nettoyer, anonymiser ; dériver des données ; décrire et documenter les données ; gérer et sauvegarder les données.
Réaliser des analyses secondaires, un suivi de recherche, une nouvelle recherche, des évaluations de la recherche…
Le cycle de vie des données
Qu’entend-on par données de recherche ?
26
UNIL – 2019 Le cycle de vie des données
Le cycle de vie des données
Quelles questions juridiques posent les données de la recherche ?
« Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en oeuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche »
28
Loi pour une république numérique, 2016
Quelles questions juridiques posent
les données de recherche ?
29
Propriété et diffusion des données de recherche depuis la Loi République Numérique
Loi République Numérique 2016
Particularités à prendre en compte
Données produites à partir de fonds publics
Questions juridiques
30
Les données peuvent relever de droits multiples pour la collecte…. Et pour la publication
31
Les document administratifs sont librement communicables à toute personne qui en fait la demande, sauf exceptions légales.
Communication obligatoire
Communication interdite
Communication sous conditions
Si possible, mise à disposition exhaustive et immédiate, pour tous
Sinon, mise à disposition ciblée, après examen et sur demande
J. Ancelin Fabre, Le cadre juridique des données de recherche, 2021
32
Vidéo Doranum, https://youtu.be/AVOMdmMQjb4
33
Puis-je diffuser mes données de recherche ?
34
Attribuer une licence à son jeu de données
35
La protection des données personnelles
�La protection des données personnelles�
36
Préconisations / données personnelles
Qu’est-ce qu’un PGD (plan de de gestion de données) et à quoi sert-il ?
38
- Un document rendu obligatoire par certains financeurs
- Mais avant tout un document utile au projet de recherche
« Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage »
Source : Doranum
C’est un document normalisé et évolutif, qui doit être mis à jour tout au long du projet et qui documente les données et indique les conditions de partage.
Qu’est ce qu’un PGD et à quoi sert-il ?
Document technique stratégique / plan d’action
Document évolutif qui explicite les principes de gestion de vos données dans leurs différentes étapes : tout au long de leur cycle de vie : collecte/création, traitement, documentation, stockage, archivage, conservation et partage
39
Qu’est ce qu’un PGD et à quoi sert-il ?
40
À compléter au fur et à mesure du projet, à envoyer aux financeurs à différents stades du projet
Qu’est ce qu’un PGD et à quoi sert-il ?
41
Qu’est ce qu’un PGD et à quoi sert-il ?
42
Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019
43
Source : Doranum
Il existe différents modèles de PGD, qui comportent cependant les mêmes grandes rubriques.
Un exemple : le modèle DMP H2020 établi par la Commission européenne
Qu’est ce qu’un PGD et à quoi sert-il ?
Les métadonnées permettent de répondre aux questions :
> Permet de retrouver et réutiliser facilement ses données
> Permet de connaître, évaluer et réutiliser les données des autres
44
Qu’est ce qu’un PGD et à quoi sert-il ?
Modèles qui préconisent une manière uniforme de décrire les données (avec un vocabulaire contrôlé), selon :
- Le type de ressource (vidéo, image…)
- Le champ disciplinaire (représentation fine de données spécifiques) / La communauté
- L’entrepôt choisi (certains disposent déjà de standards)
45
Qu’est ce qu’un PGD et à quoi sert-il ?
Standards généralistes (interdisciplinaires)
Ex : Dublin Core (norme internationale depuis 2001, utilisée par l’entrepôt de données Nakala), repose sur 15 éléments qui peuvent être étendus
Standards disciplinaires
Listes de standards
46
Standard interdisciplinaire : Dublin Core
Qu’est ce qu’un PGD et à quoi sert-il ?
Des outils portail OPIDoR
47
48
Quelques modèles, issus de Sylvie Cocaud (INRAE), Rédiger un plan de gestion de données, 2022
Stocker, sauvegarder, archiver ses données
Quelles pratiques, quels enjeux, quelles solutions ?
5
50
4 objectifs :
rendre les documents
Stocker, sauvegarder, archiver ses données
Comment gérer ses données ?
51
52
Format propriétaire
A privilégier
Excel (.xls, .xlsx)
Comma Separated Values (.csv)
Word (.doc, .docx)
Texte brut (.txt), or si besoin de formatage, PDF/A (.pdf)
PowerPoint (.ppt, .pptx)
PDF/A (.pdf)
Photoshop (.psd)
TIFF (.tif, .tiff)
Quicktime (.mov)
MPEG-4 (.mp4)
Formats de fichiers
53
Nommage des fichiers
et les supports dans le temps
54
institutionnels
Sauvegarder, c’est dupliquer
Stockage des données
en ligne
Stocker, sauvegarder, archiver ses données
Diffuser, partager ses données
Pourquoi, comment et où ? Que peut-on partager ?
6/ Diffuser, partager ses données : pourquoi, comment et où ? Que peut-on partager ?
57
Source : J.C. Desconnets, P. Aventurier, S. Banon. Entrepôt de données ouvertes IRD
(interdisciplinarité, international...)
58
Enjeux pour le
chercheur
Enjeux pour la communauté
Diffuser, partager ses données
59
Comment partager ? les principes FAIR
60
Source : Viet Jeannaud. Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ? Doranum, Mars 2018.
Diffuser, partager ses données
Quelles données partager ?
61
Points de vigilance / conditions
Données communicables
Données non communicables
Données de la recherche = open data
62
Avec des restrictions
– respecter des interdictions de diffusion
protection du potentiel scientifique et technique de la nation (PPSN), Zone à régime restrictif (ZRR)
secret défense , secret médical, secret des affaires
– respecter les droits des tiers
respect de la vie privée, données à caractère personnel
droits de propriété intellectuelle : droits d’auteur, des bases de données
Et des obligations
rendre accessibles certaines données
Données géographiques, environnementales (INSPIRE), projets H2020 (obligations contractuelles)
D’après André, Francis. Les données de recherche ? Il y a beaucoup à dire et à FAIR ! , Rennes, 2017
Diffuser, partager ses données
Guide ANDS sur les données sensibles (australien) / Arbre de décision
63
Partager ses données sensibles
Diffuser, partager ses données
64
Où partager ?
« Un entrepôt de données est une archive numérique qui collecte et diffuse des jeux de données et leurs métadonnées. Un grand nombre d’entrepôts de données acceptent également des publications et permet de lier les publications afférentes. » Source : Openaire
65
Entrepôts propres à un éditeur : GigaDB (GigaScience)
Entrepôts d’un champ disciplinaire : SEANOE (sciences de la mer), Réseau Quételet (sciences sociales) (PROGEDO Diffusion), Nakala (SHS)
Entrepôts d’une institution : Edinburgh Datashare, Harvard dataverse
Entrepôts généralistes/ multidisciplinaires : Dataverse Project, Zenodo
Source : Doranum
Types d’entrepôts
Sur les données :
Diffuser, partager ses données
66
Choisir un entrepôt ?
Un entrepôt est recommandé :
Pas d’entrepôt recommandé :
Chercher un entrepôt certifié
Trouver un entrepôt de données généraliste
Entrepôts de confiance : Certification des entrepôts selon certains critères (formats des données, qualité des métadonnées..)
Diffuser, partager ses données
67
Source : M.-C. Jacquemot-Perbal et V. Rebouillat
Critères de choix
Diffuser, partager ses données
68
Un exemple de jeu de données partagées sur Zenodo :
Titre
Auteurs
Type de document
Accès
Description
Noms de fichiers
Taille
Date de publication
identifiant
Mots clés
Licence
Financement
Diffuser, partager ses données
Diffuser, partager ses données
Des identifiants pérennes pour les données de recherche
71
72
PID OPIDOR : attribuer un identifiant pérenne aux données de la recherche
Diffuser, partager ses données
73
La publication des données
74
Le data paper est une publication qui décrit un jeu de données scientifiques brutes (data, dataset), notamment à l’aide d’informations précises, appelées métadonnées (metadata)
Source : CoopIST / cirad
Accès aux données :
- lien vers l’entrepôt de données
- fichiers annexés
Diffuser, partager ses données
Data paper / data journal
75
Nature – Instructions aux auteurs
Caractéristiques :
Diffuser, partager ses données
76
Informations requises dans un Data Paper | Informations du PGD |
Disponibilité des jeux de données | Partage / modalités prévues |
Conflits d’intérêt | Description / origine des données |
Etendue géographique et chronologique des données | Description / type de données |
Format | Description / format |
Licence | Partage / droit et licences |
Remerciement / attribution des crédits | Métadonnées / responsables |
Qualité | Description / origine, contrôle qualité |
Provenance | Description / origine |
Projet | Description / origine |
Réutilisation | Partage |
D’après Marie Puren, stage URFIST Gérer les données de la recherche - 2017
Diffuser, partager ses données
Généralités sur la science ouverte
Sur les données
URFIST
rennes
Questionnaire d’évaluation du stage
https://enquetes.univ-rennes2.fr/limesurvey/index.php/341726?lang=fr