1 of 79

URFIST

rennes

 

Gérer, diffuser ses données de recherche :

Introduction aux enjeux, méthodes, pratiques

Florence Thiault

URFIST de Rennes

11 avril 2024

Unité Régionale de Formation à l’Information Scientifique et Technique - Bretagne et Pays de la Loire

* Stage / Formation

2 of 79

  • Introduction : Repères sur l’émergence d’une problématique

  • Qu’entend-on par données de recherche ?

  • Quelles questions juridiques posent les données de recherche ?

  • Qu’est-ce qu’un PGD (Plan de Gestion de données) ? A quoi sert-il ?

  • Stocker, sauvegarder, archiver ses données : quelles pratiques, quels enjeux, quelles solutions ?

  • Diffuser, partager ses données : pourquoi, comment et où ? Que peut-on partager ?

  • Ressources

2

2

Plan

3 of 79

Introduction : repères sur l’émergence d’une problématique

4 of 79

4

  • 4e paradigme de la science

    • Escience / data-based science / data-intensive science / data driven science
    • Pratique de la science passe par les données et les logiciels

« La science du XXIe siècle est la science de l’exploration des données » (F. André)

1er paradigme (il y a 1000 ans) : recherche empirique pour décrire les phénomènes naturels�

      • 2e paradigme (depuis 100 ans) : recherche théorique, à partir de modèles et de généralisations

3e paradigme (depuis quelques décennies) : recherche informatisée basée sur des simulations de phénomènes complexes

4e paradigme (aujourd’hui) : exploration de données, intégration des théories, simulations et expérimentations

Source : Jim Gray, cité par Joachim Schöpfel

Repères sur l’émergence d’une problématique

5 of 79

5

Source : Magali Moysan. Les plans de gestion de données, 2016

Que deviennent les données ?

Repères sur l’émergence d’une problématique

6 of 79

  • Rôle des données dans la validation de la recherche, comme guide de la recherche : (décret n° 2021-1572, 3 déc 2021 « respect des exigences de l'intégrité scientifique par les établissements publics contribuant au service public de la recherche » : de nouvelles obligations)

6

Enjeux liés à l’utilisation des données

7 of 79

7

Dans le contexte du mouvement global de l’accès aux données

    • Open Access : Déclaration de Berlin sur le libre accès (octobre 2003) : libre circulation des productions scientifiques et de leurs données.

« Les contributions au libre accès se composent de résultats originaux de recherches scientifiques, de données brutes et de métadonnées, de documents sources, de représentations numériques de documents picturaux et graphiques, de documents scientifiques multimédias. »

Repères sur l’émergence d’une problématique

8 of 79

8

Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016

9 of 79

9

Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016

2018

/

2017

10 of 79

10

Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016

11 of 79

  • Le rapport de l’OCDE (2007)

[ Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics ]

    • « La valeur des données réside dans leur exploitation. L’accès total et ouvert aux données scientifiques devrait devenir la norme internationale pour l’échange des données scientifiques issues de la recherche financée sur fonds publics »

  • Programme de recherche européen Horizon 2020
    • Projet pilote lancé en 2013 sur les données de recherche
    • Fait « du libre accès aux données de recherche la règle générale »
  • Programme cadre Horizon Europe pour 2021-2027 dans la continuité

11

Problématique de l’accès aux données de la recherche

financée sur fonds publics

Jalons pour l’open research data

12 of 79

12

En France :

  • Loi pour une République numérique (octobre 2016)
    • Article 30 : conditions de libre réutilisation des données de recherche

« II.- Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l'Etat, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. »

Les politiques actuelles

13 of 79

  • Axe 2 du PNSO 1 (2018) « Structurer et ouvrir les données de la recherche »
  • Collège Données de la recherche du CoSO

13

Les politiques actuelles

14 of 79

Les politiques actuelles

14

15 of 79

Les politiques actuelles

15

16 of 79

16

  • Plan d’action 2019 de l’ANR et ouverture des données de recherche

« Engagée dans une politique de science ouverte […], l’ANR appelle les coordinateurs à considérer la question des données de recherche au moment du montage et tout au long du projet. L’Agence demande à ce que les publications consécutives aux projets qu'elle finance, soient déposées en texte intégral dans une archive ouverte, et imposera de plus un plan de gestion des données (DMP) pour les projets financés à partir de 2019. »

  • Feuille de route du CNRS

Modèle de DMP / PGD ANR sur DMP Opidor

Les politiques actuelles

17 of 79

17

Les enjeux actuels des données de la recherche

De nouvelles exigences et opportunités pour le chercheur

De nouvelles perspectives pour la science

Un meilleur retour pour la société

  • Condition pour l’obtention de projets
  • Recommandation ou exigence des éditeurs
  • Nouvelle forme de publication scientifique (data paper)
  • Une garantie contre la fraude scientifique
  • Qualité du travail de recherche
  • Meilleure gestion des coûts de la recherche
  • De nouvelles directions de recherche
  • Transparence et obligation de rendre des comptes
  • Nouveaux terrains de recherche

Chloée Fabre, Gestion et diffusion des données de recherches, Callisto 2022

18 of 79

Qu’entend-on par données de recherche ?

Définition et typologie des données

19 of 79

19

  • « Pour commencer, pourriez-vous définir ce que veut dire données de la recherche ? » [Schöpfel, Kergosien, Prost, 2017]
    • Difficulté d’une définition

    • Un premier constat : leur grande diversité
      • dans leur mode d’obtention, leur nature physique, leur forme, le traitement propre à les rendre lisibles, leur support…
      • Quel(s) dénominateur(s) communs à :

Un questionnaire d’enquête sociologique

Un rapport de fouilles

Un modèle de

simulations sismiques

Un document d’archives

L’enregistrement d’un dialecte

Des séries statistiques

Qu’entend-on par données de recherche ?

20 of 79

Qu’entend-on par données de recherche ?

  • Diversité des données de la recherche

20

Source : Marie Puren. Gérer les données de la recherche, 2018

21 of 79

21

Diversité des données de la recherche

Selon le projet, les données de la recherche peuvent être :

La définition de l’OCDE :

« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche » �(OECD Principles and Guidelines for Access to Research Data from Public Funding, 2007)

Qu’entend-on par données de recherche ?

22 of 79

22

« Cette expression ne couvre pas les analyses préliminaires ou projets de documents scientifiques, programmes de travaux de recherche futurs, examens par les pairs, communications personnelles avec des collègues, ou objets matériels (échantillons de laboratoire, souches bactériennes ou animaux de laboratoire, par exemple). »

« Autres objets numériques pertinents au regard de la recherche financés sur fonds publics : métadonnées, algorithmes, flux de travail, modèles et logiciels (y compris le code connexe) issus de la recherche financée en tout ou partie sur fonds publics et utilisés dans le cadre de travaux de recherche et de développement. »

23 of 79

Typologie selon l’origine et la valeur de préservation

23

Données d’observation

  • capturées en temps réel
  • habituellement uniques, impossible à reproduire

Ex.: mesures sismiques, images d’une étoile en fin de vie, enquêtes sociologiques, fouilles archéologiques…

Données d’expérimentation

  • obtenues à partir d’équipements de laboratoire
  • souvent reproductibles, parfois coûteuses

Ex.: séquences peptidiques, résultats de réactions chimiques, observations sur des individus en situation de test…

Données computationnelles

  • générées par des modèles informatiques
  • souvent reproductibles si le modèle est correctement documenté

Ex.: modélisation du changement climatique, « reproduction » du Big Bang, modèles économiques…

Records – Traces (C. Borgman)

  • documents témoignant d’un phénomène ou d’une activité humaine
  • uniques ou non

Ex.: fonds de photographies, documents d’archives, textes de loi, ouvrages littéraires…

+ Données compilées ou dérivées

  • issues du traitement de données brutes
  • souvent reproductibles mais coûteuses

Ex.: bases de données compilées, corpus textuel préparé pour le TDM…

+ Données « de référence »

  • validées par la communauté
  • réutilisables

Ex.: décodage du génome humain, certaines données astronomiques…

C.L. Borgman, Qu’est-ce que le travail scientifique des données ? : Big data, little data, no data, 2020, en ligne, p. 46-47.

24 of 79

Typologie selon le format

24

M. Saby – Organiser, documenter et protéger ses données au quotidien (2019)

25 of 79

25

Cycle de vie des données de la recherche, CCSD, voir aussi INIST, adapté du modèle UK Data Archive

Collecter / créer les données; capturer les données avec les métadonnées; acquérir des données existantes d’un tiers.

Analyser et interpréter les données ; produire les résultats de recherche ; citer les sources de données.

Définir un espace de stockage des données

Définir les droits d’auteur et d’utilisation; contrôler les métadonnées et la documentation ; faire des copies de sauvegarde; publier et partager les données.

Préparer les données pour la conservation; migrer les données vers le meilleur format et un support adapté; les sauvegarder et les décrire dans un entrepôt de données; définir les accès et promouvoir les données archivées

Entrer, numériser, transcrire, traduire les données ; vérifier, valider nettoyer, anonymiser ; dériver des données ; décrire et documenter les données ; gérer et sauvegarder les données.

Réaliser des analyses secondaires, un suivi de recherche, une nouvelle recherche, des évaluations de la recherche…

Le cycle de vie des données

Qu’entend-on par données de recherche ?

26 of 79

26

Le cycle de vie des données

27 of 79

Quelles questions juridiques posent les données de la recherche ?

28 of 79

  • Article 30 : intègre la problématique des données de recherche
  • Principe d’ouverture par défaut, mise à disposition et libre réutilisation sous conditions
    • Libre réutilisation totale sauf si les données « sont protégées par un droit spécifique ou une réglementation particulière. »
    • Licence correspondante : CC0
  • Lionel Maurel : Quel statut pour les données de recherche après la loi numérique ?

  • Article 38 sur le TDM : modifiant le Code de la propriété intellectuelle

« Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en oeuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche »

28

Loi pour une république numérique, 2016

Quelles questions juridiques posent

les données de recherche ?

29 of 79

29

Propriété et diffusion des données de recherche depuis la Loi République Numérique

Loi République Numérique 2016

    • Principe d’ouverture par défaut : mise à disposition et libre réutilisation

Particularités à prendre en compte

    • Cas des données « protégées par un droit spécifique ou une réglementation particulière. »

Données produites à partir de fonds publics

30 of 79

Questions juridiques

  • Propriété intellectuelle
  • Droit des archives
  • Droit des bases de données
  • Droit des données publiques
  • Protection des données personnelles
  • Loi Jardé (recherches impliquant la personne humaine)
  • Code de la santé publique
  • Secret statistique
  • Conditions contractuelles (CGU, licences…)

30

Les données peuvent relever de droits multiples pour la collecte…. Et pour la publication

  • Cas du droit des bases de données / Loi Lemaire

    • Notion de donnée publique
    • « Droit sui generis des producteurs de bases de données ne peut faire obstacle à la réutilisation du contenu des bases de données que les administrations publient. » (https://siafdroit.hypotheses.org/659)

31 of 79

31

Les document administratifs sont librement communicables à toute personne qui en fait la demande, sauf exceptions légales.

Communication obligatoire

Communication interdite

Communication sous conditions

  • Données géographiques informatisées (directive INSPIRE): communication obligatoire d’office
  • Données relatives à des émissions de substances dans l’environnement (convention d’Aarhus): communication obligatoire sur demande
  • Données présentant des risques pour la défense nationale
  • Données à risque pour la sécurité de l’État, la sécurité publique, la sécurité de l’établissement
  • Données protégées par des secrets (industriel et commercial, médical, financier…)
  • Données présentant des risques pour la protection du potentiel scientifique et technique de la nation
  • Données protégées par le droit d’auteur ou autre droit de propriété intellectuelle
  • Données personnelles
  • Données statistiques
  • Données liées à un contrat avec un tiers

Si possible, mise à disposition exhaustive et immédiate, pour tous

Sinon, mise à disposition ciblée, après examen et sur demande

J. Ancelin Fabre, Le cadre juridique des données de recherche, 2021

32 of 79

32

Vidéo Doranum, https://youtu.be/AVOMdmMQjb4

33 of 79

  • Vérifier la titularité des droits

  • En fonction de la titularité des droits, respecter les droits et obligations de diffusion

    • Voir le logigramme de l’Ecole des Ponts Paristech

33

Puis-je diffuser mes données de recherche ?

34 of 79

34

  • Licences de l’Open Knowledge Foundation
    • ODC-by : Open Database Commons : partage, réutilisation et adaptation sous condition d’attribution
    • ODC-ODbL : Open Database License : partage, réutilisation et adaptation sous condition d’attribution et de licence à l’identique
    • PDDL : Public Domain dedication and License : domaine public

  • Licences Creative Commons (version 4.0)

  • Licence ouverte Etalab
    • Publication des données publiques

Attribuer une licence à son jeu de données

35 of 79

  • Principe 1 la Finalité : définir les objectifs du fichier
  • Principe 2 La pertinence : vérifier la pertinence des données
  • Principe 3 La conservation : limiter la conservation des données
  • Principe 4 Les droits : respecter les droits des personnes 
  • Principe 5 La sécurité : sécuriser les données

  • Un contact dans les universités :
    • le DPO Délégué à la protection des données (DPD) - Data Protection Officer (DPO)

  • Le RGPD (Règlement général sur la protection des données)
    • Applicable dans les pays de l’Union européenne depuis mai 2018

35

La protection des données personnelles

36 of 79

�La protection des données personnelles

  • Réfléchir à la collecte de ses données
  • Demander une autorisation si nécessaire
  • Informer les personnes
  • Recueillir le consentement si nécessaire en prévoyant tous les usages et en garder une trace
  • Prévoir un recours (contact)
  • Organiser la sécurité et la confidentialité
  • Anonymiser
  • Réfléchir à la durée de conservation

36

Préconisations / données personnelles

37 of 79

Qu’est-ce qu’un PGD (plan de de gestion de données) et à quoi sert-il ?

38 of 79

38

  • Le Plan de gestion de données (Data Management Plan)

- Un document rendu obligatoire par certains financeurs

- Mais avant tout un document utile au projet de recherche

« Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage »

Source : Doranum

C’est un document normalisé et évolutif, qui doit être mis à jour tout au long du projet et qui documente les données et indique les conditions de partage.

    • obligation ( initiative pilote H2020) ou incitation

Qu’est ce qu’un PGD et à quoi sert-il ?

39 of 79

Document technique stratégique / plan d’action

Document évolutif qui explicite les principes de gestion de vos données dans leurs différentes étapes : tout au long de leur cycle de vie : collecte/création, traitement, documentation, stockage, archivage, conservation et partage

39

Qu’est ce qu’un PGD et à quoi sert-il ?

40 of 79

40

À compléter au fur et à mesure du projet, à envoyer aux financeurs à différents stades du projet

Qu’est ce qu’un PGD et à quoi sert-il ?

41 of 79

  • Informations administratives du projet
  • Identification des jeux de données
  • Description des jeux de données
    • Types de données : origine, méthodologie, description formelle et technique, volume...
  • Standards et métadonnées
  • Partage des données
    • Modalités de dépôt ; Modalités de partage ; Licences
  • Archivage des données

41

Qu’est ce qu’un PGD et à quoi sert-il ?

42 of 79

42

Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019

43 of 79

43

  • Les éléments du PGD / DMP

Source : Doranum

Il existe différents modèles de PGD, qui comportent cependant les mêmes grandes rubriques.

Un exemple : le modèle DMP H2020 établi par la Commission européenne

Qu’est ce qu’un PGD et à quoi sert-il ?

44 of 79

  • La description des données
    • fichier texte rassemblant les informations principales sur la recherche
    • métadonnées (données sur des données) : de description, de gestion, de préservation et réutilisation

Les métadonnées permettent de répondre aux questions :

> Permet de retrouver et réutiliser facilement ses données

> Permet de connaître, évaluer et réutiliser les données des autres

44

      • QUI a créé les données ?
      • QUE contiennent-elles ?
      • sont-elles ?
      • QUAND ont-elles été créées ?
      • COMMENT ont-elles été créées ?
      • POURQUOI ont-elles été créées ?

Qu’est ce qu’un PGD et à quoi sert-il ?

45 of 79

  • Les standards de métadonnées

Modèles qui préconisent une manière uniforme de décrire les données (avec un vocabulaire contrôlé), selon :

- Le type de ressource (vidéo, image…)

- Le champ disciplinaire (représentation fine de données spécifiques) / La communauté

- L’entrepôt choisi (certains disposent déjà de standards)

45

Qu’est ce qu’un PGD et à quoi sert-il ?

46 of 79

Standards généralistes (interdisciplinaires)

Ex : Dublin Core (norme internationale depuis 2001, utilisée par l’entrepôt de données Nakala), repose sur 15 éléments qui peuvent être étendus

      • DataCite Schema

Standards disciplinaires

      • Ex : Data Documentation Initiative (DDI) > Sciences sociales

Listes de standards

46

Standard interdisciplinaire : Dublin Core

Qu’est ce qu’un PGD et à quoi sert-il ?

47 of 79

Des outils portail OPIDoR

47

48 of 79

48

Quelques modèles, issus de Sylvie Cocaud (INRAE), Rédiger un plan de gestion de données, 2022

49 of 79

Stocker, sauvegarder, archiver ses données

Quelles pratiques, quels enjeux, quelles solutions ?

5

50 of 79

50

4 objectifs :

rendre les documents

  • accessibles,
  • en préserver l’intégrité,
  • l’intelligibilité
  • la lisibilité

Stocker, sauvegarder, archiver ses données

51 of 79

Comment gérer ses données ?

  • L’organisation des données
    • Nommage / Hiérarchisation /versionning
  • La sauvegarde des données
    • Moyens offerts par l’université / Serveurs en ligne / Importance de la redondance

51

52 of 79

  • Privilégier les formats d’échange / les formats ouverts / les formats « standards » dans la discipline
  • Pour les images : formats sans compression ou compression sans perte

Quiz sur les formats

52

Format propriétaire

A privilégier

Excel (.xls, .xlsx)

Comma Separated Values (.csv)

Word (.doc, .docx)

Texte brut (.txt), or si besoin de formatage, PDF/A (.pdf)

PowerPoint (.ppt, .pptx)

PDF/A (.pdf)

Photoshop (.psd)

TIFF (.tif, .tiff)

Quicktime (.mov)

MPEG-4 (.mp4)

Formats de fichiers

53 of 79

  • Utilité
    • Se repérer entre les types de fichiers / les versions
    • Regrouper les fichiers similaires et classer automatiquement ses fichiers de façon pertinente dans les dossiers
    • Faciliter l’archivage et la préservation à long terme des fichiers

  • Quelques règles
    • Définir un plan de nommage et une arborescence de fichiers
    • Noms courts et significatifs
    • Pas de caractères spéciaux ni accentués : lettres et chiffres seulement
    • Bannir les espaces, vive les _ (tiret du 8) !
    • Dates au format américain (AAAAMMJJ)
    • Nombres sur 2 unités (ex : 01, 09…)
    • Numéros ou codes de versions

53

Nommage des fichiers

54 of 79

  • Sur plusieurs supports
  • A plusieurs endroits
  • Faire évoluer les formats

et les supports dans le temps

54

  • Sauvegarde ou travail dans le Cloud : peut poser des problèmes de sécurité / confidentialité
    • Piratage
    • Localisation des serveurs et lois nationales
    • Sensibilité de certaines recherche
  • Attention aux CGU
  • Privilégier serveurs

institutionnels

Sauvegarder, c’est dupliquer

Stockage des données

en ligne

Stocker, sauvegarder, archiver ses données

55 of 79

56 of 79

Diffuser, partager ses données

Pourquoi, comment et où ? Que peut-on partager ?

6/ Diffuser, partager ses données : pourquoi, comment et où ? Que peut-on partager ?

57 of 79

57

Source : J.C. Desconnets, P. Aventurier, S. Banon. Entrepôt de données ouvertes IRD

58 of 79

  • Transparence, validité des résultats
  • Visibilité et citabilité
  • Collaborations scientifiques potentielles

(interdisciplinarité, international...)

  • Préservation des données
  • Amélioration qualité des données
  • Réponse exigences des financeurs
  • Gain de temps

58

  • Promouvoir la transparence des recherches et les collaborations
  • Réduire les coûts et maximiser le retour sur investissement
  • Promouvoir l’innovation
  • Mettre à disposition des ressources pour l’ensemble de la société (société civile, pays moins favorisés)

Enjeux pour le

chercheur

Enjeux pour la communauté

Diffuser, partager ses données

59 of 79

59

Comment partager ? les principes FAIR

60 of 79

60

Diffuser, partager ses données

61 of 79

Quelles données partager ?

61

Points de vigilance / conditions

  • Traitement de données à caractère personnel (confidentialité) : consentement des personnes, anonymisation avant partage
  • Respect des droits de propriété intellectuelle dont les données relèvent
  • Avoir accord des détenteurs des droits
  • Définir des modalités de réutilisation > licences

Données communicables

Données non communicables

  • Données confidentielles (informations commerciales, industrielles…)
  • Secret défense et sécurité publique

62 of 79

Données de la recherche = open data

62

Avec des restrictions

respecter des interdictions de diffusion

protection du potentiel scientifique et technique de la nation (PPSN), Zone à régime restrictif (ZRR)

secret défense , secret médical, secret des affaires

– respecter les droits des tiers

respect de la vie privée, données à caractère personnel

droits de propriété intellectuelle : droits d’auteur, des bases de données

Et des obligations 

rendre accessibles certaines données

Données géographiques, environnementales (INSPIRE), projets H2020 (obligations contractuelles)

Diffuser, partager ses données

63 of 79

63

Partager ses données sensibles

  • Identifier les données sensibles
  • Traiter, anonymiser, supprimer...
  • A défaut de partager : signaler ?

Diffuser, partager ses données

64 of 79

64

Où partager ?

  • Différentes modalités
    • Entrepôts de données
    • Application Web avec services d’identification, de stockage et de partage de données de recherche structurées (Dataverse). 

« Un entrepôt de données est une archive numérique qui collecte et diffuse des jeux de données et leurs métadonnées. Un grand nombre d’entrepôts de données acceptent également des publications et permet de lier les publications afférentes. » Source : Openaire

  • Espaces de dépôt, de stockage et de diffusion des données de recherche

65 of 79

65

Entrepôts propres à un éditeur : GigaDB (GigaScience)

Entrepôts d’un champ disciplinaire : SEANOE (sciences de la mer), Réseau Quételet (sciences sociales) (PROGEDO Diffusion), Nakala (SHS)

Entrepôts d’une institution : Edinburgh Datashare, Harvard dataverse

Entrepôts généralistes/ multidisciplinaires : Dataverse Project, Zenodo

Source : Doranum

Types d’entrepôts

Sur les données :

    • Entrepôts acceptant tous les jeux de données, même non liés à une publication : Zenodo, Figshare
    • Entrepôts acceptant publications scientifiques et jeux de données : Zenodo, DRYAD

Diffuser, partager ses données

66 of 79

66

Choisir un entrepôt ?

Un entrepôt est recommandé :

    • Par votre institution, votre financeur…

Pas d’entrepôt recommandé :

    • Identifier des entrepôts via des répertoires :
      • CatOPIDoR
      • RE3data.org
      • OAD : Data Repositories

Chercher un entrepôt certifié

Trouver un entrepôt de données généraliste

    • Reconnaissance par la communauté scientifique
    • Ex : GenBank (genetic sequence database)

Entrepôts de confiance : Certification des entrepôts selon certains critères (formats des données, qualité des métadonnées..)

Diffuser, partager ses données

67 of 79

67

Source : M.-C. Jacquemot-Perbal et V. Rebouillat

Critères de choix

Diffuser, partager ses données

68 of 79

68

Un exemple de jeu de données partagées sur Zenodo :

Titre

Auteurs

Type de document

Accès

Description

Noms de fichiers

Taille

Date de publication

identifiant

Mots clés

Licence

Financement

Diffuser, partager ses données

69 of 79

70 of 79

71 of 79

Diffuser, partager ses données

Des identifiants pérennes pour les données de recherche

    • A quoi cela sert-il ?
      • À identifier les auteurs, les contributeurs et à attribuer les données de manière unique à chaque fois
      • De manière pérenne quel que soit le trajet de la ressource ou de la personne
      • Par des identifiants pérennes, non-propriétaires, ouverts et interopérables
      • Rend les données accessibles et citables, permet de les lier aux publications, augmente la visibilité.

    • Qu’est-ce qu’un identifiant pérenne ?
      • C’est un code unique, invariable, qui est associé de manière permanente à une personne (> chercheur) ou à un objet (> donnée)

71

72 of 79

  • Les différents types d’identifiants
    • Le DOI : Digital Object Identifier, identifiant �numérique d’objet
      • = chaîne de caractères�univoque et pérenne pour identifier et retrouver�les ressources
      • Association avec des métadonnées
      • Syntaxe du DOI

72

PID OPIDOR : attribuer un identifiant pérenne aux données de la recherche

Diffuser, partager ses données

73 of 79

73

La publication des données

  • Deux possibilités :
    • « Supplementary data » : publier les données dans des fichiers supplémentaires associés à l’article

74 of 79

74

  • Deuxième possibilité :
    • « Data papers » : publier un data paper dans une revue scientifique (data journal ou revue scientifique traditionnelle > stratégie des éditeurs )

Le data paper est une publication qui décrit un jeu de données scientifiques brutes (data, dataset), notamment à l’aide d’informations précises, appelées métadonnées (metadata)

Source : CoopIST / cirad

Accès aux données :

- lien vers l’entrepôt de données

- fichiers annexés

Diffuser, partager ses données

75 of 79

Data paper / data journal

  • moyen de valoriser ses données comme publications citables
  • évaluation par les pairs
  • Complémentaire au dépôt des données
  • forte incitation lors de la publication de l’article de recherche dans certaines disciplines

75

Caractéristiques :

  • Des revues sur le modèle auteur-payeur
  • Détenues par des éditeurs monopolistiques
  • Plutôt orientés STM
  • En SHS : Research Data Journal for the Humanities and Social Sciences (Brill)
  • Propriété des données
  • Des tentatives à suivre : revue RFSIC

Diffuser, partager ses données

76 of 79

  • Vous avez fait un PGD ? Vous avez bien avancé votre data paper !

76

Informations requises dans un Data Paper

Informations du PGD

Disponibilité des jeux de données

Partage / modalités prévues

Conflits d’intérêt

Description / origine des données

Etendue géographique et chronologique des données

Description / type de données

Format

Description / format

Licence

Partage / droit et licences

Remerciement / attribution des crédits

Métadonnées / responsables

Qualité

Description / origine, contrôle qualité

Provenance

Description / origine

Projet

Description / origine

Réutilisation

Partage

D’après Marie Puren, stage URFIST Gérer les données de la recherche - 2017

Diffuser, partager ses données

77 of 79

78 of 79

Généralités sur la science ouverte

Sur les données

URFIST

rennes

79 of 79