1 of 81

Borealis Admin Community Meeting

June 20, 2024

Jonathan Dorey

Meghan Goodchild

John Huck

Amber Leahey

2 of 81

Réunion de la communauté admin de Borealis

Le 20 juin 2024

Jonathan Dorey

Meghan Goodchild

John Huck

Amber Leahey

3 of 81

Icebreaker Questions /

Questions brise glace

4 of 81

Agenda

  • Housekeeping
  • Borealis Service updates
  • Dataverse Community updates
  • Show and Tell
  • Discussion / Q&A

5 of 81

Ordre du jour

  • Gestion de la rencontre :
  • Mises à jour du service Borealis
  • Mises à jour de la communauté Dataverse
  • Séance de partage
  • Discussion / Q+R

6 of 81

Saturday May 11 2024

Samedi 11 mai 2024 / 1:02 AM/ Minden, ON

By/Par : Dylanne Dearborn (UofT) Google Pixel 7

7 of 81

Borealis Updates /

Mise à jour de Borealis

8 of 81

Bilingual update /

Mise à jour bilingue

9 of 81

Upgrade updates

Upgrade to 6.2

Debrief

  • Blog post #1 - Upgrade announcement
  • Blog post #2 - Explanation of features
  • Blog post #3 - Previewers (forthcoming)

10 of 81

Information sur la mise à niveau

Mise à niveau vers 6.2

Retour

11 of 81

Upcoming Summer 2024

  • New communications templates and promotional materials
    • New Borealis & Odesi promotional materials (e.g. Print-ready stickers, postcards, etc.)
    • New Email templates with key messages
      • Researchers
      • Institutional collaborators

12 of 81

À venir à l’été 2024

  • Nouveaux modèles de communications et matériels promotionnels
    • Nouveaux matériels promotionnels Borealis et Odesi (p. ex. autocollants, cartes postales, etc.)
    • Nouveaux modèles de courriel pour messages clés
      • Pour les équipes de recherche
      • Pour la collaboration institutionnelle

13 of 81

Beta Release: Data Curation & Explorer tool

  • Stay tuned for the Beta Release of new tool in Github on July 18
    • Feedback form
    • Webinar announcement
    • Fall release plan

Beta Release coming July 18

14 of 81

  • Préparez-vous au lancement bêta d’un nouvel outil dans Github le 18 juillet
    • Formulaire de commentaires
    • Annonce d’un webinaire (début septembre)
    • Lancement prévu à l’automne

Lancement bêta prévu le 18 juillet

Outil de curation et d’exploration de données

15 of 81

Did you know?

You can now find the Learn with Borealis series recordings and slides on SPOTDocs

  • New Joiners
  • APIs
  • Permissions

Let us know what additional sessions would be helpful for you!

16 of 81

Le saviez-vous?

Vous avez désormais accès aux enregistrements de la série Apprenez avec Borealis sur SPOTDocs

Laissez-nous savoir si d’autres séances vous seraient utiles!

17 of 81

Dataverse Community Updates / Mises à jour de la communauté Dataverse

18 of 81

Upcoming & past events

  • Compute Ontario Summer School
    • Empowering Open Science: An Intro to Depositing and Sharing Research Data and Code in Borealis (June 6) Recording (login required) and slides
    • Odesi for Survey and Public Opinion Research (June 7) Recording (login required) and slides
  • Learn with Borealis: New Data Curation & Explorer Tool (Beta Release)
    • Details to be shared soon
  • Hiatus for Borealis Community Meetings in July or August - back in September!
    • Stay tuned for new Zoom registration form in August
    • Save the date: following the schedule of the last Thursday of the month at 1pm ET
  • Community next year’s focus:
    • Updates, upgrades and new features
    • Sensitive data & big data deposit workflows
    • Guidelines, policies, and capacity building initiatives across the community
    • And more!
    • Help us plan by completing our feedback form for 2023-2024

19 of 81

Évènements passés et à venir

  • École d’été de Calcul Ontario
    • Empowering Open Science: An Intro to Depositing and Sharing Research Data and Code in Borealis (6 juin) Lien et diapos
    • Using Odesi for Survey and Public Opinion Research (7 juin) Lien et diapos
  • Apprendre avec Borealis : Nouvel outil de curation et d’exploration de données (bêta)
    • Détails à venir
  • Pause des réunions de la communauté Borealis en juillet et août - retour en septembre!
    • Nouveau lien d’inscription Zoom envoyé en août
    • Réservez la date : toujours prévues le dernier jeudi du mois à 13 h HE
  • Au menu pour l’an prochain :
    • Mises à jour, mises à niveau et nouvelles fonctionnalités
    • Données sensibles et dépôt de données volumineuses
    • Directives, politiques et initiatives d’accroissement de la capacité de la communauté
    • Et plus encore!
    • Aidez-nous à planifier le tout en répondant au formulaire de commentaires pour 2023-2024

20 of 81

Show and Tell //

Séance de partage

21 of 81

Lightning Talks / Présentations éclair

  • Danica Evering and Isaac Pratt (McMaster) - CURATION: Translating National Guides Into Local Documentation
  • Anneliese Eber (Waterloo) - Lessons from the Past: Creating Effective README Files for the Future
  • Dylanne Dearborn, Jasmine Lefresne, and Ken Lui (UofT) - Assessing data deposits in an institutional data repository (U of T Dataverse in Borealis)
  • Stéphanie Pham-Dang (UdeM) - GRIL Dataverse ***postponed/reporté
  • Paul Lesack (UBC) - Dataverse Utilities

22 of 81

McMaster

23 of 81

CURATION: Translating National Guides Into Local Documentation�

[McMaster University campus, 1964 or 1965]

Isaac Pratt and Danica Evering

Research Data Management Specialist

McMaster University Library

June 20, 2024

24 of 81

How we set our data set requirements

  • McMaster Dataverse was originally set to open publish
  • When we decided to move to a ‘Submit for Review’ model, we needed a standardized process for reviewing and approving datasets
  • Our process is based on the Dataverse Curation Guide and attached paper: Creating Guidance for Canadian Dataverse Curators: Portage Network’s Dataverse Curation Guide
  • We set our curation level at around Level 1-2 following the guide
  • We identified the level of each action in the guide and identified which we could do and thought were the most important to do
  • It was important that the review assesses the sensitivity of the dataset so that we’re not publishing data that should stay private

25 of 81

How we set our data set requirements

26 of 81

Curation Log

http://hdl.handle.net/11375/29865

  • The curator fills out a new copy for each dataset as YYYY-MM-DD-Lastname_DatasetTitle.pdf
  • Can be updated as our curation practices change
  • Green/starred actions are required for a dataset to be published
  • Questions are phrased so that “YES” answers always indicate the dataset is ready for publication
  • Contains open fields for logging curator actions
  • Currently a fillable PDF – is that the right format?

27 of 81

Depositor “Pre-Flight” Checklist

http://hdl.handle.net/11375/29866

  • Proactive! Gets ahead of items that are most commonly missing in dataset submissions:
    • README files + documentation
    • Sensitive data considerations
    • Citations + credit
    • Sustainable file formats + organization
  • Sent to people enquiring about data submission and point persons for collections
  • One-page version of longer guidance - Data Deposit Guidelines + Walkthrough
  • Fillable form fields added in Adobe Acrobat Pro

28 of 81

CURATION : Traduire les guides nationaux en documentation locale�

[Campus de l’Université McMaster, 1964 ou 1965]

Isaac Pratt et Danica Evering

Spécialistes en gestion des données de recherche

Bibliothèque de l’Université McMaster

20 juin 2024

29 of 81

Quelles sont nos exigences pour les ensembles de données

  • La collection Dataverse McMaster permettait à l’origine le dépôt ouvert
  • Quand nous sommes passé au modèle “Soumettre pour révision”, nous avions besoin d’un processus normalisé pour réviser et approuver les ensembles de données
  • Notre processus se base sur le Guide pour la curation dans Dataverse et l’article : Creating Guidance for Canadian Dataverse Curators: Portage Network’s Dataverse Curation Guide
  • Notre niveau de curation se situe entre les niveaux 1 et 2 du guide
  • Nous avons passé en revue les niveaux contenus dans le guide et identifié ceux que nous pouvions faire et ceux que nous jugions les plus importants
  • La révision est importante pour examiner la sensibilité des ensembles de données pour ne pas publier ce qui devrait demeurer privé

30 of 81

How we set our data set requirements

31 of 81

Journal de curation

http://hdl.handle.net/11375/29865

  • La personne responsable de la curation remplit un nouveau formulaire pour chaque ensemble AAAA-MM-JJ-Nomdefamille_TitreEnsemble.pdf
  • Mises à jour pour suivre les pratiques de curation
  • Les actions en vert/avec étoile sont obligatoires avant la publication
  • Les questions sont formulées pour qu’un “OUI” indique toujours que l’ensemble de données est prêt à être publié
  • Contient des champs pour enregistrer les actions
  • Formulaire PDF – est-ce le bon format?

32 of 81

Liste de vérification avant dépôt

http://hdl.handle.net/11375/29866

  • Proaction! Permet de prévoir les éléments couramment absents de la soumission :
    • FIchiers LISEZMOI + documentation
    • Considérations pour les données sensibles
    • Citations + crédit
    • Formats pérennes + organisation
  • Envoyé aux personnes qui souhaitent déposer et pointe vers les collections
  • Version d’une page du guide long - Data Deposit Guidelines + Walkthrough
  • Formulaire à remplir avec Adobe Acrobat Pro

33 of 81

Waterloo

34 of 81

Lessons from the Past: Creating Effective README Files for the Future

Anneliese Eber�Research Data Management Librarian

aeber@uwaterloo.ca

June 20th, 2024

35 of 81

Problems of the Past

  • Confusion about what to put in a README
  • Submitted deposits were constantly returned to have a README added
    • Required sending detailed information on what to include
      • READMEs still submitted missing key information
  • Submitted README files had wildly different levels of detail

BOREALIS COMMUNITY MEETING

PAGE 35

36 of 81

Planning for the Future

  • What happens when students leave? Faculty?
  • Future retention policies
    • What data is kept?
    • What data is deaccessioned?
    • Do funders have retention requirements?
  • PIDs
  • Guidance to mitigate questions

BOREALIS COMMUNITY MEETING

PAGE 36

37 of 81

Key README Sections

Author Information

  • Provide a minimum of two contacts if possible
  • Author/Co-investigator/Contributor Information
  • Faculty Information
  • ORCID iDs

Funding Information

  • Granting Agency
  • Grant Number
  • Granting Agency’s Data Retention Policy

BOREALIS COMMUNITY MEETING

PAGE 37

https://bit.ly/3RyHNKo

38 of 81

BOREALIS COMMUNITY MEETING

PAGE 38

39 of 81

Leçons du passé : Créer des fichiers LISEZMOI efficaces pour l’avenir

Anneliese Eber�BIbliothécaire en gestion des données de recherche

aeber@uwaterloo.ca

20 juin 2024

40 of 81

Problèmes du passé

  • Confusion quant à quoi mettre dans un fichier LISEZMOI
  • Les ensembles de données soumis étaient constamment retournés pour que soit ajouté un fichier LISEZMOI
    • Nécessitait l’envoi d’information détaillée sur quoi inclure
      • LISEZMOI toujours soumis avec de l’information manquante
  • Les fichiers LISEZMOI étaient soumis avec différents niveaux de détails

PAGE 40

41 of 81

Planifier pour l’avenir

  • Qu’arrive-t-il quand un ou une étudiante quitte? Une ou un professeur?
  • Politiques de conservation future
    • Quelles données conserver?
    • Quelles données retirer?
    • Les organismes de financement ont-ils des exigences de conservation?
  • Identifiants pérennes
  • Directives pour répondre à ces questions

PAGE 41

42 of 81

Sections importantes d’un LISEZMOI

Information sur l’autorat

  • Un minimum de deux personnes-ressources si possible
  • Information sur la personne autrice/co-chercheuse/collaboratrice
  • Information sur le ou la professeure et la faculté/département
  • Numéro ORCID

Information sur le financement

  • Agence de financement
  • Numéro de la subvention
  • Politique de conservation de l’agence de financement

PAGE 42

https://bit.ly/3RyHNKo

43 of 81

PAGE 43

44 of 81

Toronto

45 of 81

Assessing data deposits in an institutional data repository (U of T Dataverse in Borealis)

June 20, 2024

Jasmine Lefresne, Dylanne Dearborn, Ken Lui

46 of 81

Purpose of the assessment

  • Our initial questions:
    • Who is using U of T Dataverse and how?
    • What is the quality of data deposit in U of T Dataverse?
    • What would curation support require in terms of activities and time commitment?
  • Why now?
    • Tri-Agency Research Data Management Policy
    • Exploring what a curation service model could look like
    • Updating and creating U of T Dataverse policies and guidelines
    • Support conversations with administrations

47 of 81

Our approach

  • Phase 1: Data collection (complete)
    • 1.1. Create framework of metadata fields for analysis (complete)
    • 1.2. Use APIs to export metadata (complete)
  • Phase 2: Deposit Analysis (in progress)
    • 2.1. Preliminary content analysis (complete)
    • 2.2. Detailed content analysis (in progress)
  • Phase 3: Curation Analysis
    • 3.1. Apply 3 levels of curation checklists to representative subset of data
    • 3.2. Calculate impacts of curation on all data deposits

48 of 81

1.2. Use APIs to export metadata

List of APIs

Applied

49 of 81

2.1. Deposit structures

50 of 81

2.1. Datasets published per year

51 of 81

Datasets with

Related datasets

1.66%

(13/782)

19.2%

(150/782)

ORCID

Non-UofT Author affiliation

21.0%

(164/782)

Related publications

18.3%

(143/782)

52 of 81

2.2. Questions we’re thinking about

  • What does the data tell us and what may have influenced certain deposit actions?
  • We will also take a deeper dive into certain metadata fields, for example:
    • Dataset descriptions
    • Dataset and collection titles
    • Custom licenses
    • Restricted access mechanisms and terms
  • What does an ideal data deposit look like?

53 of 81

How results can be used

  • Phase 2 (deposit analysis) will be used to:
    • Understand quality of current deposits
    • Understand how researchers are using U of T Dataverse
    • Identify areas for resource and documentation development
    • Inform training materials and departmental outreach
    • Inform priorities for technical developments
  • Phase 3 (curation analysis) will be used to:
    • Estimate the time required to provide different levels of curation support
    • Determine the value of different levels of curation support
    • Scope impact and effort to make recommendations for our curation service
    • Inform new deposit guidelines and workflows
    • Explore opportunities for automation

54 of 81

Reporting and contacts

  • Next steps - identify curation checklists to use for Phase 3
  • What we will do with the information:
    • Methodology, frameworks, and code will be made available
    • General findings at the aggregate level will be made available
    • Data and curation assessment will remain internal

________________________

Please reach out with checklists, suggestions, or questions!

Dylanne Dearborn

Jasmine Lefresne

Ken Lui

dylanne.dearborn@utoronto.ca

jasmine.lefresne@utoronto.ca

kenlh.lui@utoronto.ca

55 of 81

Évaluer les ensembles de données dans le dépôt de données institutionnel (Collection Dataverse de U of T dans Borealis)

20 juin 2024

Jasmine Lefresne, Dylanne Dearborn, Ken Lui

56 of 81

Objectif de l’évaluation

  • Nos questions initiales :
    • Qui utilise la collection Dataverse de U of T et comment?
    • Quelle est la qualité des dépôts dans la collection de U of T?
    • Quel engagement en activités et en temps le soutien à la curation nécessiterait-il?
  • Pourquoi maintenant?
    • Politique des trois organismes sur la gestion des données de recherche
    • Exploration de la portée d’un modèle de service de curation
    • Mise à jour et rédaction de politiques et directives à U of T
    • Soutient les conversations avec la haute direction

57 of 81

Notre approche

  • Phase 1 : Collecte de données (terminé)
    • 1.1. Création d’un cadre pour l’analyse des champs de métadonnées (terminé)
    • 1.2. Recours aux API pour exporter les métadonnées (terminé)
  • Phase 2 : Analyse du dépôt (en cours)
    • 2.1. Analyse de contenu préliminaire (terminé)
    • 2.2. Analyse de contenu détaillée (en cours)
  • Phase 3 : Analyse de la curation
    • 3.1. Application de 3 niveaux de la liste de curation pour un sous-ensemble représentatif
    • 3.2. Calcul de l’impact de la curation pour tous les dépôts

58 of 81

1.2. Recours aux API pour exporter les métadonnées

Liste d’API

Utilisées

59 of 81

2.1. Structure des dépôts

60 of 81

2.1. Ensembles de données publiés par année

61 of 81

Ensembles de données avec

Ensembles de données connexes

1,66 %

(13/782)

19,2 %

(150/782)

ORCID

Affiliation hors UofT

21,0 %

(164/782)

Publications connexes

18,3 %

(143/782)

62 of 81

2.2. Questions auxquelles nous réfléchissons

  • Qu’est-ce que les données nous disent et qu’est-ce qui aurait pu influencer certains dépôts?
  • Examen plus approfondi de certains champs de métadonnées, par exemple :
    • Description
    • Titres (ensembles de données et collection)
    • Licenses personnalisées
    • Mécanismes de restriction d’accès et modalités
  • À quoi un dépôt de données idéal ressemble-t-il?

63 of 81

Comment utiliser les résultats

  • Phase 2 (analyse du dépôt) permet de :
    • Comprendre la qualité des dépôts actuels
    • Comprendre comment la communauté U of T utilise la collection
    • Identifier les aspects requérant plus de ressources et de documentation
    • Développer le matériel de formation et la sensibilisation départementale
    • Définir les priorités pour le développement technique
  • Phase 3 (analyse de la curation) permet de :
    • Estimer le temps requis pour offrir divers niveaux de curation
    • Déterminer la valeur des différents niveaux de curation
    • Évaluer l’impact et les efforts en termes de recommandations pour le service de curation
    • Développer de nouvelles directives et processus pour le dépôt
    • Explorer les possibilités d’automatisation

64 of 81

Rapports et coordonnées

  • Prochaines étapes - identification des listes de vérification pour la Phase 3
  • Que ferons-nous avec l’information :
    • Méthodologie, cadre et codes seront rendus publics
    • Les conclusions générales (données agrégées) seront rendues publiques
    • L’analyse des données et du modèle de curation demeurera interne

________________________

Communiquez avec nous pour des listes de vérification, suggestions ou questions!

Dylanne Dearborn

Jasmine Lefresne

Ken Lui

dylanne.dearborn@utoronto.ca

jasmine.lefresne@utoronto.ca

kenlh.lui@utoronto.ca

65 of 81

UBC

66 of 81

Dataverse Utilities

Paul Lesack, University of British Columbia

67 of 81

What is “dataverse_utils” ?

pip install dataverse_utils

68 of 81

Now what?

Simplified file workflow

Manifest generator

Edit the TSV

Upload with the TSV uploader

69 of 81

Make the manifest

First, arrange your data the way you like it. For example:

├── Command Files

│ └── sample_data.sps

├── Data

│ └── sample_data.tsv

└── Documentation

└── README.md

Then, run the manifest generator from the terminal:

dv_manifest_gen -r * -f yourfile.tsv

70 of 81

Edit your spreadsheet

71 of 81

Upload

dv_upload_tsv -p doi:test/invalid -k yer_borealis_key -u https://borealisdata.ca yourfile.tsv

72 of 81

TLDR;

pip install dataverse_utils

Documentation: ubc-library-rc.github.io/dataverse_utils

Source code: github.com/ubc-library-rc/dataverse_utils

Just this portion of today’s presentation: plesubc.github.io/presentation/html/2024-06-20_dataverse_utils_sp.html

Visidata: visidata.org

Email: paul.lesack@ubc.ca

73 of 81

Utilitaires Dataverse

Paul Lesack, University of British Columbia

74 of 81

Qu’est-ce que “dataverse_utils” ?

pip install dataverse_utils

75 of 81

Et maintenant?

Traitement des fichiers simplifié

Générateur de manifeste

Édition du TSV

Téléversement avec l’outil TSV uploader

76 of 81

Préparer le manifeste

Tout d’abord, organiser les données selon vos critères. Par exemple :

├── Command Files

│ └── sample_data.sps

├── Data

│ └── sample_data.tsv

└── Documentation

└── README.md

Puis, exécuter le générateur de manifeste depuis une session de terminal :

dv_manifest_gen -r * -f yourfile.tsv

77 of 81

Éditer la feuille de calcul

78 of 81

Téléverser

dv_upload_tsv -p doi:test/invalid -k yer_borealis_key -u https://borealisdata.ca yourfile.tsv

79 of 81

TLDR;

pip install dataverse_utils

Documentation : ubc-library-rc.github.io/dataverse_utils

Code source : github.com/ubc-library-rc/dataverse_utils

Pour la portion de la présentation d’aujourd’hui : plesubc.github.io/presentation/html/2024-06-20_dataverse_utils_sp.html

Visidata : visidata.org

Courriel : paul.lesack@ubc.ca

80 of 81

Discussion and Q&A /

Discussion et Q+R

81 of 81

Reminders / Rappel

  • Questions, comments, or things you would like to discuss?
    • Get in touch: borealisdata.ca/#contact
  • Questions, commentaires ou autres points de discussion?
    • Pour nous joindre : borealisdata.ca/#contact

Next meetings: Prochaines rencontres :

    • Summer pause Pause estivale�Back in September! De retour en septembre!