1 of 23

Dedup and FRBR Test Utility

Alma - Primo VE

Octobre 2021

2 of 23

Rôle et accès à la fonctionnalité

  • Discovery Operator - Limited
    • Menu Configuration
      • Discovery
        • Dedup and FRBR Test Utility

2

Les fonctionnalités Manage Tags et Resource Recommender Configuration font l’objet d’une autre formation.

3 of 23

Que peut-on faire ?

  • Identifier les notices correspondantes
  • Comparer des notices
  • Pour les regroupements FRBR
  • Pour les regroupements DEDUP
  • Recalculer les groupes FRBR et DEDUP

4 of 23

Problèmes identifiés

  • Pas de correspondance
  • Les notices correspondent mais ne sont pas regroupées dans la base de données
    • les métadonnées ont été modifiées mais la notice n’a pas été ré-indexée
    • la notice est regroupée avec un autre groupe FRBR
  • Pas de correspondance mais les notices sont regroupées
    • les métadonnées ont été modifiées mais la notice n’a pas été ré-indexée

=> Compléter les métadonnées nécessaires et recalculer les groupes

5 of 23

Comprendre les processus DEDUP et FRBR

Rappels

  • L’ensemble des sources locales (Alma + répertoires externes moissonnés) est soumis aux processus de dédoublonnement et de frbrisation.
  • Les notices CDI ne peuvent pas être dédoublonnées ni frbrisées avec les notices locales
    • améliorations prévues pour novembre 2021 : plus de contrôle au niveau de l’activation
  • Les notices du périmètre “Legito” sont exclues des processus de dédoublonnement et de frbrisation, ainsi que les notices DONUm moissonnées
  • Les notices de documents cartographiques sont exclues du processus de dédoublonnement

6 of 23

Comprendre les processus DEDUP et FRBR

  • Le système recherche d’abord les notices qui peuvent être dédoublonnées
  • Ensuite, les notices qui peuvent être frbrisées
  • Les clés utilisées ont un “type” qui indique
    • pour le DEDUP
      • qu’il ne s’agit pas d’une notice de périodique : Type 1
      • qu’il s’agit d’une notice de périodique : Type 2
    • pour le FRBR
      • que la notice a été supprimée du processus : Type 99
      • que la notice peut être frbrisée : Type 1
  • Il suffit qu’une seule clé de correspondance soit trouvée pour que des notices soient dédoublonnées

7 of 23

Calculer les clés

  • Zones de la notice source stockées dans Primo VE pour calculer les clés de dédoublonnement
    • par exemple : F3 = ISBN pour le type 1 ou F3 = ISSN pour le type 2 ; F4 = ISBN invalide pour le type 1 ou F4 = ISSN invalide pour le type 2 ; F5 = le titre abrégé pour le type 1 ; F6 = l’année de début de publication pour les types 1 et 2 ; F7 = le titre complet ; F8 = le pays de publication pour le type 1 ou F8 = le titre abrégé pour le type 2...

https://knowledge.exlibrisgroup.com/Primo/Product_Documentation/020Primo_VE/Primo_VE_(English)/090Dedup_and_FRBR_for_Primo_VE/010Understanding_the_Dedup_and_FRBR_Processes_(Primo_VE)#Mapping_Dedup_Key_Fields

  • Zones de la notice source stockées dans Primo VE pour calculer les clés de frbrisation
    • K1 = Auteur = 100/110/111 ou 700/710/711 s’il n’y pas de 1XX = dc.creator ou dcterms.creator ou dcterms.contributor
    • K2 = Titre uniforme = 130 = dcterms.alternative
    • K3 = Titre = 240, 245, 246, 740 = dc.title ou dcterms.title

8 of 23

Calculer les clés

  • Les zones dans Primo VE sont normalisées et concaténées pour former les clés de dédoublonnement
    • par exemple : match/f3 + match/f5 + match/f6 (type 1) = ISBN + brief title + date ; match/f3 + match/f7 + match/f9 (type 1) = ISBN + full title + pagination ; match/f3 + match/f8 (type 2) = ISSN + brief title
    • ! normalisation “remove_common_words”
      • par exemple : annual report, anales, memoires, rapport...
  • Les zones dans Primo VE sont normalisées et concaténées pour former les clés FRBR
    • frbr/k2 = titre uniforme
    • frbr/k1 + frbr/k3 = auteur + titre

9 of 23

FRBR - Identifier les correspondances : exemple 1

  • Le chevalier de la charrette” : 4 notices dans Alma pourraient être regroupées ; aucune des 4 notices n’appartient à un groupe FRBR

10 of 23

FRBR - Comparer les notices : exemple 1

  • “Le chevalier de la charrette” : 4 notices dans Alma pourraient être regroupées ; aucune des 4 notices n’appartient à un groupe FRBR
    • présence d’un titre uniforme en 130 [= erreur de catalogage dans ce cas]

11 of 23

FRBR - Comparer les notices : exemple 1

  • Avec une autre notice du jeu de résultats, on constate que la clé K1+K3 est différente

12 of 23

FRBR - Comparer les notices : exemple 1

  • Amélioration des notices

  • contrôle de la présence du 100
  • contrôle de la forme en 100
  • contrôle de la présence du 240

13 of 23

FRBR - Comparer les notices : exemple 1

  • Une fois les notices corrigées et enregistrées, relancer l’outil de test
    • Comparer les notices : il y a bien une clé de matching identifiée
    • Identifier les correspondances : pas de correspondance trouvée
    • Recalculer les groupes FRBR et DEDUP

14 of 23

FRBR - Comparer les notices : exemple 1

  • Les 2 notices corrigées ont une clé commune

15 of 23

FRBR - Recalculer les groupes : exemple 1

=> La mise à jour dans Primo sera visible ultérieurement

16 of 23

FRBR et DEDUP

  • Notices dédoublonnées dans un groupe FRBR

17 of 23

Comparer des notices - DEDUP

18 of 23

En pratique

  • problème identifié
  • améliorer les notices pour que les ‘clés’ puissent être créées
  • comparer les notices pour contrôler la correspondance
  • identifier les correspondances et recalculer les groupes
  • contrôler la mise à jour dans l’outil de découverte
  • si la mise à jour n’est pas effective au plus tard le lendemain, contacter les administrateurs système qui peuvent lancer un autre job

19 of 23

Éléments à contrôler, améliorer, modifier

  • points d’accès 1XX/7XX
  • 240
  • identifiants uniques : 020, 022 / 776
    • périodiques : pensez à ajouter les ISSN correspondant à la version électronique en 776
  • LCCN (010) : peuvent être source d’erreur lorsque des imports de notices ont été mal ‘gérés’ (par exemple : on duplique une notice importée avec son 010…)
  • contrôler la présence de date en 008
  • contrôler la présence d’un code de pays en 008
  • ...

20 of 23

Éléments à contrôler, améliorer, modifier

  • problème des formes différentes en fonction du référentiel utilisé
    • Forme IDREF / BNF = Raskin, Rose E.
    • Forme LCNAMES = Raskin, Rose
      • = forme utilisée dans la notice CZ => on ne peut pas modifier !

=> modifier le point d’accès IDREF en LCNAMES dans les notices IZ

=> implique qu’on doive conserver LCNAMES comme référentiel secondaire…

=> à analyser

21 of 23

Éléments à contrôler, améliorer, modifier

Rappels :

  • ne pas modifier une notice CZ pour favoriser nos processus ‘locaux’
  • si des éléments non modifiables d’une notice CZ sont erronés (ISSN, ISBN), contacter la TF-Eressources ou un gestionnaire e-ressources.

22 of 23

Liens utiles

23 of 23

23