1 of 92

Utilisation et contribution à Wikisource et Wikidata pour la recherche en humanités numériques

Philippe Gambette

Les Humanités numériques pour la recherche, fondamentaux�2022-05-10 (Genève-Zoom)

https://tinyurl.com/DH-2022-05-10

2 of 92

Qu’est-ce que Wikisource ?

3 of 92

Qu’est-ce que Wikisource ?

https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)

4 of 92

Qu’est-ce que Wikisource ?

OCR : optical character recognition

https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)

5 of 92

Qu’est-ce que Wikisource ?

1. �corriger les coquilles (erreurs d’OCR)

6 of 92

Qu’est-ce que Wikisource ?

1. �corriger les coquilles (erreurs d’OCR)

7 of 92

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

8 of 92

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

9 of 92

Qu’est-ce que Wikisource ?

  • bibliothèque numérique collaborative multilingue
  • créée en 2003
  • hébergée par la Wikimedia Foundation

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

10 of 92

Qu’est-ce que Wikisource ?

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

relecture collaborative sur Wikisource

scan +�OCR

11 of 92

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

bibliothèques numériques

scan +�OCR

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

12 of 92

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

13 of 92

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

partage du fichier

impression

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

14 of 92

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

partage du fichier

impression

lecture sur tout type d’écran

analyses automatiques

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

15 of 92

Qu’est-ce que Wikidata ?

  • base de données libre, collaborative, multilingue
  • ouverte aux contributions depuis 2012
  • hébergée par la Wikimedia Foundation
  • liée à d’autres projets Wikimedia : infobox et liens interlangues Wikipédia, métadonnées sur les livres de Wikisource, les fichiers multimédia de Wikimedia Commons

16 of 92

Qu’est-ce que Wikidata ?

“Déclarations” de type (élément, popriété, valeur) :

  • (Une raillerie de l’amour, nature de l’élément, version, édition ou traduction)
  • (Une raillerie de l’amour, auteur, Marceline Desbordes-Valmore)

17 of 92

Qu’est-ce que Wikidata ?

“Déclarations” de type (élément, popriété, valeur) :

  • (Une raillerie de l’amour, nature de l’élément, version, édition ou traduction)
  • (Une raillerie de l’amour, auteur, Marceline Desbordes-Valmore)

Web sémantique :

triplets RDF

→ interrogeables par requêtes SPARQL

18 of 92

Qu’est-ce que Wikidata ?

“Déclarations” de type (élément, popriété, valeur), en 2022 :

  • plus de 97 millions d’éléments
  • plus de 6000 propriétés : liste

19 of 92

Qu’est-ce que Wikidata ?

“Déclarations” de type (élément, popriété, valeur), en 2022 :

  • plus de 97 millions d’éléments
  • plus de 6000 propriétés : liste

Jusqu’au 7 juillet 2022 !

20 of 92

Plan de la présentation

  • Avant Wikisource et Wikidata
  • Utilisation et contribution à Wikisource :
    • collecte de corpus et analyses textométriques
    • correction et valorisation de textes : cartographie, comparaison d’éditions
    • relecture communautaire et recherche d’extraits
  • Utilisation et contribution à Wikidata :
    • FAIRisation de données
    • géolocalisation de villes
    • collecte d’illustrations
    • extraction d’informations biographiques et de liens vers d’autres bases de données
    • correction et enrichissement de données
    • odonymes
  • Vers les sciences citoyennes en humanités numériques ?

21 of 92

Avant Wikisource et Wikidata…

  • Vacances à Lisbonne en avril 2007…
  • Fernando Pessoa, Lisbonne, éditions 10/18, 2000

22 of 92

Avant Wikisource et Wikidata…

  • Fernando Pessoa, Lisbonne, éditions 10/18, 2000

23 of 92

Avant Wikisource et Wikidata…

  • Fernando Pessoa, Lisbonne, éditions 10/18, 2000
  • Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr

24 of 92

Avant Wikisource et Wikidata…

  • Fernando Pessoa, Lisbonne, éditions 10/18, 2000
  • Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr

25 of 92

Avant Wikisource et Wikidata…

  • Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr/Pessoa-Lisbon.pdf (généré en PHP+SQL)

26 of 92

Avant Wikisource et Wikidata…

  • Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr/Pessoa-Lisbon.pdf (généré en PHP+SQL)

27 of 92

Si c’était à refaire…

  • Wikisource pour la relecture et la mise à disposition du texte
  • Wikimedia Commons pour les photos
  • Wikidata pour les lieux et leurs coordonnées
  • OpenStreetMap pour la carte
  • … éventuellement Wikisource pour l’étiquetage des lieux avec des liens Wikidata ou Wikipédia

28 of 92

Liens vers Wikidata/Wikipédia dans Wikisource

Exemple :

29 of 92

Liens vers Wikidata/Wikipédia dans Wikisource

30 of 92

Utilisation et contribution à Wikisource

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

31 of 92

Corpus numérique du projet Biolographes, dirigé par Gisèle Seginger, constitué par Nadège Lechevrel

Collecte de corpus et analyses textométriques

32 of 92

Naviguer dans Wikisource

« page livre »

33 of 92

Naviguer dans Wikisource

« page source »

« page livre »

34 of 92

Naviguer dans Wikisource

« page source »

« page livre »

35 of 92

Naviguer dans Wikisource

« page source »

« page feuille »

« page livre »

36 of 92

Naviguer dans Wikisource

« page source »

« page feuille »

« page livre »

37 of 92

Naviguer dans Wikisource

« page source »

« page feuille »

« page livre »

38 of 92

Naviguer dans Wikisource

« page livre »

39 of 92

Naviguer dans Wikisource

« page autrice »

« page livre »

40 of 92

Naviguer dans Wikisource

« page livre »

« page autrice »

41 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

{{TextQuality|Textes validés}}

<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />

[[Catégorie:Bon pour export]]

42 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

{{TextQuality|Textes validés}}

<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />

[[Catégorie:Bon pour export]]

43 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

{{TextQuality|Textes validés}}

<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />

[[Catégorie:Bon pour export]]

conversion possible de l’ePub avec pandoc !

44 of 92

Télécharger manuellement dans Wikisource

Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion” :

45 of 92

Télécharger manuellement dans Wikisource

Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion”. Un lien apparait alors sur la page feuille de l’ouvrage :

46 of 92

Résumé visuel

du contenu des articles

Nuage arboré des 100 mots (hors "mots vides") les plus fréquents dans les articles du corpus Biolographes RDDM

début de sièclefin de siècle

Nadège Lechevrel, Philippe Gambette (2016), Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle, Nouvelles perspectives en sciences sociales 12(1), p. 221–253

Lechevrel & Gambette, 2016

47 of 92

scientifiques

gens de lettres

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

48 of 92

scientifiques

gens de lettres

corps

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

49 of 92

scientifiques

gens de lettres

classification du vivant

corps

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

50 of 92

scientifiques

gens de lettres

vie psychique

classification du vivant

corps

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

51 of 92

scientifiques

gens de lettres

poétique des mystères de la vie

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

52 of 92

scientifiques

gens de lettres

poétique des mystères de la vie

« Le divorce entre le corps et l’âme était prononcé, et le grand Pan, le dieu de la vie, léguait à ses derniers adeptes la tâche de réhabiliter la matière. » George Sand

« N’est-il pas curieux de voir les prêtres français du XVIIe siècle croire comme les brahmanes à la puissance des fleurs lancées par l’arc du dieu de l’amour ? Image de la vie et de la fécondité dans notre monde, la fleur est dans l’autre la figure de l’immortalité. » Dora d'Istria

« la vie, selon ces médecins superstitieux, serait une sorte de dieu capricieux et de Protée menteur, échappant à toute prise, et avec lequel on ne peut lutter qu’au moyen de cette autre force, non moins aveugle et capricieuse, qu’ils appellent l’inspiration » Paul Janet

Nuages arborés des contextes de « vie »

53 of 92

Corpus for Idiolectal Research (CIDRE) : collection d’œuvres de fiction écrites par 11 auteurs et autrices prolifiques du 19e siècle (4 femmes, 7 hommes, 22 à 62 œuvres par personne, total de 37 millions de mots)

Sources : Wikisource, Project Gutenberg, La Bibliothèque électronique du Québec, site web Les Amis de Daniel-Lesueur, Projet eBalzac, ePubs de Gallica

Script step1-getebooks.py sur le dépôt dans Zenodo et Ortolang (utilisation de la bibliothèque Python selenium pour simuler le téléchargement de l’ePub dans un navigateur)

Seminck, O., Gambette, P., Legallois, D., & Poibeau, T. (2021). The Corpus for Idiolectal Research (CIDRE). Journal of Open Humanities Data, 7, 15 pages.

Collecte de corpus automatisée : le corpus CIDRE

54 of 92

Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :

Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, accepté.

Utilisation du corpus CIDRE

55 of 92

Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :

Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, accepté.

Réorganisation de l’ordre des feuilles d’un arbre (issu d’une classification hiérarchique) pour refléter au mieux la chronologie :

Laurent Bulteau, Philippe Gambette & Olga Seminck, Reordering a tree according to an order on its leaves, CPM 2022 (Proceedings of the 33rd Annual Symposium on Combinatorial Pattern Matching), à paraître.

Philippe Gambette, Olga Seminck, Dominique Legallois & Thierry Poibeau, Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order, EADH 2021 (2nd International Conference of the European Association for Digital Humanities).

Utilisation du corpus CIDRE

56 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

57 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

58 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Choix éditoriaux spécifiques

Correction et valorisation de textes

59 of 92

Manuscrits peu présents sur Wikisource, page d’aide peu développée

Processus de transcription moins lourd que XML-TEI

Suffisant pour une première mise à disposition de textes ?

Les manuscrits sur Wikisource ?

60 of 92

La Coche (manuscrit de la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

61 of 92

édition “palimpseste” numérique

  • modernisation : Astrid Tourbillon
  • relecture Wikisource : A. T., P. G., Romain Menini

Correction et valorisation de textes

62 of 92

édition “palimpseste” numérique

  • modernisation : Astrid Tourbillon
  • relecture Wikisource : A. T., P. G., Romain Menini

Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot & Simon Gabay, �Automatic Normalisation of Early Modern French, LREC 2022

Correction et valorisation de textes

63 of 92

Premiers recueils de Marceline Desbordes-Valmore

Diagrammes de Sankey enchaînés

Données sources : tables des matières au format tableur

Outil SankeyCompare (Gambette, Lechevrel & Trotot, 2021)

64 of 92

Élégies, 1825

Poésies, 1830

Construction automatique des correspondances entre poèmes à partir de recherches automatiques de similarités de 4-grammes de mots, dans les versions obtenues par OCR, non relues

Premiers recueils de Marceline Desbordes-Valmore

65 of 92

Premiers recueils de Marceline Desbordes-Valmore

  • clic sur un point pour accéder au poème
  • clic sur un lien pour accéder à l’alignement entre les deux versions construit avec MEDITE, appelé par pairwiseMedite (script Python)

66 of 92

Constitution d’un corpus d’écrits de femmes

  • Collecte d’écrits de femmes dans diverses sources
  • Normalisation avec un balisage XML-TEI superficiel, harmonisé pour Philologic
  • Chargement dans Philologic (merci à Patrice Hérault du LIGM !) : http://treecloud.univ-mlv.fr/philologic/visiautrices.html

→ 70 ouvrages dans cette première version (158 dans French Women Writers du projet ARTFL, corpus en accès réservé)

→ Constitution d’un corpus plus volumineux pour le projet Cité des dames, créatrices dans la cité : stage d’Adrien Roumégous, co-encadré avec Aaron Boussidan à l’université Gustave Eiffel

67 of 92

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

68 of 92

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

69 of 92

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

70 of 92

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

71 of 92

Utilisation et contribution à Wikidata

72 of 92

Collecte de données sur Wikidata : tutoriels vidéo

73 of 92

Cartographie de marqueurs/itinéraires avec uMap

Tutoriel vidéo : passer d’un fichier tableur à une carte interactive sur uMap

74 of 92

L’enseignement des autrices en France

Origines du projet VisiAutrices (financement PEPS CNRS/RnMSH 2017-2019) :

  • Discussions avec Caroline Trotot pendant le projet de recherche ECLAVIT (Extraction CLAssification et VIsualisation de données Textuelles)
  • Participation au hackathon #HackEgalitéFH 2017

75 of 92

Des autrices peu enseignées ?

Annales du brevet (2000-2018) Annales du baccalauréat (2002-2018)

→ publication et utilisation de jeux de données sur data.gouv.fr

76 of 92

Déposer et réutiliser des données sur data.gouv.fr

77 of 92

Des autrices à l’œuvre peu accessible ?

Philippe Gambette, Nadège Lechevrel, Caroline Trotot, Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe & Marta Severo (dir.), Wikipédia et les wikis, objets de médiation et de transmission des savoirs, Presses Universitaires de Paris Nanterre – Collection Intelligences numériques, 2021

78 of 92

Les signatures, un élément visuel contre l’invisibilité

Pour remédier au manque de �portraits, démarche de dépôt

de signatures d’autrices sur�Wikipédia / Wikidata :

  • 10% (27 signatures �d’autrices, 241 signatures�d’auteurs) en novembre 2018
  • 20% (89 ; 348) en avril 2020,
  • 23% (114 ; 379) en septembre 2020,
  • 24% (136 ; 429) en janvier 2021,
  • 25% (162 ; 484) en novembre 2021.

Requête Wikidata

79 of 92

Les biopics d’autrices au cinéma

  • Requêtes Wikidata sur les biopics d’autrices (propriété wikidata “dépeint”)

80 of 92

Le site web Histoires d’autrices

Aspects quantitatifs :

  • jeux de données : graphiques camembert + évolution temporelle
  • nuages de noms d’autrices
  • chargement des données depuis un fichier Google Sheets

Stage de Léonard Kim (2021)https://dongjounkim.github.io/histoires-autrices

81 of 92

Le site web Histoires d’autrices

  • aspects qualitatifs :

Stage de Thi-Van An Truong (2018)http://ledeuxiemetexte.fr/histoires-autrices/

82 of 92

Le site web Histoires d’autrices

Nécessité de normalisation des noms d’auteurs et autrices

→ “outil maison” WikidataMultiSearch :

  • interroge le nom et les alias
  • en cas d’homonymes, choisit l’élément avec le plus de valeurs pour les propriétés voulues

83 of 92

L’enrichissement de données pour le défi #JeLaLis

  • requête Wikidata
  • requête data.bnf

84 of 92

Urbanature : les oiseaux à Paris en 1874

Nérée Quépat, Ornithologie parisienne, première relecture par Mellissa Merrad

85 of 92

Urbanature : les oiseaux à Paris en 1874

Transformation en données structurées par Mellissa Merrad (pour une cartographie) :

86 of 92

Urbanature : les oiseaux à Paris en 1874

Collecte et enrichissement (alias des noms d’espèces) des données sur Wikidata :

87 of 92

Urbanature : les oiseaux à Paris en 1874

Ajout dans l’application Urbanature �(conception visuelle : Alice Yang, �développement web : Thomas Garnier)

88 of 92

Plaques du matrimoine, première version (janvier 2020)

Données utilisées :

  • OpenStreetMap (grâce à GéoDataMine) :
    • pour les numéros INSEE de communes
    • pour les équipements sportifs par commune
    • pour les établissements d’enseignement
  • Base Adresse Nationale :
    • pour les noms de rues par commune
  • Wikidata :
    • pour tester si les noms trouvés correspondent à des hommes ou des femmes

89 of 92

Plaques du matrimoine, deuxième version (été 2020)

Stage d’Alan Akra (DUT Métiers du multimédia et de l’internet) au LIGM (projet Cité des dames) au printemps 2020.

Ajout de fonctionnalités :

  • différenciation entre odonymes féminins et masculins
  • ajouts de liens Wikipédia
  • stockage dans une base de données locale des noms trouvés
  • graphique en camembert de synthèse

https://matrimoine.alanakra.fr/

90 of 92

Plaques du matrimoine, version actuelle (janvier 2022)

Amélioration supplémentaire en janvier 2022 : traitement des données locales avant interrogation de Wikidata

https://perso-etudiant.u-pem.fr/~gambette/PlaquesDuMatrimoine/

91 of 92

Vers les sciences citoyennes en humanités numériques ?

92 of 92

Vers les sciences citoyennes en humanités numériques ?

  • Utilisation et enrichissement de communs numériques
  • Échange de savoirs : sur des formes anciennes de la langue française, sur l’histoire du livre, sur les auteurs, autrices et leurs œuvres
  • Échange d’intérêts : ouvrages suggérés par les participantes et participants des ateliers Wikisource Autrices (prochains les 28 mai et 25 juin à la Cité audacieuse à Paris !)

Philippe Gambette, Nadège Lechevrel et Caroline Trotot. Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe, Marta Severo (dir.) Wikipédia à l’université, outil de recherche et d’innovation pédagogique, p. 159-176