Utilisation et contribution à Wikisource et Wikidata pour la recherche en humanités numériques
Philippe Gambette
Les Humanités numériques pour la recherche, fondamentaux�2022-05-10 (Genève-Zoom)
Qu’est-ce que Wikisource ?
Qu’est-ce que Wikisource ?
https://twitter.com/Dorialexander/status/1331219757748678658 (droits réservés, merci à Lurkin !)
https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)
Qu’est-ce que Wikisource ?
OCR : optical character recognition
https://twitter.com/Dorialexander/status/1331219757748678658 (droits réservés, merci à Lurkin !)
https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)
Qu’est-ce que Wikisource ?
1. �corriger les coquilles (erreurs d’OCR)
Qu’est-ce que Wikisource ?
1. �corriger les coquilles (erreurs d’OCR)
Qu’est-ce que Wikisource ?
2. �mettre en forme la page
Qu’est-ce que Wikisource ?
2. �mettre en forme la page
Qu’est-ce que Wikisource ?
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Qu’est-ce que Wikisource ?
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
relecture collaborative sur Wikisource
scan +�OCR
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
bibliothèques numériques
scan +�OCR
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
lecture dans un navigateur web
accessibilité
copier/coller
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
lecture dans un navigateur web
accessibilité
copier/coller
partage du fichier
impression
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
lecture dans un navigateur web
accessibilité
copier/coller
partage du fichier
impression
lecture sur tout type d’écran
analyses automatiques
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
Qu’est-ce que Wikidata ?
https://fr.wikipedia.org/wiki/Wikidata - https://www.wikidata.org/wiki/Wikidata:Main_Page?uselang=fr
Qu’est-ce que Wikidata ?
“Déclarations” de type (élément, popriété, valeur) :
Qu’est-ce que Wikidata ?
“Déclarations” de type (élément, popriété, valeur) :
Web sémantique :
→ interrogeables par requêtes SPARQL
Qu’est-ce que Wikidata ?
“Déclarations” de type (élément, popriété, valeur), en 2022 :
Qu’est-ce que Wikidata ?
“Déclarations” de type (élément, popriété, valeur), en 2022 :
Jusqu’au 7 juillet 2022 !
Plan de la présentation
Avant Wikisource et Wikidata…
Avant Wikisource et Wikidata…
Avant Wikisource et Wikidata…
Avant Wikisource et Wikidata…
Avant Wikisource et Wikidata…
Avant Wikisource et Wikidata…
Si c’était à refaire…
Liens vers Wikidata/Wikipédia dans Wikisource
Exemple :
Liens vers Wikidata/Wikipédia dans Wikisource
Wikisource Geocoder : https://philippegambette.github.io/ws-tools/ws-geocoder/
Utilisation et contribution à Wikisource
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Corpus numérique du projet Biolographes, dirigé par Gisèle Seginger, constitué par Nadège Lechevrel
Collecte de corpus et analyses textométriques
Naviguer dans Wikisource
« page livre »
Naviguer dans Wikisource
« page source »
« page livre »
Naviguer dans Wikisource
« page source »
« page livre »
Naviguer dans Wikisource
« page source »
« page feuille »
« page livre »
Naviguer dans Wikisource
« page source »
« page feuille »
« page livre »
Naviguer dans Wikisource
« page source »
« page feuille »
« page livre »
Naviguer dans Wikisource
« page livre »
Naviguer dans Wikisource
« page autrice »
« page livre »
Naviguer dans Wikisource
« page livre »
« page autrice »
Télécharger manuellement dans Wikisource
Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :
{{TextQuality|Textes validés}}
<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />
[[Catégorie:Bon pour export]]
Télécharger manuellement dans Wikisource
Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :
{{TextQuality|Textes validés}}
<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />
[[Catégorie:Bon pour export]]
Télécharger manuellement dans Wikisource
Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :
{{TextQuality|Textes validés}}
<pages index="Richepin - La Mer, 1894.djvu" header="Sommaire" />
[[Catégorie:Bon pour export]]
conversion possible de l’ePub avec pandoc !
Télécharger manuellement dans Wikisource
Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion” :
Télécharger manuellement dans Wikisource
Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion”. Un lien apparait alors sur la page feuille de l’ouvrage :
Résumé visuel
du contenu des articles
Nuage arboré des 100 mots (hors "mots vides") les plus fréquents dans les articles du corpus Biolographes RDDM
début de siècle�fin de siècle
Nadège Lechevrel, Philippe Gambette (2016), Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle, Nouvelles perspectives en sciences sociales 12(1), p. 221–253
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
Nuages arborés des contextes de « vie »
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
corps
Nuages arborés des contextes de « vie »
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
classification du vivant
corps
Nuages arborés des contextes de « vie »
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
vie psychique
classification du vivant
corps
Nuages arborés des contextes de « vie »
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
poétique des mystères de la vie
Nuages arborés des contextes de « vie »
Lechevrel & Gambette, 2016
scientifiques
gens de lettres
poétique des mystères de la vie
« Le divorce entre le corps et l’âme était prononcé, et le grand Pan, le dieu de la vie, léguait à ses derniers adeptes la tâche de réhabiliter la matière. » George Sand
« N’est-il pas curieux de voir les prêtres français du XVIIe siècle croire comme les brahmanes à la puissance des fleurs lancées par l’arc du dieu de l’amour ? Image de la vie et de la fécondité dans notre monde, la fleur est dans l’autre la figure de l’immortalité. » Dora d'Istria
« la vie, selon ces médecins superstitieux, serait une sorte de dieu capricieux et de Protée menteur, échappant à toute prise, et avec lequel on ne peut lutter qu’au moyen de cette autre force, non moins aveugle et capricieuse, qu’ils appellent l’inspiration » Paul Janet
Nuages arborés des contextes de « vie »
Corpus for Idiolectal Research (CIDRE) : collection d’œuvres de fiction écrites par 11 auteurs et autrices prolifiques du 19e siècle (4 femmes, 7 hommes, 22 à 62 œuvres par personne, total de 37 millions de mots)
Sources : Wikisource, Project Gutenberg, La Bibliothèque électronique du Québec, site web Les Amis de Daniel-Lesueur, Projet eBalzac, ePubs de Gallica
Script step1-getebooks.py sur le dépôt dans Zenodo et Ortolang (utilisation de la bibliothèque Python selenium pour simuler le téléchargement de l’ePub dans un navigateur)
Seminck, O., Gambette, P., Legallois, D., & Poibeau, T. (2021). The Corpus for Idiolectal Research (CIDRE). Journal of Open Humanities Data, 7, 15 pages.
Collecte de corpus automatisée : le corpus CIDRE
Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :
Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, accepté.
Utilisation du corpus CIDRE
Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :
Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, accepté.
Réorganisation de l’ordre des feuilles d’un arbre (issu d’une classification hiérarchique) pour refléter au mieux la chronologie :
Laurent Bulteau, Philippe Gambette & Olga Seminck, Reordering a tree according to an order on its leaves, CPM 2022 (Proceedings of the 33rd Annual Symposium on Combinatorial Pattern Matching), à paraître.
Philippe Gambette, Olga Seminck, Dominique Legallois & Thierry Poibeau, Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order, EADH 2021 (2nd International Conference of the European Association for Digital Humanities).
Utilisation du corpus CIDRE
La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)
Correction et valorisation de textes
La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)
Correction et valorisation de textes
La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)
Choix éditoriaux spécifiques
Correction et valorisation de textes
Manuscrits peu présents sur Wikisource, page d’aide peu développée
Processus de transcription moins lourd que XML-TEI
Suffisant pour une première mise à disposition de textes ?
Les manuscrits sur Wikisource ?
La Coche (manuscrit de la bibliothèque du musée �Condé à Chantilly, 1542)
Correction et valorisation de textes
édition “palimpseste” numérique
Correction et valorisation de textes
édition “palimpseste” numérique
Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot & Simon Gabay, �Automatic Normalisation of Early Modern French, LREC 2022
Correction et valorisation de textes
Premiers recueils de Marceline Desbordes-Valmore
Diagrammes de Sankey enchaînés
Données sources : tables des matières au format tableur
Outil SankeyCompare (Gambette, Lechevrel & Trotot, 2021)
Élégies, 1825
Poésies, 1830
Construction automatique des correspondances entre poèmes à partir de recherches automatiques de similarités de 4-grammes de mots, dans les versions obtenues par OCR, non relues
Premiers recueils de Marceline Desbordes-Valmore
Premiers recueils de Marceline Desbordes-Valmore
Constitution d’un corpus d’écrits de femmes
→ 70 ouvrages dans cette première version (158 dans French Women Writers du projet ARTFL, corpus en accès réservé)
→ Constitution d’un corpus plus volumineux pour le projet Cité des dames, créatrices dans la cité : stage d’Adrien Roumégous, co-encadré avec Aaron Boussidan à l’université Gustave Eiffel
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville/?site=1
Stage d’Alexis Martinet, projet Cité des Dames
Utilisation et contribution à Wikidata
Collecte de données sur Wikidata : tutoriels vidéo
Cartographie de marqueurs/itinéraires avec uMap
Tutoriel vidéo : passer d’un fichier tableur à une carte interactive sur uMap
L’enseignement des autrices en France
Origines du projet VisiAutrices (financement PEPS CNRS/RnMSH 2017-2019) :
Des autrices peu enseignées ?
Annales du brevet (2000-2018) Annales du baccalauréat (2002-2018)
�
→ publication et utilisation de jeux de données sur data.gouv.fr
Déposer et réutiliser des données sur data.gouv.fr
Des autrices à l’œuvre peu accessible ?
Philippe Gambette, Nadège Lechevrel, Caroline Trotot, Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe & Marta Severo (dir.), Wikipédia et les wikis, objets de médiation et de transmission des savoirs, Presses Universitaires de Paris Nanterre – Collection Intelligences numériques, 2021
Les signatures, un élément visuel contre l’invisibilité
Pour remédier au manque de �portraits, démarche de dépôt
de signatures d’autrices sur�Wikipédia / Wikidata :
Association Le deuxième texte, Collecte et partage de signatures de femmes de lettres
Les biopics d’autrices au cinéma
Le site web Histoires d’autrices
Aspects quantitatifs :
Stage de Léonard Kim (2021)�https://dongjounkim.github.io/histoires-autrices
Le site web Histoires d’autrices
Stage de Thi-Van An Truong (2018)�http://ledeuxiemetexte.fr/histoires-autrices/
Le site web Histoires d’autrices
Nécessité de normalisation des noms d’auteurs et autrices
→ “outil maison” WikidataMultiSearch :
L’enrichissement de données pour le défi #JeLaLis
Urbanature : les oiseaux à Paris en 1874
Nérée Quépat, Ornithologie parisienne, première relecture par Mellissa Merrad
Urbanature : les oiseaux à Paris en 1874
Transformation en données structurées par Mellissa Merrad (pour une cartographie) :
Urbanature : les oiseaux à Paris en 1874
Collecte et enrichissement (alias des noms d’espèces) des données sur Wikidata :
Urbanature : les oiseaux à Paris en 1874
Ajout dans l’application Urbanature �(conception visuelle : Alice Yang, �développement web : Thomas Garnier)
Plaques du matrimoine, première version (janvier 2020)
Données utilisées :
Plaques du matrimoine, deuxième version (été 2020)
Stage d’Alan Akra (DUT Métiers du multimédia et de l’internet) au LIGM (projet Cité des dames) au printemps 2020.
Ajout de fonctionnalités :
Plaques du matrimoine, version actuelle (janvier 2022)
Amélioration supplémentaire en janvier 2022 : traitement des données locales avant interrogation de Wikidata
�https://perso-etudiant.u-pem.fr/~gambette/PlaquesDuMatrimoine/
Vers les sciences citoyennes en humanités numériques ?
Vers les sciences citoyennes en humanités numériques ?
Philippe Gambette, Nadège Lechevrel et Caroline Trotot. Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe, Marta Severo (dir.) Wikipédia à l’université, outil de recherche et d’innovation pédagogique, p. 159-176