1 of 92

Utilisation et contribution à Wikisource et Wikidata pour la recherche en humanités numériques

Philippe Gambette

Les Humanités numériques pour la recherche, fondamentaux�2022-05-10 (Genève-Zoom)

https://tinyurl.com/DH-2022-05-10

2 of 92

Qu’est-ce que Wikisource ?

3 of 92

Qu’est-ce que Wikisource ?

https://twitter.com/Dorialexander/status/1331219757748678658 (droits réservés, merci à Lurkin !)

https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)

4 of 92

Qu’est-ce que Wikisource ?

OCR : optical character recognition

https://twitter.com/Dorialexander/status/1331219757748678658 (droits réservés, merci à Lurkin !)

https://giphy.com/gifs/game-eyes-kid-3ov9k76MPXVvhGveRG (Valérie Archeno, droits réservés)

5 of 92

Qu’est-ce que Wikisource ?

https://fr.wikisource.org/w/index.php?title=Page:Félix-Faure-Goyau_-_La_vie_et_la_mort_des_fées,_1910.djvu/13&action=edit

1. �corriger les coquilles (erreurs d’OCR)

6 of 92

Qu’est-ce que Wikisource ?

https://fr.wikisource.org/w/index.php?title=Page:Félix-Faure-Goyau_-_La_vie_et_la_mort_des_fées,_1910.djvu/13&action=edit

1. �corriger les coquilles (erreurs d’OCR)

7 of 92

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

https://fr.wikisource.org/w/index.php?title=Page:Félix-Faure-Goyau_-_La_vie_et_la_mort_des_fées,_1910.djvu/13&action=edit

8 of 92

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

https://fr.wikisource.org/w/index.php?title=Page:Félix-Faure-Goyau_-_La_vie_et_la_mort_des_fées,_1910.djvu/13&action=edit

9 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

bibliothèque numérique collaborative multilingue
créée en 2003
hébergée par la Wikimedia Foundation

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

10 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

relecture collaborative sur Wikisource

scan +�OCR

11 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

relecture collaborative sur Wikisource

bibliothèques numériques

scan +�OCR

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

12 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

13 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

partage du fichier

impression

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

14 of 92

Qu’est-ce que Wikisource ?

http://fr.wikisource.org - https://fr.wikipedia.org/wiki/Wikisource

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

partage du fichier

impression

lecture sur tout type d’écran

analyses automatiques

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

15 of 92

Qu’est-ce que Wikidata ?

https://fr.wikipedia.org/wiki/Wikidata - https://www.wikidata.org/wiki/Wikidata:Main_Page?uselang=fr

base de données libre, collaborative, multilingue
ouverte aux contributions depuis 2012
hébergée par la Wikimedia Foundation
liée à d’autres projets Wikimedia : infobox et liens interlangues Wikipédia, métadonnées sur les livres de Wikisource, les fichiers multimédia de Wikimedia Commons

�Logo Wikidata : Planemad

16 of 92

Qu’est-ce que Wikidata ?

https://www.wikidata.org/wiki/Q111928781

“Déclarations” de type (élément, popriété, valeur) :

(Une raillerie de l’amour, nature de l’élément, version, édition ou traduction)
(Une raillerie de l’amour, auteur, Marceline Desbordes-Valmore)

17 of 92

Qu’est-ce que Wikidata ?

https://www.wikidata.org/wiki/Q111928781

“Déclarations” de type (élément, popriété, valeur) :

(Une raillerie de l’amour, nature de l’élément, version, édition ou traduction)
(Une raillerie de l’amour, auteur, Marceline Desbordes-Valmore)

Web sémantique :

→ triplets RDF

→ interrogeables par requêtes SPARQL

18 of 92

Qu’est-ce que Wikidata ?

https://www.wikidata.org/wiki/Wikidata:Statistics/fr

“Déclarations” de type (élément, popriété, valeur), en 2022 :

plus de 97 millions d’éléments
plus de 6000 propriétés : liste

19 of 92

Qu’est-ce que Wikidata ?

https://www.wikidata.org/wiki/Wikidata:Statistics/fr

“Déclarations” de type (élément, popriété, valeur), en 2022 :

plus de 97 millions d’éléments
plus de 6000 propriétés : liste

Jusqu’au 7 juillet 2022 !

20 of 92

Plan de la présentation

Avant Wikisource et Wikidata
Utilisation et contribution à Wikisource :

collecte de corpus et analyses textométriques
correction et valorisation de textes : cartographie, comparaison d’éditions
relecture communautaire et recherche d’extraits

Utilisation et contribution à Wikidata :

FAIRisation de données
géolocalisation de villes
collecte d’illustrations
extraction d’informations biographiques et de liens vers d’autres bases de données
correction et enrichissement de données
odonymes

Vers les sciences citoyennes en humanités numériques ?

21 of 92

Avant Wikisource et Wikidata…

Vacances à Lisbonne en avril 2007…
Fernando Pessoa, Lisbonne, éditions 10/18, 2000

22 of 92

Avant Wikisource et Wikidata…

Fernando Pessoa, Lisbonne, éditions 10/18, 2000

23 of 92

Avant Wikisource et Wikidata…

Fernando Pessoa, Lisbonne, éditions 10/18, 2000
Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr

24 of 92

Avant Wikisource et Wikidata…

Fernando Pessoa, Lisbonne, éditions 10/18, 2000
Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr

25 of 92

Avant Wikisource et Wikidata…

Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr/Pessoa-Lisbon.pdf (généré en PHP+SQL)

26 of 92

Avant Wikisource et Wikidata…

Lisbon, what the tourist should see, Livros Horizonte, 1992�→ http://lisbon.pessoa.free.fr/Pessoa-Lisbon.pdf (généré en PHP+SQL)

27 of 92

Si c’était à refaire…

Wikisource pour la relecture et la mise à disposition du texte
Wikimedia Commons pour les photos
Wikidata pour les lieux et leurs coordonnées
OpenStreetMap pour la carte
… éventuellement Wikisource pour l’étiquetage des lieux avec des liens Wikidata ou Wikipédia

28 of 92

Liens vers Wikidata/Wikipédia dans Wikisource

Exemple :

projet de recherche Lessico Beni culturali (Université de Florence + 10 partenaires)
relecture des Vies des peintres, sculpteurs et architectes (1841) [1550] de Giorgio Vasari

https://fr.wikisource.org/wiki/Wikisource:Projet_Lessico_Beni_culturali - https://www.lessicobeniculturali.net/fr/contenuti/le-projet/832

29 of 92

Liens vers Wikidata/Wikipédia dans Wikisource

Wikisource Geocoder : https://philippegambette.github.io/ws-tools/ws-geocoder/

30 of 92

Utilisation et contribution à Wikisource

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

31 of 92

Corpus numérique du projet Biolographes, dirigé par Gisèle Seginger, constitué par Nadège Lechevrel

Wikisource, une des sources de textes du corpus
collecte d’ouvrages et d’articles selon le principe du “corpus de convenance” (“samples of convenience”, Algee-Hewitt, McGurl, 2015)
constitution d’un sous-corpus de 168 articles de la Revue des Deux Mondes, écrits par des “scientifiques” ou “littéraires”
contributions à Wikisource :

articles de la Revue des Deux Mondes : Le Cachalot (1888) de Georges Pouchet, Des Tables tournantes au point de vue de la Mécanique et de la Physiologie (1854) de Jacques Babinet, La Génération spontanée et les travaux de M. Pouchet (1860) de Paul de Rémusat
article de La Philosophie positive : Claude Bernard (1878) de Mathias Duval
recueil de poèmes La Mer (1894) de Jean Richepin
Quidquid volueris (1837) de Gustave Flaubert

Collecte de corpus et analyses textométriques

https://biolog.hypotheses.org/corpus/corpus-biolographes, http://biolographes.free.fr

32 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

« page livre »

33 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Page:Ferrandière_-_Œuvres,_1816.pdf/11

« page source »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

« page livre »

34 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Page:Ferrandière_-_Œuvres,_1816.pdf/11

« page source »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

« page livre »

35 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Page:Ferrandière_-_Œuvres,_1816.pdf/11

« page source »

« page feuille »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

https://fr.wikisource.org/wiki/Œuvres_(Ferrandière)/Fables/Fable_001

« page livre »

36 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Page:Ferrandière_-_Œuvres,_1816.pdf/11

« page source »

« page feuille »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

https://fr.wikisource.org/wiki/Œuvres_(Ferrandière)/Fables/Fable_001

« page livre »

37 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Page:Ferrandière_-_Œuvres,_1816.pdf/11

« page source »

« page feuille »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

https://fr.wikisource.org/wiki/Œuvres_(Ferrandière)/Fables/Fable_001

« page livre »

38 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

« page livre »

39 of 92

Naviguer dans Wikisource

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

https://fr.wikisource.org/wiki/Auteur:Marie-Amable_Petiteau

« page autrice »

« page livre »

40 of 92

Naviguer dans Wikisource

« page livre »

https://fr.wikisource.org/wiki/Livre:Ferrandière_-_Œuvres,_1816.pdf

https://fr.wikisource.org/wiki/Auteur:Marie-Amable_Petiteau

« page autrice »

41 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

[[Catégorie:Bon pour export]]

42 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

[[Catégorie:Bon pour export]]

43 of 92

Télécharger manuellement dans Wikisource

Méthode 1. Ajouter la catégorie “Bon pour export” sur la page feuille de l’ouvrage pour activer le bouton de téléchargement en ePub, MOBI, PDF :

[[Catégorie:Bon pour export]]

conversion possible de l’ePub avec pandoc !

44 of 92

Télécharger manuellement dans Wikisource

Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion” :

45 of 92

Télécharger manuellement dans Wikisource

Méthode 2. Si elle n’existe pas encore, créer la “page feuille” Texte entier de l’ouvrage par “transclusion”. Un lien apparait alors sur la page feuille de l’ouvrage :

46 of 92

Résumé visuel

du contenu des articles

Nuage arboré des 100 mots (hors "mots vides") les plus fréquents dans les articles du corpus Biolographes RDDM

début de siècle�fin de siècle

http://www.treecloud.org

Nadège Lechevrel, Philippe Gambette (2016), Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle, Nouvelles perspectives en sciences sociales 12(1), p. 221–253

Lechevrel & Gambette, 2016

47 of 92

scientifiques

gens de lettres

http://www.treecloud.org

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

48 of 92

scientifiques

gens de lettres

corps

http://www.treecloud.org

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

49 of 92

scientifiques

gens de lettres

classification du vivant

corps

http://www.treecloud.org

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

50 of 92

scientifiques

gens de lettres

vie psychique

classification du vivant

corps

http://www.treecloud.org

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

51 of 92

scientifiques

gens de lettres

poétique des mystères de la vie

http://www.treecloud.org

Nuages arborés des contextes de « vie »

Lechevrel & Gambette, 2016

52 of 92

scientifiques

gens de lettres

poétique des mystères de la vie

« Le divorce entre le corps et l’âme était prononcé, et le grand Pan, le dieu de la vie, léguait à ses derniers adeptes la tâche de réhabiliter la matière. » George Sand

« N’est-il pas curieux de voir les prêtres français du XVIIe siècle croire comme les brahmanes à la puissance des fleurs lancées par l’arc du dieu de l’amour ? Image de la vie et de la fécondité dans notre monde, la fleur est dans l’autre la figure de l’immortalité. » Dora d'Istria

« la vie, selon ces médecins superstitieux, serait une sorte de dieu capricieux et de Protée menteur, échappant à toute prise, et avec lequel on ne peut lutter qu’au moyen de cette autre force, non moins aveugle et capricieuse, qu’ils appellent l’inspiration » Paul Janet

http://www.treecloud.org

Nuages arborés des contextes de « vie »

53 of 92

Corpus for Idiolectal Research (CIDRE) : collection d’œuvres de fiction écrites par 11 auteurs et autrices prolifiques du 19e siècle (4 femmes, 7 hommes, 22 à 62 œuvres par personne, total de 37 millions de mots)

Sources : Wikisource, Project Gutenberg, La Bibliothèque électronique du Québec, site web Les Amis de Daniel-Lesueur, Projet eBalzac, ePubs de Gallica

Script step1-getebooks.py sur le dépôt dans Zenodo et Ortolang (utilisation de la bibliothèque Python selenium pour simuler le téléchargement de l’ePub dans un navigateur)

Seminck, O., Gambette, P., Legallois, D., & Poibeau, T. (2021). The Corpus for Idiolectal Research (CIDRE). Journal of Open Humanities Data, 7, 15 pages.

Collecte de corpus automatisée : le corpus CIDRE

http://doi.org/10.5334/johd.42

54 of 92

Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :

Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, accepté.

Utilisation du corpus CIDRE

55 of 92

Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :

Réorganisation de l’ordre des feuilles d’un arbre (issu d’une classification hiérarchique) pour refléter au mieux la chronologie :

Laurent Bulteau, Philippe Gambette & Olga Seminck, Reordering a tree according to an order on its leaves, CPM 2022 (Proceedings of the 33rd Annual Symposium on Combinatorial Pattern Matching), à paraître.

Philippe Gambette, Olga Seminck, Dominique Legallois & Thierry Poibeau, Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order, EADH 2021 (2nd International Conference of the European Association for Digital Humanities).

Utilisation du corpus CIDRE

56 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

https://fr.wikisource.org/wiki/Livre:Marguerite_de_Navarre_-_La_Coche,_1542.pdf

57 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

https://fr.wikisource.org/wiki/Page:Marguerite_de_Navarre_-_La_Coche,_1542.pdf/67

58 of 92

La Coche (manuscrit de �la bibliothèque du musée �Condé à Chantilly, 1542)

Choix éditoriaux spécifiques

Correction et valorisation de textes

https://fr.wikisource.org/wiki/Discussion_Livre:Marguerite_de_Navarre_-_La_Coche,_1542.pdf

59 of 92

Manuscrits peu présents sur Wikisource, page d’aide peu développée

Processus de transcription moins lourd que XML-TEI

Suffisant pour une première mise à disposition de textes ?

Julie Molé-Léger, L’Orgueil puni (manuscrit des Archives nationales soumis à la censure, avec passages expurgés dans l'édition de 1809)
Lettres d’Augusta Holmès à Jules Massenet, à Camille Saint-Saëns (projet Opus Holmès coordonné par Tambuccoriel, mené par plusieurs Wikipédiens et Wikipédiennes en 2020)
Dorothée de Croy, Cinnatus et Camma (ms de 1637 conservé à la BnF, une des rares pièces écrites par des femmes dans le corpus Hyperpièces (1550-1650) constitué par Céline Fournial), en cours de relecture
Nicole Estienne, Stanzes du Mariage (manuscrit de 1573 conservé à la BnF, édité en 2002 par Hélène Cazes chez Classiques Garnier ?)

Les manuscrits sur Wikisource ?

60 of 92

La Coche (manuscrit de la bibliothèque du musée �Condé à Chantilly, 1542)

Correction et valorisation de textes

https://fr.wikisource.org/wiki/Discussion_Page:Marguerite_de_Navarre_-_La_Coche,_1542.pdf/11

61 of 92

édition “palimpseste” numérique

modernisation : Astrid Tourbillon
relecture Wikisource : A. T., P. G., Romain Menini

Correction et valorisation de textes

https://igm.univ-mlv.fr/~gambette/2020LaCoche/index.html#f2

62 of 92

édition “palimpseste” numérique

modernisation : Astrid Tourbillon
relecture Wikisource : A. T., P. G., Romain Menini

Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot & Simon Gabay, �Automatic Normalisation of Early Modern French, LREC 2022

Correction et valorisation de textes

https://igm.univ-mlv.fr/~gambette/2020LaCoche/index.html#f2

63 of 92

Premiers recueils de Marceline Desbordes-Valmore

Diagrammes de Sankey enchaînés

Données sources : tables des matières au format tableur

Outil SankeyCompare (Gambette, Lechevrel & Trotot, 2021)

https://fr.wikisource.org/wiki/Auteur:Marceline_Desbordes-Valmore

64 of 92

Élégies, 1825

Poésies, 1830

Construction automatique des correspondances entre poèmes à partir de recherches automatiques de similarités de 4-grammes de mots, dans les versions obtenues par OCR, non relues

Premiers recueils de Marceline Desbordes-Valmore

65 of 92

Premiers recueils de Marceline Desbordes-Valmore

http://igm.univ-mlv.fr/~gambette/2018Visiautrices/MarcelineDesbordesValmore/RecueilsPoesies/

clic sur un point pour accéder au poème
clic sur un lien pour accéder à l’alignement entre les deux versions construit avec MEDITE, appelé par pairwiseMedite (script Python)

66 of 92

Constitution d’un corpus d’écrits de femmes

http://treecloud.univ-mlv.fr/philologic/visiautrices.html

Collecte d’écrits de femmes dans diverses sources
Normalisation avec un balisage XML-TEI superficiel, harmonisé pour Philologic
Chargement dans Philologic (merci à Patrice Hérault du LIGM !) : http://treecloud.univ-mlv.fr/philologic/visiautrices.html

→ 70 ouvrages dans cette première version (158 dans French Women Writers du projet ARTFL, corpus en accès réservé)

→ Constitution d’un corpus plus volumineux pour le projet Cité des dames, créatrices dans la cité : stage d’Adrien Roumégous, co-encadré avec Aaron Boussidan à l’université Gustave Eiffel

67 of 92

Application De ville en ville

Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

68 of 92

Application De ville en ville

Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

69 of 92

Application De ville en ville

Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

70 of 92

Application De ville en ville

Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville/?site=1

Stage d’Alexis Martinet, projet Cité des Dames

71 of 92

Utilisation et contribution à Wikidata

�Logo Wikidata : Planemad

72 of 92

Collecte de données sur Wikidata : tutoriels vidéo

Récupérer les coordonnées d’une liste de villes avec WikidataMultisearch et les localiser dans Umap

Comment utiliser Wikidata pour lister sur une page web les lieux touristiques à proximité

73 of 92

Cartographie de marqueurs/itinéraires avec uMap

Tutoriel vidéo : passer d’un fichier tableur à une carte interactive sur uMap

74 of 92

L’enseignement des autrices en France

Origines du projet VisiAutrices (financement PEPS CNRS/RnMSH 2017-2019) :

Discussions avec Caroline Trotot pendant le projet de recherche ECLAVIT (Extraction CLAssification et VIsualisation de données Textuelles)
Participation au hackathon #HackEgalitéFH 2017

75 of 92

Des autrices peu enseignées ?

Annales du brevet (2000-2018) Annales du baccalauréat (2002-2018)

�

→ publication et utilisation de jeux de données sur data.gouv.fr

76 of 92

Déposer et réutiliser des données sur data.gouv.fr

https://www.data.gouv.fr/fr/organizations/le-deuxieme-texte/

77 of 92

Des autrices à l’œuvre peu accessible ?

Philippe Gambette, Nadège Lechevrel, Caroline Trotot, Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe & Marta Severo (dir.), Wikipédia et les wikis, objets de médiation et de transmission des savoirs, Presses Universitaires de Paris Nanterre – Collection Intelligences numériques, 2021

78 of 92

Les signatures, un élément visuel contre l’invisibilité

Pour remédier au manque de �portraits, démarche de dépôt

de signatures d’autrices sur�Wikipédia / Wikidata :

10% (27 signatures �d’autrices, 241 signatures�d’auteurs) en novembre 2018
20% (89 ; 348) en avril 2020,
23% (114 ; 379) en septembre 2020,
24% (136 ; 429) en janvier 2021,
25% (162 ; 484) en novembre 2021.

Requête Wikidata

Association Le deuxième texte, Collecte et partage de signatures de femmes de lettres

79 of 92

Les biopics d’autrices au cinéma

Requêtes Wikidata sur les biopics d’autrices (propriété wikidata “dépeint”)

https://george2etexte.wordpress.com/2019/07/31/les-femmes-de-lettres-au-cinema/

80 of 92

Le site web Histoires d’autrices

Aspects quantitatifs :

jeux de données : graphiques camembert + évolution temporelle
nuages de noms d’autrices
chargement des données depuis un fichier Google Sheets

Stage de Léonard Kim (2021)�https://dongjounkim.github.io/histoires-autrices

81 of 92

Le site web Histoires d’autrices

aspects qualitatifs :

Stage de Thi-Van An Truong (2018)�http://ledeuxiemetexte.fr/histoires-autrices/

82 of 92

Le site web Histoires d’autrices

Nécessité de normalisation des noms d’auteurs et autrices

→ “outil maison” WikidataMultiSearch :

interroge le nom et les alias
en cas d’homonymes, choisit l’élément avec le plus de valeurs pour les propriétés voulues

83 of 92

L’enrichissement de données pour le défi #JeLaLis

requête Wikidata
requête data.bnf

http://jelalis.ledeuxiemetexte.fr

84 of 92

Urbanature : les oiseaux à Paris en 1874

Nérée Quépat, Ornithologie parisienne, première relecture par Mellissa Merrad

85 of 92

Urbanature : les oiseaux à Paris en 1874

Transformation en données structurées par Mellissa Merrad (pour une cartographie) :

86 of 92

Urbanature : les oiseaux à Paris en 1874

Collecte et enrichissement (alias des noms d’espèces) des données sur Wikidata :

87 of 92

Urbanature : les oiseaux à Paris en 1874

Ajout dans l’application Urbanature �(conception visuelle : Alice Yang, �développement web : Thomas Garnier)

88 of 92

Plaques du matrimoine, première version (janvier 2020)

Données utilisées :

OpenStreetMap (grâce à GéoDataMine) :

pour les numéros INSEE de communes
pour les équipements sportifs par commune
pour les établissements d’enseignement

Base Adresse Nationale :

pour les noms de rues par commune

Wikidata :

pour tester si les noms trouvés correspondent à des hommes ou des femmes

89 of 92

Plaques du matrimoine, deuxième version (été 2020)

Stage d’Alan Akra (DUT Métiers du multimédia et de l’internet) au LIGM (projet Cité des dames) au printemps 2020.

Ajout de fonctionnalités :

différenciation entre odonymes féminins et masculins
ajouts de liens Wikipédia
stockage dans une base de données locale des noms trouvés
graphique en camembert de synthèse

https://matrimoine.alanakra.fr/

90 of 92

Plaques du matrimoine, version actuelle (janvier 2022)

Amélioration supplémentaire en janvier 2022 : traitement des données locales avant interrogation de Wikidata

�https://perso-etudiant.u-pem.fr/~gambette/PlaquesDuMatrimoine/

91 of 92

Vers les sciences citoyennes en humanités numériques ?

�Wikipedia by Giulia Forsythe (CC0)

92 of 92

Vers les sciences citoyennes en humanités numériques ?

Utilisation et enrichissement de communs numériques
Échange de savoirs : sur des formes anciennes de la langue française, sur l’histoire du livre, sur les auteurs, autrices et leurs œuvres
Échange d’intérêts : ouvrages suggérés par les participantes et participants des ateliers Wikisource Autrices (prochains les 28 mai et 25 juin à la Cité audacieuse à Paris !)

Philippe Gambette, Nadège Lechevrel et Caroline Trotot. Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie, dans Lionel Barbe, Marta Severo (dir.) Wikipédia à l’université, outil de recherche et d’innovation pédagogique, p. 159-176