Littérature et humanités numériques : �la recherche avec le projet Wikisource
Philippe Gambette
WikiCafé (en ligne)
Plan de la présentation
Qu’est-ce que Wikisource ?
Qu’est-ce que Wikisource ?
1. �corriger les coquilles (erreurs d’OCR)
Qu’est-ce que Wikisource ?
1. �corriger les coquilles (erreurs d’OCR)
Qu’est-ce que Wikisource ?
2. �mettre en forme la page
Qu’est-ce que Wikisource ?
2. �mettre en forme la page
Qu’est-ce que Wikisource ?
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Qu’est-ce que Wikisource ?
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
relecture collaborative sur Wikisource
scan +�OCR
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
bibliothèques numériques
scan +�OCR
�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
lecture dans un navigateur web
accessibilité
copier/coller
recherche de mot
indexation
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
lecture dans un navigateur web
accessibilité
copier/coller
recherche de mot
indexation
partage du fichier
impression
Qu’est-ce que Wikisource ?
relecture collaborative sur Wikisource
livres électroniques
lecture dans un navigateur web
accessibilité
copier/coller
recherche de mot
indexation
partage du fichier
impression
lecture sur tout type d’écran
analyses automatiques
Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0
Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0
Icônes : FontAwesome
bibliothèques numériques
scan +�OCR
La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)
Projet de recherche Cité des dames, créatrices dans la cité
Création d’une édition numérique de La Coche
La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)
Projet de recherche Cité des dames, créatrices dans la cité
Création d’une édition numérique de La Coche
La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)
Choix éditoriaux spécifiques
Projet de recherche Cité des dames, créatrices dans la cité
Création d’une édition numérique de La Coche
La Coche (manuscrit de la bibliothèque du musée �Condé à Chantilly, 1542)
Ajout de description des images
édition “palimpseste” numérique
Mise en ligne d’une version modernisée de La Coche
édition “palimpseste” numérique
Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot & Simon Gabay, �Automatic Normalisation of Early Modern French, LREC 2022
Mise en ligne d’une version modernisée de La Coche
Récit du grand Tour de France
Grand tour de France de Catherine de Médicis et Charles IX
Première relecture du récit d’Abel Jouan sur Wikisource par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Application De ville en ville
Itinéraires historiques : https://citedesdames.github.io/de-ville-en-ville
Stage d’Alexis Martinet, projet Cité des Dames
Collecte de données et documents par Mélanie Brunet et Alexandre Dupont
Les voyages de Gascogne de Marguerite de Valois
Les voyages de Gascogne de Marguerite de Valois (1578-1586)�https://citedesdames.github.io/de-ville-en-ville/?site=4
Texte de l’itinéraire : Philippe Lauzun, Itinéraire raisonné de Marguerite de Valois en Gascogne d'après ses livres de comptes (1578-1586), Paris : Picard, 1902 (sur Wikisource, merci Yland !).
Nicole Dufournaud et Philippe Gambette
La Fronde de Catherine de La Guette
https://citedesdames.github.io/de-ville-en-ville/?site=3
Texte de l’itinéraire : Mémoires de Madame de La Guette (1681)
Texte établi par Célestin Moreau, Paris : P. Jannet, 1856
Fanny Boutinet et Philippe Gambette
Urbanature : les oiseaux à Paris en 1874
Nérée Quépat, Ornithologie parisienne, première relecture par Mellissa Merrad
Urbanature : les oiseaux à Paris en 1874
Transformation en données structurées par Mellissa Merrad (pour une cartographie) :
Urbanature : les oiseaux à Paris en 1874
Collecte et enrichissement (alias des noms d’espèces) des données sur Wikidata :
Urbanature : les oiseaux à Paris en 1874
Cartographie sur uMap
Urbanature : les oiseaux à Paris en 1874
Ajout à venir dans l’application Urbanature �(conception visuelle : Alice Yang, développement web : Thomas Garnier, Bastien Jacob)
Édition enrichie des Vies de peintres… de Vasari
Exemple :
Édition enrichie des Vies de peintres… de Vasari
Construction automatique de cartographie + galerie d’images :
Projet de recherche Lessico Beni culturali
« activités centrées sur le lexique des différentes langues en relation avec la langue italienne dans le domaine du patrimoine artistique et culturel, en commençant par celui de la ville de Florence »
Nuage arboré d’un corpus de 168 textes de scientifiques et de gens de lettres dans la Revue des Deux Mondes (19e siècle)
Nadège Lechevrel & Philippe Gambette, « Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle », Prise de parole, Nouvelles perspectives en sciences sociales, 2016
Analyses de corpus (avec des nuages arborés)
Corpus for Idiolectal Research (CIDRE) : collection d’œuvres de fiction écrites par 11 auteurs et autrices prolifiques du 19e siècle (4 femmes, 7 hommes, 22 à 62 œuvres par personne, total de 37 millions de mots)
Sources : Wikisource, Project Gutenberg, La Bibliothèque électronique du Québec, site web Les Amis de Daniel-Lesueur, Projet eBalzac, ePubs de Gallica
Script step1-getebooks.py sur le dépôt dans Zenodo et Ortolang (utilisation de la bibliothèque Python selenium pour simuler le téléchargement de l’ePub dans un navigateur)
Seminck, O., Gambette, P., Legallois, D., & Poibeau, T. (2021). The Corpus for Idiolectal Research (CIDRE). Journal of Open Humanities Data, 7, 15 pages.
Collecte de corpus automatisée : le corpus CIDRE
Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :
Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, 2022.
Utilisation du corpus CIDRE
Réorganisation de l’ordre des feuilles d’un arbre (issu d’une classification hiérarchique) pour refléter au mieux la chronologie :
Utilisation du corpus CIDRE
Laurent Bulteau, Philippe Gambette & Olga Seminck, Reordering a tree according to an order on its leaves, CPM 2022 (Proceedings of the 33rd Annual Symposium on Combinatorial Pattern Matching).
Philippe Gambette, Olga Seminck, Dominique Legallois & Thierry Poibeau, Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order, EADH 2021 (2nd International Conference of the European Association for Digital Humanities).
Premiers recueils de Marceline Desbordes-Valmore
Diagrammes de Sankey enchaînés
Données sources : tables des matières au format tableur
Outil SankeyCompare (Gambette, Lechevrel & Trotot, 2021)
Premiers recueils de Marceline Desbordes-Valmore
Premiers recueils de Marceline Desbordes-Valmore
Constitution d’un corpus d’écrits de femmes
→ 70 ouvrages dans cette première version (158 dans French Women Writers du projet ARTFL, corpus en accès réservé)
Version augmentée du corpus à venir dans le cadre du projet Cité des dames 2 mené à l’Université Gustave Eiffel.
Une démarche associative : Le deuxième texte
Une démarche associative : Le deuxième texte
Philippe Gambette, Nadège Lechevrel et Caroline Trotot, « Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie », dans Lionel Barbe et Marta Severo, Wikipédia, objet de médiation et de transmission des savoirs, p. 159-176.
Une démarche associative : Le deuxième texte
À vous de jouer !
Prochains ateliers Wikisource Autrices par l’association Le deuxième texte, en partenariat avec l'association les sans pagEs et la librairie·café Violette and Co, qui accueille l'événement (52 rue Jean-Pierre Timbaud, 75011 Paris et en visio) :