1 of 45

Littérature et humanités numériques : �la recherche avec le projet Wikisource

Philippe Gambette

2 of 45

Plan de la présentation

  • Qu’est-ce que Wikisource ?
  • Projets de recherche en humanités numériques utilisant Wikisource :
    • enrichir les textes pour mieux les comprendre
    • constituer des corpus pour diverses analyses
  • Une démarche associative pour valoriser les écrits de femmes : �Le deuxième texte

3 of 45

Qu’est-ce que Wikisource ?

4 of 45

Qu’est-ce que Wikisource ?

1. �corriger les coquilles (erreurs d’OCR)

5 of 45

Qu’est-ce que Wikisource ?

1. �corriger les coquilles (erreurs d’OCR)

6 of 45

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

7 of 45

Qu’est-ce que Wikisource ?

2. �mettre en forme la page

8 of 45

Qu’est-ce que Wikisource ?

  • bibliothèque numérique collaborative multilingue
  • créée en 2003
  • hébergée par la Wikimedia Foundation

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

9 of 45

Qu’est-ce que Wikisource ?

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

relecture collaborative sur Wikisource

scan +�OCR

10 of 45

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

bibliothèques numériques

scan +�OCR

�Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

11 of 45

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

lecture dans un navigateur web

accessibilité

copier/coller

recherche de mot

indexation

12 of 45

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

lecture dans un navigateur web

accessibilité

copier/coller

recherche de mot

indexation

partage du fichier

impression

13 of 45

Qu’est-ce que Wikisource ?

relecture collaborative sur Wikisource

livres électroniques

lecture dans un navigateur web

accessibilité

copier/coller

recherche de mot

indexation

partage du fichier

impression

lecture sur tout type d’écran

analyses automatiques

Logo Wikisource : Nicholas Moreau - Wikimédia Commons - CC-BY-SA 3.0

Logo HTML5 : W3C - Wikimédia Commons - CC-BY 3.0

Icônes : FontAwesome

bibliothèques numériques

scan +�OCR

14 of 45

La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)

Projet de recherche Cité des dames, créatrices dans la cité

Création d’une édition numérique de La Coche

15 of 45

La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)

Projet de recherche Cité des dames, créatrices dans la cité

Création d’une édition numérique de La Coche

16 of 45

La Coche de Marguerite de Navarre (manuscrit de la bibliothèque du musée Condé à Chantilly, 1542)

Choix éditoriaux spécifiques

Projet de recherche Cité des dames, créatrices dans la cité

Création d’une édition numérique de La Coche

17 of 45

La Coche (manuscrit de la bibliothèque du musée �Condé à Chantilly, 1542)

Ajout de description des images

18 of 45

édition “palimpseste” numérique

  • modernisation : Astrid Tourbillon
  • relecture Wikisource : A. T., P. G., Romain Menini

Mise en ligne d’une version modernisée de La Coche

19 of 45

édition “palimpseste” numérique

  • modernisation : Astrid Tourbillon
  • relecture Wikisource : A. T., P. G., Romain Menini

Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot & Simon Gabay, �Automatic Normalisation of Early Modern French, LREC 2022

Mise en ligne d’une version modernisée de La Coche

20 of 45

Récit du grand Tour de France

Grand tour de France de Catherine de Médicis et Charles IX

Première relecture du récit d’Abel Jouan sur Wikisource par Mélanie Brunet et Alexandre Dupont

21 of 45

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

22 of 45

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

23 of 45

Application De ville en ville

Stage d’Alexis Martinet, projet Cité des Dames

Collecte de données et documents par Mélanie Brunet et Alexandre Dupont

24 of 45

Les voyages de Gascogne de Marguerite de Valois

Les voyages de Gascogne de Marguerite de Valois (1578-1586)https://citedesdames.github.io/de-ville-en-ville/?site=4

Texte de l’itinéraire : Philippe Lauzun, Itinéraire raisonné de Marguerite de Valois en Gascogne d'après ses livres de comptes (1578-1586), Paris : Picard, 1902 (sur Wikisource, merci Yland !).

  • 341 étapes
  • 369 références de textes
  • 158 réf. de documents multimédia

Nicole Dufournaud et Philippe Gambette

25 of 45

La Fronde de Catherine de La Guette

https://citedesdames.github.io/de-ville-en-ville/?site=3

Texte de l’itinéraire : Mémoires de Madame de La Guette (1681)

Texte établi par Célestin Moreau, Paris : P. Jannet, 1856

  • 41 étapes
  • 80 références de textes
  • 90 références de documents multimédia

Fanny Boutinet et Philippe Gambette

26 of 45

Urbanature : les oiseaux à Paris en 1874

Nérée Quépat, Ornithologie parisienne, première relecture par Mellissa Merrad

27 of 45

Urbanature : les oiseaux à Paris en 1874

Transformation en données structurées par Mellissa Merrad (pour une cartographie) :

28 of 45

Urbanature : les oiseaux à Paris en 1874

Collecte et enrichissement (alias des noms d’espèces) des données sur Wikidata :

29 of 45

Urbanature : les oiseaux à Paris en 1874

Cartographie sur uMap

30 of 45

Urbanature : les oiseaux à Paris en 1874

Ajout à venir dans l’application Urbanature �(conception visuelle : Alice Yang, développement web : Thomas Garnier, Bastien Jacob)

31 of 45

Édition enrichie des Vies de peintres… de Vasari

Exemple :

32 of 45

Édition enrichie des Vies de peintres… de Vasari

Construction automatique de cartographie + galerie d’images :

33 of 45

Projet de recherche Lessico Beni culturali

« activités centrées sur le lexique des différentes langues en relation avec la langue italienne dans le domaine du patrimoine artistique et culturel, en commençant par celui de la ville de Florence »

  • études des traductions de la terminologie relative à l’art
  • création d’un dictionnaire spécialisé multilingue
  • mise à disposition des guides touristiques

34 of 45

Nuage arboré d’un corpus de 168 textes de scientifiques et de gens de lettres dans la Revue des Deux Mondes (19e siècle)

Nadège Lechevrel & Philippe Gambette, « Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle », Prise de parole, Nouvelles perspectives en sciences sociales, 2016

Analyses de corpus (avec des nuages arborés)

35 of 45

Corpus for Idiolectal Research (CIDRE) : collection d’œuvres de fiction écrites par 11 auteurs et autrices prolifiques du 19e siècle (4 femmes, 7 hommes, 22 à 62 œuvres par personne, total de 37 millions de mots)

Sources : Wikisource, Project Gutenberg, La Bibliothèque électronique du Québec, site web Les Amis de Daniel-Lesueur, Projet eBalzac, ePubs de Gallica

Script step1-getebooks.py sur le dépôt dans Zenodo et Ortolang (utilisation de la bibliothèque Python selenium pour simuler le téléchargement de l’ePub dans un navigateur)

Seminck, O., Gambette, P., Legallois, D., & Poibeau, T. (2021). The Corpus for Idiolectal Research (CIDRE). Journal of Open Humanities Data, 7, 15 pages.

Collecte de corpus automatisée : le corpus CIDRE

36 of 45

Étude de l’évolution de l’idiolecte de romancières et romanciers du 19e siècle :

Olga Seminck, Philippe Gambette, Dominique Legallois & Thierry Poibeau, The Evolution of the Idiolect over the Lifetime: A Quantitative and Qualitative Study on French 19th Century Literature, Journal of Cultural Analytics, 2022.

Utilisation du corpus CIDRE

37 of 45

Réorganisation de l’ordre des feuilles d’un arbre (issu d’une classification hiérarchique) pour refléter au mieux la chronologie :

Utilisation du corpus CIDRE

Laurent Bulteau, Philippe Gambette & Olga Seminck, Reordering a tree according to an order on its leaves, CPM 2022 (Proceedings of the 33rd Annual Symposium on Combinatorial Pattern Matching).

Philippe Gambette, Olga Seminck, Dominique Legallois & Thierry Poibeau, Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order, EADH 2021 (2nd International Conference of the European Association for Digital Humanities).

38 of 45

Premiers recueils de Marceline Desbordes-Valmore

Diagrammes de Sankey enchaînés

Données sources : tables des matières au format tableur

Outil SankeyCompare (Gambette, Lechevrel & Trotot, 2021)

39 of 45

Premiers recueils de Marceline Desbordes-Valmore

  • clic sur un point pour accéder au poème
  • clic sur un lien pour accéder à l’alignement entre les deux versions construit avec MEDITE, appelé par pairwiseMedite (script Python)

40 of 45

Premiers recueils de Marceline Desbordes-Valmore

  • clic sur un point pour accéder au poème
  • clic sur un lien pour accéder à l’alignement entre les deux versions construit avec MEDITE, appelé par pairwiseMedite (script Python)

41 of 45

Constitution d’un corpus d’écrits de femmes

  • Collecte d’écrits de femmes dans diverses sources
  • Normalisation avec un balisage XML-TEI superficiel, harmonisé pour Philologic
  • Chargement dans Philologic (merci à Patrice Hérault du LIGM !) : http://treecloud.univ-mlv.fr/philologic/visiautrices.html

→ 70 ouvrages dans cette première version (158 dans French Women Writers du projet ARTFL, corpus en accès réservé)

Version augmentée du corpus à venir dans le cadre du projet Cité des dames 2 mené à l’Université Gustave Eiffel.

42 of 45

Une démarche associative : Le deuxième texte

  • plateforme ledeuxiemetexte.fr pour mettre à disposition des profs :
    • des extraits de textes écrits par des femmes
    • du contenu pédagogique associé
  • ateliers Wikisource Autrices : depuis 2017, contribution par Le deuxième texte à la mise en ligne de plus de 270 ouvrages écrits par des femmes dans le domaine public

43 of 45

Une démarche associative : Le deuxième texte

Philippe Gambette, Nadège Lechevrel et Caroline Trotot, « Valoriser des corpus littéraires numériques avec Wikisource : de la recherche à la pédagogie », dans Lionel Barbe et Marta Severo, Wikipédia, objet de médiation et de transmission des savoirs, p. 159-176.

44 of 45

Une démarche associative : Le deuxième texte

  • plateforme ledeuxiemetexte.fr pour mettre à disposition des profs :
    • des extraits de textes écrits par des femmes
    • du contenu pédagogique associé
  • ateliers Wikisource Autrices : depuis 2017, contribution par Le deuxième texte à la mise en ligne de plus de 270 ouvrages écrits par des femmes dans le domaine public
  • concours #JeLaLis : http://jelalis.ledeuxiemetexte.fr
  • réseau associatif : les sans pagEs (ateliers Wikipédia), projet #SheSaid (dictionnaire de citations collaboratif Wikiquote)

45 of 45

À vous de jouer !

Prochains ateliers Wikisource Autrices par l’association Le deuxième texte, en partenariat avec l'association les sans pagEs et la librairie·café Violette and Co, qui accueille l'événement (52 rue Jean-Pierre Timbaud, 75011 Paris et en visio) :

  • 16 novembre 2024, 11-13h : sur le thème Sorcières
  • 14 décembre 2024, 11-13h : thème à venir