1 of 25

1

Obvie: interface web pour la fouille �et la comparaison de textes

Motasem ALRAHABI, ObTIC - Sorbonne Université

motasem.alrahabi@sorbonne-universite.fr

Atelier DAHLIA, conférence EGC, 24 janvier 2022

2 of 25

OBVIE: le contexte du projet

  • Développé dans le cadre du Labex OBVIL et de l’équipe-projet ObTIC.
  • Sur la base de la bibliothèque numérique de l’OBVIL: textes consultables en ligne, et téléchargeables en différents formats (TXT, EPUB, HTML, TEI).

2

Archives

Transcription (saisie, OCR, HTR...), correction…

Structuration TEI

Mise en ligne

3 of 25

OBVIE: le contexte du projet

  • OBVIE est un moteur de recherche offrant des fonctionnalités de fouille, de statistiques lexicales et de comparaison de textes.
  • Objectifs:
    • Valoriser les corpus au sein de la bibliothèque numérique de l’OBVIL.
    • Mettre à disposition de la communauté des HN une plateforme accessible, pour l’exploration des corpus littéraires, mais également pour de nouveaux textes (journaux, médecine, SHS…)
    • Offrir des moyens rapides pour l’exploration de corpus:
      • Analyses quantitatives / qualitatives (distant / close reading)

3

4 of 25

Architecture générale

  • L’architecture de l’application est basée sur une suite de fonctionnalités qui offrent des dispositifs de lecture et d’interprétation avancées.

4

5 of 25

Interface web

5

6 of 25

Moteur OBVIE: différentes vues

  • Principe de fonctionnement:
    • Requête par mots clés (avec lemmatisation)
    • Filtrage par métadonnées (auteur, date et titre)
    • Tris, résultats pondérés
    • Présentations selon une série de « vues »

6

7 of 25

1) Vue “Corpus”

  • Afficher les fichiers d’origine, ou ceux qui répondent à la requête.
  • Moyen de sélectionner une partie des résultats pour créer un sous-corpus.

7

8 of 25

2) Vue “Fréquences”

  • Montrer les mots cooccurrents des termes de la requête.
  • Les résultats sont filtrés par nombre ou par catégorie grammaticale (Alix).
  • L’utilisateur a le moyen également de télécharger ces données au format CSV.

8

9 of 25

3) Vue “Nuage”

  • Montrer les mots cooccurrents des termes de la requête, présentés sous forme de nuage de mots.
  • Les résultats sont filtrables par nombre ou par catégorie grammaticale.

9

10 of 25

3b) Vue “Réseau”

  • Relier les mots qui apparaissent ensemble dans un contexte de ??? mots.
  • La taille d’un mot représente ses occurrences dans le texte.
  • L’épaisseur d’un lien entre deux mots: le nombre de leur apparition ensemble.

10

11 of 25

4) Vue “Extraits”

  • Afficher les passages qui répondent à la requête dans un contexte large.
  • Les résultats sont filtrables par auteur, date ou pertinence.

11

12 of 25

5) Vue “Concordance”

  • Affiche les passages qui répondent à la requête sous forme de concordance.
  • Les résultats sont filtrables par auteur, date ou pertinence.

12

13 of 25

6) Vue “Document”

  • La vue « Document » affiche les passages qui répondent à la requête dans le contexte du document d’origine.

13

14 of 25

Chronologie

  • Une frise chronologique interactive permet de visualiser tout au long du parcours d'exploration la fréquence des mots-clés au fil des dates du corpus.

14

15 of 25

7) Vue “Résumé”

  • Le résumé est automatiquement généré par la librairie…

15

16 of 25

7) Vue “Comparaison”

  • Comparer un texte répondant à la requête avec d’autres textes du corpus.
  • Très utile pour des analyses de similarité, de reprise ou d’emprunt

16

17 of 25

7) Vue “Comparaison”

  • Visualiser les deux documents côte à côte
  • Surligner dans chaque document les mots fréquents et les noms propres cités
  • Surligner les mots communs (et les mots distinctifs…en cours)

17

18 of 25

Scénario d’utilisation

  • Obvie est utilisé dans différents travaux d’enseignement et de recherche sur des textes littéraires.
  • L’outil fonctionne aussi sur d’autres genres textuels:
    • Exemple d’application dans le domaine médico-social.

18

19 of 25

Analyse de données socio-médicales (samu)

20 of 25

OBVIE: informations générales

20

21 of 25

Gallica-Obvie

  • Permet d'indexer directement des documents à partir de la bibliothèque Gallica.
  • Il suffit de fournir les identifiants ARK des documents ciblés.
  • Les données indexées sont gardées temporairement sur le serveur.�

21

+ parler du nouveau script pour l'extraction de données, et de Pandore + LegoNLP

22 of 25

Merci de votre attention

motasem.alrahabi@gmail.com

obtic.sorbonne-universite.fr

22

23 of 25

Première maquette et conception

23

24 of 25

Première maquette et conception

24

25 of 25

OBVIE: indexation

  • Indexer un nouveau corpus (serveur humanum)
    • Dans Filezilla (obtic humanum):
      • Dans /data/proj/
        • Créer un nouveau dossier nouveau-projet avec les xml à indexer (--> nouveau-projet/*.xml)
      • Dans /data/app/obvie/web/WEB-INF/
        • créer un fichier nouveau-projet.xml selon le modèle des autres (bien garder la ligne dtd)
    • En SSH (obtic.huma-num.fr):
        • cd /data/app/obvie/web/WEB-INF/
        • sudo ./index.sh ARTERM.xml
  • Supprimer un corpus indexé:
    • FTP: Supprimer le fichier /data/app/obvie/web/WEB-INF/nouveau-projet.xml �et le dossier concerné dans /data/proj/
    • SSH: redémarrer tomcat: sudo service tomcat9 restart

25