Ateliers numériques ObTIC

Ateliers Numériques et séminaires ObTIC

ObTIC - Sorbonne Université

L'équipe-projet ObTIC organise des ateliers numériques pour l'année 2023-2024 avec une série d'interventions thématiques en lien avec les humanités numériques: traitement automatique des textes, apprentissage automatique, analyse de corpus, etc.

Les ateliers sont généralement sous la forme d'un exposé, suivi d'une séance pratique.

Pour toute information, écrire à motasem.alrahabi@sorbonne-universite.fr.

Programmation 2023-2024

(ordre chronologique décroissant)

Atelier 21/06/2024 (14h-18h)

Titre : Apprentissages automatique et profond pour l'analyse automatique des textes en SHS.
Lieu : Jussieu, SCAI

Résumé : Par une approche pratique, nous aborderons dans cet atelier les principes généraux de l'analyse de textes en traitement automatique des langues: nettoyage et préparation de données, lemmatisation, stopswords, vectorisation, normalisation, etc. Ensuite, à l'aide de la bibliothèque des transformers Hugging Face, nous allons appliquer à un jeu de données une série de traitements et d'analyse comme l'extraction d'information (entités nommées), l'analyse des émotions, l'analyse thématique, la visualisation, etc.

Animé par: Motasem Alrahabi

→ Documents: à venir.

Atelier 21/05/2024 (14h - 16h)

Titre : De l'OCR à la visualisation de données
Lieu : Jussieu, SCAI - salle de séminaire

Résumé :La constitution des corpus de textes anciens et leur exploitation informatique passe par l’élaboration d’une chaîne de traitement adéquate. Je vous propose, par le prisme de mon travail de thèse, qui porte sur l’évaluation des systèmes de reconnaissance d’entités nommées sur des textes anciens d’observer la chaine de traitement de l’OCR à la visualisation sur une carte des entités nommées spatiales présentent dans un corpus de textes romanesques.

Animé par: Caroline Parfait

→ Documents: https://github.com/These-SCAI2023/EXPE39_DHENS-2023_13092023

Atelier 30/04/2024 (10h - 12h)

Titre : Extraction de concepts clés à partir de textes
Lieu : Datalab - Jussieu

Résumé : Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d'extraction de concepts clés à partir de textes. Notre objectif est d'extraire les mots-clés à partir du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne et française au XIXe s.) d'une part, et d'autre à partir des textes écrits par ses élèves et collègues. Cette tâche s'inscrit dans le projet de thèse en cours axé sur le pistage de circulation du discours médical de Jean-Martin Charcot.

Animé par: Ljudmila

→ Documents: https://github.com/ljpetkovic/Charcot_KeyBERT_Keyphrase-Vectorizers

Atelier OCR/HTR 26/04/2024 (16h - 18h)

Titre : Numérisation de documents historiques
Lieu : salle G647 du Centre Roland Mousnier, Sorbonne

Public : Doctorants du centre Roland Mousnier, SU

Animé par: Ljudmila Petkovic

Après l’atelier OCR/HTR du 22/11/2023, cet atelier de retour d'expérience vise à ouvrir un espace de discussion libre autour des expérimentations de la plateforme d’HTR eScriptorium, avec un focus sur les projets de recherche des doctorant·e·s du Centre Roland Mousnier. La discussion sera suivie d’un aperçu des travaux de recherche en cours ou achevés portant sur la transcription automatique des documents imprimés et manuscrits. La fin de la séance sera consacrée aux réflexions concernant le futur programme des ateliers portant sur d’autres méthodes d’analyse et/ou d’outils numériques.

→ Documents: ici

Atelier 23/02/2024 (10h - 12h)

Titre : BDD relationelles et SQL
Lieu : Salle de formation du Datalab

Résumé : Les projets de recherche en humanités numériques créent forcément des données qu’il faut gérer soigneusement. De cette fin, des connaissances de la théorie des bases de données et sa mise en pratique seraient un ajout important aux compétences des étudiant.e.s, doctorant.e.s et chercheur.euse.s.

Cet atelier de deux heures vise à introduire les participant.e.s aux enjeux des bases de données relationnelles et des systèmes de gestion de bases de données. Nous parlerons également de Structured Query Language (SQL).

Animé par: Una Faller

→ Documents: ici

Atelier 26/01/2024 (10h30-12h30 et 14h-17h)

Titre : Analyse de réseaux
Lieu : BNF, salle 70

Résumé : cet atelier en deux parties sera consacré à l'extraction de réseaux de personnages grâce à l'outil Renard. Renard est une librairie python modulaire permettant d'extraire des réseaux de personnages statiques et dynamiques à partir de textes littéraires. La première partie de l'atelier sera consacrée à une introduction rapide au sujet des réseaux de personnages et à la prise en main de la librairie sur un texte donné. La seconde partie permettra aux participants de travailler et d'extraire des réseaux sur leurs propres textes.

Animé par: Arthur Amalvy (université d'Avignon)

Pré-requis: il faut avoir installé python, Renard et jupyter. Renard peut être installé avec la commande "pip install renard-pipeline", et supporte les versions de python de 3.8 à 3.10. Les utilisateurs d'une ancienne version de Renard peuvent mettre à jour la librairie via la commande "pip install renard-pipeline --update".

→ Documents: Github et Notebook.

Atelier 05/12/2023 (10h - 12h)

Titre : Principes du TAL

Lieu : Datalab, salle 70

Résumé : Mis en lumière par ChatGPT, l’« intelligence artificielle », que l’on ramènera ici au traitement automatique des données textuelles, est depuis longtemps derrière un grand nombre de nos pratiques informatiques quotidiennes. Pour la recherche en sciences humaines, ces techniques d’analyse automatique de texte permettent de travailler sur des corpus toujours plus grands et de plus en plus exhaustifs, ce qui constitue un intéressant complément aux pratiques de recherche plus traditionnelles. Ce séminaire-atelier aura lieu en deux parties : la première session présentera une série d’outils permettant l’analyse et la « lecture distante » de corpus. Il s’adresse à toute personne menant des recherches sur des données textuelles (quelle que soit la langue) et qui souhaite se doter de nouveaux outils pour élargir ses perspectives méthodologiques. Une deuxième session, plus théorique, s’adressera aux chercheurs ayant déjà une expérience en humanités numériques et souhaitant approfondir leur compréhension des outils de traitement automatique pour mieux cerner leur potentiel et leurs limites.

Animé par: Johanna Cordova

→ Documents:

https://drive.google.com/file/d/1e7YFlbbOwBxaCQQp80LVRTDljZxWYBla/view?usp=sharing

Atelier OCR/HTR 22/11/2023 (16h - 18h)

Titre : Numérisation de documents hitoriques
Lieu : Serpente

Public : Centre Roland Mousnier, SU

Animé par: Motasem Alrahabi et Ljudmila Petkovic

→ Documents: ici.

Atelier 17/11/2023

Titre : Introduction au XML et à la TEI
Lieu : En ligne

Résumé : La TEI (ou Text Encoding Initiative) est un standard pour représenter, transférer et pérenniser les textes en format digital, un standard qui s'appuie sur le XML (eXtensible Markup Language). Dans cet atelier, destiné aux débutants, nous aborderons les points suivants : la structure arborescente du langage de balise XML, son syntaxe et d’autres règles d'usage ; puis les schémas TEI, l’outil Oxygen qui permet de créer, visualiser et publier les documents bien formés en XML-TEI et les métadonnées à inclure dans des documents conformes à la TEI. Nous parlerons aussi de l’outil Teinte qui facilite la conversion des fichiers en plusieurs formats vers d’autres formats importants pour les projets en humanités numériques, y compris XML-TEI.

Animé par: Una Faller

→ Documents: ici

Atelier: Cycle de formations en Humanités Numériques - partenariat avec le Datalab

Session 1 : une demi-journée

24/10/2023 (10h - 13h)

Titre : l’IA pour la recherche en sciences humaines : introduction aux humanités numériques

Lieu : Salle 70, BnF (plan ou accès)

Animé par: Johanna Cordova, Úna Faller.

→ Documents: ici

Programmation 2022-2023

Programme par ordre chronologique décroissant

Atelier 13/06/2023 (10h-18h00)

Titre : Réseaux de personnages dans les romans : extraction et analyse
Lieu : Datalab - BNF.

Résumé : L'idée est d'utiliser l'outil "Renard" qui permet d'extraire des graphes à partir de romans, et qui nécessite Python, et d'utiliser Gephi pour la visualisation. La dernière version de Gephi est très simple à installer, car elle intègre maintenant Java. Outre la présentation et la mise en œuvre de ces outils, les principales mesures utilisées dans la littérature pour décrire les réseaux de personnages seront présentées, en montrant comment les calculer avec Gephi (ou avec Python si ce n'est pas possible de le faire avec Gephi). Chaque participant pourra venir avec son propre ouvrage sur lequel il aura au préalable détecté les entités nommées (au format CoNLL 2002), et nous pourrons partir de là pour l'extraction et l'analyse de graphes. En cas de problème, un texte sera fourni aux participants.

Animé par : Vincent Labatut, maître de conférences et Arthur Amalvy, doctorant, Université d'Avignon

Prérequis: Python v3.7 (ou ultérieur) ; Gephi https://gephi.org/users/download/ ; Renard https://pypi.org/project/renard-pipeline/.

Chaque personne peut amener un texte ou ouvrage annoté en NER au format CoNLL-2002 (https://www.clips.uantwerpen.be/conll2002/ner/).

→ Documents: ici.

Atelier 18/04/2023 (14h-16h30)

Titre : Permanence TAL
Lieu : Datalab, BNF

Résumé : Discussion libre autour des projets de participants, invités à présenter leurs corpus et problématiques de recherche. Sujets abordés : constitution des corpus (OCR, formats, métadonnées), analyse textométrique, topic modeling, etc.

Animé par : Valentina Fedchenko, James Gawley, Johanna Cordova

Prérequis: aucun

→ Documents…

Atelier 21/03/2023 (15h-17h):

Titre: Principes du TAL

Lieu: Datalab, BNF

Résumé: Des systèmes par règles au réseaux de neurones, il existe de nombreuses méthodes de traitement automatique du langage naturel dont l’efficacité varie selon les données disponibles et la tâche considérée. Cet atelier se propose de présenter les différentes méthodes de TAL et leurs spécificités, en illustrant chacune d’entre elles par des exemples concrets et des exercices pratiques. L’objectif est de proposer aux participants la vue d’ensemble nécessaire pour choisir les outils les plus adaptés à leurs besoins pour le traitement de leurs corpus.

Animé par: Johanna Cordova

Prérequis: aucun

→ Documents…

Atelier 10 mars 2023 (09h-17h):

Titre: Analyse stylométrique de textes littéraires.

Lieu: Datalab, BNF.

Résumé: ...

Animé par: Jean-Baptiste Camps et Florian Cafiero.

→ Documents.

Atelier 17 février 2023 (14h-16h):

Titre: L'analyse de réseaux : méthode et apports pour une étude transversale des textes.

Lieu: Datalab, BNF.

Résumé: En partant d’une étude sur les discours littéraire et scientifique de la seconde moitié du XIXe siècle, cet atelier sera consacré aux usages de l’analyse de réseaux pour la visualisation et l’interprétation des données. Il sera l'occasion d'une interrogation collective sur les éventuels apports de cette méthode dans la construction d’une histoire empirique et relationnelle de la littérature.

Animé par: Marine Riguet, MCF à l'université de Reims.

→ Documents.

Séminaire 16 janvier 2023 (14h-16h):

Lieu: campus Jussieu et en ligne.

Titre: Fouille de données avec dataframes (Python)

Animé par: Valentina Fedchenko, ingénieure ObTIC

Programme:

Cet atelier est le troisième atelier de ce cycle. Il présentera les structures de données économiques comme les dictionnaires et les dataframes (Pandas). Nous apprendrons à extraire des informations de tableurs (csv, tsv, xsl), à les trier, à les modifier et à extraire les informations statistiques.

→ Documents.

Séminaire 21 novembre (14h-17h):

Sujet: Stylométrie

Animé par: Jean-Baptiste Camps et Florian Cafiero

Lieu: Campus Jussieu, 75005 Paris

Titres et résumés :

La stylométrie: histoire, méthode et objets

Jean-Baptiste Camps (Ecole nationale des chartes)

Le terme de «stylométrie» (la mesure du style, ou, mieux, de l'idiolecte) est encore peu connu. Forgé au XIXe siècle, son histoire le lie à la recherche de critères objectifs et peu manipulables consciemment permettant d'établir l'autorité (ou la chronologie relative) d'œuvres disputées. Reposant sur le présupposé d'un usage individuel et propre à chacun du langage (le 'stylome'), la stylométrie tire depuis lors le plus gros de ses analyses des mots-outils, des morphèmes grammaticaux, et de manière générale, de faits linguistiques que l'on veut aussi indépendants du contexte que possible, loin des métaphores, chiasmes ou des thématiques de prédilection d’un auteur ou d'un genre. Depuis les comptes manuels du XIXe siècle, jusqu'à l'irruption des ordinateurs dans les années 1950 et la fouille de données massives des réseaux sociaux aujourd'hui, ses méthodes n'ont eu,de cesse d'évoluer. Dans cette présentation, nous tenterons, par son histoire, d'introduire aux méthodes et aux enjeux de cette discipline.

Que peut vraiment la stylométrie ? Heurs et malheurs de la fameuse attribution d’autorité

Florian Cafiero (Institut d’Etudes Politiques de Paris)

Longtemps cantonnée à des usages philologiques aussi passionnants que confidentiels, la stylométrie a connu depuis les années 1990 une exposition croissante, à la faveur de controverses plus ou moins retentissantes comme celle concernant la paternité des œuvres de Molière. La perception de ce champ en a été durablement altérée, en France notamment, où elle est vue comme un processus scientifique infaillible par certains, comme une charlatanerie patentée pour d’autres. Nous reviendrons dans cette présentation sur les véritables possibilités et limites de la stylométrie, ce selon deux points de vue. Techniquement tout d’abord: Avec quel degré de certitude peut-on attribuer un texte à un auteur ? Peut-on percevoir l’influence de plusieurs auteurs ? L’auteur d’un texte est-elle la seule information que l’on peut déduire de son langage ? Quand sommes-nous susceptibles de nous tromper? Éthiquement ensuite: les questions soulevées par la discipline s’accroissent avec le temps: que penser d’études révélant les noms d'auteurs ayant dissimulé leur identité à dessein ? Des usages policiers de cette technique ? Des possibilités qu’elle pourrait offrir à des gouvernements autoritaires, à des entités malveillantes ? Au travers de différents cas allant du théâtre classique à Elena Ferrante, nous tenterons de répondre à ce vaste éventail de questions.

→ Documents.

Atelier 14 novembre 2022 (14h-16h):

Lieu: campus Jussieu et en ligne.

Titre: Structures conditionnelles et fonctions

Animé par: Valentina Fedchenko, ingénieure ObTIC

Programme:

Structures conditionnelles If / Elif / Else

Boucles: While, For, Break, Continue

Fonctions

→ Documents

Atelier 24 octobre 2022 (14h-16h):

Titre: Introduction à Python

Animé par: Valentina Fedchenko, ingénieure ObTIC

Lieu: campus Jussieu et en ligne.

Programme:

Installer Python et un IDE, travail sur Google Colab

Variales et types (nombres et chaînes de caractères)

Listes (tableaux et dictionnaires).

→ Documents + autres.

Programmation 2021-2022

Organisés par Motasem Alrahabi et Glenn Roe

Salle des séminaires, SCAI - bâtiment Esclangon, Sorbonne Université

4 Place Jussieu, 75005 Paris

L'ObTIC organise des ateliers numériques pour l'année 2021-2022 avec une série d'interventions thématiques en lien avec les humanités numériques et les nouvelles technologies pour l'analyse textuelle (traitement automatique des langues, apprentissage automatique, analyse de corpus...).

Ces ateliers d'initiation seront sous la forme d'un exposé, suivi d'une séance pratique.

Thématique 1: Reconnaissance automatique des caractères

Résumé:

Dans le cadre des projets consacrés à l’établissement des éditions savantes de textes sous prisme des humanités numériques, l’exploitation des outils de numérisation de textes représente la toute première étape dans la chaîne de traitement d’un corpus. Lors de cette séance, nous présenterons trois logiciels de reconnaissance optique de caractères (OCR) à code source ouvert : Transkribus, Kraken et eScriptorium, qui sont d’ores et déjà considérés comme l’état de l’art dans le domaine de l’océrisation des textes. Afin de comprendre les spécificités de chacun des systèmes, nous les utiliserons sur un corpus exemple, puis nous évaluerons la qualité des sorties ainsi produites. Pour approfondir, nous verrons comment entraîner un nouveau modèle pour un corpus dont le texte est mal reconnu.

Atelier 28/10/2021 (14h-17h):

Titre: Présentation et utilisation des OCR Abbyy FineReader, Transkribus, Kraken et eScriptorium

Animé par: Motasem Alrahabi et Ljudmila Petković, ObTIC

Programme:

- Principes de l’OCR et de la numérisation

- Prise en main et installation des outils Abbyy, Transkribus et Kraken.

→ Documents

Atelier 18/11/2021 (14h-17h):

Titre: Utilisation avancée des OCR avec Tesseract

Animé par: Johanna Cordova, ingénieure ObTIC

Programme:

- Tesseract & eScriptorium: utilisation

- Évaluation des résultats avec OCReval (individuellement)

- Synthèse des résultats d'évaluation pour les 3 OCR sur un jeu de données

- Cas d'étude : un corpus difficile à OCRiser

- Entraîner un modèle pour son corpus

- (si assez de temps) OCRiser en XML

→ Documents

Atelier 25/11/2021 (14h-17h):

Titre: Correction automatique des sorties d’OCR

Animé par: Ljudmila Petković, Angélique Allaire, doctorantes ObTIC

→ Documents

Thématique 2: Repérage automatique des entités nommées

Résumé:

Le but de cet atelier est de donner une vision générale des entités nommées, de leur définition à leurs applications. Elles seront abordées premièrement d'un point de vue définitoire avec une partie annotation manuelle. Nous verrons ensuite les méthodes mises en place afin de les reconnaître automatiquement dans les textes à l'aide de méthodes par apprentissage.

Atelier 2/12/2021 (14h-16h):

Titre: Les entités nommées : une vision d'ensemble

Animé par: Yoann Dupont, post-doctorant ObTIC

Mots-clés: entités nommées, apprentissage automatique et annotation.

→ Documents

Atelier 9/12/2021 (14h-17h): Reporté à Janvier 2022

Titre: Désambiguïsation des entités nommées et liage au Web des données.

Animé par: Carmen Brando, ingénieure EHESS

→ Documents

Atelier 16/12/2021 (14h-17h):

Titre: Spécialisation d’outils de repérage d’entités nommées avec Spacy et SEM.

Animé par: Yoann Dupont, post-doctorant ObTIC

→ Documents

Thématique 3 : Programmation en langage Python: manipulation de données textuelles

Résumé:

Cette série de séances pratiques est destinée aux chercheurs et étudiants débutants. Elles permettront de découvrir les bases de Python et de rédiger les premiers codes pour la manipulation de données textuelles.

Atelier 01/12/2021 (16h-18h):

Titre: Algorithmique, Expressions régulières

Animé par: Motasem Alrahabi

→ Documents

Atelier 02/12/2021 (10h-12h):

Titre: Introduction à Python

Animé par: Johanna Cordova, ingénieure ObTIC

Programme:

Installer Python et un IDE

Variales et types (nombres et chaînes de caractères)

Listes (tableaux et dictionnaires)

→ Documents

Atelier 08/12/2021 (16h-18h):

Titre: Structures conditionnelles et fonctions

Animé par: Angélique Allaire, doctorante ObTIC

Programme:

Structures conditionnelles If / Elif / Else

Boucles: While, For, Break, Continue

Fonctions

→ Documents

Atelier 09/12/2021 (10h-12h):

Titre: Manipuler des fichiers texte

Animé par: Ljudmila Petković, doctorante ObTIC

Programme:

Créer, renommer, déplacer, supprimer un fichier ou un dossier

Parcourir un fichier ou un dossier

Rechercher, modifier, remplacer ou supprimer une chaîne de caractères (regex)

→ Documents

Atelier 15/12/2021 (16h-18h):

Titre: Manipuler des fichiers XML

Animé par: James Gawley, post-doctorant, ObTIC

Programme:

Parcourir un fichier XML

Rechercher, modifier, remplacer ou supprimer une chaîne de caractères ou un élément (xpath)

→ Documents

Atelier 16/12/2021 (10h-12h):

Titre: Installer des librairies (Github, environnements virtuels...)

Animé par: Yoann Dupont, post-doctorant ObTIC

Programme:

Installer des librairies avec Python (Spacy, Word2Vec, TopicModel, OCR…).

→ Documents

Thématique 4: Stylométrie, analyse automatique du style d’auteurs

Résumé:

Le "style" d'un écrivain peut être identifiable par le lecteur, mais d’un point de vue formel, cela pourrait être difficile à définir. La stylométrie utilise des caractéristiques subtiles qui ne sont pas choisies consciemment par un auteur, et les utilise pour développer une "empreinte digitale" d'un auteur individuel qui ne peut pas être facilement cachée ou imitée. Cet atelier présentera les concepts de base de l'analyse stylométrique et conduira les participants à travers un scénario utilisant le logiciel de modélisation de données R et le progiciel "stylo".

Atelier 22/04/2022 (14h-17h)

Titre: Analyser le style d'un auteur avec des outils numériques:

Animé par: James Gawley, post-doctorant ObTIC

Programme: Le « style » d’un écrivain peut être identifiable par le lecteur, mais d’un point de vue formel, il reste difficile à définir. La stylométrie se base sur des caractéristiques subtiles, qui ne sont pas choisies consciemment par un auteur, pour identifier l'« empreinte digitale » de ce dernier, empreinte qui ne peut être facilement cachée ou imitée. Cet atelier présentera les concepts de base de l’analyse stylométrique et conduira les participants à travers un scénario utilisant le logiciel de modélisation de données R et le progiciel « Stylo ».

→ Documents.

Anciens ateliers OBVIL (lien).