1 of 54

Modélisation des données.

Une maïeutique interdisciplinaire pour des données de qualité

Gérald Kembellec

Lab Dicen-IdF / Institut Historique Allemand / Cnam

https://tinyurl.com/FPLabModele

2 of 54

Préambule

L’ANR (... et le FNS, le DFG) réclame(nt) le DMP depuis 2019

  1. DMP ?
  2. Injonction technocratique ?
  3. Les point positifs
    1. s’obliger à modéliser
    2. penser valorisation du projet

(des jeux de données aussi…)

3 of 54

Modéliser et co-construire :

la spécificité “interdisciplinaire” des Humanités numériques

Traiter numériquement les humanités, un cas à part ?

Une ou plusieurs discipline(s) humaniste(s)

croisée(s) avec des méthodes numériques

dans des cadres informationnels et

communicants variés

4 of 54

Petit point terminologie en épistémologie

L’interdisciplinarité concerne le transfert des méthodes d’une discipline à l’autre mais sa finalité reste aussi inscrite dans la recherche disciplinaire.

Elle suppose un dialogue et l'échange de connaissances, d'analyses, de méthodes entre deux ou plusieurs disciplines.

Elle implique qu'il y ait des interactions et un enrichissement mutuel entre plusieurs spécialistes

5 of 54

Penser son objet de recherche en interdiscipline

Objet de recherche entendu au sens de Davallon (2004):

« le phénomène, ou le fait, tel que le chercheur le construit pour pouvoir l’étudier».

Selon Bénel (2014), trois facteurs sont à considérer pour la réussite d’une démarche interdisciplinaire :

1) le transfert de méthodes entre disciplines,

2) l’engagement des chercheurs,

3) l’enrichissement scientifique mutuel, la discussion épistémologique entre les chercheurs

6 of 54

Modéliser son objet de recherche : la maïeutique en dialogue

Socrate

La maïeutique (méthode socratique), du grec ancien, par analogie avec le personnage de la mythologie grecque Maïa, qui veillait aux accouchements, technique qui consiste à bien interroger une personne pour lui faire exprimer des connaissances.

7 of 54

Equiper la maïeutique en dialogue : la modélisation

Socrate

  1. Questionner sur les concepts
  2. Ecouter
  3. Retranscrire (sous forme schématique)
  4. Confronter / négocier les points de vue
  5. Recommencer en miroir

SyMoGIH et la modélisation de l’information : une opération scientifique au service de l’histoire

démo de modélisation http://mocodo.wingi.net

8 of 54

Réaliser un dispositif de médiation après la modélisation

Choisir un dispositif :

Ne pas réinventer la roue ! Il existe des plateformes et des aides

Ex :

  • SyMoGIH,
  • Omeka S

(offre Nakala humanum),

  • FuD,
  • Heurist,
  • ....

9 of 54

Retours sur l’historique d’un projet interdisciplinaire

  • Interdiscipline
  • modélisation et maïeutique
  • qualité des données
  • libération et valorisation des données

10 of 54

10

La critique d’art

… et son corpus

Corpus :

- Une approche monographique.

- Auteurs francophones

- Rédaction de critiques d’art entre mi XIXe et l’Entre-deux-guerres*.

- Approche interdisciplinaire (au sein de l’histoire de l’art).

- Pas de typologie ou de classement autre que le support de diffusion du texte (article, ouvrage ou chapitre d’ouvrage)

11 of 54

11

Une équipe pluridisciplinaire

Vacataires scientifiques

Anne-Sophie Aguilar

(juin 2014-juin 2015)

Lucie Lachenal

(octobre 2015-sept 2020)

Sciences de l’information

et de la communication :

Gérald Kembellec ;

Orélie Desfriches-Doria

Histoire de l’Art :

Marie Gispert ; Catherine Méneux

… et + de 70 spécialistes en histoire de l’Art

pour la recherche et la saisie !

Sociologie

Josquin Debaz

12 of 54

�Interdiscipline: Un modèle co-construit�

12

2014

Penser et modéliser le modèle conceptuel initial de l’« écosystème » de la critique

2015-2016

Re-penser et réaliser la structure du SI issue du modèle, penser les interfaces

2016-2017

Saisir et vérifier les données dans le SI, réaliser les interfaces et masques

2017-2018

Libérer les données : interfaces, visualisations, jeux de données, début des données liées

2018-2021

Nouvelles notices, Modèle de la « prosopographie », amélioration de la sémantique des contenus, communication scientifique, liaisons au documents primaires numérisés

13 of 54

La construction

  • du modèle
  • de la base de données
  • du dispositif

13

14 of 54

A l’origine du projet : la Maïeutique

14

Ce que j’ai compris à l’origine :

“bibliographies” = je connais

Ce qu’on a co-construit en quelques mois d’échange

15 of 54

�Conceptualisation�

initialement quelque chose de “relativement” simple :

Relations entre les critiques d’art et les revues ou ouvrages

16 of 54

�Conceptualisation�

Rattrapés

par la réalité !

(et ce n’est pas fini)

17 of 54

�Importance de

la qualité des modèles et données

Le modèle et sa granularité sont importants pour :

  • Pouvoir interroger la base de manière pointue (filtres)
  • Permettre d’enrichir et exposer les contenus des pages « générées » sur les principes du Web de données :

    • Référencement naturel (des bibliographies éditorialisées) ;
    • Interrogation sémantique (Langage et raisonnements sémantiques) ;
    • Identification individuelle des contenus dans les pages (citabilité) ;
    • Détection des notices bio et bibliographiques dans les pages ;
    • Moissonnage par les acteurs comme « Isidore » ou « Hyper Archive en Ligne »

18 of 54

A l’origine du projet : la Maïeutique

18

�...et contraintes organisationnelles de l’interdiscipline �

19 of 54

contraintes

qualitatives

  • Collecte : des chercheurs et des spécialistes

(MASTER, doctorat / postdoc, MCF en Histoire de l’art et Littérature)

  • Relecture (1): une curation drastique (doctorat spécialisé en critique d’art)
  • Saisie (TRÈS encadrée) : des étudiants avancés et des chercheurs (notion d’autorité sociale énonciative et institutionnelle, Gérard Leclerc*)
  • Relecture (2) : vérification systématique des références
  • Dépôt : des notices primaires sous forme de « dossiers » bio-bibliographiques avec des bibliographies primaires et secondaires (première partie)

* Histoire de la vérité et généalogie de l’autorité, in cahiers internationaux de sociologie, 2001(2), p. 205

20 of 54

�des contraintes organisationnelles �

  • Initiation à la littératie numérique pour les historien(ne)s de la critique (tableaux, BDD, règles de nommage, plan de classement, encodage UTF-8, Data et InfoVisualisation…)
  • Compréhension des enjeux de la critique pour les chercheurs en SIC
  • Des efforts réciproques

en terminologie

  • Une forte adaptabilité

réciproque

(vers le NoSQL)

20

21 of 54

�Des interfaces :�of machines and men

Penser pas une, mais des interfaces, éditorialisées pour les besoins des acteurs : humains et non humains

Visuelles :

IHM, des formulaires en français vernaculaire et un plug-in OpenSearch pour Firefox

Systématiques :

ETL ou API pour sélectionner et « extraire » les contenus : RDF, JSON, CSV, RSS…

… mais aussi microformat, RDF embarqué dans du HTML5

21

22 of 54

Rechercher, filtrer, �réagencer, récolter

  • À l’écran
  • Jeux

(CSV, JSON)

  • Mode API / ETL

pour les

programmeurs

  • Des données

bibliographiques

(Zotero ou

Mendeley grâce à COiNS et RDF dans l’en-tête)

22

23 of 54

Usages:

rechercher

23

les moteurs

simples

24 of 54

�Usages:

rechercher �

24

le moteur

avancé

avec des cas d’usages modélisés

25 of 54

QUERY

RESULTS

26 of 54

�Usages:

naviguer �

26

filtrer par auteurs

27 of 54

�Usages:

naviguer �

27

...par bio-bibliographie

28 of 54

�Usages:

naviguer �

28

... par bibliographie complète

29 of 54

Ce que voient les “machines” des résultats grâce aux micro-données

(plug in sémantique, moteurs de recherche, Isidore…)

29

Détecter les notices grâce aux microdonnées

30 of 54

Vers la prosopographie ?

30

31 of 54

Prosopographie

31

salons

oeuvres produites / critiquées

pays

distinctions

formation

collaborations

journalistiques

régiment

pseudonymes

Profession des parents

sociétés

syndicats

32 of 54

Une première approche prosopographique

32

Vers la prosopographie :

Comprendre le tissu social du groupe, les enjeux

en bêta

La sémantique prosopographique

OpenLink Structured Data Sniffer.

http://osds.openlinksw.com/

33 of 54

34 of 54

Méthodologie de traitement

  • Utilisation des notices

d’autorité (VIAF, ISNI…)

  • … des vocabulaires
  • descripteurs (DC, schema.org)
  • Création d’une ontologie (RDF)
  • Utilisation des micro-données dans l’interface
  • Requêtage par raisonnement (SPARQL), clustering (graphe)

34

35 of 54

Des problèmes de méthode

35

  • Une base surtout représentative d’un état de l’historiographie sur la critique d’art
  • Une cohorte peu nombreuse
  • Une représentativité difficile à appréhender
  • Une grande hétérogénéité du corpus
  • Pour l’instant un d’accès inégal aux sources primaires numérisées

Donc : précaution lors de l’analyse des données !!!

36 of 54

Des pistes prosopographiques

36

Sur la page critique :

  • Date et lieu naissance et mort
  • Principales collaborations
  • Pseudonymes
  • Formation
  • Profession des parents
  • Appartenance à des sociétés, associations et syndicats
  • Responsabilités institutionnelles
  • Décorations (légion d’honneur par exemple)

Via les bibliographies :

  • Part de la critique d’art dans la production globale
  • Part des articles / préfaces / ouvrages
  • Artistes commentés

37 of 54

�Les usages du dispositif ?�

37

 

38 of 54

Des données libres, un objectif de la recherche

�Usages: datas�

 

39 of 54

Sur Google datasets

Grace à la documentation

sur Zenodo

40 of 54

Hackathon ?

  • S’approprier une interface de recherche
  • Extraire des données d’une base de connaissances
  • Faire parler les données (regroupement, représentation, cartographie…)
  • Faire des hypothèses
  • … confirmer ou infirmer grâce à ses connaissances
  • Communiquer ses résultats

40

41 of 54

Brain storming�interdisciplinaire

41

42 of 54

Les posters

Science, culture et société

42

43 of 54

Des supports

d’exercice

(data)

Science

culture

et société

43

44 of 54

Représentations Graphiques :

analyse du volume et des périodes d’écriture par revue (pour les plus représentées)

44

45 of 54

Représentations Graphiques

Diagramme de Flux :

Analyse

du volume

et

des périodes d’écriture par auteur

45

46 of 54

46

Filtrage géographique

des éditeurs

intéressant en :

- en 1870

- 1914-18

- 1939-45

47 of 54

répartition �des notices �par revues

saisies

dans la base.�(hyperliens

base + BnF)

47

Time Line

48 of 54

48

Datavisualisation : Antoine Courtin de l’INHA

avec le dataset :

49 of 54

49

http://tinyurl.com/reseauCritiquesArt (Viz P-C. Langlais)

50 of 54

50

Fig. 1. Proportion de critiques ayant écrit, entre 1852 et 1870

Fig. 2. Proportion de compte-rendus de Salon, publiés entre 1852 et 1870

Dataviz tirées d’un article de Claire Dupin

« Être critique d’art sous le Second Empire. Parcours et carrières des salonniers entre 1852 et 1870 », in actes du colloque Une nouvelle histoire de la critique d’art à la lumière des humanités numériques ?

51 of 54

Représentations

Graphique

Filtrage de la base par les signatures (pseudonymes)

51

Dataviz Gérald Kembellec

52 of 54

Méthodologie d’analyse du corpus des sources

Un croisement méthodologique entre SHS/Socio et méthodes des historiens qui correspond à une boucle herméneutique fonctionnant comme suit :

  1. raisonnement classique hypothético-déductif : élaboration d’hypothèses inspirées des approches et questionnements en histoire et histoire de l’art
  2. mise à l’épreuve ces hypothèses avec Prospéro, qui fait remonter les lexiques depuis les textes
  3. retour sur les hypothèses à la lumière des résultats, et on peut repartir sur une nouvelle boucle avec des hypothèses nouvelles, ou revisitées.

En travaillant sur un petit corpus : détection des registres langagiers, et construction d’un outil/objet intermédiaire dont la pertinence sera évaluable lors de l’élargissement du corpus

53 of 54

A propos du projet

Kembellec, G., Desfriches-Doria, O., & Gisbert, M. (2020). Bibliographies de Critiques d’art francophones—Un projet interdisciplinaire d’Humanités Numériques. Revue ouverte d’ingénierie des systèmes d’information, 1(3).

https://www.sens-public.org/articles/1526/

Kembellec, G. (2020). Dialogie disciplinaire en Humanités Numériques: vers une percolation épistémique et méthodologique négociée. Sens public.

http://doi.org/10.21494/ISTE.OP.2020.0534

54 of 54

Merci !

  • Remarques ?
  • Questions ?
  • Démos ?
    • sémantique des contenus ?
    • Partage des données ?
    • Notebooks sur les données ?
    • modélisation (merise) avec Mocodo ?