Modélisation des données.
Une maïeutique interdisciplinaire pour des données de qualité
Gérald Kembellec
Lab Dicen-IdF / Institut Historique Allemand / Cnam
https://tinyurl.com/FPLabModele
Préambule
L’ANR (... et le FNS, le DFG) réclame(nt) le DMP depuis 2019
(des jeux de données aussi…)
Modéliser et co-construire :
la spécificité “interdisciplinaire” des Humanités numériques
Traiter numériquement les humanités, un cas à part ?
Une ou plusieurs discipline(s) humaniste(s)
croisée(s) avec des méthodes numériques
dans des cadres informationnels et
communicants variés
Petit point terminologie en épistémologie
L’interdisciplinarité concerne le transfert des méthodes d’une discipline à l’autre mais sa finalité reste aussi inscrite dans la recherche disciplinaire.
Elle suppose un dialogue et l'échange de connaissances, d'analyses, de méthodes entre deux ou plusieurs disciplines.
Elle implique qu'il y ait des interactions et un enrichissement mutuel entre plusieurs spécialistes
Penser son objet de recherche en interdiscipline
Objet de recherche entendu au sens de Davallon (2004):
« le phénomène, ou le fait, tel que le chercheur le construit pour pouvoir l’étudier».
Selon Bénel (2014), trois facteurs sont à considérer pour la réussite d’une démarche interdisciplinaire :
1) le transfert de méthodes entre disciplines,
2) l’engagement des chercheurs,
3) l’enrichissement scientifique mutuel, la discussion épistémologique entre les chercheurs
Modéliser son objet de recherche : la maïeutique en dialogue
Socrate
La maïeutique (méthode socratique), du grec ancien, par analogie avec le personnage de la mythologie grecque Maïa, qui veillait aux accouchements, technique qui consiste à bien interroger une personne pour lui faire exprimer des connaissances.
Equiper la maïeutique en dialogue : la modélisation
Socrate
SyMoGIH et la modélisation de l’information : une opération scientifique au service de l’histoire
démo de modélisation http://mocodo.wingi.net
Réaliser un dispositif de médiation après la modélisation
Choisir un dispositif :
Ne pas réinventer la roue ! Il existe des plateformes et des aides
Ex :
(offre Nakala humanum),
Retours sur l’historique d’un projet interdisciplinaire
10
La critique d’art
… et son corpus
Corpus :
- Une approche monographique.
- Auteurs francophones
- Rédaction de critiques d’art entre mi XIXe et l’Entre-deux-guerres*.
- Approche interdisciplinaire (au sein de l’histoire de l’art).
- Pas de typologie ou de classement autre que le support de diffusion du texte (article, ouvrage ou chapitre d’ouvrage)
11
Une équipe pluridisciplinaire
Vacataires scientifiques
Anne-Sophie Aguilar
(juin 2014-juin 2015)
Lucie Lachenal
(octobre 2015-sept 2020)
Sciences de l’information
et de la communication :
Gérald Kembellec ;
Orélie Desfriches-Doria
Histoire de l’Art :
Marie Gispert ; Catherine Méneux
… et + de 70 spécialistes en histoire de l’Art
pour la recherche et la saisie !
Sociologie
Josquin Debaz
�Interdiscipline: Un modèle co-construit�
12
2014
Penser et modéliser le modèle conceptuel initial de l’« écosystème » de la critique
2015-2016
Re-penser et réaliser la structure du SI issue du modèle, penser les interfaces
2016-2017
Saisir et vérifier les données dans le SI, réaliser les interfaces et masques
2017-2018
Libérer les données : interfaces, visualisations, jeux de données, début des données liées
2018-2021
Nouvelles notices, Modèle de la « prosopographie », amélioration de la sémantique des contenus, communication scientifique, liaisons au documents primaires numérisés
La construction
13
A l’origine du projet : la Maïeutique
14
Ce que j’ai compris à l’origine :
“bibliographies” = je connais
Ce qu’on a co-construit en quelques mois d’échange
�Conceptualisation�
initialement quelque chose de “relativement” simple :
Relations entre les critiques d’art et les revues ou ouvrages
�Conceptualisation�
Rattrapés
par la réalité !
(et ce n’est pas fini)
�Importance de
la qualité des modèles et données
Le modèle et sa granularité sont importants pour :
A l’origine du projet : la Maïeutique
18
�...et contraintes organisationnelles de l’interdiscipline �
contraintes
qualitatives
(MASTER, doctorat / postdoc, MCF en Histoire de l’art et Littérature)
* Histoire de la vérité et généalogie de l’autorité, in cahiers internationaux de sociologie, 2001(2), p. 205
�des contraintes organisationnelles �
en terminologie
réciproque
(vers le NoSQL)
20
�Des interfaces :�of machines and men
Penser pas une, mais des interfaces, éditorialisées pour les besoins des acteurs : humains et non humains
Visuelles :
IHM, des formulaires en français vernaculaire et un plug-in OpenSearch pour Firefox
Systématiques :
ETL ou API pour sélectionner et « extraire » les contenus : RDF, JSON, CSV, RSS…
… mais aussi microformat, RDF embarqué dans du HTML5
21
Rechercher, filtrer, �réagencer, récolter
(CSV, JSON)
pour les
programmeurs
bibliographiques
(Zotero ou
Mendeley grâce à COiNS et RDF dans l’en-tête)
22
�Usages:
rechercher �
23
les moteurs
simples
�Usages:
rechercher �
24
le moteur
avancé
avec des cas d’usages modélisés
QUERY
RESULTS
�Usages:
naviguer �
26
filtrer par auteurs
�Usages:
naviguer �
27
...par bio-bibliographie
�Usages:
naviguer �
28
... par bibliographie complète
Ce que voient les “machines” des résultats grâce aux micro-données
(plug in sémantique, moteurs de recherche, Isidore…)
29
Détecter les notices grâce aux microdonnées
Vers la prosopographie ?
30
Prosopographie
31
salons
oeuvres produites / critiquées
pays
distinctions
formation
collaborations
journalistiques
régiment
pseudonymes
Profession des parents
sociétés
syndicats
Une première approche prosopographique
32
Vers la prosopographie :
Comprendre le tissu social du groupe, les enjeux
en bêta
La sémantique prosopographique
Méthodologie de traitement
d’autorité (VIAF, ISNI…)
34
Des problèmes de méthode
35
Donc : précaution lors de l’analyse des données !!!
Des pistes prosopographiques
36
Sur la page critique :
Via les bibliographies :
�Les usages du dispositif ?�
37
Des données libres, un objectif de la recherche
�Usages: datas�
http://critiquesdart.univ-paris1.fr/opendata et sur Zenodo
Sur Google datasets
Grace à la documentation
sur Zenodo
Hackathon ?
40
Brain storming�interdisciplinaire
41
Les posters
Science, culture et société
42
Des supports
d’exercice
(data)
Science
culture
et société
43
Représentations Graphiques :
analyse du volume et des périodes d’écriture par revue (pour les plus représentées)
44
Représentations Graphiques
Diagramme de Flux :
Analyse
du volume
et
des périodes d’écriture par auteur
45
46
Filtrage géographique
des éditeurs
intéressant en :
- en 1870
- 1914-18
- 1939-45
répartition �des notices �par revues
saisies
dans la base.�(hyperliens
base + BnF)
47
Time Line
48
Datavisualisation : Antoine Courtin de l’INHA
avec le dataset :
49
50
Fig. 1. Proportion de critiques ayant écrit, entre 1852 et 1870
Fig. 2. Proportion de compte-rendus de Salon, publiés entre 1852 et 1870
Dataviz tirées d’un article de Claire Dupin
« Être critique d’art sous le Second Empire. Parcours et carrières des salonniers entre 1852 et 1870 », in actes du colloque Une nouvelle histoire de la critique d’art à la lumière des humanités numériques ?
Représentations
Graphique
Filtrage de la base par les signatures (pseudonymes)
51
Dataviz Gérald Kembellec
Méthodologie d’analyse du corpus des sources
Un croisement méthodologique entre SHS/Socio et méthodes des historiens qui correspond à une boucle herméneutique fonctionnant comme suit :
En travaillant sur un petit corpus : détection des registres langagiers, et construction d’un outil/objet intermédiaire dont la pertinence sera évaluable lors de l’élargissement du corpus
A propos du projet
Kembellec, G., Desfriches-Doria, O., & Gisbert, M. (2020). Bibliographies de Critiques d’art francophones—Un projet interdisciplinaire d’Humanités Numériques. Revue ouverte d’ingénierie des systèmes d’information, 1(3).
https://www.sens-public.org/articles/1526/
Kembellec, G. (2020). Dialogie disciplinaire en Humanités Numériques: vers une percolation épistémique et méthodologique négociée. Sens public.
http://doi.org/10.21494/ISTE.OP.2020.0534
Merci !