Liste de sujets de stage de master (LIRMM/MISTEA)
Contact: Clement Jonquet (jonquet@lirmm.fr)
Localisation : LIRMM, Université de Montpellier et/ou MISTEA, INRAE Montpellier
Profil : Étudiants de master en informatique
Période: Février-Aout 2021
Mots-clés & technologies : Web sémantique (RDF, OWL et SKOS), ontologies, analyse de données, similarité, langage de programmation Java ou C, langage de script Python ou R.
Description : La recommandation consiste à déterminer les ressources les plus pertinentes pour un utilisateur donné afin de mieux répondre à ses attentes. Les ontologies, et plus largement les technologies du Web sémantique, sont des vrais atouts pour les systèmes de recommandation. En effet, elles peuvent faciliter la recherche et l’analyse sémantique du contenu au sein d’un système d’information.
Le stage de master est proposé dans le cadre du projet D2KAB (www.d2kab.org), démarré en 2019, il vise à aider les développeurs et utilisateurs des données de l’agriculture à transformer leurs données en connaissances exploitables. Le projet D2KAB développe et maintient le portail AgroPortal qui est une plateforme publique des ressources sémantiques (thésaurus, terminologies, vocabulaires, et ontologies), elle est spécialisée dans le domaine de l’agriculture et de l’agronomie. AgroPortal est fondé et maintenu par le LIRMM en collaboration avec l’INRAE, il héberge environ 126 ressources sémantiques et propose à ses utilisateurs une variété de services Web sémantique (recherche, annotation, alignement, etc.).
Le stage vise à construire et mettre en place un outil de recommandation des ressources sémantiques (décrites en RDF, OWL et SKOS) au sein de notre plateforme. Nous souhaitons que l’outil qui sera développé par le futur stagiaire implémente des mesures de similarité estimant les propriétés de proximité entre les concepts, instances et données partagés qui sont présents dans la base de connaissance d’AgroPortal.
Les missions principales du stage concernent :
La réalisation des missions du stage nécessitera une motivation pour apprendre les technologies du Web sémantique, une bonne connaissance des techniques d’intelligence artificielle existantes, et la maîtrise d’au moins un langage de script tel que R ou Python.
Profil du candidat souhaité :
Mots-clés & technologies : Développement d’application bureau Java, Plug-in Protégé, métadonnées d’ontologies, web sémantique. Java, langages du web sémantique (RDF/OWL/SKOS), OWL-API.
Description : Une ontologie est une représentation formelle des concepts, relations et règles d’un domaine. Il existe plusieurs langages du web sémantique pour encoder les ontologies : RDFS, SKOS, OWL, OBO, etc. Pour permettre d’ordonner, identifier, réutiliser les ontologies, nous avons besoins de métadonnées sur ces ontologies les plus précise possible. Ces propriétés ne sont en général pas assez remplies par les développeurs d’ontologies et notre objectif est de développer une interface dans leur outil d’édition qui leur facilite la tâche.
Ce TER consiste à concevoir et implémenter un plugin pour l’application Protégé (https://protege.stanford.edu) qui permettra l’édition, l’extraction et la prédiction de métadonnées. Protégé est un logiciel open source pour éditer des ontologies construit sur le modèle ouvert et extensible (type Éclipse) sous forme d’application bureau Java et de plugins additionnels. C’est le logiciel de développement d’ontologie le plus utilisé dans le monde. Chaque fois qu’une fonctionnalité doit être ajouté (raisonnement, visualisation, connexion à des outils externes, etc.) un plugin est créé par la communauté. Dans ce TER nous nous intéressons à décrire les métadonnées des ontologies en cours d’édition dans le logiciel avec des vocabulaires standards du web sémantique.
Pour une ontologie donnée (fichier OWL, RDFS ou SKOS), le plugin devra extraire les propriétés de métadonnées de cette ontologie (nom, description, dates, contributeurs, language, format, etc.) à partir du fichier et en prédire d’autres (langue naturelle, mot clés, etc.). De plus, l’interface graphique permettra de valider les extractions/prédictions et d’éditer à la main d’autres champs de métadonnées. Les métadonnées pourront ensuite être sérialisées dans le fichier de l’ontologie produit par Protégé ou exportées suivant un profil de métadonnées spécifique.
Au LIRMM, nous travaillons sur un profil d’application appelé MOD (https://github.com/sifrproject/MOD-Ontology) pour la description de ressources sémantiques en général (ontologies, vocabulaires, terminologies, etc.). Dans ce profil, nous avons recensé et regroupé 346 propriétés (127 une fois regroupées) pour décrire les ontologies. Nous utiliserons MOD comme schéma directeur pour ce travail.
Le plugin sera développé en Java. Le code sera hébergé et disponible sur GitHub et une page web (wiki) descriptive de documentation du plugin sera réalisée.
Mots-clés & technologies : Développement d’application bureau Java, Plug-in Protégé, métadonnées d’ontologies, web sémantique. Java, langages du web sémantique (RDF/OWL/SKOS), OWL-API.
Description : Ce sujet de stage consiste à concevoir et implémenter un plugin pour l’application Protégé qui permettra l’édition et le développement de ressources sémantiques en SKOS ou en SKOS/OWL. Il s’agira de repartir ou de s'inspirer d’un outil pre-exisatnt, SKOS Editor (https://protegewiki.stanford.edu/wiki/SKOS_Editor) qui n’est plus maintenu depuis plusieurs années.
Protégé (https://protege.stanford.edu) est un logiciel open source pour éditer des ontologies construit sur le modèle ouvert et extensible (type Éclipse) sous forme d’application bureau Java et de plugins additionnels. C’est le logiciel de développement d’ontologie le plus utilisé dans le monde. Chaque fois qu’une fonctionnalité doit être ajouté (raisonnement, visualisation, connexion à des outils externes, etc.) un plugin est créé par la communauté (https://protegewiki.stanford.edu/wiki/Protege_Plugin_Library).
Le plugin sera développé en Java. Le code sera hébergé et disponible sur GitHub et une page web (wiki) descriptive de documentation du plugin sera réalisée.
Voir http://www.lirmm.fr/~jonquet/positions/2018_TER_M1_Jonquet_Parsers.html
Voir la description du poste de dévelopeur pour avoir le contexte: https://docs.google.com/document/d/e/2PACX-1vQWvDItPxf5opFPXNruvx1qNAXusSB9Uf5klgam55n_hmbu-NN39MAmU45QeqaK3aZwkvpOFoe8Lj5c/pub
Mots-clés: Interopérabilité des données, ressources sémantiques, vocabulaires, ontologies, référentiels, AgroPortal, technologies du web sémantique
Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Dans certains domaines de recherche en agronomie (e.g., phenotypage), les scientifiques développent déjà des ressources sémantiques pour faciliter l’intégration de leurs données avec d’autres et permettre l’extraction de connaissances e.g., Crop Ontology ou OEPO (Ontology for Experimental Phenotypic Objects). Cependant, bien souvent les personnes concernées ne sont pas nécessairement des scientifiques, qui ont l’opportunité de s’intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui produisent ou utilisent des référentiels simples et souvent spécifiques à une filière. Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l’IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l’ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d’adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable).
Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l’objectif principal est de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Le projet est guidé par plusieurs scénarios : emballage alimentaire, bulletin de santé du végétal, phénotypage du blé, écosystèmes et biogéographie des plantes. D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l’agronomie et l’agriculture.
L’objectif de ce stage est de développer des ressources sémantiques à partir des référentiels existants en agriculture entre autres en les encodant avec les technologies du web sémantique (e.g., SKOS, la recommandation du W3C pour les thésaurus et vocabulaires contrôlés) et en les alignant avec des thésaurus ou vocabulaires standards en agronomie quand c’est possible. Nous travaillerons en partenariat avec les producteurs de ces référentiels (instituts techniques, ministères, industriels) pour les impliquer dans le processus et les associer à la standardisation et la mise à disposition dans AgroPortal de leurs ressources. Le stage se situera en particulier dans le cadre du scénario de développement d’un lecteur sémantique augmenté pour les Bulletins de Santé du Végétal en partenariat avec INRAE, ACTA et API-AGRO. Nous solliciterons les participants pour identifier les référentiels sur lesquels travailler en premier et identifier les chaines de traitement dans lesquels une nouvelle version sémantisée de ces référentiels aurait un impact (éventuellement mesurable dans le cadre du stage).
Nous recherchons un étudiant de master en informatique formé en sciences des données et des connaissances et technologies web. Idéalement, un cours sur le web sémantique aura été suivi dans la formation. L’expertise en agriculture n’est pas vraiment nécessaire car nous travaillerons sur la conversion et l’alignement de référentiels existants, et non pas sur la création de nouveaux ; mais bien évidemment une sensibilité et culture de cette thématique sera appréciée.
Le stage pourra également servir d’incubateur pour une thèse dans le cadre du projet D2KAB. Deux sujets sont actuellement proposés (http://www.d2kab.org/#positions) autour de l’alignement d’ontologies avec des graphes de propriétés et autour du liage et de l’enrichissement de données.
Keywords: Data interoperability, semantic resources, vocabularies, ontologies, repositories, AgroPortal, semantic web technologies
Semantic resources (e.g., thesaurus, terminologies, vocabularies and ontologies) are key elements for data interoperability. In certain areas of agronomic research (e.g., phenotyping), scientists are already developing semantic resources to facilitate the integration of their data and allow knowledge extraction, for instances, the Crop Ontology or OEPO (Ontology for Experimental Phenotypic Objects). However, very often thee people concerned are not necessarily scientists with an interest in the semantic web, but actors from the agricultural world, who produce or use simple reference lists. For example, the reference list of the phenological stages for grapevine produced by the IFV (French Institute for Vine and Wine) or the list of phytosanitary products produced by ACTA. Recently, a first step was taken with the provision of some of these repositories on the agricultural data sharing platform, API-AGRO (https://plateforme.api-agro.fr). But to go further in the sharing and reuse of these reference lists, it is necessary to adopt the FAIR principles (Findable, Accessible, Interoperable and Reusable).
The ANR D2KAB project (www.d2kab.org), started in 2019, brings together a unique multidisciplinary consortium of 7 organizations including 4 in DigitAg (UM, INRA, IRSTEA, ACTA + and a partnership with API-AGRO) whose main objective is to setup the processes to transform agronomy and biodiversity data into knowledge –semantically described, interoperable, actionable, open– and investigate scientific methods and tools to exploit this knowledge for applications in science & agriculture. The project is guided by several scenarios: food packaging, plant health bulletins, wheat phenotyping, ecosystems and plant biogeography. D2KAB develops and maintains AgroPortal (http://agroportal.lirmm.fr), a repository of semantic resources for agronomy and agriculture.
The objective of this internship is to develop semantic resources from existing reference lists in agriculture, among others by encoding them with semantic web technologies (e.g., SKOS, the W3C Recommendation for thesauri and controlled vocabularies) and by aligning them with thesauri or standard vocabularies in agronomy when possible. We will work in partnership with the producers of these reference lists (technical institutes, ministries, manufacturers) to involve them in the process and associate them with the standardization and the release in AgroPortal of their resources. The internship will take part in the development scenario of an augmented semantic reader for Plant Health Bulletins in partnership with INRAE, ACTA and API-AGRO. We will ask the participants to identify the reference lists on which to work first and to identify the procedures in which a new semantic version of these referentials would have an impact (possibly measurable during the internship).
See http://www.lirmm.fr/~jonquet/positions/2018_Stage_rechercheM2_SemanticTypes.html