Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand (catherine.roussey@irstea.fr)
Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas
Localisation : Irstea, Centre de Clermont-Ferrand, Aubière
Type : Stage de Master 2
Profil : Étudiants de master 2 en informatique ou bioinformatique, data science
Période: courant 2020
Date de début de stage mars 2020
Durée: 2 à 5 mois
Dans le cadre de l’ANR D2KAB
Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Dans certains domaines de recherche en agriculture, les scientifiques développent déjà des ressources sémantiques pour faciliter l’intégration de leurs données avec d’autres et permettre l’extraction de connaissances e.g., Crop Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les personnes concernées ne sont pas nécessairement des scientifiques, qui ont l’opportunité de s’intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui produisent ou utilisent des référentiels simples et souvent spécifiques à une filière. Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l’IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l’ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d’adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable).
Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l’objectif principal est de mettre en place les processus permettant de transformer les données d’agricole en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Le projet est guidé par plusieurs scénarios dont un navigateur de recherche améliorée des bulletins d’alerte agricole intitulés Bulletin de Santé du Végétal [BSV]. D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l’agronomie et l’agriculture.
L’ANR D2KAB propose plusieurs offres de CDD ingénieur dont un qui sera la suite de ce stage.
L’objectif de ce stage est d’améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l’extraction de termes spécifiques à partir du corpus des bulletins d’alertes (BSV). Plus précisément :
Répondre à l’annonce sur le site de l’INRA (un CV et une lettre de motivation)
http://jobs.inra.fr/offers/detail/285917
Pour toute demande d’information contacter catherine.roussey@irstea.fr
Date limite de candidature mai 2020.
Prime de stage de master 2 (environs 580 € par mois)
[Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp
[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une interrogation experte des Bulletins de Santé du Végétal. Dans les Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018, adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52
Plus d’information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV
[TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge Engineering and Management by the Masses. EKAW 2010. Lecture Notes in Computer Science, vol 6317. Springer, Berlin, Heidelberg