Published using Google Docs
Sujet Stage D2KAB 2019
Updated automatically every 5 minutes

Titre: Fouille de texte pour extraction de terminologies agricoles

Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand (catherine.roussey@irstea.fr)

Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas

Localisation : Irstea, Centre de Clermont-Ferrand, Aubière

Type : Stage de Master 2

Profil : Étudiants de master 2 en informatique ou bioinformatique, data science

Période: courant 2020

Date de début de stage mars 2020

Durée: 2 à 5 mois

Contexte du stage

Dans le cadre de l’ANR D2KAB

Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Dans certains domaines de recherche en agriculture, les scientifiques développent déjà des ressources sémantiques pour faciliter l’intégration de leurs données avec d’autres et permettre l’extraction de connaissances e.g., Crop Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les personnes concernées ne sont pas nécessairement des scientifiques, qui ont l’opportunité de s’intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui produisent ou utilisent des référentiels simples et souvent spécifiques à une filière. Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l’IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l’ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d’adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable).

Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l’objectif principal est de mettre en place les processus permettant de transformer les données d’agricole en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Le projet est guidé par plusieurs scénarios dont un navigateur de recherche améliorée des bulletins d’alerte agricole intitulés Bulletin de Santé du Végétal [BSV]. D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l’agronomie et l’agriculture.

L’ANR D2KAB propose plusieurs offres de CDD ingénieur dont un qui sera la suite de ce stage.

Objectif du stage

L’objectif de ce stage est d’améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l’extraction de termes spécifiques  à partir du corpus des bulletins d’alertes (BSV). Plus précisément :

  1. Mise en place d’un workflow de text mining à partir du système Alvis de TALN [Alvis] proposé par l’équipe de Bibliome de l’INRA
  2. Mise en place d’un protocole de validation des termes à l’aide de l’outil TyDI [TyDI] . Les termes devront être validé par un réseau d’experts par type de culture (vigne, céréale, légume)
  3. Publication de la nouvelle version des référentiels sur l’Agroportal.

Profil du candidat

Candidature

Répondre à l’annonce sur le site de l’INRA (un CV et une lettre de motivation)

http://jobs.inra.fr/offers/detail/285917

Pour toute demande d’information contacter catherine.roussey@irstea.fr

Date limite de candidature mai 2020.

Rémunération

Prime de stage de master 2 (environs 580 € par mois)

Références

[Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp

[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une interrogation experte des Bulletins de Santé du Végétal. Dans les Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018, adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52

Plus d’information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV

[TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge Engineering and Management by the Masses. EKAW 2010. Lecture Notes in Computer Science, vol 6317. Springer, Berlin, Heidelberg