Titre : Hybridation des méthodes d'apprentissage et Web sémantique pour l'optimisation et la planification de cultures maraîchères en agro-écologie.
Mots clés : Apprentissage automatique, Web sémantique, Ontologies, Raisonnement, Réseaux de neurones, Plongements de graphes, Optimisation, Planification, Agriculture.
Encadrement de thèse :
Laboratoire : Université de Montpellier, LIRMM (Clément Jonquet et Konstantin Todorov)
Entreprise : Elzeard (Florence Amardeilh)
Ecole doctorale : I2S, Spécialité Informatique
Calendrier prévisionnel : Janvier 2020, avec stage de 5-6 mois ou période d’essai de 3 mois en entreprise –en fonction du candidat– avant le début de la thèse pour 3 ans.
Financement : ANRT (CIFRE).
Localisation : Bordeaux, Montpellier
Nous recherchons pour cette thèse CIFRE: soit un candidat déjà diplômé et qui peut commencer le doctorat dès que possible après une courte période d’essai; soit un étudiant de Master 2 (Informatique) qui fera un stage avec le LIRMM et Elzeard au début 2020.
Pour les producteurs légumiers et maraîchers, il devient nécessaire d’être efficient et de mobiliser de plus en plus de connaissances, notamment en agroécologie pour favoriser des pratiques culturales respectueuses de l'environnement tout en gardant leur productivité.
Elzeard, jeune startup de l'économie sociale et solidaire, s’intéresse aux services d’aide à la conduite des cultures, et aux applications numériques facilitant le travail des producteurs. Ces applications doivent également être capable de s'adapter à chaque contexte et aux contraintes de production locale.
L’Intelligence Artificielle, des approches symboliques aux approches statistiques, fournit des méthodes pour implémenter de telles innovations dans l’agriculture, en particulier pour construire des applications d’aide à la décision et de planification à l’attention des maraîchers. Cependant, la spécificité (et l’accessibilité) des données en agriculture justifie le développement de méthodes adaptées à ces données et aux pratiques du secteur. C’est le contexte de ce sujet de thèse qui propose un positionnement méthodologique au croisement des approches d’IA symbolique (données, connaissances, ontologies, web sémantique) et d’IA statistique (apprentissage automatique, apprentissage de représentation (plongements de mots ou de graphes)).
Dans ce contexte, et pour explorer les questions de recherches sous-jacentes (intégration de données, extraction de connaissances, apprentissage, raisonnement) Elzeard et le LIRMM souhaite mettre en place un partenariat de recherche dans le cadre du projet ANR D2KAB porté par le LIRMM (2019-2023 – www.d2kab.org). Ce projet ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances. Le projet D2KAB offrira un contexte idéal pour le doctorant CIFRE. Le sujet sera également proposé pour labellisation auprès de l’Institut de Convergence DigitAg.
L’objectif général de la thèse est de produire une méthodologie de traitement des données agricoles pour les enrichir sémantiquement (via leur description ou leur annotation avec des ontologies ou des référentiels du domaine), puis les interconnecter et les désambiguïser afin de produire un graphe de connaissances à exploiter via les algorithmes de plongement de graphes (graph embeddings) qui sont une méthode d’apprentissage de représentation (representation learning). Nous faisons l’hypothèse que l'enrichissement sémantique des données agricoles augmentera la performance des méthodes d'apprentissage automatique pour la tâche de recommandation que l'exploitation des données brutes.
Pour construire et évaluer cette méthodologie, nous comparerons des recommandations d’itinéraires culturaux obtenues à partir des données brutes, avec des recommandations obtenues à partir de données enrichies sémantiquement. Nous nous appuierons sur le retour des experts dans le processus d’évaluation de résultats.
Enjeux technologiques et innovation dans le contexte d’Elzeard
Elzeard propose à la filière des producteurs maraîchers deux outils numériques : le portail de connaissances la Serre des Savoirs repose sur des technologies web sémantique pour représenter les informations représentant les itinéraires de cultures et les informations contextuelles relatives aux fermes maraîchères. Ces informations interconnectées sous la forme d'un graphe de connaissances enrichies sont ensuite utilisées par l'application Le Compagnon pour fournir des suggestions, des alertes et des recommandations aux producteurs à chaque étape de leurs parcours culturaux. Ces résultats sont particulièrement difficiles à obtenir considérant la complexité liée à chaque itinéraire de culture, la diversité des contraintes (culture, sol, climat, ravageurs, matériels, intrants, irrigation, etc.), et la variabilité des données.
Enjeux scientifiques et expertise du LIRMM
Nous utiliserons des approches sémantiques (enrichissement/structuration, annotation avec des vocabulaires contrôlés/ontologies ou référentiels, exploitation de données liées) pour former un graphe de connaissances que nous exploiterons pour l'aide à la décision pour les maraîchers. Nous utiliserons des ontologies agricoles telles que celles hébergées au sein de la plateforme AgroPortal développée dans le projet D2KAB. L'exploitation des connaissances se fera entre autres par enrichissement de ce graphe de connaissances avec des données complémentaires (données agricoles, scientifiques, météorologiques, etc.). Nous ferons appel aux méthodes récentes d’apprentissage de représentation dites plongements qui permettent la découverte des relations latentes entre des entités (des mots, des noeud de graphes ou des concepts) grâce aux projections dans un espace vectoriel à propriétés sémantiques. L’hypothèse principale est que les plongements peuvent nous aider à extraire les relations “cachées” dans les données entre les entités du domaine et à expliquer leurs interactions en relation avec le rendement.
Le LIRMM – Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (www.lirmm.fr) est une unité mixte de recherche regroupant 350 personnes de l’Université de Montpellier et du CNRS. Les activités de recherche du LIRMM couvrent un large éventail de sujets, dont l'intelligence artificielle, l'ingénierie des connaissances, la bioinformatique, les systèmes intégrés, mobiles et communicants, les algorithmes, les interactions homme-machine, la robotique, les bases de données, les systèmes distribués, etc. Le département informatique du LIRMM compte 85 chercheurs permanents et plus de 70 doctorants. Plusieurs groupes de recherche possèdent une expertise de premier plan en ingénierie de la connaissance, Web sémantique, extraction de texte et ontologies. L’équipe FADO (équipe d'accueil de la thèse CIFRE) aborde des questions fondamentales (modélisation, liaison de données, ontologies, apprentissage automatique, par exemples) avec des applications dans de multiples domaines, notamment l’agroalimentaire. L'équipe développe un ensemble d'outils et de plateformes d'ingénierie du savoir, notamment YAM ++ (alignement d'ontologies), Legato (liage de données), SIFR BioPortal et AgroPortal (portails d'ontologies), AgroLD (base de connaissances RDF).
Elzeard (www.elzeard.co) est une jeune startup de l'économie sociale et solidaire créée en février 2019. Elle a pour objectif de développer une plateforme de services digitaux à destination des filières de production maraîchères et légumières en servant deux objectifs majeurs: le soutien de l’activité et le développement de pratiques plus respectueuses de l’environnement. La mise en réseau des acteurs et des données par l'utilisation des technologies du Web Sémantique et plus globalement de l'Intelligence Artificielle doit favoriser la facilité d’accès à l’information sur les itinéraires de cultures, à la connaissance agroécologique et aider au développement de nouvelles pratiques. Elzeard est membre du pôle de compétitivité Agri Sud-Ouest Innovation. Elzeard a été lauréat de l’Appel à Manifestation d’Intérêt Innovation Sociale de la Région Nouvelle Aquitaine en mai 2019 et a remporté le grand prix d’amorçage au concours de La Fabrique Aviva 2019, récompensant les projets entrepreneuriaux à impact social et environnemental.
Les candidatures à seront EXCLUSIVEMENT ACCEPTÉES via la plate-forme suivante:
https://www.indeedjobs.com/university-of-montpellier/jobs/6ecb55170cf39570a322
Les documents requis sont (tout inclure dans un seul fichier PDF):
- un curriculum vitae décrivant votre formation et votre expérience;
- une lettre de motivation décrivant votre intérêt pour ce sujet;
- pointeurs vers des réalisations (application Web, projet perso, rapport de stage, etc.) clarifiant votre rôle;
- des copies du plus haut diplôme et des autres certificats pertinents (e.g., notes);
- noms et coordonnées de référents ou lettres de recommandation.
Aucune candidature par courrier électronique ne sera acceptée, mais pour plus d'informations sur ce poste, veuillez contacter Clement Jonquet (jonquet@lirmm.fr), Konstantin Todorov (konstantin.todorov@lirmm.fr) et Florence Amardeilh (florence.amardeilh@elzeard.co). Veuillez éviter les documents joints et inclure des liens si vous souhaitez envoyer un document. Des entretiens à distance et en présentiel seront organisés.