Ingénieur·e d’étude Data / Machine Learning
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales , implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Environnement de travail, missions et activités
Contexte
L’environnement alimentaire, social et urbain est aujourd’hui considéré comme un facteur influençant les comportements alimentaires 1 . Les acteurs des territoires pourraient donc agir sur l’environnement pour encourager des comportements alimentaires durables et favorables à la santé, en améliorant l’accessibilité à l’ensemble de l’offre alimentaire (commerces, restaurants, marchés, points de vente). Cependant, en France, il n’existe à l’heure actuelle aucune base de données fiable disponible à l’échelle nationale permettant de caractériser et spatialiser finement l’environnement alimentaire 2 .
Un premier travail a été conduit visant à agréger des données issues de différentes sources de données en prenant comme point de départ le répertoire des entreprises Sirene 3 . Ces données ont pu être agrégées grâce à l’utilisation dans ces bases d’un identifiant unique : le numéro Siret des entreprises. Cependant, ce travail est aujourd’hui incomplet : par exemple de nombreux établissements fermés sont considérés actifs dans cette base. De plus, des caractéristiques et des coordonnées géographiques plus précises sont renseignées dans d’autres bases existantes mais n’utilisant pas le numéro Siret comme identifiant. C’est notamment le cas de la carte collaborative OpenStreetMap. Enfin, certaines formes de distribution alimentaires comme les marchés, les points de distribution des AMAP ne sont pas renseignées dans le répertoire Sirene.
Le projet soulève des enjeux méthodologiques forts en data engineering, en apprentissage automatique et en analyse spatiale : intégration de sources hétérogènes, désambiguïsation d’entités, détection d’erreurs et d’obsolescence, gestion de l’incertitude spatiale. Il vise à produire une base de données réutilisable à long terme, tant pour la recherche que pour l’action publique.
1
2
3
Le poste proposé s’inscrit dans ce processus de construction d’une base nationale fiable permettant de caractériser et cartographier l’offre alimentaire. En particulier, il visera à identifier des doublons entre plusieurs bases de données structurées différemment et développer un modèle capable d’identifier les établissements fermés à partir de jeux de données de référence.
Le système produit devra être pérenne robuste et maintenable, conforme à des standards de « qualité production », et non d’une simple preuve de concept. Le livrable devra pouvoir fonctionner de manière fiable et autonome après le départ de l’ingénieur·e d’étude.
Missions principales
Construction de jeux de données de référence (ground truth)
- Conception de stratégies d’extraction multi-sources (API, web scraping, OCR, données terrain)
- Nettoyage, normalisation et documentation de données hétérogènes
- Analyse critique de la qualité, de la complétude et de la fraîcheur des données
Record linkage et désambiguïsation d’établissements
- Développement de méthodes de matching entre bases structurées différemment (Sirene, OpenStreetMap, autres sources)
- Combinaison de règles expertes, de fuzzy matching et de modèles supervisés
- Attribution probabiliste de numéros Siret
Détection automatique d’établissements fermés
- Conception de variables dérivées à partir de sources hétérogènes
- Entraînement et évaluation de modèles supervisés
- Analyse des faux positifs / faux négatifs et interprétabilité des résultats
Industrialisation et pérennisation
- Conception de pipelines reproductibles et maintenables
- Documentation et transfert pour assurer l’autonomie du système
La personne recrutée disposera d’une large autonomie dans les choix méthodologiques et techniques , en lien étroit avec les encadrants scientifiques. Le poste s’adresse à un·e ingénieur·e souhaitant s’investir sur un problème complexe, avec un haut niveau d’exigence sur la qualité des données et du code.
Selon le profil et l’intérêt de la personne recrutée, les travaux pourront donner lieu à des publications scientifiques, communications ou valorisations méthodologiques .
Encadrement scientifique :
La personne recrutée sera sous la supervision de Simon Vonthron, chargé de recherche en géographie à INRAE UMR Innovation, Ghislain Géniaux, chargé de recherche en économétrie spatiale – INRAE UR Ecodéveloppement et Hélène Charreire, directrice de recherche en géographie – INRAE UMR MoISA.
Des déplacements ponctuels à Avignon (pris en charge par INRAE) seront à prévoir pour travailler avec le co-encadrant du projet.
Lieu du poste :
UMR Innovation, Bâtiment 27, Campus de la Gaillarde Centre INRAE Montpellier-Occitanie
2 place Pierre Viala, Montpellier
Formations et compétences recherchées
Master/Ingénieur (Bac+5)
‐ Niveau d’étude et type de formation : Bac +5 en école d'ingénieurs, université ou équivalent avec une spécialisation en Data Science, Mathématiques Appliquées ou Informatique
‐ Très bonne maîtrise de Python ou R pour la data science et le machine learning
‐ Solide expérience en data engineering : pipelines reproductibles, gestion de données hétérogènes, SQL
‐ Expérience concrète en machine learning supervisé appliqué à des données réelles et imparfaites
‐ Intérêt marqué pour :
- la qualité des données
- le record linkage / entity resolution
‐ La maîtrise de PostGIS ou de techniques d’OCR constitue un atout fort
‐ Aptitude à travailler de façon itérative et utilisant un système de versionnement de code ( Git )
Votre qualité de vie à INRAE
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation , conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.
Télétravail et congé :
Modalités pour postuler
Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr
Emplois Recommandés
PLOMBIER SANITAIRE H/F
Rejoignez le groupe ATOLL, un réseau dynamique et multimarques comptant 40 agences engagées à vous offrir des opportunités en intérim, CDD et CDI dans divers secteurs. Chaque année, nous collaborons a…
Senior Level Designer - BEYOND GOOD & EVIL 2 (F/H/NB)
Description de l'entreprise Ubisoft est une référence mondiale du jeu vidéo, avec des équipes réparties aux quatre coins du monde qui créent des expériences de jeu originales et mémorables, de As…
Conducteur remorqueur connaissance mécanique Montpellier et alentours
Get Carrières Intérim recherche pour une entreprise de remorquage, un remorqueur ayant des connaissances en mécanique Vous conduirez un VL ou 4X4 et interviendrez en Agglo ou autoroute Dépannage sur…
Responsable Juridique
GROUPE SOLGES a pour objectif de développer et d’exploiter des infrastructures de production d’énergie décarboné innovantes et pilotables. L’entreprise est spécialisée dans le développement, l’i…
EDUCATEUR DE JEUNES ENFANTS H/F
Créé en 2004, People&baby est un acteur majeur du secteur des crèches en France. La Promesse d'accueil de people & baby est de créer pour les enfants des environnements sécurisés et propices aux app…
Data Analyst (H/F) - CDI
Description de l'entreprise La Caisse d'Epargne Languedoc Roussillon, acteur majeur sur son territoire, accompagne au quotidien l'ensemble des acteurs locaux et régionaux et leurs projets innovant…
STAGE COMMERCIAL/RH NON REMUNERE
Découvrez INTERIM ATRIUM de Montpellier, l'agence phare du Groupe ATOLL, prête à dénicher vos opportunités pro avec la même passion que pour une soirée au Festival Radio France! Découvre une entrepr…
Chargé(e) de communication
Navigation Pré-entête ~ Nos sites Navigation principale Actualités Expertises La FHF En régions Emploi Annuaire Accès établissement adhérent Fil d'Ariane #Chargé(e) d…
ALTERNANCE - Chargé / Chargée d'affaires professionnels (H/F)
Description de l'offre Type de contrat Alternance (24 mois) Statut Métier Relation client Localisation MONTPELLIER (34) Niveau d études BAC + 3 validé Niveau d expérien…
Architecte - Archicad H/F
Notre client est une agence d'architecture montpelliéraine, implantée depuis plus de 15 ans. Elle conçoit des espaces où l'humain, l'esthétique et la fonctionnalité sont au cœur de chaque projet. For…