STAGE - GÉOCODAGE COMPLEXE À L'AIDE DE MODÈLE DE LANGAGE
Société : IGN Lieu : Seine-et-Marne (Île-de-France)
Descriptif du poste
Société : IGN Catégorie : Stage Filiere : Fonctions Médicales & Sociales Lieu : Seine-et-Marne (Île-de-France)
Mission
Le géocodage, soit l'attribution de coordonnées géographiques à des descriptions textuelles de lieux, est une tâche d’information retrieval essentielle pour les sciences de l'information géographique. Elle est une étape cruciale dans les chaînes de traitement et d’analyse de nombreux domaines, scientifique ou techniques, de la recherche en sciences sciences sociales aux acteurs de l’aménagement du territoire car il permet de cartographier automatiquement de grandes quantités de ressources diverses : documents, tweets, etc. Si de nombreux outils grand-public intègrent un géocodeur (ex. Nominatim pour OpenstreetMap, Mes Adresses pour l’IGN, Google Maps), plusieurs défis persistent, en particulier le géocodage de descriptions textuelles complexes ou imprécises, la prise en compte des relations spatiales relatives (ex. « en face de... ») ou encore le géocodage de lieux historiques n’existant plus dans les bases de données actuelles. L'avènement des (grands) modèles de langage ouvre de nouvelles perspectives pour surmonter ces obstacles en apportant une capacité de compréhension fine et contextuelle des descriptions complexes de lieux. Ce stage vise deux objectifs. D’abord, réaliser une preuve de concept de géocodeur fondé sur une approche index-retrieve-rank classique exploitant des plongements lexicaux de textes / documents. Celui-ci servira de baseline pour explorer le potentiel d’une approche émergente : la recherche d'information générative. Celle-ci est dite end-to-end car elle consiste à exploiter les capacités génératives d’un LLM pour prédire directement l’identifiant du document correspondant à une requête donnée. Outre le fait de réduire les étapes de traitement, cette approche laisse espérer des gains conséquents pour le géocodage de descriptions complexes. Le verrou principal de cette expérimentation réside dans la proposition d’identifiants de ressources (docId) encodant une connaissance géographique. Ce stage de recherche s’insérera dans une dynamique de recherche interdisciplinaire déjà en place entre le LASTIG de l’IGN et le Centre de Recherches Historique de l’EHESS et bénéficiera d’un cadre de travail résultant d’une collaboration de longue durée entre les deux équipes de recherche. Afin d’entraîner les modèles et évaluer les approches, le stage exploitera un jeu de données géohistorique produit par le projet ANR TopUrbi contenant les descriptions et localisations de près de 15 000 lieux de l’empire hispanique au XVIIIe siècle. Inscrit dans une démarche de science ouverte, l’intégralité des codes et modèles seront déposés en open source/data sur des plateformes ouvertes. Missions : - créer une preuve de concept d’un outil de géocodage index-retrieve-rank exploitant un modèle de langage & évaluer les performances de cette approche ; - concevoir, entraîner et évaluer un LLM de recherche d'information générative pour le géocodage, en proposant une approche de création d’identifiants de ressources « géographiques » ; - réaliser une étude comparative des approches testées ; étudiant ou étudiante, M2 ou ingénieur en 3ème année. Sur le campus de l'Université Gustave Eiffel, accès facile par le RER A. Accès aux bibliothèques, au restaurant universitaire et au restaurant de l'entreprise. sans objetCLIQUER ICI POUR POSTULER