CS25 - Stage - BAC+5 - Data Scientist LLM - RAG (F/H)

FR REN RSAS - Guyancourt

Renault Group

Bienvenue sur le site officiel de Renault Group, le groupe automobile de future génération.

View all jobs at Renault Group

Apply now Apply later

Company

RENAULT s.a.s.

Job Description

Contexte et environnement de travail


Avec le premier « Metaverse industriel », le groupe Renault possède un véritable replica digital des usines (100% des lignes de production sont connectées et plus de 90% des flux d’approvisionnement sont
suivis en permanence). Toutes ces données, actualisées en temps réel, permettent de piloter le plus efficacement possible la production, avec l’objectif d’éviter toute interruption opérationnelle. 

Il arrive cependant que certaines machines tombent en panne. Les données permettent de le détecter très rapidement mais la résolution peut être complexe. L’identification de la cause de la panne et de la procédure à appliquer se fait principalement par expertise humaine aidée de nombreuses sources d’informations (études de pannes passées, documents fournisseurs). Des outils à base d’arbre de pannes
ont été mis en place par le passé, mais ils se sont avérés complexes à maintenir.

Les récents progrès des modèles de recherche d’information augmentée RAG (pour Retrieval Augmented Generation) ouvrent de nouvelles perspectives pour l’aide au diagnostic. C’est dans ce contexte que s’inscrit ce stage.

Le stage s'effectuera également en collaboration avec le département Image Données Signal de Télécom Paris.

Vos missions
 

A ce titre, vous serez en charge de :

L'objectif du stage est d’explorer différentes architectures de RAG afin d’identifier celle qui est la plus adaptée au diagnostic de maintenance en usine. Associée à une requête utilisateur, dans notre cas ce serait par exemple: "plus de soudure avec le robot A1 en BM210", le RAG comporte deux tâches principales:

  • Une tâche de recherche d’information, ici: rechercher des documents qui mentionnent ce type de problème parmi un historique de pannes ou de documents fournisseurs;

  • Une tâche de génération où des informations issues de ces documents, que l’on appelle contexte, ainsi qu’un prompt indiquant le type d’actions à accomplir avec ces documents, sont fournis à un Large Language Model de façon à générer une réponse. Dans notre cas, la réponse comportera: la cause de la panne: "La tresse est hors service"/ la solution à appliquer: "Échanger la tresse et contrôler l’intensité" et le lien vers la bonne procédure.

Ces tâches peuvent elles-mêmes être découpées en de nombreuses sous-tâches menant à une profusion d’approches possibles. Ici, l’exploration portera en particulier sur les aspects suivants: 

  • 1. On étudiera les agents de recherche d’informations, afin de tester des approches avancées et modulaires, cf. Gao et al. [2023].

  • Des agents pour de la recherche lexicale classique utilisant des sparse retriever, comme TF-IDF ou BM25, cf. Robertson et al. [2009].

  • Des agents de recherche sémantiques utilisant des dense retriever, on pourra notamment explorer des modèles tels que colBERT Khattab and Zaharia [2020], SPADE Formal et al. [2021], DRAGON Lin et al. [2023].

  • Des agents de recherche au sein d’image ou de PDF: ce peut être avec des techniques classiques permettant de transformer des PDF en texte avec des OCR ou alors avec des méthodes plus avancées comme colpali, cf. Faysse et al. [2024].

  • Des agents permettant d’extraire des graphes de connaissances, cf. Zhu et al. [2024].

  • 2. Une étape de réorganisation et de réordonnancement des documents pourra être étudiée. Cette étape appelée re-ranker pourra par exemple s’appuyer sur des méthodes développées dans Ram et al. [2023].

  • 3. Une fois que certaines architectures auront été développées, il sera bien-entendu nécessaire de les tester et de les évaluer. Le processus d’évaluation est aussi une tâche complexe tant du point de vue méthodologique que de sa mise en œuvre. Le stagiaire pourra notamment s’inspirer de framework tels que ARES Saad-Falcon et al. [2023], Ragas, Prometheus, DeepEval, LLM-RAG-Eval, cf. Petrus.


Bien entendu, avant implémentation et test, le stage comportera une veille scientifique importante afin de cibler et de justifier quelle architecture tester.

Enfin, bien que le cas d’application soit celui du diagnostic usine, on veillera à développer une approche suffisamment générique et modulaire afin d’être adaptée à d’autres contextes industriels.

Qui êtes-vous?

Vous préparez actuellement un BAC+5 en Grande Ecole ou Master Recherche avec une composante majeure en Data Science/IA.

Vous recherchez un stage de 6 mois.

Vous avez acquis des connaissances en NLP à travers vos cours.

Job Family

Transverse

Contract Duration

6 months

Renault Group is committed to creating an inclusive working environment and the conditions for each of us to bring their passion, perform to the full and grow, whilst being themselves.  
We find strength in our diversity and we are engaged to ensure equal employment opportunities regardless of race, colour, ancestry, religion, gender, national origin, sexual orientation, age, citizenship, marital status, disability, gender identity, etc. If you have a disability or special need requiring layout of the workstation or work schedule, please let us know by completing this form.

In order to follow in real time the evolution of your applications and to stay in touch with us, we invite you to create a candidate account. This will take you no more than a minute and will also make it easier for you to apply in the future.

By submitting your CV or application, you authorise Renault Group to use and store information about you for the purposes of following up your application or future employment. This information will only be used by Renault Group companies as described in the Group privacy policy.

Apply now Apply later

* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰

Job stats:  8  2  0
Category: Data Science Jobs

Tags: Architecture LLMs NLP OCR Privacy RAG Vue

Region: Europe
Country: France

More jobs like this