Data Scientist - stage

Paris

Scaleway

Build, train, deploy and scale AI models and intelligent applications on a resilient and sustainable cloud ecosystem.

View all jobs at Scaleway

Apply now Apply later

Présentation
Scaleway, filiale du groupe Iliad, propose depuis plus de 20 ans une suite complète de produits cloud, IA et de services managés. L’entreprise fournit un environnement sécurisé et fiable aux clients européens les plus exigeants, en quête de souveraineté, durabilité et faible latence.
Des startups innovantes (Mistral, Photoroom), des fondations de recherche (Kyutai), ainsi que de grandes entreprises (Hachette, Radio France) s'appuient sur les solutions IA de Scaleway pour stocker, entraîner et déployer leurs modèles.
Depuis fin 2023, l’équipe IA de Scaleway développe et maintient une stack logicielle souveraine dédiée à ses services IA pour développeurs. En 2024, Scaleway a introduit des solutions telles qu'un moteur d'inférence, un accès API aux derniers modèles, une bibliothèque de modèles populaires prêts à l'emploi, ainsi qu'une intégration Hugging Face.
Contexte du stage 
L’analyse des retours clients à partir des tickets de support est essentielle pour orienter les améliorations des produits et services. Ce stage propose d'explorer et d'implémenter des techniques avancées basées sur les LLM (Large Language Models) pour créer un outil interne dédié à l’analyse des tickets de support.
L’objectif est de développer une solution innovante capable d'agréger et d'analyser des données hétérogènes provenant de sources variées (tickets, bases de connaissances, retours clients, etc.). La solution devra permettre aux équipes produit de classifier et d'identifier plus facilement les pains points (points de douleurs) des clients Scaleway. Outre l'utilisation des LLMs, les technologies comme le RAG ou les agents seront envisagées pour améliorer les performances du système.
L’utilisation de frameworks comme LangChain ou LlamaIndex permettra de mettre en œuvre des pipelines intelligents pour interagir avec des données structurées et non structurées. Les solutions proposées devant garantir la confidentialité des informations de Scaleway.

Objectifs du stage

  • Développer une solution basée sur des LLMs pour analyser et synthétiser les données des tickets de support.
  • Implémenter un système RAG pour enrichir les réponses générées avec des informations spécifiques tirées des bases de données internes.
  • Utilisation des frameworks comme LangChain ou LlamaIndex pour l’orchestration de ces tâches.
  • Mettre en place des pipelines de données pour récupérer les informations internes et externes à Scaleway.
  • Mettre en place une interface utilisateur pour visualiser les résultats. 

Profil recherché

  • Étudiant en dernière année de Master 2 en informatique, data science ou école d’ingénieur, avec une spécialisation en intelligence artificielle ou traitement du langage naturel.
  • Maîtrise avancée de Python pour le développement de pipelines de données et de ML, ainsi que d’applications (ex: Fastapi, Scikit-learn, NumPy, Pandas, …).
  • Connaissance approfondie des LLM et des techniques associées.
  • Expérience avec des frameworks de développement d’applications IA comme LangChain ou LlamaIndex.
  • Compréhension des techniques de RAG, des bases de données vectorielle et des systèmes de recherche documentaire.
  • Une expérience des techniques de MLOps (versioning, CI/CD, docker, nginx…) est un plus.
  • Autonomie, curiosité et capacité à résoudre des problèmes complexes.
  • Goût pour le travail collaboratif avec des équipes pluridisciplinaires.
  • Compétences en communication écrite et orale en français et en anglais.
Date de début Début février à fin avril 2024
LocalisationParis, France
Durée6 mois

Apply now Apply later

* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰

Job stats:  1  0  0
Category: Data Science Jobs

Tags: APIs CI/CD Docker FastAPI LangChain LLMs Machine Learning MLOps NumPy Pandas Pipelines Python RAG Scikit-learn

Region: Europe
Country: France

More jobs like this