Stage 2025 - Data Science et Machine Learning/AI practitionner - Sujet : Finetuning de SLM pour preprocessing de RAG (H/F/N)
Paris
Ekimetrics
Ekimetrics is a pioneering leader in data science and AI-powered solutions for sustainable business performance.
Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l’optimisation de performance marketing, business et de la transition vers une performance plus durable. Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d’être acteur.rice de votre avenir professionnel, votre place est sûrement chez Ekimetrics ! 📊Et si nous vous présentions quelques datas ? • 400 expert.e.s en data science • 1000 projets divers et variés pour plus de 350 clients • 5 bureaux : Paris, Hong Kong, Shanghai, Londres et New York • 1 milliard de $ de profits générés pour nos clients depuis 2006 🌱Chez Ekimetrics nous avons l’ambition d’accompagner nos clients à repenser leur business model, en réconciliant performance économique et objectifs durables, grâce à la data science. C’est pourquoi nous avons en interne toutes les compétences nous permettant de répondre aux besoins de nos clients : Product Managers, Product Designers, Data Architects, Lead Tech, Data Engineers, DevOps Engineers, Data Scientists. 🤝 L’équipe Data Science que vous pourriez rejoindre Pourquoi recrutons-nous ? Au sein d’Ekimetrics, le département Innovation travaille sur des sujets de recherche en IA en collaboration avec nos partenaires industriels et académiques. Le département regroupe plusieurs docteurs experts dans le domaine de l’IA générative,du deep learning, de la vision par ordinateur, de la série temporelle, de l’explicabilité, et de la causalité. Deux thèses CIFRE sont en cours, et deux débuteront en 2025. Autour de chaque expert des équipes sont constituées en charge de tester les algorithmes état de l’art et les adapter à des problématiques business spécifiques, de créer de nouvelles méthodologies ou algorithmes répondant à un problème relevé, et d’’assurer la passation en vue d’une intégration dans l’écosystème industriel d’Ekimetrics.
Le stream NLP GenAI d'Ekimetrics se concentre sur l'exploitation et l'intégration des modèles de langage (LLM) dans des solutions industrielles. Notre équipe développe des approches innovantes pour optimiser l'utilisation des LLM dans des contextes variés, en mettant l'accent sur la fiabilité, la performance et l'efficacité des solutions déployées. Nous travaillons particulièrement sur l'adaptation de ces technologies aux contraintes spécifiques de nos clients, notamment en termes de confidentialité des données et de coûts d'exploitation.
Le stage proposé vise à optimiser l'utilisation de petits modèles de langage (SLM <3B paramètres) dans des pipelines de traitement documentaire. L'objectif est d'explorer les techniques de fine-tuning spécifiques à ces modèles plus légers, en s'appuyant sur des approches comme LoRA, pour des tâches ciblées de parsing de documents. Le projet impliquera l'évaluation comparative de différentes architectures (Phi, Qwen, Llama), l'optimisation des techniques de fine-tuning pour maximiser les performances sur des tâches spécifiques d'extraction d'information, de résumé, servant notamment l'intégration de ces modèles optimisés dans des pipeline de parsing pour des systèmes de RAG (Retrieval-Augmented Generation). Une attention particulière sera portée à l'équilibre entre performance, rapidité d'inférence et empreinte mémoire.
Le stage pourra déboucher sur une thèse ou un poste de data scientist en IA.
Plus particulièrement vos responsabilités seront de : • Assurer une veille sur l'état de l'art dans le domaine du deep learning et plus spécialement de l'IA générative et des SLM• Effectuer un travail de recherche au sein du département Innovation sur les techniques de fine-tuning et d'optimisation des modèles de langage• Implémenter et évaluer différentes approches de fine-tuning (LoRA, QLoRA, etc.) sur des modèles légers• Développer et optimiser des pipelines de traitement documentaire intégrant ces modèles• Mettre en place des protocoles d'évaluation rigoureux des performances des modèles• Respecter les bonnes pratiques de code pour produire un code clair et réutilisable• Partager vos connaissances en interne en apportant un support d'expert• Documenter les résultats de recherche et les implémenter sous forme de démonstrateurs
Le profil et les compétences recherchées : • En stage de fin d'étude d'une grande école d'ingénieur ou autre master si compétences équivalentes, vous avez acquis de solides connaissances en deep learning, en NLP et en architectures transformer• Curiosité et autonomie dans la recherche de solutions innovantes• Expérience dans les méthodologies et bonnes pratiques de développement : Tests unitaires, versionning, CD/CI• Compétences approfondies en Python et développement orienté objet• Maîtrise des librairies Pytorch, Transformers (Hugging Face), numpy, sklearn• Expérience avec les techniques de fine-tuning de modèles de langage• Connaissances des architectures de modèles de langage (Transformer, attention, etc.)• Connaissances approfondies en probabilités, mathématiques et statistiques• Forte capacité d'analyse et de résolution de problèmes• Expérience en déploiement de LLM (un plus)• Anglais courant 🤝 Pourquoi nous rejoindre ? Rejoindre Ekimetrics, c’est intégrer une entreprise dont les valeurs s’appliquent au quotidien :
• Evoluer dans un environnement type start-up et non traditionnel (#curiosité)• Être capable de prendre le feedback pour s’améliorer (#excellence)• Se former dès son arrivée et en continu grâce à une expérience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-être et savoir-faire (#transmission)• Faire partie d’une communauté accueillante et soudée (#plaisir)• Imaginer des solutions inattendues & sortir de sa zone de confort (#créativité) En 2023, Ekimetrics a obtenu le statut d’entreprise à mission qui témoigne de notre ambition forte en matière de RSE. Nous sommes également certifiés Great Place to Work. 🤩Vous aurez accès à … • Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compétences sur nos solutions et nos métiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dédiés à nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.• Une vie sportive, artistique, musicale, ludique, caritative et engagée : de notre salle de sport privatisée à nos expositions d’art, en passant par des jeux vidéo et des concerts, ou encore les défis RSE sur la plateforme Vendredi ;• De nombreux évènements et séminaires pour rester proche de votre communauté ; • Des locaux modernes dans un quartier dynamique au cœur de Paris (Grands boulevards)• Une politique de télétravail flexible. 🔄 Notre processus recrutement 🔸 Un test technique sur HackerRank🔸 Un entretien RH avec un(e) Talent Acquisition🔸 Une étude de cas avec un(e) Consultant(e)🔸 Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience ! En tant qu’employeur, Ekimetrics offre à tous les mêmes opportunités d’accès à l’emploi sans distinction de genre, ethnicité, religion, orientation sexuelle, statut social, handicap et d’âge. Ekimetrics veille à développer un environnement de travail inclusif qui reflète la diversité dans ses équipes.
Le stream NLP GenAI d'Ekimetrics se concentre sur l'exploitation et l'intégration des modèles de langage (LLM) dans des solutions industrielles. Notre équipe développe des approches innovantes pour optimiser l'utilisation des LLM dans des contextes variés, en mettant l'accent sur la fiabilité, la performance et l'efficacité des solutions déployées. Nous travaillons particulièrement sur l'adaptation de ces technologies aux contraintes spécifiques de nos clients, notamment en termes de confidentialité des données et de coûts d'exploitation.
Le stage proposé vise à optimiser l'utilisation de petits modèles de langage (SLM <3B paramètres) dans des pipelines de traitement documentaire. L'objectif est d'explorer les techniques de fine-tuning spécifiques à ces modèles plus légers, en s'appuyant sur des approches comme LoRA, pour des tâches ciblées de parsing de documents. Le projet impliquera l'évaluation comparative de différentes architectures (Phi, Qwen, Llama), l'optimisation des techniques de fine-tuning pour maximiser les performances sur des tâches spécifiques d'extraction d'information, de résumé, servant notamment l'intégration de ces modèles optimisés dans des pipeline de parsing pour des systèmes de RAG (Retrieval-Augmented Generation). Une attention particulière sera portée à l'équilibre entre performance, rapidité d'inférence et empreinte mémoire.
Le stage pourra déboucher sur une thèse ou un poste de data scientist en IA.
Plus particulièrement vos responsabilités seront de : • Assurer une veille sur l'état de l'art dans le domaine du deep learning et plus spécialement de l'IA générative et des SLM• Effectuer un travail de recherche au sein du département Innovation sur les techniques de fine-tuning et d'optimisation des modèles de langage• Implémenter et évaluer différentes approches de fine-tuning (LoRA, QLoRA, etc.) sur des modèles légers• Développer et optimiser des pipelines de traitement documentaire intégrant ces modèles• Mettre en place des protocoles d'évaluation rigoureux des performances des modèles• Respecter les bonnes pratiques de code pour produire un code clair et réutilisable• Partager vos connaissances en interne en apportant un support d'expert• Documenter les résultats de recherche et les implémenter sous forme de démonstrateurs
Le profil et les compétences recherchées : • En stage de fin d'étude d'une grande école d'ingénieur ou autre master si compétences équivalentes, vous avez acquis de solides connaissances en deep learning, en NLP et en architectures transformer• Curiosité et autonomie dans la recherche de solutions innovantes• Expérience dans les méthodologies et bonnes pratiques de développement : Tests unitaires, versionning, CD/CI• Compétences approfondies en Python et développement orienté objet• Maîtrise des librairies Pytorch, Transformers (Hugging Face), numpy, sklearn• Expérience avec les techniques de fine-tuning de modèles de langage• Connaissances des architectures de modèles de langage (Transformer, attention, etc.)• Connaissances approfondies en probabilités, mathématiques et statistiques• Forte capacité d'analyse et de résolution de problèmes• Expérience en déploiement de LLM (un plus)• Anglais courant 🤝 Pourquoi nous rejoindre ? Rejoindre Ekimetrics, c’est intégrer une entreprise dont les valeurs s’appliquent au quotidien :
• Evoluer dans un environnement type start-up et non traditionnel (#curiosité)• Être capable de prendre le feedback pour s’améliorer (#excellence)• Se former dès son arrivée et en continu grâce à une expérience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-être et savoir-faire (#transmission)• Faire partie d’une communauté accueillante et soudée (#plaisir)• Imaginer des solutions inattendues & sortir de sa zone de confort (#créativité) En 2023, Ekimetrics a obtenu le statut d’entreprise à mission qui témoigne de notre ambition forte en matière de RSE. Nous sommes également certifiés Great Place to Work. 🤩Vous aurez accès à … • Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compétences sur nos solutions et nos métiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dédiés à nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.• Une vie sportive, artistique, musicale, ludique, caritative et engagée : de notre salle de sport privatisée à nos expositions d’art, en passant par des jeux vidéo et des concerts, ou encore les défis RSE sur la plateforme Vendredi ;• De nombreux évènements et séminaires pour rester proche de votre communauté ; • Des locaux modernes dans un quartier dynamique au cœur de Paris (Grands boulevards)• Une politique de télétravail flexible. 🔄 Notre processus recrutement 🔸 Un test technique sur HackerRank🔸 Un entretien RH avec un(e) Talent Acquisition🔸 Une étude de cas avec un(e) Consultant(e)🔸 Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience ! En tant qu’employeur, Ekimetrics offre à tous les mêmes opportunités d’accès à l’emploi sans distinction de genre, ethnicité, religion, orientation sexuelle, statut social, handicap et d’âge. Ekimetrics veille à développer un environnement de travail inclusif qui reflète la diversité dans ses équipes.
* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Job stats:
0
0
0
Categories:
Deep Learning Jobs
Machine Learning Jobs
Tags: Architecture Deep Learning DevOps Generative AI LLaMA LLMs LoRA Machine Learning NLP NumPy Pipelines Python PyTorch RAG Scikit-learn Transformers Vue
Perks/benefits: Flex hours
Region:
Europe
Country:
France
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.
Data Engineer II jobsStaff Data Scientist jobsPrincipal Data Engineer jobsBI Developer jobsData Scientist II jobsData Manager jobsData Science Manager jobsJunior Data Analyst jobsResearch Scientist jobsBusiness Data Analyst jobsLead Data Analyst jobsData Science Intern jobsSr. Data Scientist jobsSenior AI Engineer jobsData Engineer III jobsSenior Data Scientist, Performance Marketing jobsBI Analyst jobsSoftware Engineer, Machine Learning jobsSr Data Engineer jobsData Specialist jobsJunior Data Scientist jobsJunior Data Engineer jobsSenior Artificial Intelligence/Machine Learning Engineer - Remote, Latin America jobsData Analyst Intern jobsData Engineering Manager jobs
Linux jobsSnowflake jobsEconomics jobsOpen Source jobsHadoop jobsPhysics jobsJavaScript jobsAirflow jobsComputer Vision jobsMLOps jobsRDBMS jobsKafka jobsNoSQL jobsScala jobsData Warehousing jobsBanking jobsGoogle Cloud jobsData warehouse jobsKPIs jobsGitHub jobsOracle jobsPostgreSQL jobsR&D jobsClassification jobsScikit-learn jobs
SAS jobsTerraform jobsCX jobsLooker jobsScrum jobsStreaming jobsDistributed Systems jobsPandas jobsData Mining jobsJenkins jobsRobotics jobsBigQuery jobsIndustrial jobsPySpark jobsJira jobsReact jobsMicroservices jobsdbt jobsRedshift jobsMatlab jobsUnstructured data jobsE-commerce jobsMySQL jobsGPU jobsData strategy jobs