Stage 2025 - Data Science et Machine Learning/AI practitionner - Sujet : Semi-synthetic Causal Simulations with Deep Generative Models (H/F/N)
Paris
Ekimetrics
Ekimetrics is a pioneering leader in data science and AI-powered solutions for sustainable business performance.
Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l’optimisation de performance marketing, business et de la transition vers une performance plus durable. Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d’être acteur.rice de votre avenir professionnel, votre place est sûrement chez Ekimetrics ! 📊Et si nous vous présentions quelques datas ? • 400 expert.e.s en data science • 1000 projets divers et variés pour plus de 350 clients • 5 bureaux : Paris, Hong Kong, Shanghai, Londres et New York • 1 milliard de $ de profits générés pour nos clients depuis 2006 🌱Chez Ekimetrics nous avons l’ambition d’accompagner nos clients à repenser leur business model, en réconciliant performance économique et objectifs durables, grâce à la data science. C’est pourquoi nous avons en interne toutes les compétences nous permettant de répondre aux besoins de nos clients : Product Managers, Product Designers, Data Architects, Lead Tech, Data Engineers, DevOps Engineers, Data Scientists. 🤝 L’équipe Data Science que vous pourriez rejoindre Pourquoi recrutons-nous ? Au sein d’Ekimetrics, le département Innovation travaille sur des sujets de recherche en IA en collaboration avec nos partenaires industriels et académiques. Le département regroupe plusieurs docteurs experts dans le domaine de l’IA générative,du deep learning, de la vision par ordinateur, de la série temporelle, de l’explicabilité, et de la causalité. Deux thèses CIFRE sont en cours, et deux débuteront en 2025. Autour de chaque expert des équipes sont constituées en charge de tester les algorithmes état de l’art et les adapter à des problématiques business spécifiques, de créer de nouvelles méthodologies ou algorithmes répondant à un problème relevé, et d’’assurer la passation en vue d’une intégration dans l’écosystème industriel d’Ekimetrics.
L'équipe Causalité du département Innovation d’Ekimetrics vise à aborder un large ensemble de tâches causales, comprenant la découverte causale, l'estimation d'effets causaux et le raisonnement contrefactuel, par le biais d'une recherche de pointe dans le domaine de l'inférence causale. Nous tirons parti des dernières techniques d'IA et de modélisation statistique, notamment l'apprentissage automatique, l'apprentissage profond et la modélisation bayésienne. En testant continuellement de nouveaux algorithmes et en auditant les pratiques d'Ekimetrics en matière de raisonnement causal, l'équipe Causalité affine les méthodologies existantes et en développe de nouvelles pour répondre à de nouveaux problèmes et élargir le champ d'expertise d'Ekimetrics. Ainsi, au-delà de l'analyse des corrélations, Ekimetrics s'assure de rester à l'avant-garde de la prise de décision basée sur les données, en permettant à ses clients d'utiliser le raisonnement causal.
Objectifs du stage : Semi-synthetic Causal Simulations with Deep Generative Models
L'extraction de connaissances générales et scientifiques à partir d'ensembles de données vastes et complexes est devenue une attente de plus en plus forte. Cependant, une compréhension plus approfondie que celle des associations nécessite de prendre en compte non seulement la corrélation, mais aussi la notion de causalité [1]. Alors que l'analyse statistique standard suppose que les conditions d'échantillonnage des données restent inchangées (c'est-à-dire l'absence de changement de distribution), l'analyse causale va plus loin. Elle permet de déduire l'effet des changements induits par des actions ou des interventions externes sans qu'il soit nécessaire de mener des expériences [2].
L'un des principaux défis de l'inférence causale est l'évaluation de la précision des méthodes. En effet, la plupart des données disponibles aujourd'hui sont des données d'observation et non des données expérimentales. Ainsi, contrairement à l'apprentissage automatique, il est très rare d'avoir accès à une vérité de base à laquelle se comparer ou de pouvoir construire un ensemble de tests pour mesurer un taux d'erreur. C'est pourquoi les praticiens testent leurs nouvelles méthodes sur des données simulées ou semi-simulées échantillonnées à partir de modèles structurels de causalité, appelés Structural Causal Models (SCMs). Cependant, de nombreuses critiques soulignent les limites des benchmarks existants [3]. Deux limites importantes résident dans le manque de standardisation et de réalisme des données synthétiques, qui sont considérées comme non fidèles aux complexités des applications du monde réel.
Ces dernières années, avec le développement de modèles génératifs profonds conditionnels (conditional deep generative models), une nouvelle classe de modèles causaux avec un niveau d'expressivité de pointe [4] a été développée : les modèles causaux structurels profonds, appelés Deep Structural Causal Models (DSCM) [5]. En particulier, il a été prouvé que tout SCM peut être représenté par un DSCM qui lui est équivalent sur le plan contrefactuel [6]. En d'autres termes, dans la limite de données infinies, toute distribution contrefactuelle d'un SCM réel peut être approximée par un DSCM. Il s'agit là d'une excellente occasion d'atténuer le manque de réalisme des données simulées évoqué dans le paragraphe précédent [7].
Ce stage se concentrera sur l'étude des DSCMs en tant que simulateurs causaux semi-synthétiques. L'objectif sera d'évaluer sous quelles hypothèses et comment les DSCMs peuvent être utilisés comme simulateurs causaux semi-synthétiques pour l'évaluation. L'objectif à long terme est de développer une méthode standardisée pour évaluer les méthodes d'inférence causale en utilisant les DSCMs comme simulateurs causaux semi-synthétiques.
Ce projet poursuit le travail de thèse de notre doctorante CIFRE (co-encadré par l'INRIA Saclay), avec laquelle vous travaillerez. Ce stage offre une opportunité de s'engager dans la recherche de pointe en IA et de poursuivre potentiellement dans un programme de doctorat ou en tant que Data Scientist en IA avec Ekimetrics.
Plus particulièrement vos responsabilités seront de : • Développer des connaissances dans le domaine de l'inférence causale• Réaliser une analyse bibliographique complète des Deep Structural Causal Models• Mettre en œuvre et expérimenter des approches utilisant des conditional deep generative models comme Normalizing Flow, GANs, VAEs.• Travailler avec ton N+1 pour concevoir, mettre en œuvre et évaluer des prototypes de modèles sur des ensembles de données synthétiques et réelles.• Partager les résultats avec les équipes internes et contribuer à l'élaboration de stratégies à long terme pour l'IA responsable chez Ekimetrics.
Le profil et les compétences recherchées : • Actuellement en dernière année de master ou de diplôme d'ingénieur, avec de solides bases en statistiques, apprentissage automatique et programmation.• Expérience avec Python, données tabulaires et framework deep learning (PyTorch)• Connaissance des techniques avancées d'apprentissage automatique, y compris les modèles génératifs• Solides compétences en matière d'analyse et de résolution de problèmes, avec un intérêt pour le développement de modèles d'IA performants• Curiosité et désir de s'investir dans l'apprentissage des fondements de l'inférence causale• Maîtrise de l'anglais 🤝 Pourquoi nous rejoindre ? Rejoindre Ekimetrics, c’est intégrer une entreprise dont les valeurs s’appliquent au quotidien :
• Evoluer dans un environnement type start-up et non traditionnel (#curiosité)• Être capable de prendre le feedback pour s’améliorer (#excellence)• Se former dès son arrivée et en continu grâce à une expérience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-être et savoir-faire (#transmission)• Faire partie d’une communauté accueillante et soudée (#plaisir)• Imaginer des solutions inattendues & sortir de sa zone de confort (#créativité) En 2023, Ekimetrics a obtenu le statut d’entreprise à mission qui témoigne de notre ambition forte en matière de RSE. Nous sommes également certifiés Great Place to Work. 🤩Vous aurez accès à … • Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compétences sur nos solutions et nos métiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dédiés à nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.• Une vie sportive, artistique, musicale, ludique, caritative et engagée : de notre salle de sport privatisée à nos expositions d’art, en passant par des jeux vidéo et des concerts, ou encore les défis RSE sur la plateforme Vendredi ;• De nombreux évènements et séminaires pour rester proche de votre communauté ; • Des locaux modernes dans un quartier dynamique au cœur de Paris (Grands boulevards)• Une politique de télétravail flexible. 🔄 Notre processus recrutement 🔸 Un test technique sur HackerRank🔸 Un entretien RH avec un(e) Talent Acquisition🔸 Une étude de cas avec un(e) Consultant(e)🔸 Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience ! References:[1] Judea Pearl and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018[2] Judea Pearl. Causality: Models, Reasoning and Inference. Cambridge University Press, 2nd edition, 2009[3] Amanda Gentzel, Dan Garant, and David Jensen. The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data. NeurIPS, 2019[4] Kevin Xia, Kai-Zhan Lee, Yoshua Bengio, and Elias Bareinboim. The causal-neural connection: Expressiveness, learnability, and inference. NeurIPS, 2021[5] Nick Pawlowski, Daniel Coelho de Castro, and Ben Glocker. Deep structural causal models for tractable counterfactual inference. NeurIPS, 2020[6] Kevin Xia, Yushu Pan, and Elias Bareinboim. Neural Causal Models for Counterfactual Identification and Estimation. NeurIPS, 2023[7] Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, Michèle Sébag, and Marc Schoenauer. Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges. IJCAI, 2024
En tant qu’employeur, Ekimetrics offre à tous les mêmes opportunités d’accès à l’emploi sans distinction de genre, ethnicité, religion, orientation sexuelle, statut social, handicap et d’âge. Ekimetrics veille à développer un environnement de travail inclusif qui reflète la diversité dans ses équipes.
L'équipe Causalité du département Innovation d’Ekimetrics vise à aborder un large ensemble de tâches causales, comprenant la découverte causale, l'estimation d'effets causaux et le raisonnement contrefactuel, par le biais d'une recherche de pointe dans le domaine de l'inférence causale. Nous tirons parti des dernières techniques d'IA et de modélisation statistique, notamment l'apprentissage automatique, l'apprentissage profond et la modélisation bayésienne. En testant continuellement de nouveaux algorithmes et en auditant les pratiques d'Ekimetrics en matière de raisonnement causal, l'équipe Causalité affine les méthodologies existantes et en développe de nouvelles pour répondre à de nouveaux problèmes et élargir le champ d'expertise d'Ekimetrics. Ainsi, au-delà de l'analyse des corrélations, Ekimetrics s'assure de rester à l'avant-garde de la prise de décision basée sur les données, en permettant à ses clients d'utiliser le raisonnement causal.
Objectifs du stage : Semi-synthetic Causal Simulations with Deep Generative Models
L'extraction de connaissances générales et scientifiques à partir d'ensembles de données vastes et complexes est devenue une attente de plus en plus forte. Cependant, une compréhension plus approfondie que celle des associations nécessite de prendre en compte non seulement la corrélation, mais aussi la notion de causalité [1]. Alors que l'analyse statistique standard suppose que les conditions d'échantillonnage des données restent inchangées (c'est-à-dire l'absence de changement de distribution), l'analyse causale va plus loin. Elle permet de déduire l'effet des changements induits par des actions ou des interventions externes sans qu'il soit nécessaire de mener des expériences [2].
L'un des principaux défis de l'inférence causale est l'évaluation de la précision des méthodes. En effet, la plupart des données disponibles aujourd'hui sont des données d'observation et non des données expérimentales. Ainsi, contrairement à l'apprentissage automatique, il est très rare d'avoir accès à une vérité de base à laquelle se comparer ou de pouvoir construire un ensemble de tests pour mesurer un taux d'erreur. C'est pourquoi les praticiens testent leurs nouvelles méthodes sur des données simulées ou semi-simulées échantillonnées à partir de modèles structurels de causalité, appelés Structural Causal Models (SCMs). Cependant, de nombreuses critiques soulignent les limites des benchmarks existants [3]. Deux limites importantes résident dans le manque de standardisation et de réalisme des données synthétiques, qui sont considérées comme non fidèles aux complexités des applications du monde réel.
Ces dernières années, avec le développement de modèles génératifs profonds conditionnels (conditional deep generative models), une nouvelle classe de modèles causaux avec un niveau d'expressivité de pointe [4] a été développée : les modèles causaux structurels profonds, appelés Deep Structural Causal Models (DSCM) [5]. En particulier, il a été prouvé que tout SCM peut être représenté par un DSCM qui lui est équivalent sur le plan contrefactuel [6]. En d'autres termes, dans la limite de données infinies, toute distribution contrefactuelle d'un SCM réel peut être approximée par un DSCM. Il s'agit là d'une excellente occasion d'atténuer le manque de réalisme des données simulées évoqué dans le paragraphe précédent [7].
Ce stage se concentrera sur l'étude des DSCMs en tant que simulateurs causaux semi-synthétiques. L'objectif sera d'évaluer sous quelles hypothèses et comment les DSCMs peuvent être utilisés comme simulateurs causaux semi-synthétiques pour l'évaluation. L'objectif à long terme est de développer une méthode standardisée pour évaluer les méthodes d'inférence causale en utilisant les DSCMs comme simulateurs causaux semi-synthétiques.
Ce projet poursuit le travail de thèse de notre doctorante CIFRE (co-encadré par l'INRIA Saclay), avec laquelle vous travaillerez. Ce stage offre une opportunité de s'engager dans la recherche de pointe en IA et de poursuivre potentiellement dans un programme de doctorat ou en tant que Data Scientist en IA avec Ekimetrics.
Plus particulièrement vos responsabilités seront de : • Développer des connaissances dans le domaine de l'inférence causale• Réaliser une analyse bibliographique complète des Deep Structural Causal Models• Mettre en œuvre et expérimenter des approches utilisant des conditional deep generative models comme Normalizing Flow, GANs, VAEs.• Travailler avec ton N+1 pour concevoir, mettre en œuvre et évaluer des prototypes de modèles sur des ensembles de données synthétiques et réelles.• Partager les résultats avec les équipes internes et contribuer à l'élaboration de stratégies à long terme pour l'IA responsable chez Ekimetrics.
Le profil et les compétences recherchées : • Actuellement en dernière année de master ou de diplôme d'ingénieur, avec de solides bases en statistiques, apprentissage automatique et programmation.• Expérience avec Python, données tabulaires et framework deep learning (PyTorch)• Connaissance des techniques avancées d'apprentissage automatique, y compris les modèles génératifs• Solides compétences en matière d'analyse et de résolution de problèmes, avec un intérêt pour le développement de modèles d'IA performants• Curiosité et désir de s'investir dans l'apprentissage des fondements de l'inférence causale• Maîtrise de l'anglais 🤝 Pourquoi nous rejoindre ? Rejoindre Ekimetrics, c’est intégrer une entreprise dont les valeurs s’appliquent au quotidien :
• Evoluer dans un environnement type start-up et non traditionnel (#curiosité)• Être capable de prendre le feedback pour s’améliorer (#excellence)• Se former dès son arrivée et en continu grâce à une expérience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-être et savoir-faire (#transmission)• Faire partie d’une communauté accueillante et soudée (#plaisir)• Imaginer des solutions inattendues & sortir de sa zone de confort (#créativité) En 2023, Ekimetrics a obtenu le statut d’entreprise à mission qui témoigne de notre ambition forte en matière de RSE. Nous sommes également certifiés Great Place to Work. 🤩Vous aurez accès à … • Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compétences sur nos solutions et nos métiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dédiés à nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.• Une vie sportive, artistique, musicale, ludique, caritative et engagée : de notre salle de sport privatisée à nos expositions d’art, en passant par des jeux vidéo et des concerts, ou encore les défis RSE sur la plateforme Vendredi ;• De nombreux évènements et séminaires pour rester proche de votre communauté ; • Des locaux modernes dans un quartier dynamique au cœur de Paris (Grands boulevards)• Une politique de télétravail flexible. 🔄 Notre processus recrutement 🔸 Un test technique sur HackerRank🔸 Un entretien RH avec un(e) Talent Acquisition🔸 Une étude de cas avec un(e) Consultant(e)🔸 Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience ! References:[1] Judea Pearl and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018[2] Judea Pearl. Causality: Models, Reasoning and Inference. Cambridge University Press, 2nd edition, 2009[3] Amanda Gentzel, Dan Garant, and David Jensen. The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data. NeurIPS, 2019[4] Kevin Xia, Kai-Zhan Lee, Yoshua Bengio, and Elias Bareinboim. The causal-neural connection: Expressiveness, learnability, and inference. NeurIPS, 2021[5] Nick Pawlowski, Daniel Coelho de Castro, and Ben Glocker. Deep structural causal models for tractable counterfactual inference. NeurIPS, 2020[6] Kevin Xia, Yushu Pan, and Elias Bareinboim. Neural Causal Models for Counterfactual Identification and Estimation. NeurIPS, 2023[7] Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, Michèle Sébag, and Marc Schoenauer. Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges. IJCAI, 2024
En tant qu’employeur, Ekimetrics offre à tous les mêmes opportunités d’accès à l’emploi sans distinction de genre, ethnicité, religion, orientation sexuelle, statut social, handicap et d’âge. Ekimetrics veille à développer un environnement de travail inclusif qui reflète la diversité dans ses équipes.
* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Job stats:
1
1
0
Tags: Deep Learning DevOps GANs Generative modeling Machine Learning NeurIPS Python PyTorch Vue
Perks/benefits: Flex hours
Region:
Europe
Country:
France
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.
Principal Data Scientist jobsPrincipal Data Engineer jobsData Scientist II jobsStaff Data Scientist jobsBI Developer jobsData Manager jobsJunior Data Analyst jobsResearch Scientist jobsData Science Manager jobsBusiness Data Analyst jobsLead Data Analyst jobsSenior AI Engineer jobsData Engineer III jobsData Science Intern jobsSr. Data Scientist jobsData Specialist jobsSoftware Engineer II jobsSoftware Engineer, Machine Learning jobsJunior Data Engineer jobsData Analyst II jobsSenior Data Scientist, Performance Marketing jobsBI Analyst jobsData Analyst Intern jobsSr Data Engineer jobsSenior Artificial Intelligence/Machine Learning Engineer - Remote, Latin America jobs
Economics jobsSnowflake jobsLinux jobsHadoop jobsComputer Vision jobsOpen Source jobsJavaScript jobsPhysics jobsRDBMS jobsMLOps jobsBanking jobsAirflow jobsKafka jobsNoSQL jobsData Warehousing jobsScala jobsR&D jobsGoogle Cloud jobsStreaming jobsKPIs jobsData warehouse jobsClassification jobsGitHub jobsOracle jobsCX jobs
SAS jobsPostgreSQL jobsScikit-learn jobsData Mining jobsScrum jobsPandas jobsDistributed Systems jobsTerraform jobsE-commerce jobsPySpark jobsLooker jobsBigQuery jobsRobotics jobsJira jobsIndustrial jobsJenkins jobsUnstructured data jobsRedshift jobsdbt jobsReact jobsMicroservices jobsData strategy jobsMySQL jobsNumPy jobsPharma jobs