Stage 2025 - Data Science et Machine Learning/AI practitionner - Sujet : Semi-synthetic Causal Simulations with Deep Generative Models (H/F/N)
Paris
Applications have closed
Ekimetrics
Ekimetrics provides AI business solutions, enhancing business operations and driving efficiency through data and AI solutions.
Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de lâoptimisation de performance marketing, business et de la transition vers une performance plus durable. Si vous ĂȘtes passionnĂ©.e de data, ou de technologie en gĂ©nĂ©ral, et que vous avez envie dâĂȘtre acteur.rice de votre avenir professionnel, votre place est sĂ»rement chez Ekimetrics ! đEt si nous vous prĂ©sentions quelques datas ?  ⹠400 expert.e.s en data science ⹠1000 projets divers et variĂ©s pour plus de 350 clients ⹠5 bureaux : Paris, Hong Kong, Shanghai, Londres et New York ⹠1 milliard de $ de profits gĂ©nĂ©rĂ©s pour nos clients depuis 2006   đ±Chez Ekimetrics nous avons lâambition dâaccompagner nos clients Ă repenser leur business model, en rĂ©conciliant performance Ă©conomique et objectifs durables, grĂące Ă la data science.  Câest pourquoi nous avons en interne toutes les compĂ©tences nous permettant de rĂ©pondre aux besoins de nos clients : Product Managers, Product Designers, Data Architects, Lead Tech, Data Engineers, DevOps Engineers, Data Scientists. đ€ LâĂ©quipe Data Science que vous pourriez rejoindre  Pourquoi recrutons-nous ?  Au sein dâEkimetrics, le dĂ©partement Innovation travaille sur des sujets de recherche en IA en collaboration avec nos partenaires industriels et acadĂ©miques. Le dĂ©partement regroupe plusieurs docteurs experts dans le domaine de lâIA gĂ©nĂ©rative,du deep learning, de la vision par ordinateur, de la sĂ©rie temporelle, de lâexplicabilitĂ©, et de la causalitĂ©. Deux thĂšses CIFRE sont en cours, et deux dĂ©buteront en 2025. Autour de chaque expert des Ă©quipes sont constituĂ©es en charge de tester les algorithmes Ă©tat de lâart et les adapter Ă des problĂ©matiques business spĂ©cifiques, de crĂ©er de nouvelles mĂ©thodologies ou algorithmes rĂ©pondant Ă un problĂšme relevĂ©, et dââassurer la passation en vue dâune intĂ©gration dans lâĂ©cosystĂšme industriel dâEkimetrics.
L'Ă©quipe CausalitĂ© du dĂ©partement Innovation dâEkimetrics vise Ă aborder un large ensemble de tĂąches causales, comprenant la dĂ©couverte causale, l'estimation d'effets causaux et le raisonnement contrefactuel, par le biais d'une recherche de pointe dans le domaine de l'infĂ©rence causale. Nous tirons parti des derniĂšres techniques d'IA et de modĂ©lisation statistique, notamment l'apprentissage automatique, l'apprentissage profond et la modĂ©lisation bayĂ©sienne. En testant continuellement de nouveaux algorithmes et en auditant les pratiques d'Ekimetrics en matiĂšre de raisonnement causal, l'Ă©quipe CausalitĂ© affine les mĂ©thodologies existantes et en dĂ©veloppe de nouvelles pour rĂ©pondre Ă de nouveaux problĂšmes et Ă©largir le champ d'expertise d'Ekimetrics. Ainsi, au-delĂ de l'analyse des corrĂ©lations, Ekimetrics s'assure de rester Ă l'avant-garde de la prise de dĂ©cision basĂ©e sur les donnĂ©es, en permettant Ă ses clients d'utiliser le raisonnement causal.
Objectifs du stage : Semi-synthetic Causal Simulations with Deep Generative Models
L'extraction de connaissances générales et scientifiques à partir d'ensembles de données vastes et complexes est devenue une attente de plus en plus forte. Cependant, une compréhension plus approfondie que celle des associations nécessite de prendre en compte non seulement la corrélation, mais aussi la notion de causalité [1]. Alors que l'analyse statistique standard suppose que les conditions d'échantillonnage des données restent inchangées (c'est-à -dire l'absence de changement de distribution), l'analyse causale va plus loin. Elle permet de déduire l'effet des changements induits par des actions ou des interventions externes sans qu'il soit nécessaire de mener des expériences [2].
L'un des principaux défis de l'inférence causale est l'évaluation de la précision des méthodes. En effet, la plupart des données disponibles aujourd'hui sont des données d'observation et non des données expérimentales. Ainsi, contrairement à l'apprentissage automatique, il est trÚs rare d'avoir accÚs à une vérité de base à laquelle se comparer ou de pouvoir construire un ensemble de tests pour mesurer un taux d'erreur. C'est pourquoi les praticiens testent leurs nouvelles méthodes sur des données simulées ou semi-simulées échantillonnées à partir de modÚles structurels de causalité, appelés Structural Causal Models (SCMs). Cependant, de nombreuses critiques soulignent les limites des benchmarks existants [3]. Deux limites importantes résident dans le manque de standardisation et de réalisme des données synthétiques, qui sont considérées comme non fidÚles aux complexités des applications du monde réel.
Ces derniĂšres annĂ©es, avec le dĂ©veloppement de modĂšles gĂ©nĂ©ratifs profonds conditionnels (conditional deep generative models), une nouvelle classe de modĂšles causaux avec un niveau d'expressivitĂ© de pointe [4] a Ă©tĂ© dĂ©veloppĂ©e : les modĂšles causaux structurels profonds, appelĂ©s Deep Structural Causal Models (DSCM) [5]. En particulier, il a Ă©tĂ© prouvĂ© que tout SCM peut ĂȘtre reprĂ©sentĂ© par un DSCM qui lui est Ă©quivalent sur le plan contrefactuel [6]. En d'autres termes, dans la limite de donnĂ©es infinies, toute distribution contrefactuelle d'un SCM rĂ©el peut ĂȘtre approximĂ©e par un DSCM. Il s'agit lĂ d'une excellente occasion d'attĂ©nuer le manque de rĂ©alisme des donnĂ©es simulĂ©es Ă©voquĂ© dans le paragraphe prĂ©cĂ©dent [7].
Ce stage se concentrera sur l'Ă©tude des DSCMs en tant que simulateurs causaux semi-synthĂ©tiques. L'objectif sera d'Ă©valuer sous quelles hypothĂšses et comment les DSCMs peuvent ĂȘtre utilisĂ©s comme simulateurs causaux semi-synthĂ©tiques pour l'Ă©valuation. L'objectif Ă long terme est de dĂ©velopper une mĂ©thode standardisĂ©e pour Ă©valuer les mĂ©thodes d'infĂ©rence causale en utilisant les DSCMs comme simulateurs causaux semi-synthĂ©tiques.
Ce projet poursuit le travail de thÚse de notre doctorante CIFRE (co-encadré par l'INRIA Saclay), avec laquelle vous travaillerez. Ce stage offre une opportunité de s'engager dans la recherche de pointe en IA et de poursuivre potentiellement dans un programme de doctorat ou en tant que Data Scientist en IA avec Ekimetrics.
Plus particuliĂšrement vos responsabilitĂ©s seront de : ⹠DĂ©velopper des connaissances dans le domaine de l'infĂ©rence causaleâą RĂ©aliser une analyse bibliographique complĂšte des Deep Structural Causal Modelsâą Mettre en Ćuvre et expĂ©rimenter des approches utilisant des conditional deep generative models comme Normalizing Flow, GANs, VAEs.âą Travailler avec ton N+1 pour concevoir, mettre en Ćuvre et Ă©valuer des prototypes de modĂšles sur des ensembles de donnĂ©es synthĂ©tiques et rĂ©elles.âą Partager les rĂ©sultats avec les Ă©quipes internes et contribuer Ă l'Ă©laboration de stratĂ©gies Ă long terme pour l'IA responsable chez Ekimetrics.
Le profil et les compĂ©tences recherchĂ©es : ⹠Actuellement en derniĂšre annĂ©e de master ou de diplĂŽme d'ingĂ©nieur, avec de solides bases en statistiques, apprentissage automatique et programmation.âą ExpĂ©rience avec Python, donnĂ©es tabulaires et framework deep learning (PyTorch)âą Connaissance des techniques avancĂ©es d'apprentissage automatique, y compris les modĂšles gĂ©nĂ©ratifsâą Solides compĂ©tences en matiĂšre d'analyse et de rĂ©solution de problĂšmes, avec un intĂ©rĂȘt pour le dĂ©veloppement de modĂšles d'IA performantsâą CuriositĂ© et dĂ©sir de s'investir dans l'apprentissage des fondements de l'infĂ©rence causaleâą MaĂźtrise de l'anglais đ€ Pourquoi nous rejoindre ? Rejoindre Ekimetrics, câest intĂ©grer une entreprise dont les valeurs sâappliquent au quotidien :
âą Evoluer dans un environnement type start-up et non traditionnel (#curiositĂ©)âą Ătre capable de prendre le feedback pour sâamĂ©liorer (#excellence)âąÂ Se former dĂšs son arrivĂ©e et en continu grĂące Ă une expĂ©rience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-ĂȘtre et savoir-faire (#transmission)âą Faire partie dâune communautĂ© accueillante et soudĂ©e (#plaisir)âą Imaginer des solutions inattendues & sortir de sa zone de confort (#crĂ©ativitĂ©)  En 2023, Ekimetrics a obtenu le statut dâentreprise Ă mission qui tĂ©moigne de notre ambition forte en matiĂšre de RSE. Nous sommes Ă©galement certifiĂ©s Great Place to Work. đ€©Vous aurez accĂšs à ⊠ ⹠ Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compĂ©tences sur nos solutions et nos mĂ©tiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dĂ©diĂ©s Ă nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.âą Une vie sportive, artistique, musicale, ludique, caritative et engagĂ©e : de notre salle de sport privatisĂ©e Ă nos expositions dâart, en passant par des jeux vidĂ©o et des concerts, ou encore les dĂ©fis RSE sur la plateforme Vendredi ;âą Â De nombreux Ă©vĂšnements et sĂ©minaires pour rester proche de votre communautĂ© ; âą Des locaux modernes dans un quartier dynamique au cĆur de Paris (Grands boulevards)âą Â Une politique de tĂ©lĂ©travail flexible.  đ Notre processus recrutement  đž Un test technique sur HackerRankđž Un entretien RH avec un(e) Talent Acquisitionđž Une Ă©tude de cas avec un(e) Consultant(e)đž Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors dâun entretien et attendons votre candidature avec impatience !  References:[1] Judea Pearl and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018[2] Judea Pearl. Causality: Models, Reasoning and Inference. Cambridge University Press, 2nd edition, 2009[3] Amanda Gentzel, Dan Garant, and David Jensen. The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data. NeurIPS, 2019[4] Kevin Xia, Kai-Zhan Lee, Yoshua Bengio, and Elias Bareinboim. The causal-neural connection: Expressiveness, learnability, and inference. NeurIPS, 2021[5] Nick Pawlowski, Daniel Coelho de Castro, and Ben Glocker. Deep structural causal models for tractable counterfactual inference. NeurIPS, 2020[6] Kevin Xia, Yushu Pan, and Elias Bareinboim. Neural Causal Models for Counterfactual Identification and Estimation. NeurIPS, 2023[7] Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, MichĂšle SĂ©bag, and Marc Schoenauer. Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges. IJCAI, 2024
En tant quâemployeur, Ekimetrics offre Ă tous les mĂȘmes opportunitĂ©s dâaccĂšs Ă lâemploi sans distinction de genre, ethnicitĂ©, religion, orientation sexuelle, statut social, handicap et dâĂąge. Ekimetrics veille Ă dĂ©velopper un environnement de travail inclusif qui reflĂšte la diversitĂ© dans ses Ă©quipes.
L'Ă©quipe CausalitĂ© du dĂ©partement Innovation dâEkimetrics vise Ă aborder un large ensemble de tĂąches causales, comprenant la dĂ©couverte causale, l'estimation d'effets causaux et le raisonnement contrefactuel, par le biais d'une recherche de pointe dans le domaine de l'infĂ©rence causale. Nous tirons parti des derniĂšres techniques d'IA et de modĂ©lisation statistique, notamment l'apprentissage automatique, l'apprentissage profond et la modĂ©lisation bayĂ©sienne. En testant continuellement de nouveaux algorithmes et en auditant les pratiques d'Ekimetrics en matiĂšre de raisonnement causal, l'Ă©quipe CausalitĂ© affine les mĂ©thodologies existantes et en dĂ©veloppe de nouvelles pour rĂ©pondre Ă de nouveaux problĂšmes et Ă©largir le champ d'expertise d'Ekimetrics. Ainsi, au-delĂ de l'analyse des corrĂ©lations, Ekimetrics s'assure de rester Ă l'avant-garde de la prise de dĂ©cision basĂ©e sur les donnĂ©es, en permettant Ă ses clients d'utiliser le raisonnement causal.
Objectifs du stage : Semi-synthetic Causal Simulations with Deep Generative Models
L'extraction de connaissances générales et scientifiques à partir d'ensembles de données vastes et complexes est devenue une attente de plus en plus forte. Cependant, une compréhension plus approfondie que celle des associations nécessite de prendre en compte non seulement la corrélation, mais aussi la notion de causalité [1]. Alors que l'analyse statistique standard suppose que les conditions d'échantillonnage des données restent inchangées (c'est-à -dire l'absence de changement de distribution), l'analyse causale va plus loin. Elle permet de déduire l'effet des changements induits par des actions ou des interventions externes sans qu'il soit nécessaire de mener des expériences [2].
L'un des principaux défis de l'inférence causale est l'évaluation de la précision des méthodes. En effet, la plupart des données disponibles aujourd'hui sont des données d'observation et non des données expérimentales. Ainsi, contrairement à l'apprentissage automatique, il est trÚs rare d'avoir accÚs à une vérité de base à laquelle se comparer ou de pouvoir construire un ensemble de tests pour mesurer un taux d'erreur. C'est pourquoi les praticiens testent leurs nouvelles méthodes sur des données simulées ou semi-simulées échantillonnées à partir de modÚles structurels de causalité, appelés Structural Causal Models (SCMs). Cependant, de nombreuses critiques soulignent les limites des benchmarks existants [3]. Deux limites importantes résident dans le manque de standardisation et de réalisme des données synthétiques, qui sont considérées comme non fidÚles aux complexités des applications du monde réel.
Ces derniĂšres annĂ©es, avec le dĂ©veloppement de modĂšles gĂ©nĂ©ratifs profonds conditionnels (conditional deep generative models), une nouvelle classe de modĂšles causaux avec un niveau d'expressivitĂ© de pointe [4] a Ă©tĂ© dĂ©veloppĂ©e : les modĂšles causaux structurels profonds, appelĂ©s Deep Structural Causal Models (DSCM) [5]. En particulier, il a Ă©tĂ© prouvĂ© que tout SCM peut ĂȘtre reprĂ©sentĂ© par un DSCM qui lui est Ă©quivalent sur le plan contrefactuel [6]. En d'autres termes, dans la limite de donnĂ©es infinies, toute distribution contrefactuelle d'un SCM rĂ©el peut ĂȘtre approximĂ©e par un DSCM. Il s'agit lĂ d'une excellente occasion d'attĂ©nuer le manque de rĂ©alisme des donnĂ©es simulĂ©es Ă©voquĂ© dans le paragraphe prĂ©cĂ©dent [7].
Ce stage se concentrera sur l'Ă©tude des DSCMs en tant que simulateurs causaux semi-synthĂ©tiques. L'objectif sera d'Ă©valuer sous quelles hypothĂšses et comment les DSCMs peuvent ĂȘtre utilisĂ©s comme simulateurs causaux semi-synthĂ©tiques pour l'Ă©valuation. L'objectif Ă long terme est de dĂ©velopper une mĂ©thode standardisĂ©e pour Ă©valuer les mĂ©thodes d'infĂ©rence causale en utilisant les DSCMs comme simulateurs causaux semi-synthĂ©tiques.
Ce projet poursuit le travail de thÚse de notre doctorante CIFRE (co-encadré par l'INRIA Saclay), avec laquelle vous travaillerez. Ce stage offre une opportunité de s'engager dans la recherche de pointe en IA et de poursuivre potentiellement dans un programme de doctorat ou en tant que Data Scientist en IA avec Ekimetrics.
Plus particuliĂšrement vos responsabilitĂ©s seront de : ⹠DĂ©velopper des connaissances dans le domaine de l'infĂ©rence causaleâą RĂ©aliser une analyse bibliographique complĂšte des Deep Structural Causal Modelsâą Mettre en Ćuvre et expĂ©rimenter des approches utilisant des conditional deep generative models comme Normalizing Flow, GANs, VAEs.âą Travailler avec ton N+1 pour concevoir, mettre en Ćuvre et Ă©valuer des prototypes de modĂšles sur des ensembles de donnĂ©es synthĂ©tiques et rĂ©elles.âą Partager les rĂ©sultats avec les Ă©quipes internes et contribuer Ă l'Ă©laboration de stratĂ©gies Ă long terme pour l'IA responsable chez Ekimetrics.
Le profil et les compĂ©tences recherchĂ©es : ⹠Actuellement en derniĂšre annĂ©e de master ou de diplĂŽme d'ingĂ©nieur, avec de solides bases en statistiques, apprentissage automatique et programmation.âą ExpĂ©rience avec Python, donnĂ©es tabulaires et framework deep learning (PyTorch)âą Connaissance des techniques avancĂ©es d'apprentissage automatique, y compris les modĂšles gĂ©nĂ©ratifsâą Solides compĂ©tences en matiĂšre d'analyse et de rĂ©solution de problĂšmes, avec un intĂ©rĂȘt pour le dĂ©veloppement de modĂšles d'IA performantsâą CuriositĂ© et dĂ©sir de s'investir dans l'apprentissage des fondements de l'infĂ©rence causaleâą MaĂźtrise de l'anglais đ€ Pourquoi nous rejoindre ? Rejoindre Ekimetrics, câest intĂ©grer une entreprise dont les valeurs sâappliquent au quotidien :
âą Evoluer dans un environnement type start-up et non traditionnel (#curiositĂ©)âą Ătre capable de prendre le feedback pour sâamĂ©liorer (#excellence)âąÂ Se former dĂšs son arrivĂ©e et en continu grĂące Ă une expĂ©rience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-ĂȘtre et savoir-faire (#transmission)âą Faire partie dâune communautĂ© accueillante et soudĂ©e (#plaisir)âą Imaginer des solutions inattendues & sortir de sa zone de confort (#crĂ©ativitĂ©)  En 2023, Ekimetrics a obtenu le statut dâentreprise Ă mission qui tĂ©moigne de notre ambition forte en matiĂšre de RSE. Nous sommes Ă©galement certifiĂ©s Great Place to Work. đ€©Vous aurez accĂšs à ⊠ ⹠ Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compĂ©tences sur nos solutions et nos mĂ©tiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dĂ©diĂ©s Ă nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.âą Une vie sportive, artistique, musicale, ludique, caritative et engagĂ©e : de notre salle de sport privatisĂ©e Ă nos expositions dâart, en passant par des jeux vidĂ©o et des concerts, ou encore les dĂ©fis RSE sur la plateforme Vendredi ;âą Â De nombreux Ă©vĂšnements et sĂ©minaires pour rester proche de votre communautĂ© ; âą Des locaux modernes dans un quartier dynamique au cĆur de Paris (Grands boulevards)âą Â Une politique de tĂ©lĂ©travail flexible.  đ Notre processus recrutement  đž Un test technique sur HackerRankđž Un entretien RH avec un(e) Talent Acquisitionđž Une Ă©tude de cas avec un(e) Consultant(e)đž Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors dâun entretien et attendons votre candidature avec impatience !  References:[1] Judea Pearl and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018[2] Judea Pearl. Causality: Models, Reasoning and Inference. Cambridge University Press, 2nd edition, 2009[3] Amanda Gentzel, Dan Garant, and David Jensen. The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data. NeurIPS, 2019[4] Kevin Xia, Kai-Zhan Lee, Yoshua Bengio, and Elias Bareinboim. The causal-neural connection: Expressiveness, learnability, and inference. NeurIPS, 2021[5] Nick Pawlowski, Daniel Coelho de Castro, and Ben Glocker. Deep structural causal models for tractable counterfactual inference. NeurIPS, 2020[6] Kevin Xia, Yushu Pan, and Elias Bareinboim. Neural Causal Models for Counterfactual Identification and Estimation. NeurIPS, 2023[7] Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, MichĂšle SĂ©bag, and Marc Schoenauer. Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges. IJCAI, 2024
En tant quâemployeur, Ekimetrics offre Ă tous les mĂȘmes opportunitĂ©s dâaccĂšs Ă lâemploi sans distinction de genre, ethnicitĂ©, religion, orientation sexuelle, statut social, handicap et dâĂąge. Ekimetrics veille Ă dĂ©velopper un environnement de travail inclusif qui reflĂšte la diversitĂ© dans ses Ă©quipes.
* Salary range is an estimate based on our AI, ML, Data Science Salary Index đ°
Job stats:
6
1
0
Tags: Deep Learning DevOps GANs Generative modeling Machine Learning NeurIPS Python PyTorch Vue
Perks/benefits: Flex hours
Region:
Europe
Country:
France
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.
Power BI Developer jobsBusiness Intelligence Developer jobsPrincipal Data Engineer jobsBI Developer jobsStaff Data Scientist jobsStaff Machine Learning Engineer jobsPrincipal Software Engineer jobsJunior Data Analyst jobsData Science Intern jobsDevOps Engineer jobsData Manager jobsData Science Manager jobsSoftware Engineer II jobsAccount Executive jobsStaff Software Engineer jobsData Analyst Intern jobsLead Data Analyst jobsBusiness Data Analyst jobsAI/ML Engineer jobsSr. Data Scientist jobsData Specialist jobsData Governance Analyst jobsSenior Backend Engineer jobsData Engineer III jobsBusiness Intelligence Analyst jobs
Consulting jobsMLOps jobsAirflow jobsOpen Source jobsEconomics jobsLinux jobsKPIs jobsKafka jobsTerraform jobsGitHub jobsJavaScript jobsPostgreSQL jobsRDBMS jobsData Warehousing jobsNoSQL jobsClassification jobsBanking jobsStreaming jobsScikit-learn jobsPrompt engineering jobsRAG jobsComputer Vision jobsPhysics jobsGoogle Cloud jobsPandas jobs
Hadoop jobsOracle jobsScala jobsdbt jobsBigQuery jobsLooker jobsReact jobsGPT jobsData warehouse jobsR&D jobsLangChain jobsScrum jobsPySpark jobsDistributed Systems jobsMicroservices jobsCX jobsELT jobsIndustrial jobsSAS jobsOpenAI jobsJira jobsRedshift jobsModel training jobsTypeScript jobsJenkins jobs