Stage 2025 - Data Science et Machine Learning/AI practitionner - Sujet : Semi-synthetic Causal Simulations with Deep Generative Models (H/F/N)

Paris

Ekimetrics

Ekimetrics provides AI business solutions, enhancing business operations and driving efficiency through data and AI solutions.

View all jobs at Ekimetrics

Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l’optimisation de performance marketing, business et de la transition vers une performance plus durable. Si vous ĂȘtes passionnĂ©.e de data, ou de technologie en gĂ©nĂ©ral, et que vous avez envie d’ĂȘtre acteur.rice de votre avenir professionnel, votre place est sĂ»rement chez Ekimetrics ! 📊Et si nous vous prĂ©sentions quelques datas ?  ‱ 400 expert.e.s en data science ‱ 1000 projets divers et variĂ©s pour plus de 350 clients ‱ 5 bureaux : Paris, Hong Kong, Shanghai, Londres et New York ‱ 1 milliard de $ de profits gĂ©nĂ©rĂ©s pour nos clients depuis 2006 Â Â đŸŒ±Chez Ekimetrics nous avons l’ambition d’accompagner nos clients Ă  repenser leur business model, en rĂ©conciliant performance Ă©conomique et objectifs durables, grĂące Ă  la data science.  C’est pourquoi nous avons en interne toutes les compĂ©tences nous permettant de rĂ©pondre aux besoins de nos clients : Product Managers, Product Designers, Data Architects, Lead Tech, Data Engineers, DevOps Engineers, Data Scientists.Â đŸ€ L’équipe Data Science que vous pourriez rejoindre  Pourquoi recrutons-nous ?  Au sein d’Ekimetrics, le dĂ©partement Innovation travaille sur des sujets de recherche en IA en collaboration avec nos partenaires industriels et acadĂ©miques. Le dĂ©partement regroupe plusieurs docteurs experts dans le domaine de l’IA gĂ©nĂ©rative,du deep learning, de la vision par ordinateur, de la sĂ©rie temporelle, de l’explicabilitĂ©, et de la causalitĂ©. Deux thĂšses CIFRE sont en cours, et deux dĂ©buteront en 2025. Autour de chaque expert des Ă©quipes sont constituĂ©es en charge de tester les algorithmes Ă©tat de l’art et les adapter Ă  des problĂ©matiques business spĂ©cifiques, de crĂ©er de nouvelles mĂ©thodologies ou algorithmes rĂ©pondant Ă  un problĂšme relevĂ©, et d’’assurer la passation en vue d’une intĂ©gration dans l’écosystĂšme industriel d’Ekimetrics.
L'Ă©quipe CausalitĂ© du dĂ©partement Innovation d’Ekimetrics vise Ă  aborder un large ensemble de tĂąches causales, comprenant la dĂ©couverte causale, l'estimation d'effets causaux et le raisonnement contrefactuel, par le biais d'une recherche de pointe dans le domaine de l'infĂ©rence causale. Nous tirons parti des derniĂšres techniques d'IA et de modĂ©lisation statistique, notamment l'apprentissage automatique, l'apprentissage profond et la modĂ©lisation bayĂ©sienne. En testant continuellement de nouveaux algorithmes et en auditant les pratiques d'Ekimetrics en matiĂšre de raisonnement causal, l'Ă©quipe CausalitĂ© affine les mĂ©thodologies existantes et en dĂ©veloppe de nouvelles pour rĂ©pondre Ă  de nouveaux problĂšmes et Ă©largir le champ d'expertise d'Ekimetrics. Ainsi, au-delĂ  de l'analyse des corrĂ©lations, Ekimetrics s'assure de rester Ă  l'avant-garde de la prise de dĂ©cision basĂ©e sur les donnĂ©es, en permettant Ă  ses clients d'utiliser le raisonnement causal.
Objectifs du stage : Semi-synthetic Causal Simulations with Deep Generative Models
L'extraction de connaissances générales et scientifiques à partir d'ensembles de données vastes et complexes est devenue une attente de plus en plus forte. Cependant, une compréhension plus approfondie que celle des associations nécessite de prendre en compte non seulement la corrélation, mais aussi la notion de causalité [1]. Alors que l'analyse statistique standard suppose que les conditions d'échantillonnage des données restent inchangées (c'est-à-dire l'absence de changement de distribution), l'analyse causale va plus loin. Elle permet de déduire l'effet des changements induits par des actions ou des interventions externes sans qu'il soit nécessaire de mener des expériences [2].
L'un des principaux défis de l'inférence causale est l'évaluation de la précision des méthodes. En effet, la plupart des données disponibles aujourd'hui sont des données d'observation et non des données expérimentales. Ainsi, contrairement à l'apprentissage automatique, il est trÚs rare d'avoir accÚs à une vérité de base à laquelle se comparer ou de pouvoir construire un ensemble de tests pour mesurer un taux d'erreur. C'est pourquoi les praticiens testent leurs nouvelles méthodes sur des données simulées ou semi-simulées échantillonnées à partir de modÚles structurels de causalité, appelés Structural Causal Models (SCMs). Cependant, de nombreuses critiques soulignent les limites des benchmarks existants [3]. Deux limites importantes résident dans le manque de standardisation et de réalisme des données synthétiques, qui sont considérées comme non fidÚles aux complexités des applications du monde réel.
Ces derniĂšres annĂ©es, avec le dĂ©veloppement de modĂšles gĂ©nĂ©ratifs profonds conditionnels (conditional deep generative models), une nouvelle classe de modĂšles causaux avec un niveau d'expressivitĂ© de pointe [4] a Ă©tĂ© dĂ©veloppĂ©e : les modĂšles causaux structurels profonds, appelĂ©s Deep Structural Causal Models (DSCM) [5]. En particulier, il a Ă©tĂ© prouvĂ© que tout SCM peut ĂȘtre reprĂ©sentĂ© par un DSCM qui lui est Ă©quivalent sur le plan contrefactuel [6]. En d'autres termes, dans la limite de donnĂ©es infinies, toute distribution contrefactuelle d'un SCM rĂ©el peut ĂȘtre approximĂ©e par un DSCM. Il s'agit lĂ  d'une excellente occasion d'attĂ©nuer le manque de rĂ©alisme des donnĂ©es simulĂ©es Ă©voquĂ© dans le paragraphe prĂ©cĂ©dent [7].
Ce stage se concentrera sur l'Ă©tude des DSCMs en tant que simulateurs causaux semi-synthĂ©tiques. L'objectif sera d'Ă©valuer sous quelles hypothĂšses et comment les DSCMs peuvent ĂȘtre utilisĂ©s comme simulateurs causaux semi-synthĂ©tiques pour l'Ă©valuation. L'objectif Ă  long terme est de dĂ©velopper une mĂ©thode standardisĂ©e pour Ă©valuer les mĂ©thodes d'infĂ©rence causale en utilisant les DSCMs comme simulateurs causaux semi-synthĂ©tiques.
Ce projet poursuit le travail de thÚse de notre doctorante CIFRE (co-encadré par l'INRIA Saclay), avec laquelle vous travaillerez. Ce stage offre une opportunité de s'engager dans la recherche de pointe en IA et de poursuivre potentiellement dans un programme de doctorat ou en tant que Data Scientist en IA avec Ekimetrics.
Plus particuliĂšrement vos responsabilitĂ©s seront de : ‱ DĂ©velopper des connaissances dans le domaine de l'infĂ©rence causale‱ RĂ©aliser une analyse bibliographique complĂšte des Deep Structural Causal Models‱ Mettre en Ɠuvre et expĂ©rimenter des approches utilisant des conditional deep generative models comme Normalizing Flow, GANs, VAEs.‱ Travailler avec ton N+1 pour concevoir, mettre en Ɠuvre et Ă©valuer des prototypes de modĂšles sur des ensembles de donnĂ©es synthĂ©tiques et rĂ©elles.‱ Partager les rĂ©sultats avec les Ă©quipes internes et contribuer Ă  l'Ă©laboration de stratĂ©gies Ă  long terme pour l'IA responsable chez Ekimetrics.
Le profil et les compĂ©tences recherchĂ©es : ‱ Actuellement en derniĂšre annĂ©e de master ou de diplĂŽme d'ingĂ©nieur, avec de solides bases en statistiques, apprentissage automatique et programmation.‱ ExpĂ©rience avec Python, donnĂ©es tabulaires et framework deep learning (PyTorch)‱ Connaissance des techniques avancĂ©es d'apprentissage automatique, y compris les modĂšles gĂ©nĂ©ratifs‱ Solides compĂ©tences en matiĂšre d'analyse et de rĂ©solution de problĂšmes, avec un intĂ©rĂȘt pour le dĂ©veloppement de modĂšles d'IA performants‱ CuriositĂ© et dĂ©sir de s'investir dans l'apprentissage des fondements de l'infĂ©rence causale‱ MaĂźtrise de l'anglaisÂ đŸ€ Pourquoi nous rejoindre ? Rejoindre Ekimetrics, c’est intĂ©grer une entreprise dont les valeurs s’appliquent au quotidien :
‱ Evoluer dans un environnement type start-up et non traditionnel (#curiositĂ©)‱ Être capable de prendre le feedback pour s’amĂ©liorer (#excellence)‱ Se former dĂšs son arrivĂ©e et en continu grĂące Ă  une expĂ©rience apprenante unique et riche de nombreuses ressources (internes, externes, live et digital) alliant savoirs techniques, savoir-ĂȘtre et savoir-faire (#transmission)‱ Faire partie d’une communautĂ© accueillante et soudĂ©e (#plaisir)‱ Imaginer des solutions inattendues & sortir de sa zone de confort (#crĂ©ativitĂ©)  En 2023, Ekimetrics a obtenu le statut d’entreprise Ă  mission qui tĂ©moigne de notre ambition forte en matiĂšre de RSE. Nous sommes Ă©galement certifiĂ©s Great Place to Work.Â đŸ€©Vous aurez accĂšs Ă  
  ‱  Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compĂ©tences sur nos solutions et nos mĂ©tiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dĂ©diĂ©s Ă  nos enjeux prioritaires, dont la sensibilisation aux sujets environnementaux avec la Climate School AXA.‱ Une vie sportive, artistique, musicale, ludique, caritative et engagĂ©e : de notre salle de sport privatisĂ©e Ă  nos expositions d’art, en passant par des jeux vidĂ©o et des concerts, ou encore les dĂ©fis RSE sur la plateforme Vendredi ;‱  De nombreux Ă©vĂšnements et sĂ©minaires pour rester proche de votre communautĂ© ; ‱ Des locaux modernes dans un quartier dynamique au cƓur de Paris (Grands boulevards)‱  Une politique de tĂ©lĂ©travail flexible.  🔄 Notre processus recrutement  🔾 Un test technique sur HackerRank🔾 Un entretien RH avec un(e) Talent Acquisition🔾 Une Ă©tude de cas avec un(e) Consultant(e)🔾 Un entretien final avec un(e) Consultant(e) Senior Nous serions ravi.e.s de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience !  References:[1] Judea Pearl and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018[2] Judea Pearl. Causality: Models, Reasoning and Inference. Cambridge University Press, 2nd edition, 2009[3] Amanda Gentzel, Dan Garant, and David Jensen. The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data. NeurIPS, 2019[4] Kevin Xia, Kai-Zhan Lee, Yoshua Bengio, and Elias Bareinboim. The causal-neural connection: Expressiveness, learnability, and inference. NeurIPS, 2021[5] Nick Pawlowski, Daniel Coelho de Castro, and Ben Glocker. Deep structural causal models for tractable counterfactual inference. NeurIPS, 2020[6] Kevin Xia, Yushu Pan, and Elias Bareinboim. Neural Causal Models for Counterfactual Identification and Estimation. NeurIPS, 2023[7] Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, MichĂšle SĂ©bag, and Marc Schoenauer. Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges. IJCAI, 2024
En tant qu’employeur, Ekimetrics offre Ă  tous les mĂȘmes opportunitĂ©s d’accĂšs Ă  l’emploi sans distinction de genre, ethnicitĂ©, religion, orientation sexuelle, statut social, handicap et d’ñge. Ekimetrics veille Ă  dĂ©velopper un environnement de travail inclusif qui reflĂšte la diversitĂ© dans ses Ă©quipes.

* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰

Job stats:  6  1  0

Tags: Deep Learning DevOps GANs Generative modeling Machine Learning NeurIPS Python PyTorch Vue

Perks/benefits: Flex hours

Region: Europe
Country: France

More jobs like this