STAGE – Ingénieur en Audio Language Models et révolution de l’interaction avec les LLMs (H/F) – 6 mois
Palaiseau Polytechnique
Thales
From Aerospace, Space, Defence to Security & Transportation, Thales helps its customers to create a safer world by giving them the tools they need to perform critical tasksQUI SOMMES-NOUS ?
Construisons ensemble un avenir de confiance
Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cybersécurité & Identité numérique. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays.
Nos engagements, vos avantages
- Une réussite commune portée par notre culture et excellence technologique, votre expérience et notre ambition partagée
- Un package de rémunération attractif (épargne salariale, variable ou 13ième mois selon les postes, restaurant d’entreprise,…)
- La possibilité de développer vos compétences en continu grâce à nos parcours de formation et nos académies internes #ENTREPRISEAPPRENANTE
- Notre attention portée à votre équilibre personnel et professionnel (Accord télétravail, RTT, congés d’ancienneté, jours enfants malades, guide parentalité, crèches, CSE / ASC,… )
- Des communautés internes permettant de vous engager sur les sujets qui vous tiennent à cœur : innovation, diversité, environnement
- Un environnement inclusif et bienveillant où vous êtes accueilli et valorisé avec notre politique handi-accueillante, notre charte LGBT+, notre initiative #StOpe pour lutter contre le sexisme.
Dans ce cadre nous recherchons un :
STAGE – Ingénieur en Audio Language Models et révolution de l’interaction avec les LLMs (H/F) – 6 mois
Basé à Palaiseau (91)
QUI ETES-VOUS ?
- Etudiant en Ecole d’Ingénieur ou formation équivalente, vous préparez un master 2 en sciences de données ou en apprentissage automatique ?
- Vous êtes curieux et rigoureux ?
- Vous disposez d'une aisance affirmée en programmation en Python et en Pytorch ?
- Vous avez un intérêt particulier pour l’apprentissage automatique et les applications de l’IA générative ?
- L’idée de participer à un projet de recherche sur des thématiques d’assistant conversationnel vous anime ?
- Enfin vous êtes à l’aise en français et en anglais ?
Vous vous reconnaissez ? Alors découvrez vos futures missions !
CE QUE NOUS POUVONS ACCOMPLIR ENSEMBLE :
Thales SIX & GTS France est numéro un européen des systèmes d’information et de communication sécurisés pour les marchés de la défense, de la sécurité et du transport terrestre. Au sein de cette entité, ThereSIS, basé à Palaiseau et Gennevilliers, est un département de recherche comportant six laboratoires (Simulation, Intelligence Artificielle, Computer Vision, Signal radio, Cybersécurité et Data Science) lui permettant de répondre aux besoins amonts de Thales SIX GTS France et plus généralement de Thales.
L'intelligence artificielle générative a connu une évolution spectaculaire ces dernières années, permettant la création d'applications variées et puissantes. Parmi ces applications, on trouve la recherche d'informations (via la Retrieval-Augmented Generation (RAG) [4]) mais également la création d’assistants d'aide à la décision, ou d’aide au suivi de procédures complexes, facilitant la gestion de tâches répétitives ou critiques.
Malgré leurs performances élevées, les modèles actuels de type Large Language Models (LLM) présentent une limite importante : ils n'intègrent pas nativement la modalité audio. Or, la possibilité d'interagir vocalement apporte une nouvelle dimension aux assistants conversationnels, notamment en termes de rapidité d'interaction, de fluidité des échanges et d'exploitation des indices paralinguistiques (intonation, émotions, etc.). Par exemple, pour les pilotes, la possibilité d'interagir vocalement avec un assistant serait cruciale, car elle leur permettrait de garder les mains libres tout en accédant à des informations importantes ou en exécutant des procédures complexes en collaboration avec l’assistant.
L'intégration de différentes modalités (image, audio) aux assistants conversationnels est réalisée par l'alignement des représentations intermédiaires (espaces latents) de différents modèles spécialisés [2]. Cette approche requiert une interaction en tour par tour, limitant la fluidité. L'intégration d'un flux audio dans les assistants conversationnels présente des défis techniques significatifs, tels que la gestion de la latence pour assurer des interactions fluides et la complexité du traitement en temps réel des flux audio.
L'architecture Moshi [1], un modèle évolué capable de gérer un flux audio en continu, constitue un excellent exemple d'une telle approche. Toutefois, ce modèle est actuellement généraliste et nécessite des adaptations pour être utilisé dans des contextes spécifiques. De plus, Moshi fonctionne en flux continu, alors que la plupart des assistants conversationnels textuels reposent sur des modèles à état discret, ce qui complique l'harmonisation entre les deux approches.
Votre objectif lors de ce stage sera d’adapter l'architecture Moshi pour un usage opérationnel appliqué. Il s'agira de développer des solutions pour intégrer la modalité audio à des assistants guidés par LLM, en prenant en compte les spécificités des flux audio continus et les exigences opérationnelles.
Dans ce contexte, vos missions seront les suivantes :
- Analyse de l’état de l’art et du code existant : compréhension des détails de l'entraînement de cette nouvelle architecture
- Proposition de démarches permettant d'adapter le modèle à un usage opérationnel. Différentes spécialisations devront être considérée
- Identifier comment créer un dataset synthétique propice à l’entrainement et la validation.
- Mise en œuvre d’une ou plusieurs des méthodes de spécialisation identifiées
- Compte-rendu des performances de l’approche sur un cas d’usage précis.
Thales s’engage pour l’emploi et l’insertion des personnes en situation de handicap. A ce titre, notre établissement Thales Research&Technology France est reconnu Organisme Handi-Accueillant
Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études.
Thales reconnait tous les talents, la diversité est notre meilleur atout. Postulez et rejoignez nous !* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Tags: Architecture Computer Vision LLMs Python PyTorch RAG Research Security
Perks/benefits: Career development
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.