STAGE – Ingénieur en Audio Language Models et révolution de l’interaction avec les LLMs (H/F) – 6 mois

Palaiseau Polytechnique

Full Time Entry-level / Junior EUR 13K - 24K *

Thales

From Aerospace, Space, Defence to Security & Transportation, Thales helps its customers to create a safer world by giving them the tools they need to perform critical tasks

View all jobs at Thales

Apply now Apply later

Posted 1 month ago

QUI SOMMES-NOUS ?

Construisons ensemble un avenir de confiance

Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cybersécurité & Identité numérique. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays.

Nos engagements, vos avantages

Une réussite commune portée par notre culture et excellence technologique, votre expérience et notre ambition partagée
Un package de rémunération attractif (épargne salariale, variable ou 13ième mois selon les postes, restaurant d’entreprise,…)
La possibilité de développer vos compétences en continu grâce à nos parcours de formation et nos académies internes #ENTREPRISEAPPRENANTE
Notre attention portée à votre équilibre personnel et professionnel (Accord télétravail, RTT, congés d’ancienneté, jours enfants malades, guide parentalité, crèches, CSE / ASC,… )
Des communautés internes permettant de vous engager sur les sujets qui vous tiennent à cœur : innovation, diversité, environnement
Un environnement inclusif et bienveillant où vous êtes accueilli et valorisé avec notre politique handi-accueillante, notre charte LGBT+, notre initiative #StOpe pour lutter contre le sexisme.

Thales propose des systèmes d’information et de communication sécurisés et interopérables pour les forces armées, les forces de sécurité et les opérateurs d’importance vitale. Ces activités, qui regroupent radiocommunications, réseaux, systèmes de protection, systèmes d’information critiques et cybersécurité, répondent aux besoins de marchés où l’utilisation des nouvelles technologies numériques est déterminante. Thales intervient tout au long de la chaîne de valeur, des équipements aux systèmes en passant par le soutien logistique et les services associés.

Situé sur le campus de l’École polytechnique, au cœur du pôle scientifique et technologique d’envergure mondiale de Paris-Saclay, le site de Palaiseau rassemble les activités de recherche du Groupe en France. Les laboratoires de ThereSIS (THALES European REsearch center for Security & Information Systems) y mettent au point des technologies dans les domaines de la connectivité et des réseaux, de la cyber-sécurité, de l’intelligence artificielle et de la science des données au service des activités mondiales du Groupe. Grâce à un réseau international de partenaires industriels et à une politique proactive de collaboration avec le monde académique et les start-ups, nos collaborateurs peuvent proposer des technologies innovantes de la transformation numérique aux équipes d’ingénierie et de développement de Thales. Ils co-développent avec elles des solutions qui répondent à des besoins opérationnels et concrets.

Dans ce cadre nous recherchons un :

STAGE – Ingénieur en Audio Language Models et révolution de l’interaction avec les LLMs (H/F) – 6 mois
Basé à Palaiseau (91)

QUI ETES-VOUS ?

Etudiant en Ecole d’Ingénieur ou formation équivalente, vous préparez un master 2 en sciences de données ou en apprentissage automatique ?
Vous êtes curieux et rigoureux ?
Vous disposez d'une aisance affirmée en programmation en Python et en Pytorch ?
Vous avez un intérêt particulier pour l’apprentissage automatique et les applications de l’IA générative ?
L’idée de participer à un projet de recherche sur des thématiques d’assistant conversationnel vous anime ?
Enfin vous êtes à l’aise en français et en anglais ?

Vous vous reconnaissez ? Alors découvrez vos futures missions !

CE QUE NOUS POUVONS ACCOMPLIR ENSEMBLE :

Thales SIX & GTS France est numéro un européen des systèmes d’information et de communication sécurisés pour les marchés de la défense, de la sécurité et du transport terrestre. Au sein de cette entité, ThereSIS, basé à Palaiseau et Gennevilliers, est un département de recherche comportant six laboratoires (Simulation, Intelligence Artificielle, Computer Vision, Signal radio, Cybersécurité et Data Science) lui permettant de répondre aux besoins amonts de Thales SIX GTS France et plus généralement de Thales.

L'intelligence artificielle générative a connu une évolution spectaculaire ces dernières années, permettant la création d'applications variées et puissantes. Parmi ces applications, on trouve la recherche d'informations (via la Retrieval-Augmented Generation (RAG) [4]) mais également la création d’assistants d'aide à la décision, ou d’aide au suivi de procédures complexes, facilitant la gestion de tâches répétitives ou critiques.

Malgré leurs performances élevées, les modèles actuels de type Large Language Models (LLM) présentent une limite importante : ils n'intègrent pas nativement la modalité audio. Or, la possibilité d'interagir vocalement apporte une nouvelle dimension aux assistants conversationnels, notamment en termes de rapidité d'interaction, de fluidité des échanges et d'exploitation des indices paralinguistiques (intonation, émotions, etc.). Par exemple, pour les pilotes, la possibilité d'interagir vocalement avec un assistant serait cruciale, car elle leur permettrait de garder les mains libres tout en accédant à des informations importantes ou en exécutant des procédures complexes en collaboration avec l’assistant.

L'intégration de différentes modalités (image, audio) aux assistants conversationnels est réalisée par l'alignement des représentations intermédiaires (espaces latents) de différents modèles spécialisés [2]. Cette approche requiert une interaction en tour par tour, limitant la fluidité. L'intégration d'un flux audio dans les assistants conversationnels présente des défis techniques significatifs, tels que la gestion de la latence pour assurer des interactions fluides et la complexité du traitement en temps réel des flux audio.

L'architecture Moshi [1], un modèle évolué capable de gérer un flux audio en continu, constitue un excellent exemple d'une telle approche. Toutefois, ce modèle est actuellement généraliste et nécessite des adaptations pour être utilisé dans des contextes spécifiques. De plus, Moshi fonctionne en flux continu, alors que la plupart des assistants conversationnels textuels reposent sur des modèles à état discret, ce qui complique l'harmonisation entre les deux approches.

Votre objectif lors de ce stage sera d’adapter l'architecture Moshi pour un usage opérationnel appliqué. Il s'agira de développer des solutions pour intégrer la modalité audio à des assistants guidés par LLM, en prenant en compte les spécificités des flux audio continus et les exigences opérationnelles.

Dans ce contexte, vos missions seront les suivantes :

Analyse de l’état de l’art et du code existant : compréhension des détails de l'entraînement de cette nouvelle architecture
Proposition de démarches permettant d'adapter le modèle à un usage opérationnel. Différentes spécialisations devront être considérée
Identifier comment créer un dataset synthétique propice à l’entrainement et la validation.
Mise en œuvre d’une ou plusieurs des méthodes de spécialisation identifiées
Compte-rendu des performances de l’approche sur un cas d’usage précis.

Thales s’engage pour l’emploi et l’insertion des personnes en situation de handicap. A ce titre, notre établissement Thales Research&Technology France est reconnu Organisme Handi-Accueillant

Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études.

Thales reconnait tous les talents, la diversité est notre meilleur atout. Postulez et rejoignez nous !

Apply now Apply later

* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰

Job stats: 2 0 0

Category: NLP Jobs

Tags: Architecture Computer Vision LLMs Python PyTorch RAG Research Security

Perks/benefits: Career development

Region: Europe

Country: France

More jobs like this

« Back to job search To the top ↑

Explore more career opportunities

Find even more open roles below ordered by popularity of job title or skills/products/technologies used.

STAGE – Ingénieur en Audio Language Models et révolution de l’interaction avec les LLMs (H/F) – 6 mois

Palaiseau Polytechnique

Full Time Entry-level / Junior EUR 13K - 24K *

Thales

More jobs like this

Master Thesis - Language-Conditioned Traffic Scene Generation with Multimodal Inputs - REF73286W

Stage R&D - Ingenieur Intelligence Artificielle Specialise En Nlp (H/F)

Language Engineer - Native in Danish (Denmark)

Language Engineer - Native in Swedish (from Sweden)

INTERN - Data Scientist (GPT, SQL, 6 Months)

Internship in Advancing Drug Development with LLMs for Preclinical Studies (m/f/d)

PhD Position in Advanced Student Modeling and Tailored Large Language Models for Personalized Learning in Computer Science

Postdoctoral Researcher Position in Advanced Student Modeling and Tailored Large Language Models for Personalized Learning in Computer Science

Internship in Advancing Drug Development for Ophthalmology with multimodal LLMs (m/f/d)

Bell Labs Internship on Source-aware Language Models (PhD)

Explore more career opportunities