Peut-on appliquer une méthode de réduction des tokens généralisée aux modèles ViT multitâches ? H/F

Saclay

CEA

Le CEA est un acteur majeur de la recherche, au service de l'État, de l'économie et des citoyens. Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies...

View all jobs at CEA

Apply now Apply later

Informations générales

Entité de rattachement

Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :

• La conscience des responsabilités
• La coopération
• La curiosité
  

Référence

2024-33185  

Description de l'unité

Le Commissariat à l'Energie Atomique et aux Energies Alternatives (CEA) est un acteur majeur en
matière de recherche, de développement et d'innovation. Cet organisme de recherche technologique
intervient dans trois grands domaines : l'énergie, les technologies pour l'information et la santé et la
défense. Reconnu comme un expert dans ses domaines de compétences, le CEA est pleinement
inséré dans l'espace européen de la recherche et exerce une présence croissante au niveau
international. Situé en île de France sud (Saclay), le Laboratoire d'Intégration des Systèmes et des
Technologies (LIST) a notamment pour mission de contribuer au transfert de technologies et de
favoriser l'innovation dans le domaine des systèmes embarqués. Au sein du LIST, le Laboratoire
Intelligence Artificielle Embarquée (LIAE) est chargé de concevoir, de développer et de mettre en
œuvre des solutions optimisées (surface, consommation, puissance de calcul) pour les systèmes
embarqués.

Description du poste

Domaine

Systèmes d'information

Contrat

Stage

Intitulé de l'offre

Peut-on appliquer une méthode de réduction des tokens généralisée aux modèles ViT multitâches ? H/F

Sujet de stage

Les Vision Transformers (ViT) ont révolutionné le domaine de la vision par ordinateur en atteignant
des performances de pointe dans une large gamme de tâches, telles que la classification d'images,
la segmentation, l'estimation de profondeur, la détection d'objets et l'analyse du flux optique.
Cependant, leurs exigences élevées en termes de calcul et de mémoire restent des obstacles
importants à leur déploiement en temps réel et dans des environnements aux ressources limitées.
Pour relever ces défis, les techniques de réduction des modèles sont essentielles, offrant un moyen
de diminuer la complexité tout en préservant les performances.
Ce stage vise à développer une stratégie polyvalente et efficace de réduction des tokens pour
optimiser les performances des modèles ViT sur diverses tâches, tout en réduisant la charge
computationnelle. Les résultats permettront d'adapter les modèles ViT aux applications multitâches,
où précision et efficacité sont cruciales.

Durée du contrat (en mois)

6 mois

Description de l'offre

L'objectif de ce stage est d'identifier une solution généralisable permettant au modèle de bien performer sur plusieurs tâches, tout en minimisant le compromis entre la performance, la complexité du modèle et l'efficacité des ressources. Plus précisément, ce stage s'appuiera sur une approche hybride de réduction des tokens, développée dans notre laboratoire pour la segmentation sémantique [1]. Cette méthode combine la fusion des tokens, qui réduit le nombre de tokens à traiter par le transformeur, avec une stratégie de sortie anticipée, permettant au modèle de stopper les calculs lorsque les couches intermédiaires atteignent un niveau de confiance suffisant. Le principal objectif de ce travail est d'évaluer l'efficacité de cette méthode sur diverses tâches et d'explorer les optimisations potentielles pour la fusion des tokens. Sur la base de ces évaluations, nous visons à déterminer si le système actuel de réduction des tokens hybride est suffisant pour maintenir les performances sur toutes les tâches ou si des modifications spécifiques à chaque tâche sont
nécessaires.

Dans ce contexte, les objectifs du stage sont les suivants :

  • Réaliser une étude des techniques de fusion des tokens, en soulignant les principaux aspects à considérer, tels que les facteurs influençant les décisions de fusion (par exemple, l'importance des tokens et la complexité des tâches), et en explorant comment optimiser ces facteurs pour une large gamme de tâches ;
  • Intégrer des têtes adaptées aux tâches de prédiction dense comme l'estimation de profondeur, la détection d'objets, la segmentation d'instances ou l'analyse du flux optique ;
  • Mise en oeuvre sur une puce embarquée de type NVIDIA Jetson Orin ;
  • Évaluer la technique d'optimisation des tokens sur d'autres backbones, tels que les modèles de fondation comme DinoV2 [2] ou SAM (Segment Anything Model) [3] ;
  • Effectuer des tests de benchmarking (FPS, mIOU, Params, MACC, FLOPS) pour évaluer les capacités de généralisation du modèle de réduction des tokens.

Conformément aux engagements pris par le CEA en faveur de l’intégration de personnes en situation de handicap, cet emploi est ouvert à tous et toutes.

Références:

[1] Proust, M., Poreba, M., Galagain, C., Szczepanski, M., Haroun, K., Optimizing Vision Transformers for Edge Deployment: Hybrid Token Reduction for Efficient Semantic Segmentation, European Conference on EDGE AI Technologies and Applications EEIA24, Cagliari, Sardaigne, Italie (en cours de soumission)
[2] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al., Dinov2: Learning robust visual features without supervision, arXiv:2304.07193, 2023.
[3] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A.C., Lo, W., Dollár, P., & Girshick, R.B. (2023). Segment Anything. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 3992-4003.

Moyens / Méthodes / Logiciels

Langage C/C++, Python, IA, traitement d'image, Linux

Profil du candidat

  • Formation : Ingénieur/Master – Bac+5
  • Bon niveau d'anglais (B2 ou plus)
  • Spécialisation en réseau ou intelligence artificielle
  • Connaissance d’architectures de réseaux de neurones
  • Bon niveau en programmation (principalement Python)
  • Une expérience en embarqué serait un plus

Localisation du poste

Site

Saclay

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

  Palaiseau

Critères candidat

Langues

  • Anglais (Intermédiaire)
  • Français (Intermédiaire)

Diplôme préparé

Bac+5 - Master 2

Formation recommandée

Ingénieur/Master

Possibilité de poursuite en thèse

Oui

Demandeur

Disponibilité du poste

01/03/2025

Apply now Apply later
  • Share this job via
  • 𝕏
  • or
Job stats:  0  0  0

Tags: Architecture Classification Computer Vision Linux Nvidia Jetson Python R Transformers

More jobs like this