Data Engineer Spark Scala (H/F)

Casablanca, Morocco

Full Time Senior-level / Expert USD 58K - 109K *

Devoteam

Transform your bussines with Devoteam, the AI-driven tech consulting. Become a leading company embracing AI for sustainable value.

View all jobs at Devoteam

Apply now Apply later

Posted 1 month ago

Description de l'entreprise

Chez Devoteam, nous sommes des « Digital Transformakers ». Le respect, la franchise et la passion animent chaque jour notre tribu.

Ensemble, nous aidons nos clients à remporter la bataille du Digital : du conseil à la mise en œuvre de technologies innovantes, jusqu’à l’adoption des usages.

Cloud, Cybersecurity, Data, DevOps, Fullstack Dev, Low Code, RPA n’ont plus aucun secret pour notre tribu !

Nos 10 000+ collaborateurs sont certifiés, formés et accompagnés au quotidien pour relever de nouveaux challenges innovants.

Leader du Cloud, de la Cybersécurité et de la Data en EMEA, le Groupe Devoteam a réalisé en 2022 un chiffre d’affaires de 1,036 milliard d’euros et se donne pour ambition de le doubler dans les 5 années à venir.

Devoteam Maroc, acteur de référence dans les expertises IT depuis plus de 30 ans (350+ consultants) accélère sa croissance en développant ses activités d’expertise en nearshore pour répondre aux besoins de nos clients français, européens et moyen orientaux.

Es-tu prêt(e) à nous rejoindre et relever ensemble ce défi ?

Description du poste

Data Engineer Spark Scala Senior @ Devoteam Data Driven.

Dans un monde où les sources de données sont en constante évolution, Devoteam Data Driven aide ses clients à transformer leurs données en informations exploitables et les rendre ainsi impactantes pour plus de valeur business.

Data Driven adresse les 3 grandes dimensions suivantes : Data Strategy, Data for Business et Data Foundation en appui d’expertise chez ses clients pour les rendre encore plus performants et compétitifs au quotidien.

Tu rejoindras les équipes de la tribu Data Foundation : une équipe enthousiaste de Data Engineers, de Data Ops, de Tech lead architectes et de chefs de projets travaillant sur les plateformes et l’écosystème Data : designer, construire et moderniser les plateformes et solutions Data, concevoir les data pipelines en mettant l’accent sur l’agilité et le DevOps appliqué à la Data.

Tu seras le maillon essentiel pour fournir les données fiables et valorisées aux métiers leur permettant de créer leurs nouveaux produits et services et tu appuieras aussi les équipes Data Science en leur fournissant les environnements de données “datalab” nécessaires pour mener à bien leurs démarches exploratoires dans l’élaboration et l’industrialisation de leurs modèles, à savoir :

Concevoir, développer et maintenir des pipelines de données efficaces pour extraire, transformer et charger les données de différentes sources vers des systèmes de stockage de données de type Lakehouse (datalake, datawarehouse)
Écrire du code Scala, souvent associé à Apache Spark pour ses fonctionnalités concises et expressives, afin de réaliser des transformations complexes sur de grands volumes de données
S’appuyer sur les fonctionnalités offertes par Apache Spark, telles que les transformations et les actions distribuées, pour traiter les données à grande échelle de manière rapide et efficace
Identifier et résoudre les problèmes de performance dans les pipelines de données, en optimisant les requêtes Spark, en ajustant la configuration de Spark et en mettant en œuvre les meilleures pratiques.
Collaborer avec d'autres équipes pour intégrer les pipelines de données avec des bases de données SQL, noSQL, du streaming Kafka, des systèmes de fichiers de type buckets …
Si besoin, concevoir et mettre en œuvre des pipelines de traitement des données en temps réel en utilisant les fonctionnalités de streaming de Spark
Mettre en œuvre les mécanismes de sécurité pour protéger les données sensibles en utilisant les fonctionnalités d'authentification, d'autorisation RBAC/ABAC, de chiffrement, d'anonymisation des données
Documenter le code, les pipelines de données, les schémas de données et les décisions de conception pour assurer leur compréhension et maintenabilité
Mettre en place les tests unitaires et d'intégration pour assurer la qualité du code et déboguer les problèmes éventuels dans les pipelines de données

Tu donneras ta pleine mesure par la maîtrise de tes fondamentaux techniques, ta connaissance sur le bout des doigts des données que tu traites et que tu manipules et surtout en affirmant ta volonté à comprendre les besoins et le métier pour lequel tu travailleras.

Ton terrain de jeu : la distribution, l’énergie, la finance, l’industrie, la santé et les transports avec plein de cas d’usage et de nouveaux défis Data à relever ensemble notamment la Data dans le Cloud.

Qualifications

Diplôme d'ingénieur ou équivalent
Expert dans le domaine de la Data : 3 à 5 ans d’expérience post diplôme
Maîtrise et pratique avérée de Apache Spark
Maîtrise et pratique avérée de Scala
Pratique de Python et pySpark
Connaissance et pratique des outils d’orchestration tels Apache Oozie, Apache Airflow, Databricks Jobs
Des certifications seront un plus spécialement sur Spark, Databricks, Azure, GCP
Maîtrise des principes ETL/ELT
Pratique des outils ETL/ELT tels Talend Data Integration, Apache Nifi, dbt sont un plus
Pratique de Kafka et Spark Streaming sont un plus aussi
Une double compétence dév (java, scala, python) infra (linux, ansible, k8s)
Une bonne connaissance des API Rest et microservices
Maîtrise des outils d'intégration CI/CD (Jenkins, Gitlab) et du travail en mode agile
Un excellent relationnel, tu aimes travailler en équipe
Un sens prononcé du service et engagé dans tes activités
Savoir communiquer et écouter en toutes circonstances et écrire sans fautes …
and you are fluent in english, indeed !