Senior Data Scientist (m/w/d)
Berlin, Hybrid
Legalhero
Mit Legalhero wollen wir den besten Rechtsservice der Welt bieten. Unsere Partneranwält:innen lösen deine rechtlichen Probleme digital und unkompliziert. Jetzt Rechtsschutzfall melden!Was dich erwartet
Als zentrale Figur im Data-Bereich gestaltest du die Infrastruktur, auf der unsere Legal-AI-Agenten basieren. Hunderttausende historische Rechtsfälle werden unter deiner Verantwortung in hochwertige, analysierbare Trainingsdaten überführt – die Grundlage für leistungsstarke, skalierbare Modelle.
- Ausbau unserer Databricks-/Delta-Lakehouse-Infrastruktur (AWS), Entwicklung von DSGVO-konformen Datenmodellen, Data Contracts und nachvollziehbarer Lineage
- Aufbau und Betrieb robuster ELT-Pipelines mit PySpark, dbt und Airflow – inklusive automatisierter Qualitätssicherung, Datenversionierung und Testabdeckung
- Konzeption und Leitung eines skalierbaren Annotationsprozesses: inklusive Tooling, Guidelines und QA für ein 20-köpfiges Paralegal-Team
- Aufbau transparenter, datengetriebener Dashboards (z. B. mit Tableau) zur Erkennung von Bias, Datenlücken und Modellrisiken – adressiert an C-Level und Fachteams
- Entwicklung von Goldstandards, adversarial Testsets und Metriken für Faithfulness, Zitationsgenauigkeit und Alignment – zur systematischen Evaluierung unserer KI-Agenten
- Verantwortung für den RLHF-Datenloop: von der Kuratierung menschlichen Feedbacks über Reward-Modelle bis zur Überwachung von Alignment-Metriken
- Führung, Mentoring und Weiterentwicklung des Data-Teams sowie enge Abstimmung mit AI Engineers, insbesondere bei der Integration von RAG-Workflows und LLM-Evaluation
Was du mitbringst
- Abgeschlossenes Master- oder Promotionsstudium in Data Science, Statistik, Informatik o. ä.
- Mindestens 7 Jahre Erfahrung mit großskaligen Data-Plattformen, idealerweise auf Basis von Databricks/Delta Lake
- Fleißende Englischkenntnisse
- Nachgewiesene Expertise im Aufbau von Annotation-Workflows mit mindestens 10 FTE und Integration in ML-Prozesse
- Tiefes technisches Verständnis von Python, SQL, PySpark und modernen ETL-Standards; sicher im Umgang mit statistischen Tests und experimentellem Design
- Kenntnisse in Vektordatenbanken (z. B. Weaviate, pgvector), LLM-Evaluation und Human-in-the-Loop-Prozessen
- Routine im Umgang mit AWS (S3, Glue, IAM, Lambda) sowie Infrastructure as Code (z. B. Terraform oder Pulumi)
- Sehr gutes Verständnis für Datenschutz, Datensicherheit und regulatorische Rahmenbedingungen (DSGVO)
- Wünschenswert: Erfahrung mit juristischen Textkorpora sowie gute Deutschkenntnisse
Was wir versprechen
Arbeitsumgebung & Flexibilität- Office-First Company mit der Möglichkeit, 1 Tag pro Woche mobil zu arbeiten
- Modernes, klimatisiertes Büro mit viel Tageslicht
- Zentrale Lage zwischen Gleisdreieck & Potsdamer Platz mit sehr guter Anbindung
- Große Dachterrasse mit atemberaubendem Blick über Berlin
- Freie Getränke, frisches Obst und Müsli
- 100 % Übernahme eines Deutschlandtickets für deine Mobilität
- Dein Hund ist ein Teamplayer? Perfekt! Wir freuen uns über tierische Unterstützung im Büro.
- Corporate Benefits Account mit attraktiven Angeboten & Rabatten für viele Marken
- Firmenevents und Teamevents, weil uns Zusammenhalt wichtig ist
- Betriebliche Altersvorsorge mit 20 % Arbeitgeberanteil – wir denken mit dir an die Zukunft
- Spiel & Spaß nach Feierabend: Nintendo Switch, PS5, Dart & Tischkicker warten auf dich
- Agiles und modernes Mindset – offene Kommunikation – jede Stimme zählt
- Spannende Aufgabengebiete: praxistaugliches juristisches Wissen
- Wir bieten spannende Aufgaben und praxistaugliches juristisches Wissen – du kannst unsere Reise aktiv mitgestalten.
- Feedback ist bei uns keine Floskel, sondern ein echter Gamechanger: Wir setzen auf gemeinsames Wachstum.
- Schnelle Rückmeldung
- Ca. 20-minütiges Telefonat mit Recruitingteam /HR
- Ca. 60-minütiges Kennenlernen der Vorgesetzten und des Teams vor Ort
- ca. 30- minütiges Kennenlernen des Managements
- Danach erhältst du dein Angebot
* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Tags: Airflow AWS Computer Science Dart Databricks dbt ELT ETL Lambda LLMs Machine Learning Pipelines PySpark Python RAG RLHF SQL Tableau Terraform Weaviate
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.