Masterarbeit: Closed-set Attribution von LLM-generierten Texten

Darmstadt, DE, 64295

Applications have closed

Fraunhofer-Gesellschaft

Die Fraunhofer-Gesellschaft mit Sitz in Deutschland ist eine der fĂŒhrenden Organisationen fĂŒr anwendungsorientierte Forschung. Im Innovationsprozess spielt sie eine zentrale Rolle – mit Forschungsschwerpunkten in zukunftsrelevanten...

View all jobs at Fraunhofer-Gesellschaft

Das Fraunhofer-Institut fĂŒr Sichere Informationstechnologie SIT gehört zu den fĂŒhrenden Forschungs- und Entwicklungseinrichtungen fĂŒr Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum fĂŒr angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der Hochschule Darmstadt und der Goethe-UniversitĂ€t Frankfurt. Unser gemeinsames Ziel: die Welt von morgen sicherer zu machen.

 

Was Du bei uns tust

Autorschaftsattribution (AA) beschreibt traditionell das Problem, einem unbekannten Text den wahrscheinlichsten Autor aus einer vorgegebenen Menge von Kandidaten korrekt zuzuordnen. Zu diesem Zweck steht eine sogenannte Kandidatenmenge zur VerfĂŒgung, die Beispieltexte der potenziellen Autoren enthĂ€lt.

Mit dem technologischen Fortschritt im Bereich der KĂŒnstlichen Intelligenz werden jedoch immer mehr Texte von Large Language Models (LLMs) generiert oder ergĂ€nzt. Dies stellt bestehende AA-Methoden, die ursprĂŒnglich zur Zuordnung von Texten zu menschlichen Autoren entwickelt wurden, vor neue Herausforderungen.

LLM-generierte Texte sind selbst fĂŒr Experten oft schwer als maschinell erzeugt zu erkennen. Noch schwieriger wird es, das spezifische LLM zu identifizieren, das den Text erstellt hat. Diese Masterarbeit soll sich dieser Herausforderung widmen.

Das Ziel der Arbeit ist es, eine spezielle AA-Methode zu konzipieren und zu entwickeln, die in der Lage ist, fĂŒr einen gegebenen anonymen Text zu bestimmen, welches LLM ihn erzeugt hat. Dabei sollen keine Wasserzeichen verwendet werden, wie sie in der Vergangenheit eingesetzt wurden, um LLM-generierte Texte rĂŒckverfolgbar zu machen. Um die KomplexitĂ€t der Aufgabe zu reduzieren, wird ein Closed-set-Szenario betrachtet. Das bedeutet, dass sich das tatsĂ€chlich verwendete LLM in der vorgegebenen Kandidatenmenge befindet. Eine Unterscheidung zwischen menschlichen Autoren und LLMs wird ebenfalls nicht vorgenommen.

Im Rahmen der Evaluierung soll die entwickelte Methode mit bestehenden AnsĂ€tzen verglichen werden. DarĂŒber hinaus sollen Merkmale identifiziert und dargestellt werden, anhand derer die Zuordnung zum jeweiligen LLM erfolgt ist.

 

Was Du mitbringst

  • Studienhintergrund in Informatik, Computational Linguistics, Data Science oder einem vergleichbaren Bereich
  • Kenntnisse in NLP und Machine Learning, idealerweise Erfahrung mit Large Language Models (LLMs) und Textklassifikationsaufgaben
  • Programmierkenntnisse in Python sowie Erfahrung mit gĂ€ngigen ML/NLP-Bibliotheken 

 

Was Du erwarten kannst

  • SelbststĂ€ndige Arbeitszeiteinteilung
  • Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung

 

Wir wertschĂ€tzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrĂŒĂŸen daher alle Bewerbungen – unabhĂ€ngig von Alter, Geschlecht, NationalitĂ€t, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und IdentitĂ€t. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.

 

Mit ihrer Fokussierung auf zukunftsrelevante SchlĂŒsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber fĂŒr innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft. 

Haben wir Dein Interesse geweckt? Dann bewirb Dich jetzt online mit Deinen aussagekrÀftigen Bewerbungsunterlagen. Wir freuen uns darauf, Dich kennenzulernen! 

 

 

Fraunhofer-Institut fĂŒr Sichere Informationstechnologie SIT 

www.sit.fraunhofer.de 


Kennziffer: 76737                Bewerbungsfrist: 

 

* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰

Job stats:  0  0  0

Tags: Computer Science Linguistics LLMs Machine Learning NLP Python

Region: Europe
Country: Germany

More jobs like this