Masterarbeit: Closed-set Attribution von LLM-generierten Texten
Darmstadt, DE, 64295
Fraunhofer-Gesellschaft
Die Fraunhofer-Gesellschaft mit Sitz in Deutschland ist eine der fĂŒhrenden Organisationen fĂŒr anwendungsorientierte Forschung. Im Innovationsprozess spielt sie eine zentrale Rolle â mit Forschungsschwerpunkten in zukunftsrelevanten...Das Fraunhofer-Institut fĂŒr Sichere Informationstechnologie SIT gehört zu den fĂŒhrenden Forschungs- und Entwicklungseinrichtungen fĂŒr Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum fĂŒr angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der Hochschule Darmstadt und der Goethe-UniversitĂ€t Frankfurt. Unser gemeinsames Ziel: die Welt von morgen sicherer zu machen.
Â
Was Du bei uns tust
Autorschaftsattribution (AA) beschreibt traditionell das Problem, einem unbekannten Text den wahrscheinlichsten Autor aus einer vorgegebenen Menge von Kandidaten korrekt zuzuordnen. Zu diesem Zweck steht eine sogenannte Kandidatenmenge zur VerfĂŒgung, die Beispieltexte der potenziellen Autoren enthĂ€lt.
Mit dem technologischen Fortschritt im Bereich der KĂŒnstlichen Intelligenz werden jedoch immer mehr Texte von Large Language Models (LLMs) generiert oder ergĂ€nzt. Dies stellt bestehende AA-Methoden, die ursprĂŒnglich zur Zuordnung von Texten zu menschlichen Autoren entwickelt wurden, vor neue Herausforderungen.
LLM-generierte Texte sind selbst fĂŒr Experten oft schwer als maschinell erzeugt zu erkennen. Noch schwieriger wird es, das spezifische LLM zu identifizieren, das den Text erstellt hat. Diese Masterarbeit soll sich dieser Herausforderung widmen.
Das Ziel der Arbeit ist es, eine spezielle AA-Methode zu konzipieren und zu entwickeln, die in der Lage ist, fĂŒr einen gegebenen anonymen Text zu bestimmen, welches LLM ihn erzeugt hat. Dabei sollen keine Wasserzeichen verwendet werden, wie sie in der Vergangenheit eingesetzt wurden, um LLM-generierte Texte rĂŒckverfolgbar zu machen. Um die KomplexitĂ€t der Aufgabe zu reduzieren, wird ein Closed-set-Szenario betrachtet. Das bedeutet, dass sich das tatsĂ€chlich verwendete LLM in der vorgegebenen Kandidatenmenge befindet. Eine Unterscheidung zwischen menschlichen Autoren und LLMs wird ebenfalls nicht vorgenommen.
Im Rahmen der Evaluierung soll die entwickelte Methode mit bestehenden AnsĂ€tzen verglichen werden. DarĂŒber hinaus sollen Merkmale identifiziert und dargestellt werden, anhand derer die Zuordnung zum jeweiligen LLM erfolgt ist.
Â
Was Du mitbringst
- Studienhintergrund in Informatik, Computational Linguistics, Data Science oder einem vergleichbaren Bereich
- Kenntnisse in NLP und Machine Learning, idealerweise Erfahrung mit Large Language Models (LLMs) und Textklassifikationsaufgaben
- Programmierkenntnisse in Python sowie Erfahrung mit gĂ€ngigen ML/NLP-BibliothekenÂ
Â
Was Du erwarten kannst
- SelbststÀndige Arbeitszeiteinteilung
- Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung
Â
Wir wertschĂ€tzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrĂŒĂen daher alle Bewerbungen â unabhĂ€ngig von Alter, Geschlecht, NationalitĂ€t, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und IdentitĂ€t. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.
Â
Mit ihrer Fokussierung auf zukunftsrelevante SchlĂŒsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber fĂŒr innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.Â
Haben wir Dein Interesse geweckt? Dann bewirb Dich jetzt online mit Deinen aussagekrĂ€ftigen Bewerbungsunterlagen. Wir freuen uns darauf, Dich kennenzulernen!Â
Â
Â
Fraunhofer-Institut fĂŒr Sichere Informationstechnologie SITÂ
Kennziffer:Â 76737Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Bewerbungsfrist:Â
Â
* Salary range is an estimate based on our AI, ML, Data Science Salary Index đ°
Tags: Computer Science Linguistics LLMs Machine Learning NLP Python
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.