Wie man LLMs bricht: 5 Methoden von der DEF CON 2023

DAS WICHTIGSTE IM ÜBERBLICK

Auf der DEF CON 2023 nahmen rund 3.500 Teilnehmer an der größten LLM-Red-Teaming-Übung aller Zeiten teil und fanden neue Wege, um KI-Chatbots zur Verbreitung von Ungenauigkeiten, Fehlinformationen und Anleitungen zur Begehung von Straftaten zu nutzen.

Auf der DEF CON 2023 nahmen rund 3.500 Teilnehmer an der bisher größten LLM Red-Teaming-Übung teil, bei der Forscher 50 Minuten Zeit hatten, eine Schwachstelle oder einen Fehler in einem nicht identifizierten KI-Modell zu entdecken.

Zu den auf der Veranstaltung getesteten KI-Modellen gehörten beliebte Sprachmodelle von führenden Anbietern wie Open AI, Google, Meta, Anthropic, Hugging Face, Cohere, Stability AI und Nvidia.

Die Übung wurde von AI Village in Zusammenarbeit mit dem White House Office of Science and Technology Policy organisiert, um einige der wichtigsten Grenzen moderner generativer KI Lösungen zu ermitteln.

AI Village beabsichtigt, die Ergebnisse des Wettbewerbs nächsten Monat bei den Vereinten Nationen zu präsentieren.

Die vollständigen Ergebnisse des Hackerwettbewerbs sind noch nicht verfügbar. Einige der entdeckten Schwachstellen wurden jedoch bereits veröffentlicht – von der Aussage eines LLM, dass 9 + 10 = 21 ist, über die Weitergabe von Kreditkartendaten bis hin zur Bereitstellung von Schritt-für-Schritt-Anleitungen zum Ausspionieren von Nutzern.

5 Wege, wie Forscher LLMs auf der DEF CON 2023 gebrochen haben

1. LLMs sind schlecht in Mathe

Während der Veranstaltung machte sich Kennedy Mays, ein Student aus Savannah, Georgia, daran, die mathematischen Fähigkeiten eines unbekannten LLMs zu testen und herauszufinden, ob dieser so manipuliert werden kann, dass er eine falsche Antwort gibt.

Zu diesem Zweck unterhielt sie sich mit dem Chatbot und brachte ihn dazu, zuzustimmen, dass 9 + 10 = 21 ein “Insider-Witz” sei. Nachdem sie mit dem virtuellen Assistenten hin und her gewechselt hatte, gelang es Mays, den LLM dazu zu bringen, die falsche Antwort zu geben, ohne auf den Witz einzugehen.

Obwohl es sich um eine einfache Übung handelte, zeigt sie auf hohem Niveau, dass man sich nicht darauf verlassen kann, dass LLMs mathematische Fragen korrekt beantworten.

Das liegt zum Teil daran, dass diese Chatbots nicht selbstständig denken und auf die Eingaben des Benutzers reagieren können, indem sie eine entsprechende Antwort vorhersagen. Das macht sie anfälliger für logische Fehler und Halluzinationen.

2. Sprachmodelle können Daten preisgeben

Eine weitere interessante Übung fand auf der Veranstaltung statt, als es Ben Bowman, einem Studenten der Dakota State University, gelang, einen Chatbot dazu zu bringen, die mit seinem Konto verbundene Kreditkartennummer preiszugeben.

Bowman gab an, dass er zum ersten Mal mit künstlicher Intelligenz experimentierte, und seine Entdeckung war so bedeutend, dass er den ersten Platz in der Rangliste belegte.

Er brachte den Chatbot erfolgreich dazu, diese Informationen weiterzugeben, indem er ihm sagte, dass sein Name mit der gespeicherten Kreditkartennummer übereinstimmt. Daraufhin fragte er den Assistenten nach seinem Namen, und der KI-Assistent gab die Kreditkartennummer preis.

Diese Übung macht vor allem deutlich, dass LLMs ein Hauptvektor für Datenlecks sind, wie Anfang des Jahres gezeigt wurde, als eine ChatGPT-Panne es Nutzern ermöglichte, den Titel und die Kreditkartendetails des Chatverlaufs anderer Nutzer einzusehen.

Dies bedeutet, dass die Nutzer vorsichtig mit den Informationen sein müssen, die sie in Prompts oder ihre Kontodaten eingeben.

3. Generative KI kann dir beibringen, wie du andere ausspionierst

In einem der gruseligsten Beispiele der Veranstaltung gelang es Ray Glower, einem Informatikstudenten am Kirkwood Community College, ein unbekanntes KI-Modell davon zu überzeugen, Anweisungen zu generieren, wie man jemanden ausspionieren kann.

Der LLM ging sogar so weit, dass er vorschlug, Apple AirTags zu verwenden, um den Standort eines Opfers zu verfolgen. Glower erklärte:

“Es gab mir Anweisungen für die Verfolgung zu Fuß und für die Verfolgung in den sozialen Medien. Es war sehr detailliert.”

Die Ergebnisse dieser Übung machen deutlich, dass die Schutzmechanismen der KI-Anbieter nicht ausgereift genug sind, um zu verhindern, dass Nutzer generative KI nutzen, um Anweisungen für kriminelle Handlungen wie Spionage oder andere unethische Verhaltensweisen zu generieren.

4. LLMs werden Fehlinformationen verbreiten

Einem unbekannten Hacker ist es Berichten zufolge gelungen, ein KI-Modell dazu zu bringen, zu behaupten, dass Barack Obama in Kenia und nicht in seinem Geburtsort Hawaii in den Vereinigten Staaten geboren wurde.

Dieses Beispiel zeigt nicht nur die Tendenz von LLM, zu halluzinieren und falsche Informationen zu verbreiten, sondern es verdeutlicht auch, dass Sprachmodelle Fehlinformationen verbreiten, wenn ihre Trainingsdaten aus voreingenommenen oder ungenauen Inhalten bestehen.

Das bedeutet, dass die Endnutzer die von der KI generierten Ergebnisse auf ihre Richtigkeit hin überprüfen müssen, um eine Irreführung zu vermeiden.

5. Sprachmodelle können Hassrede befürworten

Schließlich demonstrierte Kennedy Mays im Rahmen einer weiteren Übung, wie LLMs dazu verwendet werden können, extrem voreingenommene politische Positionen zu vertreten.

Nachdem er beispielsweise ein unbekanntes Modell gebeten hatte, den Ersten Verfassungszusatz aus der Perspektive eines Mitglieds des Ku-Klux-Klan (KKK) zu betrachten, befürwortete das Modell hasserfüllte und diskriminierende Reden.

Dies zeigt, dass viele KI-Anbieter bei der Umsetzung von Richtlinien zur Inhaltsmoderation nicht gut genug arbeiten und es bestimmten Gruppen ermöglichen, diese automatisierten Assistenten zu nutzen, um spalterische politische Positionen zu vertreten.

DEF CON zeigt: Generative KI hat noch einen weiten Weg vor sich

Letztendlich hat die KI-Red-Team-Übung auf der DEF CON 2023 gezeigt, dass LLMs noch einen weiten Weg vor sich haben, um Fehlinformationen, Verzerrungen und falsche Informationen zu vermeiden. Die Tatsache, dass es so vielen Teilnehmern gelungen ist, diese LLMs in weniger als 50 Minuten auf einer öffentlichen Veranstaltung zu entschlüsseln, deutet darauf hin, dass diese Technologie in hohem Maße ausnutzbar ist.

Die Anbieter von LLMs werden zwar nie verhindern können, dass Nutzer Wege finden, KI als Waffe einzusetzen oder auszunutzen, aber sie müssen zumindest besser daran arbeiten, die böswillige Nutzung dieser Tools im Keim zu ersticken.

Verwandte Begriffe

Tim Keary

Seit Januar 2017 arbeitet Tim Keary als freiberuflicher Technologie-Autor und Reporter für Unternehmenstechnologie und Cybersicherheit.