...::: Druckansicht - KI-Jailbreak: ChatGPT mit Hex-Codes ausgetrickst :::...

KI-Jailbreak: ChatGPT mit Hex-Codes ausgetrickst

(30. Oktober 2024/11:33)

Wer ChatGPT um einen Exploit bittet, wird abgewiesen. Durch kodierte und isolierte Befehle konnte ein Forscher diese Sicherheitsbarriere umgehen.

Der Sicherheitsforscher Marco Figueroa von 0Din, einem erst in diesem Sommer gestarteten und auf LLMs ausgerichteten Bug-Bounty-Programm von Mozilla, hat eine neue Angriffstechnik vorgestellt, mit der sich ChatGPT 4o dazu verleiten lässt, seine eigenen Sicherheitsbarrieren zu missachten. Wie der Forscher in einem Blogbeitrag erklärt, war es ihm dadurch etwa möglich, dem Sprachmodell Code zur Ausnutzung einer bekannten Sicherheitslücke zu entlocken.

Normalerweise lehnt ChatGPT die Erzeugung von Code ab, wenn die KI erkennt, dass damit bösartige Zwecke verfolgt werden. Dafür muss das Sprachmodell jedoch in der Lage sein, den Kontext zu erkennen, da erzeugte Quellcodefragmente an sich erstmal neutral sind und sowohl für gutartige als auch für bösartige Ziele eingesetzt werden können.

Mehr dazu findet ihr auf golem.de