KI-Jailbreak: ChatGPT mit Hex-Codes ausgetrickst
30. Okt. 2024, 11:33
| 0 KommentareWer ChatGPT um einen Exploit bittet, wird abgewiesen. Durch kodierte und isolierte Befehle konnte ein Forscher diese Sicherheitsbarriere umgehen.
Der Sicherheitsforscher Marco Figueroa von 0Din, einem
erst in diesem Sommer gestarteten und
auf LLMs ausgerichteten Bug-Bounty-Programm von Mozilla, hat eine neue Angriffstechnik vorgestellt, mit der sich ChatGPT 4o dazu verleiten lässt, seine eigenen Sicherheitsbarrieren zu missachten. Wie der Forscher in einem
Blogbeitrag erklärt, war es ihm dadurch etwa möglich, dem Sprachmodell Code zur Ausnutzung einer bekannten Sicherheitslücke zu entlocken.
Normalerweise lehnt ChatGPT die Erzeugung von Code ab, wenn die KI erkennt, dass damit bösartige Zwecke verfolgt werden. Dafür muss das Sprachmodell jedoch in der Lage sein, den Kontext zu erkennen, da erzeugte Quellcodefragmente an sich erstmal neutral sind und sowohl für gutartige als auch für bösartige Ziele eingesetzt werden können.
Mehr dazu findest Du auf
golem.de