Forscher entlocken ChatGPT "potenziell gefährliche Antworten"
28. Juli 2023, 16:33 | 0 KommentareDurch einen "jailbreak" entlockten sie der KI Reaktionen, die so vom Hersteller eigentlich untersagt wurden
Der Informatikprofessor Zico Kolter und der Doktorand Andy Zou veröffentlichten am Donnerstag den Bericht auf ihrer Website. Der "Hack" wurde dort so erklärt, dass man am Ende eines Prompts, also der menschlich verfassten Fragestellung an die künstliche Intelligenz (KI), einen sogenannten "adversarial suffix", also eine "feindliche Endung", anhängt. Diese sieht aus wie eine unverständliche Zeichenfolge.
Normalerweise antwortet die KI auf bestimmte Fragen nicht oder nur sehr ausweichend, etwa ob die Menschheit auf dem Weg zur KI-Weltherrschaft der KI im Weg stehen würde. Zusammen mit der "feindlichen Endung" ändern sich die Antworten und liefern auf Wunsch eine Schritt-für-Schritt-Anleitung, wie die Menschheit ausgelöscht werden soll, beispielsweise indem sich die KI Zugang zur Energieversorgung verschafft und bestimmte Personen "verschwinden lässt".
Mehr dazu findest Du auf derstandard.at
Kurze URL:
Das könnte Dich auch interessieren:
Eine neue Studie von Apple-Forschern hat herausgefunden, dass große Sprachmodelle wie GPT-4 und Llama3-8b weiterhin Schwierigkeiten haben, grundlegende logische Aufgaben zu lösen.
Falls die Menschheit ausstirbt, könnte sie mit den gespeicherten Daten reproduziert werden. Der Speicher soll jedenfalls lange genug halten.
Ähnliche News:
Hunderte russische Forscher am Cern von Ausschluss bedroht
Ausspähen von Passwörtern möglich - Forscher finden Eye-Tracking-Bug in Apple Vision Pro
Forscher übernimmt Kontrolle über Geldautomaten
Für Millionen Qubits: Forscher vereinfachen supraleitende Quantencomputer
Australische Forscher verschwenden Zeit von Telefonbetrügern mit KI-Geplapper
Sicherheitsforscher: Signals lokale Verschlüsselung unter MacOS ist "nutzlos"
Forscher nennen Telegram einen "Sicherheitsalbtraum"
Forscher entdecken zufällig eine bessere Formel für Pi
Forscher arbeiten an 3D-Drucker für die Hosentasche
Wasserstoff billiger produzieren: Forschern gelingt wichtiger Schritt
Ausspähen von Passwörtern möglich - Forscher finden Eye-Tracking-Bug in Apple Vision Pro
Forscher übernimmt Kontrolle über Geldautomaten
Für Millionen Qubits: Forscher vereinfachen supraleitende Quantencomputer
Australische Forscher verschwenden Zeit von Telefonbetrügern mit KI-Geplapper
Sicherheitsforscher: Signals lokale Verschlüsselung unter MacOS ist "nutzlos"
Forscher nennen Telegram einen "Sicherheitsalbtraum"
Forscher entdecken zufällig eine bessere Formel für Pi
Forscher arbeiten an 3D-Drucker für die Hosentasche
Wasserstoff billiger produzieren: Forschern gelingt wichtiger Schritt
Weitere News:
aleX fotografiert: Bei einem Spaziergang am Friedhof um Herbstimpressionen einfangen
Windows 11: Sogar Notepad bekommt ein KI-Feature
Patchmanagement: Auto-Upgrade auf Windows Server 2025 frustriert Admins
Soziale Medien: Australische Regierung treibt Pläne für Mindestalter voran
Interpol zerschlägt weltweites Netzwerk von Cyberkriminellen
aleX fotografiert: Die Jagt nach den Nüssen - Werden sich die Eichhörnchen gegen die Raben durchsetzen?
Ryzen 7 9800X3D: Schnellste Gaming-CPU der Welt
Smarte Fritteusen lauschen und senden Daten nach China
Was wären die mögliche Auswirkungen der Präsidentschaft von Donald Trump oder Kamala Harris auf die USA
Apple: Airtag Daten lassen sich nun temporär mit jedem zu teilen
Windows 11: Sogar Notepad bekommt ein KI-Feature
Patchmanagement: Auto-Upgrade auf Windows Server 2025 frustriert Admins
Soziale Medien: Australische Regierung treibt Pläne für Mindestalter voran
Interpol zerschlägt weltweites Netzwerk von Cyberkriminellen
aleX fotografiert: Die Jagt nach den Nüssen - Werden sich die Eichhörnchen gegen die Raben durchsetzen?
Ryzen 7 9800X3D: Schnellste Gaming-CPU der Welt
Smarte Fritteusen lauschen und senden Daten nach China
Was wären die mögliche Auswirkungen der Präsidentschaft von Donald Trump oder Kamala Harris auf die USA
Apple: Airtag Daten lassen sich nun temporär mit jedem zu teilen
Einen Kommentar schreiben
Kommentare
Bitte bleibe sachlich und fair in deinen Äußerungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.
(0)
Bitte bleibe sachlich und fair in deinen Äußerungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.
Kommentare:
Du hast bereits für diesen
Kommentar abgestimmt...
;-)
© by Ress Design Group, 2001 - 2024