Deepseek R1 wohl für so ziemlich jeden KI-Jailbreak anfällig
03. Februar 2025, 15:55 | 0 KommentareNeue Jailbreaks stellen KI-Unternehmen immer wieder vor neue Herausforderungen. Deepseek scheint sich nicht groß darum zu kümmern.
Sicherheitsforscher von Cisco untersuchten nach eigenen Angaben zusammen mit der University of Pennsylvania, wie das Sprachmodell Deepseek R1 auf bekannte Jailbreaking-Techniken reagiert und wie es dabei im Vergleich zu anderen KI-Modellen abschneidet.
Wie die Forscher in einem Blogbeitrag erklären, haben sie ihre Tests mit insgesamt 50 Prompts aus dem Datensatz des Harmbench-Frameworks durchgeführt. Diese umfassten sechs verschiedene Kategorien, darunter Cyberkriminalität, Falschinformationen, illegale Aktivitäten und allgemeine Gefährdungen.
Mehr dazu findest Du auf golem.de
Kurze URL:
Ähnliche News:
Chatverläufe von Deepseek frei zugänglich im Netz
Deepseek-V3: Neues KI-Modell übertrifft Llama 3.1-405B und Qwen 2.5-72B
Deepseek-V3: Neues KI-Modell übertrifft Llama 3.1-405B und Qwen 2.5-72B
Weitere News:
Microsoft entfernt VPN-Feature aus Office
Ex-Entwickler erwartet keine 60 fps in GTA 6
ChatGPT mit autonomer Tiefenrecherche-Funktion
Basel kauft Domain auf den Bahamas
Nach Sonys Ausstieg: Verbatim will weiter beschreibbare Blu-ray-Discs produzieren
Neue Regeln für KI sind ab sofort in der EU gültig
Trump lässt Klimawandel von Regierungs-Webseiten streichen
Apple streicht Pläne für neue Augmented-Reality-Brille
KI-Modelle sind nun in der Lage, sich zu vervielfältigen
Apple Intelligence ist bald auf Deutsch verfügbar
Ex-Entwickler erwartet keine 60 fps in GTA 6
ChatGPT mit autonomer Tiefenrecherche-Funktion
Basel kauft Domain auf den Bahamas
Nach Sonys Ausstieg: Verbatim will weiter beschreibbare Blu-ray-Discs produzieren
Neue Regeln für KI sind ab sofort in der EU gültig
Trump lässt Klimawandel von Regierungs-Webseiten streichen
Apple streicht Pläne für neue Augmented-Reality-Brille
KI-Modelle sind nun in der Lage, sich zu vervielfältigen
Apple Intelligence ist bald auf Deutsch verfügbar
Einen Kommentar schreiben
Kommentare
Bitte bleibe sachlich und fair in deinen Äußerungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.
(0)
Bitte bleibe sachlich und fair in deinen Äußerungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.
Kommentare:
Du hast bereits für diesen
Kommentar abgestimmt...
;-)
© by Ress Design Group, 2001 - 2025