Deepseek-V3: Neues KI-Modell �bertrifft Llama 3.1-405B und Qwen 2.5-72B

27. Dez. 2024, 15:57 |

0 Kommentare

Das chinesische Unternehmen Deepseek hat mit Deepseek-V3 ein neues Large Language Model (LLM) veröffentlicht, das bisherige Open-Source-Modelle übertrifft.

Langsam werden Open-Source-KI-Modelle besser: Das neue Large Language Model (LLM) Deepseek-V3 verfügt über 671 Milliarden Parameter, nutzt jedoch nur 37 Milliarden Parameter pro Token, was eine deutlich höhere Effizienz verspricht.

Das Modell basiert auf einer weiterentwickelten Architektur, die Multi-Head Latent Attention (MLA) und DeepseekMoE kombiniert. Zudem implementierte das Unternehmen eine verlustfreie Lastverteilungsstrategie, die die gleichzeitige Vorhersage mehrerer Tokens ermöglicht. Die Trainingskosten beliefen sich auf umgerechnet 5,57 Millionen US-Dollar.

Mehr dazu findest Du auf golem.de

Autor schreiben

Kurze URL:

Currently 5.00/5
1
2
3
4
5

Bewertung: 5.0/5 (2 Stimmen)

Weitere News:

Cyberangriff: Ukraine zerst�rt Netzwerk eines russischen Providers
Jackery: Solardachziegel kaum von Dachpfannen unterscheidbar
Marvel Rivals verwendet Hintern mehrfach
aleX fotografiert: Am Friedhof V�gel und s�sse Eichh�rnchen
Pixel 4a: Google verringert Akkulaufzeit per Update
Entwickler bedient Windows 11 mit nur 184 MByte RAM
Facebook, Instagram, Threads: Zuckerberg will keine Fakten mehr checken
Ein Minecraft Film
aleX fotografiert: Ein Silberreiher und Graureiher im Sonnenblumenfeld
Gegen zu hei�en Kaffee: Roboter-Katze �bernimmt das Pusten

Einen Kommentar schreiben

Kommentare

(0)

Bitte bleibe sachlich und fair in deinen �u�erungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.

Kommentare:

Leider hast du das Java-Plugin deaktiviert...
Die Kommentarfunktion brauch das Java Plugin aber...

Du kannst aber gerne �ber das Forum Newskommentare schreiben...

Du hast bereits f�r diesen Kommentar abgestimmt...

;-)

Top