...::: C&M News by Ress - Druckansicht :::...

Drucken (Bereits 5 mal)


Deepseek-V3: Neues KI-Modell übertrifft Llama 3.1-405B und Qwen 2.5-72B

(27. Dezember 2024/15:57)
Das chinesische Unternehmen Deepseek hat mit Deepseek-V3 ein neues Large Language Model (LLM) veröffentlicht, das bisherige Open-Source-Modelle übertrifft.

Langsam werden Open-Source-KI-Modelle besser: Das neue Large Language Model (LLM) Deepseek-V3 verfügt über 671 Milliarden Parameter, nutzt jedoch nur 37 Milliarden Parameter pro Token, was eine deutlich höhere Effizienz verspricht.

Das Modell basiert auf einer weiterentwickelten Architektur, die Multi-Head Latent Attention (MLA) und DeepseekMoE kombiniert. Zudem implementierte das Unternehmen eine verlustfreie Lastverteilungsstrategie, die die gleichzeitige Vorhersage mehrerer Tokens ermöglicht. Die Trainingskosten beliefen sich auf umgerechnet 5,57 Millionen US-Dollar.


Mehr dazu findet ihr auf golem.de


https://ress.at/deepseekv3-neues-kimodell-uebertrifft-llama-3-1405b-und-qwen-2-572b-news27122024155743.html
© by RessServerWorks, 2025