> Forums > News
D
Deepseek-V3: Neues KI-Modell übertrifft Llama 3.1-405B und Qwen 2.5-72B
Erstellt
Dez. '24
|
letzte Antwort
Noch keine
|
Antworten
Noch keine
|
Aufruf
1 |
1
„Gefällt mir“ |
Abos
Noch keine |
Fr., 27. Dezember, 2024 um 15:57
#1
Das chinesische Unternehmen Deepseek hat mit Deepseek-V3 ein neues Large Language Model (LLM) veröffentlicht, das bisherige Open-Source-Modelle übertrifft. Langsam werden Open-Source-KI-Modelle besser: Das neue Large Language Model (LLM) Deepseek-V3 verfügt über 671 Milliarden Parameter, nutzt jedoch nur 37 Milliarden Parameter pro Token, was eine deutlich höhere Effizienz verspricht. Das Modell basiert auf einer weiterentwickelten Architektur, die Multi-Head Latent Attention (MLA) und DeepseekMoE kombiniert. Zudem implementierte das Unternehmen eine verlustfreie Lastverteilungsstrategie, die die gleichzeitige Vorhersage mehrerer Tokens ermöglicht. Die Trainingskosten beliefen sich auf umgerechnet 5,57 Millionen US-Dollar. C&M News: https://ress.at/-news27122024155743.html |
|
Du hast bereits für diesen
Post abgestimmt...
;-)
https://t.ress.at/aBMdU/
Ähnliche Themen:
© by Ress Design Group, 2001 - 2025