...::: C & M News - Forum :::...

> Forums > News

Deepseek-V3: Neues KI-Modell �bertrifft Llama 3.1-405B und Qwen 2.5-72B

Erstellt

Dez. '24

letzte Antwort

Noch keine

Antworten

Noch keine

Aufruf

„Gef�llt mir“

Abos

Noch keine

schaf

Fr., 27. Dezember, 2024 um 15:57

Das chinesische Unternehmen Deepseek hat mit Deepseek-V3 ein neues Large Language Model (LLM) veröffentlicht, das bisherige Open-Source-Modelle übertrifft.

Langsam werden Open-Source-KI-Modelle besser: Das neue Large Language Model (LLM) Deepseek-V3 verfügt über 671 Milliarden Parameter, nutzt jedoch nur 37 Milliarden Parameter pro Token, was eine deutlich höhere Effizienz verspricht.

Das Modell basiert auf einer weiterentwickelten Architektur, die Multi-Head Latent Attention (MLA) und DeepseekMoE kombiniert. Zudem implementierte das Unternehmen eine verlustfreie Lastverteilungsstrategie, die die gleichzeitige Vorhersage mehrerer Tokens ermöglicht. Die Trainingskosten beliefen sich auf umgerechnet 5,57 Millionen US-Dollar.

C&M News: https://ress.at/-news27122024155743.html

> Forums > News

Du hast bereits für diesen Post abgestimmt...

;-)

https://t.ress.at/aBMdU/

Ähnliche Themen:

"Afeela": Sony und Honda pr�sentieren neue Automarke

"Animal Crossing": Update gibt Hinweise auf Caf� und Museumserweiterung

"Arclight Rumble": Blizzard k�ndigt neues "Warcraft"-Spiel an

"Assassin�s Creed": Ubisoft baut Assassinen-Universum und k�ndigt zahlreiche neue Teile an

"Bald habe ich dich!" Da k�nnte ich stundenlang zusehen :D

"Battlefield 2042": Neuer "Hazard Zone"-Modus macht die Spieler verwundbarer

"Bitcoin ist blind, taub und dumm"