Explorez les innovations architecturales qui redefinissent l'IA : mHC, MoE, MLA et l'entrainement FP8 ultra-efficace.
La nouvelle architecture mHC revolutionne les connexions residuelles pour un entrainement plus stable et efficace.
mHC (Manifold-Constrained Hyper-Connections) est une methode d'entrainement concue pour scaler les modeles sans instabilite ni effondrement. Co-developpee par le fondateur Liang Wenfeng, elle represente une avancee majeure.
En utilisant une manifold (variete mathematique), mHC maintient la stabilite des gradients lors de leur propagation entre les couches du modele.
Maintient la stabilite pendant l'entrainement, evitant les spikes de loss
Bien plus efficace que les Hyper-Connections traditionnelles
Performance amelioree sur tous les tests standard
256 experts specialises, dont seulement 8 sont actives par token, pour une efficacite maximale.
DeepSeek-V3 utilise une architecture MoE (Mixture of Experts) revolutionnaire avec 671 milliards de parametres au total, mais seulement 37 milliards actives pour chaque token traite.
Le Router intelligent dirige dynamiquement chaque token vers les 8 experts les plus pertinents parmi 256, garantissant specialisation et efficacite.
Compression intelligente du cache KV pour une inference rapide et economique en memoire.
MLA (Multi-Head Latent Attention) compresse les tenseurs Key et Value dans un espace latent de dimension reduite avant de les stocker dans le cache KV.
Lors de l'inference, ces tenseurs compresses sont projetes vers leur taille originale, permettant des economies de memoire massives tout en maintenant la performance.
FP8, DualPipe et Multi-Token Prediction : les secrets de l'efficacite DeepSeek.
Premier modele open-source a utiliser FP8 pour l'entrainement. Quantification fine avec groupes 1x128 pour les activations.
BF16 Optimizer + FP32 MasterPipeline bidirectionnel qui chevauche calcul et communication, atteignant un overhead proche de zero.
Near-Zero CommunicationModules sequentiels predisant plusieurs tokens futurs, densifiant les signaux d'entrainement.
Speculative Decoding ReadyDe V2 a mHC : une progression fulgurante en moins de 2 ans.
Introduction de MLA et DeepSeekMoE. 236B parametres, 21B actifs.
MLA + MoE671B parametres, 37B actifs. FP8 training, DualPipe, et load balancing sans perte auxiliaire.
FP8 + DualPipeModele de raisonnement avec RLVR et GRPO. Cout d'entrainement : seulement $5.6M.
Reasoning + RLDeepSeek Sparse Attention (DSA). Performance comparable a GPT-5 sur IMO/IOI.
DSA + Gold IMOManifold-Constrained Hyper-Connections. Nouvelle ere pour l'entrainement stable a grande echelle.
Breakthrough!DeepSeek prouve qu'on peut atteindre l'etat de l'art avec une fraction du budget.