Janvier 2026 - Nouvelle Architecture

DeepSeek
Architecture Revolution

Explorez les innovations architecturales qui redefinissent l'IA : mHC, MoE, MLA et l'entrainement FP8 ultra-efficace.

671B
Parametres totaux
37B
Actives par token
$5.6M
Cout d'entrainement
6.27%
Overhead mHC

Manifold-Constrained Hyper-Connections

La nouvelle architecture mHC revolutionne les connexions residuelles pour un entrainement plus stable et efficace.

Une nouvelle ere pour les connexions residuelles

mHC (Manifold-Constrained Hyper-Connections) est une methode d'entrainement concue pour scaler les modeles sans instabilite ni effondrement. Co-developpee par le fondateur Liang Wenfeng, elle represente une avancee majeure.

En utilisant une manifold (variete mathematique), mHC maintient la stabilite des gradients lors de leur propagation entre les couches du modele.

Stabilite des Gradients

Maintient la stabilite pendant l'entrainement, evitant les spikes de loss

📈

6.27% Overhead Seulement

Bien plus efficace que les Hyper-Connections traditionnelles

🏆

8 Benchmarks Superieurs

Performance amelioree sur tous les tests standard

Layer N-1 Layer N Layer N+1 Manifold Constraint Stable Gradient Flow through Manifold

Mixture of Experts

256 experts specialises, dont seulement 8 sont actives par token, pour une efficacite maximale.

L'architecture qui change les regles du jeu

DeepSeek-V3 utilise une architecture MoE (Mixture of Experts) revolutionnaire avec 671 milliards de parametres au total, mais seulement 37 milliards actives pour chaque token traite.

Le Router intelligent dirige dynamiquement chaque token vers les 8 experts les plus pertinents parmi 256, garantissant specialisation et efficacite.

256
Experts Routes
8
Actives / Token
1
Expert Partage
2%
Ratio Activation
Input Token Router E1 E2 Shared Expert E4 E5 E6 E7 E8 Active (8) Inactive (248) Shared (Always On)

Multi-Head Latent Attention

Compression intelligente du cache KV pour une inference rapide et economique en memoire.

Compression du KV Cache

MLA (Multi-Head Latent Attention) compresse les tenseurs Key et Value dans un espace latent de dimension reduite avant de les stocker dans le cache KV.

Lors de l'inference, ces tenseurs compresses sont projetes vers leur taille originale, permettant des economies de memoire massives tout en maintenant la performance.

5-13%
Taille du cache KV vs methodes traditionnelles
RoPE
Integration des embeddings de position rotatifs
~85%
Reduction de l'utilisation memoire GPU
Q Heads K Heads V Heads Latent Space (Low-Rank) KV Cache 5-13% size Attention(Q, K, V) Output d_model d_latent << d_model + RoPE Position Embed

Technologies Revolutionnaires

FP8, DualPipe et Multi-Token Prediction : les secrets de l'efficacite DeepSeek.

💪

FP8 Mixed Precision

Premier modele open-source a utiliser FP8 pour l'entrainement. Quantification fine avec groupes 1x128 pour les activations.

BF16 Optimizer + FP32 Master

DualPipe Algorithm

Pipeline bidirectionnel qui chevauche calcul et communication, atteignant un overhead proche de zero.

Near-Zero Communication
🔮

Multi-Token Prediction

Modules sequentiels predisant plusieurs tokens futurs, densifiant les signaux d'entrainement.

Speculative Decoding Ready

L'histoire DeepSeek

De V2 a mHC : une progression fulgurante en moins de 2 ans.

Mai 2024

DeepSeek-V2

Introduction de MLA et DeepSeekMoE. 236B parametres, 21B actifs.

MLA + MoE
Decembre 2024

DeepSeek-V3

671B parametres, 37B actifs. FP8 training, DualPipe, et load balancing sans perte auxiliaire.

FP8 + DualPipe
Janvier 2025

DeepSeek-R1

Modele de raisonnement avec RLVR et GRPO. Cout d'entrainement : seulement $5.6M.

Reasoning + RL
Decembre 2025

DeepSeek-V3.2

DeepSeek Sparse Attention (DSA). Performance comparable a GPT-5 sur IMO/IOI.

DSA + Gold IMO
Janvier 2026

mHC Architecture

Manifold-Constrained Hyper-Connections. Nouvelle ere pour l'entrainement stable a grande echelle.

Breakthrough!

Cout vs Performance

DeepSeek prouve qu'on peut atteindre l'etat de l'art avec une fraction du budget.

GPT-4 (estime)
$100M+
Cout d'entrainement estime
Llama 3 (405B)
$80M+
Cout d'entrainement estime