ExoCo-LMD
Extra => Intelligence Artificielle (AI Artificial Intelligence) => Discussion démarrée par: redKas le Février 09, 2026, 10:30:41 PM
Architecture Transformer (fondamentale)
1️⃣ Pourquoi le Transformer ?
Avant le Transformer, on utilisait surtout :
RNN / LSTM / GRU
traitement séquentiel
lent
mauvaise gestion des longues dépendances
Le Transformer (Vaswani et al., 2017) résout ça avec :
attention
parallélisme
contexte global
2️⃣ Vue globale de l'architecture
Un Transformer est composé de blocs empilés :
Deux parties possibles :
Encoder (BERT)
Decoder (GPT)
Encoder–Decoder (traduction)
Les LLM de type GPT utilisent surtout le Decoder.
3️⃣ Entrée du Transformer
3.1 Tokenisation
Le texte est découpé en tokens :
"Les LLM sont puissants"
→ [Les, LLM, sont, puiss, ants]
3.2 Embedding
Chaque token est transformé en vecteur dense :
Exemple : dmodel=512,768,1024
3.3 Encodage positionnel
Le Transformer n'a aucune notion d'ordre → on ajoute la position.
4️⃣ Bloc Transformer (le cœur)
Chaque bloc contient 2 sous-couches principales :
1️⃣ Multi-Head Self-Attention
2️⃣ Feed Forward Network
Avec :
résidus
normalisation
5️⃣ Self-Attention (élément clé)
5.1 Intuition
Chaque mot regarde tous les autres mots pour savoir :
"Sur quels mots dois-je me concentrer pour comprendre mon sens ?"
5.2 Matrices Q, K, V
À partir de l'entrée X :
Q=XWQ
K=XWK
V=XWV
�
Query (Q) : ce que je cherche
Key (K) : ce que je propose
Value (V) : information transmise
5.3 Attention pondérée
5.4 Masque (cas GPT)
En génération :
un mot ne voit pas le futur
on applique un masque triangulaire
6️⃣ Multi-Head Attention
Au lieu d'une seule attention :
on en utilise h têtes
haque tête apprend :
syntaxe
sémantique
dépendances longues
7️⃣ Add & Norm
Après chaque sous-couche :
Xout�=LayerNorm(X+SubLayer(X))
Avantages :
stabilité
convergence plus rapide
8️⃣ Feed Forward Network (FFN)
Appliqué indépendamment à chaque token :
FFN(x)=max(0,xW1+b1)W2+b2
�
Rôle :
transformation non linéaire
enrichissement des représentations
9️⃣ Empilement des blocs
Un Transformer contient :
6 blocs (Transformer original)
12–96 blocs (LLM modernes)
Chaque couche :
comprend mieux le contexte
abstrait davantage
🔟 Sortie du modèle (LLM)
10.1 Projection
y=softmax(Woht)
Donne une distribution de probabilité sur le vocabulaire.
10.2 Prédiction
Le token avec la plus forte probabilité est choisi (ou sampling).
Pourquoi le Transformer est si puissant ?
✔ Parallélisme
✔ Contexte global
✔ Scalabilité
✔ Apprentissage de structures complexes
C'est pour ça que tous les LLM reposent dessus.