Architecture Transformer (fondamentale)

redKas · Février 09, 2026, 10:30:41 PM

Architecture Transformer (fondamentale)
1️⃣ Pourquoi le Transformer ?

Avant le Transformer, on utilisait surtout :

RNN / LSTM / GRU

traitement séquentiel

lent

mauvaise gestion des longues dépendances

Le Transformer (Vaswani et al., 2017) résout ça avec :

attention

parallélisme

contexte global

2️⃣ Vue globale de l'architecture

Un Transformer est composé de blocs empilés :

Deux parties possibles :

Encoder (BERT)

Decoder (GPT)

Encoder–Decoder (traduction)

Les LLM de type GPT utilisent surtout le Decoder.

3️⃣ Entrée du Transformer
3.1 Tokenisation

Le texte est découpé en tokens :

"Les LLM sont puissants"
→ [Les, LLM, sont, puiss, ants]

3.2 Embedding

Chaque token est transformé en vecteur dense :

Exemple : dmodel=512,768,1024

3.3 Encodage positionnel

Le Transformer n'a aucune notion d'ordre → on ajoute la position.

4️⃣ Bloc Transformer (le cœur)
Chaque bloc contient 2 sous-couches principales :

1️⃣ Multi-Head Self-Attention
2️⃣ Feed Forward Network

Avec :

résidus

normalisation

5️⃣ Self-Attention (élément clé)
5.1 Intuition

Chaque mot regarde tous les autres mots pour savoir :

"Sur quels mots dois-je me concentrer pour comprendre mon sens ?"

5.2 Matrices Q, K, V

À partir de l'entrée X :

Q=XW_Q
K=XW_K
V=XW_V
�
Query (Q) : ce que je cherche
Key (K) : ce que je propose
Value (V) : information transmise

5.3 Attention pondérée

5.4 Masque (cas GPT)

En génération :

un mot ne voit pas le futur

on applique un masque triangulaire

6️⃣ Multi-Head Attention

Au lieu d'une seule attention :

on en utilise h têtes

haque tête apprend :
syntaxe
sémantique
dépendances longues

7️⃣ Add & Norm

Après chaque sous-couche :
X_out�=LayerNorm(X+SubLayer(X))

Avantages :
stabilité
convergence plus rapide

8️⃣ Feed Forward Network (FFN)

Appliqué indépendamment à chaque token :
FFN(x)=max(0,xW1+b1)W2+b2
�
Rôle :
transformation non linéaire
enrichissement des représentations
9️⃣ Empilement des blocs

Un Transformer contient :

6 blocs (Transformer original)

12–96 blocs (LLM modernes)

Chaque couche :

comprend mieux le contexte

abstrait davantage

🔟 Sortie du modèle (LLM)
10.1 Projection
y=softmax(W_oh_t)

Donne une distribution de probabilité sur le vocabulaire.

10.2 Prédiction

Le token avec la plus forte probabilité est choisi (ou sampling).

Pourquoi le Transformer est si puissant ?

✔ Parallélisme
✔ Contexte global
✔ Scalabilité
✔ Apprentissage de structures complexes

C'est pour ça que tous les LLM reposent dessus.

redKas · Février 09, 2026, 10:30:41 PM

Annonceur

Jr. Member
Messages: na
Karma: +0/-0

Re : message iportant de l'auteur

« le: un jour de l'année »

IP archivée

Search

Shoutbox

Recent

Stats

Membres

Stats

Membres en ligne