Bienvenue à exoco-lmd.com! Partagez et consultez des solutions d'examens et d'exercices des programmes LMD et formation d'ingénieur.

Shoutbox

Recent

Membres
Stats
  • Total des messages: 7149
  • Total des sujets: 6951
  • Online today: 309
  • Online ever: 7875
  • (Avril 10, 2026, 09:34:17 AM)
Membres en ligne
Users: 0
Guests: 200
Total: 200

Architecture Transformer (fondamentale)

Démarré par redKas, Février 09, 2026, 10:30:41 PM

« précédent - suivant »

redKas

Architecture Transformer (fondamentale)
1️⃣ Pourquoi le Transformer ?

Avant le Transformer, on utilisait surtout :

RNN / LSTM / GRU

traitement séquentiel

lent

mauvaise gestion des longues dépendances

 Le Transformer (Vaswani et al., 2017) résout ça avec :

attention

parallélisme

contexte global

2️⃣ Vue globale de l'architecture

Un Transformer est composé de blocs empilés :

Deux parties possibles :

Encoder (BERT)

Decoder (GPT)

Encoder–Decoder (traduction)

 Les LLM de type GPT utilisent surtout le Decoder.

3️⃣ Entrée du Transformer
3.1 Tokenisation

Le texte est découpé en tokens :

"Les LLM sont puissants"
→ [Les, LLM, sont, puiss, ants]

3.2 Embedding

Chaque token est transformé en vecteur dense :

Exemple : dmodel=512,768,1024

3.3 Encodage positionnel

Le Transformer n'a aucune notion d'ordre → on ajoute la position.

4️⃣ Bloc Transformer (le cœur)
Chaque bloc contient 2 sous-couches principales :

1️⃣ Multi-Head Self-Attention
2️⃣ Feed Forward Network

Avec :

résidus

normalisation

5️⃣ Self-Attention (élément clé)
5.1 Intuition

Chaque mot regarde tous les autres mots pour savoir :

"Sur quels mots dois-je me concentrer pour comprendre mon sens ?"

5.2 Matrices Q, K, V

À partir de l'entrée X :

Q=XWQ
K=XWK
V=XWV
   �
Query (Q) : ce que je cherche
Key (K) : ce que je propose
Value (V) : information transmise

5.3 Attention pondérée

5.4 Masque (cas GPT)

En génération :

un mot ne voit pas le futur

on applique un masque triangulaire

6️⃣ Multi-Head Attention

Au lieu d'une seule attention :

on en utilise h têtes

haque tête apprend :
syntaxe
sémantique
dépendances longues

7️⃣ Add & Norm

Après chaque sous-couche :
Xout�=LayerNorm(X+SubLayer(X))

Avantages :
   stabilité
   convergence plus rapide

8️⃣ Feed Forward Network (FFN)

Appliqué indépendamment à chaque token :
FFN(x)=max(0,xW1+b1)W2+b2
   �
 Rôle :
   transformation non linéaire
   enrichissement des représentations
9️⃣ Empilement des blocs

Un Transformer contient :

6 blocs (Transformer original)

12–96 blocs (LLM modernes)

Chaque couche :

comprend mieux le contexte

abstrait davantage

🔟 Sortie du modèle (LLM)
10.1 Projection
y=softmax(Woht)

Donne une distribution de probabilité sur le vocabulaire.

10.2 Prédiction

Le token avec la plus forte probabilité est choisi (ou sampling).

Pourquoi le Transformer est si puissant ?

✔ Parallélisme
✔ Contexte global
✔ Scalabilité
✔ Apprentissage de structures complexes

C'est pour ça que tous les LLM reposent dessus.

redKas

Hors ligne Annonceur

  • Jr. Member
  • **
  • Messages: na
  • Karma: +0/-0
Re : message iportant de l'auteur
« le: un jour de l'année »





Suggestions pour vous