ExoCo-LMD
Extra => Intelligence Artificielle (AI Artificial Intelligence) => Discussion démarrée par: redKas le Février 09, 2026, 09:53:27 PM
Cours complet sur les LLM (Large Language Models)
1. Introduction
Les LLM (Large Language Models) sont des modèles d'intelligence artificielle capables de comprendre, générer et raisonner sur le langage naturel. Ils sont au cœur d'applications modernes comme les chatbots, l'assistance à la programmation, la recherche d'information et l'analyse de documents.
Exemples connus : GPT, LLaMA, Gemini, Claude.
2. Bases du traitement automatique du langage (NLP)
Avant les LLM, le NLP reposait sur :
Modèles statistiques (n-grams)
Représentations de mots (Bag-of-Words, TF-IDF)
Word embeddings (Word2Vec, GloVe, FastText)
Limites :
Peu de compréhension du contexte
Difficulté avec les phrases longues
3. Réseaux de neurones pour le langage
3.1 RNN et LSTM
Traitent les séquences mot par mot
Problèmes : gradients qui disparaissent, lenteur
3.2 Attention
Le mécanisme d'attention permet au modèle de se concentrer sur les mots importants d'une phrase.
4. Architecture Transformer (fondamentale)
Les LLM sont basés sur l'architecture Transformer (Vaswani et al., 2017).
4.1 Composants clés
Embedding des mots
Encodage positionnel
Self-Attention
Multi-Head Attention
Feed Forward Networks
Normalisation et connexions résiduelles
4.2 Avantages
Traitement parallèle
Meilleure gestion du contexte long
5. Qu'est-ce qu'un LLM ?
Un LLM est un Transformer entraîné sur des milliards de mots avec des millions voire milliards de paramètres.
Objectif principal :
Prédire le prochain token (mot ou sous-mot)
6. Entraînement des LLM
6.1 Pré-entraînement
Auto-supervisé
Corpus massif (web, livres, articles)
Fonction de perte : Cross-Entropy
6.2 Fine-tuning
Spécialisation sur une tâche
Données annotées
6.3 RLHF (Reinforcement Learning from Human Feedback)
Alignement avec les préférences humaines
Utilisé dans ChatGPT
7. Tokenisation
Les LLM ne traitent pas des mots mais des tokens.
Méthodes :
BPE (Byte Pair Encoding)
WordPiece
SentencePiece
Avantage :
Gère les mots inconnus
Réduit la taille du vocabulaire
8. Capacités émergentes des LLM
Compréhension du contexte long
Raisonnement (partiel)
Traduction
Résumé
Génération de code
⚠️ Ces capacités ne sont pas explicitement programmées.
9. Limites des LLM
Hallucinations
Pas de vraie compréhension
Coût computationnel élevé
Données biaisées
10. LLM open-source vs propriétaires
Open-source
LLaMA
Mistral
Falcon
Propriétaires
GPT
Gemini
Claude
11. Cas d'utilisation
Chatbots éducatifs
Aide à la programmation
Analyse de documents
Recherche académique
12. Bonnes pratiques (Prompt Engineering)
Donner un rôle clair
Ajouter du contexte
Spécifier le format de sortie
Exemple : few-shot prompting
13. Futur des LLM
Multimodalité (texte, image, audio)
Agents autonomes
Raisonnement amélioré
Modèles plus petits et efficaces
14. Conclusion
Les LLM représentent une révolution majeure en IA, avec un impact fort en éducation, industrie et recherche. Leur compréhension est essentielle pour les ingénieurs et chercheurs modernes.