Séance 2 — self-attention, décodage, alignement et dimensions de modèle

Résumé exécutif et fil directeur

Résumé exécutif

La séance 2 répond à la question laissée ouverte par la séance précédente. Si les RNN et les LSTM ont montré comment traiter une séquence, qu’est-ce que le Transformer change réellement. La réponse tient en une idée forte. Au lieu de faire circuler l’information principalement à travers un état caché séquentiel, il calcule directement quelles parties du contexte sont pertinentes pour chaque token.

Le cœur du cours suit un ordre strict. D’abord le passage du goulot d’étranglement récurrent à la self-attention. Ensuite la distinction, trop souvent brouillée, entre attention, logits, softmax et décodage. Enfin l’articulation entre pré-entraînement, alignement et limites pratiques.

Objectifs pédagogiques et prérequis

À la fin de cette séance, vous devez pouvoir

Expliquer ce que change la self-attention par rapport aux RNN et aux LSTM.
Définir query, key et value, puis relier ces termes à une formule d’attention pondérée.
Distinguer attention, logits, softmax et politique de décodage.
Expliquer l’apprentissage auto-régressif du token suivant et la logique de fenêtre glissante.
Différencier pré-entraînement, instruction tuning, préférences humaines et RLHF.
Distinguer nombre total de paramètres, dimension cachée, dimension d’embedding, nombre de têtes, profondeur, dimension FFN et paramètres actifs en MoE.

Prérequis utiles, avoir suivi la séance précédente sur tokens, embeddings, transformations matricielles, RNN et LSTM.

Du goulot d’étranglement à l’attention

Pourquoi l’attention a changé la modélisation du langage

Dans une architecture récurrente classique, une partie importante du passé est compressée dans un état caché. Cette idée est puissante, mais elle crée un coût séquentiel fort et une difficulté structurelle quand l’information pertinente est lointaine. L’intuition historique de l’attention apparaît lorsque l’on cherche à éviter qu’un seul vecteur fixe porte à lui seul toute la charge de la phrase source.

Correction conceptuelle importante

Dire que le Transformer “remplace la mémoire” serait trompeur. Il remplace surtout une mémoire récurrente explicite par une mémoire distribuée dans les interactions d’attention entre tokens.

Schéma minimal du pipelineCliquez pour l'explication

Texte -> tokenisation -> IDs -> embeddings + information de position -> [bloc d'attention + FFN] répété plusieurs fois -> représentation finale -> logits sur le vocabulaire -> softmax -> probabilités -> sélection -> token suivant

Comment lire ce schéma

Les premiers étages fabriquent des représentations numériques à partir du texte.
Les blocs Transformer contextualisent ces représentations via l’attention puis les raffinent via un réseau feed-forward.
La projection finale vers le vocabulaire produit des logits. Le décodage intervient après, pas avant.

Architecture complète du Transformer — Architecture du Transformer issue d’une ressource librement réutilisable sur Wikimedia Commons. Elle rend visible la logique globale encodeur-décodeur, les blocs d’attention et les projections finales. Source originale Wikimedia Commons, dvgodoy, CC BY 4.0.

Analogie

On peut lire ce visuel comme une chaîne de production en plusieurs étages. En bas, le texte brut entre dans l’usine sous forme de tokens et de positions. Au milieu, plusieurs blocs répètent toujours le même geste : ils regardent quelles informations se répondent dans la séquence, puis les retravaillent localement avec un réseau feed-forward. En haut, le système projette enfin la représentation construite vers le vocabulaire pour obtenir des scores de sortie. La bonne vulgarisation consiste donc à voir cette architecture non comme une seule “boîte magique”, mais comme une succession de filtres qui enrichissent progressivement la représentation.

Ce schéma est dense. Il ne faut pas essayer de tout retenir d’un coup. Le minimum utile est de repérer quatre familles de pièces : les entrées, les couches d’attention, les blocs feed-forward et la projection de sortie. Si ces quatre étages sont clairs, le reste de la séance devient beaucoup plus lisible.

Self-attention, Q, K, V et information de position

Le mécanisme, étape par étape

Pour chaque token d’entrée, le modèle calcule trois vecteurs. Une query, une key et une value. La query du token i est comparée aux keys des autres tokens pour obtenir des scores de compatibilité. Ces scores sont normalisés par softmax pour produire une distribution d’attention. La sortie du token i est ensuite une somme pondérée des values.

Analogie

Bibliothèque. Q correspond à la question formulée par le lecteur. K correspond aux étiquettes des livres. V correspond au contenu réellement utile si le livre est retenu. On compare donc la question aux étiquettes, puis on mélange le contenu des livres jugés pertinents.

\[ q_i = x_i W^Q \qquad k_i = x_i W^K \qquad v_i = x_i W^V \]

Selon les conventions d’écriture, on peut aussi voir ces projections sous la forme \(W^Q x_i\), \(W^K x_i\), \(W^V x_i\). L’idée ne change pas. Ce sont des projections linéaires apprises.

\[ \mathrm{score}(i,j)= q_i \cdot k_j \]

Lecture mot à mot, on mesure la compatibilité entre ce que le token i cherche et ce que le token j annonce.

\[ \alpha(i,j)=\mathrm{softmax}_j\!\left(\frac{q_i \cdot k_j}{\sqrt{d_k}}\right) \qquad \mathrm{output}_i = \sum_j \alpha(i,j)\, v_j \]

Le facteur \(\sqrt{d_k}\) n’est pas décoratif. Il stabilise l’échelle des scores lorsque la dimension augmente, ce qui évite un softmax excessivement pointu.

Schéma de la scaled dot-product attention — Cette représentation réelle montre la chaîne Q, K, V, le calcul des scores, leur normalisation, puis la recombinaison pondérée des valeurs. C’est la figure de référence pour lire correctement la self-attention sans la confondre avec une simple recherche de mot-clé.

Analogie

Pour lire cette figure, imaginez une salle de réunion. Chaque personne arrive avec trois rôles simultanés. Une question qu’elle pose au groupe (query), une petite étiquette indiquant ce qu’elle peut apporter (key), et le contenu qu’elle transmet si on la juge pertinente (value). Le schéma montre donc une procédure en deux temps : d’abord on compare la question aux étiquettes des autres, ensuite on mélange le contenu des personnes retenues. Ce qu’il faut absolument voir ici, c’est que l’attention ne choisit pas encore le prochain mot ; elle reconstruit d’abord une représentation plus informative du contexte.

Softmax, lecture minimale mais correcte

\[ \mathrm{softmax}(z)_i = \frac{e^{z_i}}{\sum_j e^{z_j}} \]

Le softmax transforme des scores en parts relatives positives qui somment à 1. Dans ce cours, il faut surtout retenir qu’une même fonction sert à deux endroits distincts. D’abord à fabriquer les poids d’attention. Ensuite à transformer les logits en probabilités sur le vocabulaire.

Mini-exemplePour \(z=[0,1,2]\), on obtient approximativement \([0.09,0.24,0.67]\). Le troisième score domine, mais les deux autres ne disparaissent pas complètement.

La position n’a pas disparu

La self-attention relie bien des tokens distants, mais elle ne rend pas l’ordre gratuit. Sans information de position, le modèle perdrait une partie décisive de la structure séquentielle.

Autre précision utile. Le multi-head attention n’ajoute pas “plusieurs pensées” au sens psychologique. Il offre surtout plusieurs sous-espaces de projection permettant de capter différents motifs relationnels.

ATTENTION

Dire que “l’attention suffit pour l’ordre” est faux. Le Transformer doit recevoir une information de position, sinusoïdale ou apprise, sinon il sait quels tokens existent mais pas dans quel ordre ils apparaissent.

Masquage causal et auto-régression

Dans un modèle causal, un token ne doit pas regarder le futur lorsqu’il est entraîné à prédire le prochain token. C’est le rôle du causal mask.

Le masquage causal relie directement l’attention au cadre auto-régressif. Le modèle contextualise, mais sans fuite d’information depuis le futur.

Pour bien lire cette matrice, chaque ligne représente la position qui pose la question et chaque colonne représente la position qu’elle peut consulter. La diagonale et toute la zone située en dessous restent accessibles. Un token peut donc regarder son passé ainsi que sa propre position. La zone située au-dessus de la diagonale correspond au futur. Cette zone doit rester invisible pendant le calcul.

\[ M_{ij}=\begin{cases} 0 & \text{si } j \le i \\ -\infty & \text{si } j > i \end{cases} \qquad \alpha(i,j)=\mathrm{softmax}_j\!\left(\frac{q_i \cdot k_j + M_{ij}}{\sqrt{d_k}}\right) \]

Techniquement, le masque ne supprime pas les tokens futurs du texte d’entrée. Il agit sur les scores d’attention juste avant le softmax. Les cases interdites reçoivent une valeur extrêmement négative. Après la normalisation, leur poids devient pratiquement nul. Le modèle conserve donc tout le contexte déjà autorisé, mais il ne peut pas faire fuiter d’information depuis ce qui n’a pas encore été généré.

C’est ce mécanisme qui protège l’apprentissage auto-régressif. Quand le modèle apprend à prédire le token suivant à la position \(t_i\), il doit raisonner uniquement à partir des positions déjà disponibles. Sans ce verrou, il pourrait lire directement la réponse attendue et l’apprentissage du next token prediction perdrait sa validité.

Analogie

Imaginez un examen où chaque ligne du tableau représente un étudiant à un instant donné. L’étudiant placé sur la ligne \(t_2\) peut relire ce qu’il a déjà écrit à \(t_1\) et sa copie actuelle. En revanche, une feuille opaque lui cache encore les réponses des étapes \(t_3\) et \(t_4\). Le masque causal joue exactement ce rôle. Il ne détruit pas le futur. Il place simplement un cache devant lui au moment du calcul pour imposer une prédiction honnête, étape après étape.

Logits, probabilité du token suivant, fenêtre glissante et FFN

Attention n’est pas choix du prochain token

Voici le contresens le plus fréquent de cette séance. L’attention ne choisit pas directement le prochain mot. Elle construit une représentation contextualisée. Le choix de sortie arrive après une projection finale sur le vocabulaire, qui produit des logits.

Correction conceptuelle importante

Formulation correcte, attention fabrique un état contextualisé, puis le modèle projette cet état sur tout le vocabulaire, obtient des logits, applique un softmax et enfin une règle de décodage choisit un token.

\[ z_t = h_t W_o + b_o \qquad P(x_{t+1}=j \mid x_{\le t})=\mathrm{softmax}(z_t)_j \]

Lecture mot à mot, à partir de la représentation finale \(h_t\), le modèle calcule une note pour chaque token du vocabulaire, puis transforme ces notes en probabilités. Cette chaîne explique pourquoi un même état peut produire plusieurs sorties possibles si l’on échantillonne au lieu de prendre toujours le maximum.

Fenêtre glissante et next-token prediction

L’intuition de la fenêtre glissante reste utile, à condition d’être formulée proprement. On ne décale pas la fenêtre de \(n+1\) positions. On la décale d’un token à la fois pour fabriquer l’exemple suivant.

Intuition minimaleCliquez pour l'explication

fenêtre 1 -> [t1, t2, t3] pour prédire t4
fenêtre 2 -> [t2, t3, t4] pour prédire t5
fenêtre 3 -> [t3, t4, t5] pour prédire t6

Pourquoi cette intuition reste valide

Chaque exemple apprend au modèle à prédire un token manquant à partir d’un préfixe.
Dans les LLM modernes, plusieurs positions d’une séquence sont entraînées en parallèle dans une seule passe.
Le cadre reste néanmoins auto-régressif, car chaque prédiction est conditionnée par les tokens précédents seulement.

Le rôle du FFN

Le bloc feed-forward est souvent sous-expliqué en cours. Pourtant il est indispensable. L’attention mélange l’information entre positions. Le FFN transforme ensuite chaque représentation position par position, de manière non linéaire.

Schéma conceptuel

h -> Linear -> activation -> Linear -> h'

Une manière simple de le dire aux étudiants, l’attention décide “de qui j’apprends”, le FFN décide “comment je retravaille ce que j’ai reçu”.

Décodage, greedy, température, top-k et top-p

Ce que changent vraiment les réglages de génération

Le décodage ne modifie pas ce que le modèle a appris. Il modifie la façon de choisir un token à partir d’une distribution déjà produite. C’est exactement la raison pour laquelle un même modèle peut sembler très conservateur ou plus diversifié sans que ses poids changent.

Correction conceptuelle importante

Température, top-k et top-p sont des paramètres d’inférence. Ils ne ré-entraînent pas le modèle. Ils changent la politique d’échantillonnage au moment de la génération.

Méthode	Principe	Conséquence pédagogique
Greedy	Prendre le token le plus probable à chaque pas.	Très stable, mais souvent plus répétitif et moins exploratoire.
Température	Rendre la distribution plus pointue ou plus plate avant échantillonnage.	Basse température, sortie plus prudente. Haute température, diversité accrue mais risque plus élevé.
Top-k	Ne garder que les k meilleurs candidats.	Coupe la queue de distribution par un nombre fixe.
Top-p	Ne garder que le plus petit ensemble de tokens atteignant une masse cumulée p.	Adapte dynamiquement le nombre de candidats à la forme de la distribution.

Top-k et top-p ne font pas la même chose

Top-k fixe à l’avance le nombre de candidats retenus. Top-p fixe une masse de probabilité et laisse varier le nombre de candidats. C’est un point important pour éviter de présenter top-p comme un simple “top-k souple”.

ExempleSi la distribution est très concentrée, top-p peut ne garder que deux ou trois tokens. Si elle est plus diffuse, il peut en garder bien plus. Top-k, lui, garde toujours exactement k candidats.

Pourquoi la température agit différemment

La température ne coupe pas la distribution. Elle modifie sa forme. Une température basse accentue les écarts entre candidats. Une température haute les aplanit. On peut donc dire qu’elle agit en amont du tirage, alors que top-k et top-p agissent comme des filtres de candidats.

Figure multi-headed attention de Attention Is All You Need — Cette figure réelle sur la multi-head attention ne décrit pas le top-k ou le top-p eux-mêmes. Elle montre le niveau immédiatement en amont : plusieurs têtes calculent en parallèle plusieurs vues relationnelles de la séquence, puis ces vues sont concaténées avant la projection suivante.

Analogie

Cette image se lit comme un comité de lecture composé de plusieurs spécialistes. Une tête peut surtout capter des accords locaux, une autre des dépendances plus longues, une autre encore des indices de structure. Chaque tête produit donc sa propre petite lecture de la phrase. Ensuite, on rassemble ces lectures partielles pour fabriquer une représentation plus riche. La leçon vulgarisée est la suivante : avant même de décider comment échantillonner un token avec top-k ou top-p, le modèle a déjà construit plusieurs “angles de vue” sur le contexte.

Il faut aussi voir la limite de ce visuel dans cette section : il explique mieux d’où vient la représentation utilisée pour générer que la règle précise de décodage. Je le garde donc comme ancrage architectural, pas comme preuve graphique du top-p.

Bloc Python pédagogique

Le code ci-dessous est volontairement jouet. Il ne dépend d’aucun grand modèle et permet de faire comprendre la mécanique réelle logits → softmax → filtre éventuel → sampling.

Sampling sur une distribution jouetCliquez pour l'explication

import math
import random def softmax(logits): m = max(logits) exps = [math.exp(x - m) for x in logits] s = sum(exps) return [e / s for e in exps] def apply_temperature(logits, T): return [x / T for x in logits] def top_k_filter(tokens, probs, k): pairs = sorted(zip(tokens, probs), key=lambda x: x[1], reverse=True) kept = pairs[:k] total = sum(p for _, p in kept) return [(t, p / total) for t, p in kept] def top_p_filter(tokens, probs, p): pairs = sorted(zip(tokens, probs), key=lambda x: x[1], reverse=True) kept, cum = [], 0.0 for t, pr in pairs: kept.append((t, pr)) cum += pr if cum >= p: break total = sum(pr for _, pr in kept) return [(t, pr / total) for t, pr in kept] tokens = ["A", "B", "C", "D"]
logits = [2.0, 1.0, 0.1, -0.4]
probs = softmax(logits)

Ce qu’il faut observer

Le softmax convertit les logits en distribution.
La température agit avant le tirage, en déformant les écarts entre candidats.
Top-k coupe par cardinal fixe alors que top-p coupe par masse cumulée.
Le code n’illustre pas la “connaissance” du modèle, mais seulement le choix de sortie à partir d’une distribution.

Pré-entraînement, alignement et vérité

Deux étapes qu’il faut cesser de confondre

Le pré-entraînement apprend au modèle une compétence générale de prédiction du token suivant à grande échelle. L’alignement, lui, vise à rendre les sorties plus utiles, plus sûres ou plus conformes à des préférences humaines et à un format d’usage.

Étape	But principal	Ce que cela n’implique pas
Pré-entraînement	Apprendre des régularités statistiques sur de vastes corpus et améliorer la modélisation du langage.	Ne garantit ni obéissance fine aux consignes ni sécurité d’usage.
Instruction tuning / préférences / RLHF	Rendre les réponses plus utiles, mieux formatées et plus adaptées à l’intention utilisateur.	Ne transforme pas automatiquement le modèle en système vrai, complet ou infaillible.

Vue d’ensemble du RLHF — Ce visuel réel aide à distinguer trois moments souvent confondus par les apprenants, pré-entraînement, supervision/instruction et étape d’alignement avec feedback humain.

Analogie

On peut lire ce schéma comme une école en trois temps. D’abord, un étudiant lit énormément de textes et apprend les régularités générales de la langue : c’est le pré-entraînement. Ensuite, on lui donne des exercices plus cadrés, avec des consignes et des réponses attendues : c’est la phase supervisée ou instruction tuning. Enfin, des évaluateurs humains comparent plusieurs réponses, indiquent celles qu’ils préfèrent, et ce retour sert à ajuster plus finement le comportement du système : c’est l’alignement de type RLHF.

La vulgarisation importante est que ce troisième étage ne remplace pas les deux premiers. Il agit plutôt comme un réglage de comportement sur un modèle déjà compétent. Le schéma ne dit donc pas “on injecte la vérité”. Il dit plutôt “on modifie la manière dont le modèle transforme sa compétence générale en réponse utile et acceptable”.

Pourquoi alignement n’est pas vérité

Un modèle aligné peut mieux suivre une consigne, mieux refuser, mieux structurer une réponse ou mieux refléter certaines préférences. Mais cela ne suffit pas à garantir l’exactitude factuelle. Un système peut être poli, utile en apparence et pourtant se tromper.

Correction conceptuelle importante

L’alignement réduit certains comportements indésirables et améliore l’utilité perçue. Il ne remplace ni la vérification, ni l’évaluation, ni l’ancrage factuel.

Pourquoi un modèle peut aider sans “comprendre” comme un humain

Le modèle exploite des motifs statistiques extraordinairement riches. Cela suffit à produire des réponses utiles dans de très nombreux cas. Mais cette performance ne doit pas être confondue avec une compréhension humaine pleine, située, stable et garantie.

Analogie

On peut voir le modèle comme un système de compression et de recombinaison de régularités extrêmement performant. Il peut être très bon pour réorganiser des formes plausibles sans disposer pour autant d’un ancrage complet dans le monde.

Paramètres, dimensions, têtes, profondeur et MoE

Notions à distinguer sans les fusionner

Notion	Définition correcte	Erreur typique
Nombre total de paramètres	Total des poids et biais appris dans le modèle.	Le confondre avec la seule taille des embeddings.
Dimension d’embedding	Taille du vecteur représentant un token à l’entrée.	La traiter comme synonyme du nombre de paramètres.
d_model	Largeur interne principale des représentations dans le Transformer.	Le réduire à un simple choix cosmétique de taille.
Nombre de têtes	Nombre de sous-espaces de projection en attention multi-têtes.	Dire que “plus de têtes” signifie mécaniquement “plus d’intelligence”.
Profondeur	Nombre de blocs empilés.	Oublier qu’elle change capacité, coût et stabilité.
Dimension FFN	Largeur de l’expansion interne du bloc feed-forward.	L’ignorer alors qu’elle porte une part importante de la capacité du modèle.

Correction conceptuelle importante

Ces notions sont liées, mais elles ne sont pas synonymes. Dire qu’un modèle est “grand” sans préciser de quelle grandeur on parle produit vite des contresens pédagogiques.

Mixture of Experts, paramètres totaux et paramètres actifs

Dans un modèle MoE, le nombre total de paramètres peut être très élevé, tout en gardant un coût par token plus limité, car seuls quelques experts sont activés pour ce token donné.

Présenté pédagogiquement, le MoE peut donc être lu comme une piste de réponse au dilemme classique de l’échelle : comment augmenter la capacité et la spécialisation d’un modèle sans faire croître de façon équivalente le coût de calcul à chaque pas. Dans cet esprit, on peut dire que les architectures à experts offrent peut-être une réponse partielle à une forme pratique de “malédiction de la dimension” : au lieu de mobiliser toute la largeur du système pour chaque token, elles essaient d’activer localement la bonne sous-partie du modèle.

Correction conceptuelle importante

Il faut néanmoins rester rigoureux. Un MoE n’abolit pas magiquement la malédiction de la dimension au sens mathématique général. Il déplace plutôt le compromis capacité/coût grâce au routage sparse et à la spécialisation des experts.

Diagramme MoE et MLA de DeepSeek V2 — Cette figure est plus dense que le schéma pédagogique simplifié, mais elle a l’avantage de montrer une implémentation réelle d’une architecture à experts et l’idée de routage sélectif.

Analogie

Imaginez une grande université avec beaucoup de spécialistes, mais où chaque étudiant ne consulte qu’un petit nombre d’enseignants selon son problème. Le routeur joue le rôle d’un service d’orientation : il n’envoie pas chaque question à tout le campus, seulement aux experts jugés pertinents. C’est pour cela qu’un MoE peut grossir en capacité sans payer le prix complet d’une activation dense à chaque token.

La lecture vulgarisée de la figure est donc la suivante : la partie importante n’est pas seulement le nombre d’experts, mais la règle qui choisit lesquels travaillent effectivement. C’est cette sélection conditionnelle qui fait du MoE une piste crédible pour contourner, au moins en partie, le dilemme entre richesse du modèle et coût de calcul.

Tableau comparatif obligatoire, RNN/LSTM et Transformer

Critère	RNN / LSTM	Transformer
Traitement	Séquentiel, dépendant du pas précédent.	Plus parallélisable à l’entraînement.
Dépendances longues	Plus difficiles à stabiliser malgré les LSTM.	Accès direct aux autres positions via l’attention.
Mécanisme central	État caché et, pour LSTM, cellule mémoire et portes.	Attention multi-têtes + FFN + résidus + normalisation.
Coût selon la longueur	Progression séquentielle coûteuse en parallélisation.	Attention standard quadratique en longueur, mais calcul matriciel parallèle.
Intuition de la mémoire	Mémoire explicite portée par l’état et la cellule.	Mémoire distribuée dans les interactions attentionnelles.

Erreurs fréquentes, synthèse et bibliographie

Erreurs fréquentes à éviter

Dire que la self-attention supprime le besoin d’information de position.
Dire que l’attention choisit directement le prochain token.
Présenter top-k, top-p ou température comme des mécanismes d’apprentissage plutôt que d’inférence.
Présenter l’alignement comme une garantie de vérité.
Réduire la taille d’un modèle à un seul chiffre sans distinguer paramètres, largeur interne, profondeur ou architecture sparse.

Bibliographie commentée de la séance

Speech and Language Processing, Jurafsky, D. & Martin, J. H. 3e édition draft, version signalée au 6 janvier 2026. Manuel de référence pour installer un récit propre du NLP jusqu’aux LLM.

Neural Machine Translation by Jointly Learning to Align and Translate, Bahdanau, Cho & Bengio, 2014. Source fondatrice pour l’idée d’alignement souple et la critique du vecteur fixe comme goulot d’étranglement.

Attention Is All You Need, Vaswani et al., 2017. Référence de base pour le Transformer, le scaled dot-product attention et l’encodage positionnel.

The Curious Case of Neural Text Degeneration, Holtzman et al., 2019. Référence utile pour motiver nucleus sampling et distinguer différentes politiques de décodage en génération ouverte.

Learning to Summarize from Human Feedback, Stiennon et al., 2020. Point d’appui important pour expliquer la logique préférentielle et la dimension RLHF dans l’alignement.

Training Language Models to Follow Instructions with Human Feedback, Ouyang et al., 2022. Référence clef pour distinguer modèle pré-entraîné et modèle mieux aligné sur l’intention utilisateur.

Switch Transformers, Fedus, Zoph & Shazeer, 2021. Référence pertinente pour clarifier la différence entre paramètres totaux et paramètres actifs dans une architecture MoE.

OpenAI API Reference, Documentation officielle des paramètres de sampling. Utile pour cadrer opérationnellement température et top_p.