Quel est l’objectif principal d’un modèle de langage ?
Réponse : Estimer la probabilité d’une séquence de tokens.
Donnez une raison pour laquelle une tokenization au niveau caractère peut être désavantageuse.
Réponse : Les séquences deviennent longues et apportent peu d’informations sémantiques utiles au niveau des lettres.
Dans la décomposition causale d’un modèle de langage, que représente principalement P(w_k | w_1…w_{k-1}) ?
Réponse : La probabilité du mot w_k sachant les mots précédents.
Citez une application typique d’un modèle de langage.
Réponse : Par exemple : reconnaissance vocale, correction d’orthographe/grammaire, traduction, ou chatbot.
Quand privilégiez-vous une décomposition « avec un masque » plutôt qu’une décomposition causale ?
Réponse : Quand vous avez besoin d’une représentation contextuelle utilisant le contexte avant et après le mot.
Pourquoi les N-grams nécessitent-ils des approximations quand k augmente ?
Réponse : Plus k est élevé, moins on observe de contextes, donc les probabilités deviennent difficiles à estimer et à stocker de manière fiable.
Dans Word2Vec, quelle approche consiste à prédire le mot cible à partir de son contexte ?
Réponse : Continuous Bag Of Words (CBoW).
Donnez deux caractéristiques de Word2Vec.
Réponse : Représentation vectorielle de mots hors contexte, et modèle léger (utilisable sans GPU).
Quelle est la forme de la matrice d’embeddings si V est la taille du vocabulaire et E la dimension d’embedding ?
Réponse : V × E.
Quel problème principal Byte-Pair Encoding (BPE) cherche-t-il à résoudre concernant la tokenization ?
Réponse : Trouver un compromis entre caractères et mots pour éviter un vocabulaire trop grand tout en restant capable de représenter des mots rares et des variantes.
Dans l’algorithme BPE, que faites-vous à chaque itération tant que le nombre de tokens est inférieur à V ?
Réponse : Trouver la paire de tokens la plus fréquente et la fusionner.
Donnez deux exemples de tokens spéciaux et leur rôle.
Réponse : Token de début de texte (marque le début) et token de fin de texte (marque la fin).
Parmi les propositions suivantes, laquelle n’est pas présentée comme un problème des réseaux récurrents (RNN) ?
Réponse : « Impossible d’utiliser des embeddings ».
Pourquoi a-t-on besoin de positional encoding dans un Transformer ?
Réponse : Parce que l’attention, telle que présentée, ne tient pas compte de l’ordre des mots ; il faut donc encoder la position.
Quelle proposition décrit correctement RoPE (Rotary Position Embedding) ?
Réponse : Faire tourner l’embedding en fonction de la position dans la phrase.
Citez deux composants présents dans un bloc Transformer.
Réponse : Self-attention et connexions résiduelles.
Quelle variante est indiquée comme plus stable à l’entraînement et utilisée en pratique ?
Réponse : Pre-Norm Transformers.
Donnez un avantage et un inconvénient de la génération greedy.
Réponse : Avantage : rapidité. Inconvénient : non optimal et génère toujours la même chose.
Quel est l’effet d’augmenter la température T dans le sampling ?
Réponse : Rendre la génération plus créative, voire plus aléatoire.
Citez deux limitations des modèles de langage mentionnées.
Réponse : Contexte limité (et coûteux à augmenter) et impossibilité d’injecter de nouvelles connaissances de manière pérenne.
Donnez une définition courte du pré-entraînement d’un grand modèle de langage.
Réponse : Le pré-entraînement consiste à entraîner un modèle de langage sur un très grand corpus de texte en auto-supervision, en lui faisant prédire des mots (ou tokens) masqués ou le token suivant.
Lors d’un pré-entraînement auto-supervisé d’un LLM, quelle tâche correspond le mieux à l’objectif d’apprentissage ? A. Classer des documents dans des catégories fixes B. Prédire des mots masqués ou le token suivant dans une séquence C. Répondre à des consignes humaines via un classement de préférences D. Générer uniquement des labels numériques continus
Réponse : B
Quelle architecture est utilisée par la quasi-totalité des LLMs modernes mentionnés ? A. Réseau récurrent (RNN) bidirectionnel B. Transformer encodeur uniquement C. Transformer décodeur auto-régressif D. Réseau convolutionnel profond (CNN)
Réponse : C
Citez deux défis typiques du pré-entraînement de LLMs.
Réponse : Par exemple : collecter des données diverses ; filtrer le contenu bruité ; gérer la taille du vocabulaire ; gérer la longueur de contexte ; optimiser les coûts de calcul.
Dans les éléments cités, que recouvre explicitement la notion de scaling pour les LLMs ? A. Taille du modèle, temps d’inférence, données d’entraînement (de haute qualité) B. Uniquement la taille du modèle en paramètres C. Uniquement la quantité de mémoire GPU disponible D. Uniquement le nombre de langues supportées
Réponse : A
Pourquoi la diversité linguistique et thématique d’un corpus est-elle importante, au-delà de la taille ?
Réponse : Parce qu’un corpus diversifié est crucial pour la robustesse du modèle (meilleures capacités sur des domaines et langues variés).
Quel risque non-technique est explicitement mentionné à propos des données d’entraînement ? A. Le risque de sur-apprentissage uniquement B. Le risque de fuite mémoire GPU C. Le risque légal lié à l’utilisation des données pour l’entraînement D. Le risque de ne pas pouvoir tokeniser l’anglais
Réponse : C
Expliquez en une phrase l’objectif de la déduplication dans le pré-traitement des données.
Réponse : Éviter que le modèle voie et apprenne plusieurs fois les mêmes données (parfois via différentes sources), ce qui peut biaiser l’évaluation et provoquer de l’overfitting.
Quel effet négatif est associé au fait de voir plusieurs fois les mêmes données d’entraînement, selon le cours ? A. Cela empêche la tokenisation B. Cela distord l’évaluation et peut causer de l’overfitting C. Cela empêche l’utilisation de la softmax D. Cela rend impossible l’attention quadratique
Réponse : B
Quel changement de stratégie est attribué aux résultats du papier “Chinchilla” (pour un budget de calcul fixé) ?
Réponse : Il vaut mieux entraîner des modèles plus petits sur davantage de données (plus de tokens), plutôt que des modèles énormes avec trop peu de données.
Selon une règle pratique citée, quel ratio tokens/paramètre est suggéré pour un entraînement proche de l’optimal ? A. ~1 à 2 tokens par paramètre B. ~5 à 10 tokens par paramètre C. ~20 à 30 tokens par paramètre D. ~200 à 300 tokens par paramètre
Réponse : C
Quel est l’effet principal du mixed precision (FP16/BF16) cité pendant le pré-entraînement ? A. Doubler l’usage mémoire et ralentir les calculs B. Diviser l’usage mémoire par deux et accélérer les opérations C. Supprimer le besoin de filtrage des données D. Augmenter automatiquement la longueur de contexte
Réponse : B
Quel est l’avantage clé attribué à FlashAttention ? A. Il remplace la tokenisation par un dictionnaire fixe B. Il réduit les lectures/écritures en mémoire GPU lente (HBM), accélérant le calcul d’attention C. Il empêche la contamination des jeux de test D. Il transforme un modèle génératif en modèle discriminatif
Réponse : B
Donnez une définition courte du curriculum learning dans le contexte de l’entraînement de modèles.
Réponse : C’est une technique qui entraîne le modèle sur une séquence d’exemples (ou tâches) de difficulté croissante, en commençant par du plus simple puis en augmentant progressivement la complexité.
Quel exemple de non-uniform sampling est cité pour améliorer certaines compétences en fin de pré-entraînement ? A. Sous-échantillonner les données de code au début B. Sur-échantillonner des données de haute qualité (code, math) à la fin du pré-entraînement C. Remplacer toutes les données par de la traduction automatique D. Utiliser uniquement Wikipédia après le warm-up
Réponse : B
Décrivez brièvement la stratégie de learning rate typique citée pour le pré-entraînement.
Réponse : Un learning rate élevé au début (après warm-up), puis une diminution progressive, souvent via une décroissance de type cosine decay (ou cosine annealing en fin d’entraînement).
Comment interpréter la perplexité d’un modèle de langage, d’après le cours ? A. Comme une mesure de “surprise” face à une séquence : plus c’est faible, mieux le modèle prédit B. Comme une mesure directe d’alignement aux instructions humaines C. Comme une mesure de robustesse aux attaques adversariales uniquement D. Comme une probabilité d’être toxique
Réponse : A
Donnez deux limites de la perplexité comme métrique d’évaluation.
Réponse : Par exemple : une faible perplexité ne garantit pas de bonnes performances sur des tâches spécifiques ; une faible perplexité ne garantit pas l’alignement ; sur-optimiser la perplexité peut sacrifier d’autres aspects comme la diversité.
Parmi les propositions suivantes, laquelle décrit correctement le principe d’une classification head ajoutée à un LLM ? A. Remplacer l’attention par une couche convolutionnelle et produire un texte B. Extraire un état caché (ex. dernier token), supprimer la projection vocabulaire, ajouter une couche linéaire vers K classes puis appliquer softmax/sigmoid C. Générer une réponse libre puis compter les synonymes pour déduire une classe D. Utiliser uniquement la perplexité pour prédire une classe
Réponse : B
Quelle expression correspond à la fonction de perte totale donnée pour la distillation de connaissances ? A. Ltotal = α·LMSE + (1−α)·LBLEU B. Ltotal = α·LCE(y, ŷstudent) + (1−α)·LKL(Pteacher, Pstudent) C. Ltotal = LKL(Pstudent, Pteacher) − LCE(y, ŷteacher) D. Ltotal = LCE(y, ŷteacher) uniquement
Réponse : B
Quel est l’objectif principal du post-training pour un grand modèle de langage (LLM) ?
A) Réduire le nombre de paramètres du modèle
B) Aligner le modèle sur des instructions et préférences humaines
C) Transformer le modèle en système de recherche d’information uniquement
D) Remplacer complètement la phase de pré-entraînement
Réponse : B) Aligner le modèle sur des instructions et préférences humaines.
En Supervised Fine-Tuning (SFT) pour l’instruction following, quel type d’exemples est typiquement utilisé ?
A) Des paires <prompt, réponse idéale>
B) Uniquement du texte brut non annoté (livres, sites web)
C) Des paires <réponse, réponse> sans contexte
D) Des séries temporelles numériques uniquement
Réponse : A) Des paires <prompt, réponse idéale>.
En une phrase, que garantit le “loss masking” lors d’un SFT ?
Réponse : Il fait en sorte que seuls les tokens de la réponse cible contribuent au calcul de la loss, et pas ceux du prompt.
Quelle affirmation décrit correctement la différence de type de données entre pré-entraînement et SFT ?
A) Pré-entraînement : démonstrations structurées ; SFT : texte brut non structuré
B) Pré-entraînement : texte brut non structuré ; SFT : démonstrations structurées <prompt, réponse idéale>
C) Pré-entraînement : préférences humaines ; SFT : perplexité sur corpus secret
D) Pré-entraînement : données de tests ; SFT : données de production
Réponse : B) Pré-entraînement : texte brut non structuré ; SFT : démonstrations structurées <prompt, réponse idéale>.
Donnez une raison expliquant pourquoi RLHF peut être préféré à un SFT seul.
Réponse : RLHF peut pousser le modèle vers une qualité “haut de gamme” plutôt que vers la moyenne du dataset, ou permettre de pénaliser fortement des sorties indésirables (toxicité/hallucinations), ou encore relâcher la contrainte du “token exact” en se focalisant sur la réponse globale.
Dans le pipeline RLHF, quelle est la bonne séquence conceptuelle ?
A) Entraîner un modèle de récompense → collecter des préférences → ajuster le LLM par RL
B) Collecter des comparaisons de réponses → entraîner un modèle de récompense → ajuster le LLM pour maximiser la récompense via RL
C) Ajuster le LLM via RL → entraîner un modèle de récompense → collecter des comparaisons
D) Pré-entraîner un modèle de récompense sur texte brut → faire du SFT → collecter des préférences
Réponse : B) Collecter des comparaisons de réponses → entraîner un modèle de récompense → ajuster le LLM pour maximiser la récompense via RL.
Quel est le rôle principal de PPO dans le contexte du RLHF présenté ?
A) Forcer une quantification 4-bit des poids
B) Empêcher le modèle de trop s’éloigner de sa politique initiale (via une contrainte liée à la divergence KL)
C) Remplacer l’évaluation humaine par un benchmark unique
D) Supprimer la nécessité d’un modèle de récompense
Réponse : B) Empêcher le modèle de trop s’éloigner de sa politique initiale (via une contrainte liée à la divergence KL).
Citez un inconvénient du RLHF mentionné.
Réponse : Il est complexe (nécessite un modèle de récompense et du RL) et peut introduire de nouveaux biais ou sur-corriger selon les préférences des annotateurs.
Quel énoncé décrit correctement l’idée de DPO (Direct Preference Optimization) ?
A) Remplacer les préférences par de la perplexité uniquement
B) Utiliser les préférences et optimiser directement le LLM pour donner plus de probabilité à la réponse préférée qu’à la rejetée via une loss de classification
C) Apprendre uniquement un prompt virtuel et geler tout le reste
D) Dé-quantifier systématiquement en Float32 pendant l’inférence
Réponse : B) Utiliser les préférences et optimiser directement le LLM pour favoriser la réponse préférée via une loss de classification.
Donnez un exemple de type d’évaluation d’un LLM parmi ceux listés.
Réponse : Par exemple : métriques internes comme la perplexité sur un corpus secret ; benchmarks externes standardisés ; évaluation humaine (ou via d’autres modèles) de la préférence/utilité ; checks de sûreté (biais, toxicité, hallucinations, robustesse à la reformulation).
Comment interprétez-vous la perplexité d’un modèle de langage selon la définition donnée ?
A) Plus elle est élevée, meilleure est la prédiction
B) Plus elle est faible, meilleure est la prédiction
C) Elle ne mesure que la taille du modèle
D) Elle mesure uniquement la vitesse d’inférence
Réponse : B) Plus elle est faible, meilleure est la prédiction.
Parmi les propositions suivantes, lequel est présenté comme un exemple de benchmark ?
A) Une divergence KL entre deux politiques
B) MMLU
C) Une quantification NF4
D) Un optimiseur paged
Réponse : B) MMLU.
En une phrase, qu’est-ce que la contamination des données de test en évaluation de LLM ?
Réponse : C’est le fait que des données d’évaluation se retrouvent dans le corpus d’entraînement, ce qui peut gonfler artificiellement les scores par mémorisation.
Quel risque est associé au fait d’optimiser fortement un modèle sur des benchmarks publics ?
A) La quantification devient impossible
B) Le modèle ne peut plus être entraîné sur GPU
C) Le score devient une cible et cesse d’être une bonne mesure (Goodhart)
D) Le modèle perd toute capacité conversationnelle par définition
Réponse : C) Le score devient une cible et cesse d’être une bonne mesure (Goodhart).
Donnez deux stratégies d’évaluation des biais mentionnées.
Réponse : Par exemple : prompting biaisé (varier l’identité dans des prompts sensibles) et analyse statistique d’outputs sur des ensembles équilibrés ; ou utilisation d’outils comme HolisticBias / CrowS-Pairs.
Quel test est proposé pour évaluer la robustesse à la formulation d’un modèle ?
A) Le tester uniquement sur des prompts plus longs
B) Le tester sur des versions paraphrasées des mêmes questions et vérifier la stabilité des réponses/scores
C) Le quantifier en 4-bit et mesurer la latence
D) Le fine-tuner uniquement sur du code
Réponse : B) Le tester sur des versions paraphrasées des mêmes questions et vérifier la stabilité.
Face à un prompt contenant des informations contradictoires, quel comportement est décrit comme idéal ?
Réponse : Signaler l’incohérence plutôt que de “forcer” une réponse.
Concernant les méthodes PEFT (Parameter-Efficient Fine-Tuning), quel est l’objectif principal présenté ?
A) Augmenter le nombre de paramètres entraînables pour maximiser la capacité
B) Adapter un LLM à un domaine/tâche en entraînant seulement une petite fraction de paramètres
C) Remplacer la phase d’évaluation par une phase de post-training
D) Convertir un modèle conversationnel en modèle non-aligné
Réponse : B) Adapter un LLM en entraînant seulement une petite fraction de paramètres.
En LoRA, si la matrice de poids d’une couche est de taille (d×d) et que le rang est r, quelles sont les tailles de A et B ?
A) A : (r×r), B : (d×d)
B) A : (d×r), B : (r×d)
C) A : (d×d), B : (d×r)
D) A : (r×d), B : (d×r)
Réponse : B) A : (d×r), B : (r×d).
Concernant NF4 (utilisé avec QLoRA), quelle affirmation est correcte ?
A) On peut faire les opérations mathématiques directement en NF4 sans conversion
B) Les poids sont codés sur 64 bits pour améliorer la précision
C) Le système doit dé-quantifier “à la volée” vers un format plus large (ex. 16-bit) pour effectuer les calculs
D) NF4 suppose une distribution uniforme des poids du réseau
Réponse : C) Le système doit dé-quantifier “à la volée” vers un format plus large (ex. 16-bit) pour effectuer les calculs.