CSC 8614 – Modèles de langage

Quel est l’objectif principal d’un modèle de langage ?

Donnez une raison pour laquelle une tokenization au niveau caractère peut être désavantageuse.

Dans la décomposition causale d’un modèle de langage, que représente principalement P(w_k | w_1…w_{k-1}) ?

Citez une application typique d’un modèle de langage.

Quand privilégiez-vous une décomposition « avec un masque » plutôt qu’une décomposition causale ?

Pourquoi les N-grams nécessitent-ils des approximations quand k augmente ?

Dans Word2Vec, quelle approche consiste à prédire le mot cible à partir de son contexte ?

Donnez deux caractéristiques de Word2Vec.

Quelle est la forme de la matrice d’embeddings si V est la taille du vocabulaire et E la dimension d’embedding ?

Quel problème principal Byte-Pair Encoding (BPE) cherche-t-il à résoudre concernant la tokenization ?

Dans l’algorithme BPE, que faites-vous à chaque itération tant que le nombre de tokens est inférieur à V ?

Donnez deux exemples de tokens spéciaux et leur rôle.

Parmi les propositions suivantes, laquelle n’est pas présentée comme un problème des réseaux récurrents (RNN) ?

Pourquoi a-t-on besoin de positional encoding dans un Transformer ?

Quelle proposition décrit correctement RoPE (Rotary Position Embedding) ?

Citez deux composants présents dans un bloc Transformer.

Quelle variante est indiquée comme plus stable à l’entraînement et utilisée en pratique ?

Donnez un avantage et un inconvénient de la génération greedy.

Quel est l’effet d’augmenter la température T dans le sampling ?

Citez deux limitations des modèles de langage mentionnées.

Donnez une définition courte du pré-entraînement d’un grand modèle de langage.

Lors d’un pré-entraînement auto-supervisé d’un LLM, quelle tâche correspond le mieux à l’objectif d’apprentissage ?
A. Classer des documents dans des catégories fixes
B. Prédire des mots masqués ou le token suivant dans une séquence
C. Répondre à des consignes humaines via un classement de préférences
D. Générer uniquement des labels numériques continus

Quelle architecture est utilisée par la quasi-totalité des LLMs modernes mentionnés ?
A. Réseau récurrent (RNN) bidirectionnel
B. Transformer encodeur uniquement
C. Transformer décodeur auto-régressif
D. Réseau convolutionnel profond (CNN)

Citez deux défis typiques du pré-entraînement de LLMs.

Dans les éléments cités, que recouvre explicitement la notion de scaling pour les LLMs ?
A. Taille du modèle, temps d’inférence, données d’entraînement (de haute qualité)
B. Uniquement la taille du modèle en paramètres
C. Uniquement la quantité de mémoire GPU disponible
D. Uniquement le nombre de langues supportées

Pourquoi la diversité linguistique et thématique d’un corpus est-elle importante, au-delà de la taille ?

Quel risque non-technique est explicitement mentionné à propos des données d’entraînement ?
A. Le risque de sur-apprentissage uniquement
B. Le risque de fuite mémoire GPU
C. Le risque légal lié à l’utilisation des données pour l’entraînement
D. Le risque de ne pas pouvoir tokeniser l’anglais

Expliquez en une phrase l’objectif de la déduplication dans le pré-traitement des données.

Quel effet négatif est associé au fait de voir plusieurs fois les mêmes données d’entraînement, selon le cours ?
A. Cela empêche la tokenisation
B. Cela distord l’évaluation et peut causer de l’overfitting
C. Cela empêche l’utilisation de la softmax
D. Cela rend impossible l’attention quadratique

Quel changement de stratégie est attribué aux résultats du papier “Chinchilla” (pour un budget de calcul fixé) ?

Selon une règle pratique citée, quel ratio tokens/paramètre est suggéré pour un entraînement proche de l’optimal ?
A. ~1 à 2 tokens par paramètre
B. ~5 à 10 tokens par paramètre
C. ~20 à 30 tokens par paramètre
D. ~200 à 300 tokens par paramètre

Quel est l’effet principal du mixed precision (FP16/BF16) cité pendant le pré-entraînement ?
A. Doubler l’usage mémoire et ralentir les calculs
B. Diviser l’usage mémoire par deux et accélérer les opérations
C. Supprimer le besoin de filtrage des données
D. Augmenter automatiquement la longueur de contexte

Quel est l’avantage clé attribué à FlashAttention ?
A. Il remplace la tokenisation par un dictionnaire fixe
B. Il réduit les lectures/écritures en mémoire GPU lente (HBM), accélérant le calcul d’attention
C. Il empêche la contamination des jeux de test
D. Il transforme un modèle génératif en modèle discriminatif

Donnez une définition courte du curriculum learning dans le contexte de l’entraînement de modèles.

Quel exemple de non-uniform sampling est cité pour améliorer certaines compétences en fin de pré-entraînement ?
A. Sous-échantillonner les données de code au début
B. Sur-échantillonner des données de haute qualité (code, math) à la fin du pré-entraînement
C. Remplacer toutes les données par de la traduction automatique
D. Utiliser uniquement Wikipédia après le warm-up

Décrivez brièvement la stratégie de learning rate typique citée pour le pré-entraînement.

Comment interpréter la perplexité d’un modèle de langage, d’après le cours ?
A. Comme une mesure de “surprise” face à une séquence : plus c’est faible, mieux le modèle prédit
B. Comme une mesure directe d’alignement aux instructions humaines
C. Comme une mesure de robustesse aux attaques adversariales uniquement
D. Comme une probabilité d’être toxique

Donnez deux limites de la perplexité comme métrique d’évaluation.

Parmi les propositions suivantes, laquelle décrit correctement le principe d’une classification head ajoutée à un LLM ?
A. Remplacer l’attention par une couche convolutionnelle et produire un texte
B. Extraire un état caché (ex. dernier token), supprimer la projection vocabulaire, ajouter une couche linéaire vers K classes puis appliquer softmax/sigmoid
C. Générer une réponse libre puis compter les synonymes pour déduire une classe
D. Utiliser uniquement la perplexité pour prédire une classe

Quelle expression correspond à la fonction de perte totale donnée pour la distillation de connaissances ?
A. L_total = α·L_MSE + (1−α)·L_BLEU
B. L_total = α·L_CE(y, ŷ_student) + (1−α)·L_KL(P_teacher, P_student)
C. L_total = L_KL(P_student, P_teacher) − L_CE(y, ŷ_teacher)
D. L_total = L_CE(y, ŷ_teacher) uniquement

Quel est l’objectif principal du post-training pour un grand modèle de langage (LLM) ?
A) Réduire le nombre de paramètres du modèle
B) Aligner le modèle sur des instructions et préférences humaines
C) Transformer le modèle en système de recherche d’information uniquement
D) Remplacer complètement la phase de pré-entraînement

En Supervised Fine-Tuning (SFT) pour l’instruction following, quel type d’exemples est typiquement utilisé ?
A) Des paires <prompt, réponse idéale>
B) Uniquement du texte brut non annoté (livres, sites web)
C) Des paires <réponse, réponse> sans contexte
D) Des séries temporelles numériques uniquement

En une phrase, que garantit le “loss masking” lors d’un SFT ?

Quelle affirmation décrit correctement la différence de type de données entre pré-entraînement et SFT ?
A) Pré-entraînement : démonstrations structurées ; SFT : texte brut non structuré
B) Pré-entraînement : texte brut non structuré ; SFT : démonstrations structurées <prompt, réponse idéale>
C) Pré-entraînement : préférences humaines ; SFT : perplexité sur corpus secret
D) Pré-entraînement : données de tests ; SFT : données de production

Donnez une raison expliquant pourquoi RLHF peut être préféré à un SFT seul.

Dans le pipeline RLHF, quelle est la bonne séquence conceptuelle ?
A) Entraîner un modèle de récompense → collecter des préférences → ajuster le LLM par RL
B) Collecter des comparaisons de réponses → entraîner un modèle de récompense → ajuster le LLM pour maximiser la récompense via RL
C) Ajuster le LLM via RL → entraîner un modèle de récompense → collecter des comparaisons
D) Pré-entraîner un modèle de récompense sur texte brut → faire du SFT → collecter des préférences

Quel est le rôle principal de PPO dans le contexte du RLHF présenté ?
A) Forcer une quantification 4-bit des poids
B) Empêcher le modèle de trop s’éloigner de sa politique initiale (via une contrainte liée à la divergence KL)
C) Remplacer l’évaluation humaine par un benchmark unique
D) Supprimer la nécessité d’un modèle de récompense

Citez un inconvénient du RLHF mentionné.

Quel énoncé décrit correctement l’idée de DPO (Direct Preference Optimization) ?
A) Remplacer les préférences par de la perplexité uniquement
B) Utiliser les préférences et optimiser directement le LLM pour donner plus de probabilité à la réponse préférée qu’à la rejetée via une loss de classification
C) Apprendre uniquement un prompt virtuel et geler tout le reste
D) Dé-quantifier systématiquement en Float32 pendant l’inférence

Donnez un exemple de type d’évaluation d’un LLM parmi ceux listés.

Comment interprétez-vous la perplexité d’un modèle de langage selon la définition donnée ?
A) Plus elle est élevée, meilleure est la prédiction
B) Plus elle est faible, meilleure est la prédiction
C) Elle ne mesure que la taille du modèle
D) Elle mesure uniquement la vitesse d’inférence

Parmi les propositions suivantes, lequel est présenté comme un exemple de benchmark ?
A) Une divergence KL entre deux politiques
B) MMLU
C) Une quantification NF4
D) Un optimiseur paged

En une phrase, qu’est-ce que la contamination des données de test en évaluation de LLM ?

Quel risque est associé au fait d’optimiser fortement un modèle sur des benchmarks publics ?
A) La quantification devient impossible
B) Le modèle ne peut plus être entraîné sur GPU
C) Le score devient une cible et cesse d’être une bonne mesure (Goodhart)
D) Le modèle perd toute capacité conversationnelle par définition

Donnez deux stratégies d’évaluation des biais mentionnées.

Quel test est proposé pour évaluer la robustesse à la formulation d’un modèle ?
A) Le tester uniquement sur des prompts plus longs
B) Le tester sur des versions paraphrasées des mêmes questions et vérifier la stabilité des réponses/scores
C) Le quantifier en 4-bit et mesurer la latence
D) Le fine-tuner uniquement sur du code

Face à un prompt contenant des informations contradictoires, quel comportement est décrit comme idéal ?

Concernant les méthodes PEFT (Parameter-Efficient Fine-Tuning), quel est l’objectif principal présenté ?
A) Augmenter le nombre de paramètres entraînables pour maximiser la capacité
B) Adapter un LLM à un domaine/tâche en entraînant seulement une petite fraction de paramètres
C) Remplacer la phase d’évaluation par une phase de post-training
D) Convertir un modèle conversationnel en modèle non-aligné

En LoRA, si la matrice de poids d’une couche est de taille (d×d) et que le rang est r, quelles sont les tailles de A et B ?
A) A : (r×r), B : (d×d)
B) A : (d×r), B : (r×d)
C) A : (d×d), B : (d×r)
D) A : (r×d), B : (d×r)

Concernant NF4 (utilisé avec QLoRA), quelle affirmation est correcte ?
A) On peut faire les opérations mathématiques directement en NF4 sans conversion
B) Les poids sont codés sur 64 bits pour améliorer la précision
C) Le système doit dé-quantifier “à la volée” vers un format plus large (ex. 16-bit) pour effectuer les calculs
D) NF4 suppose une distribution uniforme des poids du réseau

CSC 8614 – Modèles de langage

CC1 : Préparation