CSC 8614 – Modèles de langage

Pouvez-vous décrire, à l’exécution, les trois étapes principales d’un système de Retrieval-Augmented Generation (RAG) ?

Pouvez-vous citer deux raisons pour lesquelles un LLM seul peut poser problème en production pour répondre à des questions sur des documents internes ?

Quelles propriétés sont recherchées en production pour un système de question/réponse assisté par LLM sur une base documentaire ?

Comment expliquez-vous l’idée de séparer « raisonner » et « savoir » dans un système RAG ?

Parmi les propositions suivantes, laquelle correspond au pipeline OFFLINE typique d’un système RAG (de l’ingestion à l’index) ?

A) Embedding de requête → retrieval top-k → assemblage de contexte → prompting → génération → post-traitement

B) Ingestion → nettoyage/normalisation → chunking → embeddings → stockage (vector store + métadonnées) → persistance/versioning d’index

C) Entraînement du LLM sur tous les documents internes à chaque mise à jour

D) Conversation multi-tours avec mémoire pour accumuler les preuves dans le chat

Dans un RAG, que risque-t-il de se passer si le retriever récupère principalement du bruit ?

Pouvez-vous expliquer les effets typiques d’un chunking « trop petit » versus « trop grand » ?

Parmi les propositions suivantes, laquelle liste correctement les sections séparées dans un prompt structuré orienté production ?

A) INSTRUCTIONS / TÂCHE / FORMAT / DONNÉES (ou CONTEXTE)

B) SALUTATIONS / STYLE / TEMPÉRATURE / LONGUEUR

C) OBJECTIFS / RÉCOMPENSES / PÉNALITÉS / RÉFLEXION INTERNE

D) RÉSUMÉ / DISCUSSION / CONCLUSION / BIBLIOGRAPHIE

Comment définissez-vous un « prompt » et quels éléments peut-il contenir pour piloter la sortie d’un LLM ?

Qu’est-ce qu’une « abstention contrôlée » et quel comportement utile doit-elle préciser ?

Dans un retrieval en MMR (Maximal Marginal Relevance), quel paramètre sert à régler le compromis entre pertinence et diversité ?

A) chunk_overlap

B) lambda_mult

C) persist_directory

D) doc_version

Pourquoi faut-il utiliser le même modèle d’embedding pour l’index et pour les requêtes, et que se passe-t-il si vous changez de modèle ?

Dans quel cas la recherche lexicale (type BM25/TF-IDF) est-elle particulièrement utile par rapport à la recherche dense par embeddings ?

En défense contre l’injection de prompt via les documents, quel ordre de priorité des informations doit être appliqué ?

A) CONTEXTE > QUESTION > INSTRUCTIONS

B) QUESTION > INSTRUCTIONS > CONTEXTE

C) INSTRUCTIONS > QUESTION > CONTEXTE

D) INSTRUCTIONS > CONTEXTE > QUESTION

Pouvez-vous définir le principe d’un retrieval hybride ?

Pouvez-vous décrire le reranking en deux étapes et son objectif ?

Dans un prompt RAG, que signifie la règle « Answer only from context » et quel mécanisme de repli faut-il expliciter ?

Pour rendre un système RAG observable, quelles informations clés devez-vous logger à chaque requête ?

Que mesure le Recall@k pour évaluer le retrieval d’un RAG ?

A) Le pourcentage de questions confirmées par un humain

B) Le pourcentage de bonnes sources présentes dans les k chunks retournés

C) La longueur moyenne du prompt en tokens

D) Le temps moyen de génération du LLM

Quelles sont les trois catégories d’analyse d’erreurs pour diagnostiquer un RAG, et que signifient-elles ?

Dans une architecture d’agent modélisée comme une machine à états (par exemple via un graphe), qu’est-ce qui correspond le mieux à l’orchestration ?
A. La liste des extraits retrouvés (snippets) et leurs scores
B. Les fonctions d’accès aux données et d’action (RAG, SQL, tagging, ticketing)
C. Les transitions conditionnelles, les cycles autorisés et les conditions d’arrêt
D. Le schéma de validation des arguments de tools

Donnez deux limites d’un pipeline RAG « une requête, une réponse » lorsqu’on doit traiter un flux (par exemple des emails).

Quelles sont les quatre étapes de la boucle décision–action d’un agent (dans l’ordre) ?

Donnez deux raisons pour lesquelles le tool calling est fragile en pratique.

Citez trois éléments typiques qu’un state d’agent doit stocker pour assurer audit et robustesse.

Quelle différence faites-vous entre mémoire de travail (state) et mémoire long-terme persistée ?

Donnez deux propriétés attendues d’un tool bien conçu pour un agent orchestré.

Pourquoi privilégier des outputs structurés (JSON + schéma strict) plutôt que du texte libre ?

Citez deux décisions qui doivent être verrouillées par le code (et non laissées au LLM) dans un agent orchestré.

Parmi les éléments suivants, lequel doit être décidé par le code dans un agent orchestré ?
A. La formulation exacte du texte de réponse
B. La stop condition (max steps / timeout)
C. La proposition d’une route (reply / ask_clarification / escalate / ignore)
D. La génération d’une requête de retrieval

Citez deux bénéfices du routing dans un agent qui traite des emails.

Donnez une mitigation concrète pour limiter les erreurs de format et les catégories inventées dans un routing LLM-based.

Dans un pattern « writer + reviewer » séparé, quel est le rôle attendu du reviewer ?
A. Réécrire directement la réponse finale
B. Produire un diagnostic structuré (problèmes, sévérité, suggestions) sans réécriture
C. Exécuter les tools à effets de bord
D. Remplacer systématiquement la route choisie par le router

Quelle règle de stop est recommandée pour éviter une boucle infinie en reflection ?

Dans une parallélisation de type fan-out/reduce, quelle étape est indispensable avant de continuer le flow ?
A. Une étape de join/agrégation pour fusionner les résultats des branches
B. Un rerank obligatoire dans chaque branche
C. La suppression du state pour éviter les conflits
D. Le retrait de toute politique d’arbitrage pour garder la flexibilité

Donnez deux contraintes recommandées sur un plan (planning) pour éviter les plans vagues ou dangereux.

Citez trois invariants typiques vérifiés par des checkpoints dans un agent.

Quel couple « type d’erreur → stratégie » est correct ?
A. Erreur permanente (permission/tool absent) → retry avec backoff
B. Erreur de format (JSON invalide) → repair prompt / re-ask contraint
C. Erreur transitoire (timeout/rate limit) → escalade immédiate sans tentative
D. Erreur de données (champs manquants) → inventer les champs pour continuer

Citez trois menaces typiques contre lesquelles des guardrails doivent protéger un agent outillé.

En évaluation d’agents, que désigne la « trajectoire » ?
A. Uniquement le texte de réponse final
B. La suite des nodes/décisions/tool calls/erreurs/retries pendant l’exécution
C. La taille moyenne de la fenêtre de contexte
D. Le score moyen de reranking sur les chunks

CSC 8614 – Modèles de langage

CC2 : Préparation