CSC 8608 – Concepts avancés et applications du deep learning

Quelle est la principale différence concernant la nature des retours fournis à l'algorithme entre l'apprentissage supervisé et l'apprentissage par renforcement ?

Comment définissez-vous la propriété de Markov dans le cadre d'un Processus de Décision Markovien (MDP) ?
A) L'état futur dépend de l'ensemble de l'historique des états passés.
B) L'état futur est indépendant du passé sachant l'état présent.
C) L'environnement est entièrement déterministe et prévisible.
D) L'agent connaît à l'avance toutes les probabilités de récompense.

En apprentissage par renforcement, qu'est-ce que le problème d'attribution du crédit (Credit Assignment Problem) ?

Quel est l'impact mathématique et stratégique du facteur d'actualisation (souvent noté gamma) dans le calcul du retour espéré ?

Quelle est la différence exacte entre la fonction de valeur classique (V) et la fonction de valeur d'action (Q) ?
A) La première évalue un état indépendamment de l'action, tandis que la seconde évalue la pertinence de prendre une action spécifique dans un état donné.
B) La première est utilisée pour les environnements continus, et la seconde pour les environnements discrets.
C) La première calcule la récompense immédiate attendue, alors que la seconde calcule la récompense future garantie.
D) La première est systématiquement mise à jour par l'Acteur, et la seconde est mise à jour par le Critique.

Expliquez le fonctionnement et l'objectif de la stratégie d'exploration epsilon-greedy.

Pourquoi les algorithmes tabulaires classiques échouent-ils sur des environnements dotés de très grands espaces d'états, et quelle solution conceptuelle y répond ?

Dans l'architecture standard d'un réseau de neurones prédisant des valeurs d'action pour un espace d'actions discret, quelle affirmation concernant la couche de sortie est correcte ?
A) Elle utilise une fonction Softmax pour obtenir une distribution de probabilité stricte sur les actions.
B) Elle applique une fonction Sigmoïde pour normaliser systématiquement l'ensemble des valeurs entre 0 et 1.
C) Elle repose sur une fonction de type ReLU pour garantir que toutes les valeurs d'action sont strictement positives.
D) Elle ne possède pas de fonction d'activation finale, car le réseau doit effectuer une régression pour prédire des valeurs absolues de retour.

Quels sont les deux bénéfices majeurs de l'utilisation d'une mémoire tampon (Replay Buffer) lors de l'entraînement d'un agent ?

Quel problème d'optimisation spécifique la mise en place d'un réseau cible (Target Network) séparé du réseau principal cherche-t-elle à résoudre ?

Comment une architecture modélisant directement une politique gère-t-elle généralement la sélection d'actions dans un espace de contrôle continu ?
A) En discrétisant artificiellement l'espace continu en un grand nombre d'intervalles réguliers et en appliquant une fonction d'activation de type Softmax en sortie.
B) En générant en sortie du réseau les paramètres d'une distribution statistique, telle que la moyenne et l'écart-type, depuis laquelle l'action finale sera échantillonnée.
C) En calculant une matrice de corrélations croisées pour évaluer de manière quasi exhaustive chaque fraction de contrôle possible.
D) En s'appuyant sur un algorithme de recherche Monte-Carlo imbriqué pour simuler des dizaines de trajectoires continues alternatives à chaque étape.

Quel est l'inconvénient fondamental des méthodes se basant uniquement sur la maximisation d'une fonction de valeur (Value-Based) lorsqu'il s'agit d'évoluer dans des environnements nécessitant de l'imprévisibilité ?

Que représente mathématiquement la fonction d'avantage, et quel est son but principal dans l'optimisation des politiques par gradient ?

Dans le cadre d'une architecture conjointe de type Acteur-Critique, comment se répartissent concrètement les responsabilités entre les deux réseaux de neurones ?
A) Le premier réseau évalue le score final de l'environnement, tandis que le second archive les différentes transitions dans la mémoire tampon.
B) Le premier réseau décide exclusivement du taux d'exploration, tandis que le second modélise la dynamique probabiliste de l'environnement physique.
C) Le premier réseau modélise une distribution de probabilité pour choisir les actions, tandis que le second prédit le retour attendu pour évaluer l'action choisie et fournir un signal d'erreur.
D) Le premier réseau collecte l'intégralité des données en interaction continue avec le monde, tandis que le second effectue les passes d'optimisation en arrière-plan.

Expliquez le rôle central du mécanisme d'écrêtage (clipping) dans la fonction de perte de l'algorithme d'optimisation proximale de politique (PPO).

Au-delà de la stabilité, quel avantage majeur en termes de traitement des données le mécanisme de région de confiance offre-t-il par rapport aux approches de gradient directes plus anciennes ?

Lors de l'interaction standardisée avec un environnement via la fonction de passage à l'étape suivante, quels éléments fondamentaux sont obligatoirement retournés par l'API Gymnasium ?
A) La nouvelle observation de l'état, la récompense obtenue, des indicateurs stipulant si la trajectoire est terminée ou tronquée, et un dictionnaire d'informations auxiliaires.
B) L'action optimale calculée par le solveur interne, la récompense finale escomptée par la table, et un vecteur d'erreur de prédiction continue.
C) Le tenseur mis à jour des espaces d'observation et d'action globaux, ainsi que le temps d'exécution précis de la physique simulée.
D) Uniquement le scalaire de récompense immédiate à l'instant t et un marqueur binaire indiquant la réussite ou l'échec critique de l'agent déployé.

Lors du suivi des expériences d'un apprentissage par renforcement, pourquoi la courbe de la fonction de perte n'est-elle pas le meilleur indicateur de réussite à analyser, et que faut-il surveiller à la place ?

Qu'appelle-t-on spécifiquement le phénomène de "Reward Hacking" dans la formulation d'un problème de décision ?

Dans le processus d'alignement des grands modèles de langage, comment l'architecture d'optimisation par renforcement est-elle généralement transposée pour appliquer les préférences humaines ?
A) Le générateur de texte agit comme le composant de décision pour prédire les jetons, et un modèle distinct entraîné sur des préférences humaines fait office de réseau évaluateur.
B) L'opérateur humain dicte directement la politique optimale à chaque itération, tandis que le modèle de langage se contente de calculer la fonction de valeur associée.
C) Le modèle de décision sélectionne exclusivement les invites de départ optimales depuis une base, et le modèle évaluateur rédige les réponses textuelles finales validées.
D) L'architecture repose sur un réseau convolutif traitant les jetons bruts comme des images, évalué ensuite par une architecture de type transformeur en aval.

Quel nom donnez-vous au phénomène où un modèle obtient d'excellentes performances en se basant sur un artefact présent dans les données de test plutôt que sur la véritable pathologie ou le signal réel à apprendre ?

Quelle distinction technique fondamentale faites-vous entre un modèle intrinsèquement interprétable et une approche d'explicabilité post-hoc ?
A) Le modèle interprétable nécessite un second algorithme externe pour générer son explication après l'inférence.
B) La structure mathématique du modèle intrinsèque force la lisibilité de la décision par design, tandis que l'approche post-hoc tente d'expliquer une boîte noire a posteriori.
C) Les méthodes post-hoc interdisent l'utilisation de réseaux de neurones profonds en production.
D) L'explicabilité post-hoc est une obligation du RGPD, ce qui n'est pas le cas pour les modèles intrinsèques.

Dans la construction d'un Generalized Additive Model (GAM), comment garantissez-vous que l'effet de l'âge d'un patient puisse être analysé sans interférence avec sa pression artérielle ?

Si vous devez déployer une architecture transparente par design (glass-box) sur des données non-tabulaires comme des radiographies, quelle approche en deux étapes allez-vous privilégier ?

Comment la méthode LIME (Local Interpretable Model-agnostic Explanations) procède-t-elle pour fournir l'explication locale d'une prédiction spécifique ?
A) Elle intègre les gradients bruts le long d'un chemin rectiligne depuis une image de référence.
B) Elle modifie les poids d'attention du modèle pour observer l'évolution de la fonction de perte.
C) Elle génère un voisinage stochastique en perturbant l'entrée étudiée, puis entraîne un modèle linéaire régularisé sur ces données locales.
D) Elle extrait un dictionnaire de directions vectorielles grâce à un auto-encodeur parcimonieux.

Sur quelle théorie mathématique reposent les quatre axiomes stricts (efficacité, symétrie, joueur factice, additivité) de la méthode d'explicabilité SHAP ?

Lors de l'analyse d'une carte de saillance (saliency map) basée sur des gradients simples, pourquoi risquez-vous de voir disparaître des régions pourtant cruciales pour le diagnostic ?

Dans l'algorithme Grad-CAM, quelle opération mathématique appliquez-vous à la combinaison linéaire pondérée des cartes d'activation pour obtenir la heatmap finale ?
A) Une fonction Softmax pour obtenir des probabilités par pixel.
B) Une intégrale de Riemann discrète.
C) Une fonction d'activation ReLU pour supprimer l'influence des régions poussant vers d'autres classes.
D) Un ajout de bruit gaussien pour lisser la carte.

Comment calculez-vous formellement une attribution avec la méthode Integrated Gradients (IG) pour contourner les limitations des gradients standards ?

Quelle modification simple à l'entrée de votre réseau allez-vous implémenter pour utiliser la technique SmoothGrad et réduire le bruit visuel d'une explication par gradient ?

Quel test de robustesse devez-vous exécuter pour prouver que votre méthode d'explicabilité visuelle prend bien en compte les paramètres appris par le modèle, et non pas seulement les contours de l'image ?
A) Le test du Concept Bottleneck.
B) Le test de la contribution marginale exacte.
C) L'analyse du courant résiduel.
D) Le test de randomisation en cascade des poids du réseau.

Dans la vision de l'interprétabilité mécaniste appliquée aux Transformers, comment nommez-vous le vecteur central qui sert de "mémoire vive" et sur lequel les différentes couches effectuent des opérations de lecture et d'écriture ?

Selon le théorème de Jain & Wallace, pourquoi ne pouvez-vous pas établir de lien causal direct entre un poids d'attention élevé et l'importance réelle d'un mot dans la décision d'un Transformer ?

Au sein de l'interprétabilité mécaniste, quelle est la fonction spécifique du circuit OV (Output-Value) dans la mécanique interne d'une tête d'attention ?
A) Il calcule les scores de similarité pour décider à quels autres tokens s'intéresser.
B) Il lit le token source sélectionné et écrit l'information pertinente directement dans le flux résiduel du token de destination.
C) Il mappe l'espace polysémantique vers un espace parcimonieux à très haute dimension.
D) Il génère le token d'arrêt (EOS) de manière auto-régressive.

Quel phénomène fondamental force un grand modèle de langage à représenter un concept sémantique sous la forme d'une combinaison linéaire de neurones plutôt que par l'activation d'un seul neurone isolé ?

Quelle architecture non-supervisée allez-vous entraîner sur les activations internes d'un LLM gelé pour réussir à désintriquer les concepts polysémantiques en forçant une contrainte L1 ?

Quel est le protocole de l'Activation Patching (ou Causal Tracing) pour localiser le moment exact où un modèle de langage prend une décision critique ?
A) Optimiser un classifieur linéaire sur toutes les couches simultanément.
B) Ajouter du bruit gaussien sur la matrice d'attention et mesurer la perte de performance globale.
C) Intercepter une activation interne lors de l'analyse d'un prompt propre, et la remplacer par celle issue de l'évaluation d'un prompt corrompu pour observer un basculement de la prédiction.
D) Réinitialiser de manière aléatoire la dernière couche du modèle et remonter de manière récursive.

Si vous auditez la présence spatiale de concepts spécifiques dans l'espace latent d'un LLM, que prouvez-vous si un classifieur linéaire basique entraîné sur les activations de la couche L obtient une haute précision ?

En ingénierie logicielle (MLOps), quelle contrainte physique justifie l'utilisation d'une architecture asynchrone séparant le service d'inférence du service de génération de l'explication ?
A) Le risque de vulnérabilités adversariennes sur l'API d'inférence.
B) L'interdiction légale du RGPD d'associer un ID patient à une matrice de gradients.
C) Le coût de calcul massif des explications (SHAP, IG) qui prendrait trop de temps et empêcherait de garantir une latence de prédiction en temps réel.
D) L'incompatibilité entre les bibliothèques TensorRT et Captum.

Pour entraîner un modèle de la famille Explainable Boosting Machines (EBM) sur des millions de lignes, quelle stratégie algorithmique précise permet d'éviter l'usage de splines complexes tout en préservant l'additivité ?

CSC 8608 – Concepts avancés et applications du deep learning

CC3 : Préparation