Quelle est la principale différence concernant la nature des retours fournis à l'algorithme entre l'apprentissage supervisé et l'apprentissage par renforcement ?
Réponse : En apprentissage supervisé, le modèle reçoit des étiquettes exactes fournies par un expert pour chaque donnée, tandis qu'en apprentissage par renforcement, l'agent explore pour générer ses propres données et ne reçoit qu'un signal scalaire de récompense évaluant si le résultat global est bon ou mauvais, sans guidage explicite sur l'action précise à effectuer.
Comment définissez-vous la propriété de Markov dans le cadre d'un Processus de Décision Markovien (MDP) ? A) L'état futur dépend de l'ensemble de l'historique des états passés. B) L'état futur est indépendant du passé sachant l'état présent. C) L'environnement est entièrement déterministe et prévisible. D) L'agent connaît à l'avance toutes les probabilités de récompense.
Réponse : B) L'état futur est indépendant du passé sachant l'état présent.
En apprentissage par renforcement, qu'est-ce que le problème d'attribution du crédit (Credit Assignment Problem) ?
Réponse : C'est la difficulté de déterminer avec précision quelle action passée spécifique est responsable d'une récompense obtenue de manière retardée à la fin d'une longue séquence d'actions.
Quel est l'impact mathématique et stratégique du facteur d'actualisation (souvent noté gamma) dans le calcul du retour espéré ?
Réponse : Il pondère l'importance des récompenses futures par rapport aux récompenses immédiates pour définir si l'agent doit être stratège ou impulsif, tout en garantissant mathématiquement que la somme cumulée des récompenses converge si l'horizon temporel est infini.
Quelle est la différence exacte entre la fonction de valeur classique (V) et la fonction de valeur d'action (Q) ? A) La première évalue un état indépendamment de l'action, tandis que la seconde évalue la pertinence de prendre une action spécifique dans un état donné. B) La première est utilisée pour les environnements continus, et la seconde pour les environnements discrets. C) La première calcule la récompense immédiate attendue, alors que la seconde calcule la récompense future garantie. D) La première est systématiquement mise à jour par l'Acteur, et la seconde est mise à jour par le Critique.
Réponse : A) La première évalue un état indépendamment de l'action, tandis que la seconde évalue la pertinence de prendre une action spécifique dans un état donné.
Expliquez le fonctionnement et l'objectif de la stratégie d'exploration epsilon-greedy.
Réponse : Cette stratégie consiste à choisir une action totalement aléatoire avec une probabilité epsilon pour favoriser la découverte, et à choisir l'action maximisant la fonction de valeur estimée avec une probabilité de 1-epsilon pour exploiter la meilleure politique connue à un instant donné.
Pourquoi les algorithmes tabulaires classiques échouent-ils sur des environnements dotés de très grands espaces d'états, et quelle solution conceptuelle y répond ?
Réponse : Les algorithmes tabulaires souffrent de la malédiction de la dimensionnalité car ils exigent une entrée en mémoire isolée pour chaque combinaison d'état et d'action, ce qui devient impossible à stocker sur des jeux complexes. La solution consiste à utiliser l'approximation de fonction via des réseaux de neurones pour généraliser et inférer des valeurs.
Dans l'architecture standard d'un réseau de neurones prédisant des valeurs d'action pour un espace d'actions discret, quelle affirmation concernant la couche de sortie est correcte ? A) Elle utilise une fonction Softmax pour obtenir une distribution de probabilité stricte sur les actions. B) Elle applique une fonction Sigmoïde pour normaliser systématiquement l'ensemble des valeurs entre 0 et 1. C) Elle repose sur une fonction de type ReLU pour garantir que toutes les valeurs d'action sont strictement positives. D) Elle ne possède pas de fonction d'activation finale, car le réseau doit effectuer une régression pour prédire des valeurs absolues de retour.
Réponse : D) Elle ne possède pas de fonction d'activation finale, car le réseau doit effectuer une régression pour prédire des valeurs absolues de retour.
Quels sont les deux bénéfices majeurs de l'utilisation d'une mémoire tampon (Replay Buffer) lors de l'entraînement d'un agent ?
Réponse : Elle permet de casser la très forte corrélation temporelle entre les échantillons d'une même trajectoire pour stabiliser l'apprentissage, et elle améliore grandement l'efficacité d'utilisation des données en réutilisant plusieurs fois des transitions rares ou instructives lors des différentes itérations.
Quel problème d'optimisation spécifique la mise en place d'un réseau cible (Target Network) séparé du réseau principal cherche-t-elle à résoudre ?
Réponse : Il permet de stabiliser la descente de gradient en fixant mathématiquement la cible temporelle pendant de nombreuses itérations, ce qui empêche le réseau principal de poursuivre une cible mouvante qui dépendrait constamment de ses propres poids en cours de mise à jour.
Comment une architecture modélisant directement une politique gère-t-elle généralement la sélection d'actions dans un espace de contrôle continu ? A) En discrétisant artificiellement l'espace continu en un grand nombre d'intervalles réguliers et en appliquant une fonction d'activation de type Softmax en sortie. B) En générant en sortie du réseau les paramètres d'une distribution statistique, telle que la moyenne et l'écart-type, depuis laquelle l'action finale sera échantillonnée. C) En calculant une matrice de corrélations croisées pour évaluer de manière quasi exhaustive chaque fraction de contrôle possible. D) En s'appuyant sur un algorithme de recherche Monte-Carlo imbriqué pour simuler des dizaines de trajectoires continues alternatives à chaque étape.
Réponse : B) En générant en sortie du réseau les paramètres d'une distribution statistique, telle que la moyenne et l'écart-type, depuis laquelle l'action finale sera échantillonnée.
Quel est l'inconvénient fondamental des méthodes se basant uniquement sur la maximisation d'une fonction de valeur (Value-Based) lorsqu'il s'agit d'évoluer dans des environnements nécessitant de l'imprévisibilité ?
Réponse : Ces méthodes exigent de toujours sélectionner l'action possédant la valeur maximale estimée, ce qui limite intrinsèquement l'agent à la création de politiques strictement déterministes, alors que la stratégie optimale exige parfois d'être stochastique ou imprévisible.
Que représente mathématiquement la fonction d'avantage, et quel est son but principal dans l'optimisation des politiques par gradient ?
Réponse : Elle se calcule en soustrayant la valeur moyenne attendue d'un état à la valeur réelle d'une action spécifique prise dans cet état. Son but est de réduire drastiquement la variance lors de l'entraînement en évaluant simplement si une action a été meilleure ou pire que la moyenne habituelle.
Dans le cadre d'une architecture conjointe de type Acteur-Critique, comment se répartissent concrètement les responsabilités entre les deux réseaux de neurones ? A) Le premier réseau évalue le score final de l'environnement, tandis que le second archive les différentes transitions dans la mémoire tampon. B) Le premier réseau décide exclusivement du taux d'exploration, tandis que le second modélise la dynamique probabiliste de l'environnement physique. C) Le premier réseau modélise une distribution de probabilité pour choisir les actions, tandis que le second prédit le retour attendu pour évaluer l'action choisie et fournir un signal d'erreur. D) Le premier réseau collecte l'intégralité des données en interaction continue avec le monde, tandis que le second effectue les passes d'optimisation en arrière-plan.
Réponse : C) Le premier réseau modélise une distribution de probabilité pour choisir les actions, tandis que le second prédit le retour attendu pour évaluer l'action choisie et fournir un signal d'erreur.
Expliquez le rôle central du mécanisme d'écrêtage (clipping) dans la fonction de perte de l'algorithme d'optimisation proximale de politique (PPO).
Réponse : Ce mécanisme vise à contraindre l'évolution de la politique en empêchant le ratio entre la probabilité de l'action sous la nouvelle politique et celle sous l'ancienne de s'éloigner d'une plage définie, ce qui garantit des mises à jour sûres et prévient les effondrements catastrophiques des performances.
Au-delà de la stabilité, quel avantage majeur en termes de traitement des données le mécanisme de région de confiance offre-t-il par rapport aux approches de gradient directes plus anciennes ?
Réponse : En s'assurant que les mises à jour de gradient ne dégradent pas irréversiblement la politique, il devient possible de réaliser de multiples époques d'entraînement sur le même lot de données collectées, ce qui améliore considérablement l'efficacité globale de l'apprentissage.
Lors de l'interaction standardisée avec un environnement via la fonction de passage à l'étape suivante, quels éléments fondamentaux sont obligatoirement retournés par l'API Gymnasium ? A) La nouvelle observation de l'état, la récompense obtenue, des indicateurs stipulant si la trajectoire est terminée ou tronquée, et un dictionnaire d'informations auxiliaires. B) L'action optimale calculée par le solveur interne, la récompense finale escomptée par la table, et un vecteur d'erreur de prédiction continue. C) Le tenseur mis à jour des espaces d'observation et d'action globaux, ainsi que le temps d'exécution précis de la physique simulée. D) Uniquement le scalaire de récompense immédiate à l'instant t et un marqueur binaire indiquant la réussite ou l'échec critique de l'agent déployé.
Réponse : A) La nouvelle observation de l'état, la récompense obtenue, des indicateurs stipulant si la trajectoire est terminée ou tronquée, et un dictionnaire d'informations auxiliaires.
Lors du suivi des expériences d'un apprentissage par renforcement, pourquoi la courbe de la fonction de perte n'est-elle pas le meilleur indicateur de réussite à analyser, et que faut-il surveiller à la place ?
Réponse : La fonction de perte n'est pas fiable car la distribution des données générées évolue en permanence. Il faut privilégier le suivi du retour épisodique moyen, qui est la métrique absolue indiquant si le comportement de l'agent s'améliore réellement face à son objectif.
Qu'appelle-t-on spécifiquement le phénomène de "Reward Hacking" dans la formulation d'un problème de décision ?
Réponse : C'est un comportement indésirable où l'agent parvient à exploiter la moindre faille ou ambiguïté dans la conception mathématique du signal de récompense pour maximiser son score, sans pour autant accomplir la véritable tâche attendue.
Dans le processus d'alignement des grands modèles de langage, comment l'architecture d'optimisation par renforcement est-elle généralement transposée pour appliquer les préférences humaines ? A) Le générateur de texte agit comme le composant de décision pour prédire les jetons, et un modèle distinct entraîné sur des préférences humaines fait office de réseau évaluateur. B) L'opérateur humain dicte directement la politique optimale à chaque itération, tandis que le modèle de langage se contente de calculer la fonction de valeur associée. C) Le modèle de décision sélectionne exclusivement les invites de départ optimales depuis une base, et le modèle évaluateur rédige les réponses textuelles finales validées. D) L'architecture repose sur un réseau convolutif traitant les jetons bruts comme des images, évalué ensuite par une architecture de type transformeur en aval.
Réponse : A) Le générateur de texte agit comme le composant de décision pour prédire les jetons, et un modèle distinct entraîné sur des préférences humaines fait office de réseau évaluateur.
Quel nom donnez-vous au phénomène où un modèle obtient d'excellentes performances en se basant sur un artefact présent dans les données de test plutôt que sur la véritable pathologie ou le signal réel à apprendre ?
Réponse : Le biais de confusion, également qualifié de problème du "Clever Hans".
Quelle distinction technique fondamentale faites-vous entre un modèle intrinsèquement interprétable et une approche d'explicabilité post-hoc ? A) Le modèle interprétable nécessite un second algorithme externe pour générer son explication après l'inférence. B) La structure mathématique du modèle intrinsèque force la lisibilité de la décision par design, tandis que l'approche post-hoc tente d'expliquer une boîte noire a posteriori. C) Les méthodes post-hoc interdisent l'utilisation de réseaux de neurones profonds en production. D) L'explicabilité post-hoc est une obligation du RGPD, ce qui n'est pas le cas pour les modèles intrinsèques.
Réponse : B
Dans la construction d'un Generalized Additive Model (GAM), comment garantissez-vous que l'effet de l'âge d'un patient puisse être analysé sans interférence avec sa pression artérielle ?
Réponse : En appliquant des fonctions non linéaires (shape functions) de manière indépendante à chaque variable, ce qui assure que l'effet de chaque variable sur la prédiction finale reste purement additif et isolé.
Si vous devez déployer une architecture transparente par design (glass-box) sur des données non-tabulaires comme des radiographies, quelle approche en deux étapes allez-vous privilégier ?
Réponse : Les Concept Bottleneck Models (CBM), qui forcent le réseau de neurones à prédire un vecteur de concepts humains compréhensibles avant d'utiliser un modèle linéaire transparent pour le diagnostic final.
Comment la méthode LIME (Local Interpretable Model-agnostic Explanations) procède-t-elle pour fournir l'explication locale d'une prédiction spécifique ? A) Elle intègre les gradients bruts le long d'un chemin rectiligne depuis une image de référence. B) Elle modifie les poids d'attention du modèle pour observer l'évolution de la fonction de perte. C) Elle génère un voisinage stochastique en perturbant l'entrée étudiée, puis entraîne un modèle linéaire régularisé sur ces données locales. D) Elle extrait un dictionnaire de directions vectorielles grâce à un auto-encodeur parcimonieux.
Réponse : C
Sur quelle théorie mathématique reposent les quatre axiomes stricts (efficacité, symétrie, joueur factice, additivité) de la méthode d'explicabilité SHAP ?
Réponse : La théorie des jeux coopératifs, et plus spécifiquement le calcul des contributions marginales via les valeurs de Shapley.
Lors de l'analyse d'une carte de saillance (saliency map) basée sur des gradients simples, pourquoi risquez-vous de voir disparaître des régions pourtant cruciales pour le diagnostic ?
Réponse : À cause du problème de saturation : les fonctions d'activation plafonnent sur les motifs parfaitement détectés, ce qui annule la dérivée locale (le gradient devient zéro).
Dans l'algorithme Grad-CAM, quelle opération mathématique appliquez-vous à la combinaison linéaire pondérée des cartes d'activation pour obtenir la heatmap finale ? A) Une fonction Softmax pour obtenir des probabilités par pixel. B) Une intégrale de Riemann discrète. C) Une fonction d'activation ReLU pour supprimer l'influence des régions poussant vers d'autres classes. D) Un ajout de bruit gaussien pour lisser la carte.
Réponse : C
Comment calculez-vous formellement une attribution avec la méthode Integrated Gradients (IG) pour contourner les limitations des gradients standards ?
Réponse : En approximant l'intégrale des gradients le long d'un chemin d'interpolation allant d'une image de référence neutre (baseline) jusqu'à l'image d'entrée analysée.
Quelle modification simple à l'entrée de votre réseau allez-vous implémenter pour utiliser la technique SmoothGrad et réduire le bruit visuel d'une explication par gradient ?
Réponse : Il faut ajouter du bruit gaussien à l'image d'entrée à de multiples reprises, évaluer le modèle sur ce voisinage stochastique, puis moyenner les gradients résultants.
Quel test de robustesse devez-vous exécuter pour prouver que votre méthode d'explicabilité visuelle prend bien en compte les paramètres appris par le modèle, et non pas seulement les contours de l'image ? A) Le test du Concept Bottleneck. B) Le test de la contribution marginale exacte. C) L'analyse du courant résiduel. D) Le test de randomisation en cascade des poids du réseau.
Réponse : D
Dans la vision de l'interprétabilité mécaniste appliquée aux Transformers, comment nommez-vous le vecteur central qui sert de "mémoire vive" et sur lequel les différentes couches effectuent des opérations de lecture et d'écriture ?
Réponse : Le courant résiduel (ou residual stream).
Selon le théorème de Jain & Wallace, pourquoi ne pouvez-vous pas établir de lien causal direct entre un poids d'attention élevé et l'importance réelle d'un mot dans la décision d'un Transformer ?
Réponse : En raison du phénomène de mélange des tokens (token mixing), car le vecteur d'information déplacé a déjà été transformé et mélangé avec d'autres concepts par les couches précédentes de l'architecture.
Au sein de l'interprétabilité mécaniste, quelle est la fonction spécifique du circuit OV (Output-Value) dans la mécanique interne d'une tête d'attention ? A) Il calcule les scores de similarité pour décider à quels autres tokens s'intéresser. B) Il lit le token source sélectionné et écrit l'information pertinente directement dans le flux résiduel du token de destination. C) Il mappe l'espace polysémantique vers un espace parcimonieux à très haute dimension. D) Il génère le token d'arrêt (EOS) de manière auto-régressive.
Réponse : B
Quel phénomène fondamental force un grand modèle de langage à représenter un concept sémantique sous la forme d'une combinaison linéaire de neurones plutôt que par l'activation d'un seul neurone isolé ?
Réponse : Le phénomène de superposition, dû au fait qu'il y a plus de concepts sémantiques réels à retenir que de dimensions disponibles dans l'espace latent du modèle.
Quelle architecture non-supervisée allez-vous entraîner sur les activations internes d'un LLM gelé pour réussir à désintriquer les concepts polysémantiques en forçant une contrainte L1 ?
Réponse : Un Sparse Autoencoder (SAE).
Quel est le protocole de l'Activation Patching (ou Causal Tracing) pour localiser le moment exact où un modèle de langage prend une décision critique ? A) Optimiser un classifieur linéaire sur toutes les couches simultanément. B) Ajouter du bruit gaussien sur la matrice d'attention et mesurer la perte de performance globale. C) Intercepter une activation interne lors de l'analyse d'un prompt propre, et la remplacer par celle issue de l'évaluation d'un prompt corrompu pour observer un basculement de la prédiction. D) Réinitialiser de manière aléatoire la dernière couche du modèle et remonter de manière récursive.
Réponse : C
Si vous auditez la présence spatiale de concepts spécifiques dans l'espace latent d'un LLM, que prouvez-vous si un classifieur linéaire basique entraîné sur les activations de la couche L obtient une haute précision ?
Réponse : Vous prouvez (par la méthode du Linear Probing) que la couche L a encodé linéairement ce concept abstrait sous forme de direction vectorielle dans son flux résiduel.
En ingénierie logicielle (MLOps), quelle contrainte physique justifie l'utilisation d'une architecture asynchrone séparant le service d'inférence du service de génération de l'explication ? A) Le risque de vulnérabilités adversariennes sur l'API d'inférence. B) L'interdiction légale du RGPD d'associer un ID patient à une matrice de gradients. C) Le coût de calcul massif des explications (SHAP, IG) qui prendrait trop de temps et empêcherait de garantir une latence de prédiction en temps réel. D) L'incompatibilité entre les bibliothèques TensorRT et Captum.
Réponse : C
Pour entraîner un modèle de la famille Explainable Boosting Machines (EBM) sur des millions de lignes, quelle stratégie algorithmique précise permet d'éviter l'usage de splines complexes tout en préservant l'additivité ?
Réponse : L'entraînement séquentiel de forêts d'arbres de décision très peu profonds, effectué variable par variable (feature par feature) dans un mode tour de rôle (round-robin) à un taux d'apprentissage très faible.