-
Quels sont les deux phénomènes rendant l’apprentissage difficile dans les réseaux profonds ?
Réponse : Vanishing gradient et Exploding gradient.
-
Quelle technique permet de limiter l’exploding gradient ?
Réponse : Gradient clipping.
-
Pourquoi une initialisation à zéro des poids est une mauvaise idée ?
Réponse : Les neurones restent identiques, on ne casse pas la symétrie.
-
Que se passe-t-il si tous les poids sont identiques dans un MLP ?
Réponse : Toutes les sorties sont identiques, les gradients aussi.
-
Quelle initialisation permet de conserver la variance à travers les couches avec tanh ou sigmoid ?
Réponse : Xavier initialization.
-
Quelle initialisation est adaptée pour les fonctions ReLU ?
Réponse : Kaiming ou MSRA initialization.
-
Pourquoi la ReLU nécessite une initialisation différente ?
Réponse : Car la moitié des neurones sont éteints, la variance est divisée par deux.
-
Comment appelle-t-on une architecture qui ajoute des raccourcis pour faciliter la propagation du gradient ?
Réponse : Réseau résiduel (ResNet).
-
Quel est le rôle principal du skip connection dans un réseau résiduel ?
Réponse : Permettre au gradient de circuler plus facilement.
-
Quels sont les quatre paramètres appris dans la Batch Normalization ?
Réponse : Moyenne glissante, écart-type glissant, facteur d’échelle (γ), biais (β).
-
Où place-t-on généralement la BatchNorm ?
Réponse : Après une couche linéaire/convolution et avant la fonction d’activation.
-
Quel est l’avantage de la BatchNorm à l’inférence ?
Réponse : Très légère, utilise les valeurs glissantes pré-apprises.
-
Quelle normalisation est utilisée quand la taille de batch est petite ?
Réponse : LayerNorm ou GroupNorm.
-
Quels avantages apporte la BatchNorm ?
Réponse : Convergence plus rapide et réseaux plus stables.
-
Quel problème commun partage la sigmoid et la tanh ?
Réponse : Saturation qui tue le gradient.
-
Pourquoi la sigmoid n’est-elle pas idéale ?
Réponse : Saturation, sortie non centrée, coûteuse à calculer.
-
Quelle est la plage de sortie de la tangente hyperbolique ?
Réponse : [-1, 1].
-
Quel problème cause une fonction d’activation toujours positive ?
Réponse : Les gradients ont tous le même signe.
-
Quel effet positif a la ReLU sur la convergence ?
Réponse : Elle accélère l’apprentissage.
-
Quel est l’inconvénient majeur de la ReLU ?
Réponse : Pas de gradient si l’entrée est négative.
-
Quelle version de ReLU garde un petit gradient dans le négatif ?
Réponse : Leaky ReLU.
-
Quelle fonction d’activation est proche de ReLU mais dérivable partout ?
Réponse : GELU.
-
Quelle fonction d’activation est la plus utilisée par défaut ?
Réponse : ReLU.
-
Quelle fonction combine l’efficacité de ReLU et la stabilité autour de zéro ?
Réponse : ELU.
-
Quelle fonction permet une auto-normalisation dans les réseaux profonds ?
Réponse : SELU.
-
Quelle est l’idée du “learning rate decay” ?
Réponse : Réduire progressivement le taux d’apprentissage.
-
Quelle stratégie réduit le LR à des points fixes ?
Réponse : Step Decay.
-
Quelle planification réduit le LR linéairement jusqu’à zéro ?
Réponse : Linear Decay.
-
Quelle planification suit une courbe douce de type cosinus ?
Réponse : Cosine Decay.
-
Quelle stratégie commence avec un LR constant avant de décroitre ?
Réponse : Warmup.
-
Quelle stratégie redémarre périodiquement le planificateur ?
Réponse : Learning Rate Restart.
-
Comment vérifier qu’une initialisation de poids est correcte ?
Réponse : Vérifier que la loss initiale est stable.
-
Que signifie une loss qui explose ou devient NaN au début ?
Réponse : LR trop haut ou mauvaise initialisation.
-
Que faire si la loss ne descend pas du tout ?
Réponse : Augmenter le learning rate.
-
Quelle méthode d’exploration systématique des hyperparamètres est très coûteuse ?
Réponse : Grid Search.
-
Quelle méthode aléatoire est souvent plus efficace ?
Réponse : Random Search.
-
Quelle est la première chose à vérifier avant un tuning d’hyperparamètres ?
Réponse : La perte initiale.
-
Quel est l’intérêt d’un ensemble de modèles (ensemblistes) ?
Réponse : Améliorer les performances de quelques %.
-
Comment combiner les sorties de plusieurs modèles ensemblistes ?
Réponse : Moyenne ou vote.
-
Quel est le principe du Transfer Learning ?
Réponse : Réutiliser un modèle préentraîné sur une autre tâche.
-
Que fait-on généralement du dernier bloc du modèle préentraîné ?
Réponse : On le remplace car il est spécifique à la tâche d’origine.
-
Comment s’appelle le processus d’entraînement sur une nouvelle tâche ?
Réponse : Finetuning.
-
Pourquoi gèle-t-on certaines couches (freeze) ?
Réponse : Pour économiser calculs et éviter le surapprentissage.
-
Quel learning rate utilise-t-on souvent pour le finetuning ?
Réponse : Dix fois plus petit que l’original.
-
Quelle propriété clé des RNN permet de gérer des séquences ?
Réponse : Partage des poids à travers le temps.
-
Quel est le principal problème des RNN classiques ?
Réponse : Vanishing/exploding gradient sur longues séquences.
-
Quelle technique limite la profondeur de rétropropagation ?
Réponse : Truncated BPTT.
-
Quelles architectures récurrentes utilisent des portes ?
Réponse : GRU et LSTM.
-
Quel rôle joue la “forget gate” dans le LSTM ?
Réponse : Décide quelles informations de l’état précédent conserver.
-
Pourquoi la self-attention a-t-elle remplacé les RNN ?
Réponse : Plus parallélisable et gère mieux les longues dépendances.
-
Quel est le rôle principal du mécanisme d’attention ?
Réponse : Se concentrer sur une partie précise de l’entrée.
-
Dans le seq2seq classique, quel problème le mécanisme d’attention cherche-t-il à résoudre ?
Réponse : Le goulot d’étranglement du vecteur de contexte unique.
-
Quelles sont les trois entrées principales d’une couche d’attention ?
Réponse : La requête (Q), les clés (K) et les valeurs (V).
-
Quelle fonction est utilisée pour transformer les scores de similarité en poids d’attention ?
Réponse : Softmax.
-
Comment calcule-t-on la sortie d’une couche d’attention ?
Réponse : Somme pondérée des valeurs par les poids d’attention.
-
Pourquoi divise-t-on le produit scalaire par √d dans la self-attention ?
Réponse : Pour éviter que le softmax ne sature quand la dimension augmente.
-
Que signifie “self-attention” ?
Réponse : Les requêtes, clés et valeurs proviennent de la même entrée.
-
Pourquoi ajoute-t-on un encodage de position dans la self-attention ?
Réponse : Parce qu’elle est invariante à la permutation des entrées.
-
Quelle est la différence entre self-attention et masked self-attention ?
Réponse : Le masked self-attention cache les entrées futures pour empêcher de “voir le futur”.
-
Quel est l’intérêt du multi-head attention ?
Réponse : Multiplier les sous-espaces d’attention sans augmenter la profondeur du réseau.