Si un MLP a 3 neurones d’entrée, 4 neurones dans une couche cachée, et 2 neurones dans la couche de sortie, combien a-t-il de paramètres (sans compter les biais) ?
Réponse : 3×4 + 4×2 = 20.
Donnez le nom d’une fonction de coût pour la régression.
Réponse : Erreur quadratique moyenne (MSE).
Donnez le nom d’une fonction de coût pour la classification.
Réponse : Entropie croisée.
Comment s’appelle l’algorithme qui ajuste les paramètres du réseau pour minimiser la perte ?
Réponse : Descente de gradient.
Ma descente de gradient diverge. Comment le voir et que faire sur le learning rate ?
Réponse : La courbe de perte augmente/oscille ; il faut diminuer le learning rate.
Comment s’appelle la descente de gradient qui met à jour les paramètres après chaque exemple ?
Réponse : Stochastic Gradient Descent (SGD).
Comment s’appelle la variante qui met à jour à partir de petits sous-ensembles d’exemples ?
Réponse : Descente de gradient en mini-batch.
Comment s’appelle l’algorithme qui permet de calculer efficacement les gradients dans un réseau ?
Réponse : Backpropagation.
Sur quelle règle mathématique repose la backpropagation ?
Réponse : La règle de la dérivation en chaîne.
Qu’est-ce qu’il faut avoir effectué avant de lancer la backpropagation ?
Réponse : Un forward pass en stockant les valeurs intermédiaires.
Quelle structure de données représente le déroulement du calcul pour le forward et le backward ?
Réponse : Un graphe de calcul.
Dans PyTorch, quelle classe étend-on pour définir un modèle de réseau de neurones ?
Réponse :nn.Module.
Comment s’appelle une itération complète sur tout le jeu de données d’entraînement ?
Réponse : Une epoch.
Pourquoi a-t-on besoin d’une fonction d’activation non linéaire dans un MLP ?
Réponse : Sinon la composition de couches resterait linéaire (pas de puissance de représentation).
À quoi sert le biais b dans un neurone ?
Réponse : À décaler l’activation (déplacer l’hyperplan/seuil).
Donnez la formule de sortie d’un perceptron pour une entrée x, des poids w et un biais b.
Réponse :ŷ = g(wᵀx + b).
(Forme matricielle) Pour une couche de M neurones, des entrées de taille N et un batch de m exemples, quelles sont les dimensions de W, X et b ?
Réponse :W∈ℝ^{M×N}, X∈ℝ^{N×m}, b∈ℝ^{M×1}.
Donnez la dérivée de la fonction sigmoïde.
Réponse :σ′(x) = σ(x)[1−σ(x)].
Donnez la dérivée de tanh.
Réponse :1 − tanh²(x).
Donnez la dérivée (presque partout) de ReLU.
Réponse :0 si x ≤ 0, 1 si x > 0.
À quoi sert la fonction softmax en sortie d’un classifieur multiclasse ?
Réponse : Transformer des logits en une distribution de probabilités (somme à 1).
Quelle règle de décision applique-t-on après un softmax pour prédire la classe ?
Réponse : L’argmax.
Pour une classification binaire, quelle perte utilise-t-on avec une sortie sigmoïde ?
Réponse : Entropie croisée binaire (log loss).
Quelle variante de la BCE faut-il utiliser quand on manipule des logits (avant sigmoïde) en PyTorch ?
Réponse :binary_cross_entropy_with_logits.
Dans un classifieur binaire linéaire, quelle équation caractérise la frontière de décision quand σ(z)=0,5 ?
Réponse :z = 0.
Écrivez la mise à jour des poids en descente de gradient (pas η).
Réponse :W ← W − η · ∂J/∂W.
Effet d’un learning rate trop petit vs trop grand (une phrase).
Réponse : Trop petit : convergence lente ; trop grand : oscillations ou divergence.
(QCM) Laquelle des variantes suivantes utilise toutes les données à chaque mise à jour ? A) SGD B) Mini-batch C) Batch complet
Réponse : C) Batch complet.
(QCM) Quel est l’avantage principal de la forme matricielle (vectorisation) pour le forward pass ? A) Simplicité mathématique B) Accélération par calcul parallèle C) Plus de précision numérique
Réponse : B) Accélération par calcul parallèle.
Pourquoi stocke-t-on les valeurs intermédiaires du forward dans le graphe de calcul ?
Réponse : Pour les réutiliser lors du calcul des gradients (règle de chaîne).
Dans un graphe de calcul, que représentent nœuds et arêtes ?
(QCM) Que sont les logits ? A) Des probabilités normalisées B) Des scores non bornés avant softmax/sigmoïde C) Des labels encodés
Réponse : B) Des scores non bornés avant normalisation.
(QCM) Laquelle est fausse ? A) Empiler des couches linéaires sans activation reste linéaire B) ReLU est non linéaire et parcimonieuse C) La dérivée de tanh est tanh(x)