CSC 8607 – Introduction au deep learning

Donnez trois exemples de fonctions d’activation.

Si un MLP a 3 neurones d’entrée, 4 neurones dans une couche cachée, et 2 neurones dans la couche de sortie, combien a-t-il de paramètres (sans compter les biais) ?

Donnez le nom d’une fonction de coût pour la régression.

Donnez le nom d’une fonction de coût pour la classification.

Comment s’appelle l’algorithme qui ajuste les paramètres du réseau pour minimiser la perte ?

Ma descente de gradient diverge. Comment le voir et que faire sur le learning rate ?

Comment s’appelle la descente de gradient qui met à jour les paramètres après chaque exemple ?

Comment s’appelle la variante qui met à jour à partir de petits sous-ensembles d’exemples ?

Comment s’appelle l’algorithme qui permet de calculer efficacement les gradients dans un réseau ?

Sur quelle règle mathématique repose la backpropagation ?

Qu’est-ce qu’il faut avoir effectué avant de lancer la backpropagation ?

Quelle structure de données représente le déroulement du calcul pour le forward et le backward ?

Dans PyTorch, quelle classe étend-on pour définir un modèle de réseau de neurones ?

Comment s’appelle une itération complète sur tout le jeu de données d’entraînement ?

Pourquoi a-t-on besoin d’une fonction d’activation non linéaire dans un MLP ?

À quoi sert le biais b dans un neurone ?

Donnez la formule de sortie d’un perceptron pour une entrée x, des poids w et un biais b.

(Forme matricielle) Pour une couche de M neurones, des entrées de taille N et un batch de m exemples, quelles sont les dimensions de W, X et b ?

Donnez la dérivée de la fonction sigmoïde.

Donnez la dérivée de tanh.

Donnez la dérivée (presque partout) de ReLU.

À quoi sert la fonction softmax en sortie d’un classifieur multiclasse ?

Quelle règle de décision applique-t-on après un softmax pour prédire la classe ?

Pour une classification binaire, quelle perte utilise-t-on avec une sortie sigmoïde ?

Quelle variante de la BCE faut-il utiliser quand on manipule des logits (avant sigmoïde) en PyTorch ?

Dans un classifieur binaire linéaire, quelle équation caractérise la frontière de décision quand σ(z)=0,5 ?

Écrivez la mise à jour des poids en descente de gradient (pas η).

Effet d’un learning rate trop petit vs trop grand (une phrase).

(QCM) Laquelle des variantes suivantes utilise toutes les données à chaque mise à jour ?
A) SGD B) Mini-batch C) Batch complet

(QCM) Quel est l’avantage principal de la forme matricielle (vectorisation) pour le forward pass ?
A) Simplicité mathématique B) Accélération par calcul parallèle C) Plus de précision numérique

Pourquoi stocke-t-on les valeurs intermédiaires du forward dans le graphe de calcul ?

Dans un graphe de calcul, que représentent nœuds et arêtes ?

En PyTorch, comment active-t-on le calcul automatique des gradients pour un tenseur ?

Quelle méthode déclenche la rétropropagation du gradient à partir d’un scalaire de perte ?

Après l’appel à backward(), où PyTorch stocke-t-il les gradients des paramètres ?

Lors d’une boucle d’entraînement manuelle, comment remet-on à zéro les gradients accumulés ?

Quel type de tenseur PyTorch utilise-t-on pour représenter des indices de classes (multiclasse) ?

Donnez la définition du risque (ou coût) empirique.

Quelle est la sortie attendue d’un neurone pour un problème de régression vs classification binaire ?

(QCM) Que sont les logits ?
A) Des probabilités normalisées B) Des scores non bornés avant softmax/sigmoïde C) Des labels encodés

(QCM) Laquelle est fausse ?
A) Empiler des couches linéaires sans activation reste linéaire
B) ReLU est non linéaire et parcimonieuse
C) La dérivée de tanh est tanh(x)

CSC 8607 – Introduction au deep learning

CC1 : Préparation