CSC 8607 – Introduction au deep learning

Quels sont les deux phénomènes rendant l’apprentissage difficile dans les réseaux profonds ?

Quelle technique permet de limiter l’exploding gradient ?

Pourquoi une initialisation à zéro des poids est une mauvaise idée ?

Que se passe-t-il si tous les poids sont identiques dans un MLP ?

Quelle initialisation permet de conserver la variance à travers les couches avec tanh ou sigmoid ?

Quelle initialisation est adaptée pour les fonctions ReLU ?

Pourquoi la ReLU nécessite une initialisation différente ?

Comment appelle-t-on une architecture qui ajoute des raccourcis pour faciliter la propagation du gradient ?

Quel est le rôle principal du skip connection dans un réseau résiduel ?

Quels sont les quatre paramètres appris dans la Batch Normalization ?

Où place-t-on généralement la BatchNorm ?

Quel est l’avantage de la BatchNorm à l’inférence ?

Quelle normalisation est utilisée quand la taille de batch est petite ?

Quels avantages apporte la BatchNorm ?

Quel problème commun partage la sigmoid et la tanh ?

Pourquoi la sigmoid n’est-elle pas idéale ?

Quelle est la plage de sortie de la tangente hyperbolique ?

Quel problème cause une fonction d’activation toujours positive ?

Quel effet positif a la ReLU sur la convergence ?

Quel est l’inconvénient majeur de la ReLU ?

Quelle version de ReLU garde un petit gradient dans le négatif ?

Quelle fonction d’activation est proche de ReLU mais dérivable partout ?

Quelle fonction d’activation est la plus utilisée par défaut ?

Quelle fonction combine l’efficacité de ReLU et la stabilité autour de zéro ?

Quelle fonction permet une auto-normalisation dans les réseaux profonds ?

Quelle est l’idée du “learning rate decay” ?

Quelle stratégie réduit le LR à des points fixes ?

Quelle planification réduit le LR linéairement jusqu’à zéro ?

Quelle planification suit une courbe douce de type cosinus ?

Quelle stratégie commence avec un LR constant avant de décroitre ?

Quelle stratégie redémarre périodiquement le planificateur ?

Comment vérifier qu’une initialisation de poids est correcte ?

Que signifie une loss qui explose ou devient NaN au début ?

Que faire si la loss ne descend pas du tout ?

Quelle méthode d’exploration systématique des hyperparamètres est très coûteuse ?

Quelle méthode aléatoire est souvent plus efficace ?

Quelle est la première chose à vérifier avant un tuning d’hyperparamètres ?

Quel est l’intérêt d’un ensemble de modèles (ensemblistes) ?

Comment combiner les sorties de plusieurs modèles ensemblistes ?

Quel est le principe du Transfer Learning ?

Que fait-on généralement du dernier bloc du modèle préentraîné ?

Comment s’appelle le processus d’entraînement sur une nouvelle tâche ?

Pourquoi gèle-t-on certaines couches (freeze) ?

Quel learning rate utilise-t-on souvent pour le finetuning ?

Quelle propriété clé des RNN permet de gérer des séquences ?

Quel est le principal problème des RNN classiques ?

Quelle technique limite la profondeur de rétropropagation ?

Quelles architectures récurrentes utilisent des portes ?

Quel rôle joue la “forget gate” dans le LSTM ?

Pourquoi la self-attention a-t-elle remplacé les RNN ?

Quel est le rôle principal du mécanisme d’attention ?

Dans le seq2seq classique, quel problème le mécanisme d’attention cherche-t-il à résoudre ?

Quelles sont les trois entrées principales d’une couche d’attention ?

Quelle fonction est utilisée pour transformer les scores de similarité en poids d’attention ?

Comment calcule-t-on la sortie d’une couche d’attention ?

Pourquoi divise-t-on le produit scalaire par √d dans la self-attention ?

Que signifie “self-attention” ?

Pourquoi ajoute-t-on un encodage de position dans la self-attention ?

Quelle est la différence entre self-attention et masked self-attention ?

Quel est l’intérêt du multi-head attention ?

CSC 8607 – Introduction au deep learning

CC3 : Préparation