CSC 8607 – Introduction au deep learning

Portail informatique

CC3 : Préparation

    1. Quels sont les deux phénomènes rendant l’apprentissage difficile dans les réseaux profonds ?
    2. Quelle technique permet de limiter l’exploding gradient ?
    3. Pourquoi une initialisation à zéro des poids est une mauvaise idée ?
    4. Que se passe-t-il si tous les poids sont identiques dans un MLP ?
    5. Quelle initialisation permet de conserver la variance à travers les couches avec tanh ou sigmoid ?
    6. Quelle initialisation est adaptée pour les fonctions ReLU ?
    7. Pourquoi la ReLU nécessite une initialisation différente ?
    8. Comment appelle-t-on une architecture qui ajoute des raccourcis pour faciliter la propagation du gradient ?
    9. Quel est le rôle principal du skip connection dans un réseau résiduel ?
    10. Quels sont les quatre paramètres appris dans la Batch Normalization ?
    11. Où place-t-on généralement la BatchNorm ?
    12. Quel est l’avantage de la BatchNorm à l’inférence ?
    13. Quelle normalisation est utilisée quand la taille de batch est petite ?
    14. Quels avantages apporte la BatchNorm ?
    15. Quel problème commun partage la sigmoid et la tanh ?
    16. Pourquoi la sigmoid n’est-elle pas idéale ?
    17. Quelle est la plage de sortie de la tangente hyperbolique ?
    18. Quel problème cause une fonction d’activation toujours positive ?
    19. Quel effet positif a la ReLU sur la convergence ?
    20. Quel est l’inconvénient majeur de la ReLU ?
    21. Quelle version de ReLU garde un petit gradient dans le négatif ?
    22. Quelle fonction d’activation est proche de ReLU mais dérivable partout ?
    23. Quelle fonction d’activation est la plus utilisée par défaut ?
    24. Quelle fonction combine l’efficacité de ReLU et la stabilité autour de zéro ?
    25. Quelle fonction permet une auto-normalisation dans les réseaux profonds ?
    26. Quelle est l’idée du “learning rate decay” ?
    27. Quelle stratégie réduit le LR à des points fixes ?
    28. Quelle planification réduit le LR linéairement jusqu’à zéro ?
    29. Quelle planification suit une courbe douce de type cosinus ?
    30. Quelle stratégie commence avec un LR constant avant de décroitre ?
    31. Quelle stratégie redémarre périodiquement le planificateur ?
    32. Comment vérifier qu’une initialisation de poids est correcte ?
    33. Que signifie une loss qui explose ou devient NaN au début ?
    34. Que faire si la loss ne descend pas du tout ?
    35. Quelle méthode d’exploration systématique des hyperparamètres est très coûteuse ?
    36. Quelle méthode aléatoire est souvent plus efficace ?
    37. Quelle est la première chose à vérifier avant un tuning d’hyperparamètres ?
    38. Quel est l’intérêt d’un ensemble de modèles (ensemblistes) ?
    39. Comment combiner les sorties de plusieurs modèles ensemblistes ?
    40. Quel est le principe du Transfer Learning ?
    41. Que fait-on généralement du dernier bloc du modèle préentraîné ?
    42. Comment s’appelle le processus d’entraînement sur une nouvelle tâche ?
    43. Pourquoi gèle-t-on certaines couches (freeze) ?
    44. Quel learning rate utilise-t-on souvent pour le finetuning ?
    45. Quelle propriété clé des RNN permet de gérer des séquences ?
    46. Quel est le principal problème des RNN classiques ?
    47. Quelle technique limite la profondeur de rétropropagation ?
    48. Quelles architectures récurrentes utilisent des portes ?
    49. Quel rôle joue la “forget gate” dans le LSTM ?
    50. Pourquoi la self-attention a-t-elle remplacé les RNN ?
    51. Quel est le rôle principal du mécanisme d’attention ?
    52. Dans le seq2seq classique, quel problème le mécanisme d’attention cherche-t-il à résoudre ?
    53. Quelles sont les trois entrées principales d’une couche d’attention ?
    54. Quelle fonction est utilisée pour transformer les scores de similarité en poids d’attention ?
    55. Comment calcule-t-on la sortie d’une couche d’attention ?
    56. Pourquoi divise-t-on le produit scalaire par √d dans la self-attention ?
    57. Que signifie “self-attention” ?
    58. Pourquoi ajoute-t-on un encodage de position dans la self-attention ?
    59. Quelle est la différence entre self-attention et masked self-attention ?
    60. Quel est l’intérêt du multi-head attention ?