CSC 8607 – Introduction au deep learning

Sur quels splits est-on susceptible d’overfit ?

À quoi faut-il faire attention quand on fait un découpage temporel ?

J’ai de bons résultats sur mon train et val, mais de mauvais résultats sur mon test. Donnez deux raisons.

Donner le nom de 5 métriques de classification.

Citez deux méthodes pour faire de la régularisation L2.

Quel mécanisme peut-on ajouter à la descente de gradient pour ajouter de l’inertie ?

Donnez le nom de deux optimiseurs mettant en place la normalisation du gradient.

Quel optimiseur fait à la fois le moment et la normalisation du gradient ?

Qu’est-ce que le weight decay ?

Quel est l’effet principal du weight decay sur les poids ?

Quel type de régularisation consiste à arrêter l'entraînement quand la val ne s’améliore plus ?

Dans le code d’early stopping, à quoi sert best_state = copy.deepcopy(...) ?

Quelle condition arrête l’entraînement dans l’early stopping ?

Quelle opération est apprise à chaque convolution ?

Que faut-il ajouter pour chaîner les convolutions ?

Quel hyperparamètre permet de ne pas perdre de taille d’image pendant une convolution ?

Quel hyperparamètre gère les sauts entre deux positions du kernel ?

Formule : taille de sortie avec padding P, stride S, kernel K et entrée N ?

Combien de paramètres pour une couche Conv avec Cout filtres 3x3, Cin=3 ?

Image 3×8×8, 10 filtres 3×3, stride=1, padding=1. Taille de sortie ?

Image 3×8×8, 10 filtres 3×3, stride=1, padding=1. Nombre de paramètres ?

Image 1×4×4, max pooling 2×2, stride=2. Taille de sortie ?

Image 1×4×4, max pooling 2×2, stride=2. Nombre de paramètres ?

Pourquoi les CNNs sont meilleurs que les MLPs sur les images ?

Quel est l’intérêt du partage de poids dans un CNN ?

Que signifie Cout dans une couche de convolution ?

Comment augmenter le champ réceptif sans augmenter drastiquement le nombre de couches ?

Formule du champ réceptif après L couches de taille K ?

À quoi sert le padding dans une convolution ?

Quelle est la convention de dimension d’image en PyTorch ?

Combien de FLOPs approximatifs pour une couche Conv ?

Que fait une convolution avec stride > 1 ?

Pourquoi augmente-t-on Cout quand H et W diminuent ?

Quel est le but principal du dropout ?

Quand applique-t-on le dropout ?

Pourquoi ne faut-il pas mettre de dropout sur la dernière couche ?

Comment activer ou désactiver le dropout en PyTorch ?

Quelle transformation rend le modèle plus robuste aux invariants des données ?

Quelle est la différence entre preprocessing et augmentation ?

Une transformation d’augmentation modifie-t-elle le label ?

Citez deux exemples d’augmentation valides sur des images.

Citez un exemple d’augmentation invalide.

Pourquoi ne faut-il pas toujours faire un horizontal flip ?

Quelles sont les stats utilisées pour normaliser une image ?

Que fait CenterCrop ?

Pourquoi recadrer une image ?

Pourquoi utiliser des transformations aléatoires à l’entraînement ?

CSC 8607 – Introduction au deep learning

CC2 : Préparation