CSC 8608 – Concepts avancés et applications du deep learning

En vision par ordinateur en production, quel est l’objectif d’optimisation prioritaire au-delà d’un score de benchmark ?

Vous devez décrire un pipeline complet de vision de bout en bout. Quelle séquence est correcte ?
A. Modèle → Prétraitement → Décision métier → Post-traitement
B. Prétraitement → Modèle → Post-traitement → Décision métier
C. Post-traitement → Modèle → Prétraitement → Décision métier
D. Prétraitement → Post-traitement → Modèle → Décision métier

En détection d’objets, que représente typiquement une prédiction (b_i, c_i, s_i) ?

Lors du calcul d’AP/mAP en détection, dans quel cas une prédiction est-elle comptée comme True Positive (TP) ?
A. La classe est correcte, indépendamment du recouvrement
B. Le score est supérieur à 0.5, indépendamment du recouvrement
C. L’IoU avec la vérité terrain est ≥ τ et la classe est correcte
D. L’IoU avec la vérité terrain est ≤ τ et la classe est correcte

Donnez la définition de l’IoU entre deux boîtes B et B′.

Comment interprétez-vous « mAP élevé mais recall faible » en détection d’objets ?

Quelle est la différence entre segmentation sémantique et segmentation d’instances ?

Dans quels cas la métrique Dice est-elle particulièrement pertinente en segmentation, et pourquoi ?

Dans un pipeline OCR / Document AI, quelles sont les trois grandes étapes fonctionnelles typiques ?

Pour un système OCR où certains champs doivent être exacts (tolérance potentiellement nulle), quel indicateur est le plus aligné avec le KPI métier ?
A. CER (Character Error Rate) global
B. WER (Word Error Rate) global
C. Exactitude des champs clés (ex. : total, date, identifiant)
D. mIoU (mean IoU)

En tracking vidéo « tracking-by-detection », quel réflexe de debug est recommandé pour diagnostiquer les erreurs ?

Citez deux difficultés concrètes fréquentes qui dégradent les performances en production en vision (robustesse).

Pourquoi les augmentations doivent-elles être déterministes lors de l’évaluation d’un modèle ?

Dans un Vision Transformer (ViT), pour une image de taille H×W et des patchs de taille P, quel est le nombre de tokens N (hors token spécial) ?
A. N = H·W·P
B. N = H/P + W/P
C. N = (H/P)·(W/P)
D. N = (P/H)·(P/W)

Quel est le coût clé (ordre de grandeur) de l’attention « full » d’un Transformer en fonction du nombre de tokens N ?

Dans Swin Transformer, quel mécanisme rend l’attention plus efficace qu’une attention globale, et quel coût approximatif cela induit ?

Quel est l’effet principal d’un FPN (Feature Pyramid Network) sur la détection d’objets, notamment pour les petits objets ?

Dans DETR, quelle brique remplace conceptuellement le duo « anchors + NMS » pour obtenir des prédictions uniques ?
A. Softmax température + top-k
B. Hungarian matching (matching biparti)
C. FPN (Feature Pyramid Network)
D. Letterboxing + padding

Donnez une différence opérationnelle entre « linear probe », « full fine-tune » et « adapters/LoRA » pour adapter un backbone pré-entraîné.

Citez trois signaux concrets à monitorer / logger en production pour un service de vision afin d’attraper des problèmes système et des dérives.

Dans un système de génération d’images, quels sont les 4 axes qui entrent souvent en tension quand on cherche à optimiser la génération ?

Quelle proposition distingue correctement entraînement et sampling en génération d’images ?

A) Entraînement : générer une image à partir d’un seed ; Sampling : ajuster les paramètres du modèle pour mieux coller aux données
B) Entraînement : ajuster les paramètres du modèle pour rapprocher la distribution du modèle de celle des données ; Sampling : produire un échantillon (image) à partir du modèle (éventuellement conditionné)
C) Entraînement : choisir un scheduler ; Sampling : calculer exactement la vraisemblance log(p(x))
D) Entraînement : faire uniquement de l’inférence ; Sampling : faire uniquement de l’optimisation

Quelle est la différence entre génération unconditional et conditional ?

Donnez trois exemples de variables de conditionnement possibles c pour générer une image.

Quel triplet “famille de modèles → signal d’apprentissage” est correctement associé ?

A) VAE → adversarial ; GAN → reconstruction + KL ; Diffusion → prédiction de bruit/score
B) VAE → reconstruction + régularisation ; GAN → adversarial ; Diffusion → prédiction de bruit/score
C) VAE → prédiction de bruit/score ; GAN → densité explicite (log-likelihood) ; Diffusion → adversarial
D) VAE → cross-attention ; GAN → ELBO ; Diffusion → truncation trick

Pourquoi la génération directement en pixels est-elle considérée comme coûteuse, et quel est le principe de la génération en espace latent ?

Dans un VAE, quels sont les deux objectifs pratiques combinés dans l’ELBO ?

Dans un VAE, que diagnostique typiquement un terme KL ≈ 0 dans l’ELBO ?

A) Un mismatch prior/posterior : échantillonner z∼p(z) devient mauvais car q(z|x) est trop éloigné
B) Un “posterior collapse” : le décodeur ignore le latent z
C) Un modèle implicite : on peut sampler mais pas calculer p(x)
D) Une augmentation de diversité via un “truncation trick”

Donnez la formule du reparameterization trick pour un latent Gaussien diagonal.

Quel est l’effet principal d’un β-VAE quand on augmente β (dans le terme KL) ?

Que signifie “modèle implicite” dans le contexte de la génération d’images ?

Qu’appelle-t-on mode collapse dans les GAN, et quel impact cela a-t-il sur les échantillons générés ?

Quel est l’objectif de WGAN-GP et quel mécanisme ajoute-t-il par rapport à WGAN “classique” ?

Dans l’image-to-image, quelle différence structurelle sépare un modèle “paired” type pix2pix d’un modèle “unpaired” type CycleGAN ?

Dans le processus forward d’un modèle de diffusion, à quoi correspond βt ?

Dans la formule x_t = √(ᾱ_t) x₀ + √(1−ᾱ_t) ϵ, quelle est la loi de ϵ ?

A) ϵ ∼ N(0, I)
B) ϵ ∼ Uniform([0,1])
C) ϵ ∼ Laplace(0, I)
D) ϵ ∼ Bernoulli(0.5)

Citez au moins 4 paramètres qui conditionnent la reproductibilité d’une génération par diffusion en pratique.

En conditionnement texte via cross-attention dans un modèle de diffusion text-to-image, quelle correspondance est correcte ?

A) queries = embeddings texte ; keys/values = features U-Net
B) queries = features U-Net ; keys/values = embeddings texte
C) queries = paramètres βt ; keys/values = seed
D) queries = masque d’inpainting ; keys/values = scheduler

Quand vous augmentez la guidance scale (CFG), quel compromis réglez-vous, et à quoi peut servir un negative prompt dans ce cadre ?

Donnez un exemple de métrique distribution-level et un exemple de métrique sample-level, en précisant ce qu’elles évaluent.

CSC 8608 – Concepts avancés et applications du deep learning

CC1 : Préparation