En vision par ordinateur en production, quel est l’objectif d’optimisation prioritaire au-delà d’un score de benchmark ?
Réponse : Maximiser une utilité U sous contraintes (latence, coût, risque), par exemple U = Gain − λ·Coût − μ·Risque, car la distribution en production peut différer d’un benchmark.
Vous devez décrire un pipeline complet de vision de bout en bout. Quelle séquence est correcte ? A. Modèle → Prétraitement → Décision métier → Post-traitement B. Prétraitement → Modèle → Post-traitement → Décision métier C. Post-traitement → Modèle → Prétraitement → Décision métier D. Prétraitement → Post-traitement → Modèle → Décision métier
Réponse : B.
En détection d’objets, que représente typiquement une prédiction (bi, ci, si) ?
Réponse : bi est une boîte (x1, y1, x2, y2), ci une classe, et si un score de confiance, avec un nombre N de prédictions variable.
Lors du calcul d’AP/mAP en détection, dans quel cas une prédiction est-elle comptée comme True Positive (TP) ? A. La classe est correcte, indépendamment du recouvrement B. Le score est supérieur à 0.5, indépendamment du recouvrement C. L’IoU avec la vérité terrain est ≥ τ et la classe est correcte D. L’IoU avec la vérité terrain est ≤ τ et la classe est correcte
Réponse : C.
Donnez la définition de l’IoU entre deux boîtes B et B′.
Réponse : IoU(B, B′) = |B ∩ B′| / |B ∪ B′|.
Comment interprétez-vous « mAP élevé mais recall faible » en détection d’objets ?
Réponse : Le système rate des objets (beaucoup de faux négatifs), même si les prédictions conservées sont plutôt propres.
Quelle est la différence entre segmentation sémantique et segmentation d’instances ?
Réponse : La segmentation sémantique assigne un label à chaque pixel (par classe) tandis que la segmentation d’instances distingue chaque occurrence d’objet (un identifiant d’objet par pixel).
Dans quels cas la métrique Dice est-elle particulièrement pertinente en segmentation, et pourquoi ?
Réponse : Quand les objets sont petits ou les classes déséquilibrées, car Dice (proche de F1) est bien adaptée à ces situations.
Dans un pipeline OCR / Document AI, quelles sont les trois grandes étapes fonctionnelles typiques ?
Réponse : Détection des zones de texte → reconnaissance de séquence → structuration / extraction de champs.
Pour un système OCR où certains champs doivent être exacts (tolérance potentiellement nulle), quel indicateur est le plus aligné avec le KPI métier ? A. CER (Character Error Rate) global B. WER (Word Error Rate) global C. Exactitude des champs clés (ex. : total, date, identifiant) D. mIoU (mean IoU)
Réponse : C.
En tracking vidéo « tracking-by-detection », quel réflexe de debug est recommandé pour diagnostiquer les erreurs ?
Réponse : Distinguer et analyser séparément les erreurs de détection et les erreurs d’association (liage d’identités).
Citez deux difficultés concrètes fréquentes qui dégradent les performances en production en vision (robustesse).
Réponse : Par exemple : variations d’illumination, motion blur, occlusions, arrière-plans trompeurs, reflets / écrans.
Pourquoi les augmentations doivent-elles être déterministes lors de l’évaluation d’un modèle ?
Réponse : Sinon les métriques deviennent instables : la performance mesurée varie à cause des transformations aléatoires.
Dans un Vision Transformer (ViT), pour une image de taille H×W et des patchs de taille P, quel est le nombre de tokens N (hors token spécial) ? A. N = H·W·P B. N = H/P + W/P C. N = (H/P)·(W/P) D. N = (P/H)·(P/W)
Réponse : C.
Quel est le coût clé (ordre de grandeur) de l’attention « full » d’un Transformer en fonction du nombre de tokens N ?
Réponse : Temps en O(N2·D) et mémoire des poids d’attention en O(N2).
Dans Swin Transformer, quel mécanisme rend l’attention plus efficace qu’une attention globale, et quel coût approximatif cela induit ?
Réponse : L’attention est calculée dans des fenêtres M×M (local attention), donnant un coût ~ O(N·M2), avec des fenêtres « shifted » entre couches pour faire communiquer les régions.
Quel est l’effet principal d’un FPN (Feature Pyramid Network) sur la détection d’objets, notamment pour les petits objets ?
Réponse : Injecter la sémantique des couches profondes vers des features à plus haute résolution via une pyramide multi-échelle, ce qui améliore le recall sur les petits objets.
Dans DETR, quelle brique remplace conceptuellement le duo « anchors + NMS » pour obtenir des prédictions uniques ? A. Softmax température + top-k B. Hungarian matching (matching biparti) C. FPN (Feature Pyramid Network) D. Letterboxing + padding
Réponse : B.
Donnez une différence opérationnelle entre « linear probe », « full fine-tune » et « adapters/LoRA » pour adapter un backbone pré-entraîné.
Réponse : Linear probe : backbone gelé, on entraîne seulement la head. Full fine-tune : on entraîne tous les paramètres. Adapters/LoRA : on n’entraîne que de petits modules ajoutés au modèle.
Citez trois signaux concrets à monitorer / logger en production pour un service de vision afin d’attraper des problèmes système et des dérives.
Réponse : Par exemple : latence p50/p95/p99, taux d’erreurs (décodage/timeouts), taux de sorties vides, distribution des scores, nombre d’objets par image, tailles de boîtes/masques, indicateurs de drift.
Dans un système de génération d’images, quels sont les 4 axes qui entrent souvent en tension quand on cherche à optimiser la génération ?
Quelle proposition distingue correctement entraînement et sampling en génération d’images ?
A) Entraînement : générer une image à partir d’un seed ; Sampling : ajuster les paramètres du modèle pour mieux coller aux données
B) Entraînement : ajuster les paramètres du modèle pour rapprocher la distribution du modèle de celle des données ; Sampling : produire un échantillon (image) à partir du modèle (éventuellement conditionné)
C) Entraînement : choisir un scheduler ; Sampling : calculer exactement la vraisemblance log(p(x))
D) Entraînement : faire uniquement de l’inférence ; Sampling : faire uniquement de l’optimisation
Réponse : B
Quelle est la différence entre génération unconditional et conditional ?
Réponse : Unconditional génère sans consigne (approxime p(x)) ; conditional génère sous contrainte c (approxime p(x|c)).
Donnez trois exemples de variables de conditionnement possibles c pour générer une image.
Réponse : Par exemple : texte, classe, image source, masque, carte (segmentation/edges/pose).
Quel triplet “famille de modèles → signal d’apprentissage” est correctement associé ?
A) VAE → adversarial ; GAN → reconstruction + KL ; Diffusion → prédiction de bruit/score
B) VAE → reconstruction + régularisation ; GAN → adversarial ; Diffusion → prédiction de bruit/score
C) VAE → prédiction de bruit/score ; GAN → densité explicite (log-likelihood) ; Diffusion → adversarial
D) VAE → cross-attention ; GAN → ELBO ; Diffusion → truncation trick
Réponse : B
Pourquoi la génération directement en pixels est-elle considérée comme coûteuse, et quel est le principe de la génération en espace latent ?
Réponse : En pixels, la dimension est énorme et les dépendances/texture sont coûteuses ; on apprend un encodeur/décodeur (souvent VAE), on génère dans z avec z=E(x) puis on reconstruit x≈D(z).
Dans un VAE, quels sont les deux objectifs pratiques combinés dans l’ELBO ?
Réponse : (1) Reconstruire x depuis z (terme de reconstruction) et (2) forcer q(z|x) à ressembler au prior p(z)=N(0,I) (terme KL, régularisation).
Dans un VAE, que diagnostique typiquement un terme KL ≈ 0 dans l’ELBO ?
A) Un mismatch prior/posterior : échantillonner z∼p(z) devient mauvais car q(z|x) est trop éloigné
B) Un “posterior collapse” : le décodeur ignore le latent z
C) Un modèle implicite : on peut sampler mais pas calculer p(x)
D) Une augmentation de diversité via un “truncation trick”
Réponse : B
Donnez la formule du reparameterization trick pour un latent Gaussien diagonal.
Réponse : ϵ∼N(0,I), puis z = μ(x) + σ(x) ⊙ ϵ.
Quel est l’effet principal d’un β-VAE quand on augmente β (dans le terme KL) ?
Réponse : On renforce la régularisation (latents plus factorisés/interprétables), au prix possible d’une reconstruction moins bonne.
Que signifie “modèle implicite” dans le contexte de la génération d’images ?
Réponse : On sait générer des échantillons (sampler), mais on ne sait pas calculer explicitement la densité p(x) du modèle.
Qu’appelle-t-on mode collapse dans les GAN, et quel impact cela a-t-il sur les échantillons générés ?
Réponse : Le générateur produit peu de modes (peu de variété) : les images se ressemblent, la diversité chute.
Quel est l’objectif de WGAN-GP et quel mécanisme ajoute-t-il par rapport à WGAN “classique” ?
Réponse : Stabiliser l’entraînement en imposant une contrainte 1-Lipschitz ; WGAN-GP l’impose via une gradient penalty (au lieu du weight clipping).
Dans l’image-to-image, quelle différence structurelle sépare un modèle “paired” type pix2pix d’un modèle “unpaired” type CycleGAN ?
Réponse : pix2pix apprend x→y avec données alignées (paired) et combine perte adversariale + (souvent) L1 ; CycleGAN fonctionne sans paires alignées (unpaired) avec deux mappings X→Y et Y→X et une contrainte de cycle-consistency.
Dans le processus forward d’un modèle de diffusion, à quoi correspond βt ?
Réponse : À la “dose de bruit” ajoutée au pas t (noise schedule).
Dans la formule xt = √(ᾱt) x0 + √(1−ᾱt) ϵ, quelle est la loi de ϵ ?
A) ϵ ∼ N(0, I)
B) ϵ ∼ Uniform([0,1])
C) ϵ ∼ Laplace(0, I)
D) ϵ ∼ Bernoulli(0.5)
Réponse : A
Citez au moins 4 paramètres qui conditionnent la reproductibilité d’une génération par diffusion en pratique.
Réponse : Par exemple : seed, modèle exact (version/revision), scheduler, num_inference_steps (steps), guidance_scale (CFG), résolution, précision (fp16/bf16).
En conditionnement texte via cross-attention dans un modèle de diffusion text-to-image, quelle correspondance est correcte ?
A) queries = embeddings texte ; keys/values = features U-Net
B) queries = features U-Net ; keys/values = embeddings texte
C) queries = paramètres βt ; keys/values = seed
D) queries = masque d’inpainting ; keys/values = scheduler
Réponse : B
Quand vous augmentez la guidance scale (CFG), quel compromis réglez-vous, et à quoi peut servir un negative prompt dans ce cadre ?
Réponse : Plus de guidance ⇒ plus d’adhérence au prompt, mais souvent moins de variété et plus de risque d’artefacts ; le negative prompt sert à définir ce qu’on veut éviter et modifie le biais introduit par la branche “uncond” utilisée par CFG.
Donnez un exemple de métrique distribution-level et un exemple de métrique sample-level, en précisant ce qu’elles évaluent.
Réponse : Distribution-level : FID (compare moyenne/covariance de features Inception entre réel et généré) ou KID (MMD dans l’espace Inception). Sample-level : CLIPScore (similarité image-texte via embeddings CLIP pour estimer l’alignement sémantique).