Pourquoi considère-t-on généralement que le signal audio est plus complexe à traiter que l’image en Deep Learning, notamment en ce qui concerne la longueur des séquences ?
Réponse : Le signal audio est un signal 1D très long par rapport aux dimensions d’une image ; par exemple, 10 secondes d’audio échantillonnées à 16 kHz représentent 160 000 échantillons.
Si vous échantillonnez un signal de parole à une fréquence Fs = 16 kHz, quelle est la fréquence maximale (fréquence de Nyquist) théoriquement représentable sans repliement spectral ? A) 4 kHz B) 8 kHz C) 16 kHz D) 32 kHz
Réponse : B) 8 kHz
Que signifie le terme "clipping" (ou écrêtage) dans le domaine du signal audio numérique et quel est son impact sur la qualité ?
Réponse : Le clipping se produit lorsque l’amplitude du signal dépasse la plage représentable (au-delà de 0 dBFS), ce qui entraîne une distorsion du son.
Expliquez le compromis temps-fréquence lors du choix de la taille de fenêtre (win_length) pour une transformée de Fourier à court terme (STFT).
Réponse : Une fenêtre courte offre une bonne résolution temporelle mais une moins bonne résolution fréquentielle, tandis qu’une fenêtre longue améliore la précision en fréquence au détriment de la précision temporelle.
Quelle est la particularité de l’échelle de Mel par rapport à l’échelle fréquentielle linéaire en Hertz ?
Réponse : L’échelle Mel est une échelle fréquentielle perceptive qui accorde plus de résolution (est plus fine) dans les basses fréquences, se rapprochant ainsi de l’audition humaine.
Dans le cadre de l’ASR (Reconnaissance automatique de la parole), comment se calcule le Word Error Rate (WER) ?
Réponse : Le WER se calcule par la formule (S + D + I) / N, où S est le nombre de substitutions, D les suppressions, I les insertions et N le nombre total de mots dans la transcription de référence.
Quel est le rôle d’un "Vocoder" dans une pipeline de Text-To-Speech (TTS) ? A) Convertir le texte en phonèmes. B) Prédire le spectrogramme Mel à partir du texte. C) Reconstruire la forme d’onde (waveform) à partir d’une représentation acoustique intermédiaire. D) Normaliser les nombres et les dates dans le texte.
Réponse : C) Reconstruire la forme d’onde (waveform) à partir d’une représentation acoustique intermédiaire (comme un spectrogramme Mel).
Qu’est-ce que l’unité "RTF" (Real-Time Factor) permet de mesurer dans un système de synthèse vocale ?
Réponse : Le RTF mesure l’efficacité du système en calculant le rapport entre le temps nécessaire pour générer l’audio et la durée réelle de l’audio produit.
Quelle architecture de modèle est spécifiquement conçue pour combiner les avantages de la self-attention (pour le contexte global) et des convolutions (pour les structures locales de la parole) ? A) LSTM B) ResNet-50 C) Conformer D) MLP-Mixer
Réponse : C) Conformer
Dans un système ASR basé sur le paradigme CTC (Connectionist Temporal Classification), à quoi sert le token spécial "blank" ?
Réponse : Il sert à permettre l’alignement entre l’audio et le texte sans nécessiter de segmentation préalable, en représentant l’absence de caractère ou une transition entre deux caractères identiques.
Quelle est la différence majeure entre l’utilisation de graphèmes et de phonèmes pour représenter le texte en entrée d’un modèle de TTS ?
Réponse : Les graphèmes sont les lettres telles qu’écrites (orthographe), tandis que les phonèmes sont des symboles de prononciation qui assurent une meilleure qualité phonétique en levant les ambiguïtés.
Lors de la mise en production d’un modèle audio, quel est l’intérêt d’utiliser un module de VAD (Voice Activity Detection) ? A) Augmenter la fréquence d’échantillonnage de l’audio. B) Détecter les segments de voix pour réduire le coût de calcul et la latence en évitant de traiter le silence. C) Traduire automatiquement la parole dans une autre langue. D) Identifier l’identité du locuteur qui parle.
Réponse : B) Détecter les segments de voix pour réduire le coût de calcul et la latence en évitant de traiter le silence.
Définissez le concept de "Diarization" dans le cadre d’un système de traitement de la parole.
Réponse : La diarization consiste à déterminer "qui parle quand" dans un enregistrement comportant plusieurs locuteurs.
Quel type d’augmentation de données, spécifique au domaine audio sur spectrogrammes, consiste à masquer aléatoirement des bandes de fréquences ou des segments temporels ?
Réponse : SpecAugment.
Dans un pipeline de recherche audio multimodale (audio-to-text retrieval), quelle métrique de similarité est classiquement utilisée pour comparer l’embedding du texte de la requête avec l’embedding du signal audio ? A) Distance de Hamming B) Similarité cosinus (Cosine similarity) C) Erreur quadratique moyenne (MSE) D) Divergence de Kullback-Leibler
Réponse : B) Similarité cosinus (Cosine similarity).
Pourquoi est-il crucial de fixer un "contrat d’entrée" (sample rate, mono/stéréo, normalisation) avant de déployer un modèle de Deep Learning audio en production ?
Réponse : Pour éviter des erreurs silencieuses ou des chutes de performance dues à une incohérence entre les données vues pendant l’entraînement et les données réelles.
Quel est l’avantage principal des modèles de type "Self-Supervised Learning" (SSL) comme Wav2Vec2 ou HuBERT par rapport aux modèles supervisés classiques ?
Réponse : Ils permettent d’apprendre des représentations puissantes à partir de grandes quantités de données audio non labellisées, ce qui les rend très performants même avec peu de données pour la tâche finale.
Que représente le score MOS (Mean Opinion Score) dans l’évaluation d’un système TTS ?
Réponse : Il s’agit d’une note subjective moyenne attribuée par un panel d’auditeurs pour évaluer la qualité et le naturel de la voix synthétisée.
Pourquoi applique-t-on généralement une transformation logarithmique sur les énergies d’un spectrogramme Mel avant de le donner en entrée d’un modèle ?
Réponse : Pour compresser la dynamique du signal et se rapprocher de la perception humaine, ce qui stabilise l’apprentissage.
Quelle technique permet de réduire la taille d’un modèle audio et son coût d’inférence en faisant en sorte qu’un petit modèle (le "student") imite le comportement d’un modèle plus gros et performant (le "teacher") ?
Réponse : La distillation (ou knowledge distillation).
Quelle est la limitation principale des modèles de machine learning "tabulaires" classiques par rapport aux réseaux de neurones sur graphes (GNN) ?
Réponse : Les modèles classiques supposent souvent que les données sont indépendantes et identiquement distribuées (IID), ce qui est faux pour les graphes où les labels dépendent de la structure et du voisinage.
Parmi les tâches suivantes, laquelle consiste à prédire si une interaction va avoir lieu entre deux entités existantes ?
A) La classification de nœuds
B) La prédiction de liens
C) Le clustering de graphe
D) La classification de graphe
Réponse : B) La prédiction de liens.
Pourquoi les opérations d'agrégation dans un GNN (comme la somme ou la moyenne) doivent-elles être symétriques ?
Réponse : Pour garantir que le modèle est invariant à la permutation des nœuds, car un graphe n'a pas d'ordre naturel ou canonique pour ses sommets.
Dans le cadre général des MPNN, quelles sont les trois étapes successives calculées à chaque couche pour un nœud donné ?
A) Convolution, Pooling, Softmax
B) Projection, Normalization, Activation
C) Message, Agrégation, Mise à jour
D) Échantillonnage, Encodage, Décodage
Réponse : C) Message, Agrégation, Mise à jour.
Qu'est-ce que le phénomène d'"Oversmoothing" (sur-lissage) dans un réseau de neurones sur graphes ?
Réponse : C'est un problème où, en empilant trop de couches, les représentations (embeddings) de tous les nœuds finissent par devenir trop similaires, rendant toute classification impossible.
Comment définit-on la matrice de Laplacien combinatoire L à partir de la matrice de degré D et de la matrice d'adjacence A ?
Réponse : L = D - A.
Quel est l'intérêt principal de l'architecture GraphSAGE par rapport à un GCN classique pour une application industrielle ?
A) Elle utilise uniquement des matrices denses.
B) Elle permet un apprentissage inductif et un passage à l'échelle via échantillonnage.
C) Elle ne nécessite aucune fonction d'activation.
D) Elle est la seule à supporter l'attention.
Réponse : B) Elle permet un apprentissage inductif et un passage à l'échelle via échantillonnage.
Quelle est la fonction du "Negative Sampling" lors de l'entraînement d'un modèle de prédiction de liens ?
Réponse : Il sert à générer artificiellement des paires de nœuds non connectées pour apprendre au modèle à distinguer les liens existants des liens inexistants.
Quelle architecture de GNN introduit des poids d'importance appris et différents pour chaque voisin lors de l'agrégation ?
A) GCN
B) GraphSAGE
C) GAT
D) MLP
Réponse : C) GAT.
Qu'est-ce qu'un graphe hétérogène ?
Réponse : C'est un graphe qui contient plusieurs types de nœuds (ex: comptes, terminaux) et plusieurs types de relations (ex: "paye", "utilise").
Dans le contexte des GNN, qu'appelle-t-on l'"Oversquashing" ?
Réponse : C'est un goulot d'étranglement informationnel qui survient lorsque les messages provenant d'un grand nombre de nœuds distants doivent être compressés dans un vecteur de dimension fixe.
Quelle opération est nécessaire pour effectuer une tâche de classification au niveau du graphe entier ?
A) Un auto-encodeur
B) Un Readout
C) Une normalisation de Laplacien
D) Un échantillonnage de liens
Réponse : B) Un Readout.
Pourquoi le calcul direct de la convolution spectrale est-il difficilement réalisable sur de très grands graphes ?
Réponse : Parce qu'il nécessite la décomposition en vecteurs propres du Laplacien, une opération dont le coût complexité est en O(|V|^3).
Quel type de split (division des données) est-il recommandé d'utiliser pour évaluer un modèle de fraude sur graphe de manière réaliste ?
A) Split aléatoire par nœud
B) Split temporel
C) Split par degré
D) Split par clustering
Réponse : B) Split temporel.
Dans un pipeline GNN, que signifie le terme "fanout" lors de l'échantillonnage de voisinage ?
Réponse : Il s'agit du nombre de voisins échantillonnés par couche pour contrôler la taille du graphe de calcul.
Quelle est la différence majeure entre un apprentissage transductif et inductif sur un graphe ?
Réponse : Le mode transductif nécessite que tous les nœuds soient connus lors de l'entraînement, alors que le mode inductif permet de traiter des nœuds nouveaux jamais vus auparavant.
Quel est le format de stockage sparse le plus courant pour manipuler l'index des arêtes sur GPU ?
A) Matrice dense
B) Liste d'adjacence textuelle
C) COO
D) Dictionnaire Python
Réponse : C) COO.
Que capturent les vecteurs propres du Laplacien lorsqu'ils sont utilisés comme "Positional Encodings" dans un Graph Transformer ?
Réponse : Ils capturent la géométrie et la structure globale du graphe, comme les communautés ou les variations de connectivité.
Quel risque majeur d'évaluation faut-il surveiller lors de la prédiction de liens ?
Réponse : Le "Data Leakage" (fuite de données), où une arête que l'on cherche à prédire est utilisée par erreur dans le message passing lors de l'entraînement.
Quelle est la complexité typique en mémoire/temps d'une couche de passage de message par rapport au nombre d'arêtes |E| ?
A) O(|V|^2)
B) O(|E|)
C) O(1)
D) O(log |V|)