CSC 8608 – Concepts avancés et applications du deep learning

Pourquoi considère-t-on généralement que le signal audio est plus complexe à traiter que l’image en Deep Learning, notamment en ce qui concerne la longueur des séquences ?

Si vous échantillonnez un signal de parole à une fréquence Fs = 16 kHz, quelle est la fréquence maximale (fréquence de Nyquist) théoriquement représentable sans repliement spectral ?
A) 4 kHz
B) 8 kHz
C) 16 kHz
D) 32 kHz

Que signifie le terme "clipping" (ou écrêtage) dans le domaine du signal audio numérique et quel est son impact sur la qualité ?

Expliquez le compromis temps-fréquence lors du choix de la taille de fenêtre (win_length) pour une transformée de Fourier à court terme (STFT).

Quelle est la particularité de l’échelle de Mel par rapport à l’échelle fréquentielle linéaire en Hertz ?

Dans le cadre de l’ASR (Reconnaissance automatique de la parole), comment se calcule le Word Error Rate (WER) ?

Quel est le rôle d’un "Vocoder" dans une pipeline de Text-To-Speech (TTS) ?
A) Convertir le texte en phonèmes.
B) Prédire le spectrogramme Mel à partir du texte.
C) Reconstruire la forme d’onde (waveform) à partir d’une représentation acoustique intermédiaire.
D) Normaliser les nombres et les dates dans le texte.

Qu’est-ce que l’unité "RTF" (Real-Time Factor) permet de mesurer dans un système de synthèse vocale ?

Quelle architecture de modèle est spécifiquement conçue pour combiner les avantages de la self-attention (pour le contexte global) et des convolutions (pour les structures locales de la parole) ?
A) LSTM
B) ResNet-50
C) Conformer
D) MLP-Mixer

Dans un système ASR basé sur le paradigme CTC (Connectionist Temporal Classification), à quoi sert le token spécial "blank" ?

Quelle est la différence majeure entre l’utilisation de graphèmes et de phonèmes pour représenter le texte en entrée d’un modèle de TTS ?

Lors de la mise en production d’un modèle audio, quel est l’intérêt d’utiliser un module de VAD (Voice Activity Detection) ?
A) Augmenter la fréquence d’échantillonnage de l’audio.
B) Détecter les segments de voix pour réduire le coût de calcul et la latence en évitant de traiter le silence.
C) Traduire automatiquement la parole dans une autre langue.
D) Identifier l’identité du locuteur qui parle.

Définissez le concept de "Diarization" dans le cadre d’un système de traitement de la parole.

Quel type d’augmentation de données, spécifique au domaine audio sur spectrogrammes, consiste à masquer aléatoirement des bandes de fréquences ou des segments temporels ?

Dans un pipeline de recherche audio multimodale (audio-to-text retrieval), quelle métrique de similarité est classiquement utilisée pour comparer l’embedding du texte de la requête avec l’embedding du signal audio ?
A) Distance de Hamming
B) Similarité cosinus (Cosine similarity)
C) Erreur quadratique moyenne (MSE)
D) Divergence de Kullback-Leibler

Pourquoi est-il crucial de fixer un "contrat d’entrée" (sample rate, mono/stéréo, normalisation) avant de déployer un modèle de Deep Learning audio en production ?

Quel est l’avantage principal des modèles de type "Self-Supervised Learning" (SSL) comme Wav2Vec2 ou HuBERT par rapport aux modèles supervisés classiques ?

Que représente le score MOS (Mean Opinion Score) dans l’évaluation d’un système TTS ?

Pourquoi applique-t-on généralement une transformation logarithmique sur les énergies d’un spectrogramme Mel avant de le donner en entrée d’un modèle ?

Quelle technique permet de réduire la taille d’un modèle audio et son coût d’inférence en faisant en sorte qu’un petit modèle (le "student") imite le comportement d’un modèle plus gros et performant (le "teacher") ?

Quelle est la limitation principale des modèles de machine learning "tabulaires" classiques par rapport aux réseaux de neurones sur graphes (GNN) ?

Parmi les tâches suivantes, laquelle consiste à prédire si une interaction va avoir lieu entre deux entités existantes ?
A) La classification de nœuds
B) La prédiction de liens
C) Le clustering de graphe
D) La classification de graphe

Pourquoi les opérations d'agrégation dans un GNN (comme la somme ou la moyenne) doivent-elles être symétriques ?

Dans le cadre général des MPNN, quelles sont les trois étapes successives calculées à chaque couche pour un nœud donné ?
A) Convolution, Pooling, Softmax
B) Projection, Normalization, Activation
C) Message, Agrégation, Mise à jour
D) Échantillonnage, Encodage, Décodage

Qu'est-ce que le phénomène d'"Oversmoothing" (sur-lissage) dans un réseau de neurones sur graphes ?

Comment définit-on la matrice de Laplacien combinatoire L à partir de la matrice de degré D et de la matrice d'adjacence A ?

Quel est l'intérêt principal de l'architecture GraphSAGE par rapport à un GCN classique pour une application industrielle ?
A) Elle utilise uniquement des matrices denses.
B) Elle permet un apprentissage inductif et un passage à l'échelle via échantillonnage.
C) Elle ne nécessite aucune fonction d'activation.
D) Elle est la seule à supporter l'attention.

Quelle est la fonction du "Negative Sampling" lors de l'entraînement d'un modèle de prédiction de liens ?

Quelle architecture de GNN introduit des poids d'importance appris et différents pour chaque voisin lors de l'agrégation ?
A) GCN
B) GraphSAGE
C) GAT
D) MLP

Qu'est-ce qu'un graphe hétérogène ?

Dans le contexte des GNN, qu'appelle-t-on l'"Oversquashing" ?

Quelle opération est nécessaire pour effectuer une tâche de classification au niveau du graphe entier ?
A) Un auto-encodeur
B) Un Readout
C) Une normalisation de Laplacien
D) Un échantillonnage de liens

Pourquoi le calcul direct de la convolution spectrale est-il difficilement réalisable sur de très grands graphes ?

Quel type de split (division des données) est-il recommandé d'utiliser pour évaluer un modèle de fraude sur graphe de manière réaliste ?
A) Split aléatoire par nœud
B) Split temporel
C) Split par degré
D) Split par clustering

Dans un pipeline GNN, que signifie le terme "fanout" lors de l'échantillonnage de voisinage ?

Quelle est la différence majeure entre un apprentissage transductif et inductif sur un graphe ?

Quel est le format de stockage sparse le plus courant pour manipuler l'index des arêtes sur GPU ?
A) Matrice dense
B) Liste d'adjacence textuelle
C) COO
D) Dictionnaire Python

Que capturent les vecteurs propres du Laplacien lorsqu'ils sont utilisés comme "Positional Encodings" dans un Graph Transformer ?

Quel risque majeur d'évaluation faut-il surveiller lors de la prédiction de liens ?

Quelle est la complexité typique en mémoire/temps d'une couche de passage de message par rapport au nombre d'arêtes |E| ?
A) O(|V|^2)
B) O(|E|)
C) O(1)
D) O(log |V|)

CSC 8608 – Concepts avancés et applications du deep learning

CC2 : Préparation