CI : Deep learning pour audio
Dans ce TP, vous allez prototyper une mini-chaîne de traitement audio inspirée d’un contexte “call center” : à partir d’enregistrements d’appels (anglais, ~1 minute), vous allez segmenter automatiquement la parole (VAD : Voice Activity Detection), transcrire les segments avec un modèle Whisper prêt à l’emploi (ASR : Automatic Speech Recognition), puis produire des indicateurs simples et utiles pour un produit (mots-clés, intention approximative, redaction d’informations sensibles).
Le but n’est pas d’entraîner un modèle, mais de raisonner comme un·e ingénieur·e : définir un contrat d’entrée audio, instrumenter la latence, structurer les sorties, et identifier ce qui peut casser en production (segmentation, bruit, variabilité). Le rendu est un rapport Markdown pragmatique, alimenté au fil de l’eau par des captures de terminal, des extraits de sorties et quelques réflexions concises sur les choix techniques.
- Mettre en place un pipeline audio minimal et reproductible pour un cas d’usage “call center”.
- Appliquer une segmentation voix/silence avec un VAD (Voice Activity Detection) et en extraire des statistiques utiles.
- Transcrire des segments audio avec un modèle Whisper (ASR) en maîtrisant le coût et la latence.
- Structurer les sorties (segments, timestamps, texte) pour une exploitation produit.
- Produire une “fiche appel” avec des analytics simples : mots-clés, intention approximative, redaction PII (emails, numéros).
- Exécuter sur GPU via Slurm (fortement recommandé) et comparer qualitativement les temps CPU/GPU.
Initialisation du TP3 et vérification de l’environnement
Constituer un mini-jeu de données : enregistrement d’un “appel” (anglais) + vérification audio
VAD (Voice Activity Detection) : segmenter la parole et mesurer speech/silence
ASR avec Whisper : transcription segmentée + mesure de latence
Call center analytics : redaction PII + intention + fiche appel
TTS léger : générer une réponse “agent” et contrôler latence/qualité
Intégration : pipeline end-to-end + rapport d’ingénierie (léger)
- Quel est le goulet d’étranglement principal (temps) dans votre pipeline ?
- Quelle étape est la plus fragile (qualité) et pourquoi ?
- Deux améliorations concrètes si vous deviez industrialiser (sans entraîner de modèle).