Présentation
Le cours CSC 4538 – Introduction à la science des données est un cours
de deuxième année d'école d'ingénieur (niveau Master 1) donné à
Télécom SudParis dans le parcours MAIA.
À la fin de ce cours, les étudiants disposeront d'une boite à outil variée leur permettant
de résoudre de nombreux problèmes pratiques qui font le quotidien d'un data scientist.
En détails, un étudiant saura :
- programmer en Python
- analyser et visualiser des données
- construire un dataset à l'aide d'un outil de scrapping
- modéliser des données sémantiques suivant les standards classiques du Web
- requêter une base de connaissance à l'aide de SPARQL
- recourir à des algorithmes de graphes
-
SujetContenuNotions clefs
-
CI1Introduction à Python
- Présentation du cours
- Slides
- Exercices
- Contrôle continu – Faire 10 exercices sur LeetCode
- Python
-
CI2Introduction au web des données
- Web sémantique
- SPARQL
-
CI3Description de ressource avec RDF et RDFS
- RDF/RDFS
- OWL
-
CI4Introduction aux ontologies
- Ontologies
-
CI5Scrapping
- HTTP
- Fonctionnement sites webs
- Analyse du réseau
- Extraction de contenu
-
CI6Introduction au traitement du langage naturel
- Expressions régulières
- Grammaires hors contexte
- Normalization de textes
- Vectorisation
-
CI7Visualisation de données
- Types de visualisation
- Principes de Gestalt
- Focaliser l'attention
- Raconter une histoire avec les données
-
CI8Recherche d'informations
- Index inversé
- Index positionnel
- TFIDF
-
CI9Systèmes de recommandation
- Recommandation basée sur le contenu
- Filtrage collaboratif
- Évaluation des recommandations
- Recommandation par factorisation de matrice
-
CI10Récapitulatif
CM : Cours Magistral (lecture only) CI : Cours Intégré (lecture and lab)