CSC 4538 – Introduction à la science des données

Portail informatique

Présentation

Le cours CSC 4538 – Introduction à la science des données est un cours de deuxième année d'école d'ingénieur (niveau Master 1) donné à Télécom SudParis dans le parcours MAIA. À la fin de ce cours, les étudiants disposeront d'une boite à outil variée leur permettant de résoudre de nombreux problèmes pratiques qui font le quotidien d'un data scientist. En détails, un étudiant saura :
  • programmer en Python
  • analyser et visualiser des données
  • construire un dataset à l'aide d'un outil de scrapping
  • modéliser des données sémantiques suivant les standards classiques du Web
  • requêter une base de connaissance à l'aide de SPARQL
  • recourir à des algorithmes de graphes

  • Sujet
    Contenu
    Notions clefs
  • CI1
    Introduction à Python
    • Python
  • CI2
    Introduction au web des données
    • Web sémantique
    • SPARQL
  • CI3
    Description de ressource avec RDF et RDFS
    • RDF/RDFS
    • OWL
  • CI4
    Introduction aux ontologies
    • Ontologies
  • CI5
    Scrapping
    • HTTP
    • Fonctionnement sites webs
    • Analyse du réseau
    • Extraction de contenu
  • CI6
    Introduction au traitement du langage naturel
    • Expressions régulières
    • Grammaires hors contexte
    • Normalization de textes
    • Vectorisation
  • CI7
    Visualisation de données
    • Types de visualisation
    • Principes de Gestalt
    • Focaliser l'attention
    • Raconter une histoire avec les données
  • CI8
    Recherche d'informations
    • Index inversé
    • Index positionnel
    • TFIDF
  • CI9
    Systèmes de recommandation
    • Recommandation basée sur le contenu
    • Filtrage collaboratif
    • Évaluation des recommandations
    • Recommandation par factorisation de matrice
  • CI10
    Récapitulatif
CM : Cours Magistral (lecture only)       CI : Cours Intégré (lecture and lab)