Distributed Systems, Software Engineering and Middleware - DiSSEM group

Computer Science Department of Telecom SudParis

Internship - Fusion de Flux de Données Hétérogènes

Fusion de Flux de Données Hétérogènes

Mots clés : Flux de données RDF, Intelligence Artificielle, Big Data, Web Sémantique

Contexte :

La dernière décennie a connu un développement important de la technologie de l’information caractérisé par une production importante de volumes de données générées par des sources diverses et variées (capteurs, stations météo, GPS, objets connectés, etc.). Ces données, hétérogènes par nature sont interrogées par des applications de prise de décision (ville intelligente, trafic urbain, monitoring ou réseaux sociaux) qui requièrent par conséquent un traitement spécifique de ces entités pour tirer le meilleur profit de l’information qu’elles véhiculent. Ces futures applications Smart City placent l’utilisateur au centre de la boucle, pour permettre un accès transparent aux différents services.

Par ailleurs, l’avènement des technologies du web sémantique à travers des standards comme : RDF (Ressource Description Framework) ou SPARQL (Simple Protocol and RDF Query Language) a permis d’inférer et d’effectuer des requêtes complexes sur des données qu’on aurait sémantiquement décrites, représentées et liées par des ontologies. Ce format est très utilisé par différents types d’organisations (commerciales, gouvernementales, etc.) pour représenter et publier leurs jeux de données sur le Web comme par exemple les données ouvertes de Paris[1] ou le Grand Lyon[2]. Ainsi, l’objectif principal de ce projet est d’interroger en temps quasi réel des données provenant de différentes sources avec des vitesses et des formats différents.

Problématique :

Le traitement de gros volumes de données multi-sources doit répondre à plusieurs problématiques, parmi lesquelles la fusion de données.  Dans la littérature, la fusion de données a été abordée selon différents aspects et niveaux [1-4]. Dans le cadre de ce projet, nous nous intéressons à la possibilité d’exprimer et exécuter une requête portant sur plusieurs flux de données dont les formats peuvent être différents (JSON, CSV, etc.).  Une approche outillée introduite dans [6] présente SPASeq, un langage d’expression de ce type de requêtes sur des données RDF. La structure bien établie des données RDF permet un traitement automatique de ces dernières par les différents outils informatiques.  Le langage proposé introduit des patterns temporels (e.g. la séquence) et logiques (e.g. conjonction/disjonction) qui permettent de détecter l’occurrence de situations modélisées par des patterns de graphes RDF [5] en utilisant la technique de traitement d’événements complexes (Complex Event-Processing). Néanmoins, les patterns disponibles ne permettent pas d’identifier certains évènements complexes comme la répétition bornée d’un événement particulier, ou encore l’imbrication de patterns comme la présence d’un pattern particulier dans une séquence.  D’autre part, certaines limites ont été mises en évidence sur l’implémentation actuelle de l’outil.

Par conséquent, il s’agira dans ce projet d’étudier et d’étendre SPASeq en proposant de nouveaux patterns qui permettraient de modéliser un spectre plus large d’évènements complexes. Ces nouveaux patterns viendraient compléter et améliorer les fonctionnalités de l’outil existant [7] tout en prenant en compte la possibilité d’avoir plusieurs flux en entrée dont les formats seraient différents. Ces nouveaux patterns peuvent être identifiés par des techniques d’apprentissage.

Encadrantes :

Amel Bouzeghoub <Amel.Bouzeghoub@telecom-sudparis.eu>

Amel Mammar <Amel.Mammar@telecom-sudparis.eu>

Équipes :     ACMES/ METHODES du laboratoire SAMOVAR

Département : INF

Références

  1. Nikolov, V-S. Uren, E. Motta. Data Linking: Capturing and Utilising Implicit Schema-Level Relations. In WWW Workshop on Linked Data on the Web, 2010.
  2. Giannopoulos, D. Skoutas, T. Maroulis, N. Karagiannakis, S. Athanasiou: FAGI: A framework for fusing geospatial RDF data. In the ODBASE Conference, 2014.
  3. W-Q. Liu, J. Liu, M. Wang, Q. Zheng, W. Zhang, L. Song, S. Yao: Faceted Fusion of RDF Data. In Information Fusion 23, 2015.
  4. Benbernou, M. Ouziri: Enhancing Data Quality by Cleaning Inconsistent big RDF Data. In the BigData Conference, 2017.
  5. Artikis, O. Etzion, Z. Feldman, and F. Fournier: Event processing under uncertainty. In the DEBS conference, ACM, 2012.
  6. Gillani, A. Zimmermann, G. Picard, F. Laforest: A query language for semantic complex event processing: Syntax, semantics and implementation. Semantic Web 10(1): 53-93, 2019.
  7. http://spaseq.github.io/