Seminaries of Data Engineering Team

The Data Engineering team seminar is a monthly gathering where phd students, professors and invited researchers present their current and published work regarding the team’s scientific themes.

Coming Soon

February, 16, 2015, Rim Moussa (Postdoc, Montpellier) : Ecosystème Hadoop & Cas d'Utilisation

Les technologies NoSQL se proposent de pallier aux problèmes de traitement de grands volumes de données et de montée en charge par le calcul massivement parallèle. L’écosystème Apache Hadoop implante le calcul massivement parallèle dans ses diffèrents sous-projets. Le séminaire porte sur l'écosystème Hadoop, dans sa nouvelle version YARN, et présente des cas d’utilisation.

Past

November, 6th, 2014, Selma Bouarar (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Database as a Software Product Line, On the Way to a Variability-Aware Development Life Cycle (file)

Software product lines have proved to be very successful in achieving a strategic reuse, and become a successful development methodology in many domains in building families of similar systems: avionic systems, mobile phones, medical devices, etc. Simultaneously, data is omnipresent in all organizations and usually managed by databases management systems of different types. Given the evolving requirements of nowadays DB applications, the DB design life-cycle is in continuous evolution (new data models, optimization structures, deployment layouts, etc.); hence database users need even more assistance during the design process. Surprisingly, and to the best of our knowledge, no general method exists to date for dealing with the whole design of a database, while taking into account the variability management. However, some existing approaches present isolated solutions, indicating even more the need for a holistic variability-aware development of database systems. We propose an SPL-inspired methodological framework for a variability-aware design of database. The framework allows developers to derive ready-to-be-implemented database applications, by composing features related to database technology.

November, 6th, 2014, Brice Chardin (Assistant of professor, LIAS ISAE/ENSMA, Poitiers) : Découverte de règles dans les bases de données avec RQL (file)

RQL (pour Rule Query Language) est un langage de requêtes à la SQL qui étend et généralise les dépendances fonctionnelles à de nouvelles catégories de règles. RQL apporte aux analystes de données un outil pratique pour découvrir les implications logiques entre attributs d'une base de données. Ces implications peuvent mettre en évidence des problèmes de qualité de données ou de nouvelles corrélations inattendues entre les attributs. Le traitement de ces requêtes RQL est basé sur une technique de réécriture qui délègue un maximum de calculs au SGBD sous-jacent. Cette contribution vise à renforcer le lien entre la fouille de données et les bases de données et de faciliter l'utilisation de techniques de fouille par des analystes ou des étudiants habitués au SQL.

April, 10th, 2014, Ramin Karimi (Phd Student, University of Debrecen, Hungary) : Bitmap indexes and NoSQL for identifying species with DNA signatures through metagenomics samples (file)

DNA signature is a short nucleotide sequence fragment which is used to distinguish species across all other species. It can be a basis for identify microorganisms both in environmental and clinical samples directly from the short reads (Output of Sequencer machines), without assembling and alignment processes. We are trying to use an optimization technique from database technology which is the bitmap index. They are used for speeding up the research and the matching of millions or billions of DNA signatures in the short reads of hundreds or thousands of different microorganisms all together using commodity High Performance Computing including Hadoop MapReduce, Hive and Hbase.

April, 10th, 2014, Géraud Fokou (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Conception d'un framework pour le traitement coopératif des requêtes (file)

Les changements fréquents des bases de données sémantiques tant au niveau du contenu (échanges et partages) qu'au niveau de la structure (formalisation et flexibilité), rendent les requêtes obsolètes et incomplètes retournant donc des réponses vides aux utilisateurs. Nous nous intéressons aux moyens d'éviter le retour des résultats vides aux utilisateurs. Notre travail porte sur la relaxation des requêtes dans les bases de données sémantiques avec pour objectif la réalisation d'un framework pour le traitement coopératif des requêtes. Il s'agit de proposer un ensemble de méthodes de relaxation des requêtes et un ensemble d'outils et de primitives associées qui permettront la mise en oeuvre optimale et personnalisée de ces processus.

January, 30th, 2014, Amine Roukh (Phd Student, Université de Mostaganem, Algérie) : Energie dans les Bases de Données (file)

January, 30th, 2014, Bery MBAIOSSOUM (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Vues matérialisées dans les Bases de Données Sémantiques

January, 16th, 2014, Ahcène Boukorca (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Circuits électroniques au service de l'optimisation multi-requêtes (file)

Dans la première génération des bases de données, les optimiseurs étaient conçus pour optimiser des requêtes individuelles. Après l'identification des interactions entre les requêtes, des travaux ont été proposés pour offrir une optimisation globale d'une charge de requêtes. La difficulté de cette optimisation est l'identification des expressions communes entre les requêtes. Pour résoudre ce problème, des solutions basées sur la fusion des plans individuels ont été proposées, mais celles-ci soufrent du problème de passage à l'échelle. Après avoir constaté l'analogie entre circuit électronique et plan global, nous proposons une approche de génération du plan global sans passer par les plans individuels en utilisant la théorie de graphes fortement utilisée dans le domaine des circuits intégrés.

January, 16th, 2014, Kevin Royer (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Une démarche modulaire de construction d'ontologie : le cas de la mobilité électrique (file)

Les ontologies sont devenues des outils performants pour la description et la gestion de données. Toutefois l’exploitation d’ontologies entre plusieurs industriels reste rare. Les méthodes de création d’ontologies se présentent comme une surcouche appliquée à un domaine connu. Or ces méthodes sont coûteuses en temps. C’est pourquoi nous proposons une nouvelle méthode de création d’ontologies. Le design de l'ontologie obtenu avec notre méthode permet de déployer et d'exploiter aisément un entrepôt de données. Afin d'améliorer la gestion des données et des connaissances nous proposons une grille d'analyse basée sur la théorie des jeux.

November, 7th, 2013, Brice Chardin (Assistant of professor, LIAS ISAE/ENSMA, Poitiers) : Impact des mémoires flash sur la gestion de données (file)

Les mémoires flash sont une solution alternative aux disques durs pour le stockage des données. Bien que la transition d'une technologie à une autre soit facilitée par des interfaces compatibles, les différences de fonctionnement interne ont un impact sur leurs performances respectives : un simple changement de matériel ne suffit généralement pas à exploiter au maximum le potentiel des mémoires flash. Les applications doivent alors s'adapter pour optimiser leurs accès.

November, 7th, 2013, Thomas Lachaume (Phd Student, LIAS ISAE/ENSMA, Poitiers) : Un simulateur de modèle de tâches dans la conception centrée utilisateur : ProtoTask (file)

Aujourd’hui, les méthodes de conception centrées utilisateurs ont montré leur efficacité par rapport aux cycles centrés systèmes. L’implication et la prise en compte de l’utilisateur tout au long du développement d’une application interactive en sont les points clés. Dans ce cadre, l’utilisation de modèles de tâches est une solution aidant à mettre en place une analyse des besoins de l’interaction de l’utilisateur sur le système. ProtoTask a été créé pour aider à la validation de ces modèles et favoriser l’échange entre les différents intervenants d’un projet.