Quentin HAENN
  • Doctorant
  • Ingénierie des Données et des moDèles
  • ISAE - ENSMA

Activité d'Enseignement

En parallèle de ma thèse au LIAS, j'ai développé une solide expérience en enseignement, notamment dans le cadre d'un contrat doctoral avec enseignement. Mes activités pédagogiques couvrent des domaines variés, allant de l'analyse de données à l'apprentissage automatique, en passant par la programmation et la conception logicielle.

Enseignements dispensés :

  1. Analyse de données (1ère année ISAE-ENSMA)

    • Encadrement de TPs et TDs sur l'analyse de données avec Python (Pandas, Numpy, SQL, Seaborn).
    • Conception d'un examen de fin de semestre en collaboration avec mon encadrant de thèse.
    • Focus sur le traitement et la visualisation de données, ainsi que sur les requêtes de bases de données relationnelles.
  2. Apprentissage Automatique Appliqué (2ème année ISAE-ENSMA)

    • Encadrement de TPs et TDs sur l'apprentissage automatique avec Scikit-learn.
    • Enseignement des étapes d'un projet d'apprentissage automatique : préparation des données, validation de modèles, et mise en place de pipelines.
    • Focus sur des modèles prédictifs simples (forêts de décision, SVM, etc.).
  3. Autres modules :

    • Encadrement ponctuel de TPs et TDs en algorithmique, conception logicielle et systèmes numériques, avec un focus sur le langage Ada et les systèmes critiques.

Compétences enseignées :

  • Langages et outils : Python (Pandas, Numpy, Scikit-learn), SQL, Ada
  • Domaines : Analyse de données, apprentissage automatique, algorithmique, conception logicielle, gestion de projets informatiques.

Responsabilités pédagogiques :

  • Encadrement d'étudiants en TPs et TDs.
  • Conception d'examens et correction de devoirs.
  • Adaptation aux contraintes pédagogiques et capacité à effectuer des remplacements si nécessaire.

Activité de Recherche

Partitionnement sous contrainte de similarité

Ma thèse explore en profondeur une approche spécifique du partitionnement sous contrainte de similarité. Elle se concentre sur le développement et le test d'algorithmes permettant de réaliser des opérations de partitionnement sous contrainte globale sur les groupes résultants, en abordant notamment les contraintes de rayon et de diamètre.

Ces contraintes ajoutent un contexte métier particulier au processus de partitionnement (clustering), garantissant que les groupes formés respectent les contraintes imposées en amont. Cependant, les algorithmes capables d'accomplir ces tâches sont rares. La littérature existante propose principalement des algorithmes basés sur des modèles de programmation linéaire en nombres entiers (Mixed Integer Linear Programming), qui délèguent les garanties mathématiques et les performances aux solveurs sous-jacents. Ces solveurs peuvent être coûteux et ne s'adaptent pas immédiatement à tous les contextes.

La plupart des algorithmes de partitionnement sous contrainte de similarité reposent sur des optimisations liées aux propriétés mathématiques des espaces métriques. Mes travaux, en revanche, se concentrent sur les propriétés des graphes pondérés, permettant l'utilisation de dissimilarités plutôt que de distances métriques. Cela étend l'applicabilité à divers contextes, comme le clustering de séries temporelles.

Dans le cadre de cette thèse, j'ai développé deux algorithmes de clustering sous contrainte de rayon utilisant des propriétés de graphes, basés sur les ensembles dominants de cardinalité minimale. Ces algorithmes sont disponibles publiquement sur GitHub et PyPI, accompagnés d'une documentation riche et d'exemples d'utilisation. Un troisième algorithme, CURGRAPH, est en développement pour fournir une réponse exacte au problème de la recherche du clustering possédant le plus petit rayon possible sous une contrainte donnée. Ce dernier sera bientôt intégré à la bibliothèque publique.

Enfin, j'ai développé un package Python permettant de tester les propriétés mathématiques désirables pour les algorithmes de clustering, identifiées dans la littérature. Ce package permet de tester exhaustivement les limites des implémentations et leur robustesse face aux changements potentiels dans les données d'entrée. Bien qu'il ne soit pas encore disponible publiquement, sa publication est prévue.