Formation Data Clustering, organiser les données du Big Data
- Programme
- Participants / Prérequis
- Intra / sur-mesure
Le clustering de données vise à regrouper, au sein de "données massives", des données similaires afin d'identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vous permettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur des cas concrets.
Objectifs pédagogiques
- Découvrir les principaux aspects du clustering de données
- Comprendre les approches et les techniques de clustering de données
- Appliquer les outils et algorithmes pour le clustering de données
- Savoir mesurer les performances et la qualité d'un jeu de données
Introduction au clustering de données
- Approches supervisées et non supervisées.
- Méthodes floues et strictes.
- Théorie des graphes, différents types de structures de données.
- Calcul de similarité (TF, TF-IDF...).
- Propriétés des jeux de données.
Clustering simple et clustering hiérarchique
- Clustering simple.
- Clusterings hiérarchiques et composés.
- Utilité du clustering hiérarchique.
- Présentation du résultat.
Démonstration
Cas d'utilisations de techniques de clustering.
Techniques de clustering
- Approches orientées K-means.
- Approches par agglomération.
- Approches basées sur un modèle physique (modèle énergie, ressort...).
- Approches "divisives".
- Approches par marche aléatoire.
- Algorithmes incrémentaux.
Démonstration
Avantages/inconvénients des approches étudiées.
Outils pratiques et algorithmes pour le clustering de données
- K-means simple, Graclus, Cluto.
- Algorithme hiérarchique : Louvain.
- InfoMap, Fast Modularity.
- NCut, approche Girvan Newman...
- Extraction d'arbres couvrants et composition.
Travaux pratiques
Application de K-means sur un jeu de données. Application de "Fast Modularity" sur un jeu de données simple.
Mesures Qualité et Performance
- Introduction à la performance et à la complexité.
- Mesures de qualité.
- Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn...
- Trouver le bon algorithme : technique des diagrammes d'Inselberg.
Travaux pratiques
Mesure de la qualité sur un jeu de données.
Clustering de données à partir d'un réseau lexical
- Présentation du jeu de données.
- Analyse des propriétés du réseau.
- Exécution d'algorithmes de clustering.
- Affichage du résultat.
- Calcul de la qualité des partitionnements effectués.
Travaux pratiques
Mise en œuvre d'algorithmes de clustering sur un réseau lexical et sur des documents Web, pdf...
Clustering de documents
- Présentation du jeu de données.
- Analyse des propriétés du réseau.
- Calcul de mesures de similarité.
- Exécution d'algorithmes de clustering.
- Affichage du résultat.
- Calcul de la qualité.
Travaux pratiques
Mise en œuvre d'algorithmes de clustering sur une base documentaire, calcul de mesures de similarité, clustering, analyse de la qualité.









