Nos domaines de formation :

Formation Data Clustering, organiser les données du Big Data

Stage pratique
Durée : 2 jours
Réf : DAU
Prix  2018 : 1630 € H.T.
Pauses et déjeuners offerts
  • Programme
  • Participants / Prérequis
  • Intra / sur-mesure
Programme

Le clustering de données vise à regrouper, au sein de "données massives", des données similaires afin d'identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vous permettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur des cas concrets.

Objectifs pédagogiques

  • Découvrir les principaux aspects du clustering de données
  • Comprendre les approches et les techniques de clustering de données
  • Appliquer les outils et algorithmes pour le clustering de données
  • Savoir mesurer les performances et la qualité d'un jeu de données
PROGRAMME DE FORMATION

Introduction au clustering de données

  • Approches supervisées et non supervisées.
  • Méthodes floues et strictes.
  • Théorie des graphes, différents types de structures de données.
  • Calcul de similarité (TF, TF-IDF...).
  • Propriétés des jeux de données.

Clustering simple et clustering hiérarchique

  • Clustering simple.
  • Clusterings hiérarchiques et composés.
  • Utilité du clustering hiérarchique.
  • Présentation du résultat.

Démonstration
Cas d'utilisations de techniques de clustering.

Techniques de clustering

  • Approches orientées K-means.
  • Approches par agglomération.
  • Approches basées sur un modèle physique (modèle énergie, ressort...).
  • Approches "divisives".
  • Approches par marche aléatoire.
  • Algorithmes incrémentaux.

Démonstration
Avantages/inconvénients des approches étudiées.

Outils pratiques et algorithmes pour le clustering de données

  • K-means simple, Graclus, Cluto.
  • Algorithme hiérarchique : Louvain.
  • InfoMap, Fast Modularity.
  • NCut, approche Girvan Newman...
  • Extraction d'arbres couvrants et composition.

Travaux pratiques
Application de K-means sur un jeu de données. Application de "Fast Modularity" sur un jeu de données simple.

Mesures Qualité et Performance

  • Introduction à la performance et à la complexité.
  • Mesures de qualité.
  • Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn...
  • Trouver le bon algorithme : technique des diagrammes d'Inselberg.

Travaux pratiques
Mesure de la qualité sur un jeu de données.

Clustering de données à partir d'un réseau lexical

  • Présentation du jeu de données.
  • Analyse des propriétés du réseau.
  • Exécution d'algorithmes de clustering.
  • Affichage du résultat.
  • Calcul de la qualité des partitionnements effectués.

Travaux pratiques
Mise en œuvre d'algorithmes de clustering sur un réseau lexical et sur des documents Web, pdf...

Clustering de documents

  • Présentation du jeu de données.
  • Analyse des propriétés du réseau.
  • Calcul de mesures de similarité.
  • Exécution d'algorithmes de clustering.
  • Affichage du résultat.
  • Calcul de la qualité.

Travaux pratiques
Mise en œuvre d'algorithmes de clustering sur une base documentaire, calcul de mesures de similarité, clustering, analyse de la qualité.

Participants / Prérequis

» Participants

Data analyst, développeurs, chefs de projets ou toutes personnes s'intéressant aux techniques de clustering de données.

» Prérequis

Connaissances de base de la programmation.
Intra / sur-mesure
Programme standard     Programme sur-mesure
Oui / Non

Vos coordonnées

Dates de sessions

Pour vous inscrire, cliquez sur la session qui vous intéresse.
[+]
PARIS

Horaires

Les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45.
Pour les stages pratiques de 4 ou 5 jours, les sessions se terminent à 15h30 le dernier jour.