Ce séminaire s’inscrit dans le contexte du clustering ou encore de l’apprentissage non supervisé. Après une courte introduction et présentation des algorithmes classiques de clustering (qui définissent automatiquement des groupes d’observations partageant les mêmes caractéristiques), nous verrons comment gérer le cas de données mixtes décrites par des variables quantitatives et qualitatives. J’aborderais ensuite la question de la sélection de variables importantes (ou encore discriminantes) qui est moins souvent étudiée dans le contexte du clustering que dans le contexte de la classification supervisée. Je présenterais la méthode des k-means sparse de Witten et al. (2010) et son extension au cas group-sparse pour la sélection de groupes de variables (Chavent et al. 2020). Nous verrons comment obtenir à partir cette extension un algorithme de k-means sparse capable de sélectionner des variables aussi bien quantitatives que qualitatives. Tous les résultats seront illustrés sur l’exemple des données mixtes des vins de Loire. Ces résultats sont facilement reproductibles et utilisent les packages R vimpclust (pour les k-means sparse), PCAmixdata (pour l’ACP de données mixtes) et ClustOfVar (pour le clustering de variables mixtes).
Exposé sur Zoom (lien sur demande)