La classification multi-classes est un problème classique d’apprentissage statistique, largement étudié de part son grand champ d’applications. Les données modernes de type multi-classes sont souvent très ambigües, rendant inefficaces les approches de classification classiques prédisant un seul label en sortie. En autorisant plusieurs labels en sortie, la classification par ensembles (set-valued classification en anglais) offre une possibilité naturelle pour gérer l’ambigüité entre les classes.
Lors de cet exposé, je vais tout d’abord décrire différents cadres de classification par ensembles existants dans la littérature, mettant en avant leurs avantages et pointant leurs limites. Par la suite, je me concentrerai sur le cadre particulier où le nombre moyen de labels en sortie est borné à l’avance. Je motiverai ce cadre sur des exemples concrets de reconnaissance d’images et de classification de variétés de plantes. J’introduirai alors une méthode d’estimation semi-supervisée adaptée à ce cadre d’étude et en étudierai les propriétés statistiques. Je mettrai en particulier l’accent sur l’intérêt d’avoir un nombre suffisamment grand d’observations non-labélisées lors de l’entraînement. Je montrerai que sur le plan théorique, l’approche semi-supervisée proposée est préférable d’un point de vue minimax à toute autre méthode qui n’utiliserait que des données labélisées pendant l’entraînement.
Travail en collaboration avec Evgenii Chzhen et Christophe Denis