Les forêts aléatoires (Breiman, 2001) font partie des algorithmes d’apprentissage automatique les plus utilisés pour résoudre des problèmes d’apprentissage supervisé. Elles agrègent les prédictions de plusieurs arbres de décision, dont la construction présente une dépendance complexe en les données d’apprentissage. De plus, elles impliquent différents mécanismes de ré-échantillonnage, ce qui rend leur analyse théorique difficile.
Dans ce travail, nous nous plaçons dans un contexte de classification binaire, et analysons une version simplifiée des forêts aléatoires : la forêt centrée. Nous établissons un théorème central limite pour la prédiction des forêts centrées en un point donné, avec des taux de convergence exacts et des conditions explicites sur la structure des arbres composant la forêt. Ce résultat permet de construire des intervalles de confiance asymptotique pour la probabilité cible. Nous étudions ensuite l’apprentissage déséquilibré, dans lequel une classe est sous-représentée par rapport à l’autre. Théoriquement et empiriquement, nous prouvons que les stratégies de rééquilibrage communément utilisées dans ce contexte sont biaisées mais peuvent être modifiées pour conduire à une réduction asymptotique de la variance.
Cette présentation s’appuiera sur l’article suivant : https://arxiv.org/pdf/2506.08548