Le surajustement est un phénomène courant dans l'apprentissage automatique, lorsqu'un modèle fonctionne exceptionnellement bien sur les données d'apprentissage, mais ne parvient pas à se généraliser efficacement à de nouvelles données inédites. Essentiellement, le modèle devient trop spécialisé dans la capture des bizarreries et du bruit présents dans l'ensemble d'apprentissage, perdant ainsi sa capacité à discerner les modèles sous-jacents qui devraient bien se généraliser.
Illustration du surajustement
Considérons un scénario dans lequel trois chefs, A, B et C, apprennent à cuisiner un plat spécifique. Chaque chef a une approche différente de l'apprentissage et de la préparation de la recette.
Le chef A se concentre uniquement sur quelques ingrédients et techniques clés et ignore le reste. Il devient alors exceptionnellement compétent dans ces aspects limités de la préparation du plat. Toutefois, si la recette exige des ingrédients ou des techniques supplémentaires, le chef A aura du mal à s'adapter et risque de produire un plat médiocre.
Le chef B, quant à lui, mémorise méticuleusement chaque détail de la recette, y compris les mesures et les étapes précises. Il a une mémoire fantastique et peut reproduire le plat exactement tel qu'il est écrit. Toutefois, si une légère variation ou un ingrédient inattendu est introduit, le chef B peut éprouver des difficultés à s'adapter et avoir du mal à obtenir un résultat satisfaisant.
Le chef C adopte une approche globale. Il ne se contente pas d'étudier la recette, il expérimente également différentes variantes, techniques et ingrédients. Le chef C s'entraîne beaucoup et comprend les principes et les saveurs sous-jacents. Il est donc en mesure de préparer le plat de manière cohérente, même s'il doit faire face à de légères modifications ou à des ingrédients peu familiers.
Dans cet exemple, le chef A représente un sous-ajustement. Il a des connaissances limitées et ne peut être performant que dans des circonstances spécifiques. Le chef B représente un surajustement, car il a mémorisé la recette, mais il a du mal à faire face aux variations et aux apports inattendus. Le chef C représente un modèle bien ajusté qui se généralise bien et donne des résultats cohérents, en s'adaptant à différentes situations.
De même, dans l'apprentissage automatique, un modèle sous-adapté ne peut pas saisir la complexité des données et donne de mauvais résultats. Un modèle suradapté mémorise les données d'apprentissage avec trop de précision et ne parvient pas à se généraliser à de nouvelles données inédites. Un modèle bien adapté, comme Chef C, trouve un équilibre, capturant les modèles et les caractéristiques essentiels tout en s'adaptant aux variations des données et en donnant de bons résultats à la fois sur les ensembles de données d'apprentissage et sur les ensembles de données inédits.
Comment se produit le surajustement ?
Le surajustement se produit généralement lorsque le modèle devient excessivement complexe, avec trop de paramètres par rapport aux données d'apprentissage disponibles. Avec une complexité excessive, le modèle peut essentiellement mémoriser les exemples d'apprentissage, y compris les fluctuations aléatoires et le bruit, plutôt que d'apprendre les caractéristiques sous-jacentes essentielles.
En outre, un surajustement peut se produire lorsque les données d'apprentissage ne sont pas représentatives de la population cible ou manquent de diversité. Si l'ensemble des données d'apprentissage est biaisé ou ne couvre pas correctement la gamme des scénarios potentiels, le modèle peut développer des biais ou des angles morts qui entravent sa capacité de généralisation.

Comment détecter un surajustement ?
Il y a toujours du bruit et des imprécisions dans les données. Le surajustement se produit lorsque le modèle commence à apprendre ces bruits et imprécisions, ce qui conduit à des modèles incorrects.
C'est pourquoi, pour détecter un surajustement, vous devez comparer la perte entre les données d'entraînement et les données de validation. Lorsque le surajustement se produit, la perte augmente, et la perte des données de validation est bien plus importante que celle des données d'entraînement.

Comment empêcher l'overfitting de se produire ?
- Validation croisée et division des données: Il est essentiel de diviser les données disponibles en deux ensembles distincts, l'un pour la formation et l'autre pour la validation. L'ensemble de formation est utilisé pour former le modèle, tandis que l'ensemble de validation permet d'évaluer ses performances sur des données inédites. En évaluant les performances du modèle sur l'ensemble de validation, il est possible de détecter un surajustement et de procéder à des ajustements en conséquence.
- Techniques de régularisation : Les méthodes de régularisation, telles que la régularisation L1 et L2, ajoutent des termes de pénalité à la fonction objective du modèle, décourageant les valeurs excessives des paramètres. Cela permet d'éviter que le modèle ne devienne trop sensible à des points de données individuels et l'encourage à se concentrer sur les caractéristiques les plus pertinentes.

- Sélection des caractéristiques et réduction de la dimensionnalité: Une sélection rigoureuse des caractéristiques ou des techniques de réduction de la dimensionnalité, telles que l'analyse en composantes principales (ACP) ou le classement de l'importance des caractéristiques, peuvent contribuer à réduire la complexité du modèle et à se concentrer sur les caractéristiques les plus informatives. En supprimant les caractéristiques non pertinentes ou redondantes, le risque de surajustement diminue. Cependant, cette méthode n'a pas vraiment de sens dans l'apprentissage profond en raison de l'utilisation des réseaux neuronaux convolutifs (CNN).
- Augmentation des données : L'augmentation des données consiste à accroître artificiellement la taille de l'ensemble d'apprentissage en appliquant des transformations, telles que des rotations, des translations et des mises à l'échelle, aux données existantes. Cette technique introduit des variations supplémentaires, ce qui rend le modèle plus robuste et moins susceptible d'être surajouté.
- Arrêt précoce: Le suivi des performances du modèle sur l'ensemble de validation pendant la formation permet d'arrêter rapidement la formation lorsqu'un surajustement est détecté. La formation peut être interrompue lorsque les performances du modèle sur l'ensemble de validation commencent à se détériorer, ce qui l'empêche de mémoriser excessivement les données de formation.

- Méthodes d'ensemble: Les méthodes d'ensemble combinent plusieurs modèles simples pour faire des prédictions. En entraînant plusieurs modèles moins complexes avec des conditions initiales ou des algorithmes différents et en combinant leurs prédictions, l'ensemble peut mieux se généraliser que n'importe quel modèle individuel, et les modèles sont moins susceptibles d'être surajoutés.
- Validation croisée et réglage des hyperparamètres: Les techniques de validation croisée, telles que la validation croisée k-fold, permettent d'évaluer les performances d'un modèle sur différents sous-ensembles de données. L'ajustement des hyperparamètres, à l'aide de techniques telles que la recherche en grille ou l'optimisation bayésienne, permet de trouver les valeurs optimales des hyperparamètres qui produisent une meilleure généralisation et minimisent l'ajustement excessif.
Zoom sur la technique de k-Validation croisée :
Cette technique consiste à diviser l'ensemble de données en k sous-ensembles de taille égale ou "plis". Le modèle est entraîné et évalué k fois, en utilisant à chaque fois un pli différent comme ensemble de validation et les autres plis pour l'entraînement. La moyenne des mesures de performance obtenues à chaque itération est calculée pour estimer la performance globale du modèle.

Pour vous aider à lutter contre l'apprentissage par surajustement, Picsellia fournit des processus d'augmentation des données prêts à l'emploi et personnalisables. Mais ce n'est pas tout, la plateforme dispose d'un système de suivi des expériences qui indique à l'utilisateur quand s'arrêter pour obtenir le meilleur équilibre entre complexité et généralisation, ce qui permet d'économiser du temps et des ressources.
Conclusion
Le surajustement est un défi habituel dans l'apprentissage automatique, où les modèles deviennent trop spécialisés dans les données d'apprentissage et ne parviennent pas à se généraliser efficacement. Heureusement, il existe des stratégies pour éviter l'overfitting. La plateforme MLops de bout en bout de Picsellia aide à mettre en place ces stratégies car elle offre une solution complète pour atténuer les défis de l'overfitting, permettant aux organisations de surmonter les limites posées par une mauvaise généralisation.