Introduction
Les mesures d'évaluation sont essentielles pour évaluer les performances des modèles de vision par ordinateur. Ces mesures quantifient les performances d'un modèle pour une tâche donnée, ce qui permet aux professionnels d'évaluer son efficacité et de le comparer à d'autres modèles. Dans le contexte de la vision par ordinateur, où la perception visuelle est essentielle, les mesures d'évaluation sont vitales pour déterminer la précision et la fiabilité des prédictions. La matrice de confusion est un outil d'évaluation puissant qui permet aux professionnels de comprendre les forces et les faiblesses de leurs modèles de manière systématique.
Dans cet article, nous allons nous pencher sur les subtilités de la matrice de confusion, explorer ses applications dans l'évaluation des modèles d'apprentissage automatique et discuter de la manière dont elle aide les professionnels à obtenir des informations précieuses sur les performances des modèles.
Qu'est-ce qu'une matrice de confusion : comprendre les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs
Une matrice de confusion fournit une représentation tabulaire des prédictions faites par un modèle par rapport aux étiquettes de la vérité de terrain. Elle est généralement présentée sous la forme d'une matrice 2x2, dans le cas de scénarios de classification binaire. Cette matrice comporte quatre éléments clés : Les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs.
Voici un exemple de matrice de confusion binaire :

- Les colonnes représentent les valeurs réelles - la vérité connue
- Les lignes correspondent aux valeurs prédites par l'algorithme.
Pour comprendre ces concepts, imaginons un modèle qui prédit si une image contient une voiture ou non. Il s'agit d'un exemple de cas binaire, puisqu'il n'y a que deux résultats possibles :
- l'image contient une voiture
- l'image ne contient pas de voiture
TP (True Positive) : c'est le cas lorsqu'un modèle prédit correctement un résultat positif.
Le modèle identifie une voiture dans l'image et l'image contient effectivement une voiture.

TN (True Negative) : c'est le cas lorsqu'un modèle prédit correctement un résultat négatif.
Le modèle n'identifie pas de voiture dans l'image et l'image ne contient pas de voiture.

FP comme False Positive (faux positif) : cela se produit lorsqu'un modèle prédit un résultat positif alors qu'il aurait dû être négatif. Le modèle identifie une voiture dans l'image alors que celle-ci n'en contient pas.

FN comme False Negative (faux négatif) : cela se produit lorsqu'un modèle prédit un résultat négatif alors qu'il aurait dû être positif. Le modèle n'identifie pas de voiture alors que l'image en contient une.

Ces quatre résultats constituent la base de la matrice de confusion, qui permet aux professionnels d'analyser en détail les performances du modèle.
Précision : La mesure d'évaluation la plus élémentaire
La précision est peut-être la mesure d'évaluation la plus élémentaire dérivée directement de la matrice de confusion. Elle mesure l'exactitude globale des prédictions d'un modèle en calculant le rapport entre le nombre d'échantillons correctement classés et le nombre total d'échantillons.
La formule de calcul de la précision est la suivante :

Bien que la précision fournisse un aperçu général des performances d'un modèle, elle peut ne pas convenir aux ensembles de données dont la répartition des classes est déséquilibrée. Dans de tels cas, lorsqu'une classe l'emporte largement sur l'autre, la précision peut être trompeuse. Pour mieux comprendre, nous devons explorer d'autres mesures d'évaluation qui prennent en compte les compromis inhérents aux tâches de classification.
Précision et rappel : Équilibrer les compromis
La précision et le rappel sont deux mesures d'évaluation cruciales qui visent à trouver un équilibre entre l'identification correcte des échantillons positifs et la minimisation des faux positifs et des faux négatifs.
Précision
Il quantifie le rapport entre le nombre de vrais positifs et le nombre total de prédictions positives et se calcule comme suit :

La précision révèle la capacité du modèle à faire des prédictions positives précises. Une valeur de précision élevée indique que lorsque le modèle prédit un résultat positif, il est souvent correct. Cependant, il ne prend pas en compte les faux négatifs, ce qui peut conduire à des résultats trompeurs dans des scénarios où les conséquences des faux négatifs sont graves.

Rappel
Le rappel, également appelé sensibilité ou taux de vrais positifs, mesure le rapport entre le nombre de vrais positifs et le nombre total d'échantillons réellement positifs et se calcule comme suit :

Le rappel se concentre sur la capacité du modèle à identifier correctement les échantillons positifs à partir de l'ensemble des instances positives. Une valeur de rappel élevée indique que le modèle peut détecter efficacement les échantillons positifs. Cependant, le rappel ne tient pas compte des faux positifs, ce qui peut être problématique dans les situations où les faux positifs sont coûteux.

Score F1 : Moyenne harmonique de la précision et du rappel
Le score F1 est une mesure qui combine la précision et le rappel en une seule valeur, fournissant ainsi une évaluation équilibrée des performances d'un modèle. Il est calculé comme la moyenne harmonique de la précision et du rappel, et sa formule est la suivante :


La moyenne harmonique tient compte des situations où la précision et le rappel ont des valeurs disparates. Le score F1 atteint sa valeur maximale de 1 lorsque la précision et le rappel sont parfaitement équilibrés, ce qui indique que le modèle parvient à la fois à des prédictions positives précises et à une détection complète des échantillons positifs. Cette mesure est particulièrement utile dans les scénarios où la précision et le rappel doivent être pondérés de manière égale.
Si vous souhaitez en savoir plus sur le score F1, vous pouvez consulter l'article suivant sur le blog de Picsellia : Understanding the F1 Score in Machine Learning : La moyenne harmonique de la précision et du rappel
Spécificité et sensibilité : Mesures pour les ensembles de données déséquilibrés
Les ensembles de données déséquilibrés, dans lesquels une classe est nettement plus nombreuse que l'autre, posent des problèmes pour les mesures d'évaluation telles que l'exactitude, la précision et le rappel. Dans de tels scénarios, la spécificité et la sensibilité offrent des indications supplémentaires sur les performances d'un modèle.
- La spécificité mesure la proportion de négatifs correctement prédits par rapport au nombre total de négatifs réels. Sa formule est la suivante :

- La sensibilité quantifie la proportion de positifs correctement prédits par rapport au nombre total de positifs réels. Sa formule est la même que celle du rappel :

En prenant en compte à la fois les vrais négatifs et les vrais positifs, la spécificité et la sensibilité fournissent une évaluation plus complète de l'efficacité d'un modèle dans des ensembles de données déséquilibrés. Ces mesures aident les professionnels à évaluer les performances du modèle lorsque les classes sont fortement déséquilibrées, en veillant à ce que le modèle puisse identifier avec précision les échantillons négatifs tout en détectant les instances positives.
Courbe ROC (Receiver Operating Characteristic) et aire sous la courbe (AUC)
La courbe caractéristique de fonctionnement du récepteur (ROC) et sa métrique associée, l'aire sous la courbe (AUC), fournissent une visualisation et une évaluation complètes de la performance d'un modèle pour différents seuils.
La courbe ROC représente le taux de vrais positifs (sensibilité) par rapport au taux de faux positifs (1 - spécificité) pour différents seuils. Chaque point de la courbe correspond à un seuil spécifique, reflétant le compromis entre les vrais positifs et les faux positifs. La courbe ROC permet aux professionnels d'évaluer les performances d'un modèle sur toute la gamme des seuils de classification possibles, ce qui donne une idée de son pouvoir discriminatoire.
L'AUC résume la performance de la courbe ROC en calculant l'aire sous la courbe. La valeur de la SSC est comprise entre 0 et 1, une valeur plus élevée indiquant une meilleure discrimination. Un modèle dont l'AUC est proche de 1 présente de fortes capacités prédictives, distinguant efficacement les échantillons positifs et négatifs en fonction de différents seuils.

Interprétation de la matrice de confusion : Exemple pratique dans le domaine de la vision par ordinateur
Pour illustrer les applications pratiques de la matrice de confusion en vision artificielle, prenons l'exemple de la détection d'objets.
Dans les tâches de détection d'objets, la matrice de confusion aide à analyser les performances des modèles en identifiant les erreurs de classification courantes et en découvrant les limites potentielles. Par exemple, si un modèle classe souvent mal des piétons en cyclistes, la matrice de confusion peut révéler ce schéma, ce qui permet aux chercheurs d'étudier les causes sous-jacentes et d'y remédier. En comprenant les types spécifiques d'erreurs commises par le modèle, les professionnels peuvent affiner les algorithmes ou ajuster le processus de formation afin d'améliorer les performances et de relever des défis spécifiques.

Voici une matrice de multi-confusion issue d'une expérience réalisée sur la plateforme Picsellia, qui consiste à détecter des vélos, des bus, des voitures, des moteurs, des personnes et des camions dans un ensemble de données.
Comment cela fonctionne-t-il sur Picsellia ?
À la fin de la formation, vous pouvez aller dans l'onglet "Logs" pour voir toutes les mesures de suivi de l'expérience liées à la formation, ce qui permet aux utilisateurs d'affirmer si l'expérience est réussie ou non.

Vous pouvez choisir les paramètres à calculer et à afficher à la fin de la formation : graphiques, images, matrices et figures.
Pour plus de détails, consultez notre guide de l'utilisateur au lien suivant : 8 - Créez votre projet et lancez des expériences
Limites et défis de la matrice de confusion
L'une de ses principales limites est sa dépendance à l'égard de la classification binaire. La matrice de confusion est conçue pour évaluer les modèles à deux classes, ce qui la rend moins adaptée aux problèmes de classification multi-classes. L'extension de la matrice de confusion à des scénarios multi-classes implique généralement des modifications, telles que l'approche un-vers-tous ou l'utilisation de techniques de micro-moyennes et de macro-moyennes.
Les ensembles de données déséquilibrés peuvent également poser des problèmes lors de l'interprétation des mesures d'évaluation dérivées de la matrice de confusion. Si les classes de l'ensemble de données sont déséquilibrées, c'est-à-dire qu'une classe l'emporte largement sur l'autre, des mesures telles que l'exactitude, la précision, le rappel, la spécificité et la sensibilité peuvent ne pas représenter avec précision les performances du modèle. Dans ce cas, d'autres techniques telles que l'échantillonnage stratifié, les méthodes de rééchantillonnage ou l'utilisation de mesures d'évaluation spécialisées telles que l'aire sous la courbe précision-rappel peuvent s'avérer nécessaires.
En outre, la matrice de confusion ne permet pas de comprendre les causes profondes des erreurs de classification. Elle sert de résumé des prédictions et des étiquettes de vérité terrain, laissant aux professionnels le soin d'analyser et d'étudier plus avant les raisons des faux positifs et des faux négatifs. D'autres techniques, telles que l'analyse des erreurs, l'analyse de l'importance des caractéristiques ou les méthodes d'interprétabilité des modèles, peuvent être utilisées pour mieux comprendre les sources des erreurs de classification.
Conclusion : Exploiter la puissance de la matrice de confusion en vision par ordinateur
La matrice de confusion est un outil indispensable pour les professionnels de la vision par ordinateur. Une bonne compréhension de ses concepts, de ses mesures et de ses applications permet de mieux comprendre les performances de leurs modèles, d'identifier les domaines à améliorer et de prendre des décisions éclairées.
N'oubliez pas que la matrice de confusion n'est qu'un aspect de l'évaluation des modèles de vision par ordinateur et qu'elle doit être utilisée en conjonction avec d'autres techniques d'évaluation et d'autres considérations pour développer des systèmes robustes et performants.