Explication des paramètres d'évaluation de COCO

Explication des paramètres d'évaluation de COCO

Comme nous l'avons vu dans un article précédent sur les matrices de confusion, les métriques d'évaluation sont essentielles pour évaluer la performance des modèles de vision par ordinateur. Dans cet article, nous allons examiner de plus près les métriques d'évaluation COCO et en particulier celles que l'on peut trouver sur la plateforme Picsellia

Afin de mieux comprendre les sections suivantes, rappelons rapidement quelques métriques d'évaluation : 

Rappels et définitions

TP, FP, FN, TN

  • TP (True Positive) : se produit lorsqu'un modèle prédit correctement un résultat positif. 
  • TN (True Negative) : se produit lorsqu'un modèle prédit correctement un résultat négatif.
  • FP comme False Positive (faux positif) : se produit lorsqu'un modèle prédit un résultat positif alors qu'il aurait dû être négatif.
  • FN (False Negative) : se produit lorsqu'un modèle prédit un résultat négatif alors qu'il aurait dû être positif.

Précision

La précision indique le nombre de cas positifs prédits qui sont corrects. Elle quantifie le rapport entre le nombre de vrais positifs et le nombre total de prédictions positives et se calcule comme suit :

La précision révèle la capacité du modèle à faire des prédictions positives précises. Une valeur de précision élevée indique que lorsque le modèle prédit un résultat positif, il est souvent correct.

Rappel

Le rappel, également appelé sensibilité ou taux de vrais positifs, mesure le rapport entre le nombre de vrais positifs et le nombre total d'échantillons réellement positifs et se calcule comme suit :

Le rappel se concentre sur la capacité du modèle à identifier correctement les échantillons positifs à partir de l'ensemble des instances positives.

Intersection au-dessus de l'Union

Couramment utilisé en vision par ordinateur, pour des tâches telles que la détection d'objets, la segmentation d'instances et la segmentation d'images, l'indice d'utilité est une mesure qui évalue l'étendue du chevauchement entre deux boîtes de délimitation, fournissant une mesure de l'alignement d'un objet prédit avec son homologue de vérité au sol. L'indice d'utilité permet de quantifier la précision et le rappel des algorithmes de détection. Un score plus élevé de l'indice d'utilité implique une prédiction plus précise.

Mathématiquement, l'indice d'utilité est défini comme le rapport entre la zone d'intersection et la zone de l'union de la boîte de délimitation prédite et de la boîte de délimitation de la vérité au sol :

L'IoU est un nombre compris entre 0 et 1.

  • Si IoU = 0, cela signifie qu'il n'y a pas de chevauchement entre les cases.
  • Si IoU = 1, cela signifie qu'ils se chevauchent complètement.

Vous pouvez toujours lire notre article sur la matrice de confusion pour en savoir plus sur la précision, le rappel, les vrais positifs et les négatifs, ainsi que les faux positifs et les faux négatifs.

 

Maintenant que ces mesures sont claires, allons plus loin et examinons la précision moyenne et le rappel moyen.

Précision moyenne (AP) et rappel moyen (AR) pour la détection d'objets

1) Prédictions et annotations : Imaginez une image, avec des prédictions faites par votre modèle de détection d'objets, qui comprend des boîtes de délimitation autour des objets ainsi que des scores de confiance. Vous disposez également d'annotations de vérité terrain qui précisent les positions et les classes réelles des objets.

Voici une évaluation d'une expérience sur la plateforme Picsellia, les cases vertes sont la vérité terrain et les rouges sont les prédictions du modèle.

2) Calcul de l'intersection sur l'union : Calculer l'intersection sur l'union pour chaque paire prédiction-annotation. L'intersection sur l'union mesure le chevauchement entre la prédiction et l'annotation en prenant le rapport entre la zone d'intersection et la zone d'union, comme expliqué dans le premier paragraphe.

3) Sélection du seuil de l'indice d'utilité : Sur COCO, la précision moyenne est évaluée pour plusieurs valeurs de rapport de production, les seuils de 0,50, la fourchette 0,50-0,95 et 0,75. 

4) Calcul de la précision : Pour chaque seuil de l'indice d'utilité, trier les prédictions en fonction des vrais positifs, des faux positifs et des faux négatifs. 

Exemple de tri pour IoU=0,5, https://learnopencv.com/

Évaluons notre exemple de voiture :

  • Pour IoU=0,5

4 vrais points positifs 

0 Faux positif

1 faux négatif

Précision = 4/4+0 = 1

Rappel =4/4+1= 0,8

  • Pour IoU=0,75

2 Vrai positif 

2 Faux positifs

Précision = 2/2+2 = 0,5

Rappel = 2/2+1=0,66

Vous pouvez visualiser toutes ces données et bien plus encore sur Picsellia !

5) Courbe précision-rappel : Créez une courbe précision-rappel en traçant la précision sur l'axe des y et le rappel sur l'axe des x pour chaque seuil d'intrants. Chaque point de la courbe correspond à un seuil d'intrants spécifique.

6) Calcul de l'aire sous la courbe (AUC) : Calculer la surface sous la courbe de précision-rappel pour chaque seuil de l'IoU. On obtient ainsi la valeur de la précision moyenne (AP) pour chaque seuil.

  • AP à l'IoU 0,50 : Calculer la moyenne des valeurs de PA obtenues à partir de la courbe précision-rappel pour le seuil de 0,50.
  • AP à IoU 0,50-0,95 : Calculer la moyenne des valeurs de PA obtenues à partir de la courbe de précision-rappel sur la plage des seuils de l'IoU (0,50 à 0,95).
  • AP à IoU 0.75 : Calculer la moyenne des valeurs d'AP obtenues à partir de la courbe précision-rappel pour le seuil de 0.75.

Précision moyenne (mAP): Si vous avez plusieurs catégories d'objets, calculez la PA pour chaque catégorie, puis prenez la moyenne pour obtenir la mAP.

Sur Picsellia, vous avez accès à un tableau qui résume vos données d'évaluation, regardons de plus près. 

Voici la signification de chaque élément :

  • GT Objects est le nombre d'objets annotés par l'utilisateur et Eval Objects, le nombre d'objets prédits par le modèle.
  • Nous avons déjà vu ce que sont les précisions moyennes de 50, 50-95 et 75.
  • Petites, moyennes et grandes données : Ces catégories représentent généralement différentes gammes de tailles d'objets. Les objets sont classés dans ces groupes en fonction des dimensions ou de la surface de leur boîte englobante. Par exemple :
  • Petit : Objets dont la zone de délimitation est petite (par exemple, petits animaux, petits objets).
  • Moyen : Objets dont la zone de délimitation est moyenne (par exemple, véhicules de taille moyenne, personnes).
  • Grand : Objets dont la zone de délimitation est étendue (par exemple, grands véhicules, grandes structures).
  • Dans le rappel moyen, nous avons également les colonnes Det1, Det10, Det100 : elles se réfèrent à différents seuils de confiance utilisés pour la détection d'objets. La notation "DetX" représente le seuil de confiance utilisé pour déterminer si une prédiction est considérée comme un vrai positif ou un faux positif. Par exemple :
  • Det1 : Le modèle considère qu'une prédiction est vraiment positive si son score de confiance est supérieur au seuil de confiance le plus élevé (par exemple, la première prédiction).
  • Det10 : le modèle considère une prédiction comme un vrai positif si son score de confiance est supérieur au seuil de confiance des 10 premiers.
  • Det100 : le modèle considère une prédiction comme un vrai positif si son score de confiance est supérieur au seuil de confiance des 100 premiers.

En évaluant AP et AR 50-95 sur des données de petite, moyenne et grande taille, vous pouvez vous faire une idée des performances de votre modèle en fonction de la taille des objets et des niveaux de chevauchement. Cette approche permet de mieux comprendre les forces et les faiblesses de votre modèle dans différents scénarios.

Qu'en est-il de la segmentation des instances et de la segmentation des images ? 

Toutes ces mesures sont utilisées non seulement pour la détection d'objets, mais aussi pour la segmentation d'instances et la segmentation d'images. 

Segmentation des instances :

Dans la segmentation d'instances, l'objectif est non seulement de détecter les objets, mais aussi de segmenter chaque instance de l'objet séparément. Cela implique de prédire à la fois la boîte englobante et le masque au niveau du pixel pour chaque instance. Les mesures d'évaluation sont étendues pour tenir compte des aspects de détection et de segmentation.

  • Précision moyenne (AP) : pour la segmentation d'instances, l'AP tient compte à la fois de la précision des prédictions de la boîte englobante et de la qualité des masques au niveau des pixels. Elle est calculée en comparant les masques prédits aux masques de la vérité de terrain à l'aide de l'IoU. Une prédiction est considérée comme correcte si la boîte de délimitation et le masque se chevauchent suffisamment avec la vérité de terrain. L'AP est calculé sur une gamme de seuils d'IoU et fait l'objet d'une moyenne.

  • Rappel moyen (AR) : Semblable à l'AP, le rappel moyen pour la segmentation des instances tient compte à la fois de la détection et de la segmentation. Il mesure l'efficacité avec laquelle le modèle rappelle les instances d'objets à différents seuils de l'IoU. Une prédiction est considérée comme un vrai positif si son rapport avec la vérité de terrain dépasse un certain seuil. L'AR est également calculé sur une gamme de seuils de l'IoU et fait l'objet d'une moyenne.

Segmentation d'images :

L'objectif de la segmentation d'images est d'attribuer une étiquette de classe à chaque pixel d'une image. La principale mesure utilisée est l'indice d'utilité, qui quantifie également la similarité entre le masque de segmentation prédit et le masque de vérité pour chaque classe.

Pour la segmentation d'images, l'indice d'utilité est utilisé pour mesurer la qualité des prédictions par pixel. Il calcule le rapport entre l'intersection des régions prédites et de la région de vérité au sol et leur union. L'indice d'utilité est calculé séparément pour chaque classe, puis l'indice d'utilité moyen pour toutes les classes est souvent indiqué.

Il est important de noter que les détails exacts de la manière dont ces mesures sont calculées peuvent varier légèrement en fonction de la tâche de segmentation spécifique, de l'ensemble de données et du protocole d'évaluation. 

Par exemple, dans le domaine de la segmentation et de la segmentation d'images, ces mesures permettent de quantifier la précision et la qualité des prédictions du modèle, fournissant ainsi des informations précieuses sur ses performances.

Pour aller plus loin sur l'IoU

L'indice d'utilité sert de mesure fondamentale pour évaluer les performances des modèles de vision par ordinateur, aidant les chercheurs et les praticiens à affiner leurs algorithmes. Si l'indice d'utilité fournit des informations précieuses, il est important de noter qu'il présente certaines limites, notamment sa sensibilité à l'échelle et au rapport hauteur/largeur de l'objet. Cette sensibilité peut conduire à des résultats trompeurs, en particulier pour des objets de formes et de tailles différentes.

Pour surmonter cette limitation, des variantes de l'interface utilisateur ont été proposées, telles que GIoU (Generalized Intersection over Union) et DIoU (Distance Intersection over Union). 

Ces variantes intègrent des informations géométriques supplémentaires afin de fournir une évaluation plus robuste du chevauchement des boîtes englobantes, en atténuant l'effet de l'échelle et du rapport d'aspect.

Commencez à gérer vos données d'IA de la bonne façon.

Demander un essai gratuit

Recommandé pour vous :