Mesures clés pour surveiller les solutions de vision par ordinateur

Mesures clés pour surveiller les solutions de vision par ordinateur

Dans le domaine de la vision par ordinateur (VA), des données de formation de haute qualité ne garantissent pas des modèles de production très performants. Le vrai travail commence après le déploiement de la production, lorsque les performances du modèle commencent à se détériorer en raison de multiples facteurs que nous allons aborder dans cet article.

Plus important encore, l'interruption des performances d'un modèle de vision par ordinateur déployé en production peut entraîner une perte commerciale directe. Une solution robuste de surveillance de la vision par ordinateur vise à construire un système fiable capable de détecter tout problème sous-jacent et précédemment inaperçu afin de prévenir ou d'atténuer les problèmes de production.

La surveillance de la vision par ordinateur est un élément crucial du pipeline CVOps qui permet de suivre les principales mesures, ce qui permet aux fournisseurs de vision par ordinateur de prendre des décisions éclairées. Dans cet article, nous aborderons certaines des mesures clés à surveiller lors de la création de solutions de surveillance de la vision par ordinateur.

Qu'est-ce qui pourrait casser votre modèle de vision par ordinateur ?

Les équipes CVOps peuvent surveiller et maintenir efficacement les modèles de CV en production. Cependant, les performances du modèle commencent à se dégrader dès le déploiement, tout comme les autres produits du marché se dévalorisent après la fabrication.

Les modèles de vision par ordinateur sont dynamiques et sensibles aux changements dans la distribution des données. Le modèle sort de son contexte si une caractéristique des données de production devient indisponible ou si l'environnement réel pour lequel il a été conçu change.

Le suivi des différences dans les caractéristiques et le comportement d'un modèle avec les dernières données est essentiel pour construire des pipelines CV robustes. Par conséquent, le suivi des modèles de CV à l'aide de plusieurs métriques et la génération d'alertes ou de notifications permettent de maintenir la pertinence et la fiabilité des modèles.

Mesures clés pour surveiller les solutions de vision par ordinateur

Les métriques mesurent et enregistrent les performances de divers processus commerciaux. Les métriques de surveillance de la vision par ordinateur peuvent être divisées en catégories non supervisées et supervisées. Nous allons les examiner ci-dessous.

Mesures de surveillance non supervisées

Les métriques de surveillance de la vision par ordinateur non supervisée ne nécessitent pas d'entrée utilisateur pour évaluer la performance du modèle. Chez Picsellia, nous calculons diverses métriques de surveillance de la vision par ordinateur non supervisée à l'aide de notre plateforme CVOps robuste pour aider les équipes d'IA à disséquer les modèles CV et à identifier la dégradation des performances en temps réel.

Voici quelques-unes de ces mesures non supervisées à surveiller lors de l'élaboration de solutions de surveillance de la vision par ordinateur :

  1. Largeur et hauteur de l'image d'entrée
  2. Distribution du rapport d'image
  3. Distribution de la surface de l'image
  4. Temps d'inférence
  5. Score aberrant de l'AE
  6. Dérive KS

Élaborons !

1. Saisir la largeur et la hauteur de l'image

Les images d'entrée envoyées pour faire des prédictions peuvent avoir des orientations (largeur et hauteur) variables dans le temps. Par exemple, les utilisateurs peuvent ajouter des images de type portrait le jour et des images horizontales la nuit.

Picsellia construit un graphique visualisant les largeurs et hauteurs des images envoyées par les utilisateurs. L'analyse de la différence de dimensions des images peut révéler des faits intéressants sur le comportement des utilisateurs et des données.

2. Distribution du rapport d'image

Le ratio d'image est la répartition de la largeur de l'image sur la hauteur. Picsellia répartit les rapports d'image en six intervalles. Ces six intervalles sont les suivants : carré, haut, très haut, large, très large et extrêmement large. En fonction de la valeur du ratio de l'image, les six intervalles sont seuillés à différentes valeurs pour les séparer sur un histogramme.

3. Distribution de la surface de l'image

La distribution de la surface de l'image est une métrique importante pour définir la surface couverte par plusieurs images d'entrée, ce qui permet de valider rapidement les images. Elle est suivie à l'aide d'un histogramme de distribution de surface pour plusieurs images.

4. Temps d'inférence

Le temps d'inférence du modèle calcule le temps nécessaire pour traiter les nouvelles données et faire des prédictions. Le temps d'inférence est calculé dans l'étape de post-traitement du développement du modèle et donne un aperçu de la latence globale du modèle CV pendant l'inférence.

5. Score aberrant de l'AE

Une valeur aberrante est une valeur de données différente du reste des points de données. Les modèles ne peuvent pas faire de prédictions précises en présence de valeurs aberrantes, ce qui rend nécessaire le suivi des valeurs aberrantes, notamment en production.

Picsellia utilise un algorithme d'auto-encodage pour déterminer les images aberrantes du jeu de données de production en reconstruisant les images à l'aide d'un réseau neuronal convolutif (CNN) et attribue un score aberrant à chaque image en fonction de l'erreur de reconstruction de l'image. Une valeur plus élevée du score d'aberration représente une image aberrante.

6. Dérive KS

Supposons qu'au moins une caractéristique importante des données ne soit plus disponible dans la même mesure dans l'ensemble de données de production. Dans ce cas, on considère que l'ensemble de production s'est éloigné de l'ensemble de données d'apprentissage.

La dérive de Kolmogorov Smirnov (KS) suppose que les fonctions de distribution des caractéristiques pour les ensembles de données de production et d'apprentissage sont égales. Toutefois, si la dérive de KS calcule une plus grande distance de distribution entre deux caractéristiques, on considère que l'ensemble de données concerné a dérivé.

Picsellia suit les dérives sur une longue période pour les classer en dérives soudaines, progressives ou récurrentes. Après avoir classifié le type de dérive, le jeu de données correspondant peut être modifié.

Mesures de surveillance supervisée

Les mesures de surveillance de la vision par ordinateur supervisée nécessitent l'intervention de l'utilisateur pour mesurer les performances du modèle. Il faut généralement vérifier manuellement les données de production du monde réel pour observer tout changement radical pouvant entraîner une dégradation des performances des modèles de CV. Voici quelques-unes des métriques de surveillance supervisée :

  • Dérive des données
  • Concept Drift
  • Changement de domaine
  • Dérive des prédictions
  • Dérive en amont

Voyons-les en détail.

Dérive des données

La dérive des données se produit lorsque le modèle de vision par ordinateur est formé sur des images différentes des données du monde réel fournies en production. Elle indique le changement de la distribution de l'ensemble de production et de la distribution des données d'entraînement, ce qui entraîne un modèle moins performant. Voici quelques méthodes courantes pour mesurer la distance entre ces distributions :

  • La distance de Wasserstein
  • Divergence de Kullback - Leibler (divergence KL)
  • Indice de stabilité de la population (ISP)

Les variations dans le temps ou les changements saisonniers peuvent également entraîner une dérive des données. Par exemple, un ensemble de données sur les routes construites en Asie sera très différent des routes en Europe. De même, les relevés des capteurs IoT peuvent varier en été et en hiver, ce qui entraîne une dérive des données.

Concept Drift

La dérive des concepts se produit lorsque les modèles sur lesquels le modèle a été formé ne tiennent plus et que la relation entre les paramètres d'entrée et de sortie change. Le modèle devient moins précis ou obsolète.

La dérive du concept peut être incrémentielle, où le modèle vieillit sans s'adapter à l'évolution des besoins. Il peut s'agir d'une dérive soudaine, où les modèles se tordent, comme les changements de la demande des consommateurs pendant la nuit lors d'une pandémie ou une dérive récurrente influencée par les changements saisonniers pendant les vacances ou les événements festifs.

Le suivi des solutions de vision par ordinateur pour la dérive des concepts peut aider à mieux comprendre le modèle pour le mettre à niveau afin de garantir la précision et la pertinence dans le monde réel.

Changement de domaine

Le changement de domaine, également connu sous le nom de changement de distribution, se produit lorsque les données de formation, de validation et de test sont sélectionnées à partir d'une distribution de probabilité différente de la distribution des données de production.

Le décalage de domaine est difficile à détecter, et il peut entraîner une détérioration des performances des modèles en production. Son impact peut être observé sur les prédictions hors échantillon, qui peuvent être minimisées en conservant soigneusement les échantillons de test.

Dérive des prédictions

La dérive des prédictions, également appelée dérive du modèle, surveille la différence entre les prédictions du modèle sur une période de temps. Elle reflète le changement de prédiction de l'ensemble de données de production par rapport à l'ensemble de formation.

Idéalement, si le modèle de production est inchangé, il devrait produire une inférence similaire en obtenant les mêmes entrées. Cependant, les modèles se dégradent avec le temps et font des prédictions inexactes. Il est essentiel de diagnostiquer la dérive des prédictions avant qu'elle n'ait un impact négatif sur les clients ou les objectifs de l'entreprise.

Dérive en amont

La dérive en amont, également appelée dérive des données opérationnelles, indique des changements dans le pipeline de données du modèle. Un ensemble de production peut avoir des images d'entrée mal classées ou mal étiquetées avec des différences significatives par rapport à l'ensemble de formation.

Les problèmes de dérive des données opérationnelles ne sont pas très évidents. Ils peuvent être dus à des changements dans les caractéristiques des données ou à l'apparition de valeurs manquantes, ce qui a un impact négatif sur les performances du modèle de production.

Rationaliser le suivi des modèles de vision par ordinateur en production

Les modèles de vision par ordinateur se dégradent avec le temps et nécessitent des mises à jour continues en temps réel. Des problèmes de données sous-jacents communs peuvent affaiblir et même briser les pipelines de modèles de CV formés. Il est donc important d'élaborer des solutions de surveillance de la vision par ordinateur et de suivre en permanence les principales mesures de surveillance de la vision par ordinateur.

Picsellia offre la détection et l'atténuation de tous ces problèmes au sein d'une seule plateforme CVOps de bout en bout. Elle fournit des mesures supervisées et non supervisées pour aider à la surveillance et automatise la boucle de rétroaction afin qu'aucune dérive des données ne passe inaperçue.

Si vous voulez profiter gratuitement de la plateforme CVOps de Picsellia, réservez votre essai dès aujourd'hui ! Jusqu'à la prochaine fois ! 👋

Commencez à gérer vos données d'IA de la bonne façon.

Demander un essai gratuit

Recommandé pour vous :