L'intelligence artificielle (IA) a connu une croissance considérable au cours de la dernière décennie. Aujourd'hui, les modèles d'IA sont meilleurs que jamais et ont remplacé le travail humain dans les tâches quotidiennes. Cependant, les scientifiques et les ingénieurs ont récemment commencé à souligner l'importance de la qualité des données dans la construction de modèles d'IA performants et robustes. Andrew NG, pionnier de l'IA, déclare
"Au lieu de se concentrer sur le code, les entreprises devraient se concentrer sur le développement de pratiques d'ingénierie systématiques pour améliorer les données de manière fiable, efficace et systématique. En d'autres termes, les entreprises doivent passer d'une approche centrée sur le modèle à une approche centrée sur les données."
La notion d'IA centrée sur les données nous amène à l'importance de la conservation des données. La conservation des données est la gestion des données dans une organisation de manière à ce qu'elles soient facilement disponibles dans le présent et préservées pour une utilisation future. Les modèles d'apprentissage automatique (ML) bénéficient de données organisées pendant l'apprentissage et le réapprentissage. Les techniques de conservation des données impliquent également une analyse visant à extraire des caractéristiques utiles pour l'apprentissage automatique.
Dans le domaine de la vision par ordinateur (CV), les données d'image sont généralement disponibles avec de nombreux points de données car, dans la plupart des cas, elles sont relativement faciles à générer et à synthétiser. Avec des ensembles de données d'images massives, la conservation devient une partie intégrante du pipeline CVOps. Voyons comment la conservation des données facilite les tâches de vision par ordinateur.
Curation des données pour la vision par ordinateur
Les ingénieurs en vision par ordinateur passent environ 80 % de leur temps à conserver des données. Ces ensembles de données doivent être constamment mis à jour pour répondre aux exigences des entreprises modernes. Les entreprises doivent mettre en place des pipelines de gestion des données appropriés qui permettent l'acquisition et l'annotation des données de manière efficace.
Un bon ensemble de données comporte deux aspects principaux, la qualité et la diversité. Certains des jeux de données d'images de haute qualité les plus connus contiennent des millions d'images diverses. Par exemple :
- MS-COCO (328 000 images)
- Image-Net (1,3 million d'images)
- Jeu de données Open-Images (~10 millions d'images)
Bien qu'ils soient utilisés pour évaluer de nombreux modèles de pointe, les ensembles de données, dans leur forme brute, contiennent de nombreux échantillons bruités et nécessitent un grand nombre de prétraitements et de nettoyages avant d'effectuer des tests. Cela montre à quel point il est difficile de maintenir un ensemble de données véritablement parfait.
Créer des ensembles de données de valeur est toujours un défi. Il s'agit d'un processus récurrent qui requiert des compétences et de la patience. Examinons quelques défis lors de la conservation d'un ensemble de données et comprenons pourquoi de nombreux ensembles de données publiques ne conviennent pas aux outils d'IA modernes.
Les défis de la qualité des données
Si vous effectuez une recherche sur Kaggle ou sur d'autres référentiels de données ouverts, vous trouverez une pléthore de jeux de données. Ces jeux de données peuvent être utilisés gratuitement, mais leur caractère libre soulève des questions quant à leur crédibilité. Nombre d'entre eux sont téléchargés par des passionnés ou des chercheurs indépendants qui ne font guère d'efforts pour vérifier leur exactitude et tenir compte des valeurs manquantes. S'ils sont utilisés par des professionnels à des fins d'évaluation comparative, ils donneront des résultats incorrects et les modèles testés ne seront pas fiables.
La création et le maintien d'un ensemble de données de qualité présentent de nombreux défis, car ils nécessitent un suivi constant tout au long de leur cycle de vie. Nous allons examiner ces défis en détail ci-dessous :
1. Assurer la diversité des données
Les ingénieurs de données sont tenus de collecter des données provenant de plusieurs sources et dans diverses conditions, afin de garantir une collecte de données diversifiée. Cependant, il s'agit d'une tâche fastidieuse et peu excitante, et une collecte de données appropriée peut prendre des semaines, voire des mois. De nombreuses organisations modernes passent même des années à collecter des données pertinentes avant de les utiliser pour des applications pratiques.

Pour les applications de vision par ordinateur, cela signifie collecter des images pour un sujet donné. Supposons que vous vouliez créer un ensemble de données de photos d'oiseaux. Vous devrez capturer des images de toutes sortes d'oiseaux. Chaque catégorie (ou espèce d'oiseau) nécessitera des photos sous plusieurs angles, dans différentes conditions d'éclairage et à différentes altitudes. Ce ne sont là que quelques-unes des variations. En réalité, vous devrez vous occuper de bien d'autres scénarios.
2. Précision de la source des données
Les données brutes sont le fondement de toutes les pratiques de science des données et d'apprentissage automatique, de sorte que toute imprécision coûte cher à une organisation. Lorsque vous collectez des données provenant de diverses sources, assurer des mesures précises devient un défi. Si des informations inexactes passent à d'autres étapes de traitement, il devient encore plus difficile de retrouver la source de l'erreur.
3. Annotation des données
Une fois que vous avez collecté les données, la création de vérités de base est la prochaine étape nécessaire. L'étiquetage des données est tout aussi fastidieux que la collecte des données puisque vous disposez de milliers ou de millions d'images. Les ensembles de données d'images sont étiquetés de différentes manières en fonction du problème. En voici quelques exemples :
- Association de classes pour les tâches de classification.
- Création d'un masque et d'une boîte englobante pour la détection d'objets.
- Descriptions d'images pour le sous-titrage des images.
4. Sécurité des données
La sécurité des données et le respect de la vie privée sont toujours une priorité absolue pour les organisations, car les pirates informatiques sont constamment à l'affût des possibilités d'intrusion. Les entreprises consacrent beaucoup de ressources, d'argent et de temps à la collecte et au raffinement des données, et tout type d'infraction entraîne des pertes énormes.
5. Architecture de stockage complexe
Les données doivent être accessibles à tous les ingénieurs de données concernés et aux membres de l'équipe ne travaillant pas dans le domaine des données. Les bases de données SQL traditionnelles suffisent amplement à faciliter le stockage et l'accès aux données structurées ou tabulaires, mais elles ne peuvent pas être utilisées pour stocker des données d'images. Le stockage de données non structurées nécessite des bases de données NoSQL telles que MongoDB ou un stockage en nuage comme le seau Amazon S3. En outre, un référentiel de données centralisé comme un entrepôt de données ou un lac de données peut être une option plus flexible.
Ces lacunes sont une raison importante de l'échec de nombreux projets de ML à forte intensité de données. Sans suivre les bonnes pratiques, les organisations finissent par perdre beaucoup de temps à réparer les erreurs et les fautes.
Mais quelles sont les bonnes pratiques pour conserver les données ?
Nous allons en discuter ci-dessous.
Meilleures pratiques pour la conservation des données d'image
La constitution d'un ensemble de données approprié peut s'avérer accablante, mais ce n'est pas une fatalité. Avec une planification et des conseils appropriés, les ingénieurs peuvent tirer le meilleur parti des données et minimiser leur charge de travail. Voyons plus en détail ce qu'il faut faire pour créer un ensemble de données sain.
1. Comprendre votre problème
La collecte de données est brutale et l'est encore plus si vous prenez la mauvaise direction. Sans comprendre le problème, vous risquez de perdre du temps à collecter des images inutiles pour votre modèle ML. Il est toujours utile de prendre du recul et de réitérer vos exigences pour savoir ce dont vous avez besoin.
La plupart des tâches de vision par ordinateur nécessitent des images claires avec le sujet en vue complète. En utilisant de telles images, les ingénieurs en CV peuvent augmenter la taille de l'ensemble de données en créant des variations via des techniques d'augmentation.
Savoir ce dont vous avez besoin permet d'économiser du temps et des efforts et évite que des inexactitudes ne viennent entacher l'ensemble des données.
2. Guides d'annotation des données
L'attribution des tâches d'étiquetage des données à des ressources inexpérimentées et non techniques est une pratique courante dans l'industrie pour réduire les coûts d'annotation. Bien qu'elle soulage les ingénieurs de données, elle soulève des questions quant à la qualité de l'annotation des données.

Les modèles d'apprentissage automatique utilisent les étiquettes de la vérité du terrain pour s'entraîner. Toute erreur dans ces étiquettes entraîne une perte de performance du modèle. Les annotateurs doivent donc faire très attention à ce que toutes les données soient étiquetées de manière appropriée. Les guides d'annotation peuvent aider les ressources à comprendre comment étiqueter les données en fonction de la classe donnée.
3. Embeddings et annotation auto-supervisée des données
L'annotation auto-supervisée des données est un concept relativement nouveau, mais des organisations ont déjà commencé à l'utiliser pour accélérer l'étiquetage des données. Plusieurs modèles de vision par ordinateur open-source sont disponibles en ligne, spécialisés dans la classification d'images ou la détection d'objets. L'annotation auto-supervisée des données utilise ces modèles pour générer des étiquettes et classer les images en catégories. Les annotateurs peuvent vérifier manuellement ces images pour supprimer toute incohérence, un processus beaucoup plus rapide avec une faible marge d'erreur.

En outre, des embeddings ou des cartes de caractéristiques peuvent être générés à partir d'images à l'aide de réseaux neuronaux convolutifs (CNN). À l'aide d'algorithmes de regroupement, les ingénieurs en vision par ordinateur peuvent utiliser ces incorporations pour regrouper des images similaires.
4. Éliminer les silos de données
Les silos de données se produisent lorsque les départements de l'organisation (comme les ventes, le marketing et les opérations) ne gèrent que ses données. Les entreprises ne peuvent pas se permettre ces silos de données car ils empêchent l'organisation d'observer une vue à 360° de ses clients ou de ses données commerciales, ce qui se traduit par des analyses incomplètes et une prise de décision inefficace. De plus, les silos de données minimisent la collaboration entre les équipes, ce qui est contre-productif pour les organisations modernes.
Pour éliminer ces silos de données, les entreprises peuvent mettre en place un pipeline de stockage centralisé tel qu'un entrepôt de données ou un lac de données pour rassembler les données provenant de sources disparates. Cela permet d'éliminer les silos de données et de promouvoir la démocratisation des données dans toute l'entreprise.
Assurer la qualité des données avec Picsellia
Picsellia offre une grande variété d'outils qui automatisent le processus de curation des données. Notre solution de gestion des données de bout en bout permet de stocker et d'accéder facilement aux données.
La plateforme CVOps de Picsellia offre des fonctionnalités de contrôle de version pour les ensembles de données, de sorte que vous n'auriez jamais à vous inquiéter de perdre des données pertinentes. Outre le stockage des données, les outils d'étiquetage assistés par l'IA de Picsellia améliorent la vitesse et la précision des annotations en offrant une fonction de pré-annotation pour automatiser l'étiquetage.
En outre, notre fonction de suivi des expériences vous permet de conserver la trace des multiples expériences exécutées sur vos différents ensembles de données. Vous pouvez utiliser ces enregistrements pour affiner votre ensemble de données et tirer le meilleur parti de votre modèle.
Pour découvrir nos solutions exceptionnelles de gestion des données, réservez votre démonstration dès aujourd'hui.