6 Tendances de la vision par ordinateur en 2022

6 Tendances de la vision par ordinateur en 2022

L'IA a énormément contribué aux progrès de la vision par ordinateur au cours des dernières années. C'est le domaine dans lequel la plupart des recherches sur l'IA sont menées. Mais que se passera-t-il en 2022, quelles sont les principales tendances actuelles de la recherche ?

Pour cet article, nous avons recherché et étudié les tendances de recherche les plus importantes afin que vous n'ayez pas à le faire. Nous les avons comprimées dans un seul article pour que vous n'ayez pas à chercher plus loin !

Apprentissage multimodal

L'objectif ultime de l'intelligence artificielle est de parvenir à l'intelligence générale artificielle (AGI). L'AGI est une IA capable de comprendre et d'exécuter n'importe quelle tâche intellectuelle, comme les êtres humains. Cela contraste avec les modèles actuels d'IA qui sont "étroits", en ce sens qu'ils sont formés pour exécuter une seule tâche ou des tâches très similaires.

L'apprentissage multimodal est considéré par beaucoup comme une étape vers l'AGI. Les modèles multimodaux sont capables de traiter plusieurs types de données. Le traitement et la capture d'informations provenant de plusieurs sources différentes (images, textes, sons, données de capteurs) permettent à un agent d'IA de créer une compréhension conceptuelle plus riche et de percevoir son environnement de manière plus holistique.

Imaginez la tâche d'analyse des sentiments. Vous pouvez former un modèle pour détecter les émotions à partir d'images de visages. Inversement, vous pouvez former un modèle à l'analyse des sentiments de phrases linguistiques ou à la capture du ton de la voix de phrases audio. Cependant, l'entraînement sur les trois simultanément permet au modèle de capturer les indices d'émotion de toutes les sources, c'est-à-dire l'expression faciale, le ton de la voix ainsi que le sentiment de la phrase prononcée.

De nombreuses recherches se sont concentrées sur l'apprentissage multimodal au cours des deux dernières années et certains modèles exceptionnels, capables d'atteindre des performances SOTA dans de multiples tâches sans réglage fin (zero shot learning) ont été développés. Parmi les exemples les plus marquants, citons le modèle CLIP d'OpenAI, qui a été entraîné à modéliser la similarité entre les images et leurs légendes associées, ainsi que FLAVA et data2vec de Meta. Une autre approche commune à ces modèles est qu'ils utilisent l'apprentissage auto-supervisé, ce qui nous amène à notre prochaine tendance de recherche.

Apprentissage auto-supervisé

Yan LeCun, vice-président et responsable scientifique de l'IA chez MetaAI, a qualifié l'apprentissage auto-supervisé de "matière noire de l'intelligence". MetaAI, mais aussi d'autres institutions leaders dans le domaine de l'IA, travaillent d'arrache-pied dans le sens de l'autosupervision en tant que nouveau paradigme d'apprentissage visant à remplacer l'apprentissage supervisé classique, qui est devenu impossible à mettre à l'échelle. 

L'apprentissage auto-supervisé (SSL) est un paradigme d'apprentissage dans lequel des pseudo-étiquettes sont générées automatiquement à partir de données non étiquetées. Ces étiquettes ne sont pas attribuées en fonction de la tâche cible, mais plutôt en fonction d'une tâche générale de pré-formation qui vise à enseigner et à donner au modèle "une intuition générale sur le monde". En s'entraînant sur cette tâche avec des ordres de grandeur de données plus importants que pour l'apprentissage supervisé, les modèles sont capables de capturer des caractéristiques qui sont autrement difficiles à découvrir. Il s'agit d'une façon intelligente d'exploiter les quantités sans précédent de données non étiquetées qui sont disponibles aujourd'hui.

Tous les grands modèles contemporains de la PNL, tels que GPT-3, BERT et le plus récent BLOOM, font appel à l'auto-supervision afin d'être entraînés avec succès. SSL a révolutionné la PNL et révolutionne maintenant la façon dont nous formons les modèles de vision. Mais il n'y a pas que les grands modèles qui en bénéficient, lisez notre article pour apprendre comment vous pouvez réduire vos besoins en données de formation en exploitant l'apprentissage auto-supervisé.

Text-to-Image avec des modèles de diffusion

La tendance la plus populaire de 2022 est probablement celle des modèles de diffusion texte-image. Des modèles tels que DALL-E 2 et Imagen ont fait les gros titres de l'actualité. Au cas où vous ne le sauriez pas encore, ces modèles sont capables de générer des images originales à partir de simples phrases en langage naturel !

                      

                

                          

                Des images générées par l'IA à partir de phrases prononcées par des humains.

À un niveau élevé, ces modèles comportent deux parties essentielles. 

  • Un puissant codeur sémantique de texte. Il peut s'agir d'un codeur de texte multimodal entraîné sur des paires image-texte, comme CLIP, ou d'un grand modèle de langage comme BERT. Le codeur de texte est chargé de capturer la complexité et le sens sémantique d'une phrase d'entrée arbitraire. Il capture ces caractéristiques en projetant la séquence de texte dans un espace d'intégration à haute dimension.

  • Un modèle de diffusion qui génère des images à partir d'un bruit gaussien. Grâce à une procédure de débruitage, les modèles de diffusion sont capables de générer de nouvelles images à partir de bruit pur ! La procédure de débruitage est modélisée comme une chaîne de Markov dont les paramètres peuvent être manipulés par le biais d'une antériorité.

Comme nous voulons que le modèle de diffusion crée des images inspirées par une phrase d'invite, la sortie de l'encodeur de texte est introduite dans le modèle de diffusion, avec un bruit gaussien, afin de guider le processus de débruitage. Les résultats parlent d'eux-mêmes !

Ces modèles sont les plus profonds que l'IA ait pénétrés dans l'art, jusqu'à présent. Nombreux sont ceux qui craignent que ces modèles ne remplacent les illustrateurs et les peintres numériques, voire d'autres artistes. Cependant, ils vont probablement servir d'excellents outils de soutien à ces professionnels et démocratiser davantage le domaine, plutôt que de les remplacer complètement. 


Perception de scènes en 3D

La perception dans l'espace 3D est une condition préalable à la création de systèmes robotiques autonomes qui fonctionnent dans des conditions réelles, comme la conduite autonome, mais aussi les applications de réalité augmentée. Les méthodes pertinentes comprennent la détection d'objets en 3D, la segmentation panoptique en 3D, l'estimation de la profondeur en 3D et bien d'autres encore.

L'objectif de la détection d'objets en 3D est de reconnaître des objets en dessinant une boîte de délimitation orientée en 3D (cube) autour d'eux et en leur attribuant une étiquette de classification. En détectant des objets en 3D, nous obtenons des informations sur leur taille, leur distance et leur orientation. Ces informations peuvent ensuite être exploitées par un modèle de navigation afin de prédire le mouvement des objets dans la scène, de faciliter la planification du chemin et finalement d'éviter les collisions.

                                     

                    Un exemple de détection d'objet 3D étiqueté provenant du jeu de données objectron. Source :

Les méthodes d'apprentissage profond, telles que les réseaux CNN et, dans certains cas, les ViT, sont largement utilisées pour résoudre cette tâche. Actuellement, les méthodes de formation les plus populaires consistent à n'utiliser que des images, à utiliser des données de capteurs LiDAr ou à fusionner les deux sources pour créer des ensembles de données multimodales. 

Bien que de nombreuses recherches soient consacrées à des systèmes de perception 3D fiables et que l'industrie automobile s'intéresse beaucoup à cette technologie, la détection d'objets 3D n'en est encore qu'à ses débuts. Cependant, les résultats obtenus dans des ensembles de données de référence (par exemple, Kitti cars, sun-rgbd, objectron dataset) sont très prometteurs.

Représentations de scènes en 3D avec des champs de radiance neuronaux (NeRF)

En 2020, un article intitulé "NeRF : Representing Scenes as Neural Radiance Fields for View Synthesis" a été publié. Depuis lors, il a inspiré un grand nombre d'articles de recherche à suivre la même direction pour la synthèse de vues de scènes 3D et la recherche est toujours en cours. Il s'agit d'une technologie aux applications très prometteuses en infographie, en réalité augmentée et peut-être même en médecine.

Le but de cette tâche est de synthétiser de nouvelles vues d'un objet à partir d'une entrée 5D. Les données d'entrée sont les coordonnées spatiales x=(x, y, z) de l'observateur (caméra) et l'angle de vue (θ,φ). NeRF fait correspondre cet espace 5D à une densité volumique unique σ et à une couleur RVB dépendant de la vue c. Pour ce faire, il utilise un réseau neuronal profond optimisé entièrement connecté. La formation suit un paradigme supervisé, d'où la nécessité d'avoir plusieurs vues de l'objet à des fins de formation.

 Source :

Le NeRF a réussi à obtenir d'excellents résultats par rapport à ses techniques antérieures, déclenchant une petite révolution dans son domaine.   

                                     

  

                                      Synthèse d'une nouvelle vue d'une image 2D d'entrée avec NeRF et d'autres méthodes de prédédoublement. Source :

IA explicable et quantification de l'incertitude dans les CV

Enfin, une tendance qui s'impose non seulement dans le domaine de la vision par ordinateur, mais aussi dans l'ensemble de l'IA. 

Toutes ces étonnantes techniques d'apprentissage profond que nous utilisons aujourd'hui ont réussi à déplacer l'aiguille de l'état de l'art de la vision par ordinateur de façon considérable. Cependant, à mesure que les modèles deviennent de plus en plus complexes et volumineux, il devient progressivement plus difficile d'interpréter pourquoi et comment ils font des prédictions.

L'apprentissage profond a toujours été considéré comme une technologie de type "boîte noire". Cependant, à mesure que les modèles d'apprentissage profond font leur entrée dans notre vie quotidienne, régissant souvent des décisions importantes telles que le diagnostic médical, il est primordial de savoir POURQUOI ces modèles ont pris une décision. Il est également extrêmement important de savoir dans quelle mesure un modèle est sûr de sa prédiction et quel degré de confiance nous pouvons lui accorder. Ces motivations ont donné naissance au domaine de l'intelligence artificielle explicable (XAI).

De nombreux fonds sont alloués à l'IA explicable et la vision par ordinateur en revendique une grande partie. Parmi les méthodes populaires pour créer des modèles plus transparents, citons CAM, Grad CAM ++ [5], RISE [6], SHAP Gradient Explainer. Les outils logiciels et les bibliothèques connexes comprennent ELI5, interpretML, tootorch, tf-explain, shap.

          

Algorithme Grad CAM++ appliqué à un CNN. Les couleurs représentent les activations des filtres. Une couleur plus chaude signifie que le modèle a accordé plus d'importance à ces pixels.

Les techniques d'IA explicable permettront de confirmer les connaissances existantes, de les remettre en question mais aussi de générer de nouvelles hypothèses.

RÉFLEXIONS FINALES

Il se passe beaucoup de choses dans le domaine de la vision par ordinateur et il est facile de perdre le fil de toutes les tendances de la recherche. En 2022, nous avons vu que les très grands modèles de vision, en particulier ceux basés sur les transformateurs de vision, ont dominé. Ces modèles s'appuient sur l'apprentissage autosupervisé pour la formation, ce qui nous permet de supposer que l'autosupervision est là pour rester. En outre, nous pouvons observer que les recherches les plus récentes se situent à l'intersection de la vision par ordinateur et du traitement automatique des langues. La multimodalité n'en est encore qu'à ses débuts, mais elle a déjà produit des résultats extraordinaires. Il est difficile de douter qu'elle ne s'imposera pas et que nous ne verrons pas différents domaines d'apprentissage profond s'unir. Tout ce qui précède souligne la nécessité de modèles plus transparents. L'IA ayant déjà pénétré profondément dans la société, l' IA explicable est plus importante que jamais.

RÉFÉRENCES

[1] Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel

[2] FLAVA : un langage fondamental et un modèle d'alignement de la vision.

[3] https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

[4] NeRF : Représentation de scènes en tant que champs de radiance neuronaux pour la synthèse de vues.

[5] RISE : Echantillonnage d'entrée randomisé pour l'explication des modèles de type boîte noire.

[6] Grad-CAM : Explications visuelles à partir de réseaux profonds via la localisation basée sur le gradient

Commencez à gérer vos données d'IA de la bonne façon.

Demander un essai gratuit

Recommandé pour vous :