2022 a été l'année où Picsellia est passée d'une équipe de 4 personnes à une équipe de 12.
Quelle aventure !
J'ai travaillé dans le domaine de la vision par ordinateur pendant toute l'année, en discutant avec de nombreuses entreprises différentes de leurs stratégies en matière d'IA. J'ai l'impression d'avoir appris beaucoup de choses sur le recrutement, la gestion et la création de nouvelles équipes, ainsi que d'autres informations commerciales que je vais résumer ici.
Les 5 principaux enseignements de 2022 sur le marché de la vision par ordinateur
1 . Les applications les plus importantes du CV ne sont pas du tout sexy !

Au cours de l'année écoulée, nous avons discuté avec un grand nombre d'entreprises désireuses de se lancer dans la vision par ordinateur ou d'améliorer leurs flux de travail existants. Après avoir pris connaissance de leurs cas d'utilisation, je peux garantir que le scénario réel est assez éloigné de ces situations fantaisistes que vous lisez sur LinkedIn ou Reddit. Les personnes qui s'intéressent sérieusement à la vision par ordinateur essaient d'obtenir un retour sur investissement le plus rapidement possible, mais comment y parvenir efficacement ? Par exemple, si vous choisissez une tâche simple et l'accélérez de X %, vous êtes sûr de gagner du temps (et de l'argent !).
La plupart du temps, la vision par ordinateur ne crée pas de nouveaux cas d'utilisation, mais elle augmente ou optimise principalement ceux qui existent déjà.
Je vais vous expliquer.
- Règles de classification des images
Pouvoir classer rapidement des millions d'images - une tâche qui nécessitait auparavant un travail humain fastidieux - reste le premier cas d'utilisation de la vision par ordinateur. Ceux d'entre vous qui me suivent depuis un certain temps peuvent penser qu'il s'agit là d'un problème facile à résoudre et qui a déjà été résolu. Spoiler : ce n'est pas le cas.
- La détection d'objets peut être une chose, mais dans la plupart des cas, elle se fait en deux étapes
Dans les scénarios industriels ou du monde réel, vous ne voulez pas faire d'erreurs lors de l'étape de classification. Que se passe-t-il si vous ne parvenez pas à détecter certains défauts ? C'est nul, non ? Mais que se passe-t-il si la boîte de délimitation autour de ces défauts n'est pas parfaite ? Eh bien... vous pourriez dire qu'au moins vous les avez localisés. Ça craint... juste moins.
Cette idée simple mais légitime pousse les entreprises à mettre en place deux projets distincts : un pour la localisation et un pour la classification. Il en résulte 2 modèles, donc 2 étapes. Alors qu'il pourrait n'y en avoir qu'une !
- Les paramètres de qualité à surveiller ne sont pas les mêmes
Dans les applications du monde réel, les principales mesures de qualité à prendre en compte peuvent être très différentes de celles que nous avons l'habitude d'utiliser dans un contexte universitaire.
Les systèmes d'IA des entreprises sont, en fait, intégrés à des aspects beaucoup plus techniques. Par exemple, si vous voulez intégrer un modèle dans un objet se déplaçant à 3 m/s, vous devrez avoir une vitesse d'inférence bien supérieure à la norme. Même si cela est possible dans la plupart des cas, c'est à ce moment-là que l'on commence à réfléchir à des stratégies alternatives. Un autre élément à prendre en compte est la confiance moyenne des prédictions du modèle. Avoir une cohérence dans le seuil de confiance est crucial si vous voulez l'intégrer dans un logiciel.
Enfin, le pragmatisme est parfois préférable à la rigueur scientifique. On pourrait dire que "tous les modèles de CV sur les chaînes de production sont surajustés", mais on s'en fiche si ça marche... :)

2 . Le problème le plus courant est le déséquilibre des données
Eh bien, nous pourrions voir cela comme une excellente nouvelle ;)
Il ne faut pas oublier que les ensembles de données sont censés être une représentation du monde : si les événements de grande valeur ne se produisent pas tout le temps, la norme, elle, se produit.
Il existe plusieurs raisons pour lesquelles il n'est pas toujours facile de construire un ensemble de données équilibré pour les tâches de vision par ordinateur :
- Disponibilité des données : Il peut être difficile de trouver une quantité suffisante de données pour les classes minoritaires dans un ensemble de données, en particulier si la tâche est hautement spécialisée ou si les données sont difficiles à collecter.
- Qualité des données : Les données pour les classes minoritaires peuvent être de moindre qualité, ce qui peut rendre difficile la construction d'un ensemble de données équilibré. Par exemple, les images des classes minoritaires peuvent être mal étiquetées ou avoir une faible résolution.
- Annotation des données : La construction d'un ensemble de données équilibré peut nécessiter l'annotation manuelle d'un grand nombre d'images, ce qui peut être chronophage et coûteux.
- Distribution des données : La distribution des données dans le monde réel peut être intrinsèquement déséquilibrée. Par exemple, il peut y avoir beaucoup plus d'images d'objets courants comme des voitures ou des chiens que d'objets plus rares comme des avions ou des animaux exotiques.
En résumé, la création d'un ensemble de données équilibré peut constituer un défi, car la collecte et l'annotation de données de haute qualité pour les classes minoritaires peuvent nécessiter un effort considérable, et la distribution des données dans le monde réel peut ne pas être également équilibrée entre toutes les classes.
3. Tout comme nous n'avons pas besoin de plus de services de livraison, nous n'avons pas besoin de plus d'outils d'annotation.

Il y en a tellement, que je ne peux même pas les mettre tous dans mon graphique, allez... ça suffit non?
Il peut être difficile de déterminer lequel est le mieux adapté à un projet particulier. Voici quelques facteurs à prendre en compte lors du choix d'un outil d'annotation d'images :
- Le type de données à annoter : Différents outils peuvent être mieux adaptés à différents types de données, comme les images, les vidéos ou le texte.
- Les tâches d'annotation à effectuer : Certains outils peuvent être mieux adaptés à certains types de tâches de labeling, comme l'annotation de bounding boxes, l'annotation de polygones ou l'annotation de points clés.
- La taille et la complexité de l'ensemble de données : Certains outils peuvent être mieux adaptés aux grands ensembles de données contenant de nombreuses images, tandis que d'autres peuvent être plus adaptés à des ensembles de données plus petits.
- Le budget et les ressources disponibles : Certains outils peuvent être plus chers ou nécessiter une plus grande expertise technique pour être utilisés, ce qui peut ne pas être pratique pour tous les projets.
En définitive, le meilleur outil d'annotation d'images dépendra des besoins et des contraintes spécifiques du projet. Il peut être utile d'évaluer plusieurs outils différents et de comparer leurs caractéristiques et leurs capacités avant de prendre une décision.
Mais s'il vous plaît, jeunes entrepreuneurs, arrêtez de créer de nouvelles startups sur l'annotation, c'est assez aha.
4. Les entreprises ont compris que les modèles d'IA doivent être ultra-specialisés pour performer.
En général, les modèles de deep learning dit "étroits" ont tendance à être plus spécialisés et à mieux fonctionner sur des tâches spécifiques que les modèles plus larges. Cela s'explique par le fait que les modèles étroits ont moins de paramètres et sont donc moins enclins à l'overfitting, qui se produit lorsqu'un modèle est trop complexe et apprend des modèles dans les données d'entraînement qui ne se généralisent pas à de nouvelles données non vues.
Les modèles étroits sont également plus faciles à entraîner et nécessitent moins de calculs, ce qui peut être particulièrement important pour les tâches nécessitant des performances en temps réel ou en cas de contraintes de ressources, comme sur les appareils mobiles ou dans les systèmes embarqués.
Cependant, il est important de noter que le meilleur modèle pour une tâche particulière dépendra des caractéristiques spécifiques des données et de la tâche à accomplir. Dans certains cas, un modèle plus large peut s'avérer plus approprié, notamment si la tâche nécessite un modèle plus polyvalent capable de traiter un large éventail d'entrées. Il est également possible d'utiliser l'apprentissage par transfert, où un modèle formé pour une tâche est affiné pour une autre tâche, afin de tirer parti des connaissances acquises par un modèle plus large tout en obtenant de bonnes performances pour une tâche spécifique.
5. Le MLOps doit se lancer dans le support des déploiements edge.
Il est difficile d'estimer la proportion de modèles de vision par ordinateur fonctionnant en production à la périphérie, car elle dépend de l'industrie et de l'application spécifiques. Cependant, il est de plus en plus courant que les modèles de vision par ordinateur soient déployés à la périphérie, en particulier dans des secteurs tels que la fabrication, la vente au détail et les transports, où il est important de traiter les données rapidement et efficacement sans avoir besoin d'une connexion réseau.
Dans certains cas, les modèles de vision par ordinateur peuvent être déployés sur des appareils périphériques tels que des smartphones, des drones ou des caméras de sécurité, où ils peuvent analyser des images et des vidéos en temps réel.
Il convient de mentionner que tous les modèles de vision par ordinateur ne sont pas adaptés au déploiement à la périphérie, car certaines tâches peuvent exiger plus de calcul ou de mémoire que ce que peut fournir un petit appareil. Dans ces cas, il peut être plus approprié d'envoyer les données à un serveur central ou à un nuage pour le traitement.
Les plates-formes MLOps peuvent certainement se concentrer sur la facilitation du déploiement périphérique des modèles de vision par ordinateur, car il s'agit d'un domaine important et en pleine expansion dans le domaine de l'apprentissage automatique. Les plates-formes MLOps sont conçues pour rationaliser le processus de création, de déploiement et de gestion des modèles d'apprentissage automatique en production, ce qui inclut le déploiement de modèles en périphérie.
Un certain nombre de défis doivent être pris en compte lors du déploiement de modèles d'apprentissage automatique à la périphérie, tels que les ressources et la puissance de calcul limitées des dispositifs de périphérie, le besoin de performances en temps réel et le potentiel de conditions de réseau variables et peu fiables.
Les plates-formes MLOps peuvent aider à relever ces défis en fournissant des outils et des cadres pour optimiser et déployer les modèles à la périphérie, ainsi que pour surveiller et gérer leurs performances en production.
Cela dit, il n'est pas nécessaire que toutes les plateformes MLOps se concentrent exclusivement sur le déploiement périphérique pour la vision par ordinateur. L'orientation spécifique d'une plateforme MLOps dépendra des besoins de l'organisation et des types de tâches d'apprentissage automatique qu'elle tente de résoudre. Certaines organisations peuvent avoir un plus grand besoin de déploiement en périphérie, tandis que d'autres peuvent être plus axées sur le déploiement de modèles dans le cloud ou sur site.
Conclusion
Je crois vraiment que 2022 a été un point de basculement pour la vision par ordinateur dans l'industrie. J'ai 26 ans... mais à l'époque, c'est-à-dire en 2018/19, nous avions du mal à attirer l'attention des parties prenantes sur la vision par ordinateur et l'IA. Ces jours sont révolus, maintenant nous entendons parler de gens qui veulent mettre un cycle complet de MLOps dans une usine hors ligne mais qui surveillent la dérive et les valeurs aberrantes sur un raspberry pi. :) Cela signifie que les choses évoluent : les gens se familiarisent avec l'IA et sont conscients que la vision par ordinateur peut améliorer leurs stratégies commerciales. Néanmoins, il reste encore beaucoup de chemin à parcourir ! Tant mieux pour nous :P
Si vous envisagez de vous lancer dans ce domaine, n'hésitez pas, il y a tellement de choses passionnantes à explorer et de cas d'utilisation à construire, c'est encore le début de l'IA pour l'industrie :)