Fonctions d'activation et réseaux neuronaux

Fonctions d'activation et réseaux neuronaux

Introduction

Supposons que nous voulions prédire les finalistes de la Coupe du monde de rugby. Au lieu de nous fier uniquement à l'analyse humaine, nous pouvons utiliser un modèle d'apprentissage profond.

Le modèle serait formé sur des données historiques de matchs de la Coupe du monde de rugby, y compris les performances et les résultats des équipes. En appliquant des transformations successives aux données d'entrée à l'aide de fonctions d'activation, le modèle apprend des modèles et des relations complexes.

Une fois entraîné, le modèle prend en compte les performances récentes des équipes participantes. Il utilise des fonctions d'activation pour traiter les données et faire des prédictions sur les deux équipes les plus susceptibles d'atteindre la finale.

Cet article a pour but d'explorer diverses fonctions d'activation couramment employées dans les tâches de vision par ordinateur. Nous étudierons leurs propriétés, discuterons de leurs avantages et de leurs limites, et fournirons des exemples spécifiques pour illustrer leurs applications dans différents scénarios.

Comprendre les réseaux neuronaux

Avant de nous plonger dans les subtilités des fonctions d'activation, rappelons brièvement le concept des réseaux neuronaux dans le domaine de la vision par ordinateur. Les réseaux neuronaux, inspirés par la complexité du cerveau humain, sont constitués de couches interconnectées de neurones artificiels. Il y a une couche d'entrée et une couche de sortie, reliées par des couches cachées, comme le montre la figure. Chaque couche cachée est constituée de neurones connectés à un ou plusieurs neurones de la couche précédente et de la couche suivante. Les neurones sont en fait des fonctions. 

https://www.tibco.com/

Pour simplifier : si nous considérons les données d'entrée comme un point de départ et les données de sortie comme un point d'arrivée, nous pouvons considérer le réseau neuronal comme une combinaison des chemins empruntés par les données d'entrée pour parvenir au résultat.

Grâce au processus de formation, ces réseaux apprennent à reconnaître des modèles et à faire des prédictions en ajustant les poids et les biais de ces neurones. 

Les poids

Les poids représentent les coefficients de l'équation d'un réseau neuronal. Lors de la formation d'un réseau neuronal à l'aide d'un ensemble de données de formation, on commence par un ensemble prédéterminé de poids. Ces poids sont ensuite ajustés et optimisés au cours du processus de formation afin d'obtenir les meilleures valeurs possibles.

Elle se produit au cours du processus d'apprentissage grâce à une technique appelée rétropropagation combinée à la descente de gradient. 

  1. Initialisation : La première étape consiste à initialiser aléatoirement les poids, chaque poids représentant un paramètre qui détermine l'influence d'une caractéristique ou d'un filtre particulier dans le réseau.
  2. Propagation vers l'avant: Lors de la propagation vers l'avant, les données d'entrée sont introduites dans le réseau et les poids sont utilisés pour calculer les prédictions de sortie. Les prédictions sont ensuite comparées aux étiquettes réelles pour calculer la perte, qui représente l'écart entre les valeurs prédites et les valeurs réelles.
  3. Rétropropagation: Dans cette étape, les gradients de la perte par rapport aux poids sont calculés à l'aide de la règle de la chaîne du calcul. Les gradients indiquent la direction et l'ampleur des ajustements de poids nécessaires pour réduire la perte.
  4. Descente de gradient: Les gradients calculés sont utilisés pour mettre à jour les poids dans le réseau. La descente de gradient est utilisée, ce qui implique de faire de petits pas dans la direction opposée aux gradients, dans le but de minimiser la perte. Le taux d'apprentissage détermine la taille de ces étapes.
  5. Optimisation itérative : Les étapes 2 à 4 sont répétées de manière itérative sur l'ensemble des données d'apprentissage. Chaque itération est appelée "époque". Au fur et à mesure de la formation, le réseau apprend progressivement à ajuster ses poids afin de réduire la perte et d'améliorer la précision de ses prédictions.
  6. Convergence : Le processus d'apprentissage se poursuit jusqu'à ce qu'un critère d'arrêt soit rempli, par exemple en atteignant un nombre maximal d'époques ou en observant une amélioration négligeable des performances.

En ajustant de manière répétée les poids sur la base des gradients calculés, le CNN apprend à reconnaître des modèles et des caractéristiques significatifs dans les données d'entrée, en optimisant les poids afin d'obtenir les meilleures valeurs possibles pour des prédictions précises.

Le parti pris

Le biais, quant à lui, est une valeur fixe ajoutée au produit des entrées et des poids. Il est l'opposé du seuil et détermine le moment où la fonction d'activation doit être activée. Essentiellement, la valeur du biais régit le processus de prise de décision de la fonction d'activation.

Les fonctions d'activation jouent un rôle central dans ce processus, en agissant comme des transformations non linéaires appliquées aux sorties de ces neurones, ce qui leur permet de modéliser des relations complexes entre les entrées et les sorties. 

Importance des fonctions d'activation dans les réseaux neuronaux

Les réseaux neuronaux dépourvus de fonctions d'activation seraient limités à la représentation de transformations linéaires, ce qui les rendrait inadaptés à la résolution de problèmes complexes. Les fonctions d'activation introduisent la non-linéarité, ce qui permet aux réseaux neuronaux de saisir des modèles complexes et de faire des prédictions plus précises. En appliquant une fonction d'activation appropriée, le pouvoir d'expression du réseau augmente de façon exponentielle, ce qui lui permet d'apprendre et de généraliser à partir d'ensembles de données complexes.

https://studymachinelearning.com

Fonctions d'activation populaires

Dans cette section, nous examinerons plusieurs fonctions d'activation populaires utilisées dans les tâches de vision par ordinateur et nous analyserons leurs caractéristiques, leurs avantages et leurs limites.

  1. Fonction d'activation sigmoïde

La fonction d'activation sigmoïde, également connue sous le nom de fonction logistique, est un choix classique dans les réseaux neuronaux.

https://insideaiml.com

  • Définition et propriétés : 

 

La fonction sigmoïde fait correspondre l'entrée à une plage comprise entre 0 et 1.

  • Il convient aux tâches de classification binaire. Sa courbe en forme de S facilite l'optimisation basée sur le gradient.
  • Cas d'utilisation et limites dans le domaine de la vision par ordinateur : Bien que la sigmoïde ait été largement utilisée dans le passé, elle présente des limites, telles que le problème du gradient qui s'évanouit. Lorsque l'entrée devient extrêmement grande ou petite, le gradient se rapproche de zéro, ce qui ralentit la convergence et pose des problèmes pour l'apprentissage des réseaux neuronaux profonds.
  1. Unité linéaire rectifiée (ULR)

ReLU a gagné en popularité ces dernières années, en particulier pour sa simplicité et son efficacité dans les réseaux neuronaux profonds.

https://www.nomidl.com

  • Définition et propriétés : 

La fonction d'activation ReLU renvoie l'entrée telle quelle si elle est positive, et zéro dans le cas contraire. Elle introduit de l'espace et de l'efficacité de calcul en réduisant à zéro les valeurs négatives.

  • Avantages par rapport à la fonction d'activation sigmoïde : ReLU surmonte le problème du gradient de disparition associé à la fonction sigmoïde, ce qui permet une convergence plus rapide et une formation plus efficace des réseaux neuronaux profonds.
  • Exemples d'application : Dans les tâches de vision artificielle telles que la détection et la segmentation d'objets, les fonctions d'activation ReLU se sont avérées très efficaces en raison de leur capacité à traiter des ensembles de données à grande échelle et à capturer des caractéristiques complexes.
  1. Leaky ReLU

Le Leaky ReLU résout le problème de la "ReLU mourante" rencontré avec la ReLU normale, où certains neurones deviennent inactifs.

https://www.i2tutorials.com

  • Définition et propriétés : Le Leaky ReLU introduit une petite pente pour les entrées négatives, permettant à un petit gradient de s'écouler même pour les valeurs négatives, empêchant ainsi les neurones de mourir.

  • Résolution du problème de la "ReLU morte" : en atténuant le problème des neurones morts, la Leaky ReLU garantit que le réseau conserve sa capacité d'apprentissage et de généralisation efficace.
  • Cas d'utilisation et avantages dans le domaine de la vision par ordinateur : Le Leaky ReLU trouve des applications dans diverses tâches de vision par ordinateur, telles que la classification d'images, où la prévention des neurones morts contribue à la performance globale du réseau.
  1. Tangente hyperbolique (tanh)

La fonction tangente hyperbolique présente des similitudes avec la fonction sigmoïde, mais offre une gamme de valeurs de sortie légèrement différente.

https://www.ml-science.com

  •  Définition et propriétés : 

Tanh fait correspondre l'entrée à une plage comprise entre -1 et 1, présentant des propriétés similaires à celles de la fonction sigmoïde, mais avec un gradient plus prononcé autour de zéro.

  • Comparaisons avec les fonctions d'activation sigmoïde et ReLU : tanh évite le problème de saturation associé à la sigmoïde en offrant une symétrie autour de zéro. Cependant, comme la sigmoïde, la tanh peut souffrir du problème du gradient qui s'évanouit.
  • Exemples d'application : tanh trouve son application dans les tâches de vision par ordinateur nécessitant des résultats dans une plage spécifique, telles que la reconnaissance d'expressions faciales ou de gestes.
  1. Softmax

Softmax est particulièrement utile dans les problèmes de classification multi-classes, en fournissant une distribution de probabilité sur plusieurs classes de sortie.

  • Définition et propriétés :

 Softmax normalise les sorties d'une couche de réseau neuronal, en veillant à ce que leur somme soit égale à un, ce qui permet de les interpréter comme des probabilités de classe.

  • Rôle dans les problèmes de classification multi-classes : Softmax est couramment utilisé dans les tâches de vision artificielle telles que la catégorisation d'images, où le réseau doit attribuer une seule étiquette à l'image d'entrée parmi plusieurs classes possibles.
  • Utilisation et avantages dans le domaine de la vision par ordinateur : Softmax permet des prédictions fiables en produisant des probabilités de classe, ce qui facilite la prise de décision pour diverses applications de vision par ordinateur.

Choisir la bonne fonction d'activation

La sélection de la fonction d'activation appropriée pour une tâche de vision par ordinateur donnée est cruciale pour obtenir des résultats optimaux. Plusieurs facteurs doivent être pris en compte au cours de ce processus de sélection.

1. Exigences de la tâche et caractéristiques des données: Les différentes tâches de vision par ordinateur requièrent des fonctions d'activation spécifiques. La compréhension des exigences de la tâche, telles que la classification binaire ou multi-classe, la détection d'objets ou la segmentation, permet d'orienter le choix de la fonction d'activation.

2. Performance et vitesse de convergence : Les fonctions d'activation peuvent avoir un impact significatif sur la vitesse de convergence et les performances globales du réseau neuronal. Certaines fonctions accélèrent la convergence, tandis que d'autres la ralentissent. Il est important d'évaluer les compromis et de choisir en conséquence.

3. Éviter les gradients qui s'évanouissent et qui explosent : Les gradients de disparition et d'explosion peuvent entraver le processus de formation. Une sélection rigoureuse des fonctions d'activation peut contribuer à atténuer ces problèmes et à favoriser un apprentissage stable et efficace.

Sélection de la fonction d'activation pour des tâches spécifiques de vision par ordinateur

Les tâches de vision par ordinateur ont des exigences différentes, et le choix de la bonne fonction d'activation est essentiel pour obtenir des performances optimales. Examinons les choix recommandés pour certaines tâches courantes de vision par ordinateur :

1. Classification d'images : ReLU et ses variantes, telles que Leaky ReLU, sont couramment utilisées dans la classification des images en raison de leur capacité à capturer efficacement des caractéristiques complexes. En outre, le softmax est appliqué dans la couche finale pour obtenir des probabilités de classe.

2. Détection d'objets : Les tâches de détection d'objets bénéficient souvent de l'utilisation de fonctions d'activation telles que ReLU, qui gèrent des ensembles de données à grande échelle et l'extraction de caractéristiques complexes. Softmax peut également être utilisé pour classer les objets détectés.

3. Segmentation sémantique : La segmentation sémantique nécessite une détection précise des limites, ce qui rend les fonctions d'activation telles que ReLU et Leaky ReLU très populaires. Ces fonctions facilitent la capacité du réseau à capturer les limites complexes des objets et à générer des cartes de segmentation précises.

Conclusion

Les fonctions d'activation sont des composants fondamentaux des réseaux neuronaux, en particulier dans les tâches de vision par ordinateur. Nous avons exploré diverses fonctions d'activation populaires, leurs propriétés, leurs avantages et leurs limites. Le choix approprié de la fonction d'activation peut avoir un impact significatif sur les performances, la vitesse de convergence et les capacités de généralisation du réseau. En outre, les fonctions et techniques d'activation avancées offrent des possibilités intéressantes pour améliorer encore l'efficacité des réseaux neuronaux dans le domaine de la vision par ordinateur. 

Commencez à gérer vos données d'IA de la bonne façon.

Demander un essai gratuit

Recommandé pour vous :