Les réseaux de neurones convolutifs (CNN) ont d'abord été conçus dans le but de reconnaître des images dans le domaine de la vision par ordinateur. Ces réseaux constituent un type spécialisé de réseau neuronal artificiel qui s’est avéré très efficace dans l’analyse des données visuelles. Le développement des CNN a été motivé par la nécessité de créer des modèles capables de classer et de catégoriser avec précision les images, et leur succès dans ce domaine a conduit à leur utilisation généralisée dans diverses autres applications telles que la détection d'objets, la segmentation d'images et même le traitement du langage naturel.
Les CNN s'inspirent de la structure et de la fonctionnalité du cortex visuel du cerveau humain. Comme le cortex visuel, les CNN sont constitués de plusieurs couches de neurones interconnectés qui traitent différents aspects des données d'entrée. L'innovation clé des CNN réside dans leur capacité à apprendre et à extraire automatiquement les caractéristiques pertinentes des images, éliminant ainsi le besoin d'ingénierie manuelle des fonctionnalités. Ceci est réalisé grâce à l'utilisation de couches convolutives, qui appliquent des filtres à l'image d'entrée pour détecter divers modèles et caractéristiques visuels, tels que les bords, les coins et les textures.
La première percée dans les CNN est survenue avec l'introduction de l'architecture LeNet-5 par Yann LeCun et al. en 1998. LeNet-5 a été spécialement conçu pour la reconnaissance de chiffres manuscrits et a obtenu des performances remarquables sur l'ensemble de données MNIST, un ensemble de données de référence largement utilisé pour évaluer les algorithmes de reconnaissance d'images. LeNet-5 a démontré la puissance des CNN pour capturer des caractéristiques hiérarchiques à partir d'images, permettant une classification précise même en présence de variations d'échelle, de rotation et de translation.
Depuis lors, les CNN ont considérablement évolué, avec le développement d’architectures plus profondes et plus complexes. Une avancée notable a été l'introduction de l'architecture AlexNet par Alex Krizhevsky et al. en 2012. AlexNet a réalisé une percée dans la classification d'images en remportant le défi de reconnaissance visuelle à grande échelle ImageNet (ILSVRC) avec un taux d'erreur nettement inférieur à celui des approches précédentes. Ce succès a ouvert la voie à l’adoption généralisée des CNN dans les tâches de reconnaissance d’images.
Les CNN ont également été appliqués avec succès à d’autres tâches de vision par ordinateur. Par exemple, dans la détection d'objets, les CNN peuvent être combinés avec des couches supplémentaires pour localiser et classer les objets dans une image. Le célèbre réseau neuronal convolutif basé sur la région (R-CNN) introduit par Ross Girshick et al. en 2014 est un exemple d'une telle architecture. R-CNN a obtenu des résultats de pointe sur les tests de détection d'objets en exploitant la puissance des CNN pour l'extraction de fonctionnalités et en la combinant avec des méthodes de proposition de région.
Les réseaux de neurones convolutifs ont d'abord été conçus pour des tâches de reconnaissance d'images dans le domaine de la vision par ordinateur. Ils ont révolutionné le domaine en apprenant automatiquement les caractéristiques pertinentes des images, éliminant ainsi le besoin d'ingénierie manuelle des caractéristiques. Le développement des CNN a conduit à des progrès significatifs dans la classification des images, la détection d'objets et diverses autres tâches de vision par ordinateur.
D'autres questions et réponses récentes concernant Apprentissage profond avancé EITC/AI/ADL:
- Pourquoi devons-nous appliquer des optimisations dans l’apprentissage automatique ?
- Quand le surapprentissage se produit-il ?
- Les réseaux de neurones convolutifs peuvent-ils gérer des données séquentielles en incorporant des convolutions dans le temps, comme utilisé dans les modèles convolutifs de séquence à séquence ?
- Les réseaux antagonistes génératifs (GAN) reposent-ils sur l'idée d'un générateur et d'un discriminateur ?