EITC/AI/ARL Advanced Reinforcement Learning est le programme européen de certification informatique sur l'approche de DeepMind en matière d'apprentissage par renforcement en intelligence artificielle.
Le programme de l'EITC/AI/ARL Advanced Reinforcement Learning se concentre sur les aspects théoriques et les compétences pratiques dans les techniques d'apprentissage par renforcement du point de vue de DeepMind organisé au sein de la structure suivante, englobant un contenu didactique vidéo complet comme référence pour cette certification EITC.
L'apprentissage par renforcement (RL) est un domaine d'apprentissage automatique qui s'intéresse à la manière dont les agents intelligents doivent agir dans un environnement afin de maximiser la notion de récompense cumulative. L'apprentissage par renforcement est l'un des trois paradigmes de base de l'apprentissage automatique, aux côtés de l'apprentissage supervisé et de l'apprentissage non supervisé.
L'apprentissage par renforcement diffère de l'apprentissage supervisé en ce qu'il ne nécessite pas de présentation de paires d'entrée/sortie étiquetées et qu'il ne nécessite pas que des actions sous-optimales soient explicitement corrigées. L'accent est plutôt mis sur la recherche d'un équilibre entre l'exploration (d'un territoire inconnu) et l'exploitation (des connaissances actuelles).
L'environnement est généralement présenté sous la forme d'un processus de décision de Markov (MDP), car de nombreux algorithmes d'apprentissage par renforcement pour ce contexte utilisent des techniques de programmation dynamique. La principale différence entre les méthodes classiques de programmation dynamique et les algorithmes d'apprentissage par renforcement est que ces derniers ne supposent pas la connaissance d'un modèle mathématique exact du MDP et ciblent les grands MDP où les méthodes exactes deviennent irréalisables.
En raison de sa généralité, l'apprentissage par renforcement est étudié dans de nombreuses disciplines, telles que la théorie des jeux, la théorie du contrôle, la recherche opérationnelle, la théorie de l'information, l'optimisation basée sur la simulation, les systèmes multi-agents, l'intelligence en essaim et les statistiques. Dans la littérature de recherche opérationnelle et de contrôle, l'apprentissage par renforcement est appelé programmation dynamique approximative ou programmation neurodynamique. Les problèmes d'intérêt de l'apprentissage par renforcement ont également été étudiés dans la théorie du contrôle optimal, qui s'intéresse principalement à l'existence et à la caractérisation de solutions optimales, et aux algorithmes pour leur calcul exact, et moins à l'apprentissage ou à l'approximation, notamment en l'absence de un modèle mathématique de l'environnement. En économie et en théorie des jeux, l'apprentissage par renforcement peut être utilisé pour expliquer comment l'équilibre peut survenir sous une rationalité limitée.
Le renforcement de base est modélisé comme un processus de décision de Markov (MDP). En mathématiques, un processus de décision de Markov (MDP) est un processus de contrôle stochastique en temps discret. Il fournit un cadre mathématique pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Les MDP sont utiles pour étudier les problèmes d'optimisation résolus via la programmation dynamique. Les MDP étaient connus au moins dès les années 1950. Un corpus de recherche sur les processus décisionnels de Markov est issu du livre de Ronald Howard de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, le contrôle automatique, l'économie et la fabrication. Le nom des MDP vient du mathématicien russe Andrey Markov car ils sont une extension des chaînes de Markov.
A chaque pas de temps, le processus est dans un certain état S, et le décideur peut choisir n'importe quelle action a qui est disponible dans l'état S. Le processus répond au pas de temps suivant en passant au hasard dans un nouvel état S ', et en donnant le décideur une récompense correspondante Ra (S, S ').
La probabilité que le processus entre dans son nouvel état S 'est influencée par l'action choisie a. Plus précisément, il est donné par la fonction de transition d'état Pa (S, S '). Ainsi, l'état suivant S 'dépend de l'état courant S et de l'action du décideur a. Mais étant donné S et a, il est conditionnellement indépendant de tous les états et actions précédents. En d'autres termes, les transitions d'état d'un MDP satisfont la propriété de Markov.
Les processus de décision de Markov sont une extension des chaînes de Markov; la différence est l'addition d'actions (permettant le choix) et de récompenses (donnant la motivation). Inversement, si une seule action existe pour chaque état (par exemple «attendre») et toutes les récompenses sont les mêmes (par exemple «zéro»), un processus de décision de Markov se réduit à une chaîne de Markov.
Un agent d'apprentissage par renforcement interagit avec son environnement par étapes de temps discrètes. A chaque instant t, l'agent reçoit l'état courant S (t) et récompense r (t). Il choisit ensuite une action a (t) parmi l'ensemble des actions disponibles, qui est ensuite envoyée à l'environnement. L'environnement passe à un nouvel état S (t + 1) et la récompense r (t + 1) associée à la transition est déterminée. Le but d'un agent d'apprentissage par renforcement est d'apprendre une politique qui maximise la récompense cumulative attendue.
La formulation du problème en tant que MDP suppose que l'agent observe directement l'état actuel de l'environnement. Dans ce cas, on dit que le problème a une observabilité totale. Si l'agent n'a accès qu'à un sous-ensemble d'états, ou si les états observés sont corrompus par le bruit, on dit que l'agent a une observabilité partielle, et formellement le problème doit être formulé comme un processus de décision de Markov partiellement observable. Dans les deux cas, l'ensemble des actions disponibles pour l'agent peut être restreint. Par exemple, l'état du solde d'un compte pourrait être limité pour être positif; si la valeur actuelle de l'état est 3 et que la transition d'état tente de réduire la valeur de 4, la transition ne sera pas autorisée.
Lorsque la performance de l'agent est comparée à celle d'un agent qui agit de manière optimale, la différence de performance fait naître la notion de regret. Afin d'agir de manière quasi optimale, l'agent doit raisonner sur les conséquences à long terme de ses actions (c'est-à-dire maximiser les revenus futurs), bien que la récompense immédiate associée à cela puisse être négative.
Ainsi, l'apprentissage par renforcement est particulièrement bien adapté aux problèmes qui incluent un compromis de récompense à long terme par rapport à court terme. Il a été appliqué avec succès à divers problèmes, y compris le contrôle du robot, la planification des ascenseurs, les télécommunications, le backgammon, les contrôleurs et le Go (AlphaGo).
Deux éléments rendent l'apprentissage par renforcement puissant: l'utilisation d'échantillons pour optimiser les performances et l'utilisation de l'approximation des fonctions pour traiter de grands environnements. Grâce à ces deux composants clés, l'apprentissage par renforcement peut être utilisé dans de grands environnements dans les situations suivantes:
- Un modèle de l'environnement est connu, mais aucune solution analytique n'est disponible.
- Seul un modèle de simulation de l'environnement est donné (objet de l'optimisation par simulation).
- La seule façon de collecter des informations sur l'environnement est d'interagir avec lui.
Les deux premiers de ces problèmes pourraient être considérés comme des problèmes de planification (puisqu'une certaine forme de modèle est disponible), tandis que le dernier pourrait être considéré comme un véritable problème d'apprentissage. Cependant, l'apprentissage par renforcement convertit les deux problèmes de planification en problèmes d'apprentissage automatique.
Le compromis entre exploration et exploitation a été le plus étudié à travers le problème du bandit multi-armé et pour les PDM d'espace d'états finis dans Burnetas et Katehakis (1997).
L'apprentissage par renforcement nécessite des mécanismes d'exploration intelligents; la sélection aléatoire des actions, sans référence à une distribution de probabilité estimée, montre des performances médiocres. Le cas des (petits) processus de décision de Markov finis est relativement bien compris. Cependant, en raison du manque d'algorithmes qui s'adaptent bien au nombre d'états (ou qui s'adaptent aux problèmes avec des espaces d'états infinis), les méthodes d'exploration simples sont les plus pratiques.
Même si la question de l'exploration est ignorée et même si l'état était observable, le problème reste d'utiliser l'expérience passée pour découvrir quelles actions conduisent à des récompenses cumulatives plus élevées.
Pour vous familiariser en détail avec le programme de certification, vous pouvez développer et analyser le tableau ci-dessous.
Le programme de certification d'apprentissage par renforcement avancé EITC/AI/ARL fait référence à du matériel didactique en libre accès sous forme de vidéo. Le processus d'apprentissage est divisé en une structure étape par étape (programmes -> leçons -> sujets) couvrant les parties pertinentes du programme. Des conseils illimités avec des experts du domaine sont également fournis.
Pour plus de détails sur la procédure de certification, consultez Comment cela fonctionne.
Ressources de référence sur le curriculum
Contrôle du niveau humain grâce à la publication Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Cours en libre accès sur l'apprentissage par renforcement profond à l'UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL appliqué au problème de bandit K-armbed de Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Téléchargez le matériel préparatoire complet d'auto-apprentissage hors ligne pour le programme EITC/AI/ARL Advanced Reinforcement Learning dans un fichier PDF.
Documents préparatoires EITC/AI/ARL – version standard
Documents préparatoires EITC/AI/ARL – version étendue avec questions de révision