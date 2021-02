Un algorithme peut-il explorer des environnements complexes ou doit-il être mâché à la place? Autrement dit, pouvons-nous former des systèmes d’intelligence artificielle à prendre des décisions en explorant et en comprenant des environnements complexes et pour apprendre à obtenir des récompenses de manière optimale? C’est la question à laquelle Adrien Ecoffet, Joost Huizinga et leurs collègues tentent de répondre depuis des années, et la vérité est que c’est une question complexe.

Par chance, nous avons des jeux vidéo.

Algorithmes vs jeux vidéo

Et, si on y réfléchit un instant, les jeux vidéo sont un cadre fantastique pour former des intelligences artificielles à ces types de décisions (et pour prouver quelle méthodologie fonctionne le mieux): ils ont tout ce dont vous avez besoin pour apprendre dans des environnements de plus en plus complexes, ils vous permettent d’établir des récompenses en fonction de l’atteinte d’un lieu spécifique ou de la réalisation d’un niveau dans un jeu vidéo et, en fait, ils posent un défi même pour les humains eux-mêmes.

Ecoffet et son équipe travaillent avec des algorithmes d’apprentissage par renforcement et ont décidé de tester leurs nouvelles approches avec les jeux vidéo Atari classiques. Plus précisément, «Montezuma’s Revenge» et «Pitfall». Ce n’est pas juste un éclat de nostalgie, c’est ça Les jeux Atari 2600 sont devenus un « gold standard » pour ces types de systèmes. Sans aller plus loin, jusqu’à présent, les algorithmes ont obtenu des scores modestes dans le premier et ont lamentablement échoué dans le second: ils n’ont pas marqué un seul point.

La famille d’algorithmes développée par l’équipe Ecoffet (appelée Go-Explore) change la donne, comme cela vient d’être publié dans la revue Nature. L’idée est que GO-Explorers peut explorez les environnements en profondeur et créez une archive pour les aider à se souvenir où ils ont été, en s’assurant qu’ils n’oublient pas la voie vers un terrain d’entente prometteur ou un résultat réussi.

Et avec ces outils, les algorithmes Go-Explore Quadruple les scores précédents dans « Montezuma’s Revenge » Oui surpasse la performance humaine moyenne dans ‘Pitfall’ (où, comme je l’ai dit, les algorithmes précédents n’ont pas réussi à obtenir de points).

Suite à ce succès, et toujours selon les données de ‘Nature’, les chercheurs ont appliqué les mêmes algorithmes à des tâches robotiques qui simulent la prise et le placement d’objets avec un bras robotisé (dans des endroits isolés derrière des portes verrouillées). Et c’est une bonne nouvelle car il reste encore beaucoup à faire à une IA pour nous battre dans Fornite, le simple fait qu’ils le fassent dans les jeux de 1982 est un signe qu’ils le feront bientôt (et que cela a des applications pratiques intéressantes).

Image | Atari – Vijoy Rao