Jeu d’échecs
Il y a quelques mois, une équipe de chercheurs de Google Deepmind a mis à jour l’article intitulé Planification amortie avec transformateurs à grande échelle: une étude de cas sur les échecsqui était passé relativement inaperçu. Il présente un système d’intelligence artificielle (AI) appelée ChessBench, basée sur des transformateurs (réseaux de neurones) à grande échelle, qui joue aux échecs.
Sans mémoire
À ce jour, tous les programmes d’échecs étaient basés sur des processus de recherche complexes du meilleur mouvement de l’arbre qui combinent après les pièces et contre-attaques suivantes, souvent avec une recherche de profondeurs supérieures à 20 mouvements futurs. Ceci, ainsi que l’application de fonctions qui leur permet d’évaluer l’avantage ou l’inconvénient de chaque décision possible, permis de trouver le meilleur jeu.
Bien que la chose fondamentale pour toutes les IA était de la mémoire jusqu’à présent, ChessSbench est le début d’une nouvelle ère, avec des machines formées à la planification des tâches dans lesquelles la mémoire est inutile.
Leela Chess Zero et Stockfish sont, aujourd’hui, les meilleurs moteurs d’échecs, exposants d’excellence dans le jeu obtenus avec la première approche.
Les deux utilisent l’apprentissage basé sur les réseaux neuronaux de différentes manières: Leela Chess Zero utilise l’apprentissage du renforcement dans le jeu automatique, et Stockfish intègre un réseau neuronal pour l’amélioration de l’évaluation de la position et de la prise de décision.
Mais Cheogle Deepmind Chessbench vient de commencer un nouveau modèle qui peut dépasser toutes les limites. Comme nous l’avons souligné ci-dessus, il s’agit d’un système d’IA basé sur des transformateurs (tels que Bert et GPT) dont la version la plus avancée a jusqu’à 270 millions de paramètres.
Entraînement
Pour leur formation et leur apprentissage, 10 millions de jeux d’échecs ont été utilisés à partir de liches, une plate-forme open source pour jouer aux échecs en ligne auxquels des milliers d’utilisateurs humains sont connectés quotidiennement dans le monde. À partir de ces éléments, plus de 15 milliards d’annotations sont générées en évaluant chaque position et sa meilleure action (mouvement). Cette évaluation est effectuée par Stockfish 16, dont le moteur de recherche détermine le meilleur mouvement possible dans une position spécifique.
Qu’est-ce qui fait ChessBench
La formation a permis au système d’apprendre à prédire les valeurs d’action pour de nouvelles positions avec suffisamment de précision. Il s’agit d’une généralisation non triviale: elle le fait sans recherches explicites des pièces et contre-attaques suivantes.
Ce qui rend le résultat incroyable, c’est d’avoir un système d’IA qui est capable de jouer aux échecs à ce niveau de qualité.
ChessBench joue sans le meilleur processus de jeu, uniquement sous la prédiction de la suivante. C’est le rêve de tout lecteur d’échecs: regardez une position et reconnaissez le meilleur mouvement suivant par la configuration des pièces.
Cela donne naissance à la question récurrente du débat sur les transformateurs à grande échelle et les grands modèles de langue ou de LLM, comme celui derrière Chatgpt: ne sont-ils que de grands mémorisateurs ou peuvent-ils raisonner?
Les échecs comme champ de test
Les échecs nécessitent une combinaison de stratégie, de tactiques et de prévisions. Ce sont des éléments clés de la planification, du raisonnement et des processus de prise de décision.
Le modèle utilisé par ChessBench a 270 millions de paramètres (2,7×10¹½), tandis que le nombre de joueurs d’échecs possibles est extrêmement plus élevé, environ 10¹²⁰. Dans ce jeu, la mémorisation est inutile à grande échelle. Il existe une immense variété de pièces possibles, en plus de la complexité des stratégies impliquées.
Les échecs peuvent permettre d’évaluer avec précision la capacité des modèles d’IA à généraliser et à s’adapter à de nouvelles situations.
Chessbnch a appris à reconnaître les modèles profonds et complexes dans le jeu d’échecs. Cette capacité vous permet de reproduire votre succès même dans des situations non prévues lors de votre formation.
Le fait que vous puissiez identifier et appliquer des stratégies gagnantes dans des postes qui ne sont pas vus auparavant révèlent un niveau de raisonnement. Cela va au-delà de la simple mémorisation; Il ne peut pas être attribué simplement au codage du meilleur jeu suivant dans son espace de paramètres.
ChessBench Bate Records
Contrairement à d’autres disciplines, dans les échecs, il existe une méthode objective pour estimer la force d’un joueur: le système de score ELO. Dans la modalité Blitz (Échecs rapides, avec des matchs entre 3 et 5 minutes par joueur pour tout le match), seulement 15 personnes dans le monde dépassent 2 895 points que Elo a atteints par Chessbench sur la plate-forme de liches. Dans la liste des 200 premiers Blitz, on peut voir que le Top 100 Placez la limite ELO en 2 784.
L’ELO atteint par Chessbnch représente le niveau d’un grand enseignant. Résoudre des positions d’échecs difficiles. De plus, cet ELO surprenant est réalisé en jouant contre des gens dans les liches.
Surmonter Alphazero
Chessbench est encore loin de rivaliser avec l’AI Alphazero, dont le niveau est au-dessus du meilleur acteur humain du monde. Effectuer une analyse en profondeur combinée à l’apprentissage du renforcement, qui vous permet d’apprendre à jouer contre vous-même.
Actuellement, ChessBnch est une approche remarquablement bonne de l’algorithme basé sur la recherche de Stockfish. La distillation parfaite uniquement basée sur l’observation de la position est encore loin de la portée d’un système d’IA qui utilise une analyse des positions, sans processus de recherche.
Généralisation dans l’apprentissage
Cela fait de ChessBench un point de départ adéquat pour les enquêtes futures. Par exemple, il sera intéressant de savoir quelles performances offriraient à jouer la modalité Fischer, c’est-à-dire avec les plus grandes pièces situées au hasard dans la première rangée. Il augmente une situation de changement de position au début du départ qui nécessite une grande capacité de généralisation, ainsi que l’apprentissage de la causalité de chaque pièce et de son mouvement juridique.
Récemment, une étude initiale a été réalisée en échangeant des chevaux contre des Alfiles en position initiale en utilisant GPT4, et qui montre les limites de ces nouvelles situations pour le LLM. L’étude conclut qu’il y a beaucoup à avancer et à faire dans ces scénarios appelés contrefactuels.
Processus d’imagination
Judea Pearl, chercheuse de la récompense avec le prix Turing, associe les scénarios de fond, des situations qui ne se sont pas produites dans l’univers actuellement observables par la recherche humaine, au processus humain d’imagination. Ce sont les mondes imaginaires qui auraient pu être.
Les transformateurs à grande échelle ne sont pas seulement axés sur le langage: il existe un nombre croissant d’applications dans différents domaines. Les LLM sont déjà intégrés à la robotique intelligente, jouant un rôle important.
Quoi qu’il en soit, l’architecture du LLM sera insuffisante pour atteindre une IA générale qui atteint le niveau cognitif humain. Mais la position de ceux qui disent que la mémorisation ne semblent pas non plus ne semblent vraies et ils sont appelés péjorativement «perroquets stochastiques». Il s’agit d’une critique excessive.
Le processus créatif n’est plus unique aux humains. La planification, l’apprentissage continu ainsi que le traitement des capacités sensorielles de la robotique, du raisonnement mathématique et du traitement des langues, entre autres compétences en transformateurs à grande échelle, affecteront tout ce qui est connu.
Il sera intéressant de savoir et de comprendre combien d’échecs est en train d’imaginer.
Cet article a été réalisé avec la collaboration de José Luis Flórez, docteur en économie et mathématicien, homme d’affaires et exécutif pendant 30 ans dans le domaine de «l’apprentissage automatique».