Trouver des diamants sans aide humaine

Un système d’intelligence artificielle (IA) a découvert pour la première fois comment collecter des diamants dans le jeu vidéo populaire Minecraft, sans formation préalable. L’exploit représente une nouvelle avance vers les machines capables de généraliser les connaissances acquises dans un domaine à de nouvelles situations, un objectif fondamental de l’IA.

Le système d’intelligence artificielle (AI) Dreamerv3, développé par Google Deepmind, a réussi à effectuer l’une des tâches les plus complexes du jeu vidéo Minecraft: Collectez les diamants. Ce qui est surprenant, c’est qu’il l’a fait sans aucune formation antérieure, données humaines ou stratégies prédéfinies, en utilisant uniquement Apprentissage du renforcement. Cette avance redéfinit non seulement les limites de l’IA dans des environnements virtuels, mais ouvre également de nouvelles possibilités pour son application dans le monde réel.

Minecraft est un jeu connu pour sa nature ouverte et aléatoire, ce qui en fait un défi formidable pour tout système d’IA. Contrairement à des jeux tels que les échecs ou GO, où les règles sont fixes et les états du jeu sont complètement observables, Minecraft présente un environnement dynamique et procédural à trois dimensions.

Jeux uniques

Cela implique que chaque jeu est unique et exige que les joueurs (ou les agents) explorent, planifèrent et exécutent une série d’actions complexes pour atteindre leurs objectifs. Dans le cas de l’extraction de diamants, le processus comprend la réduction des arbres, la fabrication d’outils de base, la collecte de ressources intermédiaires telles que le fer et le charbon, la création de meilleurs outils et enfin fouiller profondément à la recherche de diamants. Même pour les joueurs humains expérimentés, la réalisation de cette tâche peut prendre entre 20 et 30 minutes.

Dreamerv3 a réussi à surmonter ce défi à travers une architecture basée sur trois réseaux neuronaux: un modèle mondial (Modèle mondial), Un critique (Critique) et un acteur (acteur). Le modèle mondial permet à l’IA de simuler en interne les scénarios futurs possibles sans avoir besoin de les exécuter physiquement dans l’environnement. Cela réduit considérablement le temps et les ressources nécessaires pour apprendre des stratégies efficaces. Pour sa part, le critique évalue la valeur potentielle de chaque état du jeu, tandis que l’acteur sélectionne les actions les plus prometteuses pour maximiser les récompenses.

De zéro

Au lieu de s’appuyer sur des données externes telles que des vidéos de joueurs humains (car ils ont créé des modèles précédents tels que Openai VPT), Dreamerv3 entièrement appris de zéro. Pendant neuf jours consécutifs, il s’est entraîné dans des environnements qui ont redémarré toutes les 30 minutes, l’obligeant à s’adapter constamment aux mondes générés du Nouveau Monde. Cette approche a non seulement démontré sa capacité à généraliser les stratégies dans divers scénarios, mais a également souligné son efficacité: Dreamerv3 a atteint son objectif en utilisant un seul GPU V100 NVIDIA, tandis que les modèles précédents nécessitaient des milliers d’heures de données et un pouvoir de calcul beaucoup plus important.

Le succès de Dreamerv3 a de profondes implications au-delà de la portée du Jeu. Sa capacité à résoudre des problèmes complexes dans des environnements dynamiques pourrait être appliqué à des domaines tels que la robotique autonome, l’optimisation des processus industriels et la prise de décision dans des situations imprévisibles. Par exemple, votre capacité à modéliser les scénarios en interne pourrait être la clé de la formation des robots qui interagissent avec le monde physique ou des systèmes autonomes capables de s’adapter aux conditions changeantes.

Algorithmes polyvalents

De plus, cette avancée représente une étape importante vers le développement de systèmes d’intelligence artificielle générale (AGI). Contrairement à l’IA traditionnelle conçue pour des tâches spécifiques, Dreamerv3 démontre qu’il est possible de créer des algorithmes polyvalents capables de relever un large éventail de défis sans ajustements spécifiques ou une intervention humaine constante.

Cependant, cette réalisation soulève également d’importantes questions sur les implications éthiques et sociales de l’utilisation de ces technologies. Comment garantir que ces systèmes sont utilisés de manière responsable? Quel impact auront-ils dans des secteurs tels que l’emploi ou la sécurité? Bien que ces problèmes soient toujours ouverts au débat, la vérité est que Dreamerv3 a établi une nouvelle norme dans ce que l’IA peut atteindre lorsque la liberté d’apprendre en soi est donnée.