Quand l’intelligence artificielle semble penser, mais ce n’est pas

Bien que les nouveaux modèles de langue supposent des chaînes et des solutions de raisonnement détaillés, une étude révèle que sa pensée apparente est, dans de nombreux cas, une illusion sophistiquée: ces systèmes s’effondrent face à la complexité, démontrant que nous confondons la reconnaissance des modèles avec le réel raisonnement.

Ces dernières années, l’intelligence artificielle a pris des mesures géantes grâce aux «modèles de grande langue», capables de générer des textes, de résoudre des problèmes et, en apparence, de raisonnement. Mais dans quelle mesure ces systèmes pensent-ils vraiment? Un groupe de chercheurs a décidé de répondre à cette question en analysant les modèles dits de raisonnement (LRM), une nouvelle génération de modèles spécialement conçus pour des tâches de raisonnement, telles que Claude 3.7 Sonnet Thinking ou Deepseek-R11.

La principale différence de ces modèles en ce qui concerne les LLM traditionnelles est que les LRM sont capables d’afficher les chaînes de pensée: avant de donner une réponse, elles génèrent une séquence d’étapes intermédiaires, comme si elles étaient « pensées à haute voix ». Cela a conduit beaucoup à penser que l’IA se rapproche du raisonnement comme un humain.

Cependant, une nouvelle étude démonte une partie de ce mythe. Les chercheurs ont conçu une série d’expériences avec des puzzles et des jeux logiques – tels que la tour de Hanoi, la traversée de la rivière ou le monde des blocs – pour analyser comment les modèles sont confrontés aux problèmes de complexité croissante.

Trois phases face à la difficulté

L’analyse a révélé que, à mesure que la difficulté des problèmes augmente, les modèles passent par trois phases très claires: en problèmes simples, les modèles traditionnels (sans chaînes de réflexion) sont plus rapides et plus précis que les LRM, qui ont tendance à «surmonter», explorant des alternatives inutiles.

Lorsque la difficulté est moyenne, les LRM montrent leur avantage: leurs chaînes de raisonnement leur permettent de résoudre des problèmes que les modèles simples ne peuvent plus résoudre. Cependant, lorsque la complexité est élevée, les deux types de modèles s’effondrent: ils cessent de trouver des solutions correctes et, paradoxalement, les LRM commencent à réduire leur effort de raisonnement, bien qu’ils puissent continuer à « penser » plus longtemps.

Ce phénomène suggère que, loin de gravir leur capacité de raisonnement avec la difficulté, les modèles actuels se rendent avant d’épuiser leurs ressources de calcul.

Pourquoi cet effondrement se produit-il?

L’étude est allée plus loin et a analysé les «traces de pensée» générées par les LRM. Dans des problèmes faciles, ils trouvent généralement la bonne solution au début, mais ils continuent d’explorer des chemins erronés, gaspillant les ressources. Dans ceux de la difficulté moyenne, la bonne réponse apparaît après de nombreuses tentatives infructueuses. Et dans les plus difficiles, ils ne trouvent aucune solution valide. Cela montre que, bien que les modèles aient appris à s’auto-vérifier et à corriger, leur capacité d’auto-correction est limitée et ne s’améliore pas avec des difficultés.

De plus, les chercheurs ont découvert que, même si l’algorithme exact est fourni pour résoudre un puzzle (Par exemple, la recette étape par étape pour la tour de Hanoi), les modèles continuent d’échouer dans les mêmes points que lorsqu’ils doivent découvrir la solution elles-mêmes. Cela indique que sa principale limitation n’est pas tant de découvrir la stratégie, mais d’exécuter correctement une séquence logique d’étapes.

Simulez-ils la pensée ou reconnaissent-ils uniquement les modèles?

Ces résultats sont ajoutés à d’autres études qui mettent en garde contre la tendance de l’IA à s’appuyer sur les modèles de surface au lieu d’une compréhension profonde. Face à des problèmes nouveaux ou de variation, les performances de l’IA se situent dans une IA hachée, ce qui suggère que leur raisonnement est beaucoup moins flexible et adaptable que l’humain. Selon les mots des auteurs eux-mêmes, les LRM ne développent pas de problèmes généralisables pour la résolution de problèmes: leur « pensée » est, dans une large mesure, une illusion convaincante, mais pas un échantillon de compréhension réelle.

Ces résultats sont un appel d’attention pour ceux qui voient dans l’IA un substitut au raisonnement humain. Bien que les LRM représentent une avance dans les tâches de difficulté moyenne, elles continuent de faire face à des obstacles fondamentaux à des problèmes complexes. La recherche souligne la nécessité de repenser la façon dont nous évaluons et développons ces modèles, cherchant non seulement la précision dans la réponse finale, mais aussi la robustesse et la véritable compréhension des processus de raisonnement.

En résumé, bien que l’IA puisse simuler la pensée, il est encore loin de reproduire la flexibilité, la profondeur et la créativité du raisonnement humain, selon cette étude documentée. L’illusion de la pensée demeure, pour l’instant, que: une illusion.