Dans le domaine de intelligence artificielle (IA), plus grand ne veut pas dire meilleur. Le modèles de langage –les systèmes d’apprentissage profond sur lesquels ils s’appuient candidatures comme ChatGPT– sont formés avec un volume croissant de données. Cependant, sa fiabilité s’est dégradée, selon une nouvelle étude de l’Université Polytechnique de Valence, de l’Université de Cambridge et de ValgrAI publiée ce mercredi dans la prestigieuse revue scientifique Nature.
Les modèles de IA sont formés avec de grands volumes de données extraites de Internet pour pouvoir générer du texte, des images, de l’audio ou de la vidéo. Ce processus fonctionne grâce à un calcul probabiliste : la machine compose des phrases en fonction de ce qu’elle voit le plus couramment sur le web. Bien que choquante, cette fonction conversationnelle commet aussi des erreurs, puisqu’un mensonge peut se cacher derrière une explication plausible. Les grandes entreprises technologiques qui façonnent ces chatbots IA générative –OpenAI, Microsoft et Googleentre autres – mettent à jour et perfectionnent leurs modèles en utilisant de plus en plus de données pour leur formation. Cependant, cette méthode ne semble pas infaillible.
La recherche indique que même les modèles les plus avancés continuent de générer des réponses erronées, même pour des tâches considérées comme simples, un phénomène appelé « inadéquation des difficultés ». « Les modèles peuvent résoudre certaines tâches complexes en fonction des capacités humaines, mais en même temps, ils échouent sur des tâches simples du même domaine. Par exemple, ils peuvent résoudre plusieurs problèmes mathématiques de niveau doctorat, mais ils peuvent se tromper sur une simple somme », » explique José Hernández Orallochercheur à l’Institut universitaire valencien de recherche en intelligence artificielle (VRAIN) de l’UPV et ValgrAI.
Cette tendance à s’engager erreurs dans des tâches que les humains considèrent comme simples « signifie qu’il n’y a pas de ‘zone de sécurité’ dans laquelle on peut faire confiance au fonctionnement parfait des modèles », ajoute Yael Moros Daval, chercheuse au VRAIN.
Tendance « inquiétante »
Un autre problème est que ces modèles répondent toujours aux questions des utilisateurs, même s’ils n’ont pas de réponse claire. « Ce comportement prétentieux, dans lequel ils donnent des réponses même lorsqu’elles sont incorrectes, peut être considéré comme une tendance inquiétante qui mine la confiance des utilisateurs », ajoute-t-il. Andreas Kaltenbrunnerchercheur principal du groupe AI et données pour la société de l’UOC, dans une évaluation également recueillie par SMC Espagne. La recherche souligne donc l’importance de développer des modèles de IA qu’ils reconnaissent leurs limites et refusent de donner des réponses si elles ne sont pas exactes.
« Bien que les modèles plus grands et plus précis aient tendance à être plus stables et à fournir des réponses plus correctes, ils sont également plus susceptibles de commettre des erreurs. erreurs de graves problèmes qui passent inaperçus, puisqu’ils évitent de ne pas répondre », résume Pablo Haya Coll.chercheur au Laboratoire de linguistique informatique de l’Université autonome de Madrid (UAM), dans un avis recueilli par SMC Espagne.
Étude obsolète
L’étude n’a pas non plus de limites mineures, puisqu’elle analyse uniquement les modèles lancés avant l’été 2023, ce qui la rend obsolète. Ainsi, comparez des systèmes comme GPT-3 soit GPT-4d’OpenAI, mais n’évalue pas les nouvelles versions comme GPT4o soit o1 (connu sous le nom fraise), également d’OpenAI, ou Appelez le 3de But. Dans le cas de o1, lancé il y a deux semaines, « il pourrait éventuellement améliorer certains des problèmes mentionnés dans l’article », estime Kaltenbrunner.
Un récit qui profite aux Big Tech
Ce n’est pas la première étude à remettre en question la qualité des systèmes d’IA et à mettre en quarantaine le type de tests avec lesquels leurs performances sont mesurées.
Un rapport publié samedi dernier – non encore examiné scientifiquement – réfute le paradigme industriel selon lequel les performances de l’IA ne s’améliorent qu’avec une augmentation de l’échelle. Selon ses auteurs, les informaticiens Gaël Varoquaux, Sasha Luccioni et Meredith Whittaker (président de signal), l’obsession de la taille pour déterminer les nouvelles avancées de l’IA contribue à faire monter en flèche le budget nécessaire au développement de ces systèmes, un facteur qui profite aux grandes entreprises et condamne les laboratoires universitaires à « dépendre de plus en plus de liens étroits avec l’industrie ».
Ce discours qui prône l’utilisation de plus en plus de données pour entraîner l’IA, ajoutent-ils, génère d’autres problèmes moins visibles. L’engagement en faveur de modèles plus grands non seulement n’améliore pas leurs performances, mais contribue à faire monter en flèche la puissance de calcul nécessaire à leur fonctionnement, la consommation de énergie et donc son impact climatique.