Un test cérébral classique a révélé la plus grande faiblesse de l’IA

Les systèmes d’intelligence artificielle peuvent rédiger des essais, répondre à des questions et résoudre des problèmes complexes. Mais de nouvelles recherches suggèrent qu’ils pourraient avoir du mal à faire quelque chose que les humains font quotidiennement : rester concentrés sur la tâche à accomplir lorsque les distractions les gênent.

Les chercheurs dirigés par Suketu Patel ont soumis plusieurs modèles d’IA de premier plan à une expérience psychologique bien connue appelée tâche Stroop. Les résultats ont révélé une différence significative entre la manière dont les systèmes d’IA traitent les informations et la manière dont le cerveau humain gère l’attention.

Qu’est-ce que la tâche Stroop ?

La tâche de Stroop est un test psychologique classique utilisé depuis des décennies pour étudier l’attention, la concentration et la maîtrise de soi.

Dans le test, des mots de couleur tels que « rouge », « bleu » ou « vert » sont affichés à l’encre colorée. Parfois, le mot et la couleur de l’encre correspondent. Par exemple, le mot « rouge » peut apparaître à l’encre rouge. D’autres fois, ils sont en conflit, comme le mot « rouge » imprimé à l’encre bleue.

Les participants sont invités à nommer la couleur de l’encre plutôt que de lire le mot lui-même.

Cela semble simple, mais cela crée un défi car lire des mots est une habitude automatique pour la plupart des gens. Le cerveau doit supprimer l’envie de lire le mot et se concentrer plutôt sur l’identification de la couleur de l’encre.

Les psychologues utilisent souvent cette tâche pour mesurer ce que l’on appelle le contrôle exécutif, un ensemble de processus mentaux qui aident les gens à réguler leur attention, à résister aux distractions et à rester concentrés sur leurs objectifs.

Tester l’attention de l’IA

Les chercheurs voulaient voir si les grands modèles de langage (LLM) modernes relèvent ce défi de la même manière que les humains.

Les LLM sont les systèmes d’IA derrière des outils tels que ChatGPT, Claude et Gemini. Ils sont formés sur d’énormes quantités de textes et apprennent des modèles de langage, ce qui leur permet de générer des réponses qui semblent souvent remarquablement humaines.

Lorsqu’ils recevaient des listes restreintes contenant cinq mots de couleur, les systèmes d’IA fonctionnaient généralement bien, même lorsque les mots et les couleurs ne correspondaient pas.

Cependant, la situation a radicalement changé à mesure que les listes s’allongeaient.

GPT-4o a atteint une précision de 91 % en travaillant avec cinq mots. En dix mots, sa précision est tombée à 57 %. Lorsque la liste s’est étendue à quarante mots, la précision est tombée à seulement 15 %.

Claude 3.5 Sonnet a maintenu des performances stables sur des listes de vingt mots mais a ensuite connu une forte baisse, tombant à 24 % de précision avec des listes de quarante mots.

Les chercheurs ont observé des modèles similaires dans GPT-5, Claude Opus 4.1 et Gemini 2.5.

Quand l’IA perd son focus

Le défi est devenu encore plus difficile lorsque des mots de couleurs correspondants et incompatibles apparaissaient ensemble dans la même liste.

Dans ces conditions, les performances se sont encore détériorées. La précision des éléments incompatibles est tombée à presque zéro dans certains cas.

Selon les chercheurs, les modèles d’IA ont eu du mal à maintenir les instructions permettant d’identifier les couleurs de l’encre. Au lieu de cela, ils lisaient de plus en plus les mots eux-mêmes.

En d’autres termes, les systèmes semblaient incapables de supprimer systématiquement la réponse pour laquelle ils avaient été le plus lourdement entraînés.

Cette découverte est particulièrement intéressante car les humains sont confrontés à un conflit similaire. Les gens sont généralement bien meilleurs pour lire les mots que pour nommer les couleurs de l’encre. Pourtant, malgré ce biais, la plupart des individus peuvent maintenir une grande précision et des performances stables même lorsqu’ils sont confrontés à de longues listes de mots et de couleurs contradictoires.

Attention humaine vs attention machine

L’étude met en évidence une distinction importante entre l’intelligence humaine et artificielle.

Bien que les systèmes d’IA modernes puissent produire des capacités de langage et de raisonnement impressionnantes, leurs mécanismes sous-jacents diffèrent des processus d’attention observés dans les cerveaux biologiques.

Les humains peuvent souvent se concentrer sur un objectif spécifique tout en filtrant les informations concurrentes. Les résultats suggèrent que les modèles d’IA actuels pourraient avoir des difficultés avec ce type de contrôle cognitif lorsque les tâches deviennent de plus en plus exigeantes.

Les chercheurs affirment que l’effondrement des performances observé dans ces expériences indique les limites fondamentales des grands modèles de langage actuels. Bien que l’IA puisse parfois imiter le comportement humain, sa capacité à maintenir l’attention semble fonctionner très différemment de la façon dont les gens le font.

Les résultats rappellent que même les systèmes d’IA les plus avancés présentent encore des faiblesses, en particulier lorsque les tâches nécessitent de résister aux distractions et de rester concentrés sur de longues séquences d’informations.

We will be happy to hear your thoughts

Leave a reply

Zolattitude – Santé, Beauté & Bien-être Naturel
Logo
Shopping cart