Passer au contenu
D’après vous, lequel de ces deux animaux est le plus intelligent ? Crédits photo : TC Photography sur Unsplash
IA Réflexion

IA : une tête bien pleine ou une tête bien faite ?

Rémi
Rémi |

Au XIXe siècle, les scientifiques s’intéressent beaucoup à la taille de notre cerveau.

Le postulat est simple : plus il est gros, plus son propriétaire est intelligent et évolué.

Évidemment, cette hypothèse a été remise en cause, et ce pour plusieurs raisons :

  • D’abord, notre cerveau n’est clairement pas le plus volumineux. Avec 1,3kg en moyenne, on est loin derrière l’éléphant (5kg) ou encore le cachalot (7kg), pachydermes qui ne possèdent pas de capacités intellectuelles plus importantes que l’Homme.
  • Ensuite, l’étude des cerveaux de génies a montré que malgré de grandes disparités, le volume n’était pas un critère. Prenez celui d’Albert Einstein par exemple, il ne pesait pas plus de 1 230 grammes (un concentré d’intelligence pure).

Une tête bien faite n’a donc rien à voir avec une tête bien pleine.

Et pour l’IA ? Est-ce la puissance de calcul d’un modèle qui détermine son intelligence ?

Pour répondre à cette question, il faut commencer par se mettre d’accord sur ce qu’on entend par « intelligence ».

🧠 Définir l’intelligence de l’IA

Depuis ChatGPT 4, le monde parle sérieusement d’intelligence générale dans un système artificiel. Non pas comme une fiction mais comme une réalité potentiellement assez proche.

Mais que serait l’intelligence générale pour une machine ?

Intelligence générale versus intelligence spécifique

L’intelligence est souvent définie comme la capacité à s’adapter à des situations nouvelles.

Si cette capacité est restreinte à un domaine alors on parle plutôt d’intelligence spécifique ou spécialisée.

Dans le domaine des échecs par exemple, cela fait longtemps qu’il existe des intelligences artificielles spécialisées, capables de battre n’importe quel humain, y compris les meilleurs au monde.

unnamed-2IA vs. meilleurs joueurs d’échecs de tous les temps

À l’inverse, l’intelligence humaine n’a pas de domaine spécifique ; elle est donc générale.

Nous pouvons devenir moyennement compétents dans un nombre infini de tâches. Contre toute attente, c’est cette « médiocrité universelle » qui fait notre force.

Les LLM tels que ChatGPT ont été conçus pour répondre à n’importe quel type de problème posé par écrit. Se rapprochent-ils de cette intelligence générale ?

Intelligence générale versus polyvalence

Jean Piaget disait : « L’intelligence, ce n’est pas ce que l’on sait, mais ce que l’on fait quand on ne sait pas ».

En d’autres termes, être intelligent c’est avoir une tête bien faite plutôt qu’une tête bien pleine.

C’est là que le bât blesse…

Jusqu’à récemment, les performances des LLM s’expliquaient par leur incroyable capacité à mémoriser l’information.

En évoluant de GPT-1 à GPT-4, OpenAI n’a fait qu’ajouter plus de puissance de calcul pour créer l’illusion que son IA raisonnait. En réalité, elle ne faisait que mémoriser et reproduire des méthodes de raisonnement à des problèmes déjà posés et déjà résolus, faisant de ces LLM des modèles extrêmement polyvalents mais sans réelle capacité générale à s’adapter face à une nouveauté.

N’ayant pas une telle capacité de mémorisation, nous, humains, associons un très haut degré de polyvalence au signe d’une intelligence générale. C’est un leurre.

Les LLM sont seulement des grosses têtes bien pleines.

Comment prouver que les performances des LLM reposent uniquement sur la mémorisation ?

C’est la question que s’est posée François Chollet, ingénieur français en IA. Pour y répondre, il a imaginé un test d’un genre nouveau.

📏 Mesurer l’intelligence de l’IA

Pour évaluer les performances d’un modèle par rapport aux autres, les modèles d’IA sont soumis à des tests standardisés appelés des benchmarks.

Le benchmark ARC-AGI

On l’a compris, jusqu’à récemment, les progrès des LLM tenaient surtout à leur gigantesque mémoire.

Résultat : une polyvalence impressionnante, mais pas d’intelligence générale.

Pour tester l’intelligence générale des modèles, François Chollet a créé ARC-AGIun benchmark évaluant les performances des LLM sur des tâches visuelles mais non verbales : accessibles à l’intelligence humaine, mais qui résistent au type de mémorisation dont les modèles sont capables.

Si les LLM avaient une intelligence similaire à la nôtre, ce test devrait leur sembler facile.

Résultat : humains = 77%, GPT-3 = 0 %, GPT-4 ≈ 5 % ! De quoi confirmer que leurs prouesses reposaient sur l’accumulation de données.

Mais en septembre 2024, coup de théâtre : le modèle o3 d’OpenAI atteint 30 %, puis 76–88 % en décembre ! o3 devient le premier modèle de raisonnement, entraîné à « verbaliser » ses chaînes de pensées, et donc à renouveler ses connaissances pour affronter une tâche inédite.

unnamed (1)Évolution de la réussite au test ARC-AGI en fonction du modèle

D’autres benchmarks à suivre

D’autres benchmarks suivent l’évolution de l’intelligence générale des IA.

  • Humanity’s Last Exam : 2500 questions secrètes et pointues, imaginées par les meilleurs scientifiques et experts dans leur domaine. Même avec un accès internet, seuls des spécialistes sont en mesure de répondre correctement.

    Résultat : GPT-4o plafonne à 2,7 %, o1 grimpe à 8 %, o3 et Gemini 2-2 pro atteignent 20 %. Pour info, le score humain moyen à ce test est à peine au-dessus de 0 %...

  • FrontierMaths : un ensemble de problèmes touchant différentes branches des mathématiques que seuls des spécialistes sont à même de résoudre (en plusieurs jours).

    Résultat : Longtemps bloqués à 2 %, les modèles passent à 11 % avec o3 puis 18 % avec o4-mini. Certains modèles, comme AlphaEvolve, commencent même à contribuer à des découvertes inédites !

Si ces bonds sont spectaculaires, ils sont néanmoins extrêmement coûteux en puissance de calcul. Pour résoudre certains problèmes, un modèle doit générer des millions de tokens, soit des milliers de pages de texte…

Le cerveau humain reste encore beaucoup plus économe en ressources.

Conclusion

Aujourd’hui, une étincelle d’intelligence générale clignote dans les yeux de l’IA. Mais rassurez-vous, nous sommes encore plus intelligents que les machines. La question est de savoir pour combien de temps encore…

Comme le résume François Chollet : « Vous saurez que l’intelligence générale artificielle est arrivée quand créer des tâches faciles pour les humains mais difficiles pour l’IA deviendra impossible. »

Cet exercice est de plus en plus ardu.

Pour aller plus loin :
🎥 
Comment parler intelligemment d'intelligence ? - une vidéo géniale du vidéaste Monsieur Phi dont nous nous sommes largement inspirés pour rédiger cette newsletter.

Partager ce post