
Anatomie d'un LLM : comment fonctionne ChatGPT ?

Début de la Seconde Guerre mondiale. Alan Turing, prodige Anglais des mathématiques, est chargé d'entraver le fonctionnement d'une machine de cryptage nazie réputée indéchiffrable : Enigma. C’est le teasing du biopic Imitation Game.
Pour y parvenir, Turing conçoit un "cerveau électrique" capable de tester des milliers de combinaisons à une vitesse inédite ; un premier pas vers l’IA.
Mais ce que le film ne dit pas, c’est qu’il fait référence à un article fondamental de Turing sur l’intelligence artificielle : Computing Machinery and Intelligence. Dans ce texte, il pose une question intrigante : "les machines peuvent-elles penser ?".
Pour y répondre, Turing propose de remplacer la notion de "penser" par le comportement de la machine, à savoir, jouer à imiter un humain.
Car c’est précisément ainsi que fonctionnent les LLM tels que ChatGPT : par un jeu d’imitation.
L’imitation de l’apprentissage humain
ChatGPT est ce qu’on appelle un LLM (Large Language Model), un système d'IA conçu pour traiter de vastes quantités de données afin de comprendre et de générer des textes.
Pour bien comprendre comment il a été conçu, il faut découvrir ce qui se cache derrière les initiales GPT - Generative Pretrained Transformer.
Generative (le G de GPT)
Le fonctionnement d’un LLM est assez basique : à partir d’un texte qu’on lui envoie, il est génère du texte un peu comme un bébé, en répétant ou devinant un mot à partir de l’observation de conversations d’adultes.
Sauf qu’un LLM ne voit pas le texte comme nous autres humains. Il le “voit” sous la forme de tokens.
Un token est une unité de texte correspondant à une suite de chiffres unique, utilisée par un modèle d'intelligence artificielle pour comprendre et générer du langage. Un token peut être :
- Un mot entier : bonjour (token 190525)
- Une partie de mot : ré-alis-ateur correspond à trois tokens
- N’importe quelle suite de mots, de chiffres ou de symboles.
Il existe plus de 200 000 tokens ! Pour vous amuser à voir le monde comme ChatGPT, vous pouvez consulter le site tiktokenizer.
Ainsi, lorsque vous écrivez une phrase à ChatGPT, il la découpe en tokens qu’il convertit en suites de nombres. Ces nombres sont ensuite traités par un réseau de neurones artificiels appelé Transformer
Transformer (le T de GPT)
Si un LLM n’a pas de cerveau, il dispose en revanche d’un réseau de neurones calqué sur celui du fonctionnement humain. On appelle cela un transformer.
Si on devait résumer grossièrement ce que fait un transformer, on pourrait le comparer à une sorte d’énorme table de mixage avec des milliers (des milliards même) de petits boutons qui correspondent à des paramètres.
En ajustant finement ces paramètres, un LLM est capable de transformer ces suites de nombres en suites de mots qui ont du sens.
Mais comment fait-il pour apprendre à “parler” ?
Pretrained (le P de GPT)
Afin d’apprendre notre langage, ChatGPT a été pré-entraîné sur une immense quantité de données qui correspond à la quasi-totalité du contenu d’Internet. Cette “bibliothèque numérique” s’appelle the Common Crawl.
Parmi ces données, beaucoup d’informations n’ont aucun intérêt, pire, ne sont pas fiables. Pour s’assurer de la qualité des données, des chercheurs ont mis au point un robot intelligent, FineWeb, pour parcourir et extraire les meilleurs contenus.
La quantité de données textuelles sur Internet étant estimée à environ 15 zettaoctets (15 trillions de gigaoctets), ce processus prend du temps et coûte très, très cher !
A force de lecture et de prédictions de pages web, un LLM comme ChatGPT apprend à aligner les paramètres de son réseau neuronal pour générer la suite logique d’un texte à partir d’un début de texte en entrée grâce à des modèles probabilistes.
Le modèle devient alors une sorte de perroquet capable de réciter des pages web.
Mais à ce stade, il n’est toujours pas capable de répondre à des questions…
L’imitation de l’art de la conversation
Ce qui rend les LLM si impressionnants, c’est leur capacité à utiliser leurs connaissances (issues de la phase de pre-training) pour répondre de manière personnalisée et utile aux questions complexes posées dans un chatbot.
Pour réussir un tel exploit, les LLM apprennent à imiter l’art de discuter en analysant des milliers d’exemples de conversations humaines.
Voici comment cela fonctionne :
-
Apprentissage supervisé : on rentre dans la base de données du LLM des exemples de conversations de qualité rédigées par de vrais humains. Chaque exemple comprend une entrée et une sortie (réponse correcte).
-
Apprentissage non supervisé : à force d’entraînement, et grâce au machine learning, le LLM est capable d’ajuster ses paramètres pour donner la “bonne” réponse à partir de questions qui ressemblent à ses données d’entraînement.
Un exemple simple pour illustrer le fonctionnement du machine learning :
1. Pour qu’une IA reconnaisse les pingouins, les renards et les ours, on lui montre des images étiquetées "pingouin", "renard" et "ours".
2. A force d'entraînement, l’IA est capable de prédire de quel animal il s’agit. En lui montrant des images d’animaux sans légende, elle repère des similitudes statistiques dans les pixels et regroupe les animaux sans qu’on lui ait dit à l’avance lesquels sont les mêmes. La logique est la même pour les LLM avec des textes.
Conclusion
Grâce à des métaphores simples que vous pouvez réutiliser avec vos élèves, vous savez désormais comment fonctionne un LLM et comment il arrive à imiter certains comportements humains pour apprendre à rédiger des textes fluides, répondre à des questions et même inventer des histoires.
Depuis quelques années, des techniques d’apprentissage plus complexes, comme le reinforcement learning, ont permis à des IA de dépasser les capacités cognitives des humains.
L’AlphaGo de DeepMind a ainsi battu le meilleur joueur mondial au jeu de go grâce à un coup qu’aucun humain n’aurait envisagé.
Et si finalement, la véritable question n'était pas de savoir si une machine pense, mais plutôt de redéfinir ce qu'est l'intelligence (artificielle ou non) ?
On vous laisse avec cette question et on vous propose de réponse à un petit quiz pour tester vos nouvelles connaissances !
Pour les mordus d’IA :
Deep Dive into LLMs like ChatGPT, une vidéo en anglais de 3h30 d’Andrej Karpathy, un ancien d’Open AI.