En informatique, les hackers recourent parfois à ce qu’on appelle un jumeau maléfique. Ils conçoivent un faux réseau Wi-Fi qui porte le même nom que le vôtre et en vous connectant dessus, ils espionnent ce que vous tapez, interceptent vos mots de passe, lisent vos messages. Bref… ils vous piratent.
En transcription, on crée aussi un jumeau. Rassurez-vous, il n’a rien de diabolique, c’est un jumeau numérique. Il n’est pas non plus conçu par un hacker mais par un gentil développeur.
Chez Ed, c’est Adrien. Et pour comprendre comment l’IA parvient à transcrire les copies envoyées par les enseignants, on lui a directement posé la question.
Vous allez voir, c’est fascinant !
Ed : Adrien, chez Ed on reçoit régulièrement des photos ou des fichiers PDF des copies d’élèves. Mais comment l’IA est-elle capable de comprendre ce qu’elle lit ?
Adrien : Comme tu l’as dit, tout commence par la réception des photos ou PDF contenant les copies. Notre défi est ensuite d’extraire le contenu de ces images pour reconstruire un document numérique, presque comme un fichier Word.
C’est ce que l’on appelle le jumeau numérique de l’évaluation. C’est ce jumeau que notre algorithme va lire et corriger.
Ed : Ok et comment crée-t-on un jumeau numérique ?
Adrien : Grâce à la transcription.
Pour bien comprendre, je te propose de regarder ce schéma :
Ensuite, on passe à la préparation des images (phase 2). Elle consiste à
afin de garantir une lecture optimale par l’IA.
Aujourd’hui, un humain supervise ces deux premières étapes.
Ed : Pour résumer, avant même de lire, il faut s'assurer que la copie soit bien présentée c’est ça ?
Adrien : Exactement.
À partir de là, place à la segmentation (phase 3) : l’IA détecte les différentes parties de l’image — texte, formules mathématiques, tableaux, cartes… — pour pouvoir les traiter séparément.
Ce décryptage est assuré par ce que l’on appelle l’OCR (phase 4) qui fonctionne sur un système de reconnaissance visuelle. C’est ainsi que le contenu de l'image commence à devenir du texte exploitable pour l’IA.
Ed : Arrive-t-il que l’IA face des erreurs dans son décryptage ?
Adrien : Plus une IA est entraînée, moins elle se trompe dans l’interprétation des copies. Mais c’est vrai, assurer la bonne lecture de l’écriture manuscrite est un véritable enjeu pour nous. C’est beaucoup plus dur à faire pour une IA que de lire l’écriture d’imprimerie.
En fonction des élèves, leur écriture est plus ou moins bien formée... Il arrive qu’un « o » soit lu comme un « a » par exemple. Nous entraînons l’IA sur des calligraphies très variées, car il ne faudrait pas développer une forme de discrimination à la transcription.
Un autre enjeu est la gestion de tout ce qui n’est pas du texte : les formes sont plus difficiles à identifier. Prenons le cas des mathématiques : l’IA n’a aucun problème avec les équations mais elle n’est pas encore très friande des tableaux de signes ou des formes géométriques. Même enjeu avec les cartes géographiques.
Il lui faut encore de l’entrainement.
Pour éviter les erreurs, on a intégré une étape de vérification humaine, la phase 5, indispensable.
Ed : D’accord. Et une fois les erreurs de reconnaissance corrigées, la copie est-elle prête ?
Adrien : Pas encore !
À ce stade, le contenu visuel que l’on dira « labellisé » (phase 6) apparaît sous la forme d’une liste désorganisée, qui n’est pas représentative de la copie de l’élève. Or pour la correction, il faut que la copie soit structurée telle qu’il l’a produite.
Pour cela on recourt à une analyse sémantique (phase 7) : aidée d'un modèle LLM, notre IA organise les données en paragraphes, exercices, consignes (qui ne sont pas, elles, rédigées par les élèves). La copie devient un document clair et hiérarchisé, fidèle reflet de la copie d’origine.Le jumeau numérique est né.
Ce document sera analysé pour la correction et nous permettra aussi d'entraîner l’algorithme de manière à perfectionner le modèle de transcription. Plus on a de documents structurés, plus on gagne en qualité sur le traitement des copies.
Ed : Génial. Et combien de temps prend tout ce processus ?
Adrien : Aujourd’hui entre le moment de réception des copies et la livraison de la correction, de quelques heures à quelques jours.
Ed : C’est noté, merci et courage dans le perfectionnement des jumeaux numériques !
Comme le relate si bien la littérature : il y a deux sortes de jumeaux, les bons et les mauvais.
En transcription, les jumeaux numériques font clairement partie de la première catégorie en reproduisant fidèlement les copies scannées ou photographiées pour permettre à l’IA de les comprendre et de les corriger.
S’ils trébuchent encore sur quelques obstacles – comme la géométrie ou la cartographie – ils progressent vite avec les développeurs pour guides.
Et pendant que ces jumeaux s’activent en coulisses, les enseignants peuvent se recentrer sur ce qui compte vraiment : l’accompagnement des élèves.