
Le pouvoir du flow ou comment Ed corrige les copies (2/2)

La semaine dernière, on vous parlait de workflow et d’évaluation des copies. Cédric, Clémence et Rémi nous expliquaient comment Ed construisait une IA fiable, capable d’évaluer des copies à la manière d’un enseignant.
Petit récap pour se remettre les idées en place. Avant de s’attaquer aux copies, on supervise les modèles IA qui décortiquent les documents de l’évaluation (sujet, corrigé, barème) afin de :
- Diviser les étapes d’analyse de l’évaluation en tâches précises.
- Tester ces tâches avec de vraies évaluations transcrites.
- Ajuster les tâches où il y a des erreurs pour fiabiliser le processus.
Une fois l’analyse du sujet validée, on peut passer au cœur du sujet : la correction des copies.
Le workflow de la correction
Ed : Reprenons. L’IA a compris les critères d’évaluation des copies. Que se passe-t-il ensuite ?
Clémence : On commence par passer en revue toutes les réponses de l’élève aux questions de l’évaluation. Question par question, on analyse ses réponses en extrayant deux choses :
-
tous les points positifs ;
-
toutes les erreurs éventuelles, reliées à des typologies prédéfinies.
Ed : Cette étape repose aussi sur un prompt j’imagine ?
Clémence : Oui, on rédige un prompt demandant à l’IA d’extraire ces éléments à partir de :
- la copie de l’élève,
- le corrigé de la question,
- une liste ciblée d’éléments à repérer.
C’est là que notre expérience d'enseignant entre à nouveau en jeu.
En tant qu’ancienne prof de math, c’est à moi de créer ces listes de « standards » pour cette matière. Rémi fait de même en Français.
Ed : Tu peux nous donner un exemple ?
Clémence : En mathématiques, la correction suppose souvent de détecter des erreurs précises.
J’ai donc établi une catégorisation des erreurs : erreurs de calcul, de raisonnement, de notation, de rédaction, d’arrondis, …
Ed : Et pour toi Rémi, en français, j’imagine que la logique est un peu différente ?
Rémi : Oui, en français, la logique de détection des erreurs fonctionne très bien pour l’orthographe ou la syntaxe par exemple, mais on avait besoin d’un système moins binaire pour évaluer certains formats d’évaluation comme l’écriture d’invention ou la dissertation par exemple.
J’ai donc mis en place une nomenclature avec un système d’étiquettes, ou « tags » dans notre jargon. L’idée, c’est d’associer chaque extrait de copie à un tag, qui est lui-même relié à un niveau de maîtrise.
Par exemple dans le cadre d’une dissertation tu vas pouvoir trouver le tag « accroche pertinente par rapport à l’œuvre », « argument globalement pertinent », « référence incohérente par rapport au contexte », etc.
Chaque tag est associé à une courte justification, un peu à la manière d’un commentaire qu’un prof mettrait dans la marge.
Ed : Donc l’idée c’est vraiment de s’adapter aux spécificités de chaque matière ?
Cédric : Exactement. Chaque matière a ses propres logiques, et ses difficultés particulières. Par exemple, en géographie, il nous faut apprendre à intégrer la cartographie.
C’est là qu’avoir des enseignants dans l’équipe fait toute la différence.
Ed : Donc si je résume, le système de tags et de typologie des erreurs agit comme une feuille de route pour l’IA ?
Cédric : Tout à fait, et c’est ce qui nous permet d’éviter que l’IA hallucine et d’obtenir une correction vraiment fiable.
Grâce à ces standards, l’IA s’appuie sur un référentiel solide qui lui permet de ne pas être trop dépendante des éléments fournis par l’enseignant et d’assurer une correction homogène - indispensable pour assurer la cohérence d’un élève à un autre ou encore pouvoir suivre les progrès d’un élève sur une année scolaire.
C’est la vraie spécificité de Ed. Aujourd’hui aucune IA ne corrige avec un tel niveau de fiabilité.
Ed : Ok. Et une fois la copie corrigée, à quoi ça ressemble côté prof ?
Clémence : L’enseignant peut retrouver la copie sur la plateforme Ed, où elle est annotée en version numérique comme une vraie copie corrigée.
Ed : Donc si je résume tout le process pour nos lecteurs ça donnerait ça :
Comment Ed corrige les copies - Schéma récapitulatif
Rémi : C’est ça.
Ed : Vous avez déjà des retours d’enseignants ?
Clémence : Oui on travaille directement avec eux au quotidien depuis janvier. On leur demande d’évaluer les résultats de l’IA sur leurs propres évaluations.
On compare ce qu’ils auraient fait avec ce que propose Ed, et on ajuste au plus près : formulation des commentaires, critères utilisés.
Ed : Ah oui, c’est très concret. Et comment prenez-vous en compte la subjectivité des profs ? J’imagine qu’il y en a des plus sévères que d’autres…
Rémi : C’est vrai. D’une copie à l’autre, la note peut changer selon l’enseignant qui la corrige.
Il y a un facteur subjectif fort lié au profil de l’enseignant. On travaille donc avec eux pour voir comment intégrer ce paramètre dans notre système d’évaluation.
Cédric : Une chose est sûre, on entend bien résoudre ces questions et s’assurer que Ed corrigera avec la finesse d’un vrai prof !
Ed : Merci à vous trois 🐧🐧🐧.
👀 Un petit détour par les coulisses ça vous dit ? On vous montre à quoi ça ressemble un workflow :
Ceci est une capture d’écran du workflow d’analyse des copies Ed en français !