Regardez un peu ce pingouin : quel flow ! Crédits photo : Bob Brewer sur Unsplash

IA Ed Évaluation

Le pouvoir du flow ou comment Ed corrige les copies (1/2)

Rémi | 2 juin 2025

Connaissez-vous le pouvoir du flow ?

Bien sûr, il y a le flow de la musique de Jay-Z, le flow d’une personne (son allure en quelque sorte), le flow théorisé par le psychologue Mihaly Csikszentmihalyi, cette sensation géniale que les planètes sont alignées…

Chez Ed, notre développeur et CTO Cédric nous a parlé d’un autre flow : le workflow. Suite de tâches permettant de traiter des données complexes et d'en obtenir un rendu satisfaisant. À quelle occasion? On lui demandait “juste” comment notre IA parvenait à corriger les copies.

Et devinez quoi ? Ils sont trois à travailler sur l’alignement des planètes vers l’autocorrection: Cédric, Clémence et Rémi. Ah mais au fait ! Avant de faire courir la rumeur que Rémi souffre de troubles de la personnalité multiple, il faut qu’on vous dise : la plume derrière la newsletter Ed, c’est Marion.

C’est elle qui fait parler Ed dans ces éditions — et c’est pour cette raison que dans les interviews, c’est “Ed” qui pose les questions !

Maintenant que les présentations sont faites, revenons à nos pingouins.

Le workflow de l’évaluation

Ed : Trois personnes pour évaluer, ça fait du monde.

Cédric : Oui mais on ne fait pas le même métier.

Moi je suis en charge du code et de la partie technique du projet ;
Rémi et Clémence sont notre botte secrète : ce sont d’anciens profs. C’est leur expertise qui permet à l’IA de corriger à la manière d’un "vrai" enseignant.

Ed : C’est noté. Il y a quelques semaines, Adrien nous expliquait comment l’IA « lisait » les copies d’élèves grâce au jumeau numérique. Mais comment fait-elle maintenant pour les corriger ? Ou pour les évaluer ? D’ailleurs, est-ce que c’est la même chose ?

Clémence : Tu as raison c’est important de différencier.

Corriger, c’est relever sous forme de commentaires les performances (réussites, erreurs) d’un élève par rapport aux objectifs d’apprentissage.
Évaluer, c’est plus subjectif : c’est donner une note ou déterminer un niveau de maîtrise sur une compétence.

Pour réussir cette mission, il faut analyser les objectifs définis par l’enseignant dans l’évaluation, comprendre précisément ses attentes via la grille d’évaluation et éventuellement le corrigé qu’il nous donne et les appliquer pour corriger et évaluer chaque copie.

Ed : Ambitieux ! Et concrètement, comment vous vous y prenez ?

Rémi : On commence par décortiquer toutes les étapes explicites et implicites que suit un enseignant quand il corrige. Ensuite, on les subdivise en tâches.

Plus les tâches sont précises, plus elles sont simples à exécuter pour l’IA, et moins il y a de risques d’erreurs.

C’est cette décomposition qui fait la spécificité de notre approche chez Ed. Parce qu’aujourd’hui, une IA « basique » est capable de corriger et d'évaluer une copie (certains élèves s’en servent déjà avec ChatGPT) mais son analyse n’est ni fiable, ni qualitative.

Ed : Ok… mais, concrètement, ça ressemble à quoi ?

Cédric : C’est là qu’entre en jeu le workflow ! Il s’agit d’une interface que j’ai conçue pour permettre à Clémence et Rémi de visualiser, tester et ajuster chaque étape du processus de A à Z avec de vraies évaluations.

Ed : D’accord, et comment découpez-vous le processus ?

Rémi : Pour commencer, on sépare le flow d’analyse de l’évaluation (sujet, grille d’évaluation et indications de correction données parfois par le prof) de celui de la correction des copies, qui arrive dans un deuxième temps.

[🚨 Spoiler : elle sera traitée dans une prochaine newsletter].

Ed : Très bien. Comment se décompose le flow de l’évaluation ?

Clémence : Un des gros enjeux de ce flow est d’identifier la manière dont l’enseignant veut corriger et évaluer les copies.

On a donc prévu par exemple une tâche qui permet d’identifier le système d’évaluation du prof (note, compétences ou les deux) et une tâche qui permet de repérer d’éventuelles indications de correction.

Ed : Et si le prof ne donne aucune information ? Ou des informations vagues ?

Rémi : On a aussi prévu une tâche d’analyse du sujet avec nos propres critères d’évaluation dans tous les cas (une sorte d’évaluation Ed).

Ça nous permet d’avoir un système d’évaluation solide au cas où le prof ne nous donne pas d’instructions précises et cela permet aussi de garantir une certaine homogénéité des résultats sur toutes les évaluations.

Ed : Et comment garantissez-vous la fiabilité de l’analyse d’une évaluation ?

Rémi : Le fait de subdiviser le processus d’analyse en petites tâches précises diminue fortement le risque d’hallucination (voir notre lexique de l’IA) et permet de détecter d’où vient le problème en cas d’erreur.

Nous avons également fait la démarche de réaliser nos tests sur des évaluations pour lesquelles nous avons rédigé, pour chaque étape d’analyse, le résultat auquel nous nous attendons. Nous pouvions ainsi comparer ce résultat attendu avec celui des tests avec l’IA.

Une réponse imprécise sur une tâche met le doigt sur un prompt à affiner.

Avec Clémence notre travail est ensuite de le réécrire afin d’obtenir une réponse plus précise et plus juste. C’est là que notre casquette de prof fait la différence.

Ed : Donc chaque étape fait l’objet d’un traitement par une IA et d’un prompt ?

Cédric : Pas tout à fait.

Une partie des étapes (les plus importantes) s’appuient sur des prompts et sur des modèles d’IA. Les tâches restantes - par exemple faire une addition de points ou rassembler plusieurs éléments en un seul - relèvent plutôt du code.

C’est assez logique : les LLM fonctionnent sur un modèle probabiliste de génération de texte, pas avec des règles de calcul. Or, pour certaines tâches, on a juste besoin de faire des calculs ou des opérations simples qui ne nécessitent pas d’IA.

C’est vraiment cette expertise d’hybridation entre raisonnement, prompting et code qui fait notre force chez Ed. Et bien sûr, le fait d’avoir deux profs dans l’équipe, donc l’expérience du terrain.

Ed : Donc, pour résumer le workflow de l’évaluation c’est :

Diviser les étapes d’analyse de l’évaluation en tâches précises.
Tester ces tâches avec de vraies évaluations transcrites pour s’assurer de la fiabilité du processus.
Ajuster les tâches où il y a des erreurs pour améliorer la fiabilité.