Évaluer à l'ère de l'Intelligence Artificielle, mensuel de l'expérimentation

Rédigé par Clémence | 4 juin 2025 07:56:58

Épisode 4, mai 2025

« J’ai trouvé super intéressant de passer cette heure et demi à analyser les propositions de l’IA pour analyser mon sujet d’évaluation et mes copies »

Ce mois de mai marque une nouvelle étape charnière dans l’expérimentation : les enseignants testent pour la première fois et en conditions réelles l’analyse générée exclusivement par IA de leurs évaluations !

Ils ont montré un réel enthousiasme à “jouer” avec l’outil : au-delà de voir que le projet avance, ils sont curieux de voir comment l’IA “réfléchit” et veulent partager leur expérience.

“Je vais tester de lui donner des corrigés plus ou moins détaillés pour voir ce que cela change”

“Je vais montrer le barème généré par l’IA à mes collègues pour en discuter.”

Ce faisant, ils affinent avec nous les critères clés qui se cachent derrière la génération des barèmes, des savoir-faire, des éléments de correction ou encore des commentaires généraux et des synthèses données aux élèves.

Voici ce que nous avons construit, testé et appris ensemble.

🧪 Test de l’analyse par l’IA des documents d’évaluation

Chez Ed, l’assistant de correction travaille en deux grandes phases :

Il commence par analyser les documents d’évaluation fournis par l’enseignant (sujet +/- corrigé +/- barème). A partir de ces documents, il doit :
1. extraire les consignes d’évaluation de l’enseignant
2. générer un barème détaillé et/ou une description des compétences évaluées
3. extraire les savoir-faire évalués
Il analyse les copies pour en proposer une correction, à partir des documents de la phase 1

Au cours du mois de mai, nous avons testé en particulier la phase 1, et ce sur les propres évaluations des enseignants de l’expérimentation. Voici par exemple un extrait de barème détaillé généré par IA à partir des données indiqués par l’enseignant sur son sujet.

Les retours sont globalement très positifs :

“Ce que je lis, j’ai l’impression que c’est un prof qui l’a écrit.”

Barèmes détaillés générés : note moyenne 8/10

👉 Jugés majoritairement cohérents et fidèles à l’esprit de l’évaluation.

👉 Les modifications à apporter restent mineures, et les enseignants apprécient de savoir qu’ils peuvent les effectuer facilement et les faire prendre en compte lors de la phase 2.

Ressortent alors les différences des profils de correcteur, par exemple :
- Certains ont des attentes très précises en terme de rédaction / de détail des étapes, quand d’autres préfèrent un barème large pour s’adapter aux profils des élèves corrigés
- Certains mettent plus de points sur les questions qui demandent plus de raisonnement, là où d’autres notent toutes les questions sur le même nombre de points, notamment pour valoriser les élèves en difficultés qui essaient de traiter au moins une partie du sujet
Extraction des savoir-faire : pertinence moyenne de 70%

👉 Bonnes propositions dans l’ensemble, mais des ajustements sont encore attendus, en particulier concernant
- la granularité : quel niveau de précision est-il juste d’adopter ?
- la prise en compte des éléments fournis dans leurs corrigés.

Les enseignants se montrent naturellement volontaires pour adapter leurs pratiques en amont pour tirer le meilleur parti de l’IA : barèmes plus structurés, corrigés plus lisibles, ajout de compétences, voire tests en double pour “comparer” les interprétations de l’IA.

🧪 Tests des corrections sur les copies : des progrès attendus, mais un système de fond validé

✏️ Les tests de correction automatique montrent encore beaucoup d’erreurs, notamment liées à une implémentation technique en cours chez Ed, mais les enseignants ont été enthousiastes de découvrir le système de catégorisation des erreurs, perçu comme un levier puissant pour la remédiation.

👩‍🏫 Le commentaire global sur la copie : un autre levier de remédiation

À quoi sert un commentaire global sur une copie ? C’est la question qui a guidé le travail du groupe “profils de correcteur”.

Leur réponse est sans ambiguïté : le commentaire doit aider l’élève à comprendre ce qu’il doit retravailler, à digérer sa note et à se sentir accompagné. Le commentaire global, s’il est bien construit, peut motiver l’élève à passer à la phase de remédiation.

Les enseignants ont formulé des attentes claires :

Un équilibre entre points positifs et axes d’amélioration : les deux doivent absolument être présents
Des conseils méthodologiques, pour accompagner les élèves à apprendre à apprendre
Un ton personnalisable (tutoiement/vouvoiement, proximité, emoji, smileys…)
Une longueur limitée à 6-7 lignes, sinon l’élève ne lit pas
Et surtout, pas de commentaire qui “règle des comptes” : on reste dans un cadre bienveillant et constructif

Les enseignants souhaitent également pouvoir lier ces commentaires à des exercices de remédiation concrets, directement exploitables par l’élève.

👩‍🏫 Remédiation : ce que les exercices d’application doivent proposer

L’expérimentation a aussi permis de tester des exercices d’application générés par IA sur la réciproque du théorème de Thalès. Voici leurs retours

Points forts relevés :

Progressivité des exercices, appréciée pour sa capacité à accompagner les élèves
Inclusion d’erreurs d’élèves, qui permet un travail réflexif
Aides ciblées, mais qui doivent rester optionnelles

Améliorations à intégrer :

Des consignes plus claires et plus courtes, adaptées aux élèves en difficulté
Des figures correctement décrites et cohérentes
Une diversité des niveaux de guidage pour s’adapter aux différents profils

“C’est bien de découper le problème pour guider l’élève, mais trop de sous-questions peuvent tuer l’initiative de l’élève.”

🧩 Analyse didactique : quelles erreurs faire remontrer ?

Le groupe didactique a poursuivi ses travaux sur la catégorisation et la priorisation des erreurs, avec une question principale : quelles erreurs faire remonter en priorité dans une synthèse ?

Pour les élèves, ils conseillent de mettre en avant les erreurs de cours, d’oubli de justification ou de calculs sur les ****fondamentaux
Pour les enseignants, il faut garder une vue d’ensemble via des visualisations claires, comme celles intégrées à la page “Analyse et remédiation”
En remédiation il faut cibler les erreurs de méthode, de rédaction ou d’unités, qui sont les plus propices à un travail autonome

Un autre point discuté : faut-il intégrer des savoir-faire transversaux ?

La réponse : oui… mais via les erreurs. Structurer un raisonnement, vérifier la cohérence d’un résultat, interpréter un contexte : toutes ces compétences sont reflétées dans les erreurs types. Ajouter des savoir-faire risquerait d’alourdir la synthèse donnée à l’enseignant.

🪄 Une plateforme qui se perfectionne

Les enseignants ont aussi pu tester les nouvelles fonctionnalités de la plateforme :

Désormais, ils peuvent importer directement sur la plateforme web leurs évaluations. Le parcours est plébiscité pour son intuitivité et la rapidité de chargement (9/10)

Ils peuvent également générer des activités de remédiation de formats très variés

🌳 Ce que l’expérimentation change dans les pratiques

Enfin, les enseignants témoignent de changements concrets dans leurs pratiques, induits par l’expérimentation :

Ils disent proposer davantage de remédiation à leurs élèves, en classe ou à la maison
Ils font plus attention aux commentaires qu’ils écrivent sur les copies
Ils font davantage d’évaluations, notamment plus courtes et ciblées

📆 Et maintenant ?

Le mois de juin sera celui des derniers ajustements, afin de proposer un outil de qualité à la rentrée de septembre :

➡️ Essais complets du parcours Ed, de l’évaluation à la remédiation.

➡️ Tests des corrections automatiques des copies déposées par les enseignants

Mais l’histoire-géographie dans tout ça ?

🐣 Ce mois-ci, une heureuse nouvelle a quelque peu mis en pause le travail avec les enseignants d’HG : Rémi a accueilli un petit Abel ! Les entretiens et les groupes de travail en histoire-géographie vont pouvoir reprendre au mois de juin !

Voir l'article complet