Cadre d’IA explicable pour la précision, l’équité et la perception de l’apprenant dans l’évaluation de l’écriture en anglais

Meili Dai

doi:10.3791/69841

Research Article

Cadre d’IA explicable pour la précision, l’équité et la perception de l’apprenant dans l’évaluation de l’écriture en anglais

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette étude développe un cadre d’évaluation à trois niveaux et un modèle de médiation de l’équité pour évaluer les systèmes d’écriture anglaise assistés par IA. En utilisant 764 échantillons interlinguistiques, les résultats montrent des disparités de précision, un biais d’équité envers les apprenants non natifs (en particulier le niveau de compétence A2 du chinois), et la perception de l’équité comme médiateur clé de la satisfaction des utilisateurs, offrant des implications théoriques et pratiques.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans le contexte de la transformation numérique éducative mondiale, l’évaluation automatisée de l’écriture (AWE) a été largement adoptée en raison de ses avantages en temps réel et standardisés ; Cependant, les cadres traditionnels axés sur la précision négligent souvent les préoccupations d’équité et la perception des apprenants, limitant ainsi la transparence et la valeur éducative. Pour répondre à cette limitation, cette recherche propose un cadre d’IA explicable (XAI) conçu pour fournir un retour transparent et interprétable, permettant aux apprenants de comprendre et de faire confiance à l’évaluation automatisée, et intègre un modèle de validation multiniveau, le Three-Level Evaluation Framework (TLEF), couvrant la précision technique, l’équité collective et individuelle, ainsi que la perception des apprenants, ainsi que le modèle de médiation de l’équité par IA (AFMM). En utilisant un échantillonnage aléatoire stratifié, des données ont été collectées auprès de 764 apprenants multilingues (locuteurs natifs de l’anglais, du chinois et de l’espagnol) à travers les niveaux A2 à C1 du Cadre européen commun de référence pour les langues (CECR) à travers des tâches d’écriture, des évaluations doubles par l’IA et des experts humains, ainsi que des questionnaires structurés. Au lieu de lister des tests individuels, plusieurs analyses statistiques ont été employées pour examiner la validité, l’équité et la relation apprenant-perception. Les analyses statistiques combinaient corrélation, erreur quadratique moyenne (RMSE), tests d’égalité des chances et modélisation structurelle des équations (SEM). Les résultats révèlent que, bien que le système d’évaluation assistée par l’écriture assistée par IA (AWE) (critère ETS) atteigne une validité globale (r = 0,82), des disparités significatives subsistent : les locuteurs natifs chinois montrent la plus faible concordance avec les évaluateurs humains (0,72) et la RMSE la plus élevée (médiane 2,15), les biais d’équité sont les plus prononcés à des niveaux de compétence plus faibles (ΔEO = 0,15 pour les apprenants A2), et que l’équité perçue médie pleinement le lien entre la précision perçue et la satisfaction de l’apprenant, avec une maîtrise modérant la sensibilité à l’équité. En reformulant l’équité et la perception comme des dimensions essentielles de l’explicabilité, la recherche renforce le fondement théorique de l’AWE et offre une voie pratique pour accroître la transparence, l’équité et l’acceptation sociale dans les technologies éducatives.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La mondialisation intensive de l’éducation et des technologies numériques a accru le besoin d’évaluer scientifiquement et de manière crédible le niveau d’écriture en anglais pour l’enseignement des langues, le développement académique et l’avancement professionnel¹. Les évaluations d’écriture conventionnelles, telles que pratiquées par l’évaluation humaine, peuvent mesurer des aspects subjectifs de l’écriture comme la rigueur de l’argumentation et l’adéquation culturelle², mais sont sujettes à de longs délais de révision, à des coûts de main-d’œuvre élevés et à des biais dus à l’expérience et aux penchants de l’évaluateur ^3,4. Ces contraintes sont particulièrement marquées dans les pratiques à grande échelle, comme les tests de langues internationales (IELTS, TOEFL) ou d’autres cours d’anglais enseignés dans les universités où la notation manuelle ne peut pas être la seule chose requise en termes de retour instantané et de couverture⁵.

Les systèmes AWE sont devenus largement utilisés dans ce contexte en raison de leur traitement en temps réel, de leur standardisation et de leur^{scalabilité 6}. Des outils populaires comme Grammarly (qui se concentre sur les erreurs grammaticales et le raffinement du style) et ETS Criterion (qui respecte les normes d’écriture formelles) sont actuellement utilisés par des millions d’élèves dans l’enseignement primaire et secondaire, les écoles de langues, l’enseignement supérieur et la formation^{individuelle 7}. Bien que ce soient les avantages, l’efficacité technologique et l’applicabilité éducative des systèmes AWE restent^contestées. Techniquement parlant, les systèmes existants sont très précis sur les dimensions objectives, y compris la détection d’erreurs et la diversité lexicale, où la corrélation avec le score humain peut être supérieure à 0,85⁹. Cependant, dans des domaines plus subjectifs, tels que la pertinence du contenu, l’argumentation logique et l’organisation d’un texte, les corrélations deviennent souvent inférieures à 0,70¹⁰. Un tel déséquilibre risque de favoriser une précision superficielle parmi les apprenants au détriment de la compétence globale en^{écriture 11}.

La question de l’équité limite également l’utilité éducative de l’AWE. Les études actuelles sont également portées sur les indicateurs agrégés de précision, négligeant la possibilité de déviations qui désavantageraient systématiquement certains groupes¹². De manière indiquable, les caractéristiques de l’interlangue partagées par les apprenants chinois ou espagnol seraient confondues avec des erreurs, ce qui entraînerait une sous-estimation^{systématique} ^13,14. De plus, l’acceptation subjective des retours d’IA par les apprenants est généralement peu connue¹⁵. Les enquêtes indiquent qu’environ un tiers des apprenants non natifs rapportent une inadéquation entre les scores de l’IA et la performance réelle, les processus de précision technique, d’équité de groupe et de satisfaction des apprenants étant encore^{mal compris 16}.

Ces faiblesses reflètent les lacunes du paradigme classique de^{précision 17}. Un cadre qui ne considère que l’alignement entre l’IA et le score humain ne peut pas saisir les questions d’équité ou la confiance de l’apprenant dans le système. En pratique, la valeur éducative de l’AWE doit satisfaire simultanément trois conditions : la précision technique, l’équité entre les groupes et l’acceptation par les^{apprenants 18}. L’absence d’une telle approche de validation globale explique pourquoi les systèmes AWE bénéficient d’une adoption généralisée mais d’une confiance limitée dans la pratique^{éducative 19,20}.

Pour relever ce défi, la présente étude introduit un cadre de validation multi-niveau qui intègre la précision technique, l’équité de groupe et individuelle, ainsi que la perception de l’apprenant dans une structure cohérente. Le cadre XAI proposé est conçu pour être mis en œuvre de manière pratique dans les plateformes AWE existantes en fournissant aux enseignants et aux élèves des diagnostics d’équité et des explications transparentes des notes, et peut être appliqué dans des cours d’écriture ou des cours de préparation à des examens afin d’évaluer sa capacité à améliorer l’équité, l’interprétabilité et l’utilité pédagogique dans des contextes d’évaluation réels.

Dans ce contexte, l’hypothèse est une AFMM visant à étudier le rôle médiateur de l’équité perçue dans la détermination de la relation entre précision et satisfaction, ainsi que le rôle modérateur de la maîtrise du langage sur la sensibilité à l’équité. Ainsi, il contribue de deux façons, à la fois théoriquement en enrichissant les modèles d’évaluation de l’AWE en décrivant l’équité comme l’une des dimensions clés de validation aux côtés de la précision et de la perception, et concrètement, en fournissant aux développeurs des stratégies pour maximiser l’équité, les éducateurs avec des critères de sélection système sensibles au groupe, et la valeur éducative de l’AWE en expliquant la manière dont les perceptions des apprenants se forment. En plus de l’éducation, le cadre s’inscrit également dans le concept plus large de XAI, démontrant comment l’équité et la perception des utilisateurs peuvent renforcer la transparence, la confiance et l’acceptation dans d’autres domaines tels que la santé, les systèmes autonomes et la cybersécurité.

Questions de recherche :

1.To dans quelle mesure le système AWE démontre-t-il une précision technique et une équité entre différents groupes de langue maternelle et de compétence ?

2. Comment un cadre d’évaluation multi-niveau basé sur XAI peut-il améliorer la transparence et l’équité dans l’évaluation automatisée de la rédaction en anglais ?

REVUE DE LA LITTÉRATURE :

Les facteurs qui influencent l’acceptation des retours AWE par les étudiants ont été examinés à l’aide d’un modèle d’acceptation technologique étendu (TAM⁾²¹. Sur la base des données d’enquête menées auprès de 448 étudiants chinois utilisant le MEB, il a été déterminé que l’utilité, la facilité d’utilisation et l’intention avaient une influence significative sur la norme subjective, la confiance, l’auto-efficacité, le retour cognitif et les caractéristiques du système. Cependant, l’étude s’est limitée à une seule nation et à un seul groupe d’étudiants, ce qui limite l’applicabilité de la généralisation. Pour explorer comment les étudiants chinois en langue étrangère réagissent aux retours Pigai^{AWE 22}, une étude a analysé les soumissions répétées (n = 5) d’étudiants universitaires. Il a noté une attention précoce portée à la correction d’erreurs, une faible absorption de rétroaction linguistique et un approfondissement progressif de la réponse. Cependant, la taille de l’échantillon était très limitée, tout comme le système AWE, qui limite l’applicabilité et la généralisation. Les convictions des enseignants d’anglais langue étrangère concernant l’application de l’outil de notation IA (CoGrader) ont été examinées afin d’identifier les facteurs influençant leurs^{opinions 23}. À travers une étude mixte menée auprès de 10 enseignants universitaires saoudiens, une enquête et un entretien ont révélé qu’il y avait un avis positif mitigé, mais une réticence à être totalement sûr de la fiabilité et d’un remplacement complet des enseignants. Cela entrave la généralisation en raison de l’échantillon limité et du cadre d’un seul pays.

En tenant compte des avancées en linguistique des corpus et en technologie de l’IA, une étude a étudié les cadres^{AES 24}. Elle a utilisé l’ACP pour améliorer les indicateurs linguistiques d’évaluation de la qualité de l’écriture et a découvert que combiner des micro-caractéristiques avec des caractéristiques agrégées définissait la qualité de l’écriture plus efficacement que les seules caractéristiques agrégées. L’approche non linéaire de l’AES basée sur la régression en forêt aléatoire a surpassé les autres approches. De plus, SHAP identifiait des éléments essentiels du langage pour chaque attribut évalué, augmentant la transparence du système grâce à une IA explicable. Les résultats contribuent peut-être à améliorer les méthodes multidimensionnelles dans l’écriture, l’évaluation et l’éducation. Le système de collaboration homme-machine a été introduit pour relever les défis liés à l’annotation des écrits arabes, souvent coûteux et chronophages. La méthode considère des essais basés sur sept aspects de la littérature avec l’aide d’un LLM. Les processus de validation et les tactiques d’incitation ont été personnalisés pour garantir cohérence et précision. Cette coopération entraîne une plus grande quantité de ressources étiquetées et n’affecte pas la qualité de l’évaluation, démontrant qu’il s’agit d’une méthode d’annotation évolutive adaptée aux langages à ressources plus faibles.

L’utilisation de l’IA dans le domaine éducatif offre une opportunité de réduire significativement les exigences de correction et d’améliorer l’enseignement de^{l’écriture 25,26}. Parallèlement, les chercheurs ont souligné que la précision de l’IA n’est pas le seul aspect pertinent pour son utilisation responsable. Il existe des principes d’équité et de réduction des préjugés, de sécurité et de confidentialité, de responsabilité, d’explicabilité, de transparence, d’impact éducatif, d’intégrité et de développement continu. Des recherches récentes ont évalué empiriquement le score zéro tir basé sur GPT-4o, en se concentrant sur ces exigences. La recherche s’est concentrée sur les perceptions que les éducateurs avaient envers les ADWT concernant l’aspect de l’intégrité éducative²⁷. L’étude transversale impliquant 100 étudiants en master et professeurs dans 10 matières suggère que, malgré les avantages attribués par les enseignants aux ADWT pour atteindre l’objectif éducatif, elle présente certaines limites, telles qu’une accessibilité limitée, un manque de connaissances et des inquiétudes quant à son impact sur l’intégrité et la créativité. La recherche a suggéré qu’à mesure que les technologies d’IA s’intègrent davantage à l’éducation, les préoccupations éthiques et la participation des parties prenantes sont nécessaires pour leur utilisation réussie et responsable. Des recherches ont examiné l’efficacité des technologies d’IA par rapport aux évaluateurs humains dans l’évaluation des essais soumis par des élèves^{EFL de 28} ans. L’évaluation de 30 essais a révélé que, bien que l’IA ait offert des commentaires de haute qualité en termes de contenu, de langage, d’organisation et de justesse, elle obtenait constamment des notes inférieures à celles des évaluateurs humains. De plus, l’IA a fourni un retour plus complet, mais les scores des différents outils d’IA n’étaient pas substantiellement différents.

Lacune de recherche :

Actuellement, la plupart des recherches sur la recherche de l’AWE examinent soit l’exactitude, soit l’acceptation par les utilisateurs. Très peu examinent si les différences de notation désavantagent systématiquement les groupes de langue maternelle ou de compétence. Bien que des études antérieures aient examiné l’acceptation par les utilisateurs ou soient limitées à un système AWE spécifique d’un pays et d’une taille d’échantillon spécifiques, des questions de généralisation se posent. Bien que SHAP et PCA soient toutes deux des stratégies XAI et aient été développées pour accroître la transparence, aucune étude n’a examiné les mécanismes d’équité ni la manière dont les apprenants utilisent le retour IA issu de l’AWE. Il n’existe pas de cadres étendus dans la littérature qui contemplent des dimensions définies de précision, d’analyse d’équité et de perception des apprenants. Il n’existe aucun exemple de modèle d’évaluation explicable qui prenne en compte la précision intra et inter-évaluateur, l’équité et les perceptions des apprenants. Un cadre explicable, TLEF, et un modèle combiné, AFMM, sont proposés et validés dans cette recherche afin d’évaluer la précision, l’équité et les perceptions des apprenants chez les apprenants multilingues et ayant une compétence diverse.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le processus d’approbation éthique et de recrutement des participants, incluant l’administration des dissertations, la double notation par ETS Criterion et les experts, l’évaluation de la perception des apprenants et l’analyse statistique, sont résumés dans cette section. Il met en lumière comment la précision, l’équité et la modélisation de perception basée sur le SEM sont intégrées dans un pipeline unifié de validation XAI. Le cadre d’évaluation AWE piloté par XAI est illustré à la Figure 1.

Procédure :

La procédure comportait plusieurs étapes. Premièrement, l’approbation du comité d’éthique a été obtenue et le consentement éclairé a été recueilli auprès de tous les participants. Des variables indépendantes, dépendantes et de contrôle ont alors été définies. Des tâches d’écriture standardisées ont été administrées sur Moodle en utilisant trois sujets d’essai neutres, et des échantillons d’écriture ont été collectés tout en assurant le respect des exigences de l’essai, telles que le nombre de mots, la limite de temps et la structure. Le double score a été réalisé en utilisant les résultats du Critère ETS combinés à des évaluations d’experts humains. Des questionnaires de perception des apprenants ont été distribués immédiatement après la soumission de l’essai. Des procédures de contrôle des données et de contrôle qualité ont été mises en place pour corriger des anomalies, telles que la triche ou les réponses invalides. Des seuils d’analyse d’équité (ΔEO, vérifications RMSE) ont également été appliqués. Enfin, toutes les données anonymisées étaient stockées de manière sécurisée sur des serveurs chiffrés et contrôlés par accès.

Approbation éthique et consentement éclairé

Cette étude a reçu l’approbation éthique du comité d’éthique de l’institution des auteurs. Toutes les procédures ont été menées conformément à la Déclaration d’Helsinki et aux règlements applicables. Tous les participants étaient adultes (≥18 ans) et avaient fourni un consentement éclairé écrit avant la participation. Les échantillons d’écriture et les réponses au questionnaire étaient désidentifiés à la source et stockés sur des serveurs chiffrés à accès contrôlé ; seuls les enquêteurs autorisés y avaient accès. Les évaluateurs humains étaient aveugles quant à la langue maternelle, au niveau de compétence et à la démographie des participants. La participation était volontaire, avec le droit de se retirer à tout moment, et aucune tromperie ni intervention sensible n’était impliquée. Des documents d’approbation formels peuvent être fournis à la revue sur demande.

Conception variable

Un total de trois groupes de variables ont été définis dans l’étude pour guider l’analyse. Le tableau 1 résume les types de mesures et de données utilisés dans les méthodes de mesure pour chaque construit et fournit les définitions opérationnelles complètes des variables indépendante, dépendante et de contrôle.

La précision des notations par IA a été la première variable indépendante évaluée en termes de coefficient de corrélation RMSE et Pearson (r) entre les résultats du critère ETS et les évaluations des experts. L’étalonnage effectué par des experts a donné un ICC de 0,91, validant la fiabilité.

La deuxième variable indépendante était le contexte linguistique des apprenants, qui était divisé en locuteurs natifs et non natifs, et une subdivision ultérieure était faite en chinois, espagnol, arabe et autres groupes. Les étudiants chinois faisaient partie des populations cibles car des indications préliminaires de sous-estimation systématique ont été observées.

La troisième variable indépendante était la compétence en écriture, qui était évaluée selon les niveaux CECR de A2 à C1, comme confirmé par les certificats officiels et les tests de compétence préalables à la classe, et qui était également alignée avec les équivalences IELTS. Un autre modérateur introduit dans le modèle de médiation de l’équité par IA était la rédaction de la compétence pour tester si la sensibilité à l’équité diffère selon les niveaux de compétence.

La perception de l’équité et la satisfaction de l’apprenant étaient les variables dépendantes. La perception de l’équité a été évaluée au moyen d’un questionnaire de huit items évalué sur une échelle de Likert de sept points, incluant la cohérence individuelle et l’impartialité du groupe (Cronbachs 87 ; CVI 92). La satisfaction des apprenants a été évaluée à l’aide de six questions de Likert indiquant la volonté d’utiliser et l’amélioration perçue des compétences (α = 0,85).

Les variables ont été prises en compte en termes d’âge, de sexe et d’expérience en écriture. L’âge était divisé en trois groupes (18-22 ans, 23-28 ans et ≥29 ans), et le genre était catégorisé en hommes et femmes. L’expérience d’écriture était classée en trois niveaux de fréquence par an.

Rédaction de textes de tâches

Des sujets standardisés pour essais argumentatifs ont été formulés pour obtenir des données de rédaction sur trois sujets neutres : l’impact de la mondialisation sur les cultures locales, les avantages et défis de l’éducation en ligne, et les limites éthiques de l’intelligence artificielle. Ces thèmes visaient à équilibrer d’une part difficulté cognitive et accessibilité, et à réduire les différences de performance dues aux connaissances antérieures d’autre part. La répartition des sujets et des statistiques descriptives pour la longueur des essais est présentée dans le tableau 2.

Chaque essai devait faire 250 mots ±10 % et être rédigé en moins de 45 minutes sur une plateforme Moodle. Les outils auxiliaires étaient interdits, et les soumissions tardives étaient exclues. Les essais suivaient une structure standardisée d’introduction, de deux paragraphes argumentatifs et de conclusion. Au total, 764 essais valides ont été rassemblés, avec une longueur moyenne de 252,3 mots (SD = 8,7).

Données comparatives de scores

La précision des scores AWE a été évaluée à l’aide d’une double procédure combinant les résultats du critère ETS avec les évaluations d’experts humains. Les scores ont été récupérés depuis Criterion via son API ouverte. Trois linguistes ayant plus de dix ans d’expérience en évaluation ont noté de manière indépendante tous les essais. Avant la notation officielle, les évaluateurs ont effectué trois séances d’étalonnage. Lors de l’étalonnage, la fiabilité inter-évaluateurs atteignait ICC = 0,87 ; lors du score formel, l’ICC est montée à 0,91, avec des ICC spécifiques à la dimension supérieure à 0,88. Les essais présentant des écarts de score supérieurs à deux points ont été résolus collectivement (18 cas). Le flux de travail de notation et les résultats de fiabilité sont résumés dans le Tableau 3.

Questionnaire de perception de l’apprenant

Les perceptions des apprenants sur le retour d’IA ont été recueillies à travers un questionnaire de 22 items basé sur le TAM et étendu à l’équité. L’instrument contenait trois domaines : la perception de l’équité (8 items), la satisfaction (6 items) et des facteurs modérateurs tels que la compréhensibilité et la transparence (8 items). La validation par cinq experts a donné un CVI de 0,92, et les tests pilotes avec 60 apprenants ont donné une fiabilité globale de α = 0,90. La structure du questionnaire et les indices psychométriques sont fournis dans le Tableau 4.

Les questionnaires de l’étude principale étaient administrés immédiatement après la soumission des essais, et il y avait des exigences minimales de temps de complétion pour réduire la réflexion irréfléchie. Sur les 764 enquêtes publiées, 756 étaient valides après des contrôles de qualité, et un taux effectif de 98,95 a été obtenu.

Collecte de données et contrôle qualité

Les données ont été enregistrées pendant 8 semaines (mars-avril 2024) en quatre étapes : recrutement et consentement ; rédaction d’essais ; double notation et distribution par questionnaire ; et la compilation de la base de données. Les certificats de compétence basés sur la performance en rédaction avant le cours ont été examinés par un double sélection, ce qui a permis d’éliminer 16 participants. Quatre cas potentiels de triche ont été éliminés par surveillance en temps réel, et trois performances suspectes de l’IA (écarts d’au moins 8 points) ont ensuite été modifiés à la suite d’une évaluation manuelle. Huit questionnaires invalides ont été éliminés sur la base de vérifications de cohérence inversées sur les items.

Stockage des données et éthique

Toutes les données étaient anonymisées et stockées à l’aide d’identifiants uniques comprenant la langue maternelle, le niveau de compétence et le numéro de série. Les textos, scores et questionnaires étaient chiffrés et stockés sur des serveurs conformes à la ISO27001 avec un accès restreint. Les données seront conservées pendant 3 ans avant suppression définitive. L’approbation éthique a été obtenue du comité d’examen institutionnel, et le consentement écrit éclairé a été recueilli de tous les participants.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La section présente les résultats de la recherche basés sur cinq dimensions analytiques : la conception expérimentale, les caractéristiques des participants, la précision des notations, l’évaluation de l’équité et la modélisation de l’apprentissage et de la perception. Les résultats incluent la performance statistique, les différences de groupe, les disparités d’équité, ainsi que la médiation et la modération basées sur le MEV.

Installation expérimentale

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La recherche a exploré un système AWE selon une approche à trois niveaux, englobant la précision technique, l’équité du groupe et de l’individu, ainsi que la perception de l’apprenant, et a identifié que la validité globale et les différences systématiques entre groupes sont présentes simultanément. Il y avait de fortes corrélations entre l’IA et les évaluations des experts (r = 0,82 global), mais des différences ont été observées par sous-groupe (r natif = 0,89 vs. r non natif r = 0,76 ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’auteur n’a aucun conflit d’intérêts à divulguer.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
données fort	Serveurs chiffrés et contrôlés d’accès pour stocker des données anonymisées.	Serveurs institutionnels	STORAGE-002
système de critères ETS	Système d’évaluation de l’écriture assisté par IA utilisé pour noter les tâches d’écriture.	Service de tests éducatifs (ETS)	ETS-001
<et de la précision fort>	Outils pour RMSE, Equalized Odds et analyse statistique.	Scripts/packages de statistiques personnalisés	TOOL-FA-001
Évaluations Experts Humains	Évaluations indépendantes fournies par trois linguistes ayant plus de 10 ans d’expérience.	Évaluateurs internes	HR-EXP-003
Questionnaire de perception de l’apprenant	Un questionnaire de 8 items sur l’équité et la satisfaction, évalué sur une échelle Likert de 7 points.	Développement interne	QUES-008
logiciel statistique (R 4.3.1)	Utilisé pour l’analyse de données, y compris le SEM (modélisation structurelle des équations).	Fondation R	R-SW-431
fortes	Données recueillies auprès de 764 apprenants multilingues des niveaux CECR A2 à C1.	Participants à l’étude	DATA-764
Writing Task Prompts	Trois sujets standardisés d’essais sur la mondialisation, l’éducation en ligne et l’éthique de l’IA.	Plateforme basée sur Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Cadre d’IA explicable pour la précision, l’équité et la perception de l’apprenant dans l’évaluation de l’écriture en anglais

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles