可解释的人工智能框架，用于英语写作评估中的准确性、公平性和学习者感知

Meili Dai

doi:10.3791/69841

Research Article

可解释的人工智能框架，用于英语写作评估中的准确性、公平性和学习者感知

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究开发了一个三层评估框架和公平调解模型，用于评估AI辅助的英语书写系统。通过764个跨语言样本，结果显示了准确率差异、对非母语学习者（尤其是中文A2水平）的公平偏见以及公平感知作为用户满意度的关键调节因素，提供了理论和实践上的启示。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在全球教育数字化转型的背景下，自动化写作评估（AWE）因其实时和标准化优势被广泛采用;然而，传统的准确性导向框架常常忽视公平性和学习者的认知，从而限制了透明度和教育价值。为解决这一局限，本研究提出了一个可解释人工智能（XAI）框架，旨在提供透明且可解释的反馈，使学习者能够理解并信任自动评估，并整合了一个多层次验证模型——三级评估框架（TLEF），涵盖技术准确性、群体与个体公平以及学习者感知，并结合人工智能公平调解模型（AFMM）。通过分层随机抽样，通过写作任务、AI与人类专家的双重评分以及结构化问卷，收集了764名多语言学习者（英语、中文和西班牙语母语者），涵盖欧洲共同语言参考框架（CEFR）A2至C1级别。没有列出单个测试，而是采用多重统计分析来考察有效性、公平性以及学习者与感知的关系。统计分析结合了相关性、均方根误差（RMSE）、均值检验和结构方程建模（SEM）。研究结果显示，尽管人工智能辅助写作评估（AWE）系统（ETS标准）实现了整体效度（r = 0.82），但仍存在显著差异：中文母语者与人类评分者一致度最低（0.72），RMSE最高（中位数2.15），公平偏见在较低熟练度水平最为明显（A2学习者的ΔEO = 0.15），而感知公平性完全介导了感知准确率与学习者满意度之间的联系，拥有熟练调节公平敏感度。通过将公平性和感知重新定义为可解释性的关键维度，研究增强了AWE的理论基础，并为提升教育技术中的透明度、公平性和社会接受度提供了切实可行的路径。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

教育和数字技术的高度全球化增加了对科学且可信地评估英语写作水平的需求，以促进语言教学、学术发展和职业^发展1.传统写作评价，如人类评分，可以衡量写作的主观方面，如论证的彻底性和文化适宜性²，但由于评估者的经验和倾向，容易产生长周期、高人工成本和偏见。这些限制在大规模实践中尤为严重，比如国际语言测试（雅思、托福）或其他大学用英语授课的课程，这些课程在即时反馈和覆盖度方面，手工评分无法仅凭这些课程^5.

AWE系统因其实时处理、标准化^和可扩展性而被广泛应用于此类环境。诸如Grammarly（专注于语法错误和风格修正）和ETS Criterion（遵循正式写作规范）等流行工具，目前被数百万K-12教育、语言学校、高等教育和个^别培训的学生使用。尽管这些是优点，但AWE系统的技术效率和教育适用性仍存在^争议。从技术角度讲，现有系统在客观维度上非常准确，包括错误检测和词汇多样性，其中与人类评分的相关性可超过0.85⁹。然而，在更主观的领域，如内容相关性、逻辑论证和文本组织，相关性通常低于0.70¹⁰。这种不成比例存在促进学习者表面准确性的风险，而牺牲整体写作能力¹¹。

公平性问题也限制了AWE的教育价值。当前的研究也倾向于关注准确性总体指标，忽视了系统性地使^某些第12组处于不利地位的偏差可能性。举例来说，中文或西班牙语学习者共享的语言间特征会被误认为错误，这会导致系统性低估^13,14。此外，学习者对人工智能反馈的主观接受度通常^鲜为人知。调查显示，近三分之一的非母语学习者报告AI分数与实际表现不符，技术准确性、群体公平性和学习者满意度的过程仍难以理解¹⁶。

这些弱点反映了经典精度范式的不足，¹⁷。仅考虑人工智能与人类评分对齐的框架无法涵盖公平性或学习者对系统的信任问题。在实践中，AWE的教育价值必须同时满足三个条件：技术精确性、群体间公平性和学习者接受度¹⁸。缺乏如此全面的验证方法有助于解释为何AWE系统在教育实践中被广泛采用，但在教育实践中信任度有限 ^19,20。

为应对这一挑战，本研究引入了一个多层次验证框架，将技术准确性、群体与个体公平性以及学习者感知整合进一个连贯的结构中。拟议的XAI框架旨在通过为教师和学生提供公平性诊断和透明的分数解释，实际应用于写作课程或考试准备课程，以评估其在真实评估环境中提升公平性、可解释性和教学效用的能力。

在此背景下，该假说旨在探讨感知公平性在确定准确性与满意度关系中的中介作用，以及语言能力对公平敏感性的调节作用。因此，它在理论上丰富了AWE的评估模型，将公平性描述为与准确性和感知并列的关键验证维度之一;另一方面，在实践中，为开发者提供最大化公平性的策略，为教育者提供群体敏感系统选择标准，以及通过解释学习者感知形成的方式，提升AWE的教育价值。除了教育，该框架还与更广泛的XAI概念相契合，展示了公平性和用户感知如何提升医疗、自主系统和网络安全等其他领域的透明度、信任和接受度。

研究问题：

1.To AWE系统在不同母语和熟练度群体中展现了多大程度的技术准确性和公平性？

2. 基于XAI的多层次评估框架如何提升自动化英语写作评估的透明度和公平性？

文献综述：

通过扩展技术接受模型（TAM）²¹，研究了影响大学生接受AWE反馈的因素。基于对448名使用SEM的中国学生的调查数据，发现有用性、易用性和意图对主观规范、信任、自我效能、认知反馈和系统特征有显著影响。然而，该研究仅限于单一国家和一组学生，限制了泛化的适用性。为探讨中国英语外语学生对Pigai AWE反馈的^{反应，一项}研究分析了大学生重复提交的（n=5）。报告指出早期强调错误纠正、低语言反馈输入以及逐步加深的响应。然而，样本量非常有限，AWE系统也限制了适用性和推广性。对EFL教师对AI评分工具（CoGrader）应用的看法进行了分析，以识别影响其观点的因素²³。通过对10名沙特大学教师的混合方法研究，一项调查和访谈显示，积极评价褒贬不一，但对完全可靠性和教师替代持保留态度。由于样本有限且仅设一国，这阻碍了推广。

考虑到语料库语言学和人工智能技术的发展，一项研究探讨了AES框架²⁴。该研究利用PCA改进语言指标以评估写作质量，发现将微观特征与汇总特征结合比单独汇总特征更有效地定义写作质量。基于随机森林回归的非线性AES方法优于其他方法。此外，SHAP识别了每个评估属性的关键语言元素，通过可解释的人工智能提高了系统透明度。这些结果有助于提升写作分析和教育的多维度方法。人机协作系统被引入，旨在解决阿拉伯文字注释的挑战，这些注释通常既昂贵又耗时。该方法结合LLM的帮助，考察基于文学七个特征的论文。验证流程和提示策略经过个性化调整，以确保一致性和准确性。这种合作带来了更多的标记资源供应，且不影响评估质量，表明它是一种适合资源较低语言的可扩展数据注释方法。

人工智能在教育领域的应用提供了显著降低评分要求和提升写作教育的机会^25,26。与此同时，研究人员强调，人工智能的准确性并非其负责任使用的唯一方面。包括公平与减少偏见、安全与隐私、问责、可解释性、透明度、教育效果、诚信和持续发展等原则。近期研究实证评估了基于GPT-4o的零射击评分，重点关注这些要求。研究重点关注教育者对ADWTs在教育^{诚信方面的}看法。这项涉及100名研究生和教授、涵盖10门学科的横断面研究表明，尽管教师们认为ADWT在实现教育目标方面有益，但也存在一些局限性，如可及性有限、知识不足，以及对其对诚信和创造力影响的担忧。研究指出，随着人工智能技术在教育中的整合日益加深，伦理关切和利益相关者参与对于其成功和负责任的使用至关重要。研究考察了人工智能技术在评估EFL学生提交论文时相较于人类评估者的有效^性。评估了30篇论文显示，虽然人工智能在内容、语言、组织和正确性方面提供了高质量评论，但其评分始终低于人类评分者。此外，AI提供了更全面的反馈，但各种AI工具的得分差异并不大。

研究空白：

目前，大多数关于AWE奖学金的研究主要关注准确性或用户接受度。很少有人研究评分差异是否系统性地使母语或熟练群体处于劣势。虽然以往研究只关注用户接受度或仅限于特定国家和样本量的特定AWE系统，但关于普遍性的问题也随之而来。尽管SHAP和PCA都是XAI策略，且旨在提高透明度，但尚无研究探讨公平机制或学习者如何使用AWE的AI反馈。文献中没有深入的框架来考虑准确性、公平性分析和学习者感知的定义维度。目前没有一个可解释的评估模型，能够考虑评审者内部和评审间的准确性、公平性和学习者感知。本研究提出了一个可解释框架TLEF和一个结合模型AFMM，以同时评估多语言和能力多样性学习者的准确性、公平性和学习者感知。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本节总结了伦理审批和参与者招募流程，包括论文管理、ETS标准和专家的双重评分、学习者感知评估以及统计分析。它强调了准确性、公平性和基于SEM的感知建模如何整合进统一的XAI验证流程中。以XAI为驱动的AWE评估框架如图1所示。

手术流程：

该程序包含多个步骤。首先，获得了伦理审查委员会批准，并从所有参与者那里收集了知情同意。随后定义了独立变量、因变量和控制变量。在Moodle上进行了标准化写作任务，使用三个中立论文题目，并在遵守论文要求（如字数、时间限制和结构）的前提下收集写作样本。双重评分采用了ETS标准输出与人类专家评分相结合。学生感知问卷在论文提交后立即发放。为解决作弊或无效回答等异常情况，实施了数据筛查和质量控制程序。还应用了公平性分析阈值（ΔEO，RMSE检查）。最后，所有匿名化数据都安全存储在加密、访问受控的服务器上。

伦理批准与知情同意

该研究获得了作者所在机构的伦理审批批准。所有程序均依据赫尔辛基宣言及相关法规进行。所有参与者均为成年人（≥18岁），并在参与前提供了书面知情同意。写作样本和问卷回答在源头进行去标识化，存储在加密、访问控制的服务器上;只有授权调查员才能进入。人类评审员被蒙蔽了参与者的母语、熟练度和人口统计数据。参与是自愿的，有权随时退出，且不涉及欺骗或敏感干预。如有需要，期刊可向期刊提供正式批准文件。

变式设计

研究中共定义了三组变量以指导分析。表1 总结了每种构造测量方法中使用的测量和数据类型，并提供了独立变量、因变量和控制变量的完整作定义。

AI评分准确性是ETS标准输出与专家评分之间首次以RMSE和皮尔逊相关系数（r）评估的自变量。专家校定显示ICC为0.91，验证了可靠性。

第二个独立变量是学习者的语言背景，分为母语者和非母语者，进一步细分为中文、西班牙语、阿拉伯语及其他群体。中国学生是目标群体之一，因为初步显示存在系统性低估。

第三个自变量是写作能力，其评分标准为CEFR的A2至C1级别，并由官方证书和课前熟练度测试确认，且与雅思的等效标准相符。另一个在AI公平调解模型中引入的版主是写作熟练度，以测试不同熟练度对公平敏感度的差异。

公平感和学习者满意度是因变量。公平感知通过一份八题问卷进行评估，该问卷采用七点李克特量表评分，该量表包括个体一致性和群体公正性（Cronbachs 87;CVI 92）。通过六个李克特题评估学习者的满意度，这些问题显示学习者愿意使用以及技能提升的感知（α = 0.85）。

这些变量被控制在年龄、性别和写作经验方面。年龄分为三组（18-22岁、23-28岁和≥29岁），性别分为男性和女性。写作经验被分为每年三个频率等级。

写作任务文本

制定了标准化议论文题目，以获取三个中立主题的写作数据：全球化对本地文化的影响、在线教育的优势与挑战，以及人工智能的伦理界限。这些主题旨在一方面平衡认知难度和可及性，另一方面减少因既有知识带来的表现差异。论文长度的主题分布和描述性统计数据见表2。

每篇论文要求为250字±10%，并在基于Moodle的平台上45分钟内完成。禁止使用辅助工具，迟交者被排除。论文遵循标准化结构：引言、两段论证段落和结论。共收集了764篇有效论文，平均字数为252.3字（标准差=8.7）。

评分比较数据

AWE评分的准确性采用结合ETS标准输出与人类专家评分的双重程序进行评估。分数通过Criterion的开放API检索。三位拥有超过十年评估经验的语言学家独立为所有论文评分。在正式评分前，评级员完成了三次校准。校准过程中，评级间信度达到ICC = 0.87;正式评分时，ICC升至0.91，且维度特定ICC超过0.88。分数差距超过两分的作文集体解决（18个案例）。评分工作流程和可靠性结果总结于表3。

学习者感知问卷

学习者对AI反馈的感知通过基于TAM的22项问卷收集，并扩展至公平性。该工具包含三个领域：公平感知（8项）、满意度（6项）以及调节因素如可理解性和透明度（8项）。五位专家的验证得出CVI为0.92,60名学员的试点测试总体信度为α = 0.90。问卷结构和心理测量指标见表4。

主研究的问卷在提交论文后立即进行，并设定了最低完成时间要求，以减少草率完成。在发布的764份调查中，有756份经过质量检查后有效，得出有效率为98.95。

数据收集与质量控制

数据记录为期8周（2024年3月至4月），分为四个阶段：招募和同意;论文写作;双重评分与问卷分发;以及数据库的编纂。基于课前写作表现的熟练度证书通过双重筛选审查，这一过程淘汰了16名参与者。通过实时监测排除了4起潜在作弊案例，3起疑似AI表现（偏差至少8分）随后经过人工评估进行了修正。基于反向项目一致性检查，剔除了8份无效问卷。

数据存储与伦理

所有数据都经过匿名化，并使用由本地语言、熟练度和序列号组成的唯一标识符存储。文本、成绩和问卷被加密并存储在符合ISO27001的服务器上，访问受限。数据将保存3年后永久删除。获得机构审查委员会的伦理批准，并从所有参与者中收集书面知情同意。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本部分基于五个分析维度呈现研究结果：实验设计、参与者特征、评分准确性、公平性评估以及学习与感知建模。结果包括统计表现、群体差异、公平性差异以及基于SEM的调解与调节。

实验装置

关键的软件步骤包括通过 ETS Criterion 的 API 自动评分、培训人工评分员、在参考统计软件中使用默认统计选项进行数据分析，以及在 R 4.3.1 中使用标准 SEM 软件包进行结构方程建模。材料表中列出了AWE公平性研究中使用的材料、软件平台和分析工具。

样本选择与人口特征

共招募了764名有效参与者，采用跨英语地区分层随机抽样。对控制变量进行了分析以确保代表性。大多数年龄为18-22岁（n = 426,55.76%），其次是23-28岁（n = 258,33.77%）和≥29岁（n = 80,10.47%）。性别分布均衡（女性...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该研究采用三层次方法探讨AWE系统，涵盖技术准确性、群体与个体公平性以及学习者感知，发现总体有效性和系统性群体差异同时存在。AI与专家评分之间存在强烈相关性（总计r = 0.82），但各子组存在差异（原生r = 0.89 vs. 非原生r = 0.76;中文r = 0.72;表6）。RMSE的分布还显示中国学习者中错误率和变异性更高（见图2）。这些趋势表明构建了代表性不足，甚至可能存在领域转变：在训练中语言间特征被低估的情况下，模型会学习比话语层面特征（如内容、论证）更有效地生成表层正确性（如语法）²⁹。

公平性分析增强了这一形象。均衡赔率显示中国学生之间存在显著差异（ΔEO = 0.12，p < 0.05），最大差异出现在较低熟练水平（A2 ΔEO = 0.15; 表6）。研究还观察到，非本地群体在ROC曲线上的区分效果较差（AUC 0.81对0.92;

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者没有利益冲突需要披露。

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Data Storage System	加密、访问控制的服务器用于存储匿名数据。	机构服务器	存储-002
ETS标准系统	用于评分写作任务的AI辅助写作评估系统。	教育测试服务（ETS）	ETS-001
公平与准确分析工具	RMSE、均衡赔率和统计分析工具。	自定义脚本/统计包	工具-FA-001
<强>人类专家评级	由三位拥有超过10年经验的语言学家提供独立评级。	内部评级员	HR-EXP-003
<强>学习者感知问卷	一份包含8项公平与满意度的问卷，评分为7分李克特量表。	内部开发	QUES-008
统计软件（R 4.3.1）	用于数据分析，包括结构方程建模（SEM）。	R基金会	R-SW-431
<强>分层随机抽样数据	从CEFR A2至C1级别的764名多语学习者收集的数据。	研究参与者	数据-764
<强>写作任务提示	三个标准化论文题目，分别涉及全球化、在线教育和人工智能伦理。	基于 Moodle 的平台	提示-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

可解释的人工智能框架，用于英语写作评估中的准确性、公平性和学习者感知

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles