Research Article

可解释的人工智能框架,用于英语写作评估中的准确性、公平性和学习者感知

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究开发了一个三层评估框架和公平调解模型,用于评估AI辅助的英语书写系统。通过764个跨语言样本,结果显示了准确率差异、对非母语学习者(尤其是中文A2水平)的公平偏见以及公平感知作为用户满意度的关键调节因素,提供了理论和实践上的启示。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在全球教育数字化转型的背景下,自动化写作评估(AWE)因其实时和标准化优势被广泛采用;然而,传统的准确性导向框架常常忽视公平性和学习者的认知,从而限制了透明度和教育价值。为解决这一局限,本研究提出了一个可解释人工智能(XAI)框架,旨在提供透明且可解释的反馈,使学习者能够理解并信任自动评估,并整合了一个多层次验证模型——三级评估框架(TLEF),涵盖技术准确性、群体与个体公平以及学习者感知,并结合人工智能公平调解模型(AFMM)。通过分层随机抽样,通过写作任务、AI与人类专家的双重评分以及结构化问卷,收集了764名多语言学习者(英语、中文和西班牙语母语者),涵盖欧洲共同语言参考框架(CEFR)A2至C1级别。没有列出单个测试,而是采用多重统计分析来考察有效性、公平性以及学习者与感知的关系。统计分析结合了相关性、均方根误差(RMSE)、均值检验和结构方程建模(SEM)。研究结果显示,尽管人工智能辅助写作评估(AWE)系统(ETS标准)实现了整体效度(r = 0.82),但仍存在显著差异:中文母语者与人类评分者一致度最低(0.72),RMSE最高(中位数2.15),公平偏见在较低熟练度水平最为明显(A2学习者的ΔEO = 0.15),而感知公平性完全介导了感知准确率与学习者满意度之间的联系, 拥有熟练调节公平敏感度。通过将公平性和感知重新定义为可解释性的关键维度,研究增强了AWE的理论基础,并为提升教育技术中的透明度、公平性和社会接受度提供了切实可行的路径。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

教育和数字技术的高度全球化增加了对科学且可信地评估英语写作水平的需求,以促进语言教学、学术发展和职业发展1.传统写作评价,如人类评分,可以衡量写作的主观方面,如论证的彻底性和文化适宜性2,但由于评估者的经验和倾向,容易产生长周期、高人工成本和偏见。这些限制在大规模实践中尤为严重,比如国际语言测试(雅思、托福)或其他大学用英语授课的课程,这些课程在即时反馈和覆盖度方面,手工评分无法仅凭这些课程5.

AWE系统因其实时处理、标准化和可扩展性而被广泛应用于此类环境。诸如Grammarly(专注于语法错误和风格修正)和ETS Criterion(遵循正式写作规范)等流行工具,目前被数百万K-12教育、语言学校、高等教育和个别培训的学生使用。尽管这些是优点,但AWE系统的技术效率和教育适用性仍存在争议。从技术角度讲,现有系统在客观维度上非常准确,包括错误检测和词汇多样性,其中与人类评分的相关性可超过0.85

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本节总结了伦理审批和参与者招募流程,包括论文管理、ETS标准和专家的双重评分、学习者感知评估以及统计分析。它强调了准确性、公平性和基于SEM的感知建模如何整合进统一的XAI验证流程中。以XAI为驱动的AWE评估框架如 图1所示。

手术流程:

该程序包含多个步骤。首先,获得了伦理审查委员会批准,并从所有参与者那里收集了知情同意。随后定义了独立变量、因变量和控制变量。在Moodle上进行了标准化写作任务,使用三个中立论文题目,并在遵守论文要求(如字数、时间限制和结构)的前提下收集写作样本。双重评分采用了ETS标准输出与人类专家评分相结合。学生感知问卷在论文提交后立即发放。为解决作弊或无效回答等异常情况,实施了数据筛查和质量控制程序。还应用了公平性分析阈值(ΔEO,RMSE检查)。最后,所有匿名化数据都安全存储在加密、访问受控的服务器上。

伦理批准与知情同意

该研究获得了作者所在机构的伦理审批批准。所有程序均依据赫尔辛基宣言及相关法规进行。所有参与者均为成年人(≥18岁),并在参与前提供了书面知情同意。写作样本和问卷回答在源....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本部分基于五个分析维度呈现研究结果:实验设计、参与者特征、评分准确性、公平性评估以及学习与感知建模。结果包括统计表现、群体差异、公平性差异以及基于SEM的调解与调节。

实验装置

关键的软件步骤包括通过 ETS Criterion 的 API 自动评分、培训人工评分员、在参考统计软件中使用默认统计选项进行数据分析,以及在 R 4.3.1 中使用标准 SEM 软件包进行结构方程建模。材料表中列出了AWE公平性研究中使用的材料、软件平台和分析工具。

样本选择与人口特征

共招募了764名有效参与者,采用跨英语地区分层随机抽样。对控制变量进行了分析以确保代表性。大多数年龄为18-22岁(n = 426,55.76%),其次是23-28岁(n = 258,33........

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该研究采用三层次方法探讨AWE系统,涵盖技术准确性、群体与个体公平性以及学习者感知,发现总体有效性和系统性群体差异同时存在。AI与专家评分之间存在强烈相关性(总计r = 0.82),但各子组存在差异(原生r = 0.89 vs. 非原生r = 0.76;中文r = 0.72;表6)。RMSE的分布还显示中国学习者中错误率和变异性更高(见图2)。这些趋势表明构建了代表性不足,甚至可能存在领域转变:在训练中语言间特征被低估的情况下,模型会学习比话语层面特征(如内容、论证)更有效地生成表层正确性(如语法)29

公平性分析增强了这一形象。均衡赔率显示中国学生之间存在显著差异(ΔEO = 0.12,p < 0.05),最大差异出现在较低熟练水平(A2 ΔEO = 0.15; 表6)。研究还观察到,非本地群体在ROC曲线上的区分效果较差(AUC 0.81对0.92;

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者没有利益冲突需要披露。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Data Storage System加密、访问控制的服务器用于存储匿名数据。机构服务器存储-002
ETS标准系统用于评分写作任务的AI辅助写作评估系统。教育测试服务(ETS)ETS-001
公平与准确分析工具RMSE、均衡赔率和统计分析工具。自定义脚本/统计包工具-FA-001
<强>人类专家评级由三位拥有超过10年经验的语言学家提供独立评级。内部评级员HR-EXP-003
<强>学习者感知问卷一份包含8项公平与满意度的问卷,评分为7分李克特量表。内部开发QUES-008
统计软件(R 4.3.1)用于数据分析,包括结构方程建模(SEM)。R基金会R-SW-431
<强>分层随机抽样数据从CEFR A2至C1级别的764名多语学习者收集的数据。研究参与者数据-764
<强>写作任务提示三个标准化论文题目,分别涉及全球化、在线教育和人工智能伦理。基于 Moodle 的平台提示-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles