Research Article

Объяснимая AI-структура для точности, справедливости и восприятия учащимися при оценке английского письма

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В данном исследовании разрабатывается трехуровневая система оценки и модель посредничества справедливости для оценки систем английского письма с помощью искусственного интеллекта. Используя 764 кросс-лингвистических выборки, результаты показывают различия в точности, предвзятость справедливости относительно неносителей языка (особенно уровень владения китайским языком A2) и восприятие справедливости как ключевого посредника удовлетворённости пользователей, что даёт теоретические и практические выводы.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В контексте глобальной образовательной цифровой трансформации автоматизированная оценка письма (AWE) широко принята благодаря своим преимуществам в реальном времени и стандартизированной работе; Однако традиционные рамки, ориентированные на точность, часто игнорируют вопросы равенства и восприятие учащихся, тем самым ограничивая прозрачность и образовательную ценность. Для устранения этого ограничения в исследовании предлагается объяснимая рамка ИИ (XAI), предназначенная для предоставления прозрачной и интерпретируемой обратной связи, позволяющей учащимся понимать и доверять автоматизированной оценке, а также интегрирует многоуровневую модель валидации — Трехуровневую рамочную систему оценки (TLEF), охватывающую техническую точность, групповое и индивидуальное равенство, а также восприятие учащихся, вместе с Моделью медиации справедливости ИИ (AFMM). Используя стратифицированную случайную выборку, данные были собраны у 764 многоязычных учащихся (носителей английского, китайского и испанского языков) на уровнях Common European Framework of Reference of Languages (CEFR) от A2 до C1 посредством письменных заданий, двойного оценивания экспертами ИИ и людей, а также структурированных анкет. Вместо перечисления отдельных тестов применялся несколько статистических анализов для изучения достоверности, справедливости и взаимосвязи между учеником и восприятием. Статистический анализ включал корреляцию, ошибку среднего квадрата (RMSE), тестирование уравнительных шансов и моделирование структурных уравнений (SEM). Результаты показывают, что хотя система оценки письма с помощью ИИ (AWE) (ETS Criterion) достигает общей достоверности (r = 0,82), значительные различия сохраняются: носители китайского языка демонстрируют наименьшее согласие с человеческими оценщиками (0,72) и самый высокий RMSE (медиана 2,15), искажения справедливости наиболее выражены на более низких уровнях владения (ΔEO = 0,15 для учащихся на уровне A2), а воспринимаемая справедливость полностью опосредует связь между воспринимаемой точностью и удовлетворённостью учащихся. с мастерством, модерирующим чувствительность к справедливости. Переосмысливая справедливость и восприятие как важнейшие аспекты объяснимости, исследование укрепляет теоретическую основу AWE и предоставляет практический путь для повышения прозрачности, равенства и социального принятия в образовательных технологиях.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Интенсивная глобализация образования и цифровых технологий повысила необходимость научной и достоверной оценки уровня письма на английском языке для преподавания языков, академического развития икарьерного роста 1. Традиционные оценки письма, как это практикуется человеческим рейтингом, могут измерять субъективные аспекты письма, такие как тщательность аргументации и культурнаяпригодность 2, но подвержены длительному сроку выполнения, высоким затратам на труд и предвзятости из-за опыта и склонностейоценщика 3,4. Эти ограничения о....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Этическое одобрение и процесс привлечения участников, включая администрирование эссе, двойную оценку от ETS Criterion и экспертов, оценку восприятия учащихся и статистический анализ, изложены в этом разделе. Он подчёркивает, как точность, справедливость и моделирование восприятия на основе SEM интегрированы в единый конвейер валидации XAI. Фреймворк оценки AWE, основанный на XAI, иллюстрирован на рисунке 1.

Процедура:

Процедура включала несколько этапов. Сначала было получено одобрение IRB, а также собрано информированное согласие от....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В разделе представлены результаты исследований на основе пяти аналитических измерений: дизайн экспериментов, характеристики участников, точность оценки, оценка справедливости и моделирование обучения и восприятия. Результаты включают статистическую эффективность, различия в группах, неравенство справедливости, а также медиацию и модерацию на основе SEM.

Экспериментальная установка

Ключевые программные этапы включали.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В исследовании рассматривалась система AWE по трёхуровневому подходу, охватывающей техническую точность, групповую и индивидуальную справедливость, а также восприятие учащихся, и было установлено, что общая валидность и систематические групповые различия одновременно присутствуют. Между рейтингами ИИ и экспертов наблюдались сильные корреляции (агрегированный r = 0,82), но различия наблюдались по подгруппам (родной r = 0,89 против неродного r = 0,76; Китайский r = 0,72; Таблица 6). Распре.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

У автора нет конфликта интересов, которые нужно раскрывать.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ни одного.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
<сильная>система хранения данныхЗашифрованные серверы с контролем доступа для хранения анонимизированных данных.Институциональные серверыХРАНИЛИЩЕ-002
<сильная>ETS Критериальная системаСистема оценки письменных заданий с помощью ИИ используется для оценки заданий.Служба образовательного тестирования (ETS)ETS-001
<Сильные>инструменты анализа справедливости и точностиИнструменты для RMSE, выравниваемых шансов и статистического анализа.Пользовательские скрипты/пакеты характеристикTOOL-FA-001
<Сильные>Оценки экспертовНезависимые оценки предоставлены тремя лингвистами с более чем 10-летним опытом.Внутренние оценщикиHR-EXP-003
<Сильный>Анкета восприятия учащихсяАнкета из 8 вопросов по справедливости и удовлетворённости, оцениваемая по 7-балльной шкале Лайкерта.Внутренняя разработкаQUES-008
Statistical Software (R 4.3.1)Используется для анализа данных, включая SEM (Структурное моделирование уравнений).Фонд RR-SW-431
<Сильные>стратифицированные случайные выборочные данныеДанные собраны от 764 многоязычных учащихся на уровнях CEFR A2–C1.Участники исследованияDATA-764
<сильные>задания по письмуТри стандартизированных темы эссе по глобализации, онлайн-образованию и этике ИИ.Платформа на базе MoodlePROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles