Объяснимая AI-структура для точности, справедливости и восприятия учащимися при оценке английского письма

Meili Dai

doi:10.3791/69841

Research Article

Объяснимая AI-структура для точности, справедливости и восприятия учащимися при оценке английского письма

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В данном исследовании разрабатывается трехуровневая система оценки и модель посредничества справедливости для оценки систем английского письма с помощью искусственного интеллекта. Используя 764 кросс-лингвистических выборки, результаты показывают различия в точности, предвзятость справедливости относительно неносителей языка (особенно уровень владения китайским языком A2) и восприятие справедливости как ключевого посредника удовлетворённости пользователей, что даёт теоретические и практические выводы.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В контексте глобальной образовательной цифровой трансформации автоматизированная оценка письма (AWE) широко принята благодаря своим преимуществам в реальном времени и стандартизированной работе; Однако традиционные рамки, ориентированные на точность, часто игнорируют вопросы равенства и восприятие учащихся, тем самым ограничивая прозрачность и образовательную ценность. Для устранения этого ограничения в исследовании предлагается объяснимая рамка ИИ (XAI), предназначенная для предоставления прозрачной и интерпретируемой обратной связи, позволяющей учащимся понимать и доверять автоматизированной оценке, а также интегрирует многоуровневую модель валидации — Трехуровневую рамочную систему оценки (TLEF), охватывающую техническую точность, групповое и индивидуальное равенство, а также восприятие учащихся, вместе с Моделью медиации справедливости ИИ (AFMM). Используя стратифицированную случайную выборку, данные были собраны у 764 многоязычных учащихся (носителей английского, китайского и испанского языков) на уровнях Common European Framework of Reference of Languages (CEFR) от A2 до C1 посредством письменных заданий, двойного оценивания экспертами ИИ и людей, а также структурированных анкет. Вместо перечисления отдельных тестов применялся несколько статистических анализов для изучения достоверности, справедливости и взаимосвязи между учеником и восприятием. Статистический анализ включал корреляцию, ошибку среднего квадрата (RMSE), тестирование уравнительных шансов и моделирование структурных уравнений (SEM). Результаты показывают, что хотя система оценки письма с помощью ИИ (AWE) (ETS Criterion) достигает общей достоверности (r = 0,82), значительные различия сохраняются: носители китайского языка демонстрируют наименьшее согласие с человеческими оценщиками (0,72) и самый высокий RMSE (медиана 2,15), искажения справедливости наиболее выражены на более низких уровнях владения (ΔEO = 0,15 для учащихся на уровне A2), а воспринимаемая справедливость полностью опосредует связь между воспринимаемой точностью и удовлетворённостью учащихся. с мастерством, модерирующим чувствительность к справедливости. Переосмысливая справедливость и восприятие как важнейшие аспекты объяснимости, исследование укрепляет теоретическую основу AWE и предоставляет практический путь для повышения прозрачности, равенства и социального принятия в образовательных технологиях.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Интенсивная глобализация образования и цифровых технологий повысила необходимость научной и достоверной оценки уровня письма на английском языке для преподавания языков, академического развития и^{карьерного роста 1}. Традиционные оценки письма, как это практикуется человеческим рейтингом, могут измерять субъективные аспекты письма, такие как тщательность аргументации и культурная^{пригодность 2}, но подвержены длительному сроку выполнения, высоким затратам на труд и предвзятости из-за опыта и склонностей^{оценщика} ^3,4. Эти ограничения особенно остро проявляются в масштабных практиках, таких как международные языковые тесты (IELTS, TOEFL) или другие курсы английского языка, преподаваемые в университетах, где ручная оценка не может быть единственным, что требуется в плане мгновенной обратной связи и охват⁵.

AWE-системы получили широкое распространение в этом контексте благодаря своей обработке в реальном времени, стандартизации и^{масштабируемости 6}. Такие популярные инструменты, как Grammarly (ориентированный на грамматические ошибки и доработку стиля) и ETS Criterion (который соответствует формальным нормам письма), в настоящее время используются миллионами учеников в K-12, языковых школах, высшем образовании и индивидуальной^{подготовке 7}. Хотя это и есть преимущества, технологическая эффективность и применимость систем AWE в обучении всё ещё вызывают^{споры 8}. Технически существующие системы обладают высокой точностью по объективным параметрам, включая обнаружение ошибок и лексическое разнообразие, при этом корреляция с человеческим баллом может превышать 0,85⁹. Однако в более субъективных областях, таких как релевантность содержания, логическая аргументация и организация текста, корреляции часто становятся ниже 0,70¹⁰. Такая непропорциональность несёт риск способствовать поверхностной точности среди учащихся в ущерб общей компетентности в написании¹¹.

Вопрос равенства также ограничивает образовательную полезность AWE. Текущие исследования также склонны сосредотачиваться на агрегированных показателях точности, игнорируя возможность отклонений, которые систематически ставят в невыгодное положение некоторую^{группу 12}. Показательно, характеристики межязыков, общих для изучающих китайский или испанский язык, будут ошибочно восприниматься за ошибки, что приведёт к систематической^{недооценке} ^13,14. Кроме того, субъективное принятие обратной связи ИИ учащимися, как правило, мало известно¹⁵. Опросы показывают, что почти треть неносителей учащихся сообщают о несоответствии между результатами ИИ и реальной успеваемостью, при этом процессы технической точности, группового равенства и удовлетворённости учащихся всё ещё плохо^{понимаются 16}.

Эти слабости отражают недостатки классической парадигмы^{точности 17}. Рамка, учитывающая только соответствие ИИ и человеческого оценивания, не может отражать вопросы равенства или доверия учащихся к системе. На практике образовательная ценность AWE должна одновременно соответствовать трём условиям: технической точности, справедливости между группами и принятию^{учащихся 18}. Отсутствие такого комплексного подхода к валидации помогает объяснить, почему системы AWE пользуются широким распространением, но ограниченным доверием к образовательной^{практике 19,20}.

Для решения этой проблемы настоящая работа вводит многоуровневую систему валидации, которая объединяет техническую точность, групповую и индивидуальную справедливость, а также восприятие учащимися в единую структуру. Предлагаемая структура XAI разработана для практической реализации в существующих платформах AWE, предоставляя учителям и учащимся диагностику справедливости и прозрачные объяснения результатов, а также может применяться на курсах письма или подготовке к тестам для оценки способности повысить справедливость, интерпретируемость и практическую полезность в реальных условиях оценивания.

В этом контексте гипотеза является AFMM для изучения посреднической роли воспринимаемой справедливости в определении связи между точностью и удовлетворённостью, а также сдерживающей роли языкового владения чувствительностью к справедливости. Таким образом, он вносит вклад двумя способами: теоретически обогащая модели оценки AWE, описывая справедливость как одно из ключевых измерений валидации наряду с точностью и восприятием, а на практике — предоставляя разработчикам стратегии максимизации справедливости, педагогам — группово-чувствительные критерии выбора, а также образовательную ценность AWE, объясняя способ формирования восприятия учащихся. Помимо образования, структура также соответствует более широкой концепции XAI, демонстрируя, как справедливость и восприятие пользователями могут повысить прозрачность, доверие и принятие в других сферах, таких как здравоохранение, автономные системы и кибербезопасность.

Вопросы по исследованиям:

1.To какой степени система AWE демонстрирует техническую точность и справедливость среди различных групп носителей родного языка и уровня владения?

2. Как многоуровневая система оценки на базе XAI может повысить прозрачность и равенство в автоматизированной оценке английского письма?

ОБЗОР ЛИТЕРАТУРЫ:

Факторы, влияющие на принятие обратной связи по AWE студентами колледжей, были изучены с помощью расширенной модели принятия технологий (TAM)²¹. На основе данных опроса 448 китайских студентов, использующих SEM, было установлено, что полезность, простота использования и намерение существенно влияют на субъективные нормы, доверие, самоэффективность, когнитивную обратную связь и характеристики системы. Однако исследование ограничивалось одной страной и одной группой студентов, что ограничивает применимость обобщения. Чтобы изучить, как китайские студенты по английскому языку реагируют на обратную связь Pigai^{AWE 22}, было проведено исследование многократных подач заявок (n = 5) от студентов университета. В нём отмечалось раннее внимание к коррекции ошибок, низкое количество лингвистической обратной связи и постепенное углубление реакции. Однако размер выборки был очень ограничен, как и система AWE, которая ограничивает применимость и обобщаемость. Были изучены убеждения учителей английского языка относительно применения инструмента оценки ИИ (CoGrader), чтобы выявить факторы, влияющие на их^{взгляды 23}. В ходе смешанного исследования 10 саудовских университетских преподавателей опрос и интервью показали смешанное положительное мнение, но нежелание полностью убедиться в надёжности и полной замене преподавателей. Это затрудняет обобщение из-за ограниченной выборки и положения одной страны.

Учитывая развитие корпусной лингвистики и технологий ИИ, исследование изучало рамки^{AES 24}. Было использовано PCA для улучшения лингвистических индикаторов оценки качества письма и было обнаружено, что сочетание микрохарактеристик с агрегированными характеристиками определяет качество письма эффективнее, чем само агрегированные характеристики. Нелинейный подход AES, основанный на регрессии случайных лесов, превзошел остальные подходы. Кроме того, SHAP выявлял ключевые языковые элементы для каждого оцениваемого атрибута, повышая прозрачность системы с помощью объяснимого ИИ. Результаты могут помочь улучшить многогранные методы в письменной оценке и обучении. Система сотрудничества человек-машина была введена для решения задач аннотирования арабских текстов, которые часто бывают дорогими и занимают много времени. Метод рассматривает эссе, основанные на семи особенностях литературы, с помощью LLM. Процессы валидации и тактики подсказок были персонализированы для обеспечения последовательности и точности. Сотрудничество приводит к увеличению количества маркированных ресурсов и не влияет на качество оценки, демонстрируя, что это масштабируемый метод аннотации данных, подходящий для языков с меньшими ресурсами.

Использование ИИ в образовательной сфере даёт возможность значительно снизить требования к оценке и повысить уровень письменного образования^{на 25,26}. В то же время исследователи подчёркивают, что точность ИИ — не единственный аспект, важный для его ответственного использования. Существуют принципы справедливости и снижения предвзятости, безопасности и конфиденциальности, подотчётности, объяснимости, прозрачности, образовательного эффекта, честности и постоянного развития. Недавние исследования эмпирически оценивают нулевой балл на основе GPT-4o с акцентом на эти требования. Исследование было сосредоточено на восприятии педагогов относительно ADWT относительно аспекта образовательной^{честности 27}. Поперечное исследование с участием 100 аспирантов и преподавателей по 10 предметам показывает, что, несмотря на то, что преподаватели приписывают пользу ADWT для достижения образовательных целей, оно имеет некоторые ограничения, такие как ограниченная доступность, недостаток знаний и беспокойство о влиянии на честность и креативность. Исследование показало, что по мере интеграции технологий ИИ в образование для их успешного и ответственного использования необходимы этические вопросы и участие заинтересованных сторон. Исследования изучали эффективность технологий ИИ по сравнению с человеческими оценщиками при оценке эссе, поданных учениками^{EFL 28}. Оценка 30 эссе показала, что, хотя ИИ предлагал качественные комментарии по содержанию, языку, организации и корректности, он постоянно ставил более низкие оценки, чем у людей. Кроме того, ИИ предоставил более подробную обратную связь, но оценки различных инструментов ИИ не отличались существенно.

Разрыв в исследованиях:

В настоящее время большинство исследований по стипендиям AWE оценивают либо точность, либо признание пользователями. Очень немногие исследуют, не вредит ли различия в оценке системно группам носителей языка или владения языком. Хотя предыдущие исследования изучали принятие пользователями или ограничивались конкретной системой AWE из конкретной страны и размером выборки, возникают вопросы о обобщённости. Хотя и SHAP, и PCA являются стратегиями XAI и были разработаны для повышения прозрачности, ни одно исследование не изучало механизмы справедливости или то, как учащиеся используют обратную связь ИИ из AWE. В литературе нет обширных рамок, учитывающих определённые измерения точности, анализа справедливости и восприятия учащихся. Не существует объяснённой модели оценки, учитывающей точность, справедливость и восприятие учащихся внутри и между оценщиками. В этом исследовании предлагаются и подтверждаются объяснимая структура — TLEF и объединённая модель AFMM, чтобы одновременно оценить точность, справедливость и восприятие учащихся среди многоязычных и разнообразных обучающихся.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Этическое одобрение и процесс привлечения участников, включая администрирование эссе, двойную оценку от ETS Criterion и экспертов, оценку восприятия учащихся и статистический анализ, изложены в этом разделе. Он подчёркивает, как точность, справедливость и моделирование восприятия на основе SEM интегрированы в единый конвейер валидации XAI. Фреймворк оценки AWE, основанный на XAI, иллюстрирован на рисунке 1.

Процедура:

Процедура включала несколько этапов. Сначала было получено одобрение IRB, а также собрано информированное согласие от всех участников. Затем были определены независимые, зависимые и управляющие переменные. Стандартизированные письменные задания выполнялись в Moodle с использованием трёх нейтральных тем эссе, а образцы сочинений собирались с соблюдением требований к эссе, таким как количество слов, ограничение времени и структура. Двойная оценка проводилась с использованием результатов ETS Criterion в сочетании с экспертными оценками человека. Анкеты восприятия учащихся распространялись сразу после отправки эссе. Были внедрены процедуры скрининга данных и контроля качества для устранения аномалий, таких как мошенничество или некорректные ответы. Также применялись пороги анализа справедливости (проверки ΔEO, RMSE). Наконец, все анонимизированные данные хранились надёжно на зашифрованных, контролируемых доступом серверах.

Этическое одобрение и информированное согласие

Это исследование получило этическое одобрение от Институционального обзорного совета учреждения авторов. Все процедуры проводились в соответствии с Хельсинкской декларацией и применимыми нормативными актами. Все участники были взрослыми (≥18 лет) и предоставили письменное информированное согласие перед участием. Письменные образцы и ответы на анкеты были деидентификацированы в источнике и хранятся на зашифрованных, контролируемых доступом серверах; доступ имели только уполномоченные следователи. Оценщики были ослеплены на родном языке участников, их уровне владения и демографических данных. Участие было добровольным, с правом отказаться в любое время, и не было никаких обманов или деликатных вмешательств. Официальные документы одобрения могут быть предоставлены журналу по запросу.

Переменная конструкция

В исследовании было определено всего три группы переменных для проведения анализа. Таблица 1 суммирует типы измерений и данных, используемые в методах измерения для каждой конструкции, и приводят полные операционные определения независимых, зависимых и управляющих переменных.

Точность оценки ИИ стала первой независимой переменной, оценённой с точки зрения коэффициента корреляции RMSE и Пирсона (r) между результатами ETS Criterion и оценками экспертов. Калибровка, проведённая экспертами, дала ICC 0,91, подтверждая надёжность.

Второй независимой переменной был языковой фон учащихся, который делился на носителей и не носителей, а также на китайский, испанский, арабский и другие группы. Китайские студенты были одной из целевых групп, поскольку были выявлены предварительные признаки систематического недооценки.

Третьей независимой переменной был уровень владения письмом, который оценивался по уровням CEFR от A2 до C1, подтверждённым официальными сертификатами и тестами на подготовку до класса, а также соответствовал эквивалентам IELTS. Другим модератором, введённым в Модель медиации справедливости ИИ, было написание навыков для проверки, различается ли чувствительность к справедливости в зависимости от уровня владения.

Восприятие справедливости и удовлетворённость учащихся были зависимыми переменными. Восприятие справедливости оценивалось с помощью анкеты из восьми вопросов, оценённой по семибалльной шкале Ликерта, включающей индивидуальную последовательность и беспристрастность группы (Кронбахс 87; CVI 92). Удовлетворённость учащихся оценивалась с помощью шести вопросов Ликерта, которые указывали на готовность использовать и ощущается улучшение навыков (α = 0,85).

Переменные учитывались в плане возраста, пола и опыта письма. Возраст делился на три группы (18-22 года, 23-28 лет и ≥29 лет), а пол был классифицирован на мужского и женского возраста. Опыт написания был разделён на три уровня частоты в год.

Написание текстов заданий

Стандартизированные задания для аргументативного эссе были разработаны для получения письменных данных по трём нейтральным темам: влияние глобализации на местные культуры, преимущества и вызовы онлайн-образования и этические границы искусственного интеллекта. Эти темы были направлены на баланс между когнитивными трудностями и доступностью с одной стороны, а с другой — на уменьшение различий в результатах, вызванных предыдущими знаниями. Распределение тем и описательная статистика по длине эссе приведены в Таблице 2.

Каждое эссе должно было содержать 250 слов ±10% и быть написано в течение 45 минут на платформе Moodle. Вспомогательные инструменты были запрещены, а поздние сдачи исключались. Эссе следовали стандартизированной структуре: введение, два абзаца аргументов и заключение. Всего было собрано 764 действительных эссе со средней длиной 252,3 слова (SD = 8,7).

Данные сравнения оценок

Точность оценки AWE оценивалась с помощью двойной процедуры, объединяющей результаты ETS Criterion с оценками экспертов на людях. Оценки были получены из Criterion через его открытый API. Три лингвиста с более чем десятилетним опытом оценки самостоятельно оценивали все эссе. Перед официальным подсчётом оценок оценщики прошли три сессии калибровки. Во время калибровки надёжность между оценщиками достигла ICC = 0,87; во время формального подсчёта ICC вырос до 0,91, при этом размерно-специфичные ICC выше 0,88. Эссе с разницей в баллах более двух баллов были решены коллективно (18 случаев). Рабочий процесс оценки и результаты надёжности изложены в таблице 3.

Анкета восприятия учащихся

Восприятие обратной связи ИИ учащимися было отражено в анкете из 22 пунктов, основанной на TAM, и расширено с включением справедливости. Инструмент включал три области: восприятие справедливости (8 пунктов), удовлетворённость (6 пунктов) и модерирующие факторы, такие как понятность и прозрачность (8 пунктов). Валидация пятью экспертами дала CVI 0,92, а пилотное тестирование с 60 учащимися показало общую надёжность α = 0,90. Структура анкеты и психометрические индексы приведены в Таблице 4.

Анкеты в основном исследовании проводились сразу после сдачи эссе, и требовалось минимальное время завершения, чтобы снизить необдуманное завершение. Из 764 опубликованных опросов 756 были действительны после проверки качества, и в результате был достигнут эффективный показатель 98,95.

Сбор данных и контроль качества

Данные фиксировались в течение 8 недель (март–апрель 2024 года) в четыре этапа: набор и согласие; написание эссе; двойное оценивание и распределение анкет; и составление базы данных. Сертификаты компетентности, основанные на результатах написания перед занятием, были проверены с помощью двойного отбора, в результате чего было исключено 16 участников. Четыре возможных случая мошенничества были исключены с помощью мониторинга в реальном времени, а три подозрительных результата ИИ (отклонения не менее 8 баллов) были впоследствии исправлены после ручной оценки. Восемь недействительных анкет были исключены на основе проверок согласованности с обратными пунктами.

Хранение данных и этика

Все данные были анонимизированы и хранятся с использованием уникальных идентификаторов, включающих родной язык, уровень владения и серийный номер. Тексты, оценки и анкеты шифровались и хранились на серверах, соответствующих требованиям ISO27001, с ограниченным доступом. Данные будут храниться в течение 3 лет до окончательного удаления. Было получено этическое одобрение от институционального контрольного совета, а письменное информированное согласие было собрано от всех участников.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В разделе представлены результаты исследований на основе пяти аналитических измерений: дизайн экспериментов, характеристики участников, точность оценки, оценка справедливости и моделирование обучения и восприятия. Результаты включают статистическую эффективность, различия в группах, неравенство справедливости, а также медиацию и модерацию на основе SEM.

Экспериментальная установка

Ключевые программные этапы включали настройку ETS Criterion через его...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В исследовании рассматривалась система AWE по трёхуровневому подходу, охватывающей техническую точность, групповую и индивидуальную справедливость, а также восприятие учащихся, и было установлено, что общая валидность и систематические групповые различия одновременно присутствуют. Между рейтингами ИИ и экспертов наблюдались сильные корреляции (агрегированный r = 0,82), но различия наблюдались по подгруппам (родной r = 0,89 против неродного r = 0,76; Китайский r = 0,72; Таблица 6). Распре...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

У автора нет конфликта интересов, которые нужно раскрывать.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ни одного.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
<сильная>система хранения данных	Зашифрованные серверы с контролем доступа для хранения анонимизированных данных.	Институциональные серверы	ХРАНИЛИЩЕ-002
<сильная>ETS Критериальная система	Система оценки письменных заданий с помощью ИИ используется для оценки заданий.	Служба образовательного тестирования (ETS)	ETS-001
<Сильные>инструменты анализа справедливости и точности	Инструменты для RMSE, выравниваемых шансов и статистического анализа.	Пользовательские скрипты/пакеты характеристик	TOOL-FA-001
<Сильные>Оценки экспертов	Независимые оценки предоставлены тремя лингвистами с более чем 10-летним опытом.	Внутренние оценщики	HR-EXP-003
<Сильный>Анкета восприятия учащихся	Анкета из 8 вопросов по справедливости и удовлетворённости, оцениваемая по 7-балльной шкале Лайкерта.	Внутренняя разработка	QUES-008
Statistical Software (R 4.3.1)	Используется для анализа данных, включая SEM (Структурное моделирование уравнений).	Фонд R	R-SW-431
<Сильные>стратифицированные случайные выборочные данные	Данные собраны от 764 многоязычных учащихся на уровнях CEFR A2–C1.	Участники исследования	DATA-764
<сильные>задания по письму	Три стандартизированных темы эссе по глобализации, онлайн-образованию и этике ИИ.	Платформа на базе Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Объяснимая AI-структура для точности, справедливости и восприятия учащимися при оценке английского письма

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles