Research Article

英語ライティング評価における正確性、公平性、学習者の認識のための説明可能なAIフレームワーク

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は、AI支援英語表記体系を評価するための三層評価フレームワークと公平性調停モデルを開発します。764の言語間サンプルを用いて、結果は精度の差、非ネイティブ学習者(特に中国語A2能力レベル)に対する公平性バイアス、そして利用者満足度の主要な媒介として公平性認識があることを示し、理論的および実践的な示唆を示しています。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

グローバルな教育デジタルトランスフォーメーションの文脈において、自動ライティング評価(AWE)はリアルタイムかつ標準化された利点から広く採用されています。しかし、従来の正確性重視の枠組みは公平性や学習者の認識を軽視し、透明性や教育的価値を制限しています。この制約に対処するため、本研究は、学習者が自動評価を理解し信頼できるように透明かつ解釈可能なフィードバックを提供する説明可能なAI(XAI)フレームワークを提案し、技術的精度、集団および個人の公平性、学習者の認識を網羅する多層検証モデルである三層評価フレームワーク(TLEF)と、AI公平性調停モデル(AFMM)を統合しています。階層別ランダム抽出を用いて、英語、中国語、スペイン語のネイティブスピーカー764名から、欧州共通言語参照枠(CEFR)レベルA2からC1の対象から、作文課題、AIと人間の専門家による二重採点、構造化されたアンケートを通じてデータを収集しました。個々のテストをリストアップする代わりに、多重統計分析を用いて妥当性、公平性、学習者と知覚の関係を調べました。統計解析は相関、二乗平均平方根誤差(RMSE)、均等オッズ検定、構造方程式モデリング(SEM)を組み合わせたものです。研究結果は、AI支援ライティング評価(AWE)システム(ETS基準)が全体的な妥当性(r = 0.82)を達成する一方で、依然として大きな格差があることを示しています。中国語ネイティブスピーカーは人間の評価者との一致度が最も低く(0.72)、RMSEは最も高い(中央値2.15)、公平性バイアスは低習熟度レベルで最も顕著(A2学習者ではΔEO = 0.15)、そして知覚された公平性が認識された正確性と学習者満足度の関連を完全に媒介しています。 習熟度調整、公平性感度。公平性と認識を説明可能性の重要な側面として再構築することで、この研究はAWEの理論的基盤を強化し、教育技術における透明性、公平性、社会的受容を高めるための実践的な道筋を提供します。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

教育とデジタル技術の急速なグローバル化により、英語の文章レベルを科学的かつ信頼できる形で評価する必要性が高まり、語学教育、学術的発展、キャリアの発展に役立てる必要性が高まりました人間の評価による従来の執筆評価は、議論の徹底度や文化的適合性といった主観的な側面を測定できますが、長期の納期、高い労務費、評価者の経験や傾向による偏見に影響されやすいです。これらの制約は、国際語学テスト(IELTS、TOEFL)や、即時のフィードバックやカバー範囲の面で手動採点だけでは不十分な大学で教えられる英語の他のコースのように、大規模な実務で特に深刻です。

AWEシステムはリアルタイム処理、標準化、スケーラビリティにより、この文脈で広く使われています。Grammarly(文法の誤りやスタイルの洗練に焦点を当てた)やETS Criterion(正式なライティング規範に準拠)などの人気ツールは、現在K-12教育、語学学校、高等教育、個別訓練の何百万人もの生徒に利用されています。こ....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

倫理的承認および参加者募集プロセス(エッセイ管理、ETSクライテリオンおよび専門家による二重採点、学習者認識評価、統計分析など)がこのセクションでまとめられています。また、正確性、公平性、SEMベースの知覚モデリングが統合されたXAI検証パイプラインにどのように統合されているかを強調しています。XAI駆動のAWE評価フレームワークは 図1に示されています。

手順:

この手続きはいくつかのステップから成り立っています。まず、IRBの承認を得て、全参加者からインフォームドコンセントを取得しました。その後、独立変数、従属変数、制御変数が定義されました。Moodleでは3つの中立的なエッセイトピックを用いて標準化されたライティング課題が実施され、ワード数、時間制限、構成などのエッセイ要件を遵守しながら執筆サンプルが収集されました。ETS基準の出力と人間の専門家評価を組み合わせて、二重採点が実施されました。エッセイ提出直後に学習者知覚アンケートが配布されました。不正や無効な回答などの異常に対処するために、データスクリーニングや品質管理手順が導入されました。公平性分析の閾値(ΔEO、RMSEチェック)も適用されました。最後に、すべての匿名化されたデータは暗号化されたアクセス....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このセクションでは、実験デザイン、参加者特性、スコア精度、公平性評価、学習と知覚のモデリングという5つの分析的側面に基づいて研究結果を提示します。結果には統計的パフォーマンス、グループ差、公平性の格差、SEMに基づく調停と調整が含まれます。

実験装置

主要なソフトウェアステップは、APIを通じてETS Criterionを自動スコアリングする設定、人間の評価者の訓練、参照統計ソフトウェアでデフォルトの統計オプションでデータ分析を行い、標準SEMパッケージを用いたR 4.3.1での構造方程式モデリングを行うことが含まれていました。AWEフェアネス研究で使用される材料、ソフトウェアプラットフォーム、分析ツールは材料 に示されています。

サンプル選択と人口統計的特徴

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この研究は、技術的正確性、グループおよび個人の公平性、学習者の認識を含む三段階アプローチのもとでAWEシステムを探求し、全体的な妥当性と体系的なグループの違いが同時に存在することを明らかにしました。AIと専門家評価の間には強い相関があり(集計r = 0.82)、サブグループごとに差異が観察されました(ネイティブr = 0.89 vs. 非ネイティブr = 0.76;中国語 r = 0.72;表6)。RMSEの分布はまた、中国語学習者において誤差やばらつきが大きいことも示しました(図2)。これらの傾向は、構成的過小表現、そしてドメインシフトの可能性を示しています。すなわち、訓練で言語間特徴が軽重扱いされている場合、モデルは表層的な正確性(例:文法)を、談話レベルの特徴(例:内容、議論)よりも効果的に生成することを学習します29

公平性分析はこのイメージを強化します。均等化オッズは中国人学生間で大きな差を示しま.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者には開示すべき利益相反はありません。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Data Storage System暗号化されたアクセス制御サーバーで匿名化されたデータを保存します。機関サーバーストレージ-002
ETS基準システムAI支援によるライティング評価システムで、ライティング課題の採点に使用されます。教育試験サービス(ETS)ETS-001
Fairness and Accuracy AnalysisツールRMSE、均等オッズ、統計分析のためのツール。カスタムスクリプト/スタットパッケージツール-FA-001
Human Expert評価10年以上の経験を持つ3人の言語学者による独立した評価。社内評価者HR-EXP-003
<強力>学習者知覚質問票公平性と満足度に関する8項目のアンケートで、7ポイントリッカート尺度で評価されました。社内で開発ケス-008
Statistical Software (R 4.3.1)SEM(構造方程式モデリング)を含むデータ解析に使用されます。RファウンデーションR-SW-431
<強力>層化ランダムサンプリングデータCEFRレベルA2からC1までの764人の多言語学習者から収集されたデータ。研究参加者DATA-764
<強力>執筆課題のプロンプトグローバリゼーション、オンライン教育、AI倫理に関する3つの標準化されたエッセイトピック。Moodleベースのプラットフォームプロンプト-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles