英語ライティング評価における正確性、公平性、学習者の認識のための説明可能なAIフレームワーク

Meili Dai

doi:10.3791/69841

Research Article

英語ライティング評価における正確性、公平性、学習者の認識のための説明可能なAIフレームワーク

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は、AI支援英語表記体系を評価するための三層評価フレームワークと公平性調停モデルを開発します。764の言語間サンプルを用いて、結果は精度の差、非ネイティブ学習者(特に中国語A2能力レベル)に対する公平性バイアス、そして利用者満足度の主要な媒介として公平性認識があることを示し、理論的および実践的な示唆を示しています。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

グローバルな教育デジタルトランスフォーメーションの文脈において、自動ライティング評価(AWE)はリアルタイムかつ標準化された利点から広く採用されています。しかし、従来の正確性重視の枠組みは公平性や学習者の認識を軽視し、透明性や教育的価値を制限しています。この制約に対処するため、本研究は、学習者が自動評価を理解し信頼できるように透明かつ解釈可能なフィードバックを提供する説明可能なAI(XAI)フレームワークを提案し、技術的精度、集団および個人の公平性、学習者の認識を網羅する多層検証モデルである三層評価フレームワーク(TLEF)と、AI公平性調停モデル(AFMM)を統合しています。階層別ランダム抽出を用いて、英語、中国語、スペイン語のネイティブスピーカー764名から、欧州共通言語参照枠(CEFR)レベルA2からC1の対象から、作文課題、AIと人間の専門家による二重採点、構造化されたアンケートを通じてデータを収集しました。個々のテストをリストアップする代わりに、多重統計分析を用いて妥当性、公平性、学習者と知覚の関係を調べました。統計解析は相関、二乗平均平方根誤差(RMSE)、均等オッズ検定、構造方程式モデリング(SEM)を組み合わせたものです。研究結果は、AI支援ライティング評価(AWE)システム(ETS基準)が全体的な妥当性(r = 0.82)を達成する一方で、依然として大きな格差があることを示しています。中国語ネイティブスピーカーは人間の評価者との一致度が最も低く(0.72)、RMSEは最も高い(中央値2.15)、公平性バイアスは低習熟度レベルで最も顕著(A2学習者ではΔEO = 0.15)、そして知覚された公平性が認識された正確性と学習者満足度の関連を完全に媒介しています。習熟度調整、公平性感度。公平性と認識を説明可能性の重要な側面として再構築することで、この研究はAWEの理論的基盤を強化し、教育技術における透明性、公平性、社会的受容を高めるための実践的な道筋を提供します。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

教育とデジタル技術の急速なグローバル化により、英語の文章レベルを科学的かつ信頼できる形で評価する必要性が高まり、語学教育、学術的発展、キャリアの発展に役立てる必要性が高まりました^。人間の評価による従来の執筆評価は、議論の徹底度や^{文化的適合}性といった主観的な側面を測定できますが、長期の納期、高い労務費、評価者の経験や傾向による偏見に影響されやすい^です。これらの制約は、国際語学テスト(IELTS、TOEFL)や、即時のフィードバックやカバー範囲の面で手動採点だけでは不十分な大学で教えられる英語の他のコースのように、大規模な実務で特に深刻^です。

AWEシステムはリアルタイム処理、標準化、スケー^{ラビリティ}により、この文脈で広く使われています。Grammarly(文法の誤りやスタイルの洗練に焦点を当てた)やETS Criterion(正式なライティング規範に準拠)などの人気ツールは、現在K-12教育、語学学校、高等教育、^{個別訓練の}何百万人もの生徒に利用されています。これらは利点であるものの、AWEシステムの技術的効率性や教育の適用性については依然^{として議論があります}。技術的には、既存のシステムは誤り検出や語彙多様性を含む客観的な次元において非常に高精度であり、人間のスコアリングとの相関が0.85⁹を超えることがあります。しかし、内容の関連性、論理的議論、テキストの構成など、より主観的な領域では、相関がしばしば0.70未満になること^がある。このような不均衡は、学習者の表面的な正確さを促進し、その代償^{として全体的な執}筆能力を損なう危険性があります。

公平性の問題は、AWEの教育的有用性を制限する要因でもあります。現在の研究はまた、正確な総合指標に焦点を当てる傾向があり、一部のグループ¹²に体系的に不利な逸脱の可能性を無視しています。例えば、中国語やスペイン語の学習者が共有する言語間の特徴は誤りと誤解され、体系的に過小評価される結果となります^13,14。さらに、学習者がAIフィードバックを主観的に受け入れるかどうかは^{一般的にあまり知}られていません。調査によると、非ネイティブ学習者の約3分の1がAIスコアと実際のパフォーマンスの間に不適切な対応を感じており、技術的正確性、集団公平性、学習者満足度のプロセスはまだ十分に理解^{されていません。}

これらの弱点は^{、古典的な}精度パラダイムの欠点を反映しています。AIと人間の採点の整合性のみを考慮する枠組みでは、公平性や学習者のシステムへの信頼の問題を捉えきれません。実際には、AWEの教育的価値は技術的正確さ、グループ間の公平性、学習者の受け入れという3つの条件を同時に満たさ^{なければなりません。}このような包括的な検証アプローチが欠如していることは、AWEシステムが広く採用されている一方で教育実践における信頼が限定的である理由を説明しています^19,20。

この課題に対応するため、本研究では技術的正確性、グループおよび個人の公平性、学習者の認識を統合した多層検証フレームワークを導入します。提案されているXAIフレームワークは、既存のAWEプラットフォーム内で実用的に実装できるよう設計されており、教師と生徒に公平性診断と透明性のあるスコア説明を提供し、ライティングコースや試験対策クラスで公平性、解釈可能性、指導的有用性を高める能力を評価するために応用可能です。

この文脈において、本仮説はAFMMとして、知覚された公平性が正確性と満足度の関係を決定する際にどのような媒介的役割を果たすか、また言語能力が公平感度に与える調整的な役割を調査することを目的としています。したがって、理論的には、正確性や認識と並んで公平性を主要な検証次元の一つとして説明し、評価モデルを豊かにするという理論的には、開発者に公平性を最大化する戦略を提供し、教育者にグループ感応的なシステム選択基準を提供し、学習者の認識がどのように形成されるかを説明することでAWEの教育的価値を活かすという二つの側面で貢献しています。教育に加え、このフレームワークはXAIというより広い概念とも整合しており、公平性とユーザーの認識が医療、自律システム、サイバーセキュリティなど他の分野で透明性、信頼、受容を高めることを示しています。

調査に関する質問:

1.To AWEシステムは、異なる母語・習熟度グループ間でどの程度技術的正確さと公平性を示しているのでしょうか?

2. XAIベースの多層評価フレームワークは、自動化された英語作文評価における透明性と公平性をどのように向上させることができるのか?

文献レビュー:

AWEフィードバックの受容に影響を与える要因は、拡張技術受容モデル(^TAM)を用いて調査されました。SEMを使用した448人の中国人学生の調査データに基づき、有用性、使いやすさ、意図が主観的規範、信頼、自己効力感、認知的フィードバック、システム特性に有意な影響を与えることが判明しました。しかし、この研究は単一の国と単一の学生グループに限定されていたため、一般化の適用性は制限されています。中国のEFL学生がPigai AWEフィードバックにどのように反応するかを探^{るために、大}学生からの繰り返し提出(n=5)を分析した研究が行われました。誤り訂正の早期重視、言語的フィードバックの少なさ、応答の徐々の深化が指摘されました。しかし、サンプル数は非常に限られており、適用可能性や一般化を制限するAWEシステムも同様でした。英語学習教師がAI採点ツール(CoGrader)の適用に関して持つ信念を調査し、彼らの見解に影響を与える要因を特定しました²³。サウジアラビアの大学教員10名を対象とした混合方法調査とインタビューの結果、肯定的な意見は混在しているものの、信頼性や完全な教員交代を完全に確信することへの消極性が示されました。これはサンプル数が限られ、一国限定であるため、一般化を妨げています。

コーパス言語学とAI技術の発展を考慮し、AESフレームワーク²⁴を調査した研究が行われました。この研究はPCAを用いて文章の質を評価する言語指標を改善し、マイクロ特性と集約特性を組み合わせることが、集約特性単独よりも文章の質をより効果的に定義することを発見しました。ランダムフォレスト回帰に基づく非線形AESアプローチは他の手法を上回りました。さらに、SHAPは評価された各属性の重要な言語要素を特定し、説明可能なAIを通じてシステムの透明性を高めました。その結果は、分析や教育における多次元的な手法の向上に役立つ可能性があります。ヒューマンマシンコラボレーションシステムは、アラビア語の書き込みに注釈を付ける際の課題に対応するために導入されました。注釈はしばしば高価で時間がかかるものです。この方法は、LLMの助けを借りて文学の7つの特徴に基づくエッセイを考察します。検証プロセスやプロンプトの手法は、一貫性と正確性を確保するためにパーソナライズされました。この協力により、ラベル付きリソースの供給量が増加し、評価の質に影響が出ず、資源の少ない言語に適したスケーラブルなデータ注釈手法であることが示されています。

教育分野でAIを活用することで、採点要件を大幅に削減し、ライティング教育を向上させる可能性があります^25,26。同時に、研究者たちはAIの正確さだけが責任ある使用の重要な側面ではないことを強調しています。公平性と偏見の削減、セキュリティとプライバシー、説明責任、説明可能性、透明性、教育効果、誠実さ、継続的発展の原則があります。最近の研究では、これらの要件に焦点を当てたGPT-4oに基づくゼロショットスコアリングが実証的に評価されています。研究は、教育者がADWTに対して抱く教育の誠実性に関する認識^{に焦点を当てました。}10科目の大学院生と教授100名を対象とした横断的研究は、教師たちがADWTの教育目標達成に利点があると認めているものの、アクセスの制限、知識不足、誠実さや創造性への影響への懸念など、いくつかの制約があることを示唆しています。研究は、AI技術が教育にますます統合されるにつれて、倫理的な懸念とステークホルダーの参加が成功かつ責任ある使用のために必要であることを示唆しています。研究では、EFL学生が提出したエッセイを評価する際、AI技術の有効性を人間評価者と比較して調査^{しました。}30件のエッセイを評価したところ、AIは内容、言語、構成、正確性の面で高品質なコメントを提供したものの、人間の評価者よりも常に低い評価を得ていることがわかりました。さらに、AIはより詳細なフィードバックを提供しましたが、さまざまなAIツールからのスコアは大きく変わりませんでした。

研究のギャップ:

現在、AWE奨学金に関する研究の多くは、正確さか利用者の受容度のいずれかを調査しています。得点差が母語や習熟度のグループに体系的に不利になるかどうかを調査する研究はごくわずかです。これまでの研究はユーザーの受容度を調査したり、特定の国やサンプルサイズのAWEシステムに限定されたりしていますが、一般化可能性に関する疑問が生じます。SHAPもPCAもXAI戦略であり、透明性を高めるために開発されましたが、公平性のメカニズムや学習者がAWEからのAIフィードバックをどのように活用するかを検証した研究はありません。文献には、正確性、公平性分析、学習者の認識の定義された次元を考慮した広範な枠組みは存在しません。評価者内および評価者間の正確性、公平性、学習者の認識を考慮した説明可能な評価モデルの例は存在しません。説明可能なフレームワークであるTLEFと、複合モデルであるAFMMが、多言語および習熟度の多様な学習者の間で、精度、公平性、学習者の認識を同時に評価するために提案・検証されています。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

倫理的承認および参加者募集プロセス(エッセイ管理、ETSクライテリオンおよび専門家による二重採点、学習者認識評価、統計分析など)がこのセクションでまとめられています。また、正確性、公平性、SEMベースの知覚モデリングが統合されたXAI検証パイプラインにどのように統合されているかを強調しています。XAI駆動のAWE評価フレームワークは図1に示されています。

手順:

この手続きはいくつかのステップから成り立っています。まず、IRBの承認を得て、全参加者からインフォームドコンセントを取得しました。その後、独立変数、従属変数、制御変数が定義されました。Moodleでは3つの中立的なエッセイトピックを用いて標準化されたライティング課題が実施され、ワード数、時間制限、構成などのエッセイ要件を遵守しながら執筆サンプルが収集されました。ETS基準の出力と人間の専門家評価を組み合わせて、二重採点が実施されました。エッセイ提出直後に学習者知覚アンケートが配布されました。不正や無効な回答などの異常に対処するために、データスクリーニングや品質管理手順が導入されました。公平性分析の閾値(ΔEO、RMSEチェック)も適用されました。最後に、すべての匿名化されたデータは暗号化されたアクセス制御サーバーに安全に保存されました。

倫理的承認とインフォームドコンセント

本研究は著者の所属機関の倫理審査委員会から倫理承認を受けています。すべての手続きはヘルシンキ宣言および適用される規則に従って実施されました。参加者全員が成人(≥18歳)であり、参加前に書面によるインフォームドコンセントを提供しました。筆記サンプルやアンケート回答は送信元で匿名化され、暗号化されたアクセス制御サーバーに保存されました。許可された調査員だけがアクセスできた。人間の評価者は参加者の母語、習熟度、人口統計を無視されました。参加は任意で、いつでも辞退する権利があり、欺瞞や繊細な介入は一切含まれていませんでした。正式な承認書類は、要請があればジャーナルに提出可能です。

可変設計

分析の指針として、研究では合計3つの変数グループが定義されました。 表1は 各構成要素の測定手法で使用される測定およびデータ型を要約し、独立変数、従属変数、制御変数の完全な運用定義を示しています。

AIスコアの精度は、ETS基準の出力と専門家の評価との間にRMSEおよびピアソン相関係数(r)を用いて初めて評価された独立変数でした。専門家による校正によりICCは0.91となり、信頼性が検証されました。

第二の独立変数は学習者の言語的背景であり、母語話者と非母語話者に分けられ、さらに中国語、スペイン語、アラビア語、その他のグループに細分化されました。中国人学生は、体系的な過小評価の予備的な兆候が観察されたため、対象集団の一つでした。

3つ目の独立変数はライティング能力で、CEFRのA2からC1レベルに基づいて評価され、公式証明書や授業前の習得能力テストで確認され、IELTSの同等性とも一致していました。AI公平性調停モデルで導入されたもう一つのモデレーターは、熟練度レベルによって公平性への感受性が異なるかどうかを検証するための文章作成能力を行っていました。

公平性の認識と学習者の満足度が従属変数でした。公平性の認識は、個人の整合性とグループの公平性を含む7点リッカート尺度で評価された8項目のアンケートによって評価されました(Cronbachs 87;CVI 92)。学習者の満足度は、使用意欲とスキル向上の認識を示す6つのリッカート質問を用いて評価されました(α = 0.85)。

年齢、性別、執筆経験などの変数は管理されていました。年齢は3つのグループ(18-22歳、23-28歳、≥29歳)に分けられ、性別は男性と女性に分類されました。執筆経験は年間で3つの頻度レベルに分類されていました。

課題テキストの執筆

標準化された論証エッセイの課題が作成され、グローバリゼーションが地域文化に与える影響、オンライン教育の利点と課題、人工知能の倫理的境界という3つの中立的なテーマの執筆データを得ました。これらのテーマは、認知の難易度とアクセシビリティのバランスを取ること、そして他方で既知によるパフォーマンスの差を縮小することを目的としていました。トピックの分布とエッセイの長さに関する記述的統計は表2に報告されています。

各エッセイは250語±10%)で、Moodleベースのプラットフォーム上で45分以内に書くことが求められました。補助的なツールの使用は禁止され、遅延提出は除外されました。エッセイは、導入部、2つの議論段落、結論という標準化された構成に従っていました。合計で764件の有効なエッセイが収集され、平均語数は252.3語(SD = 8.7)でした。

スコア比較データの得点

AWEスコアの正確性は、ETS基準の出力と人間の専門家評価を組み合わせた二重手法で評価されました。スコアはCriterionのオープンAPIを通じて取得されました。10年以上の評価経験を持つ3人の言語学者が独立してすべてのエッセイを採点しました。正式な採点前に、評価者は3回の校正セッションを行いました。校正時、評価者間信頼性はICC = 0.87に達しました。正式なスコアリングではICCが0.91に上昇し、次元特有のICCは0.88を超えました。スコアの差が2点を超えるエッセイは、合計で解決されました(18件)。スコアリングのワークフローと信頼性の結果は表3にまとめられています。

学習者知覚アンケート

学習者のAIフィードバックに対する認識は、TAMに基づく22項目のアンケートを通じて収集され、公平性も含めて拡張されました。このツールは、公平性認識(8項目)、満足度(6項目)、そして理解可能性や透明性などの調整要素(8項目)の3つの領域を含んでいました。5人の専門家による検証ではCVIは0.92となり、60人の学習者を対象としたパイロットテストでは全体の信頼性がα = 0.90となりました。アンケート構成および心理指標は表4に示されています。

本研究ではエッセイ提出直後にアンケートが実施され、無頓着な完成を減らすために最低完了時間の要件が設けられていました。発行された764件の調査のうち、756件は品質チェックを経て有効であり、結果として98.95の有効率が得られました。

データ収集と品質管理

データは8週間(2024年3月から4月)にわたり、4段階で記録されました:募集と同意;エッセイ執筆;二重採点とアンケート配布;データベースの編纂も行っています。授業前のライティングパフォーマンスに基づく能力証明書は二重審査で審査され、この過程で16名の参加者が脱落しました。リアルタイムモニタリングにより4件の不正行為の可能性が排除され、3件の疑わしいAIパフォーマンス(少なくとも8ポイントの偏差)が手動評価の後に修正されました。逆項目一貫性チェックに基づき、無効なアンケート8枚が除外されました。

データ保存と倫理

すべてのデータは匿名化され、母国語、習熟レベル、シリアル番号からなる固有の識別子で保存されました。テキスト、スコア、アンケートは暗号化され、ISO27001準拠サーバーに制限されたアクセスで保存されていました。データは3年間保持され、その後永久に削除されます。倫理的承認は機関審査委員会から得られ、すべての参加者から書面によるインフォームドコンセントが収集されました。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このセクションでは、実験デザイン、参加者特性、スコア精度、公平性評価、学習と知覚のモデリングという5つの分析的側面に基づいて研究結果を提示します。結果には統計的パフォーマンス、グループ差、公平性の格差、SEMに基づく調停と調整が含まれます。

実験装置

主要なソフトウェアステップは、APIを通じてETS Criterionを自動スコアリングする設定、人間の評価者の訓練、参照統計ソフトウェアでデフォルトの統計オプションでデータ分析を行い、標準SEMパッケージを用いたR 4.3.1での構造方程式モデリングを行うことが含まれていました。AWEフェアネス研究で使用される材料、ソフトウェアプラットフォーム、分析ツールは材料表に示されています。

サンプル選択と人口統計的特徴

英語圏地域を対象に、階層化されたランダム抽出を用いて合...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この研究は、技術的正確性、グループおよび個人の公平性、学習者の認識を含む三段階アプローチのもとでAWEシステムを探求し、全体的な妥当性と体系的なグループの違いが同時に存在することを明らかにしました。AIと専門家評価の間には強い相関があり(集計r = 0.82)、サブグループごとに差異が観察されました(ネイティブr = 0.89 vs. 非ネイティブr = 0.76;中国語 r = 0.72;表6)。RMSEの分布はまた、中国語学習者において誤差やばらつきが大きいことも示しました(図2)。これらの傾向は、構成的過小表現、そしてドメインシフトの可能性を示しています。すなわち、訓練で言語間特徴が軽重扱いされている場合、モデルは表層的な正確性(例:文法)を、談話レベルの特徴(例:内容、議論)よりも効果的に生成することを学習します²⁹。

公平性分析はこのイメージを強化します。均等化オッズは中国人学生間で大きな差を示しま...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者には開示すべき利益相反はありません。

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Data Storage System	暗号化されたアクセス制御サーバーで匿名化されたデータを保存します。	機関サーバー	ストレージ-002
ETS基準システム	AI支援によるライティング評価システムで、ライティング課題の採点に使用されます。	教育試験サービス(ETS)	ETS-001
Fairness and Accuracy Analysisツール	RMSE、均等オッズ、統計分析のためのツール。	カスタムスクリプト/スタットパッケージ	ツール-FA-001
Human Expert評価	10年以上の経験を持つ3人の言語学者による独立した評価。	社内評価者	HR-EXP-003
<強力>学習者知覚質問票	公平性と満足度に関する8項目のアンケートで、7ポイントリッカート尺度で評価されました。	社内で開発	ケス-008
Statistical Software (R 4.3.1)	SEM(構造方程式モデリング)を含むデータ解析に使用されます。	Rファウンデーション	R-SW-431
<強力>層化ランダムサンプリングデータ	CEFRレベルA2からC1までの764人の多言語学習者から収集されたデータ。	研究参加者	DATA-764
<強力>執筆課題のプロンプト	グローバリゼーション、オンライン教育、AI倫理に関する3つの標準化されたエッセイトピック。	Moodleベースのプラットフォーム	プロンプト-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

英語ライティング評価における正確性、公平性、学習者の認識のための説明可能なAIフレームワーク

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles