Research Article

Erklärbares KI-Framework für Genauigkeit, Fairness und Lernwahrnehmung bei der Bewertung des englischen Schreibens

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie entwickelt einen dreistufigen Bewertungsrahmen und ein Fairness-Mediation-Modell zur Bewertung von KI-unterstützten englischen Schreibsystemen. Mit 764 sprachübergreifenden Stichproben zeigen die Ergebnisse Genauigkeitsunterschiede, Fairness-Bias gegenüber Nicht-Muttersprachlernern (insbesondere auf dem chinesischen A2-Niveau) und die Fairness-Wahrnehmung als entscheidenden Vermittler der Nutzerzufriedenheit, was theoretische und praktische Implikationen bietet.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im Kontext der globalen digitalen Bildungstransformation wurde die automatisierte Schreibbewertung (AWE) aufgrund ihrer Echtzeit- und standardisierten Vorteile weit verbreitet übernommen; traditionelle, genauigkeitsorientierte Rahmenwerke vernachlässigen jedoch oft Gerechtigkeitsanliegen und die Wahrnehmung der Lernenden, was Transparenz und pädagogischen Wert einschränkt. Um diese Einschränkung zu beheben, schlägt diese Forschung ein erklärbares KI-(XAI)-Framework vor, das transparentes und interpretierbares Feedback bietet, sodass Lernende automatisierte Evaluation verstehen und vertrauen können, und integriert ein mehrstufiges Validierungsmodell, das Three-Level Evaluation Framework (TLEF), das technische Genauigkeit, Gruppen- und Einzelgerechtigkeit sowie die Wahrnehmung der Lernenden abdeckt, zusammen mit dem AI Fairness Mediation Model (AFMM). Mit geschichteter Zufallsstichprobe wurden Daten von 764 mehrsprachigen Lernenden (Muttersprachler von Englisch, Chinesisch und Spanisch) auf den Niveaus A2 bis C1 (CEFR) durch Schreibaufgaben, doppelte Bewertung durch KI- und menschliche Experten sowie strukturierte Fragebögen erhoben. Anstatt einzelne Tests aufzulisten, wurde eine multiple statistische Analyse eingesetzt, um Validität, Fairness und die Beziehung zwischen Lernenden und Wahrnehmung zu untersuchen. Statistische Analysen kombinierten Korrelation, Root Mean Square Error (RMSE), Equalized Odds Testing und Structural Equation Modeling (SEM). Die Ergebnisse zeigen, dass das KI-unterstützte Schreibbewertungssystem (AWE) (ETS-Kriterium) zwar eine Gesamtvalidität erzielt (r = 0,82), signifikante Unterschiede jedoch bestehen: Chinesische Muttersprachler zeigen die geringste Übereinstimmung mit menschlichen Bewertern (0,72) und den höchsten RMSE (Median 2,15), Fairness-Bias sind bei niedrigeren Kompetenzniveaus am ausgeprägtesten (ΔEO = 0,15 für A2-Lernende), und wahrgenommene Fairness vermittelt vollständig den Zusammenhang zwischen wahrgenommener Genauigkeit und Lernzufriedenheit. wobei die Kompetenz die Fairness-Sensibilität moderiert. Indem Fairness und Wahrnehmung als wesentliche Dimensionen der Erklärbarkeit neu definiert werden, stärkt die Forschung die theoretische Grundlage von AWE und bietet einen praktischen Weg zur Erhöhung von Transparenz, Gerechtigkeit und sozialer Akzeptanz in Bildungstechnologien.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die intensive Globalisierung von Bildung und digitalen Technologien hat den Bedarf erhöht, das Schreibniveau auf Englisch wissenschaftlich und glaubwürdig für den Sprachunterricht, die akademische Entwicklungund den beruflichen Aufstieg zu bewerten. Konventionelle schriftliche Bewertungen, wie sie durch menschliche Bewertung praktiziert werden, können subjektive Aspekte des Schreibens wie die Gründlichkeit der Argumentation und kulturelleEignung messen. 2, sind jedoch anfällig für lange Bearbeitungszeiten, hohe Arbeitskosten und Vorurteile aufgrund von Erfahrung und Neigungen des Gutacht....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Prozess der ethischen Genehmigung und der Teilnehmerwerbung, einschließlich Aufsatzverwaltung, Doppelbewertung durch ETS-Kriterium und Experten, Bewertung der Lernwahrnehmung und statistischer Analyse, werden in diesem Abschnitt zusammengefasst. Sie hebt hervor, wie Genauigkeit, Fairness und SEM-basierte Wahrnehmungsmodellierung in eine einheitliche XAI-Validierungspipeline integriert sind. Der XAI-gesteuerte AWE-Bewertungsrahmen ist in Abbildung 1 dargestellt.

Vorgehen:

Das Verfahren umfasste mehrere Schritte. Zunächst wurde die....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Abschnitt präsentiert die Forschungsergebnisse basierend auf fünf analytischen Dimensionen: experimentelles Design, Teilnehmereigenschaften, Bewertungsgenauigkeit, Fairnessbewertung sowie Modellierung von Lernen und Wahrnehmung. Zu den Ergebnissen gehören statistische Leistung, Gruppenunterschiede, Fairness-Ungleichheiten sowie SEM-basierte Mediation und Moderation.

Experimenteller Aufbau

Die wichtigsten Softwar.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Studie untersuchte ein AWE-System unter einem dreistufigen Ansatz, der technische Genauigkeit, Gruppen- und Individualgerechtigkeit sowie Lernwahrnehmung umfasst, und stellte fest, dass die Gesamtvalidität und systematische Gruppenunterschiede gleichzeitig vorhanden sind. Es gab starke Korrelationen zwischen KI- und Expertenbewertungen (aggregiert r = 0,82), aber es wurden Unterschiede nach Untergruppen beobachtet (native r = 0,89 vs. nicht-native r = 0,76; Chinesisch r = 0,72; Tabel.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Autor hat keine Interessenkonflikte offenzulegen.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
DatenspeichersystemVerschlüsselte, zugriffsgesteuerte Server zur Speicherung anonymisierter Daten.Institutionelle ServerSTORAGE-002
ETS KriteriumsystemKI-unterstütztes Schreibbewertungssystem wird zur Bewertung der Schreibaufgaben verwendet.Bildungsprüfungsdienst (ETS)ETS-001
Fairness- und GenauigkeitsanalysetoolsWerkzeuge für RMSE, Equalized Odds und statistische Analysen.Benutzerdefinierte Skripte/Stat-PaketeTOOL-FA-001
Menschliche ExpertenbewertungenUnabhängige Bewertungen wurden von drei Linguisten mit über 10 Jahren Erfahrung erstellt.Interne BewerterHR-EXP-003
Lerner-WahrnehmungsfragebogenEin 8-Punkte-Fragebogen zu Fairness und Zufriedenheit, bewertet auf einer 7-Punkte-Likert-Skala.Interne EntwicklungQUES-008
Statistical Software (R 4.3.1)Verwendet für Datenanalyse, einschließlich SEM (Structural Equation Modeling).R-StiftungR-SW-431
geschichtete zufällige StichprobendatenDaten, die von 764 mehrsprachigen Lernenden auf den CEFR-Stufen A2 bis C1 gesammelt wurden.StudienteilnehmerDATA-764
SchreibaufgabenDrei standardisierte Aufsatzthemen zu Globalisierung, Online-Bildung und KI-Ethik.Moodle-basierte PlattformPROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles