Erklärbares KI-Framework für Genauigkeit, Fairness und Lernwahrnehmung bei der Bewertung des englischen Schreibens

Meili Dai

doi:10.3791/69841

Research Article

Erklärbares KI-Framework für Genauigkeit, Fairness und Lernwahrnehmung bei der Bewertung des englischen Schreibens

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie entwickelt einen dreistufigen Bewertungsrahmen und ein Fairness-Mediation-Modell zur Bewertung von KI-unterstützten englischen Schreibsystemen. Mit 764 sprachübergreifenden Stichproben zeigen die Ergebnisse Genauigkeitsunterschiede, Fairness-Bias gegenüber Nicht-Muttersprachlernern (insbesondere auf dem chinesischen A2-Niveau) und die Fairness-Wahrnehmung als entscheidenden Vermittler der Nutzerzufriedenheit, was theoretische und praktische Implikationen bietet.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im Kontext der globalen digitalen Bildungstransformation wurde die automatisierte Schreibbewertung (AWE) aufgrund ihrer Echtzeit- und standardisierten Vorteile weit verbreitet übernommen; traditionelle, genauigkeitsorientierte Rahmenwerke vernachlässigen jedoch oft Gerechtigkeitsanliegen und die Wahrnehmung der Lernenden, was Transparenz und pädagogischen Wert einschränkt. Um diese Einschränkung zu beheben, schlägt diese Forschung ein erklärbares KI-(XAI)-Framework vor, das transparentes und interpretierbares Feedback bietet, sodass Lernende automatisierte Evaluation verstehen und vertrauen können, und integriert ein mehrstufiges Validierungsmodell, das Three-Level Evaluation Framework (TLEF), das technische Genauigkeit, Gruppen- und Einzelgerechtigkeit sowie die Wahrnehmung der Lernenden abdeckt, zusammen mit dem AI Fairness Mediation Model (AFMM). Mit geschichteter Zufallsstichprobe wurden Daten von 764 mehrsprachigen Lernenden (Muttersprachler von Englisch, Chinesisch und Spanisch) auf den Niveaus A2 bis C1 (CEFR) durch Schreibaufgaben, doppelte Bewertung durch KI- und menschliche Experten sowie strukturierte Fragebögen erhoben. Anstatt einzelne Tests aufzulisten, wurde eine multiple statistische Analyse eingesetzt, um Validität, Fairness und die Beziehung zwischen Lernenden und Wahrnehmung zu untersuchen. Statistische Analysen kombinierten Korrelation, Root Mean Square Error (RMSE), Equalized Odds Testing und Structural Equation Modeling (SEM). Die Ergebnisse zeigen, dass das KI-unterstützte Schreibbewertungssystem (AWE) (ETS-Kriterium) zwar eine Gesamtvalidität erzielt (r = 0,82), signifikante Unterschiede jedoch bestehen: Chinesische Muttersprachler zeigen die geringste Übereinstimmung mit menschlichen Bewertern (0,72) und den höchsten RMSE (Median 2,15), Fairness-Bias sind bei niedrigeren Kompetenzniveaus am ausgeprägtesten (ΔEO = 0,15 für A2-Lernende), und wahrgenommene Fairness vermittelt vollständig den Zusammenhang zwischen wahrgenommener Genauigkeit und Lernzufriedenheit. wobei die Kompetenz die Fairness-Sensibilität moderiert. Indem Fairness und Wahrnehmung als wesentliche Dimensionen der Erklärbarkeit neu definiert werden, stärkt die Forschung die theoretische Grundlage von AWE und bietet einen praktischen Weg zur Erhöhung von Transparenz, Gerechtigkeit und sozialer Akzeptanz in Bildungstechnologien.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die intensive Globalisierung von Bildung und digitalen Technologien hat den Bedarf erhöht, das Schreibniveau auf Englisch wissenschaftlich und glaubwürdig für den Sprachunterricht, die akademische Entwicklung^{und den} beruflichen Aufstieg zu bewerten. Konventionelle schriftliche Bewertungen, wie sie durch menschliche Bewertung praktiziert werden, können subjektive Aspekte des Schreibens wie die Gründlichkeit der Argumentation und kulturelle^Eignung messen. 2, sind jedoch anfällig für lange Bearbeitungszeiten, hohe Arbeitskosten und Vorurteile aufgrund von Erfahrung und Neigungen des Gutachters ^3,4. Diese Einschränkungen sind besonders stark in der groß angelegten Praxis, wie internationalen Sprachtests (IELTS, TOEFL) oder anderen englischsprachigen Kursen, die an Universitäten unterrichtet werden, bei denen manuelles Bewerten nicht alles ist, was sofortiges Feedback^{und Abdeckung} angeht.

AWE-Systeme sind in diesem Zusammenhang aufgrund ihrer Echtzeitverarbeitung, Standardisierung und Skalierbarkeit^weit verbreitet geworden. Beliebte Werkzeuge wie Grammarly (das sich auf Grammatikfehler und Stilverfeinerung konzentriert) und ETS Criterion (das formalen Schreibnormen entspricht) werden derzeit von Millionen von Schülern in der K-12-Bildung, Sprachschulen, Hochschulen und Einzelausbildung⁷ verwendet. Obwohl dies Vorteile sind, sind die technologische Effizienz und die Anwendbarkeit von Bildungssystemen von AWE-Systemen^weiterhin umstritten. Technisch gesehen sind die bestehenden Systeme in objektiven Dimensionen, einschließlich Fehlererkennung und lexikalischer Diversität, hoch genau, wobei die Korrelation zur menschlichen Bewertung über 0,85⁹ liegen kann. In subjektiveren Bereichen, wie der Inhaltsrelevanz, logischer Argumentation und der Organisation eines Textes, liegen die Korrelationen jedoch oft unter 0,70¹⁰. Ein solches Unverhältnis birgt die Gefahr, oberflächliche Genauigkeit unter den Lernenden zu fördern – auf Kosten der Gesamtkompetenz beim Schreiben¹¹.

Die Frage der Gerechtigkeit begrenzt auch den pädagogischen Nutzen von AWE. Die aktuellen Studien neigen auch dazu, sich auf die aggregierten Genauigkeitsindikatoren zu konzentrieren und die Möglichkeit von Abweichungen, die systematisch einige Gruppe¹² benachteiligten, zu vernachlässigen. Indikativerweise würden Merkmale von intersprachlichen Merkmalen, die von chinesischen oder spanischlernenden Lernenden geteilt werden, als Fehler angesehen, was zu einer systematischen Unterschätzung^13,14 führen würde. Außerdem ist die subjektive Akzeptanz von KI-Feedback durch Lernende im Allgemeinen^{wenig bekannt.} Umfragen zeigen, dass fast ein Drittel der nicht-muttersprachlichen Lernenden eine Unangemessenheit zwischen KI-Werten und tatsächlicher Leistung meldet, wobei die Prozesse wie technische Genauigkeit, Gruppengerechtigkeit und Lernzufriedenheit weiterhin schlecht verstanden^{sind 16}.

Diese Schwächen spiegeln die Schwächen des klassischen Genauigkeitsparadigmas^wider. Ein Rahmenwerk, das nur die Ausrichtung zwischen KI und menschlicher Bewertung berücksichtigt, kann keine Fragen der Gerechtigkeit oder des Vertrauens der Lernenden in das System erfassen. In der Praxis muss der pädagogische Wert von AWE drei Voraussetzungen gleichzeitig erfüllen: technische Präzision, Fairness über Gruppen hinweg und Lernakzeptanz¹⁸. Das Fehlen eines solchen umfassenden Validierungsansatzes erklärt, warum AWE-Systeme weit verbreitet verbreiten, aber das Vertrauen in die Bildungspraxis begrenzt^{ist 19,20}.

Um dieser Herausforderung zu begegnen, führt die vorliegende Studie ein mehrstufiges Validierungsrahmen ein, das technische Genauigkeit, Gruppen- und Einzelfairness sowie die Wahrnehmung der Lernenden in eine kohärente Struktur integriert. Der vorgeschlagene XAI-Rahmen ist so konzipiert, dass er praktisch innerhalb bestehender AWE-Plattformen implementiert werden kann, indem Lehrern und Schülern Fairness-Diagnosen und transparente Punkteerklärungen bereitgestellt werden, und kann in Schreibkursen oder Testvorbereitungskurzen angewendet werden, um seine Fähigkeit zur Verbesserung von Fairness, Interpretierbarkeit und Unterrichtsnützlichkeit in realen Bewertungskontexten zu bewerten.

In diesem Zusammenhang ist die Hypothese ein AFMM, um die vermittelnde Rolle wahrgenommener Fairness bei der Bestimmung des Zusammenhangs zwischen Genauigkeit und Zufriedenheit sowie die moderierende Rolle der Sprachkompetenz auf die Fairness-Sensibilität zu untersuchen. Daher trägt es auf zwei Arten bei: Theoretisch bereichert es die Bewertungsmodelle von AWE, indem es Fairness als eine der wichtigsten Validierungsdimensionen neben Genauigkeit und Wahrnehmung beschreibt, und praktisch, indem es Entwicklern Strategien zur Maximierung von Fairness, Pädagogen mit gruppensensitiven Systemauswahlkriterien und dem pädagogischen Wert von AWE bietet, indem es erklärt, wie die Wahrnehmungen der Lernenden entstehen. Neben Bildung ist der Rahmen auch mit dem übergeordneten Konzept von XAI übereinstimmt und zeigt, wie Fairness und Nutzerwahrnehmung Transparenz, Vertrauen und Akzeptanz in anderen Bereichen wie Gesundheitswesen, autonomen Systemen und Cybersicherheit erhöhen können.

Forschungsfragen:

1.To inwieweit zeigt das AWE-System technische Genauigkeit und Fairness über verschiedene Muttersprach- und Kompetenzgruppen hinweg?

2. Wie kann ein XAI-basiertes, mehrstufiges Bewertungssystem Transparenz und Gerechtigkeit bei der automatisierten Bewertung des englischen Schreibens verbessern?

LITERATURÜBERSICHT:

Die Faktoren, die die Akzeptanz von AWE-Rückmeldungen durch Studierende beeinflussen, wurden mit einem erweiterten Technology Acceptance Model (TAM)²¹ untersucht. Basierend auf Umfragedaten von 448 chinesischen Schülern, die SEM nutzen, wurde festgestellt, dass Nützlichkeit, Benutzerfreundlichkeit und Absicht einen signifikanten Einfluss auf subjektive Normen, Vertrauen, Selbstwirksamkeit, kognitives Feedback und Systemmerkmale haben. Die Studie beschränkte sich jedoch auf eine einzelne Nation und eine einzige Gruppe von Studierenden, was die Anwendbarkeit einer Verallgemeinerung einschränkt. Um zu untersuchen, wie chinesische EFL-Schüler auf Pigai AWE-Feedback²² reagieren, analysierte eine Studie wiederholte Einreichungen (n = 5) von Universitätsstudierenden. Er stellte einen frühen Schwerpunkt auf Fehlerkorrektur, eine geringe Aufnahme sprachlicher Rückmeldungen und eine allmähliche Vertiefung der Antwort fest. Die Stichprobengröße war jedoch sehr begrenzt, ebenso wie das AWE-System, das die Anwendbarkeit und Generalisierbarkeit einschränkt. Die Überzeugungen der EFL-Lehrkräfte bezüglich der Anwendung des KI-Bewertungstools (CoGrader) wurden untersucht, um die Faktoren zu identifizieren, die ihre Ansichten beeinflussen²³. Durch eine Mixed-Methods-Studie mit zehn saudischen Universitätslehrern zeigten eine Umfrage und ein Interview, dass es eine gemischte positive Meinung gab, aber die Zurückhaltung, sich vollständig auf Zuverlässigkeit und vollständige Lehrerablösung zu verlassen. Dies erschwert die Verallgemeinerung aufgrund der begrenzten Stichprobe und der Ein-Länder-Einstellung.

Unter Berücksichtigung von Entwicklungen in der Korpuslinguistik und KI-Technologie untersuchte eine Studie AES-Frameworks²⁴. Es setzte PCA ein, um linguistische Indikatoren zur Bewertung der Schreibqualität zu verbessern, und entdeckte, dass die Kombination von Mikromerkmalen mit aggregierten Eigenschaften die Schreibqualität effektiver definierte als aggregierte Merkmale allein. Der nichtlineare AES-Ansatz, der auf Random Forest Regression basiert, übertraf die anderen Ansätze. Darüber hinaus identifizierte SHAP für jedes bewertete Attribut wesentliche Sprachelemente und erhöhte so die Systemtransparenz mittels erklärbarer KI. Die Ergebnisse können dazu beitragen, multidimensionale Methoden in der Schreibanalyse und Ausbildung zu verbessern. Das Mensch-Maschine-Kollaborationssystem wurde eingeführt, um die Herausforderungen beim Annotieren arabischer Schriften zu bewältigen, die oft teuer und zeitaufwendig sind. Die Methode berücksichtigt Aufsätze, die auf sieben Merkmalen der Literatur basieren, mit Hilfe eines LLM. Validierungsprozesse und Prompting-Taktiken wurden personalisiert, um Konsistenz und Genauigkeit sicherzustellen. Die Zusammenarbeit führt zu einem höheren Angebot an beschrifteten Ressourcen und beeinträchtigt die Qualität der Bewertung nicht, weshalb es sich um eine skalierbare Datenannotationsmethode handelt, die für Sprachen mit weniger Ressourcen geeignet ist.

Der Einsatz von KI im Bildungsbereich bietet die Möglichkeit, die Notenanforderungen deutlich zu senken und die Schreibausbildung^{zu verbessern 25,26}. Gleichzeitig haben Forscher betont, dass die Genauigkeit von KI nicht der einzige Aspekt ist, der für ihren verantwortungsvollen Einsatz relevant ist. Es gibt Prinzipien der Fairness und Verringerung von Vorurteilen, Sicherheit und Datenschutz, Rechenschaftspflicht, Erklärbarkeit, Transparenz, Bildungswirkung, Integrität und kontinuierlicher Entwicklung. Neuere Forschungen haben empirisch die Zero-Shot-Bewertung auf Basis von GPT-4o bewertet, mit Schwerpunkt auf diesen Anforderungen. Die Forschung konzentrierte sich auf die Wahrnehmungen, die Pädagogen gegenüber ADWTs in Bezug auf Bildungsintegrität^{hatten, 27}. Die Querschnittsstudie mit 100 Doktoranden und Professoren aus 10 Fächern legt nahe, dass Lehrer trotz der Berücksichtigung der Vorteile von ADWTs zur Erreichung des Bildungsziels einige Einschränkungen aufweisen, wie eingeschränkte Zugänglichkeit, mangelndes Wissen und Sorge um ihre Auswirkungen auf Integrität und Kreativität. Die Forschung deutete darauf hin, dass mit zunehmender Integration von KI-Technologien in die Bildung ethische Anliegen und die Beteiligung der Interessengruppen für ihren erfolgreichen und verantwortungsvollen Einsatz notwendig sind. Forschungen untersuchten die Wirksamkeit von KI-Technologien im Vergleich zu menschlichen Bewertern bei der Bewertung von EFL-Schülern²⁸ eingereichten Aufsätzen. Die Bewertung von 30 Essays zeigte, dass KI zwar hochwertige Kommentare in Bezug auf Inhalt, Sprache, Organisation und Korrektheit lieferte, aber konstant niedrigere Bewertungen als menschliche Bewerter. Darüber hinaus lieferte KI ausführlicheres Feedback, aber die Bewertungen verschiedener KI-Tools unterschieden sich nicht wesentlich.

Forschungslücke:

Derzeit untersucht die meiste Forschung zu AWE-Stipendien entweder die Genauigkeit oder die Akzeptanz der Nutzer. Nur sehr wenige untersuchen, ob Bewertungsunterschiede systematisch Muttersprach- oder Kompetenzgruppen benachteiligten. Während frühere Studien die Akzeptanz der Nutzer untersucht haben oder sich auf ein bestimmtes AWE-System aus einem bestimmten Land und Stichprobengröße beschränken, stellen sich Fragen zur Generalisierbarkeit. Obwohl sowohl SHAP als auch PCA XAI-Strategien sind und entwickelt wurden, um die Transparenz zu erhöhen, haben keine Studien Fairness-Mechanismen oder wie Lernende KI-Feedback aus dem AWE nutzen, untersucht. Es gibt keine umfassenden Rahmenwerke in der Literatur, die definierte Dimensionen von Genauigkeit, Fairnessanalyse und Lernwahrnehmungen berücksichtigen. Es gibt kein Beispiel für ein erklärbares Bewertungsmodell, das die Genauigkeit, Fairness und die Wahrnehmung der Lernenden berücksichtigt. Ein erklärbarer Rahmenwerk, TLEF, und ein kombiniertes Modell, AFMM, werden in dieser Forschung vorgeschlagen und validiert, um Genauigkeit, Fairness und die Wahrnehmung der Lernenden gleichzeitig bei mehrsprachigen und kompetenzdiversen Lernenden zu bewerten.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Prozess der ethischen Genehmigung und der Teilnehmerwerbung, einschließlich Aufsatzverwaltung, Doppelbewertung durch ETS-Kriterium und Experten, Bewertung der Lernwahrnehmung und statistischer Analyse, werden in diesem Abschnitt zusammengefasst. Sie hebt hervor, wie Genauigkeit, Fairness und SEM-basierte Wahrnehmungsmodellierung in eine einheitliche XAI-Validierungspipeline integriert sind. Der XAI-gesteuerte AWE-Bewertungsrahmen ist in Abbildung 1 dargestellt.

Vorgehen:

Das Verfahren umfasste mehrere Schritte. Zunächst wurde die IRB-Genehmigung eingeholt und die informierte Zustimmung aller Teilnehmer eingeholt. Unabhängige, abhängige und Steuervariablen wurden dann definiert. Standardisierte Schreibaufgaben wurden auf Moodle mit drei neutralen Aufsatzthemen durchgeführt, und es wurden Schreibproben gesammelt, wobei die Einhaltung der Aufsatzanforderungen wie Wortanzahl, Zeitlimit und Struktur gewährleistet wurde. Die doppelte Bewertung erfolgte unter Verwendung von ETS-Kriteriumsausgaben in Kombination mit Bewertungen von menschlichen Experten. Fragebögen zur Wahrnehmung der Lernenden wurden unmittelbar nach der Abgabe des Aufsatzes verteilt. Datenprüfungen und Qualitätskontrollverfahren wurden implementiert, um Anomalien wie Betrug oder ungültige Antworten zu beheben. Schwellenwerte zur Fairness-Analyse (ΔEO, RMSE-Prüfungen) wurden ebenfalls angewandt. Schließlich wurden alle anonymisierten Daten sicher auf verschlüsselten, zugriffskontrollierten Servern gespeichert.

Ethische Genehmigung und informierte Einwilligung

Diese Studie erhielt ethische Genehmigung vom Institutional Review Board der Institution der Autoren. Alle Verfahren wurden gemäß der Erklärung von Helsinki und den geltenden Vorschriften durchgeführt. Alle Teilnehmer waren Erwachsene (≥18 Jahre) und gaben vor der Teilnahme eine schriftliche informierte Einwilligung ab. Schreibproben und Fragebogenantworten wurden an der Quelle deidentifiziert und auf verschlüsselten, zugriffskontrollierten Servern gespeichert; nur autorisierte Ermittler hatten Zugang. Menschliche Bewerter waren blind gegenüber der Muttersprache, dem Kompetenzniveau und den demografischen Merkmalen der Teilnehmer. Die Teilnahme war freiwillig, mit dem Recht, jederzeit zurückzutreten, und es gab keine Täuschung oder sensible Interventionen. Formelle Genehmigungsdokumente können auf Anfrage der Zeitschrift zur Verfügung gestellt werden.

Variables Design

Insgesamt wurden in der Studie drei Gruppen von Variablen definiert, um die Analyse zu steuern. Tabelle 1 fasst die in Messmethoden für jedes Konstrukt verwendeten Mess- und Datentypen zusammen und liefert die vollständigen operativen Definitionen der unabhängigen, abhängigen und Steuervariablen.

Die Genauigkeit der KI-Bewertung war die erste unabhängige Variable, die in Bezug auf RMSE- und Pearson-Korrelationskoeffizienten (r) zwischen den Ergebnissen des ETS-Kriteriums und den Bewertungen der Experten bewertet wurde. Die von Experten durchgeführte Kalibrierung ergab einen ICC von 0,91, was die Zuverlässigkeit bestätigt.

Die zweite unabhängige Variable war der sprachliche Hintergrund der Lernenden, der in Muttersprachler und Nicht-Muttersprachler unterteilt wurde und weiter in Chinesen, Spanier, Arabisch und andere Gruppen unterteilt wurde. Chinesische Studierende gehörten zu den Zielgruppen, da vorläufige Anzeichen systematischer Unterschätzung festgestellt wurden.

Die dritte unabhängige Variable war die Schreibkompetenz, die gemäß den CEFR-Stufen A2 bis C1 bewertet wurde, bestätigt durch offizielle Zertifikate und Vorkurs-Prüfungen, und zudem mit den IELTS-Äquivalenzen abgestimmt war. Ein weiterer Moderator, der im AI Fairness Mediation Model eingeführt wurde, schrieb Kompetenzen, um zu testen, ob die Sensibilität für Fairness je nach Kompetenzlevel unterschiedlich ist.

Die Wahrnehmung von Fairness und die Zufriedenheit der Lernenden waren die abhängigen Variablen. Die Wahrnehmung von Fairness wurde mittels eines acht-Item-Fragebogens bewertet, der auf einer Sieben-Punkte-Likert-Skala bewertet wurde und die individuelle Konsistenz und Gruppenunparteilichkeit einschloss (Cronbachs 87; CVI 92). Die Zufriedenheit der Lernenden wurde anhand von sechs Likert-Fragen bewertet, die Bereitschaft zur Anwendung und eine wahrgenommene Verbesserung der Fähigkeiten zeigten (α = 0,85).

Die Variablen wurden in Bezug auf Alter, Geschlecht und Schreiberfahrung berücksichtigt. Das Alter wurde in drei Gruppen unterteilt (18–22 Jahre, 23–28 Jahre und ≥29 Jahre), und das Geschlecht wurde in männlich und weiblich eingeteilt. Schreiberfahrung wurde in drei Frequenzstufen pro Jahr eingeteilt.

Verfassen von Aufgabentexten

Standardisierte argumentative Aufsatzanforderungen wurden formuliert, um Schreibdaten zu drei neutralen Themen zu erhalten: die Auswirkungen der Globalisierung auf lokale Kulturen, Vorteile und Herausforderungen der Online-Bildung sowie ethische Grenzen der künstlichen Intelligenz. Diese Themen zielten darauf ab, einerseits kognitive Schwierigkeiten und Zugänglichkeit auszubalancieren und andererseits Leistungsunterschiede durch Vorwissen zu verringern. Die Verteilung der Themen und beschreibende Statistiken hinsichtlich der Aufsatzlänge sind in Tabelle 2 dargestellt.

Jeder Aufsatz musste 250 Wörter umfassen ±10 % und innerhalb von 45 Minuten auf einer Moodle-basierten Plattform geschrieben werden. Hilfswerkzeuge waren verboten, und verspätete Einreichungen wurden ausgeschlossen. Die Aufsätze folgten einer standardisierten Struktur mit Einleitung, zwei Argumentationsabschnitten und einem Schluss. Insgesamt wurden 764 gültige Aufsätze gesammelt, mit einer durchschnittlichen Länge von 252,3 Wörtern (SD = 8,7).

Bewertungsvergleichsdaten

Die Genauigkeit der AWE-Bewertung wurde mittels eines dualen Verfahrens bewertet, das ETS-Kriterien mit menschlichen Expertenbewertungen kombinierte. Die Ergebnisse wurden über die offene API von Criterion abgerufen. Drei Linguisten mit mehr als zehn Jahren Erfahrung in der Bewertung bewerteten alle Aufsätze unabhängig voneinander. Vor der formellen Bewertung absolvierten die Bewerter drei Kalibrierungssitzungen. Während der Kalibrierung erreichte die Inter-Rater-Zuverlässigkeit ICC = 0,87; während der formellen Bewertung stieg der ICC auf 0,91, mit dimensionsspezifischen ICCs über 0,88. Aufsätze mit Punktabweichungen von mehr als zwei Punkten wurden gemeinsam gelöst (18 Fälle). Der Bewertungsablauf und die Zuverlässigkeitsergebnisse sind in Tabelle 3 zusammengefasst.

Fragebogen zur Wahrnehmung der Lernenden

Die Wahrnehmung von KI-Feedback durch die Lernenden wurde durch einen 22-Punkte-Fragebogen auf Basis des TAM erfasst und auf Fairness erweitert. Das Instrument enthielt drei Bereiche: Gerechtigkeitswahrnehmung (8 Items), Zufriedenheit (6 Items) und moderierende Faktoren wie Verständlichkeit und Transparenz (8 Items). Die Validierung durch fünf Experten ergab einen CVI von 0,92, und Pilottests mit 60 Lernenden ergaben eine Gesamtzuverlässigkeit von α = 0,90. Die Fragebogenstruktur und die psychometrischen Indizes sind in Tabelle 4 dargestellt.

Die Fragebögen in der Hauptstudie wurden direkt nach der Einreichung der Aufsätze durchgeführt, und es gab Mindestanforderungen an die Abschlusszeit, um gedankenlose Fertigstellung zu verringern. Von den 764 durchgeführten Umfragen waren 756 nach Qualitätsprüfungen gültig, und es wurde eine resultierende effektive Rate von 98,95 erzielt.

Datenerhebung und Qualitätskontrolle

Die Daten wurden 8 Wochen lang (März–April 2024) in vier Phasen erfasst: Rekrutierung und Einwilligung; Essay-Schreiben; doppelte Bewertung und Fragebogenverteilung; und Erstellung der Datenbank. Die Kompetenzzertifikate, die auf der Schreibleistung vor dem Kurs basierten, wurden durch ein doppeltes Screening überprüft, wobei 16 Teilnehmer ausgeschlossen wurden. Vier potenzielle Betrugsfälle wurden durch Echtzeitüberwachung ausgeschlossen, und drei verdächtige KI-Leistungen (Abweichungen von mindestens 8 Punkten) wurden anschließend nach einer manuellen Bewertung korrigiert. Acht ungültige Fragebögen wurden aufgrund von Reverse-Item-Konsistenzprüfungen ausgeschlossen.

Datenspeicherung und Ethik

Alle Daten wurden anonymisiert und mit eindeutigen Identifikatoren gespeichert, die die Muttersprache, das Sprachniveau und die Seriennummer umfassten. Texte, Bewertungen und Fragebögen wurden verschlüsselt und auf ISO27001-konformen Servern mit eingeschränktem Zugang gespeichert. Die Daten werden für 3 Jahre aufbewahrt, bevor sie dauerhaft gelöscht werden. Eine ethische Genehmigung wurde vom institutionellen Überprüfungsgremium eingeholt, und die schriftliche informierte Zustimmung aller Teilnehmer wurde eingeholt.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Abschnitt präsentiert die Forschungsergebnisse basierend auf fünf analytischen Dimensionen: experimentelles Design, Teilnehmereigenschaften, Bewertungsgenauigkeit, Fairnessbewertung sowie Modellierung von Lernen und Wahrnehmung. Zu den Ergebnissen gehören statistische Leistung, Gruppenunterschiede, Fairness-Ungleichheiten sowie SEM-basierte Mediation und Moderation.

Experimenteller Aufbau

Die wichtigsten Softwareschritte umfassten die Einrichtun...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Studie untersuchte ein AWE-System unter einem dreistufigen Ansatz, der technische Genauigkeit, Gruppen- und Individualgerechtigkeit sowie Lernwahrnehmung umfasst, und stellte fest, dass die Gesamtvalidität und systematische Gruppenunterschiede gleichzeitig vorhanden sind. Es gab starke Korrelationen zwischen KI- und Expertenbewertungen (aggregiert r = 0,82), aber es wurden Unterschiede nach Untergruppen beobachtet (native r = 0,89 vs. nicht-native r = 0,76; Chinesisch r = 0,72; Tabel...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Autor hat keine Interessenkonflikte offenzulegen.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Datenspeichersystem	Verschlüsselte, zugriffsgesteuerte Server zur Speicherung anonymisierter Daten.	Institutionelle Server	STORAGE-002
ETS Kriteriumsystem	KI-unterstütztes Schreibbewertungssystem wird zur Bewertung der Schreibaufgaben verwendet.	Bildungsprüfungsdienst (ETS)	ETS-001
Fairness- und Genauigkeitsanalysetools	Werkzeuge für RMSE, Equalized Odds und statistische Analysen.	Benutzerdefinierte Skripte/Stat-Pakete	TOOL-FA-001
Menschliche Expertenbewertungen	Unabhängige Bewertungen wurden von drei Linguisten mit über 10 Jahren Erfahrung erstellt.	Interne Bewerter	HR-EXP-003
Lerner-Wahrnehmungsfragebogen	Ein 8-Punkte-Fragebogen zu Fairness und Zufriedenheit, bewertet auf einer 7-Punkte-Likert-Skala.	Interne Entwicklung	QUES-008
Statistical Software (R 4.3.1)	Verwendet für Datenanalyse, einschließlich SEM (Structural Equation Modeling).	R-Stiftung	R-SW-431
geschichtete zufällige Stichprobendaten	Daten, die von 764 mehrsprachigen Lernenden auf den CEFR-Stufen A2 bis C1 gesammelt wurden.	Studienteilnehmer	DATA-764
Schreibaufgaben	Drei standardisierte Aufsatzthemen zu Globalisierung, Online-Bildung und KI-Ethik.	Moodle-basierte Plattform	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Erklärbares KI-Framework für Genauigkeit, Fairness und Lernwahrnehmung bei der Bewertung des englischen Schreibens

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles