Research Article

Uitleg AI-kader voor nauwkeurigheid, eerlijkheid en leerlingperceptie in Engelse schrijfbeoordeling

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie ontwikkelt een drielaags evaluatiekader en een eerlijkheidsbemiddelingsmodel om AI-ondersteunde Engelse schrijfsystemen te beoordelen. Met behulp van 764 cross-linguïstische steekproeven tonen resultaten nauwkeurigheidsverschillen, rechtvaardigheidsbias tegen niet-moedertaalleerlingen (vooral Chinees A2-vaardigheidsniveau) en eerlijkheidsperceptie als de belangrijkste bemiddelaar van de gebruikerstevredenheid, wat theoretische en praktische implicaties biedt.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In de context van wereldwijde digitale transformatie van onderwijs is geautomatiseerde schrijfevaluatie (AWE) breed toegepast vanwege de realtime en gestandaardiseerde voordelen; Traditionele nauwkeurigheidsgerichte kaders negeren echter vaak gelijkheidszorgen en de percepties van leerlingen, waardoor transparantie en onderwijswaarde worden beperkt. Om deze beperking aan te pakken, stelt dit onderzoek een uitlegbaar AI (XAI)-framework voor, ontworpen om transparante en interpreteerbare feedback te bieden, zodat leerlingen geautomatiseerde evaluatie kunnen begrijpen en vertrouwen, en integreert het een multi-level validatiemodel, het Three-Level Evaluation Framework (TLEF), dat technische nauwkeurigheid, groeps- en individuele gelijkheid en perceptie van leerlingen omvat, samen met het AI Fairness Mediation Model (AFMM). Met behulp van gelaagde willekeurige steekproeven werden gegevens verzameld van 764 meertalige leerlingen (moedertaalsprekers van het Engels, Chinees en Spaans) over het Common European Framework of Reference for Languages (CEFR) niveaus A2 tot C1, via schrijfopdrachten, dubbele scoring door AI- en menselijke experts, en gestructureerde vragenlijsten. In plaats van individuele tests op te sommen, werd meervoudige statistische analyses gebruikt om validiteit, eerlijkheid en de relatie tussen leerling en perceptie te onderzoeken. Statistische analyses combineerden correlatie, wortelgemiddelde kwadraatfout (RMSE), geëgaliseerde kanstoetsen en structurele vergelijkingsmodellering (SEM). De bevindingen tonen aan dat hoewel het AI-ondersteunde schrijfevaluatiesysteem (AWE) (ETS Criterion) algehele validiteit behaalt (r = 0,82), er aanzienlijke verschillen blijven: Chinese moedertaalsprekers tonen de laagste overeenstemming met menselijke beoordelaars (0,72) en de hoogste RMSE (mediaan 2,15), eerlijkheidsbiases zijn het meest uitgesproken bij lagere vaardigheidsniveaus (ΔEO = 0,15 voor A2-leerlingen), en waargenomen eerlijkheid bemiddelt volledig de relatie tussen waargenomen nauwkeurigheid en leerdertevredenheid, waarbij vaardigheid de fairness en sensitiviteit matigt. Door eerlijkheid en perceptie te herformuleren als essentiële dimensies van verklaarbaarheid, versterkt het onderzoek de theoretische basis van AWE en biedt het een praktische weg om transparantie, gelijkheid en sociale acceptatie in onderwijstechnologieën te vergroten.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De intensieve globalisering van onderwijs en digitale technologieën heeft de noodzaak vergroot om het schrijfniveau in het Engels wetenschappelijk en geloofwaardig te evalueren voor taalonderwijs, academische ontwikkeling enloopbaanbevordering. Conventionele schrijfbeoordelingen, zoals toegepast door menselijke beoordeling, kunnen subjectieve aspecten van schrijven meten zoals de grondigheid van argumentatie en culturele geschiktheid2, maar zijn gevoelig voor lange doorlooptijden, hoge arbeidskosten en vooringenomenheid door beoordelaarservaring en -voorkeuren

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het ethische goedkeurings- en participatiewervingsproces, inclusief essayadministratie, dubbele beoordeling door ETS Criterion en experts, evaluatie van leerlingperceptie en statistische analyse, worden in deze sectie samengevat. Het benadrukt hoe nauwkeurigheid, eerlijkheid en SEM-gebaseerde perceptiemodellering zijn geïntegreerd in een uniforme XAI-validatiepijplijn. Het door XAI aangedreven AWE-evaluatiekader wordt geïllustreerd in Figuur 1.

Procedure:

De procedure bestond uit verschillende stappen. Eerst werd IRB-goedkeuring verk....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De sectie presenteert de onderzoeksresultaten op basis van vijf analytische dimensies: experimenteel ontwerp, deelnemerskenmerken, nauwkeurigheid van scores, eerlijkheidsbeoordeling en modellering van leren en perceptie. De uitkomsten omvatten statistische prestaties, groepsverschillen, billijkheidsverschillen en SEM-gebaseerde mediation en moderatie.

Experimentele opstelling

De belangrijkste softwarestappen waren h.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het onderzoek onderzocht een AWE-systeem onder een drielaagse benadering, met technische nauwkeurigheid, groeps- en individuele eerlijkheid en perceptie door lerende, en stelde vast dat de algehele validiteit en systematische groepsverschillen tegelijkertijd aanwezig zijn. Er waren sterke correlaties tussen AI- en expertbeoordelingen (aggregate r = 0,82), maar er werden verschillen waargenomen per subgroep (native r = 0,89 vs. niet-native r = 0,76; Chinees r = 0,72; Tabel 6). De verdelin.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteur heeft geen belangenconflicten om te melden.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Data Storage SystemEncrypted, access-controlled servers for storing anonymized data.Institutional serversSTORAGE-002
ETS Criterion SystemAI-assisted writing evaluation system used for scoring the writing tasks.Educational Testing Service (ETS)ETS-001
Fairness and Accuracy Analysis ToolsTools for RMSE, Equalized Odds, and statistical analysis.Custom scripts/stat packagesTOOL-FA-001
Human Expert RatingsIndependent ratings provided by three linguists with over 10 years of experience.In-house ratersHR-EXP-003
Learner Perception QuestionnaireAn 8-item questionnaire on fairness and satisfaction, rated on a 7-point Likert scale.In-house developedQUES-008
Statistical Software (R 4.3.1)Used for data analysis, including SEM (Structural Equation Modeling).R FoundationR-SW-431
Stratified Random Sampling DataData collected from 764 multilingual learners across CEFR levels A2 to C1.Study participantsDATA-764
Writing Task PromptsThree standardized essay topics on globalization, online education, and AI ethics.Moodle-based platformPROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles