Uitleg AI-kader voor nauwkeurigheid, eerlijkheid en leerlingperceptie in Engelse schrijfbeoordeling

Meili Dai

doi:10.3791/69841

Research Article

Uitleg AI-kader voor nauwkeurigheid, eerlijkheid en leerlingperceptie in Engelse schrijfbeoordeling

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie ontwikkelt een drielaags evaluatiekader en een eerlijkheidsbemiddelingsmodel om AI-ondersteunde Engelse schrijfsystemen te beoordelen. Met behulp van 764 cross-linguïstische steekproeven tonen resultaten nauwkeurigheidsverschillen, rechtvaardigheidsbias tegen niet-moedertaalleerlingen (vooral Chinees A2-vaardigheidsniveau) en eerlijkheidsperceptie als de belangrijkste bemiddelaar van de gebruikerstevredenheid, wat theoretische en praktische implicaties biedt.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In de context van wereldwijde digitale transformatie van onderwijs is geautomatiseerde schrijfevaluatie (AWE) breed toegepast vanwege de realtime en gestandaardiseerde voordelen; Traditionele nauwkeurigheidsgerichte kaders negeren echter vaak gelijkheidszorgen en de percepties van leerlingen, waardoor transparantie en onderwijswaarde worden beperkt. Om deze beperking aan te pakken, stelt dit onderzoek een uitlegbaar AI (XAI)-framework voor, ontworpen om transparante en interpreteerbare feedback te bieden, zodat leerlingen geautomatiseerde evaluatie kunnen begrijpen en vertrouwen, en integreert het een multi-level validatiemodel, het Three-Level Evaluation Framework (TLEF), dat technische nauwkeurigheid, groeps- en individuele gelijkheid en perceptie van leerlingen omvat, samen met het AI Fairness Mediation Model (AFMM). Met behulp van gelaagde willekeurige steekproeven werden gegevens verzameld van 764 meertalige leerlingen (moedertaalsprekers van het Engels, Chinees en Spaans) over het Common European Framework of Reference for Languages (CEFR) niveaus A2 tot C1, via schrijfopdrachten, dubbele scoring door AI- en menselijke experts, en gestructureerde vragenlijsten. In plaats van individuele tests op te sommen, werd meervoudige statistische analyses gebruikt om validiteit, eerlijkheid en de relatie tussen leerling en perceptie te onderzoeken. Statistische analyses combineerden correlatie, wortelgemiddelde kwadraatfout (RMSE), geëgaliseerde kanstoetsen en structurele vergelijkingsmodellering (SEM). De bevindingen tonen aan dat hoewel het AI-ondersteunde schrijfevaluatiesysteem (AWE) (ETS Criterion) algehele validiteit behaalt (r = 0,82), er aanzienlijke verschillen blijven: Chinese moedertaalsprekers tonen de laagste overeenstemming met menselijke beoordelaars (0,72) en de hoogste RMSE (mediaan 2,15), eerlijkheidsbiases zijn het meest uitgesproken bij lagere vaardigheidsniveaus (ΔEO = 0,15 voor A2-leerlingen), en waargenomen eerlijkheid bemiddelt volledig de relatie tussen waargenomen nauwkeurigheid en leerdertevredenheid, waarbij vaardigheid de fairness en sensitiviteit matigt. Door eerlijkheid en perceptie te herformuleren als essentiële dimensies van verklaarbaarheid, versterkt het onderzoek de theoretische basis van AWE en biedt het een praktische weg om transparantie, gelijkheid en sociale acceptatie in onderwijstechnologieën te vergroten.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De intensieve globalisering van onderwijs en digitale technologieën heeft de noodzaak vergroot om het schrijfniveau in het Engels wetenschappelijk en geloofwaardig te evalueren voor taalonderwijs, academische ontwikkeling en^{loopbaanbevordering}. Conventionele schrijfbeoordelingen, zoals toegepast door menselijke beoordeling, kunnen subjectieve aspecten van schrijven meten zoals de grondigheid van argumentatie en culturele geschiktheid², maar zijn gevoelig voor lange doorlooptijden, hoge arbeidskosten en vooringenomenheid door beoordelaarservaring en -voorkeuren ^3,4. Deze beperkingen zijn vooral scherp in grootschalige praktijken, zoals internationale taaltoetsen (IELTS, TOEFL) of andere Engelse cursussen die aan universiteiten worden gegeven, waar handmatig scoren niet alles kan zijn wat nodig is voor directe feedback en dekking⁵.

AWE-systemen zijn in deze context veel gebruikt vanwege hun realtime verwerking, standaardisatie en schaalbaarheid⁶. Populaire tools zoals Grammarly (dat zich richt op grammaticale fouten en stijlverfijning) en ETS Criterion (dat voldoet aan formele schrijfnormen) worden momenteel gebruikt door miljoenen studenten in K-12 onderwijs, taalscholen, hoger onderwijs en individuele training⁷. Hoewel dit de voordelen zijn, zijn de technologische efficiëntie en de toepasbaarheid van AWE-systemen nog^{steeds betwist}. Technisch gezien zijn de bestaande systemen zeer nauwkeurig op objectieve dimensies, waaronder foutdetectie en lexicale diversiteit, waarbij de correlatie met menselijke scores boven de 0,85⁹ kan liggen. In meer subjectieve gebieden, zoals inhoudsrelevantie, logische argumentatie en organisatie van een tekst, worden de correlaties echter vaak lager dan 0,70¹⁰. Zo'n disproportie brengt het gevaar met zich mee dat oppervlakkige nauwkeurigheid onder de leerlingen wordt bevorderd, ten koste van de algehele schrijfvaardigheid¹¹.

Het probleem van gelijkheid beperkt ook het educatieve nut van AWE. De huidige studies richten zich ook op de geaggregeerde nauwkeurigheidsindicatoren, waarbij de mogelijkheid van afwijkingen die systematisch sommige groep¹² benadelen negeren. Aanduidend zouden kenmerken van intertaalvaardigheden die door Chinese of Spaanstalige leerlingen gedeeld worden, worden aangezien voor fouten, wat zou leiden tot systematische onderschatting^13,14. Daarnaast is de subjectieve acceptatie van AI-feedback door leerlingen over het algemeen weinig bekend¹⁵. Uit enquêtes blijkt dat bijna een derde van de niet-moedertaalleerders een ongeschiktheid meldt tussen AI-scores en daadwerkelijke prestaties, waarbij de processen van technische nauwkeurigheid, groepsgelijkheid en leerdertevredenheid nog steeds slecht worden begrepen^{op 16}.

Deze zwaktes weerspiegelen de tekortkomingen van het klassieke nauwkeurigheidsparadigma¹⁷. Een kader dat alleen rekening houdt met de afstemming tussen AI en menselijke score, kan geen kwesties van gelijkheid of het vertrouwen van de leerling in het systeem vastleggen. In de praktijk moet de educatieve waarde van AWE tegelijkertijd aan drie voorwaarden voldoen: technische precisie, eerlijkheid tussen groepen en acceptatie door leerlingen¹⁸. Het ontbreken van zo'n uitgebreide validatiebenadering helpt verklaren waarom AWE-systemen brede adoptie genieten, maar weinig vertrouwen in onderwijspraktijken^19,20.

Om deze uitdaging aan te pakken, introduceert deze studie een meerlagig validatiekader dat technische nauwkeurigheid, groeps- en individuele eerlijkheid en de perceptie van de leerling integreert in een samenhangende structuur. Het voorgestelde XAI-framework is ontworpen om praktisch te worden geïmplementeerd binnen bestaande AWE-platforms door leraren en studenten eerlijkheidsdiagnostiek en transparante score-uitleg te bieden, en kan worden toegepast in schrijfcursussen of toetsvoorbereidingslessen om het vermogen te evalueren om eerlijkheid, interpreteerbaarheid en instructiebruikbaarheid in echte beoordelingsomgevingen te verbeteren.

In deze context is de hypothese een AFMM om de bemiddelende rol van waargenomen eerlijkheid bij het bepalen van de relatie tussen nauwkeurigheid en tevredenheid te onderzoeken, evenals de modererende rol van taalvaardigheid op eerlijkheidsgevoeligheid. Daarom draagt het op twee manieren bij: zowel theoretisch door de evaluatiemodellen van AWE te verrijken door eerlijkheid als een van de belangrijkste validatiedimensies naast nauwkeurigheid en perceptie te beschrijven, als praktisch door ontwikkelaars strategieën te bieden om eerlijkheid te maximaliseren, docenten met groepsgevoelige systeemselectiecriteria, en de educatieve waarde van AWE door uit te leggen hoe de percepties van de leerlingen worden gevormd. Naast onderwijs is het kader ook afgestemd op het bredere concept van XAI, en laat het zien hoe eerlijkheid en gebruikersperceptie transparantie, vertrouwen en acceptatie kunnen vergroten op andere gebieden, zoals gezondheidszorg, autonome systemen en cyberbeveiliging.

Onderzoeksvragen:

1.To hoeverre toont het AWE-systeem technische nauwkeurigheid en eerlijkheid over verschillende moedertaal- en vaardigheidsgroepen?

2. Hoe kan een XAI-gebaseerd meerlagig evaluatiekader transparantie en gelijkheid verbeteren bij geautomatiseerde Engelse schrijfbeoordeling?

LITERATUUROVERZICHT:

De factoren die de acceptatie van AWE-feedback door studenten beïnvloeden, werden onderzocht met behulp van een uitgebreid Technology Acceptance Model (TAM)²¹. Op basis van enquêtegegevens van 448 Chinese studenten die SEM gebruikten, werd vastgesteld dat bruikbaarheid, gebruiksgemak en intentie een significante invloed hadden op subjectieve normen, vertrouwen, zelfeffectiviteit, cognitieve feedback en systeemkenmerken. De studie was echter beperkt tot één natie en één groep studenten, wat de toepasbaarheid van generalisatie beperkt. Om te onderzoeken hoe Chinese EFL-studenten reageren op Pigai AWE-feedback²², analyseerde een studie herhaalde inzendingen (n = 5) van universiteitsstudenten. Er werd een vroege nadruk op foutcorrectie, een lage opname van taalkundige feedback en een geleidelijke verdieping van de respons opgemerkt. De steekproefgrootte was echter zeer beperkt, evenals het AWE-systeem, dat de toepasbaarheid en generaliseerbaarheid beperkt. De overtuigingen van EFL-docenten over de toepassing van de AI-beoordelingstool (CoGrader) werden onderzocht om de factoren te identificeren die hun opvattingen beïnvloeden²³. Uit een gemengde studie onder 10 Saoedische universiteitsdocenten bleek uit een enquête en een interview dat er een gemengd positief oordeel was, maar een terughoudendheid om volledig zeker te zijn van betrouwbaarheid en volledige lerarenvervanging. Dit belemmert de generalisatie door de beperkte steekproef en de een-landen-setting.

Met het oog op ontwikkelingen in corpustaalkunde en AI-technologie onderzocht een studie AES-frameworks²⁴. Het gebruikte PCA om taalkundige indicatoren voor het evalueren van schrijfkwaliteit te verbeteren en ontdekte dat het combineren van microkenmerken met geaggregeerde kenmerken de schrijfkwaliteit effectiever definieerde dan alleen geaggregeerde kenmerken. De niet-lineaire AES-benadering gebaseerd op Random Forest Regresion overtrof de andere benaderingen. Bovendien identificeerde SHAP essentiële taalelementen voor elk geëvalueerd attribuut, waardoor de systeemtransparantie via verklaarbare AI werd verhoogd. De resultaten kunnen bijdragen aan het verbeteren van multidimensionale methoden in schrijfanalyse en onderwijs. Het mens-machine samenwerkingssysteem werd geïntroduceerd om de uitdagingen van het annoteren van Arabische teksten aan te pakken, die vaak duur en tijdrovend zijn. De methode beschouwt essays gebaseerd op zeven literatuurkenmerken met behulp van een LLM. Validatieprocessen en prompting-tactieken werden gepersonaliseerd om consistentie en nauwkeurigheid te waarborgen. De samenwerking resulteert in een hogere voorraad gelabelde bronnen en beïnvloedt de kwaliteit van de evaluatie niet, waardoor het een schaalbare data-annotatiemethode is die geschikt is voor talen met minder middelen.

Het gebruik van AI in het onderwijs biedt een kans om de beoordelingseisen aanzienlijk te verlagen en het schrijfonderwijs^{te verbeteren 25,26}. Tegelijkertijd hebben onderzoekers benadrukt dat de nauwkeurigheid van AI niet het enige aspect is dat relevant is voor het verantwoord gebruik ervan. Er zijn principes van eerlijkheid en het verminderen van vooringenomenheid, veiligheid en privacy, verantwoording, uitlegbaarheid, transparantie, educatief effect, integriteit en voortdurende ontwikkeling. Recent onderzoek heeft zero-shot scoring empirisch geëvalueerd op basis van GPT-4o, met een focus op deze eisen. Het onderzoek richtte zich op de percepties die docenten hadden ten opzichte van ADWT's met betrekking tot het aspect van onderwijsintegriteit²⁷. De cross-sectionele studie met 100 promovendi en professoren van 10 vakken suggereert dat, ondanks dat leraren de voordelen van ADWT's toeschrijven voor het bereiken van het onderwijsdoel, het enkele beperkingen heeft, zoals beperkte toegankelijkheid, gebrek aan kennis en bezorgdheid over de impact op integriteit en creativiteit. Het onderzoek suggereerde dat, naarmate AI-technologieën meer geïntegreerd worden in het onderwijs, ethische zorgen en betrokkenheid van belanghebbenden noodzakelijk zijn voor succesvol en verantwoord gebruik ervan. Onderzoek onderzocht de effectiviteit van AI-technologieën in vergelijking met menselijke beoordelaars bij het evalueren van essays die door EFL-leerlingen^{werden ingediend (28}). Uit het beoordelen van 30 essays bleek dat, hoewel AI hoogwaardige opmerkingen bood op het gebied van inhoud, taal, organisatie en correctheid, het constant lagere beoordelingen gaf dan menselijke beoordelaars. Bovendien gaf AI grondigere feedback, maar de scores van verschillende AI-tools verschilden niet wezenlijk.

Onderzoekskloof (GAP):

Momenteel onderzoekt het meeste onderzoek naar AWE-beurs ofwel nauwkeurigheid of acceptatie door gebruikers. Zeer weinig onderzoeken of scoreverschillen systematisch nadelen in moedertaal- of vaardigheidsgroepen. Hoewel eerdere studies gebruikersacceptatie onderzochten of beperkt zijn tot een specifiek AWE-systeem uit een specifiek land en steekproefgrootte, rijzen er vragen over generaliseerbaarheid. Hoewel zowel SHAP als PCA XAI-strategieën zijn en zijn ontwikkeld om de transparantie te vergroten, hebben er geen studies onderzocht naar eerlijkheidsmechanismen of hoe leerlingen AI-feedback van de AWE gebruiken. Er zijn geen uitgebreide kaders in de literatuur die rekening houden met gedefinieerde dimensies van nauwkeurigheid, eerlijkheidsanalyse en percepties van leerlingen. Er is geen voorbeeld van een verklaarbaar evaluatiemodel dat rekening houdt met intra- en inter-rater nauwkeurigheid, eerlijkheid en de percepties van leren. Een verklaarbaar raamwerk, TLEF, en een gecombineerd model, AFMM, worden in dit onderzoek voorgesteld en gevalideerd om nauwkeurigheid, eerlijkheid en de perceptie van leerlingen tegelijkertijd te beoordelen bij meertalige en vaardigheidsdiverse leerlingen.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het ethische goedkeurings- en participatiewervingsproces, inclusief essayadministratie, dubbele beoordeling door ETS Criterion en experts, evaluatie van leerlingperceptie en statistische analyse, worden in deze sectie samengevat. Het benadrukt hoe nauwkeurigheid, eerlijkheid en SEM-gebaseerde perceptiemodellering zijn geïntegreerd in een uniforme XAI-validatiepijplijn. Het door XAI aangedreven AWE-evaluatiekader wordt geïllustreerd in Figuur 1.

Procedure:

De procedure bestond uit verschillende stappen. Eerst werd IRB-goedkeuring verkregen en werd geïnformeerde toestemming van alle deelnemers verzameld. Onafhankelijke, afhankelijke en controlevariabelen werden vervolgens gedefinieerd. Gestandaardiseerde schrijfopdrachten werden op Moodle uitgevoerd met drie neutrale essayonderwerpen, en er werden schrijfvoorbeelden verzameld terwijl werd gewaarborgd dat aan de essayvereisten werd voldaan, zoals woordenaantal, tijdslimiet en structuur. Dubbele scoring werd uitgevoerd met behulp van ETS Criterion-uitkomsten gecombineerd met menselijke expertbeoordelingen. Vragenlijsten voor de perceptie van leerlingen werden direct na het indienen van het essay verspreid. Er werden procedures voor gegevensscreening en kwaliteitscontrole ingevoerd om afwijkingen aan te pakken, zoals valsspelen of ongeldige reacties. Eerlijkheidsanalyse-drempels (ΔEO, RMSE-controles) werden ook toegepast. Ten slotte werden alle geanonimiseerde gegevens veilig opgeslagen op versleutelde, toegangsgecontroleerde servers.

Ethische goedkeuring en geïnformeerde toestemming

Deze studie kreeg ethische goedkeuring van de Institutional Review Board van de instelling van de auteurs. Alle procedures werden uitgevoerd in overeenstemming met de Verklaring van Helsinki en de toepasselijke regelgeving. Alle deelnemers waren volwassenen (≥18 jaar) en gaven schriftelijke geïnformeerde toestemming vóór deelname. Schrijfvoorbeelden en vragenlijstantwoorden werden bij de bron gedeïdentificeerd en opgeslagen op versleutelde, toegangsgecontroleerde servers; Alleen bevoegde onderzoekers hadden toegang. Menselijke beoordelaars waren blind voor de moedertaal, het vaardigheidsniveau en de demografie van de deelnemers. Deelname was vrijwillig, met het recht om zich op elk moment terug te trekken, en er waren geen misleiding of gevoelige interventies betrokken. Formele goedkeuringsdocumentatie kan op verzoek aan het tijdschrift worden verstrekt.

Variabel ontwerp

In totaal werden in de studie drie groepen variabelen gedefinieerd om de analyse te sturen. Tabel 1 vat de meet- en datatypen samen die in meetmethoden voor elk construct worden gebruikt en geeft de volledige operationele definities van de onafhankelijke, afhankelijke en controlevariabelen.

De nauwkeurigheid van AI-scoring was de eerste onafhankelijke variabele die werd beoordeeld in termen van RMSE- en Pearson-correlatiecoëfficiënt (r) tussen de uitkomsten van het ETS-criterium en de beoordelingen van de experts. Kalibratie uitgevoerd door experts leverde een ICC van 0,91 op, wat de betrouwbaarheid valideert.

De tweede onafhankelijke variabele was de taalkundige achtergrond van de leerlingen, die werd verdeeld in moedertaal- en niet-moedertaalsprekers, en verder werd onderverdeeld in Chinees, Spaans, Arabisch en andere groepen. Chinese studenten waren een van de doelgroepen omdat er voorlopige aanwijzingen van systematische onderschatting werden waargenomen.

De derde onafhankelijke variabele was de schrijfvaardigheid, die werd beoordeeld volgens de CEFR-niveaus A2 tot C1, zoals bevestigd door officiële certificaten en pre-class vaardigheidstesten, en ook was afgestemd op IELTS-equivalenties. Een andere moderator die werd geïntroduceerd in het AI Fairness Mediation Model schreef vaardigheid om te testen of gevoeligheid voor eerlijkheid verschilt per vaardigheidsniveau.

De perceptie van eerlijkheid en leertevredenheid waren de afhankelijke variabelen. De perceptie van eerlijkheid werd beoordeeld met behulp van een vragenlijst van acht vragen, beoordeeld op een Likert-schaal van zeven punten, die de individuele consistentie en groepsonpartijdigheid omvatte (Cronbachs 87; CVI 92). De tevredenheid van leerlingen werd beoordeeld met zes Likert-vragen die de bereidheid om te gebruiken en een waargenomen verbetering in vaardigheden aangaven (α = 0,85).

De variabelen werden gecontroleerd op basis van leeftijd, geslacht en schrijfervaring. Leeftijd werd verdeeld in drie groepen (18-22 jaar, 23-28 jaar en ≥29 jaar), en geslacht werd ingedeeld in man en vrouw. Schrijfervaring werd per jaar ingedeeld in drie niveaus van frequentie.

Schrijfopdrachtteksten

Gestandaardiseerde betogende essayopdrachten werden opgesteld om schrijfgegevens te verkrijgen voor drie neutrale onderwerpen: de impact van globalisering op lokale culturen, de voordelen en uitdagingen van online onderwijs, en de ethische grenzen van kunstmatige intelligentie. Deze thema's waren gericht op het balanceren van cognitieve moeilijkheid en toegankelijkheid enerzijds, en het verminderen van prestatieverschillen door eerdere kennis anderzijds. De verdeling van onderwerpen en beschrijvende statistieken voor essaylengte worden weergegeven in Tabel 2.

Elk essay moest 250 woorden zijn ±10% en binnen 45 minuten geschreven op een Moodle-gebaseerd platform. Hulpgereedschappen waren verboden en late inzendingen werden uitgesloten. De essays volgden een gestandaardiseerde structuur van inleiding, twee argumentatieparagrafen en conclusie. In totaal werden 764 geldige essays verzameld, met een gemiddelde lengte van 252,3 woorden (SD = 8,7).

Vergelijkingsgegevens van scores

De nauwkeurigheid van AWE-scoring werd beoordeeld met een dubbele procedure waarbij ETS-criterie-uitkomsten werden gecombineerd met menselijke expertbeoordelingen. Scores werden opgehaald van Criterion via de open API. Drie taalkundigen met meer dan tien jaar beoordelingservaring beoordeelden onafhankelijk alle essays. Voor de formele scoring voltooiden de beoordelaars drie kalibratiesessies. Tijdens de kalibratie bereikte de betrouwbaarheid tussen de beoordelaars ICC = 0,87; tijdens formele scoring steeg ICC tot 0,91, met dimensie-specifieke ICC's boven 0,88. Essays met scoreverschillen van meer dan twee punten werden gezamenlijk opgelost (18 gevallen). De scoreworkflow en betrouwbaarheidsresultaten worden samengevat in Tabel 3.

Leerlingperceptievragenlijst

De percepties van leerlingen over AI-feedback werden vastgelegd via een vragenlijst van 22 items gebaseerd op de TAM en uitgebreid met eerlijkheid. Het instrument bevatte drie domeinen: eerlijkheidsperceptie (8 items), tevredenheid (6 items) en moderatieve factoren zoals begrijpelijkheid en transparantie (8 items). Validatie door vijf experts leverde een CVI van 0,92 op, en pilottests met 60 leerlingen leverden een algehele betrouwbaarheid van α = 0,90 op. De vragenlijststructuur en psychometrische indices zijn weergegeven in Tabel 4.

Vragenlijsten in de hoofdstudie werden direct na het indienen van de essays afgenomen, en er waren minimale voltooiingstijden om gedachteloze voltooiing te verminderen. Van de 764 uitgevoerde enquêtes waren er 756 geldig na kwaliteitscontroles, en werd een resulterend effectief percentage van 98,95 behaald.

Dataverzameling en kwaliteitscontrole

De gegevens werden 8 weken (maart-april 2024) geregistreerd in vier fasen: werving en toestemming; essay schrijven; dubbele scoring en vragenlijstverdeling; en het samenstellen van de database. De vaardigheidscertificaten op basis van de schrijfprestaties vóór de les werden beoordeeld via een dubbele selectie, waarbij 16 deelnemers werden geëlimineerd. Vier mogelijke gevallen van valsspelen werden geëlimineerd door realtime monitoring, en drie verdachte AI-prestaties (afwijkingen van minstens 8 punten) werden vervolgens aangepast na een handmatige beoordeling. Acht ongeldige vragenlijsten werden geëlimineerd op basis van omgekeerde itemconsistentiecontroles.

Gegevensopslag en ethiek

Alle gegevens werden geanonimiseerd en opgeslagen met unieke identificaties die bestonden uit de moedertaal, vaardigheidsniveau en serienummer. Teksten, scores en vragenlijsten werden versleuteld en opgeslagen op ISO27001-conforme servers met beperkte toegang. De gegevens worden 3 jaar bewaard voordat ze permanent worden verwijderd. Ethische goedkeuring werd verkregen van de institutionele beoordelingscommissie en schriftelijke geïnformeerde toestemming werd van alle deelnemers verkregen.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De sectie presenteert de onderzoeksresultaten op basis van vijf analytische dimensies: experimenteel ontwerp, deelnemerskenmerken, nauwkeurigheid van scores, eerlijkheidsbeoordeling en modellering van leren en perceptie. De uitkomsten omvatten statistische prestaties, groepsverschillen, billijkheidsverschillen en SEM-gebaseerde mediation en moderatie.

Experimentele opstelling

De belangrijkste softwarestappen waren het instellen van ETS Criterion via...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het onderzoek onderzocht een AWE-systeem onder een drielaagse benadering, met technische nauwkeurigheid, groeps- en individuele eerlijkheid en perceptie door lerende, en stelde vast dat de algehele validiteit en systematische groepsverschillen tegelijkertijd aanwezig zijn. Er waren sterke correlaties tussen AI- en expertbeoordelingen (aggregate r = 0,82), maar er werden verschillen waargenomen per subgroep (native r = 0,89 vs. niet-native r = 0,76; Chinees r = 0,72; Tabel 6). De verdelin...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteur heeft geen belangenconflicten om te melden.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Gegevensopslagsysteem	Gecodeerde, toegangsgecontroleerde servers voor het opslaan van geanonimiseerde gegevens.	Institutionele servers	STORAGE-002
ETS-criteriumsysteem	AI-ondersteund schrijfevaluatiesysteem dat wordt gebruikt voor het scoren van de schrijftaken.	Educational Testing Service (ETS)	ETS-001
Gereedschappen voor eerlijkheids- en nauwkeurigheidsanalyse	Gereedschappen voor RMSE, Equalized Odds en statistische analyse.	Aangepaste scripts/statistische pakketten	TOOL-FA-001
Beoordelingen door menselijke experts	Onafhankelijke beoordelingen door drie taalkundigen met meer dan 10 jaar ervaring.	Interne beoordelaars	HR-EXP-003
Vragenlijst over perceptie van leerlingen	Een vragenlijst met 8 items over eerlijkheid en tevredenheid, beoordeeld op een 7-punts Likert-schaal.	Intern ontwikkeld	QUES-008
Statistisch software (R 4.3.1)	Gebaten voor gegevensanalyse, inclusief SEM (Structurele vergelijkingsmodellering).	R Foundation	R-SW-431
Gegevens van gestratificeerde willekeurige steekproeven	Gegevens verzameld van 764 meertalige leerlingen met CEFR-niveaus A2 tot C1.	Studiedeelnemers	DATA-764
Vragen voor schrijftaken	Drie gestandaardiseerde essayonderwerpen over globalisering, online onderwijs en AI-ethiek.	Moodle-gebaseerd platform	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Uitleg AI-kader voor nauwkeurigheid, eerlijkheid en leerlingperceptie in Engelse schrijfbeoordeling

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles