Research Article

Framework AI spiegabile per accuratezza, equità e percezione degli studenti nella valutazione della scrittura in inglese

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio sviluppa un quadro di valutazione a tre livelli e un modello di mediazione dell'equità per valutare i sistemi di scrittura inglese assistiti dall'IA. Utilizzando 764 campioni interlinguistici, i risultati mostrano disparità di accuratezza, bias di equità contro studenti non nativi (specialmente il livello di competenza del cinese A2) e la percezione dell'equità come mediatore chiave della soddisfazione degli utenti, offrendo implicazioni teoriche e pratiche.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nel contesto della trasformazione digitale educativa globale, la valutazione automatica della scrittura (AWE) è stata ampiamente adottata grazie ai suoi vantaggi in tempo reale e standardizzati; Tuttavia, i tradizionali quadri orientati all'accuratezza spesso trascurano le preoccupazioni sull'equità e le percezioni degli studenti, limitando così la trasparenza e il valore educativo. Per affrontare questa limitazione, questa ricerca propone un framework di IA spiegabile (XAI) progettato per fornire feedback trasparente e interpretabile, permettendo agli studenti di comprendere e fidarsi della valutazione automatizzata, e integra un modello di validazione multilivello, il Three-Level Evaluation Framework (TLEF), che comprende accuratezza tecnica, equità di gruppo e individuale, e percezione degli studenti, insieme al AI Fairness Mediation Model (AFMM). Utilizzando campionamenti casuali stratificati, sono stati raccolti dati da 764 studenti multilingue (madrelingua inglese, cinese e spagnolo) attraverso i livelli A2 a C1 del Common European Framework of Reference for Languages (CEFR) da A2 a C1 attraverso compiti di scrittura, doppia valutazione da parte di IA ed esperti umani, e questionari strutturati. Invece di elencare i singoli test, sono state impiegate analisi statistiche multiple per esaminare validità, equità e la relazione studente-percezione. Le analisi statistiche hanno combinato correlazione con errore quadratico medio radice (RMSE), test di probabilità equalizzata e modellazione delle equazioni strutturali (SEM). I risultati rivelano che, sebbene il sistema di valutazione della scrittura assistita dall'IA (AWE) (Criterio ETS) raggiunga la validità complessiva (r = 0,82), rimangono disparità significative: i madrelingua cinesi mostrano la più bassa concordanza con i valutatori umani (0,72) e la RMSE più alta (mediana 2,15), i bias di equità sono più marcati ai livelli di competenza più bassi (ΔEO = 0,15 per gli studenti A2), e la percepita equità media pienamente il legame tra accuratezza percepita e soddisfazione dello studente, con competenza nella moderazione della sensibilità alla giustizia. Riformulando equità e percezione come dimensioni essenziali della spiegabilità, la ricerca rafforza la base teorica dell'AWE e offre un percorso pratico per aumentare la trasparenza, l'equità e l'accettazione sociale nelle tecnologie educative.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'intensa globalizzazione dell'istruzione e delle tecnologie digitali ha aumentato la necessità di valutare scientificamente e credibilmente il livello di scrittura in inglese per l'insegnamento delle lingue, lo sviluppo accademico e l'avanzamentoprofessionale 1. Le valutazioni convenzionali della scrittura, come praticate dalla valutazione umana, possono misurare aspetti soggettivi della scrittura come la completezza dell'argomentazione e l'adeguatezzaculturale 2, ma sono soggette a lunghi tempi di consegna, elevati costi di manodopera e pregiudizi dovuti all'esperienza e alle inclinazi....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il processo di approvazione etica e reclutamento dei partecipanti, inclusa l'amministrazione del saggio, il doppio punteggio da parte di ETS Criterion ed esperti, la valutazione della percezione dello studente e l'analisi statistica, sono riassunti in questa sezione. Evidenzia come accuratezza, equità e modellazione della percezione basata su SEM siano integrate in una pipeline unificata di validazione XAI. Il framework di valutazione AWE guidato da XAI è illustrato nella Figura 1.

Procedura:

La procedura prevedeva diversi passaggi. ....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La sezione presenta i risultati della ricerca basati su cinque dimensioni analitiche: disegno sperimentale, caratteristiche dei partecipanti, accuratezza dei punteggi, valutazione dell'equità e modellazione dell'apprendimento e della percezione. Gli esiti includono la performance statistica, le differenze tra i gruppi, le disparità di equità e la mediazione e moderazione basate sul SEM.

Configurazione sperimentale

I.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La ricerca ha esplorato un sistema AWE sotto un approccio a tre livelli, comprendendo accuratezza tecnica, equità di gruppo e individuale, percezione dello studente, e ha identificato che la validità complessiva e le differenze sistematiche tra i gruppi sono presenti simultaneamente. Sono state osservate forti correlazioni tra AI e valutazioni degli esperti (aggregato r = 0,82), ma sono state osservate differenze per sottogruppo (nativo r = 0,89 vs. non nativo r = 0,76; Cinese r = 0,72; .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'autore non ha conflitti di interesse da divulgare.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
forteServer criptati e controllati per l'accesso per la memorizzazione di dati anonimizzati.Server istituzionaliSTORAGE-002
Sistema Criterio ETSSistema di valutazione della scrittura assistita dall'IA utilizzato per valutare i compiti di scrittura.Servizio di Test Educativi (ETS)ETS-001
Strumenti di Analisi di Equità e AccuratezzaStrumenti per RMSE, Equalized Odds e analisi statistica.Script personalizzati/pacchetti di statisticheTOOL-FA-001
Valutazioni Esperti UmaniValutazioni indipendenti fornite da tre linguisti con oltre 10 anni di esperienza.Valutatori interniHR-EXP-003
Questionario di percezione dello studenteUn questionario di 8 item su equità e soddisfazione, valutato su una scala Likert di 7 punti.Sviluppo internoQUES-008
Software Statistico (R 4.3.1)Utilizzato per l'analisi dei dati, incluso il SEM (Structural Equation Modeling).Fondazione RR-SW-431
Dati di campionamento casuale stratificatoDati raccolti da 764 studenti multilingue tra i livelli CEFR da A2 a C1.Partecipanti allo studioDATA-764
Prompt per compiti di scritturaTre argomenti standardizzati su globalizzazione, istruzione online ed etica dell'IA.Piattaforma basata su MoodlePROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles