Framework AI spiegabile per accuratezza, equità e percezione degli studenti nella valutazione della scrittura in inglese

Meili Dai

doi:10.3791/69841

Research Article

Framework AI spiegabile per accuratezza, equità e percezione degli studenti nella valutazione della scrittura in inglese

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio sviluppa un quadro di valutazione a tre livelli e un modello di mediazione dell'equità per valutare i sistemi di scrittura inglese assistiti dall'IA. Utilizzando 764 campioni interlinguistici, i risultati mostrano disparità di accuratezza, bias di equità contro studenti non nativi (specialmente il livello di competenza del cinese A2) e la percezione dell'equità come mediatore chiave della soddisfazione degli utenti, offrendo implicazioni teoriche e pratiche.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nel contesto della trasformazione digitale educativa globale, la valutazione automatica della scrittura (AWE) è stata ampiamente adottata grazie ai suoi vantaggi in tempo reale e standardizzati; Tuttavia, i tradizionali quadri orientati all'accuratezza spesso trascurano le preoccupazioni sull'equità e le percezioni degli studenti, limitando così la trasparenza e il valore educativo. Per affrontare questa limitazione, questa ricerca propone un framework di IA spiegabile (XAI) progettato per fornire feedback trasparente e interpretabile, permettendo agli studenti di comprendere e fidarsi della valutazione automatizzata, e integra un modello di validazione multilivello, il Three-Level Evaluation Framework (TLEF), che comprende accuratezza tecnica, equità di gruppo e individuale, e percezione degli studenti, insieme al AI Fairness Mediation Model (AFMM). Utilizzando campionamenti casuali stratificati, sono stati raccolti dati da 764 studenti multilingue (madrelingua inglese, cinese e spagnolo) attraverso i livelli A2 a C1 del Common European Framework of Reference for Languages (CEFR) da A2 a C1 attraverso compiti di scrittura, doppia valutazione da parte di IA ed esperti umani, e questionari strutturati. Invece di elencare i singoli test, sono state impiegate analisi statistiche multiple per esaminare validità, equità e la relazione studente-percezione. Le analisi statistiche hanno combinato correlazione con errore quadratico medio radice (RMSE), test di probabilità equalizzata e modellazione delle equazioni strutturali (SEM). I risultati rivelano che, sebbene il sistema di valutazione della scrittura assistita dall'IA (AWE) (Criterio ETS) raggiunga la validità complessiva (r = 0,82), rimangono disparità significative: i madrelingua cinesi mostrano la più bassa concordanza con i valutatori umani (0,72) e la RMSE più alta (mediana 2,15), i bias di equità sono più marcati ai livelli di competenza più bassi (ΔEO = 0,15 per gli studenti A2), e la percepita equità media pienamente il legame tra accuratezza percepita e soddisfazione dello studente, con competenza nella moderazione della sensibilità alla giustizia. Riformulando equità e percezione come dimensioni essenziali della spiegabilità, la ricerca rafforza la base teorica dell'AWE e offre un percorso pratico per aumentare la trasparenza, l'equità e l'accettazione sociale nelle tecnologie educative.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'intensa globalizzazione dell'istruzione e delle tecnologie digitali ha aumentato la necessità di valutare scientificamente e credibilmente il livello di scrittura in inglese per l'insegnamento delle lingue, lo sviluppo accademico e l'avanzamento^{professionale 1}. Le valutazioni convenzionali della scrittura, come praticate dalla valutazione umana, possono misurare aspetti soggettivi della scrittura come la completezza dell'argomentazione e l'adeguatezza^{culturale 2}, ma sono soggette a lunghi tempi di consegna, elevati costi di manodopera e pregiudizi dovuti all'esperienza e alle inclinazioni del^valutatore ^3,4. Questi vincoli sono particolarmente severi nelle pratiche su larga scala, come i test di lingua internazionale (IELTS, TOEFL) o altri corsi di inglese tenuti nelle università dove il punteggio manuale non può essere tutto ciò che è richiesto in termini di feedback immediato e^{copertura 5}.

I sistemi AWE sono diventati ampiamente utilizzati in questo contesto grazie alla loro elaborazione in tempo reale, standardizzazione e scalabilità⁶. Strumenti popolari come Grammarly (che si concentra sugli errori grammaticali e sul perfezionamento dello stile) ed ETS Criterion (che aderisce alle norme formali di scrittura) sono attualmente utilizzati da milioni di studenti nell'istruzione K-12, nelle scuole di lingue, nell'istruzione superiore e nella formazione^{individuale 7}. Sebbene questi siano i vantaggi, l'efficienza tecnologica e l'applicabilità educativa dei sistemi AWE sono ancora oggetto di^discussione. Tecnicamente parlando, i sistemi esistenti sono altamente accurati nelle dimensioni oggettive, inclusa la rilevazione degli errori e la diversità lessicale, dove la correlazione con la valutazione umana può essere superiore a 0,85⁹. Tuttavia, in aree più soggettive, come la rilevanza del contenuto, l'argomentazione logica e l'organizzazione di un testo, le correlazioni spesso diventano inferiori a 0,70-10. Tale sproporzione rischia di promuovere un'accuratezza superficiale tra gli studenti a scapito della competenza complessiva nella^{scrittura 11}.

La questione dell'equità limita anche l'utilità educativa dell'AWE. Gli studi attuali tendono anche a concentrarsi sugli indicatori aggregati di accuratezza, trascurando la possibilità di deviazioni che svantaggiano sistematicamente alcuni gruppi¹². In modo indicativo, le caratteristiche dell'interlingua condivise da studenti di cinese o spagnolo verrebbero scambiate per errori, e ciò porterebbe a una sottostima^sistematica ^13,14. Inoltre, l'accettazione soggettiva del feedback dell'IA da parte degli studenti è generalmente poco nota¹⁵. I sondaggi indicano che quasi un terzo degli studenti non nativi riporta un'inadeguatezza tra i punteggi dell'IA e le prestazioni effettive, con i processi di accuratezza tecnica, equità di gruppo e soddisfazione degli studenti ancora poco^{compresi 16}.

Queste debolezze riflettono le carenze del paradigma classico^{dell'accuratezza 17}. Un quadro che considera solo l'allineamento tra IA e punteggio umano non può catturare questioni di equità o della fiducia dello studente nel sistema. In pratica, il valore educativo dell'AWE deve soddisfare tre condizioni contemporaneamente: precisione tecnica, equità tra i gruppi e accettazione da parte degli studenti¹⁸. L'assenza di un approccio di validazione così completo aiuta a spiegare perché i sistemi AWE godono di un'ampia adozione ma di una fiducia limitata nella pratica educativa^19,20.

Per affrontare questa sfida, il presente studio introduce un quadro di validazione multilivello che integra accuratezza tecnica, equità di gruppo e individuale, e percezione dello studente in una struttura coerente. Il framework XAI proposto è progettato per essere implementato in modo pratico all'interno delle piattaforme AWE esistenti, fornendo a insegnanti e studenti diagnostiche di equità e spiegazioni trasparenti dei punteggi, e può essere applicato in corsi di scrittura o corsi di preparazione ai test per valutarne la capacità di migliorare equità, interpretabilità e utilità didattica in contesti reali di valutazione.

In questo contesto, l'ipotesi è un AFMM per indagare il ruolo mediatore della percepita equità nel determinare la relazione tra accuratezza e soddisfazione, così come il ruolo moderatore della competenza linguistica sulla sensibilità all'equità. Pertanto, contribuisce in due modi: sia teoricamente arricchendo i modelli di valutazione dell'AWE descrivendo l'equità come una delle principali dimensioni di validazione insieme all'accuratezza e alla percezione, sia praticamente, fornendo agli sviluppatori strategie per massimizzare l'equità, educatori con criteri di selezione del sistema sensibili al gruppo, e il valore educativo dell'AWE spiegando il modo in cui si formano le percezioni degli studenti. Oltre all'educazione, il quadro è anche allineato al concetto più ampio di XAI, dimostrando come equità e percezione degli utenti possano migliorare trasparenza, fiducia e accettazione in altri ambiti, come la sanità, i sistemi autonomi e la cybersecurity.

Domande di ricerca:

1.To che misura il sistema AWE dimostra accuratezza tecnica ed equità tra i diversi gruppi di lingua madre e di competenza?

2. In che modo un framework di valutazione multilivello basato su XAI può migliorare la trasparenza e l'equità nella valutazione automatica della scrittura in inglese?

REVISIONE DELLA LETTERATURA:

I fattori che influenzano l'accettazione del feedback AWE da parte degli studenti sono stati esaminati utilizzando un Technology Acceptance Model (TAM)²¹ esteso. Sulla base dei dati di un sondaggio condotto da 448 studenti cinesi che utilizzavano SEM, è stato determinato che utilità, facilità d'uso e intenzione avevano un'influenza significativa sulle norme soggettive, sulla fiducia, sull'autoefficacia, sul feedback cognitivo e sulle caratteristiche del sistema. Tuttavia, lo studio è stato limitato a una singola nazione e a un singolo gruppo di studenti, il che limita l'applicabilità della generalizzazione. Per esplorare come gli studenti cinesi di inglese inglese rispondano ai feedback del Pigai^{AWE 22}, uno studio ha analizzato le ripetute presentazioni (n = 5) da parte di studenti universitari. Ha evidenziato un'enfasi precoce sulla correzione degli errori, una bassa assimilazione di feedback linguistico e un graduale approfondimento della risposta. Tuttavia, la dimensione del campione era molto limitata, così come il sistema AWE, che limita l'applicabilità e la generalizzabilità. Le convinzioni degli insegnanti di inglese inglese riguardo all'applicazione dello strumento di valutazione AI (CoGrader) sono state esaminate per identificare i fattori che influenzano le loro^{opinioni 23}. Attraverso uno studio a metodi misti su 10 insegnanti universitari sauditi, un sondaggio e un'intervista hanno rivelato che c'era un'opinione positiva mista, ma una riluttanza a essere completamente certi dell'affidabilità e della sostituzione completa degli insegnanti. Ciò ostacola la generalizzazione a causa del campione limitato e dell'impostazione di un solo paese.

Considerando gli sviluppi nella linguistica dei corpus e nella tecnologia dell'IA, uno studio ha indagato i framework^{AES 24}. Ha impiegato PCA per migliorare gli indicatori linguistici nella valutazione della qualità della scrittura e ha scoperto che combinare micro-caratteristiche con caratteristiche aggregate definiva la qualità della scrittura in modo più efficace rispetto alle caratteristiche aggregate da sole. L'approccio AES non lineare basato sulla Regressione della Foresta Casuale ha superato gli altri approcci. Inoltre, SHAP ha identificato elementi essenziali del linguaggio per ogni attributo valutato, aumentando la trasparenza del sistema tramite un'IA spiegabile. I risultati potrebbero contribuire a migliorare i metodi multidimensionali nella scrittura, nella valutazione e nell'educazione. Il sistema di collaborazione uomo-macchina è stato introdotto per affrontare le sfide dell'annotazione degli scritti arabi, spesso costose e dispendiose in termini di tempo. Il metodo considera saggi basati su sette aspetti della letteratura con l'aiuto di un LLM. I processi di validazione e le tattiche di prompting sono stati personalizzati per garantire coerenza e accuratezza. La cooperazione comporta un aumento dell'offerta di risorse etichettate e non influisce sulla qualità della valutazione, dimostrando che è un metodo scalabile di annotazione dati adatto a linguaggi con risorse più basse.

L'uso dell'IA nell'ambito educativo offre l'opportunità di ridurre significativamente i requisiti di valutazione e migliorare l'educazione alla^scrittura ^25,26. Allo stesso tempo, i ricercatori hanno sottolineato che l'accuratezza dell'IA non è l'unico aspetto rilevante per il suo uso responsabile. Esistono principi di equità e riduzione dei pregiudizi, sicurezza e privacy, responsabilità, spiegabilità, trasparenza, effetto educativo, integrità e sviluppo continuo. Ricerche recenti hanno valutato empiricamente la punteggio zero-shot basata su GPT-4o, concentrandosi su questi requisiti. La ricerca si è concentrata sulle percezioni che gli educatori avevano nei confronti degli ADWT riguardo all'aspetto dell'integrità educativa²⁷. Lo studio trasversale che coinvolge 100 studenti e professori di dottorato in 10 materie suggerisce che, nonostante gli insegnanti attribuiscano i benefici degli ADWT nel raggiungere l'obiettivo educativo, essi presentano alcune limitazioni, come accessibilità limitata, mancanza di conoscenza e preoccupazione per il loro impatto su integrità e creatività. La ricerca ha suggerito che, man mano che le tecnologie di IA si integrano maggiormente nell'istruzione, sono necessarie preoccupazioni etiche e la partecipazione degli stakeholder per il loro uso di successo e responsabilità. La ricerca ha indagato l'efficacia delle tecnologie di IA rispetto a quelle dei valutatori umani nella valutazione dei saggi presentati da studenti^{EFL 28}. La valutazione di 30 saggi ha rivelato che, sebbene l'IA offrisse commenti di alta qualità in termini di contenuto, linguaggio, organizzazione e correttezza, forniva costantemente valutazioni più basse rispetto ai valutatori umani. Inoltre, l'IA forniva un feedback più approfondito, ma i punteggi dei vari strumenti di IA non erano sostanzialmente diversi.

Lacuna nella ricerca:

Attualmente, la maggior parte delle ricerche sulla borsa di studio AWE esamina sia l'accuratezza sia l'accettazione da parte degli utenti. Pochissimi esaminano se le differenze di punteggio svantaggiano sistematicamente la lingua madre o i gruppi di competenza. Sebbene studi precedenti abbiano esaminato l'accettazione da parte degli utenti o siano limitati a uno specifico sistema AWE di un determinato paese e dimensione del campione, sorgono dubbi sulla generalizzabilità. Sebbene sia SHAP che PCA siano strategie XAI e siano state sviluppate per aumentare la trasparenza, nessuno studio ha esaminato i meccanismi di equità o come gli studenti utilizzano il feedback dell'IA dall'AWE. Non esistono quadri estesi nella letteratura che contemplino dimensioni definite di accuratezza, analisi dell'equità e percezioni degli apprendenti. Non esiste un esempio di modello spiegabile di valutazione che consideri l'accuratezza intra- e inter-valutatore, l'equità e la percezione degli apprendenti. In questa ricerca vengono proposti e validati un quadro spiegabile, TLEF, e un modello combinato, AFMM, per valutare accuratezza, equità e percezione degli studenti contemporaneamente tra studenti multilingue e con competenze diverse.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il processo di approvazione etica e reclutamento dei partecipanti, inclusa l'amministrazione del saggio, il doppio punteggio da parte di ETS Criterion ed esperti, la valutazione della percezione dello studente e l'analisi statistica, sono riassunti in questa sezione. Evidenzia come accuratezza, equità e modellazione della percezione basata su SEM siano integrate in una pipeline unificata di validazione XAI. Il framework di valutazione AWE guidato da XAI è illustrato nella Figura 1.

Procedura:

La procedura prevedeva diversi passaggi. Innanzitutto, è stata ottenuta l'approvazione dell'IRB e il consenso informato è stato raccolto da tutti i partecipanti. Sono state quindi definite variabili indipendenti, dipendenti e di controllo. I compiti standardizzati di scrittura sono stati gestiti su Moodle utilizzando tre argomenti neutrali per saggi, e sono stati raccolti campioni di scrittura garantendo il rispetto dei requisiti del saggio, come il numero di parole, il limite di tempo e la struttura. La doppia valutazione è stata effettuata utilizzando i risultati del criterio ETS combinati con valutazioni di esperti umani. I questionari sulla percezione degli studenti sono stati distribuiti immediatamente dopo la consegna del saggio. Sono state implementate procedure di screening dei dati e controllo qualità per affrontare anomalie, come imbroglio o risposte non valide. Sono state applicate anche soglie di analisi di equità (ΔEO, RMSE checks). Infine, tutti i dati anonimizzati venivano memorizzati in modo sicuro su server criptati e controllati dagli accessi.

Approvazione etica e consenso informato

Questo studio ha ricevuto l'approvazione etica dal Consiglio di Revisione Istituzionale dell'istituzione degli autori. Tutte le procedure sono state condotte in conformità con la Dichiarazione di Helsinki e le normative applicabili. Tutti i partecipanti erano adulti (≥18 anni) e fornivano un consenso informato scritto prima della partecipazione. I campioni di scrittura e le risposte al questionario venivano de-identificati alla sorgente e memorizzati su server criptati con accesso controllato; Solo gli investigatori autorizzati avevano accesso. I valutatori umani erano accecati alla lingua madre, al livello di competenza e alla demografia dei partecipanti. La partecipazione era volontaria, con diritto di ritirarsi in qualsiasi momento, e non erano coinvolti inganni o interventi sensibili. La documentazione formale di approvazione può essere fornita alla rivista su richiesta.

Progettazione variabile

Nello studio sono stati definiti in totale tre gruppi di variabili per guidare l'analisi. La Tabella 1 riassume i tipi di misura e dati utilizzati nei metodi di misura per ciascun costrutto e fornisce le definizioni operative complete delle variabili indipendenti, dipendenti e di controllo.

La precisione dei punteggi AI è stata la prima variabile indipendente valutata in termini di coefficiente di correlazione RMSE e Pearson (r) tra i risultati del Criterio ETS e le valutazioni degli esperti. La calibrazione eseguita dagli esperti ha prodotto un ICC di 0,91, che ha validato l'affidabilità.

La seconda variabile indipendente era il background linguistico degli studenti, suddiviso in madrelingua e non madrelingua, e ulteriormente suddivisa in cinesi, spagnoli, arabi e altri gruppi. Gli studenti cinesi erano una delle popolazioni target perché sono state osservate indicazioni preliminari di sottostima sistematica.

La terza variabile indipendente era la competenza nella scrittura, valutata secondo i livelli CEFR da A2 a C1, come confermato dai certificati ufficiali e dai test di competenza pre-classe, ed era anch'essa allineata alle equivalenze IELTS. Un altro moderatore introdotto nel Modello di Mediazione dell'Equità AI è stato scrivere la competenza per testare se la sensibilità all'equità differisce tra i livelli di competenza.

La percezione dell'equità e la soddisfazione dello studente erano le variabili dipendenti. La percezione di equità è stata valutata tramite un questionario di otto item valutato su una scala Likert di sette punti, che includeva la coerenza individuale e l'imparzialità di gruppo (Cronbachs 87; CVI 92). La soddisfazione degli studenti è stata valutata utilizzando sei domande di Likert che indicavano la disponibilità a usare e il miglioramento percepito delle competenze (α = 0,85).

Le variabili sono state controllate in termini di età, sesso ed esperienza di scrittura. L'età era divisa in tre gruppi (18-22 anni, 23-28 anni e ≥29 anni), e il genere era classificato in maschi e femmine. L'esperienza di scrittura era suddivisa in tre livelli di frequenza all'anno.

Scrivere testi di compiti

Sono stati formulati spunti standardizzati per saggi argomentativi per ottenere dati di scrittura su tre argomenti neutrali: l'impatto della globalizzazione sulle culture locali, vantaggi e sfide dell'istruzione online e confini etici dell'intelligenza artificiale. Questi temi miravano a bilanciare difficoltà cognitive e accessibilità da un lato, e ridurre le differenze di prestazioni dovute alle conoscenze precedenti dall'altro. La distribuzione degli argomenti e delle statistiche descrittive per la lunghezza del saggio sono riportate nella Tabella 2.

Ogni saggio doveva essere composto da 250 parole ±10% e scritto entro 45 minuti su una piattaforma basata su Moodle. Gli strumenti ausiliari erano vietati e le presentazioni tardive erano escluse. I saggi seguivano una struttura standardizzata di introduzione, due paragrafi argomentativi e conclusione. In totale, sono stati raccolti 764 saggi validi, con una lunghezza media di 252,3 parole (SD = 8,7).

Dati di confronto dei punteggi

L'accuratezza della valutazione AWE è stata valutata utilizzando una procedura doppia che combinava i risultati del Criterio ETS con le valutazioni degli esperti umani. I punteggi sono stati recuperati da Criterion tramite la sua API aperta. Tre linguisti con oltre dieci anni di esperienza nella valutazione hanno valutato in modo indipendente tutti i saggi. Prima della valutazione formale, i valutatori hanno completato tre sessioni di calibrazione. Durante la calibrazione, l'affidabilità tra valutatori raggiunse ICC = 0,87; durante la valutazione formale, l'ICC è salito a 0,91, con ICC specifici per dimensione sopra 0,88. I saggi con discrepanze di punteggio superiori a due punti sono stati risolti collettivamente (18 casi). Il flusso di lavoro di valutazione e i risultati sull'affidabilità sono riassunti nella Tabella 3.

Questionario sulla percezione dello studente

Le percezioni degli studenti sul feedback dell'IA sono state catturate attraverso un questionario di 22 item basato sul TAM ed esteso per includere l'equità. Lo strumento conteneva tre domini: percezione dell'equità (8 elementi), soddisfazione (6 item) e fattori moderatori come comprensibilità e trasparenza (8 elementi). La validazione da parte di cinque esperti ha prodotto un CVI di 0,92, e i test pilota con 60 studenti hanno prodotto un'affidabilità complessiva di α = 0,90. La struttura del questionario e gli indici psicometrici sono forniti nella Tabella 4.

I questionari nello studio principale venivano somministrati subito dopo la consegna dei saggi, e c'erano requisiti minimi di tempo di completamento per ridurre il completamento superficiale. Dei 764 sondaggi emessi, 756 erano validi dopo i controlli di qualità, ottenendo un tasso effettivo di 98,95.

Raccolta dati e controllo qualità

I dati sono stati registrati per 8 settimane (marzo-aprile 2024) in quattro fasi: reclutamento e consenso; scrittura di saggi; doppia valutazione e distribuzione dei questionari; e la compilazione del database. I certificati di competenza basati sulle prestazioni di scrittura pre-classe sono stati esaminati tramite doppio screening, e questo processo ha eliminato 16 partecipanti. Quattro potenziali casi di imbroglio sono stati eliminati tramite monitoraggio in tempo reale, e tre prestazioni sospette dell'IA (deviazioni di almeno 8 punti) sono state successivamente modificate dopo una valutazione manuale. Otto questionari non validi sono stati eliminati sulla base di controlli di coerenza inversi degli elementi.

Archiviazione dei dati ed etica

Tutti i dati venivano anonimizzati e memorizzati utilizzando identificatori unici che comprendevano la lingua madre, il livello di competenza e il numero di serie. Testi, punteggi e questionari venivano criptati e memorizzati su server conformi ISO27001 con accesso limitato. I dati saranno conservati per 3 anni prima della cancellazione definitiva. L'approvazione etica è stata ottenuta dal comitato di revisione istituzionale e il consenso informato scritto è stato raccolto da tutti i partecipanti.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La sezione presenta i risultati della ricerca basati su cinque dimensioni analitiche: disegno sperimentale, caratteristiche dei partecipanti, accuratezza dei punteggi, valutazione dell'equità e modellazione dell'apprendimento e della percezione. Gli esiti includono la performance statistica, le differenze tra i gruppi, le disparità di equità e la mediazione e moderazione basate sul SEM.

Configurazione sperimentale

I passaggi chiave del software prev...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La ricerca ha esplorato un sistema AWE sotto un approccio a tre livelli, comprendendo accuratezza tecnica, equità di gruppo e individuale, percezione dello studente, e ha identificato che la validità complessiva e le differenze sistematiche tra i gruppi sono presenti simultaneamente. Sono state osservate forti correlazioni tra AI e valutazioni degli esperti (aggregato r = 0,82), ma sono state osservate differenze per sottogruppo (nativo r = 0,89 vs. non nativo r = 0,76; Cinese r = 0,72; ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'autore non ha conflitti di interesse da divulgare.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
forte	Server criptati e controllati per l'accesso per la memorizzazione di dati anonimizzati.	Server istituzionali	STORAGE-002
Sistema Criterio ETS	Sistema di valutazione della scrittura assistita dall'IA utilizzato per valutare i compiti di scrittura.	Servizio di Test Educativi (ETS)	ETS-001
Strumenti di Analisi di Equità e Accuratezza	Strumenti per RMSE, Equalized Odds e analisi statistica.	Script personalizzati/pacchetti di statistiche	TOOL-FA-001
Valutazioni Esperti Umani	Valutazioni indipendenti fornite da tre linguisti con oltre 10 anni di esperienza.	Valutatori interni	HR-EXP-003
Questionario di percezione dello studente	Un questionario di 8 item su equità e soddisfazione, valutato su una scala Likert di 7 punti.	Sviluppo interno	QUES-008
Software Statistico (R 4.3.1)	Utilizzato per l'analisi dei dati, incluso il SEM (Structural Equation Modeling).	Fondazione R	R-SW-431
Dati di campionamento casuale stratificato	Dati raccolti da 764 studenti multilingue tra i livelli CEFR da A2 a C1.	Partecipanti allo studio	DATA-764
Prompt per compiti di scrittura	Tre argomenti standardizzati su globalizzazione, istruzione online ed etica dell'IA.	Piattaforma basata su Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Framework AI spiegabile per accuratezza, equità e percezione degli studenti nella valutazione della scrittura in inglese

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles