Research Article

Wyjaśnialne ramy AI dla dokładności, sprawiedliwości i percepcji ucznia w ocenie pisania po angielsku

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Niniejsze badanie opracowuje trzypoziomowe ramy oceny oraz model mediacji sprawiedliwości do oceny systemów pisania angielskiego wspomaganego przez AI. Korzystając z 764 prób międzyjęzykowych, wyniki pokazują różnice w dokładności, stronniczość sprawiedliwości wobec uczniów niebędących native speakerami (szczególnie na poziomie biegłości chińskiego A2) oraz postrzeganie sprawiedliwości jako kluczowego mediatora satysfakcji użytkownika, oferując implikacje teoretyczne i praktyczne.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W kontekście globalnej transformacji cyfrowej edukacji powszechnie przyjęto zautomatyzowaną ewaluację pisania (AWE) ze względu na jej zalety w czasie rzeczywistym i standaryzowane; Jednak tradycyjne ramy nastawione na dokładność często pomijają kwestie równości i postrzeganie uczniów, co ogranicza przejrzystość i wartość edukacyjną. Aby zniwelować to ograniczenie, niniejsze badania proponują wyjaśnialny framework AI (XAI), zaprojektowany tak, by dostarczać przejrzystą i interpretowalną informację zwrotną, pozwalając uczniom zrozumieć i zaufać do zautomatyzowanej ewaluacji, a także integruje wielopoziomowy model walidacji, Trzypoziomowy Framework Oceny (TLEF), obejmujący techniczną dokładność, równość grupową i indywidualną oraz percepcję uczniów, wraz z modelem AI Fairness Mediation Model (AFMM). Za pomocą stratyfikowanego losowego próbkowania zebrano dane od 764 wielojęzycznych uczniów (native speakerów angielskiego, chińskiego i hiszpańskiego) na poziomach A2 do C1 według Europejskiego Systemu Odniesienia dla Języków (CEFR) poprzez zadania pisemne, podwójne ocenianie przez ekspertów AI i ludzi oraz ustrukturyzowane kwestionariusze. Zamiast wymieniać pojedyncze testy, zastosowano wiele analiz statystycznych w celu zbadania trafności, sprawiedliwości oraz relacji uczący się do percepcji. Analizy statystyczne łączyły korelację, średni średni błąd kwadratowy (RMSE), testy wyrównanych szans oraz modelowanie równań strukturalnych (SEM). Wyniki pokazują, że choć system oceny pisania wspomaganej AI (AWE) (kryterium ETS) osiąga ogólną ważność (r = 0,82), pozostają istotne różnice: native speakerzy chiński wykazują najniższą zgodność z ludzkimi oceniającymi (0,72) i najwyższy RMSE (mediana 2,15), błędy względem sprawiedliwości są najbardziej widoczne na niższych poziomach biegłości (ΔEO = 0,15 dla uczniów A2), a postrzegana sprawiedliwość w pełni pośredniczy związek między postrzeganą dokładnością a satysfakcją ucznia, z biegłością w moderowaniu wrażliwości na sprawiedliwość. Poprzez przekształcenie sprawiedliwości i postrzegania jako kluczowych wymiarów wyjaśnialności, badania te wzmacniają teoretyczne podstawy AWE i stanowią praktyczną ścieżkę do zwiększenia przejrzystości, równości i akceptacji społecznej w technologiach edukacyjnych.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Intensywna globalizacja edukacji i technologii cyfrowych zwiększyła potrzebę naukowej i wiarygodnej oceny poziomu pisania w języku angielskim w kontekście nauczania języków, rozwoju akademickiego i awansu kariery1. Tradycyjne oceny pisania, stosowane przez ludzką ocenę, mogą mierzyć subiektywne aspekty pisania, takie jak dokładność argumentacji i odpowiedniość kulturową2, ale są podatne na długie czasy realizacji, wysokie koszty robocizny oraz stronniczość wynikającą z doświadczenia i poglądów oceniających 3,4. Te ograniczenia są szczególnie dotkliwe w dużej prak....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Proces etycznej akceptacji i rekrutacji uczestników, w tym administracja eseju, podwójna ocena według kryterium ETS i ekspertów, ocena percepcji ucznia oraz analiza statystyczna, zostały podsumowane w tej sekcji. Podkreśla, jak dokładność, sprawiedliwość i modelowanie percepcji oparte na SEM są zintegrowane w jednolity pipeline walidacyjny XAI. Ramy oceny AWE oparte na XAI są zilustrowane na Rysunku 1.

Procedura:

Procedura składała się z kilku etapów. Najpierw uzyskano zgodę IRB oraz zebrano świadomą zgodę wszystkich uczestników. Następnie zdefiniowano zmienne niezal....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Sekcja przedstawia wyniki badań oparte na pięciu wymiarach analitycznych: projektowaniu eksperymentów, cechach uczestników, dokładności punktacji, ocenie sprawiedliwości oraz modelowaniu uczenia się i percepcji. Wyniki obejmują wyniki statystyczne, różnice grupowe, różnice w sprawiedliwości oraz mediację i moderację opartą na SEM.

Układ eksperymentalny

Kluczowe kroki programowe obejmowały skonfigurowanie ETS Criterion przez API do automatycznego oce.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badania obejmowały system AWE w podejściu trójpoziomowym, obejmującym dokładność techniczną, sprawiedliwość grupową i indywidualną oraz percepcję ucznia, i wykazało, że ogólna ważność i systematyczne różnice grupowe występują jednocześnie. Istniały silne korelacje między ocenami AI a ekspertami (łącznie r = 0,82), ale zaobserwowano różnice według podgrup (native r = 0,89 vs. nienative r = 0,76; Chiński r = 0,72; Tabela 6). Rozkłady RMSE wskazywały również na wyższe błędy i zmienność u uczniów chińskich (

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autor nie ma żadnych konfliktów interesów do ujawnienia.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
system przechowywania danychZaszyfrowane, kontrolowane serwery do przechowywania anonimowych danych.Serwery instytucjonalneSTORAGE-002
ETS System KryterialnySystem oceny pisania wspomagany przez AI do oceniania zadań pisemnych.Usługa Testowania Edukacyjnego (ETS)ETS-001
uczciwości i dokładnościNarzędzia do RMSE, wyrównanych szans i analizy statystycznej.Niestandardowe skrypty/pakiety statystykTOOL-FA-001
Niezależne oceny zapewnione przez trzech lingwistów z ponad 10-letnim doświadczeniem.Oceniający na miejscuHR-EXP-003
Ankieta Percepcji UczniaOśmiopunktowy kwestionariusz dotyczący sprawiedliwości i satysfakcji, oceniany na 7-punktowej skali Likerta.Opracowanie wewnętrzneQUES-008
Statistical Software (R 4.3.1)Wykorzystywane do analizy danych, w tym SEM (Structural Equation Modeling).Fundacja RR-SW-431
stratyfikowane dane losowego próbkowaniaDane zebrane od 764 wielojęzycznych uczących się na poziomach CEFR A2 do C1.Uczestnicy badaniaDATA-764
zadania do pisaniaTrzy tematy esejów standaryzowanych na temat globalizacji, edukacji online i etyki AI.Platforma oparta na MoodlePROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles