Wyjaśnialne ramy AI dla dokładności, sprawiedliwości i percepcji ucznia w ocenie pisania po angielsku

Meili Dai

doi:10.3791/69841

Research Article

Wyjaśnialne ramy AI dla dokładności, sprawiedliwości i percepcji ucznia w ocenie pisania po angielsku

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Niniejsze badanie opracowuje trzypoziomowe ramy oceny oraz model mediacji sprawiedliwości do oceny systemów pisania angielskiego wspomaganego przez AI. Korzystając z 764 prób międzyjęzykowych, wyniki pokazują różnice w dokładności, stronniczość sprawiedliwości wobec uczniów niebędących native speakerami (szczególnie na poziomie biegłości chińskiego A2) oraz postrzeganie sprawiedliwości jako kluczowego mediatora satysfakcji użytkownika, oferując implikacje teoretyczne i praktyczne.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W kontekście globalnej transformacji cyfrowej edukacji powszechnie przyjęto zautomatyzowaną ewaluację pisania (AWE) ze względu na jej zalety w czasie rzeczywistym i standaryzowane; Jednak tradycyjne ramy nastawione na dokładność często pomijają kwestie równości i postrzeganie uczniów, co ogranicza przejrzystość i wartość edukacyjną. Aby zniwelować to ograniczenie, niniejsze badania proponują wyjaśnialny framework AI (XAI), zaprojektowany tak, by dostarczać przejrzystą i interpretowalną informację zwrotną, pozwalając uczniom zrozumieć i zaufać do zautomatyzowanej ewaluacji, a także integruje wielopoziomowy model walidacji, Trzypoziomowy Framework Oceny (TLEF), obejmujący techniczną dokładność, równość grupową i indywidualną oraz percepcję uczniów, wraz z modelem AI Fairness Mediation Model (AFMM). Za pomocą stratyfikowanego losowego próbkowania zebrano dane od 764 wielojęzycznych uczniów (native speakerów angielskiego, chińskiego i hiszpańskiego) na poziomach A2 do C1 według Europejskiego Systemu Odniesienia dla Języków (CEFR) poprzez zadania pisemne, podwójne ocenianie przez ekspertów AI i ludzi oraz ustrukturyzowane kwestionariusze. Zamiast wymieniać pojedyncze testy, zastosowano wiele analiz statystycznych w celu zbadania trafności, sprawiedliwości oraz relacji uczący się do percepcji. Analizy statystyczne łączyły korelację, średni średni błąd kwadratowy (RMSE), testy wyrównanych szans oraz modelowanie równań strukturalnych (SEM). Wyniki pokazują, że choć system oceny pisania wspomaganej AI (AWE) (kryterium ETS) osiąga ogólną ważność (r = 0,82), pozostają istotne różnice: native speakerzy chiński wykazują najniższą zgodność z ludzkimi oceniającymi (0,72) i najwyższy RMSE (mediana 2,15), błędy względem sprawiedliwości są najbardziej widoczne na niższych poziomach biegłości (ΔEO = 0,15 dla uczniów A2), a postrzegana sprawiedliwość w pełni pośredniczy związek między postrzeganą dokładnością a satysfakcją ucznia, z biegłością w moderowaniu wrażliwości na sprawiedliwość. Poprzez przekształcenie sprawiedliwości i postrzegania jako kluczowych wymiarów wyjaśnialności, badania te wzmacniają teoretyczne podstawy AWE i stanowią praktyczną ścieżkę do zwiększenia przejrzystości, równości i akceptacji społecznej w technologiach edukacyjnych.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Intensywna globalizacja edukacji i technologii cyfrowych zwiększyła potrzebę naukowej i wiarygodnej oceny poziomu pisania w języku angielskim w kontekście nauczania języków, rozwoju akademickiego i awansu kariery¹. Tradycyjne oceny pisania, stosowane przez ludzką ocenę, mogą mierzyć subiektywne aspekty pisania, takie jak dokładność argumentacji i odpowiedniość kulturową², ale są podatne na długie czasy realizacji, wysokie koszty robocizny oraz stronniczość wynikającą z doświadczenia i poglądów oceniających ^3,4. Te ograniczenia są szczególnie dotkliwe w dużej praktyce, takiej jak międzynarodowe testy językowe (IELTS, TOEFL) czy inne kursy w języku angielskim prowadzone na uniwersytetach, gdzie ręczne ocenianie nie jest jedynym wymaganym w zakresie natychmiastowej informacji zwrotnej^{i zakresu} 5.

Systemy AWE stały się szeroko stosowane w tym kontekście dzięki przetwarzaniu w czasie rzeczywistym, standaryzacji i skalowalności⁶. Takie popularne narzędzia jak Grammarly (skupiający się na błędach gramatycznych i dopracowywaniu stylu) oraz ETS Criterion (który spełnia formalne normy pisania) są obecnie używane przez miliony uczniów w edukacji K-12, szkołach językowych, szkolnictwie wyższym oraz w szkoleniach indywidualnych⁷. Chociaż to są korzyści, efektywność technologiczna i zastosowanie edukacyjne systemów AWE wciąż budzą spory⁸. Technicznie rzecz biorąc, istniejące systemy są bardzo dokładne w zakresie obiektywnych wymiarów, w tym wykrywania błędów i różnorodności leksykalnej, gdzie korelacja z oceną ludzką może przekraczać 0,85⁹. Jednak w bardziej subiektywnych obszarach, takich jak istotność treści, argumentacja logiczna i organizacja tekstu, korelacje często są niższe niż 0,70¹⁰. Taka dysproporcja niesie ze sobą ryzyko sprzyjania powierzchownej dokładności wśród uczniów kosztem ogólnej kompetencji w pisaniu¹¹.

Kwestia równości ogranicza także edukacyjną użyteczność AWE. Obecne badania również skupiają się na łącznych wskaźnikach dokładności, pomijając możliwość odchyleń, które systematycznie szkodzą niektórym grupom¹². Charakterystycznie cechy międzyjęzykowe wspólne dla uczniów chińskiego lub hiszpańskiego byłyby błędnie uznawane za błędy, co skutkowałoby systematycznym niedoszacowaniem^13,14. Ponadto subiektywna akceptacja informacji zwrotnej AI przez uczniów jest zazwyczaj mało znana¹⁵. Badania wskazują, że prawie jedna trzecia uczniów niebędących native speakerami zgłasza nieodpowiedniość między wynikami AI a rzeczywistymi wynikami, a procesy dokładności technicznej, równości grupowej i satysfakcji uczniów wciąż są słabo rozumiane¹⁶.

Te słabości odzwierciedlają niedociągnięcia klasycznego paradygmatu dokładności¹⁷. Ramy, które uwzględniają jedynie zgodność między AI a oceną ludzką, nie mogą uwzględnić kwestii równości ani zaufania ucznia do systemu. W praktyce wartość edukacyjna AWE musi jednocześnie spełniać trzy warunki: precyzję techniczną, sprawiedliwość między grupami oraz akceptację przez ucznia¹⁸. Brak tak kompleksowego podejścia walidacyjnego pomaga wyjaśnić, dlaczego systemy AWE cieszą się szerokim przyjęciem, a jednocześnie ograniczone zaufanie do praktyki edukacyjnej^19,20.

Aby sprostać temu wyzwaniu, niniejsze badanie wprowadza wielopoziomowe ramy walidacyjne, które integrują dokładność techniczną, sprawiedliwość grupową i indywidualną oraz percepcję ucznia w spójną strukturę. Proponowany framework XAI został zaprojektowany tak, aby być praktycznie wdrażany na istniejących platformach AWE, zapewniając nauczycielom i uczniom diagnostykę sprawiedliwości oraz przejrzyste wyjaśnienia wyników, a także może być stosowany na kursach pisania lub zajęciach przygotowujących do testów, aby ocenić jego zdolność do poprawy sprawiedliwości, interpretowalności i użyteczności dydaktycznej w rzeczywistych środowiskach oceniania.

W tym kontekście hipoteza jest AFMM badającym rolę pośredniczącą postrzeganej sprawiedliwości w określaniu związku między dokładnością a satysfakcją, a także rolę moderującą biegłość językową w wrażliwości na sprawiedliwość. Dlatego wnosi to wkład na dwa sposoby: teoretycznie: wzbogacając modele ewaluacyjne AWE poprzez opisywanie sprawiedliwości jako jednego z kluczowych wymiarów walidacji obok dokładności i percepcji, jak i praktycznie, dostarczając programistom strategii maksymalizujących sprawiedliwość, nauczycieli z kryteriami wyboru systemu uwzględniającego grupę, oraz edukacyjną wartość AWE poprzez wyjaśnienie, w jaki sposób kształtowane są postrzegania uczniów. Oprócz edukacji, ramy te są również zgodne z szerszą koncepcją XAI, pokazując, jak sprawiedliwość i postrzeganie użytkowników mogą zwiększać przejrzystość, zaufanie i akceptację w innych obszarach, takich jak opieka zdrowotna, systemy autonomiczne i cyberbezpieczeństwo.

Pytania badawcze:

1.To jakim stopniu system AWE wykazuje techniczną dokładność i sprawiedliwość w różnych grupach języków ojczystych i biegłych?

2. Jak wielopoziomowy system oceny oparty na XAI może poprawić przejrzystość i równość w automatycznym testowaniu pisania angielskiego?

PRZEGLĄD LITERATURY:

Czynniki wpływające na akceptację informacji zwrotnej AWE przez studentów zostały przeanalizowane za pomocą rozszerzonego modelu akceptacji technologii (TAM)²¹. Na podstawie danych ankietowych przeprowadzonych przez 448 chińskich uczniów korzystających z SEM ustalono, że użyteczność, łatwość obsługi i intencja miały istotny wpływ na subiektywne normy, zaufanie, poczucie własnej skuteczności, sprzężenie zwrotne poznawcze oraz cechy systemu. Jednak badanie dotyczyło pojedynczego narodu i jednej grupy studentów, co ogranicza zastosowanie uogólnień. Aby zbadać, jak chińscy uczniowie EFL reagują na opinie Pigai AWE²², badanie przeanalizowało powtarzające się zgłoszenia (n = 5) przez studentów uniwersytetów. Zauważono wczesny nacisk na korekcję błędów, niskie przyjmowanie informacji zwrotnej językowej oraz stopniowe pogłębianie odpowiedzi. Jednak wielkość próby była bardzo ograniczona, podobnie jak system AWE, który ogranicza zastosowanie i uogólnienie. Przekonania nauczycieli EFL dotyczące zastosowania narzędzia oceniania AI (CoGrader) zostały przeanalizowane, aby zidentyfikować czynniki wpływające na ich poglądy²³. Dzięki mieszanemu badaniu przeprowadzonym na 10 saudyjskich nauczycielach uniwersyteckich, ankieta i wywiad wykazały, że opinie są mieszane, pozytywne, ale niechęć do pełnej pewności co do wiarygodności i całkowitej wymiany nauczycieli. Utrudnia to uogólnienie ze względu na ograniczoną próbę i ustawienia jednego kraju.

Biorąc pod uwagę rozwój lingwistyki korpusowej i technologii AI, badanie obejmowało frameworki AES²⁴. Wykorzystano PCA do poprawy wskaźników językowych do oceny jakości pisania i odkryto, że łączenie mikro-cech z cechami zagregowanymi definiuje jakość pisania skuteczniej niż same cechy zagregowane. Nieliniowe podejście AES oparte na regresji lasu losowego przewyższyło pozostałe podejścia. Ponadto SHAP zidentyfikował kluczowe elementy językowe dla każdego ocenianego atrybutu, zwiększając przejrzystość systemu dzięki wyjaśnianej sztucznej inteligencji. Wyniki te mogą pomóc w ulepszaniu wielowymiarowych metod w ocenie i edukacji pisemnej. System współpracy człowiek-maszyna został wprowadzony, aby rozwiązać wyzwania związane z adnotacją arabskich pism, które często są kosztowne i czasochłonne. Metoda ta rozważa eseje oparte na siedmiu cechach literatury przy pomocy LLM. Procesy walidacji i taktyki promptingu zostały spersonalizowane, aby zapewnić spójność i dokładność. Współpraca ta skutkuje większą podażą oznaczonych zasobów i nie wpływa na jakość oceny, co pokazuje, że jest to skalowalna metoda adnotacji danych odpowiednia dla języków o niższych zasobach.

Wykorzystanie AI w edukacji daje możliwość znacznego obniżenia wymagań dotyczących oceniania i poprawy edukacji pisemnej ^25,26. Jednocześnie naukowcy podkreślają, że dokładność AI nie jest jedynym aspektem istotnym dla jej odpowiedzialnego wykorzystania. Istnieją zasady sprawiedliwości i redukcji uprzedzeń, bezpieczeństwa i prywatności, odpowiedzialności, wyjaśnienia, przejrzystości, efektu edukacyjnego, uczciwości oraz ciągłego rozwoju. Najnowsze badania empirycznie oceniły punktację zero-shot opartą na GPT-4o, ze szczególnym uwzględnieniem tych wymagań. Badania koncentrowały się na postrzeganiu nauczycieli wobec ADWT w kontekście integralności edukacyjnej²⁷. Badanie przekrojowe obejmujące 100 studentów studiów magisterskich i profesorów 10 przedmiotów sugeruje, że mimo że nauczyciele przypisują korzyści ADWT w osiąganiu celu edukacyjnego, ma on pewne ograniczenia, takie jak ograniczona dostępność, brak wiedzy oraz obawy dotyczące wpływu na integralność i kreatywność. Badania sugerują, że wraz z coraz większą integracją technologii AI z edukacją, kwestie etyczne i udział interesariuszy są niezbędne do ich skutecznego i odpowiedzialnego wykorzystania. Badania analizowały skuteczność technologii AI w porównaniu z ludzkimi oceniającymi w ocenie esejów przesłanych przez uczniów EFL⁽²⁸ lat). Ocena 30 esejów wykazała, że choć AI oferowała wysokiej jakości komentarze pod względem treści, języka, organizacji i poprawności, to stale dawała niższe oceny niż osoby oceniające ludzi. Ponadto AI dostarczała bardziej szczegółową informację zwrotną, ale oceny z różnych narzędzi AI nie różniły się znacząco.

Luka badawcza:

Obecnie większość badań nad stypendiami AWE analizuje dokładność lub akceptację przez użytkowników. Bardzo niewielu bada, czy różnice w punktacji systematycznie niekorzystnie szkodzą grupom języka ojczystym lub biegłości. Chociaż wcześniejsze badania analizowały akceptację użytkowników lub ograniczały się do konkretnego systemu AWE z konkretnego kraju i wielkości próby, pojawiają się pytania dotyczące uogólnialności. Chociaż zarówno SHAP, jak i PCA to strategie XAI i zostały opracowane w celu zwiększenia przejrzystości, żadne badania nie analizowały mechanizmów sprawiedliwości ani tego, jak uczniowie wykorzystują informacje zwrotne AI z AWE. W literaturze nie ma rozbudowanych ram uwzględniających określone wymiary dokładności, analizy sprawiedliwości i postrzegania uczniów. Nie ma przykładu wyjaśnialnego modelu oceny, który uwzględniałby dokładność wewnątrz- i między oceniającymi, sprawiedliwość oraz percepcję ucznia. W tych badaniach proponowano i zweryfikowano wyjaśnialny model TLEF oraz zintegrowany model AFMM, aby ocenić dokładność, sprawiedliwość i postrzeganie uczniów jednocześnie wśród uczniów wielojęzycznych i o różnorodnych umiejętnościach.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Proces etycznej akceptacji i rekrutacji uczestników, w tym administracja eseju, podwójna ocena według kryterium ETS i ekspertów, ocena percepcji ucznia oraz analiza statystyczna, zostały podsumowane w tej sekcji. Podkreśla, jak dokładność, sprawiedliwość i modelowanie percepcji oparte na SEM są zintegrowane w jednolity pipeline walidacyjny XAI. Ramy oceny AWE oparte na XAI są zilustrowane na Rysunku 1.

Procedura:

Procedura składała się z kilku etapów. Najpierw uzyskano zgodę IRB oraz zebrano świadomą zgodę wszystkich uczestników. Następnie zdefiniowano zmienne niezależne, zależne i kontrolne. Standaryzowane zadania pisemne były realizowane na Moodle, korzystając z trzech neutralnych tematów esejów, a próbki pisania zebrano przy jednoczesnym spełnieniu wymagań dotyczących eseju, takich jak liczba słów, limit czasowy i struktura. Podwójne ocenianie przeprowadzono na podstawie wyników ETS Criterion w połączeniu z ocenami ekspertów ludzkich. Kwestionariusze dotyczące percepcji ucznia były rozdawane natychmiast po oddaniu eseju. Wprowadzono procedury selekcji danych i kontroli jakości, aby przeciwdziałać anomaliom, takim jak oszustwa czy nieprawidłowe odpowiedzi. Zastosowano również progi analizy uczciwości (ΔEO, kontrole RMSE). Wreszcie, wszystkie zanonimizowane dane były bezpiecznie przechowywane na zaszyfrowanych, kontrolowanych serwerach z dostępem.

Etyczna zgoda i świadoma zgoda

Badanie to uzyskało zatwierdzenie etyki od Instytucjonalnej Rady Recenzyjnej instytucji autorów. Wszystkie procedury przeprowadzono zgodnie z Deklaracją Helsińską oraz obowiązującymi przepisami. Wszyscy uczestnicy byli dorosłymi (≥18 lat) i przed udziałem wyrazili pisemną świadomą zgodę. Próbki pisania i odpowiedzi z ankiet były deidentyfikowane u źródła i przechowywane na zaszyfrowanych, kontrolowanych serwerach; dostęp mieli tylko upoważnieni śledczy. Oceniający byli ślepi na język ojczysty, poziom biegłości oraz demografię uczestników. Udział był dobrowolny, z prawem do wycofania się w dowolnym momencie, nie stosowano żadnych oszustw ani wrażliwych interwencji. Formalna dokumentacja zatwierdzająca może być przekazana czasopismu na życzenie.

Konstrukcja zmienna

W badaniu zdefiniowano łącznie trzy grupy zmiennych, które miały kierować analizą. Tabela 1 podsumowuje typy pomiarów i danych używane w metodach pomiarowych dla każdego konstruktu oraz zawiera pełne definicje operacyjne zmiennych niezależnych, zależnych i kontrolnych.

Dokładność oceniania przez AI była pierwszą niezależną zmienną ocenioną w kategoriach RMSE i współczynnika korelacji Pearsona (r) między wynikami kryterium ETS a ocenami ekspertów. Kalibracja przeprowadzona przez ekspertów dała ICC na poziomie 0,91, potwierdzając niezawodność.

Drugą niezależną zmienną było tło językowe uczniów, podzielone na rodzimych i nierodzimych użytkowników, a dalszy podział przeprowadzono na grupy chińskie, hiszpańskie, arabskie i inne. Chińscy studenci byli jedną z grup docelowych, ponieważ zaobserwowano wstępne oznaki systematycznego niedoszacowania.

Trzecią niezależną zmienną była biegłość w pisaniu, oceniana według poziomów CEFR A2 do C1, potwierdzonych oficjalnymi certyfikatami i testami biegłości przed klasą, a także zgodna z równoważnościami IELTS. Innym moderatorem wprowadzonym w Modelu Mediacji Sprawiedliwości AI była biegłość w pisaniu w celu sprawdzenia, czy wrażliwość na sprawiedliwość różni się w zależności od poziomów biegłości.

Postrzeganie sprawiedliwości i satysfakcja uczniów były zmiennymi zależnymi. Percepcja sprawiedliwości oceniano za pomocą ośmiopunktowego kwestionariusza ocenionego na siedmiopunktowej skali Likerta, która obejmowała indywidualną spójność i bezstronność grupy (Cronbachs 87; CVI 92). Satysfakcję uczniów oceniono za pomocą sześciu pytań Likerta wskazujących na chęć do korzystania oraz postrzeganą poprawę umiejętności (α = 0,85).

Zmienne były kontrolowane pod względem wieku, płci i doświadczenia w pisaniu. Wiek dzielono na trzy grupy (18-22 lata, 23-28 lat oraz ≥29 lat), a płeć na mężczyzn i kobietę. Doświadczenie pisarskie podzielono na trzy poziomy częstotliwości rocznie.

Pisanie tekstów zadań

Standaryzowane tematy esejów argumentacyjnych zostały sformułowane w celu uzyskania danych o pisaniu dla trzech neutralnych tematów: wpływu globalizacji na kultury lokalne, zalet i wyzwań edukacji online oraz etycznych granic sztucznej inteligencji. Tematy te miały na celu zrównoważenie trudności poznawczych i dostępności z jednej strony oraz zmniejszenie różnic w wynikach wynikających z wcześniejszej wiedzy z drugiej. Rozkład tematów oraz statystyki opisowe dotyczące długości eseju przedstawiono w Tabeli 2.

Każdy esej musiał mieć 250 słów ±10% i być napisany w ciągu 45 minut na platformie opartej na Moodle. Narzędzia pomocnicze były zakazane, a opóźnione zgłoszenia wykluczone. Eseje miały ustandaryzowaną strukturę: wstęp, dwa akapity argumentacji i zakończenie. Łącznie zebrano 764 ważne eseje o średniej długości 252,3 słowa (SD = 8,7).

Dane porównawcze punktacji

Dokładność oceny AWE oceniano za pomocą podwójnej procedury łączącej wyniki kryterium ETS z ocenami ekspertów ludzkich. Wyniki były pobierane z Criterion za pośrednictwem otwartego API. Trzech lingwistów z ponad dziesięcioletnim doświadczeniem w ocenianiu oceniało samodzielnie wszystkie eseje. Przed formalnym oceną oceniający przeprowadzili trzy sesje kalibracyjne. Podczas kalibracji niezawodność między oceniającymi osiągnęła ICC = 0,87; podczas formalnego punktowania ICC wzrosło do 0,91, a wymiarowe ICC przekraczały 0,88. Eseje z różnicami punktowymi większymi niż dwa punkty były rozstrzygane łącznie (18 przypadków). Sposób oceniania i wyniki wiarygodności są podsumowane w Tabeli 3.

Kwestionariusz percepcji ucznia

Postrzeganie informacji zwrotnej przez uczestników AI zostało uwzględnione za pomocą 22-punktowego kwestionariusza opartego na TAM i rozszerzone o uczciwość. Instrument zawierał trzy dziedziny: percepcję sprawiedliwości (8 pozycji), satysfakcję (6 pozycji) oraz czynniki moderujące, takie jak zrozumiałość i przejrzystość (8 pozycji). Walidacja przeprowadzona przez pięciu ekspertów dała CVI na poziomie 0,92, a testy pilotażowe z udziałem 60 uczestników wykazały ogólną niezawodność α = 0,90. Struktura kwestionariusza i indeksy psychometryczne przedstawiono w Tabeli 4.

Kwestionariusze w głównym badaniu przeprowadzano zaraz po oddaniu esejów, a wymagania dotyczące minimalnego czasu ukończenia były minimalne, aby ograniczyć bezmyślne ukończenie. Spośród 764 przeprowadzonych badań, 756 było ważnych po kontroli jakości, a uzyskano efektywny wskaźnik 98,95.

Zbieranie danych i kontrola jakości

Dane były rejestrowane przez 8 tygodni (marzec-kwiecień 2024) w czterech etapach: rekrutacja i zgoda; pisanie esejów; podwójne punktowanie i dystrybucję w kwestionariuszach; oraz kompilację bazy danych. Certyfikaty biegłości oparte na wynikach z pisania przed zajęciami zostały przeanalizowane w ramach podwójnej selekcji, a w tym procesie wyeliminowano 16 uczestników. Cztery potencjalne przypadki oszustwa zostały wyeliminowane dzięki monitorowaniu w czasie rzeczywistym, a trzy podejrzane wyniki SI (odchylenia co najmniej 8 punktów) zostały następnie poprawione po ręcznej ocenie. Osiem nieprawidłowych kwestionariuszy zostało wyeliminowanych na podstawie odwrotnych sprawdzeń spójności pozycji.

Przechowywanie danych i etyka

Wszystkie dane były anonimizowane i przechowywane za pomocą unikalnych identyfikatorów obejmujących język ojczysty, poziom biegłości oraz numer seryjny. SMS, wyniki i ankiety były szyfrowane i przechowywane na serwerach zgodnych z ISO27001 z ograniczonym dostępem. Dane będą przechowywane przez 3 lata, zanim zostaną one trwałe usunięte. Uzyskano etyczną zgodę od instytucjonalnej komisji przeglądowej, a pisemną świadomą zgodę zebrano od wszystkich uczestników.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Sekcja przedstawia wyniki badań oparte na pięciu wymiarach analitycznych: projektowaniu eksperymentów, cechach uczestników, dokładności punktacji, ocenie sprawiedliwości oraz modelowaniu uczenia się i percepcji. Wyniki obejmują wyniki statystyczne, różnice grupowe, różnice w sprawiedliwości oraz mediację i moderację opartą na SEM.

Układ eksperymentalny

Kluczowe kroki programowe obejmowały skonfigurowanie ETS Criterion przez API do automatycznego oce...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badania obejmowały system AWE w podejściu trójpoziomowym, obejmującym dokładność techniczną, sprawiedliwość grupową i indywidualną oraz percepcję ucznia, i wykazało, że ogólna ważność i systematyczne różnice grupowe występują jednocześnie. Istniały silne korelacje między ocenami AI a ekspertami (łącznie r = 0,82), ale zaobserwowano różnice według podgrup (native r = 0,89 vs. nienative r = 0,76; Chiński r = 0,72; Tabela 6). Rozkłady RMSE wskazywały również na wyższe błędy i zmienność u uczniów chińskich (

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autor nie ma żadnych konfliktów interesów do ujawnienia.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
system przechowywania danych	Zaszyfrowane, kontrolowane serwery do przechowywania anonimowych danych.	Serwery instytucjonalne	STORAGE-002
ETS System Kryterialny	System oceny pisania wspomagany przez AI do oceniania zadań pisemnych.	Usługa Testowania Edukacyjnego (ETS)	ETS-001
uczciwości i dokładności	Narzędzia do RMSE, wyrównanych szans i analizy statystycznej.	Niestandardowe skrypty/pakiety statystyk	TOOL-FA-001
	Niezależne oceny zapewnione przez trzech lingwistów z ponad 10-letnim doświadczeniem.	Oceniający na miejscu	HR-EXP-003
Ankieta Percepcji Ucznia	Ośmiopunktowy kwestionariusz dotyczący sprawiedliwości i satysfakcji, oceniany na 7-punktowej skali Likerta.	Opracowanie wewnętrzne	QUES-008
Statistical Software (R 4.3.1)	Wykorzystywane do analizy danych, w tym SEM (Structural Equation Modeling).	Fundacja R	R-SW-431
stratyfikowane dane losowego próbkowania	Dane zebrane od 764 wielojęzycznych uczących się na poziomach CEFR A2 do C1.	Uczestnicy badania	DATA-764
zadania do pisania	Trzy tematy esejów standaryzowanych na temat globalizacji, edukacji online i etyki AI.	Platforma oparta na Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Wyjaśnialne ramy AI dla dokładności, sprawiedliwości i percepcji ucznia w ocenie pisania po angielsku

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles