Research Article

İngilizce Yazı Değerlendirmesinde Doğruluk, Adalet ve Öğrenen Algısı için Açıklanabilir Yapay Zeka Çerçevesi

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, yapay zeka destekli İngilizce yazım sistemlerini değerlendirmek için üç kademeli bir değerlendirme çerçevesi ve adalet arabuluculuğu modeli geliştirmektedir. 764 dillerarası örnek kullanılarak, sonuçlar doğruluk farklılıklarını, ana dili olmayan öğrenenlere karşı adalet önyargısını (özellikle Çince A2 yeterlilik seviyesi) ve adalet algısını kullanıcı memnuniyetinin ana aracısı olarak göstererek teorik ve pratik sonuçlar sunmaktadır.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Küresel eğitim dijital dönüşümü bağlamında, otomatik yazı değerlendirmesi (AWE) gerçek zamanlı ve standartlaştırılmış avantajları nedeniyle yaygın olarak benimsenmiştir; Ancak, geleneksel doğruluk odaklı çerçeveler genellikle eşitlik endişelerini ve öğrencilerin algılarını göz ardı eder, böylece şeffaflık ve eğitim değerini sınırlar. Bu sınırlamayı gidermek için, bu araştırma, şeffaf ve yorumlanabilir geri bildirim sağlamak için tasarlanmış açıklanabilir bir YZ (XAI) çerçevesi önermekte; böylece öğrenciler otomatik değerlendirmeyi anlayıp güvenebiliyor ve teknik doğruluk, grup ve bireysel eşitlik, öğrenci algısını kapsayan çok katmanlı doğrulama modeli olan Üç Seviyeli Değerlendirme Çerçevesi'ni (TLEF) yapay zeka Adalet Arabuluculuk Modeli (AFMM) ile entegre ediyor. Katmanlı rastgele örnekleme kullanılarak, 764 çok dilli öğrenenlerden (ana dili İngilizce, Çince ve İspanyolca olanlar) Ortak Avrupa Referans Çerçevesi (CEFR) seviyeleri A2'den C1'e kadar yazı görevleri, yapay zeka ve insan uzmanları tarafından çift puanlama ve yapılandırılmış anketler aracılığıyla veriler toplandı. Bireysel testlerin listelenmesi yerine, geçerlilik, adalet ve öğrenen-algı ilişkisini incelemek için çoklu istatistiksel analiz uygulandı. İstatistiksel analizler, birleşik korelasyon, kök ortalama kare hatası (RMSE), Eşitlenmiş Olasılık testi ve Yapısal Denklem Modellemesi (SEM) içeriyordu. Bulgular, yapay zeka destekli yazma değerlendirme (AWE) sisteminin (ETS Kriteri) genel geçerliliği (r = 0.82) sağladığını ancak önemli farklılıkların devam ettiğini ortaya koymaktadır: Çince ana dili olanlar insan değerlendirme yapanlarla en düşük (0.72) ve en yüksek RMSE (medyan 2.15) oranına sahip, adalet önyargıları en çok daha düşük yeterlilik seviyelerinde (A2 öğrenenler için ΔEO = 0.15) ve algılanan adalet, algılanan doğruluk ile öğrenen memnuniyeti arasındaki bağlantıyı tamamen arabuluculuk ediyor. Yeterlilik, Moderatörlük Hassasiyeti. Açıklanabilirliğin temel boyutları olarak adalet ve algıyı yeniden çerçeveleyerek, araştırma AWE'nin teorik temelini güçlendirir ve eğitim teknolojilerinde şeffaflık, eşitlik ve sosyal kabulü artırmak için pratik bir yol sağlar.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Eğitim ve dijital teknolojilerin yoğun küreselleşmesi, İngilizce yazım düzeyinin dil öğretimi, akademik gelişim ve kariyer ilerlemesi için bilimsel ve güvenilir şekilde değerlendirilmesi ihtiyacınıartırmıştır 1. İnsan değerlendirmesi tarafından uygulanan geleneksel yazım değerlendirmeleri, yazının öznel yönlerini, örneğin tartışmanın titizliği ve kültüreluygunluk gibi faktörleri ölçebilir 2, ancak uzun geri dönüş sürelerine, yüksek iş masraflarına ve değerlendirici deneyimi ile eğilimlerinden kaynaklanan önyargıya karşıhassastır 3,4

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Etik onay ve katılımcı kazanımı süreci, makale yönetimi, ETS Kriterleri ve uzmanlar tarafından çift puanlama, öğrenci algısı değerlendirmesi ve istatistiksel analiz dahil olmak üzere bu bölümde özetlenmiştir. Doğruluk, adalet ve SEM tabanlı algı modellemesinin birleşik bir XAI doğrulama hattına nasıl entegre edildiğini vurguluyor. XAI tabanlı AWE değerlendirme çerçevesi Şekil 1'de gösterilmiştir.

Prosedür:

İşlem birkaç adımdan oluşuyordu. İlk olarak, IRB onayı alındı ve tüm katılımcılardan bilgilendirilmiş onay alındı. Bağımsız, bağı....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bölüm, araştırma sonuçlarını beş analitik boyuta göre sunar: deneysel tasarım, katılımcı özellikleri, puanlama doğruluğu, adalet değerlendirmesi ve öğrenme ile algı modelleme. Sonuçlar arasında istatistiksel performans, grup farkları, adalet farklılıkları ve SEM tabanlı arabuluculuk ve moderasyon yer almaktadır.

Deneysel kurulum

Temel yazılım adımları, ETS Criterion'un API'si üzerinden otomatik olarak bilgiyi puanla.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Araştırma, teknik doğruluk, grup ve bireysel adalet ile öğrenci algısını kapsayan üç aşamalı bir yaklaşımla bir AWE sistemini inceledi ve genel geçerlilik ile sistematik grup farklılıklarının aynı anda mevcut olduğunu belirledi. Yapay zeka ile uzman derecelendirmeleri arasında güçlü korelasyonlar vardı (toplam r = 0.82), ancak alt gruplara göre farklar gözlemlendi (yerel r = 0.89 vs. yerli olmayan r = 0.76; Çince'de r = 0.72; Tablo 6). RMSE'lerin dağılımları ayrıca Çince öğrenenlerde dah.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarın açıklaması gereken bir çıkar çatışması yoktur.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Veri Depolama SistemiAnonimleştirilmiş veri depolamak için şifreli, erişim kontrollü sunucular.Kurumsal sunucularSTORAGE-002
ETS Kriter SistemiYazma görevlerinin puanlanması için kullanılan yapay zeka destekli yazım değerlendirme sistemi.Eğitim Sınav Servisi (ETS)ETS-001
Adalet ve Doğruluk Analiz AraçlarıRMSE, Eşitlenmiş Oranlar ve istatistiksel analiz için araçlar.Özel betikler/istatistik paketleriTOOL-FA-001
İnsan Uzman Puanları10 yılı aşkın deneyime sahip üç dilbilimci tarafından sağlanan bağımsız derecelendirmeler.Şirket içi değerlendirmecilerHR-EXP-003
Öğrenen Algı AnketiAdalet ve memnuniyet üzerine 8 maddelik bir anket, 7 puanlık bir Likert ölçeğinde derecelendirilmiştir.Kendi içinde geliştirilenQUES-008
istatistiksel yazılım (R 4.3.1)SEM (Yapısal Denklem Modelleme) dahil olmak üzere veri analizi için kullanılır.R VakfıR-SW-431
Stratifikasyonlu Rastgele Örnekleme VerileriCEFR seviyeleri A2'den C1'e kadar olan 764 çok dilli öğreniciden toplanan veriler.Çalışma katılımcılarıDATA-764
Yazma Görev SorularıKüreselleşme, çevrimiçi eğitim ve yapay zeka etiği üzerine üç standart makale konusu.Moodle tabanlı platformPROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles