İngilizce Yazı Değerlendirmesinde Doğruluk, Adalet ve Öğrenen Algısı için Açıklanabilir Yapay Zeka Çerçevesi

Meili Dai

doi:10.3791/69841

Research Article

İngilizce Yazı Değerlendirmesinde Doğruluk, Adalet ve Öğrenen Algısı için Açıklanabilir Yapay Zeka Çerçevesi

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, yapay zeka destekli İngilizce yazım sistemlerini değerlendirmek için üç kademeli bir değerlendirme çerçevesi ve adalet arabuluculuğu modeli geliştirmektedir. 764 dillerarası örnek kullanılarak, sonuçlar doğruluk farklılıklarını, ana dili olmayan öğrenenlere karşı adalet önyargısını (özellikle Çince A2 yeterlilik seviyesi) ve adalet algısını kullanıcı memnuniyetinin ana aracısı olarak göstererek teorik ve pratik sonuçlar sunmaktadır.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Küresel eğitim dijital dönüşümü bağlamında, otomatik yazı değerlendirmesi (AWE) gerçek zamanlı ve standartlaştırılmış avantajları nedeniyle yaygın olarak benimsenmiştir; Ancak, geleneksel doğruluk odaklı çerçeveler genellikle eşitlik endişelerini ve öğrencilerin algılarını göz ardı eder, böylece şeffaflık ve eğitim değerini sınırlar. Bu sınırlamayı gidermek için, bu araştırma, şeffaf ve yorumlanabilir geri bildirim sağlamak için tasarlanmış açıklanabilir bir YZ (XAI) çerçevesi önermekte; böylece öğrenciler otomatik değerlendirmeyi anlayıp güvenebiliyor ve teknik doğruluk, grup ve bireysel eşitlik, öğrenci algısını kapsayan çok katmanlı doğrulama modeli olan Üç Seviyeli Değerlendirme Çerçevesi'ni (TLEF) yapay zeka Adalet Arabuluculuk Modeli (AFMM) ile entegre ediyor. Katmanlı rastgele örnekleme kullanılarak, 764 çok dilli öğrenenlerden (ana dili İngilizce, Çince ve İspanyolca olanlar) Ortak Avrupa Referans Çerçevesi (CEFR) seviyeleri A2'den C1'e kadar yazı görevleri, yapay zeka ve insan uzmanları tarafından çift puanlama ve yapılandırılmış anketler aracılığıyla veriler toplandı. Bireysel testlerin listelenmesi yerine, geçerlilik, adalet ve öğrenen-algı ilişkisini incelemek için çoklu istatistiksel analiz uygulandı. İstatistiksel analizler, birleşik korelasyon, kök ortalama kare hatası (RMSE), Eşitlenmiş Olasılık testi ve Yapısal Denklem Modellemesi (SEM) içeriyordu. Bulgular, yapay zeka destekli yazma değerlendirme (AWE) sisteminin (ETS Kriteri) genel geçerliliği (r = 0.82) sağladığını ancak önemli farklılıkların devam ettiğini ortaya koymaktadır: Çince ana dili olanlar insan değerlendirme yapanlarla en düşük (0.72) ve en yüksek RMSE (medyan 2.15) oranına sahip, adalet önyargıları en çok daha düşük yeterlilik seviyelerinde (A2 öğrenenler için ΔEO = 0.15) ve algılanan adalet, algılanan doğruluk ile öğrenen memnuniyeti arasındaki bağlantıyı tamamen arabuluculuk ediyor. Yeterlilik, Moderatörlük Hassasiyeti. Açıklanabilirliğin temel boyutları olarak adalet ve algıyı yeniden çerçeveleyerek, araştırma AWE'nin teorik temelini güçlendirir ve eğitim teknolojilerinde şeffaflık, eşitlik ve sosyal kabulü artırmak için pratik bir yol sağlar.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Eğitim ve dijital teknolojilerin yoğun küreselleşmesi, İngilizce yazım düzeyinin dil öğretimi, akademik gelişim ve kariyer ilerlemesi için bilimsel ve güvenilir şekilde değerlendirilmesi ihtiyacını^{artırmıştır 1}. İnsan değerlendirmesi tarafından uygulanan geleneksel yazım değerlendirmeleri, yazının öznel yönlerini, örneğin tartışmanın titizliği ve kültürel^{uygunluk gibi faktörleri ölçebilir 2}, ancak uzun geri dönüş sürelerine, yüksek iş masraflarına ve değerlendirici deneyimi ile eğilimlerinden kaynaklanan önyargıya karşı^hassastır ^3,4. Bu kısıtlamalar, uluslararası dil testleri (IELTS, TOEFL) veya üniversitelerde verilen diğer İngilizce derslerinde özellikle ciddi görülür; burada anlık geri bildirim ve kapsam açısından yeterli olan sadece manuel puanlama^{yeterli değildir 5}.

AWE sistemleri, gerçek zamanlı işleme, standartlaştırma ve ölçeklenebilirlik sayesinde bu bağlamda yaygın olarak^{kullanılmıştır 6}. Grammarly (dilbilgisi hataları ve stil iyileştirmesine odaklanan) ve ETS Kriterleri (resmi yazım normlarına bağlı kalan) gibi popüler araçlar şu anda K-12 eğitimi, dil okulları, yükseköğretim ve bireysel eğitimde milyonlarca öğrenci^{tarafından kullanılmaktadır.} Bunlar faydalar olsa da, AWE sistemlerinin teknolojik verimliliği ve eğitim uygulanabilirliği hâlâ^{tartışmalıdır 8}. Teknik olarak, mevcut sistemler hata tespiti ve sözcük çeşitliliği dahil nesnel boyutlarda son derece doğrudur; burada insan puanlama ile korelasyon 0.85^9'un üzerinde olabilir. Ancak, içerik alakası, mantıksal argümanlama ve metnin organizasyonu gibi daha öznel alanlarda korelasyonlar genellikle 0.70^10'un altına düşer. Böyle bir orantısızlık, öğrenciler arasında yüzeysel doğruluğu teşvik etme tehlikesini taşır ve bunun bedeli yazı yetkinliğinin genel kaybına^gelir.

Eşitlik meselesi ayrıca AWE'nin eğitim faydasını da sınırlar. Mevcut çalışmalar ayrıca doğruluğun toplam göstergelerine odaklanmaya eğilimlidir ve bazı grup^12'yi sistematik olarak dezavantajlı olarak olumsuz etkileyen sapmalar olasılığını göz ardı etmektedir. Gösterge olarak, Çince veya İspanyolca öğrenenlerin ortak dillerarası özellikleri hata olarak yanılıyor ve bu da sistematik olarak hafife alınmaya yol^açacaktır ^13,14. Ayrıca, öğrenenlerin yapay zeka geri bildiriminin öznel kabulü genellikle çok az^{bilinmektedir 15}. Anketler, ana dili olmayan öğrenenlerin neredeyse üçte birinin yapay zeka puanları ile gerçek performans arasında uygunsuzluk olduğunu bildirdiğini, teknik doğruluk, grup eşitliği ve öğrenen memnuniyeti süreçlerinin hâlâ yeterince anlaşılmadığını^{gösteriyor 16}.

Bu zayıflıklar, klasik doğruluk paradigmasının^{eksikliklerini yansıtır. 17}. Yalnızca yapay zeka ile insan puanlaması arasındaki uyumu dikkate alan bir çerçeve, eşitlik veya öğrenenin sisteme olan güvenini yakalayamaz. Pratikte, AWE'nin eğitim değeri aynı anda üç koşulu karşılamalıdır: teknik hassasiyet, gruplar arasında adalet ve öğrenci^{kabulü 18}. Böylesine kapsamlı doğrulama yaklaşımının olmaması, AWE sistemlerinin yaygın olarak benimsenmesini ancak eğitim uygulamalarına sınırlı güveni neden olduğunu^{açıklamaya yardımcı olur 19,20}.

Bu zorluğu ele almak için mevcut çalışma, teknik doğruluğu, grup ve bireysel adaleti ile öğrenci algısını tutarlı bir yapıya entegre eden çok katmanlı bir doğrulama çerçevesi sunmaktadır. Önerilen XAI çerçevesi, öğretmenlere ve öğrencilere adalet tanıları ve şeffaf puan açıklamaları sunarak mevcut AWE platformlarında pratik uygulanacak şekilde tasarlanmıştır ve yazı kurslarında veya sınav hazırlık derslerinde gerçek değerlendirme ortamlarında adalet, yorumlanabilirlik ve öğretim faydasını artırma yeteneğini değerlendirebilir.

Bu bağlamda, hipotez, algılanan adaletin doğruluk ve tatmin arasındaki ilişkiyi belirlemede aracı rolünü ve dil yeterliliğinin adalet hassasiyeti üzerindeki moderatör rolünü araştırmak için bir AFMM'dir. Bu nedenle, hem teorik olarak, adaleti doğruluk ve algı ile birlikte ana doğrulama boyutlarından biri olarak tanımlayarak AWE'nin değerlendirme modellerini zenginleştirir ve pratikte geliştiricilere adaleti en üst düzeye çıkaran stratejiler sunarak, eğitimcilere grup duyarlı sistem seçim kriterleri sunar ve AWE'nin eğitim değerini öğrenenlerin algılarının nasıl şekillendiğini açıklayarak iki açıdan katkı sağlar. Eğitimin yanı sıra, çerçeve XAI'nin daha geniş kavramıyla da uyumlu olup, adalet ve kullanıcı algısının sağlık, otonom sistemler ve siber güvenlik gibi diğer alanlarda şeffaflık, güven ve kabulü nasıl artırabileceğini gösteriyor.

Araştırma Soruları:

1.To AWE sistemi, farklı ana dil ve yeterlilik grupları arasında teknik doğruluk ve adalet ne ölçüde gösteriyor?

2.XAI tabanlı çok katmanlı değerlendirme çerçevesi, otomatik İngilizce yazı değerlendirmesinde şeffaflık ve eşitliği nasıl artırabilir?

LITERATÜR INCELEMESI:

Üniversite öğrencileri tarafından AWE geri bildiriminin kabulünü etkileyen faktörler, genişletilmiş Teknoloji Kabulü Modeli (TAM)²¹ kullanılarak incelendi. SEM kullanan 448 Çinli öğrencinin anket verilerine dayanarak, faydalılık, kullanım kolaylığı ve niyetin öznel norm, güven, öz-etkinlik, bilişsel geri bildirim ve sistem özellikleri üzerinde önemli bir etkisi olduğu belirlendi. Ancak, çalışma tek bir ulus ve tek bir öğrenci grubuyla sınırlıydı, bu da genellemenin uygulanabilirliğini sınırlamaktadır. Çinli EFL öğrencilerinin Pigai AWE^{geri bildirimi 22'ye} nasıl yanıt verdiğini incelemek için, üniversite öğrencilerinden gelen tekrarlayan gönderimleri (n = 5) analiz edildi. Hata düzeltmesine erken dönemde vurgu yapıldığı, dilsel geri bildirimin düşük alındığı ve yanıtın kademeli derinleştiği belirtildi. Ancak, örneklem büyüklüğü çok sınırlıydı, uygulanabilirlik ve genellenebilirliği sınırlayan AWE sistemi de öyle. EFL öğretmenlerinin yapay zeka derecelendirme aracının (CoGrader) uygulanmasına dair inançları, görüşlerini etkileyen faktörleri belirlemek için^{incelendi 23}. 10 Suudi üniversite öğretmeni üzerinde yapılan karma yöntemli bir çalışma ve röportaj, karışık olumlu görüşler olduğunu, ancak güvenilirlik ve tam öğretmen değişimi konusunda tamamen emin olma isteksizliğinin olduğunu ortaya koydu. Bu, sınırlı örneklem ve tek ülke ortamı nedeniyle genellemeyi engeller.

Korpus dilbilimi ve yapay zeka teknolojisindeki gelişmeleri göz önünde bulundurarak, bir çalışma AES^{çerçeveleri 24'ü} inceledi. PCA'yı kullanarak yazı kalitesini değerlendirmek için dilsel göstergeleri geliştirdi ve mikro özellikleri toplu özelliklerle birleştirmenin, yalnızca toplu özelliklerden daha etkili bir şekilde yazma kalitesini tanımladığını keşfetti. Rastgele Orman Regresyonuna dayalı doğrusal olmayan AES yaklaşımı diğer yaklaşımları geride bıraktı. Ayrıca, SHAP her değerlendirilen özellik için temel dil öğelerini belirledi ve açıklanabilir yapay zeka aracılığıyla sistem şeffaflığını artırdı. Bu sonuçlar, yazı değerlendirmesi ve eğitiminde çok boyutlu yöntemlerin geliştirilmesine yardımcı olabilir. İnsan-makine iş birliği sistemi, Arapça yazıların notlanması zorluklarını çözmek için tanıtıldı; çünkü bu yazılar genellikle pahalı ve zaman alıcıdır. Bu yöntem, LLM'in yardımıyla edebiyatın yedi özelliğine dayanan makaleleri ele alır. Doğrulama süreçleri ve yönlendirme taktikleri, tutarlılık ve doğruluk sağlamak için kişiselleştirildi. İşbirliği, etiketlenmiş kaynakların daha yüksek bir arzını sağlar ve değerlendirme kalitesini etkilemez; bu da düşük kaynaklı diller için uygun ölçeklenebilir bir veri açıklama yöntemi olduğunu gösterir.

Eğitim alanında yapay zekanın kullanımı, notlama gereksinimlerini önemli ölçüde azaltma ve yazma eğitimini geliştirme fırsatı^{sunar 25,26}. Aynı zamanda, araştırmacılar yapay zekanın doğruluğunun, sorumlu kullanımıyla ilgili tek unsur olmadığını vurguladı. Adalet ve önyargı azaltma, güvenlik ve gizlilik, hesap verebilirlik, açıklanabilirlik, şeffaflık, eğitim etkisi, bütünlük ve sürekli gelişim ilkeleri vardır. Son araştırmalar, GPT-4o temelinde sıfır atış puanlamalarını bu gereksinimlere odaklanarak ampirik olarak değerlendirmiştir. Araştırma, eğitimcilerin ADWT'lere yönelik eğitim bütünlüğü yönünde sahip olduğu^{algılara odaklandı 27}. 100 lisansüstü öğrenci ve 10 konudan profesörün yer aldığı kesitsel çalışma, öğretmenlerin ADWT'lerin eğitim hedefine ulaşma faydalarını atfettiğine rağmen, sınırlı erişilebilirlik, bilgi eksikliği ve dürüstlük ile yaratıcılık üzerindeki etkisi konusunda endişe gibi bazı sınırlamalar olduğunu öne sürmektedir. Araştırma, yapay zeka teknolojileri eğitime daha entegre hale geldikçe, etik kaygılar ve paydaş katılımının başarılı ve sorumlu kullanımı için gerekli olduğunu öne sürdü. Araştırmalar, EFL^{öğrencileri 28} tarafından gönderilen makaleleri değerlendirmede yapay zeka teknolojilerinin insan değerlendiricilere kıyasla etkinliğini araştırdı. 30 makalenin değerlendirilmesi, yapay zekanın içerik, dil, organizasyon ve doğruluk açısından yüksek kaliteli yorumlar sunmasına rağmen, insan değerlendirme yapanlardan sürekli daha düşük puanlar verdiğini ortaya koydu. Ayrıca, yapay zeka daha kapsamlı geri bildirim sağladı, ancak çeşitli yapay zeka araçlarından alınan puanlar önemli ölçüde farklı değildi.

Araştırma Boşluğu:

Şu anda AWE burslarıyla ilgili çoğu araştırma ya doğruluk ya da kullanıcı kabulü üzerine inceleniyor. Çok az kişi, puanlama farklarının ana dil veya yeterlilik gruplarını sistematik olarak dezavantajlı olarak inceliyor. Önceki çalışmalar kullanıcı kabulünü incelemiş veya belirli bir ülke ve örneklem büyüklüğünden belirli bir AWE sistemiyle sınırlı olsa da, genellenebilirlikle ilgili sorular ortaya çıkmaktadır. Hem SHAP hem de PCA XAI stratejileri olup şeffaflığı artırmak için geliştirilmiş olsa da, hiçbir çalışma adalet mekanizmalarını veya öğrencilerin AWE'den gelen yapay zeka geri bildirimlerini nasıl kullandığını incelememiştir. Literatürde, doğruluk, adalet analizi ve öğrenici algılarının tanımlanmış boyutlarını düşünen kapsamlı çerçeveler yoktur. Dereceleyici içi ve aralı doğruluğu, adaleti ve öğrenci algılarını dikkate alan açıklanabilir bir değerlendirme modeli örneği yoktur. Bu araştırmada, çok dilli ve yeterlilik çeşitliliğindeki öğrenenler arasında doğruluk, adalet ve öğrenici algılarını aynı anda değerlendirmek için açıklanabilir bir çerçeve olan TLEF ve birleşik bir model olan AFMM önerilmiş ve doğrulanmıştır.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Etik onay ve katılımcı kazanımı süreci, makale yönetimi, ETS Kriterleri ve uzmanlar tarafından çift puanlama, öğrenci algısı değerlendirmesi ve istatistiksel analiz dahil olmak üzere bu bölümde özetlenmiştir. Doğruluk, adalet ve SEM tabanlı algı modellemesinin birleşik bir XAI doğrulama hattına nasıl entegre edildiğini vurguluyor. XAI tabanlı AWE değerlendirme çerçevesi Şekil 1'de gösterilmiştir.

Prosedür:

İşlem birkaç adımdan oluşuyordu. İlk olarak, IRB onayı alındı ve tüm katılımcılardan bilgilendirilmiş onay alındı. Bağımsız, bağımlı ve kontrol değişkenleri daha sonra tanımlandı. Moodle'da üç nötr makale konusu kullanılarak standart yazma görevleri yapıldı ve kelime sayısı, zaman sınırı ve yapı gibi makale gereksinimlerine uyum sağlanırken yazım örnekleri toplandı. Çift puanlama, ETS Kriter çıktıları ve insan uzman puanlamaları kullanılarak gerçekleştirildi. Öğrenci algısı anketleri, makale gönderiminden hemen sonra dağıtıldı. Veri taraması ve kalite kontrol prosedürleri, örneğin hile veya geçersiz yanıtlar gibi anormallikleri gidermek için uygulandı. Adalet analizi eşikleri (ΔEO, RMSE kontrolleri) de uygulandı. Son olarak, tüm anonimleştirilmiş veriler şifreli, erişim kontrollü sunucularda güvenli bir şekilde depolanıyordu.

Etik onay ve bilgilendirilmiş onay

Bu çalışma, yazarların kurumunun Kurumsal İnceleme Kurulu'ndan etik onay aldı. Tüm prosedürler Helsinki Bildirgesi ve ilgili düzenlemelere uygun olarak yürütülmüştür. Tüm katılımcılar yetişkindi (≥18 yaşında) ve katılımdan önce yazılı bilgilendirilmiş onay verdiler. Yazı örnekleri ve anket yanıtları kaynağında kimliği çıkarılarak şifreli, erişim kontrollü sunucularda saklandı; yalnızca yetkili soruşturmacılar erişebiliyordu. İnsan değerlendirmeciler katılımcıların ana dili, yeterlilik seviyesi ve demografik durumlarına kör oldu. Katılım gönüllüydü, istediği zaman çekilme hakkı verildi ve hiçbir aldatma veya hassas müdahale yapılmadı. Resmi onay belgeleri talep üzerine dergiye sunulabilir.

Değişken tasarım

Çalışmada analizi yönlendirmek için toplam üç değişken grubu tanımlanmıştır. Tablo 1 , her yapının ölçüm yöntemlerinde kullanılan ölçüm ve veri türlerini özetler ve bağımsız, bağımlı ve kontrol değişkenlerinin tam operasyonel tanımlarını sunar.

Yapay zeka puanlama doğruluğu, ETS Kriterinin çıktıları ile uzmanların derecelendirmeleri arasında RMSE ve Pearson korelasyon katsayısı (r) açısından değerlendirilen ilk bağımsız değişken oldu. Uzmanlar tarafından yapılan kalibrasyon, ICC 0.91 vererek güvenilirliği doğruladı.

İkinci bağımsız değişken ise öğrenenlerin dil geçmişi oldu; bu geçmiş ana dili ve ana dili olmayanlara ayrıldı ve daha fazla alt grup olarak Çince, İspanyolca, Arapça ve diğer gruplara ayrıldı. Çinli öğrenciler, sistematik olarak eksik tahmin edilen ön işaretler gözlemlendiği için hedef gruplardan biriydi.

Üçüncü bağımsız değişken ise yazı yeterliliğiydi; bu yeterlilik CEFR seviyeleri A2'den C1'e kadar olan resmi sertifikalar ve ders öncesi yeterlilik testleriyle doğrulanıyordu ve IELTS eşdeğerleriyle de uyumluydu. Yapay Zeka Adalet Arabuluculuğu Modeli'nde tanıtılan bir diğer moderatör, adalete duyarlılığın yeterlilik seviyeleri arasında değişip değişmediğini test etmek için yeterlilik yazmaktı.

Adalet algısı ve öğrenen memnuniyeti bağımlı değişkenlerdi. Adalet algısı, bireysel tutarlılık ve grup tarafsızlığını içeren yedi puanlık Likert ölçeğinde derecelendirilen sekiz maddelik bir anket ile değerlendirildi (Cronbachs 87; CVI 92). Öğrenenlerin memnuniyeti, kullanmaya istekli olduklarını ve beceride algılanan iyileşmeyi gösteren altı Likert sorusu kullanılarak değerlendirildi (α = 0.85).

Değişkenler yaş, cinsiyet ve yazma deneyimi açısından kontrol edildi. Yaş üç gruba ayrıldı (18-22 yaş, 23-28 ve ≥29 yaş), cinsiyet ise erkek ve kadın olarak kategorize edildi. Yazma deneyimi yılda üç sıklık seviyesine ayrılıyordu.

Yazma görev metinleri

Standartlaştırılmış tartışmalı makale ipuçları, üç tarafsız konu için yazı verisi elde etmek için formüle edilmiştir: Küreselleşmenin Yerel Kültürler üzerindeki Etkisi, Çevrimiçi Eğitimin Avantajları ve Zorlukları ile Yapay Zekanın Etik Sınırları. Bu temalar, bir yandan bilişsel zorluk ve erişilebilirliği dengelemek, diğer yandan ise önceki bilgiden kaynaklanan performans farklarını azaltmaya yönelikti. Konu dağılımı ve makale uzunluğu için tanımlayıcı istatistikler Tablo 2'de bildirilmiştir.

Her makalenin %10 ±250 kelime olması ve Moodle tabanlı bir platformda 45 dakika içinde yazılması gerekiyordu. Yardımcı araçlar yasaklandı ve geç teslim edilmeler hariç tutuldu. Denemeler, giriş, iki argüman paragrafı ve sonuç gibi standart bir yapıya uyulurdu. Toplamda, ortalama uzunluğu 252,3 kelime (SD = 8,7) olan 764 geçerli makale toplanmıştır.

Puan karşılaştırma verileri

AWE puanlama doğruluğu, ETS Kriterleri çıktılarını insan uzman puanlarıyla birleştiren çift bir prosedürle değerlendirildi. Puanlar Criterion'dan açık API üzerinden alındı. On yıldan fazla değerlendirme deneyimine sahip üç dilbilimci tüm makaleleri bağımsız olarak puanladı. Resmi puanlamadan önce, değerlendiriciler üç kalibrasyon oturumunu tamamladı. Kalibrasyon sırasında, dereceler arası güvenilirlik ICC = 0.87'ye ulaştı; resmi puanlamada ICC 0.91'e yükseldi, boyuta özgü ICC'ler ise 0.88'in üzerindeydi. Puan farkı iki puandan fazla olan makaleler topluca çözüldü (18 vaka). Puanlama iş akışı ve güvenilirlik sonuçları Tablo 3'te özetlenmiştir.

Öğrenci algısı anketi

Öğrencilerin yapay zeka geri bildirimine dair algıları, TAM'a dayalı 22 maddelik bir anketle toplandı ve adaleti de kapsayacak şekilde genişletildi. Araç üç alan içeriyordu: adalet algısı (8 madde), memnuniyet (6 madde) ve anlaşılabilirlik ile şeffaflık gibi moderatörlük faktörleri (8 madde). Beş uzman tarafından yapılan doğrulama CVI 0.92 oldu ve 60 öğrenciyle yapılan pilot testlerde genel güvenilirlik α = 0.90 oldu. Anket yapısı ve psikometrik indeksler Tablo 4'te sunulmuştur.

Ana çalışmadaki anketler, makaleler gönderildikten hemen sonra yapıldı ve düşünmeden tamamlanmayı azaltmak için minimum tamamlanma süresi gereksinimleri vardı. Yayınlanan 764 anketten 756'sı kalite kontrollerinden sonra geçerli olmuş ve sonuç olarak 98,95 etkin oranı elde edilmiştir.

Veri toplama ve kalite kontrolü

Veriler 8 hafta boyunca (Mart-Nisan 2024) dört aşamada kaydedildi: işe alım ve onay; deneme yazma; çift puanlama ve anket dağıtımı; ve veritabanının derlenmesi. Ders öncesi yazma performansına dayalı yeterlilik sertifikaları çift tarama ile incelendi ve bu süreçte 16 katılımcı elendi. Gerçek zamanlı izlemeyle dört olası hile vakası ortadan kaldırıldı ve üç şüpheli yapay zeka performansı (en az 8 puanlık sapma) manuel değerlendirme sonrası değiştirildi. Sekiz geçersiz anket, ters madde tutarlılık kontrolleri nedeniyle elenen oldu.

Veri depolama ve etik

Tüm veriler anonimleştirildi ve yerel dil, yeterlilik seviyesi ve seri numarasından oluşan benzersiz tanımlayıcılar kullanılarak saklandı. Metinler, notlar ve anketler şifrelenerek ISO27001 uyumlu sunucularda kısıtlı erişime sahip olarak saklanıyordu. Veriler kalıcı olarak silinmeden önce 3 yıl boyunca saklanacaktır. Kurumsal inceleme kurulundan etik onay alındı ve tüm katılımcılardan yazılı bilgilendirilmiş onay alındı.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bölüm, araştırma sonuçlarını beş analitik boyuta göre sunar: deneysel tasarım, katılımcı özellikleri, puanlama doğruluğu, adalet değerlendirmesi ve öğrenme ile algı modelleme. Sonuçlar arasında istatistiksel performans, grup farkları, adalet farklılıkları ve SEM tabanlı arabuluculuk ve moderasyon yer almaktadır.

Deneysel kurulum

Temel yazılım adımları, ETS Criterion'un API'si üzerinden otomatik olarak bilgiyi puanlamak, insan derecelendirmecileri eğ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Araştırma, teknik doğruluk, grup ve bireysel adalet ile öğrenci algısını kapsayan üç aşamalı bir yaklaşımla bir AWE sistemini inceledi ve genel geçerlilik ile sistematik grup farklılıklarının aynı anda mevcut olduğunu belirledi. Yapay zeka ile uzman derecelendirmeleri arasında güçlü korelasyonlar vardı (toplam r = 0.82), ancak alt gruplara göre farklar gözlemlendi (yerel r = 0.89 vs. yerli olmayan r = 0.76; Çince'de r = 0.72; Tablo 6). RMSE'lerin dağılımları ayrıca Çince öğrenenlerde dah...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarın açıklaması gereken bir çıkar çatışması yoktur.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Veri Depolama Sistemi	Anonimleştirilmiş veri depolamak için şifreli, erişim kontrollü sunucular.	Kurumsal sunucular	STORAGE-002
ETS Kriter Sistemi	Yazma görevlerinin puanlanması için kullanılan yapay zeka destekli yazım değerlendirme sistemi.	Eğitim Sınav Servisi (ETS)	ETS-001
Adalet ve Doğruluk Analiz Araçları	RMSE, Eşitlenmiş Oranlar ve istatistiksel analiz için araçlar.	Özel betikler/istatistik paketleri	TOOL-FA-001
İnsan Uzman Puanları	10 yılı aşkın deneyime sahip üç dilbilimci tarafından sağlanan bağımsız derecelendirmeler.	Şirket içi değerlendirmeciler	HR-EXP-003
Öğrenen Algı Anketi	Adalet ve memnuniyet üzerine 8 maddelik bir anket, 7 puanlık bir Likert ölçeğinde derecelendirilmiştir.	Kendi içinde geliştirilen	QUES-008
istatistiksel yazılım (R 4.3.1)	SEM (Yapısal Denklem Modelleme) dahil olmak üzere veri analizi için kullanılır.	R Vakfı	R-SW-431
Stratifikasyonlu Rastgele Örnekleme Verileri	CEFR seviyeleri A2'den C1'e kadar olan 764 çok dilli öğreniciden toplanan veriler.	Çalışma katılımcıları	DATA-764
Yazma Görev Soruları	Küreselleşme, çevrimiçi eğitim ve yapay zeka etiği üzerine üç standart makale konusu.	Moodle tabanlı platform	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

İngilizce Yazı Değerlendirmesinde Doğruluk, Adalet ve Öğrenen Algısı için Açıklanabilir Yapay Zeka Çerçevesi

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles