Research Article

إطار الذكاء الاصطناعي القابل للتفسير للدقة والعدالة وإدراك المتعلم في تقييم الكتابة باللغة الإنجليزية

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تطور هذه الدراسة إطار تقييم ثلاثي المستويات ونموذج وساطة العدالة لتقييم أنظمة الكتابة الإنجليزية المدعومة بالذكاء الذكاء الاصطناعي. باستخدام 764 عينة عبر اللغات، تظهر النتائج فروقات في الدقة، وانحياز العدالة ضد المتعلمين غير الأصليين (وخاصة مستوى الكفاءة في اللغة A2 الصينية)، وإدراك العدالة كوسيط رئيسي لرضا المستخدمين، مما يوفر دلالات نظرية وعملية.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في سياق التحول الرقمي التعليمي العالمي، تم اعتماد تقييم الكتابة الآلي (AWE) على نطاق واسع بسبب مزاياه الفورية والموحدة؛ ومع ذلك، غالبا ما تهمل الأطر التقليدية الموجهة للدقة مخاوف العدالة وتصورات المتعلمين، مما يحد من الشفافية والقيمة التعليمية. لمعالجة هذا القيد، يقترح هذا البحث إطار عمل الذكاء الاصطناعي القابل للتفسير (XAI) مصمم لتوفير تغذية راجعة شفافة وقابلة للتفسير، مما يسمح للمتعلمين بفهم التقييم الآلي والثقة به، ويدمج نموذج التحقق متعدد المستويات، إطار التقييم الثلاثي المستويات (TLEF)، الذي يشمل الدقة التقنية، والعدالة الجماعية والفردية، وإدراك المتعلم، إلى جانب نموذج الوساطة في العدالة الذكاء الاصطناعي (AFMM). باستخدام أخذ عينات عشوائية طبقية، تم جمع بيانات من 764 متعلما متعددي اللغات (متحدثون أصليون للإنجليزية والصينية والإسبانية) عبر مستويات الإطار الأوروبي المشترك للغات (CEFR) من A2 إلى C1 من خلال مهام كتابية، وتقييم مزدوج من قبل الذكاء الاصطناعي وخبراء البشر، والاستبيانات المنظمة. بدلا من سرد الاختبارات الفردية، تم استخدام التحليل الإحصائي المتعدد لفحص الصلاحية، والعدالة، وعلاقة المتعلم بالإدراك. جمعت التحليلات الإحصائية بين الارتباط، والجذر المتوسط التربيعي للخطأ (RMSE)، واختبار الاحتمالات المتساوية، ونمذجة المعادلات الهيكلية (SEM). تكشف النتائج أنه بينما يحقق نظام تقييم الكتابة بمساعدة الذكاء الاصطناعي (AWE) (معيار ETS) صحة عامة (r = 0.82)، لا تزال هناك تفاوتات كبيرة: يظهر المتحدثون الأصليون للصينية أدنى توافق مع المقيمين البشريين (0.72) وأعلى RMSE (متوسط 2.15)، وتكون تحيزات العدالة أكثر وضوحا عند مستويات الكفاءة المنخفضة (ΔEO = 0.15 لمتعلمي A2)، وتتوسط العدالة المدركة بالكامل في العلاقة بين الدقة المدركة ورضا المتعلم. مع كفاءة وحساسية للعدالة. من خلال إعادة صياغة العدالة والإدراك كأبعاد أساسية للقابلية للشرح، يعزز البحث الأساس النظري للتقنيات التعليمية ويوفر مسارا عمليا لزيادة الشفافية والعدالة والقبول الاجتماعي في تقنيات التعليم.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

لقد زادت العولمة المكثفة للتعليم والتقنيات الرقمية من الحاجة إلى تقييم مستوى الكتابة باللغة الإنجليزية بشكل علمي وموثوق لتدريس اللغات، والتطوير الأكاديمي، والتقدم المهني1. يمكن للتقييمات التقليدية للكتابة، كما تمارس التقييمات البشرية، أن تقيس الجوانب الذاتية للكتابة مثل شمولية الحجج والملاءمة الثقافية2، لكنها عرضة لأوقات استجابة طويلة، وتكاليف عمالة مرتفعة، وتحيز بسبب خبرة المقيموميوله. هذه القيود تكون حادة بشكل خاص في الممارسة واسعة النطاق، مثل اختبارات اللغة الدولية (IELTS، TOEFL) أو دورات أخرى في اللغة الإنجليزية تدرس في الجام....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يتم تلخيص عملية الموافقة الأخلاقية وتوظيف المشاركين، بما في ذلك إدارة المقالات، والتقييم المزدوج من قبل معيار ETS والخبراء، وتقييم إدراك المتعلم، والتحليل الإحصائي. تسلط الضوء على كيفية دمج الدقة والعدالة ونمذجة الإدراك المعتمدة على SEM في خط تحقق موحد من XAI. يتم توضيح إطار تقييم AWE المدفوع ب XAI في الشكل 1.

الإجراءات:

تضمنت العملية عدة خطوات. أولا، تم الحصول على موافقة لجنة التحقيقات الدولية، وتم جمع موافقة مستنيرة من جميع المشاركين. ثم تم تعريف المتغيرات المستقلة والتابعة والضابطة. تم تنفيذ مهام كتابة موحدة على مودل باستخدام ثلاث....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعرض القسم نتائج البحث بناء على خمسة أبعاد تحليلية: تصميم التجارب، خصائص المشاركين، دقة التقييم، تقييم العدالة، ونمذجة التعلم والإدراك. تشمل النتائج الأداء الإحصائي، والفروق الجماعية، وتفاوت العدالة، والوساطة والاعتدال المعتمدين على SEM.

الإعداد التجريبي

شملت الخطوات البرمجية الرئيسية إعداد معيار ETS من خلال واجهة برمجة التطبيقات الخاصة به لتقييم المعلومات تلقائيا، وتدريب المقيمين البشريين، وإجراء تحليل البيانات في .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

استكشف البحث نظام AWE ضمن نهج ثلاثي المستويات، يشمل الدقة التقنية، وعدالة المجموعة والفردية، وإدراك المتعلم، وحدد أن الصلاحية العامة والفروق الجماعية المنهجية موجودة في الوقت نفسه. كانت هناك ارتباطات قوية بين تصنيفات الذكاء الاصطناعي والخبراء (المجموع r = 0.82)، لكن لوحظت فروق حسب المجموعة الفرعية (r الأصلي = 0.89 مقابل r غير الأصلي = 0.76؛ الصينية r = 0.72; الجدول 6). كما أشارت توزيعات RMSEs إلى أخطاء وتغير أعلى لدى المتعلمين الصينيين (الشكل 2). تشير هذه ال.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

المؤلف لا يملك تضارب مصالح ليكشف عنه.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
<قوي>نظام تخزين البياناتخوادم مشفرة وتحكم في الوصول لتخزين البيانات المجهولة.خوادم المؤسساتSTORAGE-002
<نظام معايير ETS>قوينظام تقييم الكتابة الذكاء الاصطناعي المدعوم يستخدم لتقييم مهام الكتابة.خدمة الاختبارات التعليمية (ETS)ETS-001
<أدوات تحليل العدالة والدقة القوية<>/قوية>أدوات ل RMSE، الاحتمالات المتساوية، والتحليل الإحصائي.سكريبتات مخصصة/حزم إحصائياتتول-فا-001
<تقييمات الخبراء القوية>البشريةتقييمات مستقلة مقدمة من ثلاثة لغويين لديهم أكثر من 10 سنوات من الخبرة.المقيمون الداخليونHR-EXP-003
<استبيان إدراك المتعلم>قوياستبيان مكون من 8 عناصر حول العدالة والرضا، مصنف على مقياس ليكيرت من 7 نقاط.تطوير داخليQUES-008
<القوي>برمجيات الإحصائية (R 4.3.1)يستخدم لتحليل البيانات، بما في ذلك نمذجة المعادلات الهيكلية (SEM).مؤسسة RR-SW-431
<بيانات العينة العشوائية القوية>الطبقيةتم جمع البيانات من 764 متعلما متعددي اللغات عبر مستويات CEFR A2 إلى C1.المشاركون في الدراسةداتا-764
<قوي>كتابة< قوي>ثلاثة مواضيع موحدة للمقالات حول العولمة، التعليم عبر الإنترنت، وأخلاقيات الذكاء الاصطناعي.منصة تعتمد على مودلبرومبت-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles