إطار الذكاء الاصطناعي القابل للتفسير للدقة والعدالة وإدراك المتعلم في تقييم الكتابة باللغة الإنجليزية

Meili Dai

doi:10.3791/69841

Research Article

إطار الذكاء الاصطناعي القابل للتفسير للدقة والعدالة وإدراك المتعلم في تقييم الكتابة باللغة الإنجليزية

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تطور هذه الدراسة إطار تقييم ثلاثي المستويات ونموذج وساطة العدالة لتقييم أنظمة الكتابة الإنجليزية المدعومة بالذكاء الذكاء الاصطناعي. باستخدام 764 عينة عبر اللغات، تظهر النتائج فروقات في الدقة، وانحياز العدالة ضد المتعلمين غير الأصليين (وخاصة مستوى الكفاءة في اللغة A2 الصينية)، وإدراك العدالة كوسيط رئيسي لرضا المستخدمين، مما يوفر دلالات نظرية وعملية.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في سياق التحول الرقمي التعليمي العالمي، تم اعتماد تقييم الكتابة الآلي (AWE) على نطاق واسع بسبب مزاياه الفورية والموحدة؛ ومع ذلك، غالبا ما تهمل الأطر التقليدية الموجهة للدقة مخاوف العدالة وتصورات المتعلمين، مما يحد من الشفافية والقيمة التعليمية. لمعالجة هذا القيد، يقترح هذا البحث إطار عمل الذكاء الاصطناعي القابل للتفسير (XAI) مصمم لتوفير تغذية راجعة شفافة وقابلة للتفسير، مما يسمح للمتعلمين بفهم التقييم الآلي والثقة به، ويدمج نموذج التحقق متعدد المستويات، إطار التقييم الثلاثي المستويات (TLEF)، الذي يشمل الدقة التقنية، والعدالة الجماعية والفردية، وإدراك المتعلم، إلى جانب نموذج الوساطة في العدالة الذكاء الاصطناعي (AFMM). باستخدام أخذ عينات عشوائية طبقية، تم جمع بيانات من 764 متعلما متعددي اللغات (متحدثون أصليون للإنجليزية والصينية والإسبانية) عبر مستويات الإطار الأوروبي المشترك للغات (CEFR) من A2 إلى C1 من خلال مهام كتابية، وتقييم مزدوج من قبل الذكاء الاصطناعي وخبراء البشر، والاستبيانات المنظمة. بدلا من سرد الاختبارات الفردية، تم استخدام التحليل الإحصائي المتعدد لفحص الصلاحية، والعدالة، وعلاقة المتعلم بالإدراك. جمعت التحليلات الإحصائية بين الارتباط، والجذر المتوسط التربيعي للخطأ (RMSE)، واختبار الاحتمالات المتساوية، ونمذجة المعادلات الهيكلية (SEM). تكشف النتائج أنه بينما يحقق نظام تقييم الكتابة بمساعدة الذكاء الاصطناعي (AWE) (معيار ETS) صحة عامة (r = 0.82)، لا تزال هناك تفاوتات كبيرة: يظهر المتحدثون الأصليون للصينية أدنى توافق مع المقيمين البشريين (0.72) وأعلى RMSE (متوسط 2.15)، وتكون تحيزات العدالة أكثر وضوحا عند مستويات الكفاءة المنخفضة (ΔEO = 0.15 لمتعلمي A2)، وتتوسط العدالة المدركة بالكامل في العلاقة بين الدقة المدركة ورضا المتعلم. مع كفاءة وحساسية للعدالة. من خلال إعادة صياغة العدالة والإدراك كأبعاد أساسية للقابلية للشرح، يعزز البحث الأساس النظري للتقنيات التعليمية ويوفر مسارا عمليا لزيادة الشفافية والعدالة والقبول الاجتماعي في تقنيات التعليم.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

لقد زادت العولمة المكثفة للتعليم والتقنيات الرقمية من الحاجة إلى تقييم مستوى الكتابة باللغة الإنجليزية بشكل علمي وموثوق لتدريس اللغات، والتطوير الأكاديمي، والتقدم المهني¹. يمكن للتقييمات التقليدية للكتابة، كما تمارس التقييمات البشرية، أن تقيس الجوانب الذاتية للكتابة مثل شمولية الحجج والملاءمة الثقافية²، لكنها عرضة لأوقات استجابة طويلة، وتكاليف عمالة مرتفعة، وتحيز بسبب خبرة المقيم^وميوله^. هذه القيود تكون حادة بشكل خاص في الممارسة واسعة النطاق، مثل اختبارات اللغة الدولية (IELTS، TOEFL) أو دورات أخرى في اللغة الإنجليزية تدرس في الجامعات حيث لا يمكن أن يكون التقييم اليدوي هو كل ما هو مطلوب من حيث التغذية الراجعة الفورية والتغطية⁵.

أصبحت أنظمة AWE مستخدمة على نطاق واسع في هذا السياق بسبب معالجتها الفورية، وتوحيد معها^، وقابليتها للتوسع. تستخدم أدوات شائعة مثل Grammarly (التي تركز على أخطاء النحو وتحسين الأسلوب) ومعيار ETS (الذي يلتزم بمعايير الكتابة الرسمية) حاليا من قبل ملايين الطلاب في التعليم من الروضة حتى الصف الثاني عشر، ومدارس اللغات، والتعليم العالي،^{والتدريب} الفردي. على الرغم من أن هذه هي الفوائد، إلا أن الكفاءة التكنولوجية وتطبيق أنظمة التربية التقنية لا تزال محل جدل⁸. من الناحية التقنية، الأنظمة الحالية دقيقة للغاية في أبعاد الموضوع، بما في ذلك اكتشاف الأخطاء والتنوع المعجمي، حيث يمكن أن يكون الارتباط مع التقييم البشري أكثر من 0.85⁹. ومع ذلك، في المجالات الأكثر ذاتية، مثل أهمية المحتوى، الحجة المنطقية، وتنظيم النص، غالبا ما تصبح الارتباطات أقل من 0.70¹⁰. مثل هذا التفاوت يحمل خطر تعزيز الدقة السطحية بين المتعلمين على حساب الكفاءة العامة في الكتابة¹¹.

قضية العدالة تحد أيضا من الفائدة التعليمية ل AWE. تميل الدراسات الحالية أيضا إلى التركيز على مؤشرات الدقة الإجمالية، متجاهلة احتمال الانحرافات التي تضر بشكل منهجي ببعض المجموعة¹². بشكل دليشي، فإن خصائص اللغات المشتركة بين المتعلمين الصينيين أو الإسبانيين قد تخطئ في اعتبارها أخطاء، وهذا يؤدي إلى تقليل منهجي من التقدير^13,14. بالإضافة إلى ذلك، فإن القبول الذاتي لتغذية الذكاء الاصطناعي من قبل المتعلمين عادة ما يكون غير معروف¹⁵. تشير الاستطلاعات إلى أن ما يقرب من ثلث المتعلمين غير الأصليين أبلغوا عن عدم ملاءمة بين درجات الذكاء الاصطناعي والأداء الفعلي، مع استمرار عمليات الدقة التقنية، وعدالة المجموعات، ورضا المتعلمين بشكل ضعيف الفهم¹⁶.

تعكس هذه النقاط الضعف أوجه القصور في النموذج الكلاسيكي للدقة¹⁷. الإطار الذي يأخذ فقط في الاعتبار التوافق بين الذكاء الاصطناعي وتقييم البشري لا يمكنه أن يلتقط قضايا العدالة أو ثقة المتعلم في النظام. عمليا، يجب أن تستوفي القيمة التعليمية ل AWE ثلاثة شروط في آن واحد: الدقة التقنية، العدالة بين المجموعات، وقبول المتعلم¹⁸. غياب مثل هذا النهج الشامل للتحقق يساعد في تفسير سبب تبني أنظمة AWE على نطاق واسع مع وجود ثقة محدودة في الممارسات التعليمية^19,20.

لمعالجة هذا التحدي، تقدم الدراسة الحالية إطار عمل تحقق متعدد المستويات يدمج الدقة التقنية، وعدالة المجموعة والفردية، وإدراك المتعلم في هيكل متماسك. تم تصميم إطار العمل المقترح XAI ليتم تنفيذه عمليا ضمن منصات AWE الحالية من خلال توفير تشخيصات للعدالة للمعلمين والطلاب وتفسيرات شفافة للدرجات، ويمكن تطبيقه في دورات الكتابة أو دورات التحضير للاختبارات لتقييم قدرته على تعزيز العدالة وقابلية التفسير والفائدة التعليمية في بيئات التقييم الحقيقية.

في هذا السياق، الفرضية هي اختبار AFMM للتحقيق في الدور الوسيط للعدالة المدركة في تحديد العلاقة بين الدقة والرضا، وكذلك الدور المعتدل للكفاءة اللغوية في حساسية العدالة. لذلك، يساهم بطريقتين: نظريا من خلال إثراء نماذج التقييم ل AWE من خلال وصف العدالة كأحد أبعاد التحقق الرئيسية إلى جانب الدقة والإدراك، وعمليا، من خلال توفير استراتيجيات للمطورين لتعظيم العدالة، والمعلمين بمعايير اختيار النظام الحساسة للمجموعة، والقيمة التعليمية ل AWE من خلال شرح الطريقة التي تتشكل بها تصورات المتعلمين. بالإضافة إلى التعليم، يتماشى الإطار أيضا مع المفهوم الأوسع ل XAI، مما يوضح كيف يمكن للعدالة وإدراك المستخدم تعزيز الشفافية والثقة والقبول في مجالات أخرى مثل الرعاية الصحية، والأنظمة الذاتية، والأمن السيبراني.

أسئلة البحث:

1.To إلى أي مدى يظهر نظام AWE الدقة التقنية والعدالة عبر مجموعات اللغة الأم والكفاءة المختلفة؟

2. كيف يمكن لإطار تقييم متعدد المستويات القائم على XAI تحسين الشفافية والعدالة في التقييم الآلي للكتابة الإنجليزية؟

مراجعة الأدبيات:

تم فحص العوامل التي تؤثر على قبول ملاحظات AWE من قبل طلاب الجامعات باستخدام نموذج قبول التكنولوجيا الموسع (TAM)²¹. استنادا إلى بيانات استطلاع من 448 طالبا صينيا استخدموا SEM، تبين أن الفائدة وسهولة الاستخدام والنية كان لها تأثير كبير على المعيار الذاتي، والثقة، والكفاءة الذاتية، والتغذية الراجعة المعرفية، وخصائص النظام. ومع ذلك، كانت الدراسة محدودة على دولة واحدة ومجموعة واحدة من الطلاب، مما يحد من تطبيق التعميم. لاستكشاف كيفية استجابة طلاب اللغة الإنجليزية كلغة أجنبية الصينيين لتغذية راجعة^{بيغاي AWE رقم 22}، قامت دراسة بتحليل المشاركات المتكررة (n = 5) من طلاب الجامعات. وأشار إلى التركيز المبكر على تصحيح الأخطاء، وقلة استقبال التغذية الراجعة اللغوية، وتعميق الاستجابة تدريجيا. ومع ذلك، كان حجم العينة محدودا جدا، وكذلك نظام AWE، الذي يحد من قابلية التطبيق والتعميم. تم فحص المعتقدات التي يتبناها معلمي اللغة الإنجليزية كلغة أجنبية بشأن تطبيق أداة التقييم الذكاء الاصطناعي (CoGrader) لتحديد العوامل التي تؤثر على آرائهم²³. من خلال دراسة متعددة الطرق شملت 10 أساتذة جامعات سعودية، كشف استطلاع ومقابلة عن وجود رأي إيجابي مختلط، لكنه تردد في التأكد تماما من الموثوقية واستبدال المعلمين بالكامل. وهذا يعيق التعميم بسبب العينة المحدودة ووضع الدولة الواحدة.

مع الأخذ في الاعتبار التطورات في علم اللغة الجسدية وتقنية الذكاء الاصطناعي، بحثت دراسة في أطر AES²⁴. استخدم PCA لتحسين المؤشرات اللغوية لتقييم جودة الكتابة واكتشفت أن دمج الخصائص الدقيقة مع الخصائص المجمعة يحدد جودة الكتابة بشكل أكثر فعالية من الخصائص المجمعة وحدها. تفوق نهج AES غير الخطي المبني على الانحدار العشوائي للغابة على الأساليب الأخرى. علاوة على ذلك، حدد SHAP عناصر لغوية أساسية لكل سمة تم تقييمها، مما زاد من شفافية النظام عبر الذكاء الاصطناعي القابل للتفسير. قد تساعد النتائج في تحسين الأساليب متعددة الأبعاد في الكتابة والتقييم والتعليم. تم إدخال نظام التعاون بين الإنسان والآلة لمعالجة تحديات التعليقات التوضيحية على الكتابات العربية، والتي غالبا ما تكون مكلفة وتستغرق وقتا طويلا. تنظر الطريقة في المقالات المبنية على سبع سمات للأدب بمساعدة ماجستير اللغة الكبيرة. تم تخصيص عمليات التحقق وتكتيكات التوجيه لضمان الاتساق والدقة. يؤدي هذا التعاون إلى زيادة عدد الموارد الموسومة ولا يؤثر على جودة التقييم، مما يثبت أنه طريقة توضيح بيانات قابلة للتوسع مناسبة للغات ذات الموارد المنخفضة.

يوفر استخدام الذكاء الاصطناعي في المجال التعليمي فرصة لتقليل متطلبات التقييم بشكل كبير وتعزيز تعليم الكتابة ^25,26. وفي الوقت نفسه، أكد الباحثون أن دقة الذكاء الاصطناعي ليست الجانب الوحيد ذي الصلة باستخدامه المسؤول. هناك مبادئ للعدالة وتقليل التحيز، والأمان والخصوصية، والمساءلة، والتفسير، والشفافية، والتأثير التعليمي، والنزاهة، والتطوير المستمر. قامت أبحاث حديثة بتقييم تقييم الطلقات الصفرية بناء على GPT-4o بشكل تجريبي مع التركيز على هذه المتطلبات. ركز البحث على التصورات التي كان يحملها المعلمون تجاه ADWTs فيما يتعلق بجانب النزاهة التعليمية²⁷. تشير الدراسة المقطعية التي شملت 100 طالب دراسات عليا وأساتذة في 10 مواد إلى أنه، رغم أن المعلمين ينسبون فوائد ADWTs في تحقيق الهدف التعليمي، إلا أن هناك بعض القيود، مثل محدودية الوصول، وقلة المعرفة، والقلق بشأن تأثيرها على النزاهة والإبداع. أشارت الأبحاث إلى أنه مع اندماج تقنيات الذكاء الاصطناعي في التعليم، أصبحت المخاوف الأخلاقية ومشاركة أصحاب المصلحة ضرورية لاستخدامها بنجاح ومسؤولية. بحثت الأبحاث في فعالية تقنيات الذكاء الاصطناعي مقارنة بالمقيمين البشريين في تقييم المقالات المقدمة من قبل طلاب اللغة الإنجليزية كلغة أجنبية²⁸. كشف تقييم 30 مقالا أنه رغم أن الذكاء الاصطناعي قدم تعليقات عالية الجودة من حيث المحتوى واللغة والتنظيم والدقة، إلا أنه كان يقدم تقييمات أقل باستمرار من المقيمين البشريين. علاوة على ذلك، قدم الذكاء الاصطناعي تغذية راجعة أكثر شمولا، لكن الدرجات من أدوات الذكاء الاصطناعي المختلفة لم تكن مختلفة بشكل جوهري.

فجوة البحث:

حاليا، معظم الأبحاث حول منح AWE تفحص إما الدقة أو قبول المستخدمين. قليل جدا يفحص ما إذا كانت فروق الدرجات تؤثر بشكل منهجي على مجموعات اللغة الأم أو الكفاءة المختلفة. بينما فحصت الدراسات السابقة قبول المستخدمين أو اقتصرت على نظام AWE محدد من دولة وحجم عينة محددين، تظهر تساؤلات حول التعميم. على الرغم من أن كل من SHAP وPCA هما استراتيجيتان XAI وتم تطويرهما لزيادة الشفافية، إلا أنه لم تفحص أي دراسات آليات العدالة أو كيفية استخدام المتعلمين لتغذية الذكاء الاصطناعي من التغذية الراجعة من AWE. لا توجد أطر واسعة في الأدبيات تتناول أبعاد محددة للدقة، وتحليل العدالة، وتصورات المتعلم. لا يوجد مثال على نموذج تقييم قابل للتفسير يأخذ في الاعتبار دقة المقيمين داخل وبين المقيمين، والعدالة، وتصورات المتعلم. يتم اقتراح والتحقق من إطارا قابلا للتفسير، TLEF، ونموذج مشترك، AFMM، في هذا البحث لتقييم الدقة والعدالة وإدراك المتعلم في الوقت نفسه بين المتعلمين المتعددين اللغات والكفاءة المتنوعة.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يتم تلخيص عملية الموافقة الأخلاقية وتوظيف المشاركين، بما في ذلك إدارة المقالات، والتقييم المزدوج من قبل معيار ETS والخبراء، وتقييم إدراك المتعلم، والتحليل الإحصائي. تسلط الضوء على كيفية دمج الدقة والعدالة ونمذجة الإدراك المعتمدة على SEM في خط تحقق موحد من XAI. يتم توضيح إطار تقييم AWE المدفوع ب XAI في الشكل 1.

الإجراءات:

تضمنت العملية عدة خطوات. أولا، تم الحصول على موافقة لجنة التحقيقات الدولية، وتم جمع موافقة مستنيرة من جميع المشاركين. ثم تم تعريف المتغيرات المستقلة والتابعة والضابطة. تم تنفيذ مهام كتابة موحدة على مودل باستخدام ثلاثة مواضيع مقال محايدة، وجمعت عينات كتابة مع ضمان الالتزام بمتطلبات المقالة مثل عدد الكلمات، والوقت الزمني، والبنية. تم إجراء التقييم المزدوج باستخدام مخرجات معيار ETS مع تقييمات الخبراء البشرية. تم توزيع استبيانات إدراك المتعلم فور تقديم المقال. تم تنفيذ إجراءات فحص البيانات ومراقبة الجودة لمعالجة الشذوذات مثل الغش أو الردود غير الصالحة. كما تم تطبيق عتبات تحليل العدالة (ΔEO، اختبارات RMSE). وأخيرا، تم تخزين جميع البيانات المجهولة الهوية بشكل آمن على خوادم مشفرة وتحكم في الوصول.

الموافقة الأخلاقية والموافقة المستنيرة

حصلت هذه الدراسة على موافقة أخلاقية من مجلس المراجعة المؤسسية لمؤسسة المؤلفين. تم تنفيذ جميع الإجراءات وفقا لإعلان هلسنكي واللوائح المعمول بها. كان جميع المشاركين بالغين (≥18 سنة) وقدموا موافقة مستنيرة مكتوبة قبل المشاركة. تم إزالة العينات المكتوبة وإجابات الاستبيانات من المصدر وتخزينها على خوادم مشفرة وتحكم في الوصول؛ كان بإمكانهم الوصول فقط للمحققين المصرح لهم. كان المقيمون البشريون غير مبصرين عن اللغة الأم للمشاركين، ومستوى الكفاءة، والتركيبة السكانية. كانت المشاركة طوعية، مع حق الانسحاب في أي وقت، ولم تكن هناك أي خداع أو تدخلات حساسة. يمكن تقديم وثائق الموافقة الرسمية إلى المجلة عند الطلب.

تصميم متغير

تم تعريف ثلاث مجموعات من المتغيرات في الدراسة لتوجيه التحليل. يلخص الجدول 1 أنواع القياس والبيانات المستخدمة في طرق القياس لكل بناء ويوفر التعريفات التشغيلية الكاملة للمتغيرات المستقلة والتابعة والمتحكمة.

كانت دقة الذكاء الاصطناعي في التقييم أول متغير مستقل يتم تقييمه من حيث معامل الارتباط RMSE وبيرسون (r) بين مخرجات معيار ETS وتقييمات الخبراء. أسفرت المعايرة التي أجراها الخبراء عن تقييم ICC بلغ 0.91، مما أكد الموثوقية.

المتغير المستقل الثاني كان الخلفية اللغوية للمتعلمين، والتي قسمت إلى متحدثي أصليين وغير أصليين، وتم تقسيم المزيد إلى مجموعات صينية وإسبانية وعربية وغيرها. كان الطلاب الصينيون من بين الفئات المستهدفة لأن المؤشرات الأولية على التقليل المنهجي من التقدير لوحظت.

المتغير المستقل الثالث كان كفاءة الكتابة، والتي تم تصنيفها وفقا لمستويات CEFR من A2 إلى C1، كما تم تأكيدها من خلال الشهادات الرسمية واختبارات الكفاءة قبل الصف، كما تم توافقها مع معادلات IELTS. كان مشرف آخر تم تقديمه في نموذج الوساطة الذكاء الاصطناعي للعدالة يكتب كفاءة لاختبار ما إذا كانت الحساسية للعدالة تختلف بين مستويات الكفاءة.

كان إدراك العدالة ورضا المتعلم هما المتغيران التابعان. تم تقييم إدراك العدالة من خلال استبيان مكون من ثمانية بنود مصنف على مقياس ليكيرت المكون من سبع نقاط، والذي تضمن الاتساق الفردي وحيادية المجموعة (كرونباخس 87؛ CVI 92). تم تقييم رضا المتعلمين باستخدام ستة أسئلة ليكرت أشارت إلى الاستعداد للاستخدام والتحسن المدرك في المهارة (α = 0.85).

تم التحكم في المتغيرات من حيث العمر والجنس وخبرة الكتابة. تم تقسيم العمر إلى ثلاث مجموعات (18-22 سنة، 23-28 سنة، و≥29 سنة)، وتم تصنيف الجنس إلى ذكر وأنثى. تم تصنيف خبرة الكتابة إلى ثلاث مستويات من التكرار في السنة.

كتابة نصوص المهام

تم صياغة محفزات موحدة للمقالات الجدلية للحصول على بيانات كتابة لثلاثة مواضيع محايدة: تأثير العولمة على الثقافات المحلية، مزايا وتحديات التعليم عبر الإنترنت، والحدود الأخلاقية للذكاء الاصطناعي. كانت هذه المواضيع تهدف إلى تحقيق التوازن بين الصعوبة الإدراكية وسهولة الوصول من جهة، وتقليل فروق الأداء الناتجة عن المعرفة السابقة من جهة أخرى. يتم الإبلاغ عن توزيع المواضيع والإحصائيات الوصفية لطول المقال في الجدول 2.

كان من الضروري أن يكون كل مقال 250 كلمة ±10٪ ويكتب خلال 45 دقيقة على منصة تعتمد على مودل. تم حظر الأدوات المساعدة، وتم استبعاد التقديمات المتأخرة. اتبعت المقالات هيكلا موحدا من المقدمة، فقرتين من الحجة، والخاتمة. تم جمع 764 مقالة صالحة، بمتوسط طول 252.3 كلمة (SD = 8.7).

بيانات مقارنة النقاط

تم تقييم دقة تقييم AWE باستخدام إجراء مزدوج يجمع بين مخرجات معيار ETS وتقييمات الخبراء البشرية. تم استرجاع الدرجات من كريتيريون عبر واجهة برمجة التطبيقات المفتوحة. قام ثلاثة لغويين لديهم أكثر من عشر سنوات من الخبرة في التقييم بتقييم جميع المقالات بشكل مستقل. قبل التسجيل الرسمي، أكمل المقيمون ثلاث جلسات معايرة. أثناء المعايرة، وصلت موثوقية المقيمين بين المقيمين إلى ICC = 0.87؛ خلال التسجيل الرسمي، ارتفع تصنيف ICC إلى 0.91، مع تصنيفات ICC الخاصة بالأبعاد فوق 0.88. تم حل المقالات التي تحتوي على فروق في الدرجات تزيد عن نقطتين بشكل جماعي (18 حالة). يتم تلخيص سير عمل التقييم ونتائج الموثوقية في الجدول 3.

استبيان إدراك المتعلم

تم جمع تصورات المتعلمين حول ملاحظات الذكاء الاصطناعي من خلال استبيان مكون من 22 بندا استند إلى TAM وتم توسيعه ليشمل العدالة. احتوت الأداة على ثلاثة مجالات: إدراك العدالة (8 بنود)، الرضا (6 بنود)، وعوامل التعديل مثل الفهم والشفافية (8 بنود). أسفر التحقق من قبل خمسة خبراء عن مؤشر CVI بلغ 0.92، وأظهر الاختبار التجريبي مع 60 متعلما موثوقية إجمالية تبلغ α = 0.90. تم تقديم هيكل الاستبيان والمؤشرات النفسية في الجدول 4.

تم إجراء الاستبيانات في الدراسة الرئيسية مباشرة بعد تقديم المقالات، وكانت هناك متطلبات زمنية دنيا لتقليل الإكمال غير المدروس. من بين 764 استطلاعا تم إصدارها، كان 756 صالحا بعد فحوصات الجودة، وتم الحصول على معدل فعال 98.95.

جمع البيانات ومراقبة الجودة

تم تسجيل البيانات لمدة 8 أسابيع (مارس-أبريل 2024) على أربع مراحل: التجنيد والموافقة؛ كتابة المقالات؛ التقييم المزدوج وتوزيع الاستبيانات؛ وتجميع قاعدة البيانات. تمت مراجعة شهادات الكفاءة المبنية على أداء الكتابة قبل الصف من خلال الفحص المزدوج، واستبعدت هذه العملية 16 مشاركا. تم القضاء على أربع حالات محتملة للغش من خلال المراقبة الفورية، وتم تعديل ثلاث حالات مشبوهة في أداء الذكاء الاصطناعي (انحرافات لا تقل عن 8 نقاط) بعد تقييم يدوي. تم استبعاد ثمانية استبيانات غير صالحة بناء على فحوصات الاتساق العكسية.

تخزين البيانات وأخلاقيات

تم إخفاء هوية جميع البيانات وتخزينها باستخدام معرفات فريدة تتكون من اللغة الأم، ومستوى الإتقان، والرقم التسلسلي. تم تشفير النصوص والدرجات والاستبيانات وتخزينها على خوادم متوافقة مع ISO27001 مع وصول محدود. سيتم الاحتفاظ بالبيانات لمدة 3 سنوات قبل الحذف الدائم. تم الحصول على موافقة أخلاقية من لجنة المراجعة المؤسسية، وتم جمع موافقة مستنيرة مكتوبة من جميع المشاركين.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعرض القسم نتائج البحث بناء على خمسة أبعاد تحليلية: تصميم التجارب، خصائص المشاركين، دقة التقييم، تقييم العدالة، ونمذجة التعلم والإدراك. تشمل النتائج الأداء الإحصائي، والفروق الجماعية، وتفاوت العدالة، والوساطة والاعتدال المعتمدين على SEM.

الإعداد التجريبي

شملت الخطوات البرمجية الرئيسية إعداد معيار ETS من خلال واجهة برمجة التطبيقات الخاصة به لتقييم المعلومات تلقائيا، وتدريب المقيمين البشريين، وإجراء تحليل البيانات في البرنامج الإحصائي المشار إليه مع ا...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

استكشف البحث نظام AWE ضمن نهج ثلاثي المستويات، يشمل الدقة التقنية، وعدالة المجموعة والفردية، وإدراك المتعلم، وحدد أن الصلاحية العامة والفروق الجماعية المنهجية موجودة في الوقت نفسه. كانت هناك ارتباطات قوية بين تصنيفات الذكاء الاصطناعي والخبراء (المجموع r = 0.82)، لكن لوحظت فروق حسب المجموعة الفرعية (r الأصلي = 0.89 مقابل r غير الأصلي = 0.76؛ الصينية r = 0.72; الجدول 6). كما أشارت توزيعات RMSEs إلى أخطاء وتغير أعلى لدى المتعلمين الصينيين (الشكل 2). تشير هذه ال...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

المؤلف لا يملك تضارب مصالح ليكشف عنه.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
<قوي>نظام تخزين البيانات	خوادم مشفرة وتحكم في الوصول لتخزين البيانات المجهولة.	خوادم المؤسسات	STORAGE-002
<نظام معايير ETS>قوي	نظام تقييم الكتابة الذكاء الاصطناعي المدعوم يستخدم لتقييم مهام الكتابة.	خدمة الاختبارات التعليمية (ETS)	ETS-001
<أدوات تحليل العدالة والدقة القوية<>/قوية>	أدوات ل RMSE، الاحتمالات المتساوية، والتحليل الإحصائي.	سكريبتات مخصصة/حزم إحصائيات	تول-فا-001
<تقييمات الخبراء القوية>البشرية	تقييمات مستقلة مقدمة من ثلاثة لغويين لديهم أكثر من 10 سنوات من الخبرة.	المقيمون الداخليون	HR-EXP-003
<استبيان إدراك المتعلم>قوي	استبيان مكون من 8 عناصر حول العدالة والرضا، مصنف على مقياس ليكيرت من 7 نقاط.	تطوير داخلي	QUES-008
<القوي>برمجيات الإحصائية (R 4.3.1)	يستخدم لتحليل البيانات، بما في ذلك نمذجة المعادلات الهيكلية (SEM).	مؤسسة R	R-SW-431
<بيانات العينة العشوائية القوية>الطبقية	تم جمع البيانات من 764 متعلما متعددي اللغات عبر مستويات CEFR A2 إلى C1.	المشاركون في الدراسة	داتا-764
<قوي>كتابة< قوي>	ثلاثة مواضيع موحدة للمقالات حول العولمة، التعليم عبر الإنترنت، وأخلاقيات الذكاء الاصطناعي.	منصة تعتمد على مودل	برومبت-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

إطار الذكاء الاصطناعي القابل للتفسير للدقة والعدالة وإدراك المتعلم في تقييم الكتابة باللغة الإنجليزية

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles