Research Article

מסגרת AI מוסברת לדיוק, הוגנות ותפיסת לומד בהערכת כתיבה באנגלית

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מחקר זה מפתח מסגרת הערכה בת שלושה שלבים ומודל תיווך הוגנות להערכת מערכות כתיבה באנגלית בסיוע בינה מלאכותית. באמצעות 764 מדגמים בין-לשוניים, התוצאות מראות פערי דיוק, הטיית הוגנות כלפי לומדים שאינן ילידיות (במיוחד רמת שליטה בסינית A2), ותפיסת הוגנות כמגשר המרכזי לשביעות רצון המשתמשים, ומציעה השלכות תיאורטיות ומעשיות.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בהקשר של טרנספורמציה דיגיטלית חינוכית גלובלית, הערכת כתיבה אוטומטית (AWE) אומצה באופן נרחב בזכות יתרונותיה בזמן אמת וסטנדרטיים; עם זאת, מסגרות מסורתיות הממוקדות בדיוק לעיתים מתעלמות מדאגות של שוויון ותפיסות התלמידים, ובכך מגבילות שקיפות וערך חינוכי. כדי להתמודד עם מגבלה זו, מחקר זה מציע מסגרת AI ניתנת להסבר (XAI) שנועדה לספק משוב שקוף וניתן לפרשנות, לאפשר ללומדים להבין ולסמוך על הערכה אוטומטית, ומשלב מודל אימות רב-רמתי – מסגרת ההערכה התלת-רמתית (TLEF), הכוללת דיוק טכני, שוויון קבוצתי ואישי, ותפיסת הלומדים, יחד עם מודל הגינות בינה מלאכותית (AFMM). באמצעות דגימה אקראית שכבתית, נאספו נתונים מ-764 לומדים רב-לשוניים (דוברי אנגלית, סינית וספרדית) לאורך רמות מסגרת אירופה משותפת לשפות (CEFR) A2 עד C1, באמצעות משימות כתיבה, ניקוד כפול על ידי מומחים בינה מלאכותית ואנושיים, ושאלונים מובנים. במקום למנות מבחנים בודדים, נעשה שימוש בניתוח סטטיסטי מרובה כדי לבחון תוקף, הוגנות והקשר בין הלומד לתפיסה. ניתוחים סטטיסטיים שילבו קורלציה, שגיאת ממוצע ריבועי שורשית (RMSE), בדיקות סיכויים מאוזנים ומידול משוואות מבניות (SEM). הממצאים מגלים שבעוד שמערכת ההערכה בכתיבה בסיוע AI (AWE) (קריטריון ETS) משיגה תוקף כולל (r = 0.82), קיימים פערים משמעותיים: דוברי שפת אם סינית מראים את ההסכמה הנמוכה ביותר עם המערכים האנושיים (0.72) ואת ה-RMSE הגבוה ביותר (חציון 2.15), הטיות ההגינות בולטות במיוחד ברמות מיומנות נמוכות יותר (ΔEO = 0.15 ללומדים A2), וההגינות הנתפסת מתווכת במלואה את הקשר בין דיוק נתפס לשביעות רצון הלומדים. עם מיומנות ורגישות להגינות. על ידי מסגור מחדש של הוגנות ותפיסה כממדים חיוניים של ההסבר, המחקר מחזק את הבסיס התיאורטי של AWE ומספק מסלול מעשי להגדלת השקיפות, השוויון והקבלה החברתית בטכנולוגיות חינוכיות.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

הגלובליזציה האינטנסיבית של החינוך והטכנולוגיות הדיגיטליות הגבירה את הצורך להעריך את רמת הכתיבה באנגלית באופן מדעי ואמין להוראת שפה, פיתוח אקדמי וקידום קריירה1. הערכות כתיבה קונבנציונליות, כפי שמבוצעות על ידי דירוג אנושי, יכולות למדוד היבטים סובייקטיביים של הכתיבה כמו יסודיות הטיעון והתאמה תרבותית2, אך חשופות לזמני תגובה ארוכים, הוצאות עבודה גבוהות והטיה הנובעות מניסיון ונטיות של המעריך 3,4. מגבלות אלו חריפות במיוחד בפרקטיקה רחבת היקף, כמו מבחני שפה בינלאומיים (IELTS, TOEFL) או קורסים אחרים באנגלית הנלמדים באוניברסיטאות שבהם ציוני....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

תהליך האישור האתי ותהליך גיוס המשתתפים, כולל ניהול מאמרים, ציון כפול על ידי ETS Criterion ומומחים, הערכת תפיסת התלמידים וניתוח סטטיסטי, מסוכמים בסעיף זה. הוא מדגיש כיצד דיוק, הוגנות ומידול תפיסה מבוסס SEM משולבים בצינור מאוחד של אימות XAI. מסגרת ההערכה המונחית XAI של AWE מוצגת באיור 1.

הליך:

ההליך כלל מספר שלבים. ראשית, התקבל אישור ה-IRB, ונאספה הסכמה מדעת מכל המשתתפים. לאחר מכן הוגדרו משתנים בלתי תלויים, תלויים וביקורתיים. משימות כתיבה סטנדרטיות בוצעו במודל תוך שימוש בשלושה נושאים ניטרליים לחיבור, ונאספו דוגמאות כתיבה תוך שמירה על ע....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

החלק מציג את תוצאות המחקר המבוססות על חמישה ממדים אנליטיים: עיצוב ניסוי, מאפייני המשתתפים, דיוק הניקוד, הערכת הוגנות, ומידול של למידה ותפיסה. התוצאות כוללות ביצועים סטטיסטיים, הבדלים בקבוצות, פערי הוגנות, ותיווך ומתן מבוססי SEM.

סידור ניסיוני

השלבים המרכזיים בתוכנה כללו הקמת ETS Criterion דרך ה-API שלו לצורך דירוג אוטומטי של המידע, הכשרת מעריכים אנושיים, ביצוע ניתוח נתונים בתוכנה הסטטיסטית המוזכרת עם אפשרויות סטטיסט.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המחקר בחן מערכת AWE בגישה בת שלוש רמות, הכוללת דיוק טכני, הוגנות קבוצתית ואישית ותפיסת הלמד, וזיהה כי תוקף כללי והבדלים שיטתיים בקבוצה קיימים בו-זמנית. היו מתאמים חזקים בין בינה מלאכותית לדירוגי מומחים (סך r = 0.82), אך נצפו הבדלים בין תת-הקבוצה (r ילידי = 0.89 לעומת r לא יליד = 0.76; סינית r = 0.72; טבלה 6). ההתפלגויות של RMSEs גם הצביעו על שגיאות ושונות גבוהות יותר בקרב לומדים סינים (איור 2). מגמות אלו מצביעות על תת-ייצוג במבנה ואולי גם שינוי תחום: במקרים .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

למחבר אין ניגודי עניינים לחשוף.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
<חזק>מערכת אחסון נתוניםשרתים מוצפנים, מבוקרי גישה, לאחסון נתונים אנונימיים.שרתים מוסדייםSTORAGE-002
<מערכת קריטריון חזק>ETSמערכת הערכת כתיבה בסיוע בינה מלאכותית משמשת לציון משימות הכתיבה.שירות מבחני חינוך (ETS)ETS-001
<כלי ניתוח חזקים>הוגנות ודיוקכלים ל-RMSE, יחסי שוויון וניתוח סטטיסטי.סקריפטים/חבילות סטטיסטיקות מותאמות אישיתTOOL-FA-001
<דירוגי מומחים חזקים>אנושייםדירוגים עצמאיים ניתנים על ידי שלושה בלשנים בעלי ניסיון של למעלה מ-10 שנים.מערכים פנימייםHR-EXP-003
<שאלון תפיסת לומד>חזקשאלון בן 8 פריטים על הוגנות ושביעות רצון, המדורג בסולם ליקרט של 7 נקודות.פיתוח פנימיQUES-008
<חזק>תוכנה סטטיסטית (R 4.3.1)משמש לניתוח נתונים, כולל SEM (מידול משוואות מבניות).קרן RR-SW-431
<נתוני דגימה אקראית חזקים>מדורגיםנתונים שנאספו מ-764 לומדים רב-לשוניים ברמות CEFR A2 עד C1.משתתפי המחקרDATA-764
<חזק>הנחיות כתיבה למשימותשלושה נושאים סטנדרטיים למאמרים על גלובליזציה, חינוך מקוון ואתיקה של בינה מלאכותית.פלטפורמה מבוססת מודלפרומפקט-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles