מסגרת AI מוסברת לדיוק, הוגנות ותפיסת לומד בהערכת כתיבה באנגלית

Meili Dai

doi:10.3791/69841

Research Article

מסגרת AI מוסברת לדיוק, הוגנות ותפיסת לומד בהערכת כתיבה באנגלית

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מחקר זה מפתח מסגרת הערכה בת שלושה שלבים ומודל תיווך הוגנות להערכת מערכות כתיבה באנגלית בסיוע בינה מלאכותית. באמצעות 764 מדגמים בין-לשוניים, התוצאות מראות פערי דיוק, הטיית הוגנות כלפי לומדים שאינן ילידיות (במיוחד רמת שליטה בסינית A2), ותפיסת הוגנות כמגשר המרכזי לשביעות רצון המשתמשים, ומציעה השלכות תיאורטיות ומעשיות.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בהקשר של טרנספורמציה דיגיטלית חינוכית גלובלית, הערכת כתיבה אוטומטית (AWE) אומצה באופן נרחב בזכות יתרונותיה בזמן אמת וסטנדרטיים; עם זאת, מסגרות מסורתיות הממוקדות בדיוק לעיתים מתעלמות מדאגות של שוויון ותפיסות התלמידים, ובכך מגבילות שקיפות וערך חינוכי. כדי להתמודד עם מגבלה זו, מחקר זה מציע מסגרת AI ניתנת להסבר (XAI) שנועדה לספק משוב שקוף וניתן לפרשנות, לאפשר ללומדים להבין ולסמוך על הערכה אוטומטית, ומשלב מודל אימות רב-רמתי – מסגרת ההערכה התלת-רמתית (TLEF), הכוללת דיוק טכני, שוויון קבוצתי ואישי, ותפיסת הלומדים, יחד עם מודל הגינות בינה מלאכותית (AFMM). באמצעות דגימה אקראית שכבתית, נאספו נתונים מ-764 לומדים רב-לשוניים (דוברי אנגלית, סינית וספרדית) לאורך רמות מסגרת אירופה משותפת לשפות (CEFR) A2 עד C1, באמצעות משימות כתיבה, ניקוד כפול על ידי מומחים בינה מלאכותית ואנושיים, ושאלונים מובנים. במקום למנות מבחנים בודדים, נעשה שימוש בניתוח סטטיסטי מרובה כדי לבחון תוקף, הוגנות והקשר בין הלומד לתפיסה. ניתוחים סטטיסטיים שילבו קורלציה, שגיאת ממוצע ריבועי שורשית (RMSE), בדיקות סיכויים מאוזנים ומידול משוואות מבניות (SEM). הממצאים מגלים שבעוד שמערכת ההערכה בכתיבה בסיוע AI (AWE) (קריטריון ETS) משיגה תוקף כולל (r = 0.82), קיימים פערים משמעותיים: דוברי שפת אם סינית מראים את ההסכמה הנמוכה ביותר עם המערכים האנושיים (0.72) ואת ה-RMSE הגבוה ביותר (חציון 2.15), הטיות ההגינות בולטות במיוחד ברמות מיומנות נמוכות יותר (ΔEO = 0.15 ללומדים A2), וההגינות הנתפסת מתווכת במלואה את הקשר בין דיוק נתפס לשביעות רצון הלומדים. עם מיומנות ורגישות להגינות. על ידי מסגור מחדש של הוגנות ותפיסה כממדים חיוניים של ההסבר, המחקר מחזק את הבסיס התיאורטי של AWE ומספק מסלול מעשי להגדלת השקיפות, השוויון והקבלה החברתית בטכנולוגיות חינוכיות.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

הגלובליזציה האינטנסיבית של החינוך והטכנולוגיות הדיגיטליות הגבירה את הצורך להעריך את רמת הכתיבה באנגלית באופן מדעי ואמין להוראת שפה, פיתוח אקדמי וקידום קריירה¹. הערכות כתיבה קונבנציונליות, כפי שמבוצעות על ידי דירוג אנושי, יכולות למדוד היבטים סובייקטיביים של הכתיבה כמו יסודיות הטיעון והתאמה תרבותית², אך חשופות לזמני תגובה ארוכים, הוצאות עבודה גבוהות והטיה הנובעות מניסיון ונטיות של המעריך ^3,4. מגבלות אלו חריפות במיוחד בפרקטיקה רחבת היקף, כמו מבחני שפה בינלאומיים (IELTS, TOEFL) או קורסים אחרים באנגלית הנלמדים באוניברסיטאות שבהם ציונים ידניים אינם כל מה שנדרש מבחינת משוב מיידי^וכיסוי.

מערכות AWE הפכו לנפוצות בהקשר זה בזכות עיבוד בזמן אמת, סטנדרטיזציה^ויכולת הרחבה שלהן. כלים פופולריים כמו Grammarly (המתמקד בשגיאות דקדוק ושיפור סגנון) ו-ETS Criterion (הפועל לפי נורמות כתיבה פורמליות) משמשים כיום מיליוני תלמידים בחינוך K-12, בתי ספר לשפות, השכלה גבוהה והכשרה אישית⁷. למרות שאלו היתרונות, היעילות הטכנולוגית ויישום החינוך של מערכות AWE עדיין שנויים במחלוקת⁸. מבחינה טכנית, המערכות הקיימות מדויקות מאוד בממדים אובייקטיביים, כולל זיהוי שגיאות ומגוון לקסיקלי, כאשר הקורלציה עם ניקוד אנושי יכולה להיות מעל 0.85⁹. עם זאת, בתחומים סובייקטיביים יותר, כמו רלוונטיות תוכן, טיעון לוגי וארגון טקסט, הקורלציות לעיתים קרובות נמוכות מ-0.70¹⁰. אי-התאמה כזו עלולה לקדם דיוק שטחי בקרב הלומדים על חשבון הכשירות הכוללת בכתיבה¹¹.

סוגיית השוויון גם מגבילה את התועלת החינוכית של AWE. המחקרים הנוכחיים נוטים גם להתמקד במדדי הדיוק המצטברים, תוך התעלמות מהאפשרות של סטיות שפוגעות באופן שיטתי בקבוצה¹² מסוימת. באופן אינדיקטיבי, תכונות של בין-שפות המשותפות ללומדים סינים או ספרדית יתפסו בטעות כשגיאות, וזה יוביל להערכת חסר שיטתית^13,14. בנוסף, הקבלה הסובייקטיבית של משוב מבוסס בינה מלאכותית על ידי הלומדים היא בדרך^{כלל מעט} ידועה. סקרים מראים שכמעט שליש מהלומדים הלא-ילידים מדווחים על חוסר התאמה בין ציוני הבינה המלאכותית לביצועים בפועל, כאשר תהליכי הדיוק הטכני, שוויון קבוצתי ושביעות רצון הלומדים עדיין לא מובנים היטב¹⁶.

חולשות אלו משקפות את החסרונות של הפרדיגמה הקלאסית של דיוק¹⁷. מסגרת המתמקדת רק בהתאמה בין בינה מלאכותית לניקוד אנושי אינה יכולה ללכוד סוגיות של שוויון או אמון הלומד במערכת. בפועל, הערך החינוכי של AWE חייב לעמוד בשלושה תנאים בו-זמנית: דיוק טכני, הוגנות בין קבוצות, וקבלת תלמידים¹⁸. היעדר גישת אימות מקיפה כזו מסביר מדוע מערכות AWE נהנות מאימוץ נרחב אך אמון מוגבל בפרקטיקה חינוכית^19,20.

כדי להתמודד עם אתגר זה, המחקר הנוכחי מציג מסגרת אימות רב-רמתית המשלבת דיוק טכני, הוגנות קבוצתית ואישית, ותפיסת התלמידים למבנה קוהרנטי. מסגרת XAI המוצעת נועדה להיות מיושמת באופן מעשי בפלטפורמות AWE קיימות על ידי מתן אבחון הוגנות והסברים שקופים לציונים למורים ולתלמידים, וניתן ליישם אותה בקורסי כתיבה או בכיתות הכנה למבחנים כדי להעריך את יכולתה לשפר הוגנות, פרשנות ושימושיות הוראה בסביבות הערכה אמיתיות.

בהקשר זה, ההשערה היא AFMM לחקור את תפקיד התיווך של הגינות נתפסת בקביעת הקשר בין דיוק לשביעות רצון, וכן את התפקיד המתון של מיומנות שפה ברגישות להוגנות. לכן, היא תורמת בשני אופנים: תאורטית על ידי העשרת מודלי ההערכה של AWE על ידי תיאור ההגינות כאחד מממדי האימות המרכזיים לצד דיוק ותפיסה, והן מעשית, על ידי מתן אסטרטגיות למפתחים למקסום הוגנות, למחנכים עם קריטריוני בחירת מערכת רגישים לקבוצות, ולערך החינוכי של AWE על ידי הסבר האופן שבו נוצרות תפיסות הלומדים. בנוסף לחינוך, המסגרת גם מותאמת למושג הרחב יותר של XAI, ומדגימה כיצד הוגנות ותפיסת המשתמשים יכולים לשפר שקיפות, אמון וקבלה בתחומים נוספים, כגון בריאות, מערכות אוטונומיות ואבטחת סייבר.

שאלות מחקר:

1.To עד כמה מערכת AWE מראה דיוק טכני והגינות בין קבוצות שפות אם-אם שונות?

2. כיצד מסגרת הערכה רב-רמתית מבוססת XAI יכולה לשפר שקיפות ושוויון בהערכת כתיבה אוטומטית באנגלית?

סקירת ספרות:

הגורמים המשפיעים על קבלת משוב AWE על ידי סטודנטים נבדקו באמצעות מודל קבלת טכנולוגיה מורחב (TAM)²¹. בהתבסס על נתוני סקר מ-448 סטודנטים סינים שהשתמשו ב-SEM, נקבע כי שימושיות, קלות השימוש והכוונה השפיעו באופן משמעותי על נורמה סובייקטיבית, אמון, מסוגלות עצמית, משוב קוגניטיבי ומאפייני מערכת. עם זאת, המחקר הוגבל לאומה אחת ולקבוצת סטודנטים אחת, מה שמגביל את היישום של הכללה. כדי לחקור כיצד תלמידי אנגלית אנגלית סינים מגיבים למשוב של Pigai AWE²², מחקר ניתח הגשות חוזרות (n = 5) של סטודנטים באוניברסיטה. הוא ציין דגש מוקדם על תיקון שגיאות, קליטה נמוכה של משוב לשוני, והעמקה הדרגתית של התגובה. עם זאת, גודל המדגם היה מוגבל מאוד, כמו גם מערכת AWE, שמגבילה את היישום וההכללה. האמונות של מורי EFL לגבי יישום כלי הציון ב-AI (CoGrader) נבדקו כדי לזהות את הגורמים המשפיעים על דעותיהם²³. באמצעות מחקר בשיטות מעורבות על 10 מורים באוניברסיטאות סעודיות, סקר וראיון חשפו כי הייתה דעה חיובית מעורבת, אך היסוס להיות בטוח לחלוטין באמינות ובהחלפת מורים מלאה. דבר זה מונע את ההכללה בשל המדגם המוגבל וההגדרה של מדינה אחת.

בהתחשב בהתפתחויות בלשון הקורפוס ובטכנולוגיית הבינה המלאכותית, מחקר בחן את מסגרות AES²⁴. הוא השתמש ב-PCA לשיפור מדדים לשוניים להערכת איכות הכתיבה וגילה ששילוב של מיקרו-מאפיינים עם מאפיינים מצטברים הגדיר את איכות הכתיבה בצורה יעילה יותר מאשר מאפיינים מצטברים בלבד. הגישה הלא-ליניארית של AES המבוססת על רגרסיית יער אקראית עלתה על הגישות האחרות. יתרה מזאת, SHAP זיהתה אלמנטים שפתיים חיוניים לכל תכונה שנערכה, ובכך הגביר את שקיפות המערכת באמצעות בינה מלאכותית ניתנת להסבר. התוצאות עשויות לסייע לשיפור שיטות רב-ממדיות בכתיבה בהערכה ובהוראה. מערכת שיתוף הפעולה בין אדם למכונה הוצגה כדי להתמודד עם האתגרים שבהערות כתבים ערביים, שלרוב יקרים וגוזלים זמן. השיטה בוחנת מאמרים המבוססים על שבעה מאפיינים של ספרות בעזרת LLM. תהליכי האימות וטקטיקות ההנאה הותאמו אישית כדי להבטיח עקביות ודיוק. שיתוף הפעולה מוביל להיצע גבוה יותר של משאבים מסומנים ואינו משפיע על איכות ההערכה, מה שמוכיח שהוא שיטת הערות נתונים ניתנת להרחבה המתאימה לשפות עם משאבים נמוכים.

השימוש בבינה מלאכותית בתחום החינוך מציע הזדמנות להפחית משמעותית את דרישות הציונים ולשפר את החינוך לכתיבה^25,26. במקביל, חוקרים הדגישו כי דיוק הבינה המלאכותית אינו ההיבט היחיד הרלוונטי לשימוש האחראי בה. ישנם עקרונות של הוגנות והפחתת הטיות, אבטחה ופרטיות, אחריות, הסבר, שקיפות, השפעה חינוכית, יושרה ופיתוח מתמיד. מחקרים עדכניים העריכו אמפירית את ניקוד ה-zero-shot בהתבסס על GPT-4o עם דגש על דרישות אלו. המחקר התמקד בתפיסות שהחזיקו מחנכים כלפי ADWTs בנוגע להיבט של יושרה חינוכית²⁷. המחקר החתך הכולל 100 סטודנטים לתארים מתקדמים ופרופסורים ב-10 מקצועות מרמז כי, למרות שהמורים מייחסים את היתרונות של ADWTs בהשגת המטרה החינוכית, יש לו מגבלות מסוימות, כגון נגישות מוגבלת, חוסר ידע ודאגה להשפעתם על יושרה ויצירתיות. המחקר הציע שככל שטכנולוגיות הבינה המלאכותית משתלבות יותר בחינוך, חששות אתיים והשתתפות בעלי עניין הם הכרחיים לשימוש מוצלח ואחראי. מחקר בחן את יעילות טכנולוגיות הבינה המלאכותית בהשוואה למעריכים אנושיים בהערכת מאמרים שהוגשו על ידי תלמידי EFL²⁸. הערכת 30 מאמרים הראתה שבעוד שבינה מלאכותית הציגה תגובות איכותיות מבחינת תוכן, שפה, ארגון ונכון, היא תמיד סיפקה דירוגים נמוכים יותר מאשר מערכים אנושיים. יתרה מזאת, הבינה המלאכותית סיפקה משוב מקיף יותר, אך הציונים מכלים שונים לא היו שונים באופן מהותי.

פער מחקר:

נכון להיום, רוב המחקרים על מלגת AWE בוחנים דיוק או קבלת משתמשים. מעטים מאוד בוחנים האם הבדלי הציון פוגעים באופן שיטתי בקבוצות שפה או שליטה בשפה האם או במיומנות. בעוד שמחקרים קודמים בחנו את קבלת המשתמשים או הוגבלו למערכת AWE מסוימת ממדינה וגודל מדגם מסוימים, עולות שאלות סביב הכללה. למרות שגם SHAP וגם PCA הן אסטרטגיות XAI ופותחו כדי להגדיל את השקיפות, אף מחקר לא בחן מנגנוני הוגנות או כיצד לומדים משתמשים במשוב בינה מלאכותית מה-AWE. אין מסגרות נרחבות בספרות שמתמקדות בממדים מוגדרים של דיוק, ניתוח הוגנות ותפיסות הלומדים. אין דוגמה למודל הערכה שניתן להסביר שמתחשב בדיוק, ההגינות ותפיסת הלומד בתוך ובין המדרגים. מסגרת ניתנת להסבר, TLEF, ומודל משולב, AFMM, מוצעים ואומצו במחקר זה כדי להעריך דיוק, הוגנות ותפיסות לומד בו-זמנית בקרב לומדים רב-לשוניים ובעלי מיומנות מגוונת.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

תהליך האישור האתי ותהליך גיוס המשתתפים, כולל ניהול מאמרים, ציון כפול על ידי ETS Criterion ומומחים, הערכת תפיסת התלמידים וניתוח סטטיסטי, מסוכמים בסעיף זה. הוא מדגיש כיצד דיוק, הוגנות ומידול תפיסה מבוסס SEM משולבים בצינור מאוחד של אימות XAI. מסגרת ההערכה המונחית XAI של AWE מוצגת באיור 1.

הליך:

ההליך כלל מספר שלבים. ראשית, התקבל אישור ה-IRB, ונאספה הסכמה מדעת מכל המשתתפים. לאחר מכן הוגדרו משתנים בלתי תלויים, תלויים וביקורתיים. משימות כתיבה סטנדרטיות בוצעו במודל תוך שימוש בשלושה נושאים ניטרליים לחיבור, ונאספו דוגמאות כתיבה תוך שמירה על עמידה בדרישות המאמר, כגון מספר מילים, מגבלת זמן ומבנה. ניקוד כפול בוצע באמצעות פלטי ETS Criterion בשילוב עם דירוגי מומחים אנושיים. שאלוני תפיסת הלומד חולקו מיד לאחר הגשת החיבור. נהלי סינון נתונים ובקרת איכות יושמו כדי לטפל באנומליות, כגון רמאות או תגובות לא תקפות. גם ספי ניתוח הוגנות (ΔEO, בדיקות RMSE) יושמו. לבסוף, כל הנתונים האנונימיים נשמרו בצורה מאובטחת על שרתים מוצפנים ומבוקרי גישה.

אישור אתי והסכמה מדעת

מחקר זה קיבל אישור אתי מוועדת הביקורת המוסדית של מוסד המחברים. כל ההליכים בוצעו בהתאם להצהרת הלסינקי ולתקנות החלות. כל המשתתפים היו מבוגרים (≥18 שנים) ונתנו הסכמה מדעת בכתב לפני ההשתתפות. דגימות כתיבה ותשובות לשאלונים הוסרו מהמקור ונשמרו בשרתים מוצפנים ומבוקרי גישה; רק חוקרים מורשים קיבלו גישה. המעריכים האנושיים היו עיוורים לשפת האם של המשתתפים, רמת השליטה והדמוגרפיה שלהם. ההשתתפות הייתה וולונטרית, עם הזכות לסגת בכל עת, ולא היו מעורבות הטעיה או התערבויות רגישות. תיעוד אישור פורמלי ניתן לספק לכתב העת לפי בקשה.

עיצוב משתנה

בסך הכל הוגדרו שלוש קבוצות משתנים במחקר כדי להנחות את הניתוח. טבלה 1 מסכמת את סוגי המדידה והנתונים המשמשים בשיטות מדידה לכל מבנה ומספקת את ההגדרות התפעוליות המלאות של המשתנים הבלתי תלויים, התלויים והבקרתיים.

דיוק הניקוד ב-AI היה המשתנה הבלתי תלוי הראשון שנבחן במונחים של RMSE ומקדם המתאם של פירסון (r) בין פלטי קריטריון ETS לבין דירוגי המומחים. כיול שבוצע על ידי מומחים הניב ICC של 0.91, מה שמאשר את האמינות.

המשתנה העצמאי השני היה הרקע הלשוני של הלומדים, שחולק לדוברי שפת אם, וחלוקה נוספת לקבוצות סיניות, ספרדיות, ערבית וקבוצות נוספות. סטודנטים סינים היו אחת מאוכלוסיות היעד משום שנצפו סימנים ראשוניים להערכת חסר שיטתית.

המשתנה הבלתי תלוי השלישי היה מיומנות כתיבה, שדורגה לפי רמות CEFR A2 עד C1, כפי שאושר בתעודות רשמיות ומבחני מיומנות לפני הקורס, והייתה גם מותאמת לשוויון IELTS. מנחה נוסף שהוצג במודל הגיורי הוגנות של בינה מלאכותית היה מיומנות כתיבה כדי לבדוק האם הרגישות להוגנות משתנה בין רמות מיומנות.

תפיסת ההגינות ושביעות רצון הלומד היו המשתנים התלויים. תפיסת ההגינות הוערכה באמצעות שאלון בן שמונה פריטים שדורג בסולם ליקרט בן שבע נקודות, שכלל את העקביות האישית והאובייקטיביות הקבוצתית (קרונבך 87; CVI 92). שביעות רצון הלומדים הוערכה באמצעות שש שאלות ליקרט שהצביעו על נכונות להשתמש ושיפור נתפס במיומנות (α = 0.85).

המשתנים נשלטו מבחינת גיל, מין וניסיון בכתיבה. הגיל חולק לשלוש קבוצות (18-22 שנים, 23-28, ו-≥29 שנים), והמגדר סווג לזכר ונקבה. חוויית הכתיבה סווגה לשלוש רמות תדירות בשנה.

טקסטים לכתיבת משימות

פותחו נושאים סטנדרטיים למאמר טיעוני כדי לקבל נתוני כתיבה לשלושה נושאים ניטרליים: השפעת הגלובליזציה על תרבויות מקומיות, יתרונות ואתגרים של חינוך מקוון, וגבולות אתיים של בינה מלאכותית. נושאים אלו נועדו לאזן בין קושי קוגניטיבי לנגישות מצד אחד, ולהפחית הבדלים בביצועים הנובעים מידע קודם מצד שני. התפלגות הנושאים והסטטיסטיקה התיאורית לאורך המאמר מדווחים בטבלה 2.

כל חיבור נדרש להיות באורך 250 מילים ±10% ולכתוב תוך 45 דקות בפלטפורמה מבוססת Moodle. כלים עזר היו אסורים, והגשות מאוחרות לא הוחרגו. המאמרים עקבו אחרי מבנה סטנדרטי של מבוא, שני פסקאות טיעון וסיכום. בסך הכל נאספו 764 חיבורים תקפים, באורך ממוצע של 252.3 מילים (SD = 8.7).

נתוני השוואת ניקוד

דיוק ניקוד AWE הוערך באמצעות פרוצדורה כפולה ששילבה פלטי ETS Criterion עם דירוגי מומחים אנושיים. הציונים נאספו מ-Criterion דרך ה-API הפתוח שלו. שלושה בלשנים עם יותר מעשר שנות ניסיון בהערכה דירגו באופן עצמאי את כל המאמרים. לפני הניקוד הרשמי, המערכים השלימו שלושה מפגשי כיול. במהלך הכיול, אמינות בין מדרג הגיעה ל-ICC = 0.87; במהלך הניקוד הרשמי, ה-ICC עלה ל-0.91, עם ICCs ספציפיים לממדים מעל 0.88. מאמרים עם פערי ציון הגבוהים משתי נקודות נפתרו יחד (18 מקרים). תהליך הניקוד ותוצאות האמינות מסוכמים בטבלה 3.

שאלון תפיסת הלומד

תפיסות הלומדים לגבי משוב בינה מלאכותית נאספו באמצעות שאלון בן 22 פריטים המבוסס על TAM והורחבו לכלול הוגנות. הכלי כלל שלושה תחומים: תפיסת הוגנות (8 פריטים), שביעות רצון (6 פריטים), וגורמי מתון כמו הבנה ושקיפות (8 פריטים). אימות על ידי חמישה מומחים הניב CVI של 0.92, ובדיקות פיילוט עם 60 לומדים הניבו אמינות כוללת של α = 0.90. מבנה השאלונים והמדדים הפסיכומטריים מוצגים בטבלה 4.

השאלונים במחקר המרכזי ניתנו מיד לאחר הגשת החיבורים, והיו דרישות מינימום של זמן סיום כדי לצמצם את ההשלמה הלא מכובדת. מתוך 764 סקרים שפורסמו, 756 היו תקפים לאחר בדיקות איכות, והתקבל שיעור אפקטיבי של 98.95.

איסוף נתונים ובקרת איכות

הנתונים נרשמו במשך 8 שבועות (מרץ-אפריל 2024) בארבעה שלבים: גיוס והסכמה; כתיבת מאמרים; ניקוד כפול וחלוקת שאלונים; ואיסוף מסד הנתונים. תעודות המיומנות המבוססות על ביצועי כתיבה לפני השיעור נבדקו באמצעות סינון כפול, ותהליך זה הוציא 16 משתתפים. ארבעה מקרים פוטנציאליים של רמאות בוטלו באמצעות ניטור בזמן אמת, ושלושה מקרים חשודים של ביצועי בינה מלאכותית (סטיות של לפחות 8 נקודות) תוקנו לאחר הערכה ידנית. שמונה שאלונים לא תקפים הוסרו בהתבסס על בדיקות עקביות הפוך של פריטים.

אחסון נתונים ואתיקה

כל הנתונים הושמרו ונשמרו באמצעות מזהים ייחודיים שכללו את שפת האם שלה, רמת שליטה ומספר סידורי. טקסטים, ציונים ושאלונים הוצפנו ונשמרו בשרתים התואמים ISO27001 עם גישה מוגבלת. הנתונים יישארו למשך 3 שנים לפני מחיקה קבועה. אישור אתי התקבל מוועדת הביקורת המוסדית, והסכמה מדעת בכתב נאספה מכל המשתתפים.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

החלק מציג את תוצאות המחקר המבוססות על חמישה ממדים אנליטיים: עיצוב ניסוי, מאפייני המשתתפים, דיוק הניקוד, הערכת הוגנות, ומידול של למידה ותפיסה. התוצאות כוללות ביצועים סטטיסטיים, הבדלים בקבוצות, פערי הוגנות, ותיווך ומתן מבוססי SEM.

סידור ניסיוני

השלבים המרכזיים בתוכנה כללו הקמת ETS Criterion דרך ה-API שלו לצורך דירוג אוטומטי של המידע, הכשרת מעריכים אנושיים, ביצוע ניתוח נתונים בתוכנה הסטטיסטית המוזכרת עם אפשרויות סטטיסטיות ברירת מחדל, וביצוע מידול משווא...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המחקר בחן מערכת AWE בגישה בת שלוש רמות, הכוללת דיוק טכני, הוגנות קבוצתית ואישית ותפיסת הלמד, וזיהה כי תוקף כללי והבדלים שיטתיים בקבוצה קיימים בו-זמנית. היו מתאמים חזקים בין בינה מלאכותית לדירוגי מומחים (סך r = 0.82), אך נצפו הבדלים בין תת-הקבוצה (r ילידי = 0.89 לעומת r לא יליד = 0.76; סינית r = 0.72; טבלה 6). ההתפלגויות של RMSEs גם הצביעו על שגיאות ושונות גבוהות יותר בקרב לומדים סינים (איור 2). מגמות אלו מצביעות על תת-ייצוג במבנה ואולי גם שינוי תחום: במקרים ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

למחבר אין ניגודי עניינים לחשוף.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
<חזק>מערכת אחסון נתונים	שרתים מוצפנים, מבוקרי גישה, לאחסון נתונים אנונימיים.	שרתים מוסדיים	STORAGE-002
<מערכת קריטריון חזק>ETS	מערכת הערכת כתיבה בסיוע בינה מלאכותית משמשת לציון משימות הכתיבה.	שירות מבחני חינוך (ETS)	ETS-001
<כלי ניתוח חזקים>הוגנות ודיוק	כלים ל-RMSE, יחסי שוויון וניתוח סטטיסטי.	סקריפטים/חבילות סטטיסטיקות מותאמות אישית	TOOL-FA-001
<דירוגי מומחים חזקים>אנושיים	דירוגים עצמאיים ניתנים על ידי שלושה בלשנים בעלי ניסיון של למעלה מ-10 שנים.	מערכים פנימיים	HR-EXP-003
<שאלון תפיסת לומד>חזק	שאלון בן 8 פריטים על הוגנות ושביעות רצון, המדורג בסולם ליקרט של 7 נקודות.	פיתוח פנימי	QUES-008
<חזק>תוכנה סטטיסטית (R 4.3.1)	משמש לניתוח נתונים, כולל SEM (מידול משוואות מבניות).	קרן R	R-SW-431
<נתוני דגימה אקראית חזקים>מדורגים	נתונים שנאספו מ-764 לומדים רב-לשוניים ברמות CEFR A2 עד C1.	משתתפי המחקר	DATA-764
<חזק>הנחיות כתיבה למשימות	שלושה נושאים סטנדרטיים למאמרים על גלובליזציה, חינוך מקוון ואתיקה של בינה מלאכותית.	פלטפורמה מבוססת מודל	פרומפקט-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

מסגרת AI מוסברת לדיוק, הוגנות ותפיסת לומד בהערכת כתיבה באנגלית

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles