Research Article

영어 글쓰기 평가에서 정확성, 공정성, 학습자 인식을 위한 설명 가능한 AI 프레임워크

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

본 연구는 AI 지원 영어 글쓰기 시스템을 평가하기 위한 3단계 평가 프레임워크와 공정성 중재 모델을 개발합니다. 764개의 언어 간 샘플을 사용한 결과, 정확도 차이, 비원어민(특히 중국어 A2 능력 수준)에 대한 공정성 편향, 그리고 공정성 인식이 사용자 만족도의 주요 매개체임을 보여주며 이론적·실질적 시사점을 제공합니다.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

글로벌 교육 디지털 전환의 맥락에서 자동화된 작성 평가(AWE)는 그 실시간 및 표준화된 장점 덕분에 널리 채택되었습니다; 그러나 전통적인 정확성 중심 프레임워크는 형평성 문제와 학습자의 인식을 종종 무시하여 투명성과 교육적 가치를 제한합니다. 이 한계를 해결하기 위해 본 연구는 학습자가 자동화된 평가를 이해하고 신뢰할 수 있도록 투명하고 해석 가능한 피드백을 제공하는 설명 가능한 AI(XAI) 프레임워크를 제안하고, 기술적 정확성, 집단 및 개인 형평성, 학습자 인식을 아우르는 다단계 검증 모델인 3단계 평가 프레임워크(TLEF)와 AI 공정성 중재 모델(AFMM)을 통합합니다. 층별 무작위 표본추출을 사용하여, 공동 유럽 언어 참조체계(CEFR) A2부터 C1까지 레벨에 걸쳐 영어, 중국어, 스페인어 원어민 764명의 다국어 학습자를 대상으로 작성 과제, AI 및 인간 전문가의 이중 채점, 구조화된 설문지를 통해 데이터를 수집하였습니다. 개별 검사를 나열하는 대신, 다중 통계 분석을 통해 타당성, 공정성, 학습자-인식 관계를 조사했습니다. 통계 분석은 상관관계, 평균평균근 오차(RMSE), 균등화 오즈 검정, 구조 방정식 모델링(SEM)을 결합했습니다. 연구 결과는 AI 지원 글쓰기 평가(AWE) 시스템(ETS 기준)이 전반적인 타당도(r = 0.82)를 달성했음에도 불구하고, 상당한 격차가 여전히 존재함을 보여줍니다: 중국어 원어민은 인간 평가자와의 일치율이 가장 낮음(0.72)과 RMSE가 가장 높으며(중앙값 2.15), 공정성 편향은 낮은 숙련도에서 가장 두드러지며(A2 학습자의 경우 ΔEO = 0.15), 그리고 인지된 공정성이 인지된 정확성과 학습자 만족도 간의 연관성을 완전히 매개합니다. 숙련도 조절 공정성 민감도를 포함해서요. 공정성과 인식을 설명 가능성의 필수 차원으로 재구성함으로써, 연구는 AWE의 이론적 기반을 강화하고 교육 기술에서 투명성, 형평성, 사회적 수용을 증진할 실질적인 길을 제시합니다.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

교육과 디지털 기술의 집중적 세계화는 언어 교육, 학문적 발전, 경력 발전을 위해 영어 글쓰기 수준을 과학적이고 신뢰할 수 있게 평가할 필요성을 증가시켰습니다. 인간 평가에 따라 실천되는 전통적인 글쓰기 평가는 논증의 철저함과문화적 적합성 같은 주관적인 글쓰기 측면을 측정할 수 있지만, 평가자 경험과 성향으로 인한 긴 소요 시간, 높은 노동 비용, 편향에 취약합니다. 이러한 제약은 특히 국제 언어 시험(IELTS, TOEFL)이나 대학에서 수작업으로 채점만으로는 충분하지 않은 대규모 실무에서 더욱 심각합니다.

AWE 시스템은 실시간 처리, 표준화,확장성 덕분에 이 맥락에서 널리 사용되고 있습니다. 문법 오류 및 스타일 개선에 중점을 둔 Grammarly와 공식 문서 작성 기준을 준수하는 ETS Criterion과 같은 인기 도구들은 현재 K-12 교육, 어학 학교, 고등교육,개인....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

윤리적 승인 및 참가자 모집 과정, 에세이 작성, ETS Criterion 및 전문가의 이중 채점, 학습자 인식 평가, 통계 분석 등이 이 섹션에서 요약되어 있습니다. 정확성, 공정성, SEM 기반 인식 모델링이 통합된 XAI 검증 파이프라인에 어떻게 통합되는지를 강조합니다. XAI 기반 AWE 평가 프레임워크는 그림 1에 나와 있습니다.

절차:

이 절차는 여러 단계를 거쳤습니다. 첫째, IRB 승인을 받고 모든 참가자로부터 사전 동의를 수집했습니다. 독립 변수, 종속 변수, 제어 변수가 정의되었습니다. Moodle에서 세 가지 중립적인 에세이 주제를 사용하여 표준화된 글쓰기 과제가 수행되었고, 글 샘플은 단어 수, 시간 제한, 구조 등 에세이 요구사항을 준수하는 동안 수집되었습니다. 이중 점수 산출은 ETS 기준 출력과 인간 전문가 평가를 결합하여 수행되었습니다. 학습자 인식 설문지는 에세이 제출 직후 배포되었습니다. 부정행위나 무효 응답과 같은 이상 사항을 해결하기 위해 데이터 스크리닝과 품질 관리 절차가 도입되었습니다. 공정성 분석 임계값(ΔEO....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 섹션은 실험 설계, 참여자 특성, 점수 정확도, 공정성 평가, 학습 및 지각 모델링이라는 다섯 가지 분석 차원을 바탕으로 연구 결과를 제시합니다. 결과에는 통계적 성과, 집단 차이, 공정성 격차, SEM 기반 중재 및 조정이 포함됩니다.

실험 장치

주요 소프트웨어 단계는 API를 통해 ETS Criterion을 설정하여 정보를 자동으로 점수 채점하고, 인간 평가자를 교육하며, 기본 통계 옵션을 가진 참고 통계 소프트웨어에서 데이터 분석을 수행하고, 표준 SEM 패키지를 사용한 R 4.3.1에서 구조 방정식 모델링을 수행하는 것이었습니다. AWE 공정성 연구에 사용되는 재료, 소프트웨어 플랫폼 및 분석 도구는 재료표에 표시되어 있습니다.

표본 선.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

연구는 기술적 정확성, 집단 및 개인 공정성, 학습자 인식을 포함하는 3단계 접근법 하에 AWE 시스템을 탐구했으며, 전반적인 타당성과 체계적 집단 차이가 동시에 존재함을 확인했습니다. AI와 전문가 평가 사이에는 강한 상관관계가 있었으나(집계 r = 0.82), 하위 그룹별 차이가 관찰되었습니다(native r = 0.89 vs. nonnativer = 0.76; 중국어 r = 0.72; 표 6). RMSEs의 분포는 또한 중국 학습자들에서 더 높은 오류와 변동성을 나타냈다(그림 2). 이러한 추세는 구성 요소의 저대표성과 도메인 이동을 나타낸다. 즉, 훈련에서 언어 간 특징이 저중치되는 경우, 모델은 담화 수준 특징(예: 내용, 논증)보다 표면적 정확성(예: 문법)을 더 효과적으로 생성하는 법을 학습하게 된다.29.

공정.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자는 이해 상충을 공개할 필요가 없습니다.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Data Storage System익명화된 데이터를 저장하기 위한 암호화된 접근 제어 서버.기관 서버저장-002
ETS 기준 시스템AI 지원 글쓰기 평가 시스템은 글쓰기 과제 채점에 사용됩니다.교육 시험 서비스 (ETS)ETS-001
<강력>공정성 및 정확성 분석 도구RMSE, 균등화 확률, 통계 분석을 위한 도구들.커스텀 스크립트/통계 패키지툴-FA-001
Human Expert 등급10년 이상의 경력을 가진 세 명의 언어학자가 독립적으로 평가합니다.내부 평가자HR-EXP-003
<강>학습자 인식 설문지공정성과 만족도에 관한 8문항 설문지로, 7점 리커트 척도로 평가되었습니다.자체 개발퀘스-008
Statistical Software (R 4.3.1)SEM(구조방정식 모델링)을 포함한 데이터 분석에 사용됩니다.R 재단R-SW-431
<강>층화된 무작위 표본 추출 데이터CEFR A2부터 C1까지 다양한 언어를 구사하는 764명의 학습자들로부터 수집된 데이터입니다.연구 참가자들데이터-764
<강>글쓰기 과제 주제세계화, 온라인 교육, AI 윤리에 관한 세 가지 표준화된 에세이 주제.무들 기반 플랫폼프롬프트-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles