영어 글쓰기 평가에서 정확성, 공정성, 학습자 인식을 위한 설명 가능한 AI 프레임워크

Meili Dai

doi:10.3791/69841

Research Article

영어 글쓰기 평가에서 정확성, 공정성, 학습자 인식을 위한 설명 가능한 AI 프레임워크

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

본 연구는 AI 지원 영어 글쓰기 시스템을 평가하기 위한 3단계 평가 프레임워크와 공정성 중재 모델을 개발합니다. 764개의 언어 간 샘플을 사용한 결과, 정확도 차이, 비원어민(특히 중국어 A2 능력 수준)에 대한 공정성 편향, 그리고 공정성 인식이 사용자 만족도의 주요 매개체임을 보여주며 이론적·실질적 시사점을 제공합니다.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

글로벌 교육 디지털 전환의 맥락에서 자동화된 작성 평가(AWE)는 그 실시간 및 표준화된 장점 덕분에 널리 채택되었습니다; 그러나 전통적인 정확성 중심 프레임워크는 형평성 문제와 학습자의 인식을 종종 무시하여 투명성과 교육적 가치를 제한합니다. 이 한계를 해결하기 위해 본 연구는 학습자가 자동화된 평가를 이해하고 신뢰할 수 있도록 투명하고 해석 가능한 피드백을 제공하는 설명 가능한 AI(XAI) 프레임워크를 제안하고, 기술적 정확성, 집단 및 개인 형평성, 학습자 인식을 아우르는 다단계 검증 모델인 3단계 평가 프레임워크(TLEF)와 AI 공정성 중재 모델(AFMM)을 통합합니다. 층별 무작위 표본추출을 사용하여, 공동 유럽 언어 참조체계(CEFR) A2부터 C1까지 레벨에 걸쳐 영어, 중국어, 스페인어 원어민 764명의 다국어 학습자를 대상으로 작성 과제, AI 및 인간 전문가의 이중 채점, 구조화된 설문지를 통해 데이터를 수집하였습니다. 개별 검사를 나열하는 대신, 다중 통계 분석을 통해 타당성, 공정성, 학습자-인식 관계를 조사했습니다. 통계 분석은 상관관계, 평균평균근 오차(RMSE), 균등화 오즈 검정, 구조 방정식 모델링(SEM)을 결합했습니다. 연구 결과는 AI 지원 글쓰기 평가(AWE) 시스템(ETS 기준)이 전반적인 타당도(r = 0.82)를 달성했음에도 불구하고, 상당한 격차가 여전히 존재함을 보여줍니다: 중국어 원어민은 인간 평가자와의 일치율이 가장 낮음(0.72)과 RMSE가 가장 높으며(중앙값 2.15), 공정성 편향은 낮은 숙련도에서 가장 두드러지며(A2 학습자의 경우 ΔEO = 0.15), 그리고 인지된 공정성이 인지된 정확성과 학습자 만족도 간의 연관성을 완전히 매개합니다. 숙련도 조절 공정성 민감도를 포함해서요. 공정성과 인식을 설명 가능성의 필수 차원으로 재구성함으로써, 연구는 AWE의 이론적 기반을 강화하고 교육 기술에서 투명성, 형평성, 사회적 수용을 증진할 실질적인 길을 제시합니다.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

교육과 디지털 기술의 집중적 세계화는 언어 교육, 학문적 발전, 경력 발전을 위해 영어 글쓰기 수준을 과학적이고 신뢰할 수 있게 평가할 필요성을 증가시켰습니다^. 인간 평가에 따라 실천되는 전통적인 글쓰기 평가는 논증의 철저함과^{문화적 적합}성 같은 주관적인 글쓰기 측면을 측정할 수 있지만, 평가자 경험과 성향으로 인한 긴 소요 시간, 높은 노동 비용, 편향에 취약합니다. 이러한 제약은 특히 국제 언어 시험(IELTS, TOEFL)이나 대학에서 수작업으로 채점만으로는 충분하지 않은 대규모 실무에서 더욱 심각합니다.

AWE 시스템은 실시간 처리, 표준화,^{확장성 덕분에} 이 맥락에서 널리 사용되고 있습니다. 문법 오류 및 스타일 개선에 중점을 둔 Grammarly와 공식 문서 작성 기준을 준수하는 ETS Criterion과 같은 인기 도구들은 현재 K-12 교육, 어학 학교, 고등교육,^{개인 훈련 분야에서} 수백만 명의 학생들이 사용하고 있습니다. 이러한 이점들이 있지만, AWE 시스템의 기술적 효율성과 교육 적용 가능성은^{여전히 논란}이 있습니다. 기술적으로 기존 시스템은 오류 탐지와 어휘 다양성 등 객관적 차원에서 매우 정확하며, 인간 점수와의 상관관계가 0.85⁹를 초과할 수 있습니다. 하지만 내용 관련성, 논리적 논증, 텍스트 구성과 같은 더 주관적인 영역에서는 상관관계가 종종 0.70^이하로 떨어집니다. 이러한 불균형은 학습자들 사이에서 피상적인 정확성을 촉진하고^{전체 글쓰}기 능력을 희생할 위험이 있습니다.

형평성 문제는 AWE의 교육적 유용성도 제한합니다. 현재 연구들은 또한 정확도의 종합 지표에 집중하는 경향이 있으며, 일부 그룹¹²에 체계적으로 불리한 편차가 발생할 가능성은 간과하고 있습니다. 예를 들어, 중국어나 스페인어 학습자들이 공유하는 언어 간 특성은 오류로 오인되어 체계적으로 과소평가되는 결과를 낳을 수 있습니다^13,14. 또한, 학습자들이 AI 피드백을 주관적으로 받아들이는 경우는^{일반적으로 잘 알려져} 있지 않습니다. 설문조사에 따르면 비원어민 학습자의 거의 3분의 1이 AI 점수와 실제 성과 간의 부적절성을 보고하며, 기술적 정확성, 집단 형평성, 학습자 만족도 과정은 여전히 제대로 이해되지 못하고^{있습니다.}

이러한 약^{점은 고전}적 정확성 패러다임의 한계를 반영합니다. AI와 인간 채점 간의 일치만을 고려하는 프레임워크는 공정성이나 학습자의 시스템에 대한 신뢰 문제를 포착할 수 없습니다. 실제로 AWE의 교육적 가치는 기술적 정확성, 그룹 간 공정성, 학습자 수용 세 가지 조건을 동시에 충족해야^합니다. 이러한 포괄적인 검증 접근법이 부재한 것은 AWE 시스템이 널리 채택되었으나 교육 실무에서는 신뢰가 제한적인 이유를 설명해 줍니다^19,20.

이 문제를 해결하기 위해 본 연구는 기술적 정확성, 집단 및 개인 공정성, 학습자 인식을 통합한 일관된 구조에 통합한 다단계 검증 프레임워크를 도입합니다. 제안된 XAI 프레임워크는 교사와 학생에게 공정성 진단과 투명한 점수 설명을 제공하여 기존 AWE 플랫폼 내에서 실질적으로 구현되도록 설계되었으며, 실제 평가 환경에서 공정성, 해석 가능성, 교수적 유용성을 향상시키는 능력을 평가하기 위해 글쓰기 강의나 시험 준비 수업에 적용할 수 있습니다.

이 맥락에서 이 가설은 정확성과 만족도 간의 관계를 결정하는 데 있어 인지된 공정성이 매개 역할을 하는지, 그리고 언어 숙련도가 공정성 민감도에 미치는 조절 역할을 조사하는 AFMM입니다. 따라서 이 연구는 이론적으로 AWE의 평가 모델을 풍부하게 하여 정확성과 인식과 함께 공정성을 핵심 검증 차원 중 하나로 설명하고, 실질적으로는 개발자에게 공정성을 극대화하는 전략을 제공하고, 교육자들에게 집단별 시스템 선택 기준을 제공하며, 학습자의 인식이 형성되는 방식을 설명함으로써 AWE의 교육적 가치를 제공합니다. 교육 외에도 이 프레임워크는 XAI라는 더 넓은 개념과도 연계되어 있으며, 공정성과 사용자 인식이 의료, 자율 시스템, 사이버보안 등 다른 분야에서 투명성, 신뢰, 수용성을 높일 수 있음을 보여줍니다.

연구 질문:

1.To AWE 시스템이 다양한 원어민 언어 및 숙련도 그룹에 걸쳐 기술적 정확성과 공정성을 어느 정도까지 보여주나요?

2. XAI 기반 다단계 평가 프레임워크가 자동화된 영어 작문 평가의 투명성과 형평성을 어떻게 향상시킬 수 있는가?

문헌 검토:

대학생들이 AWE 피드백을 수용하는 데 영향을 미치는 요인들은 확장 기술 수용 모델(TAM)²¹을 사용해 조사되었습니다. SEM을 사용한 448명의 중국 학생들을 대상으로 한 설문 자료를 기반으로 하여, 유용성, 사용 용이성, 의도가 주관적 규범, 신뢰, 자기 효능감, 인지 피드백, 시스템 특성에 유의미한 영향을 미치는 것으로 나타났습니다. 하지만 연구는 단일 국가와 단일 학생 그룹에 한정되어 일반화의 적용 가능성이 제한됩니다. 중국 EFL 학생들이 Pigai AWE 피드백에 어떻게 반응하는지 탐구하기 위해 대학생들의 반복 제출(n = 5)을 분석한 연구가 진행되었습니다. 보고서는 오류 수정에 대한 초기 강조, 낮은 언어 피드백 수용, 그리고 점진적인 심화된 반응을 지적했습니다. 하지만 표본 크기가 매우 제한적이었고, 적용 가능성과 일반화를 제한하는 AWE 시스템도 마찬가지였습니다. AI 채점 도구(CoGrader) 적용에 대해 EFL 교사들이 가진 신념을 조사하여 그들의 견해에 영향을 미치는 요인을 파악했습니다²³. 사우디 대학 교사 10명을 대상으로 한 혼합 연구 결과, 설문조사와 인터뷰에서 긍정적인 의견은 엇갈렸지만, 신뢰성과 완전한 교사 교체에 대한 확신에 대한 소극적인 반응이 나타났습니다. 이는 제한된 표본과 단일 국가 설정 때문에 일반화를 방해합니다.

말뭉치 언어학과 AI 기술의 발전을 고려하여, AES 프레임워크²⁴. 이 연구는 PCA를 활용해 글쓰기 품질 평가를 위한 언어 지표를 개선했으며, 미시적 특성과 집계된 특성을 결합하는 것이 집계된 특성만으로는 글쓰기 품질을 더 효과적으로 정의한다는 것을 발견했습니다. 무작위 숲 회귀에 기반한 비선형 AES 접근법이 다른 접근법을 능가했습니다. 더 나아가 SHAP는 평가된 각 속성에 필수적인 언어 요소를 식별하여 설명 가능한 AI를 통해 시스템 투명성을 높였습니다. 결과는 글쓰기 평가와 교육에서 다차원적인 방법을 향상시키는 데 도움이 될 수 있습니다. 인간-기계 협업 시스템은 비용이 많이 들고 시간이 많이 드는 아랍어 문서에 주석을 달 때 발생하는 문제를 해결하기 위해 도입되었습니다. 이 방법은 LLM의 도움을 받아 문학의 7가지 특징을 기반으로 한 에세이를 고려합니다. 검증 과정과 안내 전술은 일관성과 정확성을 보장하기 위해 개인화되었습니다. 이 협력은 레이블이 붙은 자원의 공급을 증가시키고 평가의 품질에 영향을 주지 않아, 자원이 적은 언어에 적합한 확장 가능한 데이터 주석 방법임을 보여줍니다.

교육 분야에서 AI의 활용은 채점 요건을 크게 줄이고 글쓰기 교육을 향상시킬 기회를 제공합니다^25,26. 동시에 연구자들은 AI의 정확성만이 책임 있는 사용과 관련된 유일한 측면이 아니라고 강조했습니다. 공정성과 편향 감소, 보안과 프라이버시, 책임성, 설명 가능성, 투명성, 교육 효과, 청렴성, 지속적 발전 등의 원칙이 있습니다. 최근 연구에서는 GPT-4o를 기반으로 한 제로 샷 점수 평가를 실증적으로 평가했으며, 이러한 요구사항에 중점을 두고 있습니다. 연구는 교육자들이 ADWTs에 대해 교육 청렴성 측면에 대해 갖는 인식에 초점을^{맞추었습니다.} 10개 과목의 대학원생과 교수진 100명을 대상으로 한 이 횡단면 연구는, 교사들이 ADWT가 교육 목표 달성에 도움이 된다고 평가했음에도 불구하고, 접근성 제한, 지식 부족, 그리고 진실성과 창의성에 미치는 영향에 대한 우려 등 몇 가지 한계가 있음을 시사합니다. 연구 결과, AI 기술이 교육에 점점 더 통합됨에 따라 윤리적 관심과 이해관계자 참여가 성공적이고 책임감 있게 사용되기 위해 필요하다고 제안했습니다. 연구는 EFL 학생들이 제출한 에세이를 평가할 때 AI 기술과 인간 평가자의 효율성을 비교하여 조사했습니다²⁸. 30개의 에세이를 평가한 결과, AI는 내용, 언어, 조직, 정확성 면에서 높은 품질의 댓글을 제공했지만, 인간 평가자들보다 낮은 평점을 지속적으로 제공했습니다. 또한 AI는 더 철저한 피드백을 제공했지만, 다양한 AI 도구의 점수는 크게 차이가 나지 않았습니다.

연구 격차:

현재 대부분의 AWE 연구는 정확성 또는 사용자 수용도를 조사하고 있습니다. 점수 차이가 체계적으로 모국어나 숙련도 그룹에 불리하게 작용하는지 여부를 조사하는 연구는 매우 적습니다. 이전 연구들은 사용자 수용도를 조사하거나 특정 국가와 표본 크기의 특정 AWE 시스템에 한정되었지만, 일반화 가능성에 대한 의문이 제기됩니다. SHAP와 PCA 모두 XAI 전략이며 투명성을 높이기 위해 개발되었지만, 공정성 메커니즘이나 학습자들이 AWE의 AI 피드백을 어떻게 활용하는지에 대한 연구는 없습니다. 문헌에는 정확성, 공정성 분석, 학습자 인식의 정의된 차원을 다룬 광범위한 틀이 없습니다. 평가자 내 및 평가자 간 정확성, 공정성, 학습자 인식을 고려하는 설명 가능한 평가 모델의 예는 없습니다. 설명 가능한 프레임워크인 TLEF와 결합 모델인 AFMM이 다국어 및 숙련도 다양성 학습자들 사이에서 정확성, 공정성, 학습자 인식을 동시에 평가하기 위해 제안되고 검증되었습니다.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

윤리적 승인 및 참가자 모집 과정, 에세이 작성, ETS Criterion 및 전문가의 이중 채점, 학습자 인식 평가, 통계 분석 등이 이 섹션에서 요약되어 있습니다. 정확성, 공정성, SEM 기반 인식 모델링이 통합된 XAI 검증 파이프라인에 어떻게 통합되는지를 강조합니다. XAI 기반 AWE 평가 프레임워크는 그림 1에 나와 있습니다.

절차:

이 절차는 여러 단계를 거쳤습니다. 첫째, IRB 승인을 받고 모든 참가자로부터 사전 동의를 수집했습니다. 독립 변수, 종속 변수, 제어 변수가 정의되었습니다. Moodle에서 세 가지 중립적인 에세이 주제를 사용하여 표준화된 글쓰기 과제가 수행되었고, 글 샘플은 단어 수, 시간 제한, 구조 등 에세이 요구사항을 준수하는 동안 수집되었습니다. 이중 점수 산출은 ETS 기준 출력과 인간 전문가 평가를 결합하여 수행되었습니다. 학습자 인식 설문지는 에세이 제출 직후 배포되었습니다. 부정행위나 무효 응답과 같은 이상 사항을 해결하기 위해 데이터 스크리닝과 품질 관리 절차가 도입되었습니다. 공정성 분석 임계값(ΔEO, RMSE 검사)도 적용되었습니다. 마지막으로, 모든 익명화된 데이터는 암호화되고 접근 통제 서버에 안전하게 저장되었습니다.

윤리적 승인과 사전 동의

이 연구는 저자들이 소속한 기관의 기관심사위원회(Institutional Review Board)로부터 윤리 승인을 받았습니다. 모든 절차는 헬싱키 선언과 관련 규정에 따라 진행되었습니다. 모든 참가자는 성인(≥18세)이었으며, 참여 전에 서면 동의서를 제공하였습니다. 작성 샘플과 설문지 응답은 원본에서 식별 해제되어 암호화된 접근 제어 서버에 저장되었으며; 권한 있는 조사관만 접근할 수 있었다. 인간 평가자들은 참가자의 모국어, 숙련도, 인구통계에 대해 눈이 멀었습니다. 참여는 자발적이었으며, 언제든지 철회할 권리가 있었고, 기만이나 민감한 개입은 포함되지 않았습니다. 공식 승인 문서는 요청 시 저널에 제공할 수 있습니다.

가변 설계

분석을 안내하기 위해 총 세 그룹의 변수가 연구에서 정의되었습니다. 표 1은 각 구성 요소에 대해 측정 방법에 사용되는 측정 및 데이터 유형을 요약하고, 독립 변수, 종속 변수, 제어 변수의 전체 운영 정의를 제공합니다.

AI 점수 정확도는 ETS 기준의 산출과 전문가들의 평가 사이에 RMSE와 피어슨 상관계수(r)로 평가된 최초의 독립 변수였습니다. 전문가들의 보정 결과 ICC는 0.91로 신뢰성을 입증했습니다.

두 번째 독립 변수는 학습자의 언어적 배경으로, 원어민과 비원어민으로 나뉘었고, 중국어, 스페인어, 아랍어 및 기타 그룹으로 세분화되었다. 중국 학생들은 체계적인 과소평가의 예비 징후가 관찰되어 대상 집단 중 하나였다.

세 번째 독립 변수는 작문 능력으로, CEFR A2부터 C1 수준에 따라 평가되었으며, 공식 증명서와 사전 수업 능력 시험으로 확인되었으며, IELTS 동등성과도 일치했습니다. AI 공정성 중재 모델에 도입된 또 다른 중재자는 공정성에 대한 민감도가 숙련도 수준에 따라 다르는지 검사하기 위한 글쓰기 숙련도를 수행했습니다.

공정성에 대한 인식과 학습자 만족도가 종속 변수였습니다. 공정성 인식은 7점 리커트 척도로 평가된 8문항 설문지를 통해 평가되었으며, 이 설문지에는 개인의 일관성과 집단 공정성이 포함되었습니다(Cronbachs 87; CVI 92). 학습자의 만족도는 사용 의지와 기술 향상 인지(α = 0.85)를 나타내는 6개의 리커트 질문을 사용해 평가되었습니다.

이 변수들은 나이, 성별, 글쓰기 경험 측면에서 통제되었습니다. 연령은 세 그룹(18-22세, 23-28세, ≥29세)으로 나뉘었으며, 성별은 남성과 여성으로 분류되었습니다. 글쓰기 경험은 연간 세 가지 빈도 수준으로 분류되었습니다.

과제 작성 텍스트

표준화된 논증 에세이 주제는 세계화가 지역 문화에 미치는 영향, 온라인 교육의 장점과 도전, 인공지능의 윤리적 경계라는 세 가지 중립적 주제에 대한 글쓰기 데이터를 얻기 위해 작성되었습니다. 이 주제들은 한편으로는 인지 난이도와 접근성 균형을 맞추고, 다른 한편으로는 이전 지식으로 인한 성과 차이를 줄이는 데 목적이 있었습니다. 주제 분포와 에세이 분량에 따른 설명 통계는 표 2에 보고되어 있습니다.

각 에세이는 250단어±10%)로 작성되어야 하며, Moodle 기반 플랫폼에서 45분 이내에 작성되어야 했습니다. 보조 도구는 금지되었고, 늦은 제출은 제외되었습니다. 에세이는 서론, 두 개의 논장 단락, 결론의 표준화된 구조를 따랐다. 총 764개의 유효 에세이가 수집되었으며, 평균 길이는 252.3단어(SD = 8.7)였습니다.

점수 비교 데이터

AWE 점수 정확도는 ETS 기준 출력과 인간 전문가 평가를 결합한 이중 절차를 사용하여 평가하였습니다. 점수는 크라이테리언의 오픈 API를 통해 조회되었습니다. 10년 이상의 평가 경력을 가진 세 명의 언어학자가 독립적으로 모든 에세이를 채점했습니다. 정식 채점 전에 평가자들은 세 차례의 교정 세션을 완료했습니다. 교정 과정에서 평가자 간 신뢰도는 ICC = 0.87에 도달했으며; 공식 점수 산정 시 ICC는 0.91로 상승했으며, 차원별 ICC는 0.88을 초과했습니다. 점수 차이가 2점 이상인 에세이는 집단으로 해결되었습니다(18건). 점수 산정 워크플로우와 신뢰성 결과는 표 3에 요약되어 있습니다.

학습자 지각 설문지

학습자들의 AI 피드백에 대한 인식은 TAM을 기반으로 한 22개 문항 설문지를 통해 수집되었으며, 공정성도 포함하도록 확장되었습니다. 이 도구는 공정성 인식(8문항), 만족도(6문항), 그리고 이해도와 투명성 같은 조정 요소(8문항)의 세 영역을 포함했습니다. 다섯 명의 전문가가 검증한 결과 CVI는 0.92였고, 60명의 학습자를 대상으로 한 파일럿 테스트에서는 전체 신뢰도가 α = 0.90으로 나타났습니다. 설문지 구조와 심리측정 지수는 표 4에 제공되어 있습니다.

본 연구의 설문지는 에세이 제출 직후에 실시되었으며, 무심코 완성을 줄이기 위해 최소 완성 시간 요건이 있었습니다. 764건의 조사 중 756건은 품질 검사 후 유효했으며, 결과적으로 98.95의 유효 비율을 얻었습니다.

데이터 수집 및 품질 관리

데이터는 2024년 3월부터 4월까지 8주간 네 단계로 기록되었습니다: 모집 및 동의; 에세이 작성; 이중 채점 및 설문지 분포; 그리고 데이터베이스 편찬. 수업 전 글쓰기 성과를 기반으로 한 숙련도 증명서는 이중 심사를 통해 검토되었으며, 이 과정에서 16명의 참가자가 탈락했습니다. 실시간 모니터링을 통해 4건의 잠재적 부정행위가 제거되었고, 3건의 의심스러운 AI 성과(최소 8점 이상 편차)는 수동 평가 후 수정되었습니다. 역문항 일관성 검사를 통해 8개의 무효 설문지를 제거하였습니다.

데이터 저장 및 윤리

모든 데이터는 익명화되어 모국어, 숙련도 수준, 일련번호로 구성된 고유 식별자로 저장되었습니다. 텍스트, 점수, 설문지는 암호화되어 ISO27001 준수 서버에 저장되어 접근 권한이 제한되었습니다. 데이터는 영구 삭제 전에 3년간 보관됩니다. 기관 심사 위원회로부터 윤리적 승인을 받았고, 모든 참가자로부터 서면 동의서를 수집하였습니다.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 섹션은 실험 설계, 참여자 특성, 점수 정확도, 공정성 평가, 학습 및 지각 모델링이라는 다섯 가지 분석 차원을 바탕으로 연구 결과를 제시합니다. 결과에는 통계적 성과, 집단 차이, 공정성 격차, SEM 기반 중재 및 조정이 포함됩니다.

실험 장치

주요 소프트웨어 단계는 API를 통해 ETS Criterion을 설정하여 정보를 자동으로 점수 채점하고, 인간 평가자를 교육하며, 기본 통계 옵션을 가진 참고 통계 소프트웨어에서 데이터 분석을 수행하고, 표준 SEM 패키지를 사용한 R 4.3.1에서 구조 방정식 모델링을 수행하는 것이었습니다. AWE 공정성 연구에 사용되는 재료, 소프트웨어 플랫폼 및 분석 도구는 재료표에 표시되어 있습니다.

표본 선정 및 인구통계학적 특성

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

연구는 기술적 정확성, 집단 및 개인 공정성, 학습자 인식을 포함하는 3단계 접근법 하에 AWE 시스템을 탐구했으며, 전반적인 타당성과 체계적 집단 차이가 동시에 존재함을 확인했습니다. AI와 전문가 평가 사이에는 강한 상관관계가 있었으나(집계 r = 0.82), 하위 그룹별 차이가 관찰되었습니다(native r = 0.89 vs. nonnativer = 0.76; 중국어 r = 0.72; 표 6). RMSEs의 분포는 또한 중국 학습자들에서 더 높은 오류와 변동성을 나타냈다(그림 2). 이러한 추세는 구성 요소의 저대표성과 도메인 이동을 나타낸다. 즉, 훈련에서 언어 간 특징이 저중치되는 경우, 모델은 담화 수준 특징(예: 내용, 논증)보다 표면적 정확성(예: 문법)을 더 효과적으로 생성하는 법을 학습하게 된다.²⁹.

공정...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자는 이해 상충을 공개할 필요가 없습니다.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Data Storage System	익명화된 데이터를 저장하기 위한 암호화된 접근 제어 서버.	기관 서버	저장-002
ETS 기준 시스템	AI 지원 글쓰기 평가 시스템은 글쓰기 과제 채점에 사용됩니다.	교육 시험 서비스 (ETS)	ETS-001
<강력>공정성 및 정확성 분석 도구	RMSE, 균등화 확률, 통계 분석을 위한 도구들.	커스텀 스크립트/통계 패키지	툴-FA-001
Human Expert 등급	10년 이상의 경력을 가진 세 명의 언어학자가 독립적으로 평가합니다.	내부 평가자	HR-EXP-003
<강>학습자 인식 설문지	공정성과 만족도에 관한 8문항 설문지로, 7점 리커트 척도로 평가되었습니다.	자체 개발	퀘스-008
Statistical Software (R 4.3.1)	SEM(구조방정식 모델링)을 포함한 데이터 분석에 사용됩니다.	R 재단	R-SW-431
<강>층화된 무작위 표본 추출 데이터	CEFR A2부터 C1까지 다양한 언어를 구사하는 764명의 학습자들로부터 수집된 데이터입니다.	연구 참가자들	데이터-764
<강>글쓰기 과제 주제	세계화, 온라인 교육, AI 윤리에 관한 세 가지 표준화된 에세이 주제.	무들 기반 플랫폼	프롬프트-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

영어 글쓰기 평가에서 정확성, 공정성, 학습자 인식을 위한 설명 가능한 AI 프레임워크

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles