Research Article

Estrutura de IA Explicável para Precisão, Justiça e Percepção do Aprendiz na Avaliação de Escrita em Inglês

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo desenvolve uma estrutura de avaliação em três níveis e um modelo de mediação de justiça para avaliar sistemas de escrita em inglês assistidos por IA. Utilizando 764 amostras interlinguísticas, os resultados mostram disparidades de precisão, viés de justiça contra aprendizes não nativos (especialmente no nível de proficiência em chinês A2) e percepção de equidade como o principal mediador da satisfação do usuário, oferecendo implicações teóricas e práticas.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

No contexto da transformação digital educacional global, a avaliação automatizada de escrita (AWE) foi amplamente adotada devido às suas vantagens em tempo real e padronizadas; No entanto, os frameworks tradicionais voltados para precisão frequentemente negligenciam preocupações com equidade e percepções dos aprendizes, limitando assim a transparência e o valor educacional. Para enfrentar essa limitação, esta pesquisa propõe um framework de IA explicável (XAI) projetado para fornecer feedback transparente e interpretável, permitindo que os aprendizes compreendam e confiem na avaliação automatizada, e integra um modelo de validação multinível, o Three-Level Evaluation Framework (TLEF), que abrange precisão técnica, equidade em grupo e individual, e percepção do aprendiz, juntamente com o Modelo de Mediação de Justiça de IA (AFMM). Utilizando amostragem aleatória estratificada, dados foram coletados de 764 aprendizes multilíngues (falantes nativos de inglês, chinês e espanhol) nos níveis A2 a C1 do Marco Europeu Comum de Referência para Línguas (CEFR) por meio de tarefas de escrita, pontuação dupla por IA e especialistas humanos, e questionários estruturados. Em vez de listar testes individuais, múltiplas análises estatísticas foram empregadas para examinar validade, justiça e a relação percepção-aluno. Análises estatísticas combinaram correlação, erro quadrático médio (RMSE), testes de Odds Equalizados e Modelagem de Equações Estruturais (SEM). Os resultados revelam que, embora o sistema de avaliação assistida por IA (AWE) (Critério ETS) alcance validade geral (r = 0,82), persistem disparidades significativas: falantes nativos de chinês apresentam a menor concordância com avaliadores humanos (0,72) e o maior RMSE (mediana 2,15), os vieses de justiça são mais pronunciados em níveis de proficiência mais baixos (ΔEO = 0,15 para aprendizes A2), e a justiça percebida media plenamente a ligação entre a precisão percebida e a satisfação do aprendiz, com proficiência em moderar a sensibilidade à justiça. Ao reformular a justiça e a percepção como dimensões essenciais da explicabilidade, a pesquisa fortalece a base teórica da AWE e oferece um caminho prático para aumentar a transparência, equidade e aceitação social nas tecnologias educacionais.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A globalização intensiva da educação e das tecnologias digitais aumentou a necessidade de avaliar cientificamente e de forma credível o nível de escrita em inglês para o ensino de línguas, desenvolvimento acadêmico e avanço nacarreira 1. Avaliações convencionais de escrita, como praticadas pela avaliação humana, podem medir aspectos subjetivos da escrita, como a minuciosidade da argumentação e a adequaçãocultural 2, mas são suscetíveis a longos prazos de resposta, altos custos de mão de obra e viés devido à experiência e inclinações dosavaliadores 3,4

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O processo de aprovação ética e recrutamento de participantes, incluindo administração de redações, pontuação dupla pela ETS Criterion e especialistas, avaliação da percepção do aprendiz e análise estatística, estão resumidos nesta seção. Ela destaca como precisão, justiça e modelagem de percepção baseada em SEM são integradas em um pipeline unificado de validação XAI. A estrutura de avaliação AWE orientada por XAI está ilustrada na Figura 1.

Procedimento:

O procedimento envolveu várias etapas. Primeiro, foi obtida a aprovação do IRB....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A seção apresenta os resultados da pesquisa com base em cinco dimensões analíticas: desenho experimental, características dos participantes, precisão de pontuação, avaliação de justiça e modelagem de aprendizagem e percepção. Os resultados incluem desempenho estatístico, diferenças de grupo, disparidades de justiça e mediação e moderação baseadas em SEM.

Configuração experimental

As etapas principais do software env.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A pesquisa explorou um sistema AWE sob uma abordagem de três níveis, abrangendo precisão técnica, justiça em grupo e individual, e percepção do aprendiz, e identificou que a validade geral e as diferenças sistemáticas entre grupos estão presentes simultaneamente. Houve fortes correlações entre as avaliações de IA e especialistas (r agregado = 0,82), mas diferenças foram observadas por subgrupo (r nativo = 0,89 vs. r não nativo = 0,76; Chinês r = 0,72; Tabela 6). As distribuições dos RMSE.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O autor não tem conflitos de interesse a revelar.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Sistema de Armazenamento de DadosServidores criptografados e controlados por acesso para armazenar dados anonimizados.Servidores institucionaisARMAZENAMENTO-002
Sistema Criterio ETSSistema de avaliação de escrita assistido por IA usado para pontuar as tarefas de escrita.Serviço de Testes Educacionais (ETS)ETS-001
/forte>Ferramentas para RMSE, Equalized Odds e análise estatística.Scripts/pacotes de estatísticas personalizadosTOOL-FA-001
Avaliações de Especialistas HumanosAvaliações independentes fornecidas por três linguistas com mais de 10 anos de experiência.Avaliadores internosHR-EXP-003
Questionário de Percepção do AprendizUm questionário de 8 itens sobre justiça e satisfação, avaliado em uma escala de Likert de 7 pontos.Desenvolvimento internoQUES-008
Software Estatístico (R 4.3.1)Usado para análise de dados, incluindo SEM (Modelagem de Equações Estruturais).Fundação RR-SW-431
forteDados coletados de 764 aprendizes multilíngues entre os níveis CEFR A2 a C1.Participantes do estudoDATA-764
Escrita de Propostas de TarefasTrês temas padronizados para redação sobre globalização, educação online e ética em IA.Plataforma baseada no MoodlePROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles