Estrutura de IA Explicável para Precisão, Justiça e Percepção do Aprendiz na Avaliação de Escrita em Inglês

Meili Dai

doi:10.3791/69841

Research Article

Estrutura de IA Explicável para Precisão, Justiça e Percepção do Aprendiz na Avaliação de Escrita em Inglês

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo desenvolve uma estrutura de avaliação em três níveis e um modelo de mediação de justiça para avaliar sistemas de escrita em inglês assistidos por IA. Utilizando 764 amostras interlinguísticas, os resultados mostram disparidades de precisão, viés de justiça contra aprendizes não nativos (especialmente no nível de proficiência em chinês A2) e percepção de equidade como o principal mediador da satisfação do usuário, oferecendo implicações teóricas e práticas.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

No contexto da transformação digital educacional global, a avaliação automatizada de escrita (AWE) foi amplamente adotada devido às suas vantagens em tempo real e padronizadas; No entanto, os frameworks tradicionais voltados para precisão frequentemente negligenciam preocupações com equidade e percepções dos aprendizes, limitando assim a transparência e o valor educacional. Para enfrentar essa limitação, esta pesquisa propõe um framework de IA explicável (XAI) projetado para fornecer feedback transparente e interpretável, permitindo que os aprendizes compreendam e confiem na avaliação automatizada, e integra um modelo de validação multinível, o Three-Level Evaluation Framework (TLEF), que abrange precisão técnica, equidade em grupo e individual, e percepção do aprendiz, juntamente com o Modelo de Mediação de Justiça de IA (AFMM). Utilizando amostragem aleatória estratificada, dados foram coletados de 764 aprendizes multilíngues (falantes nativos de inglês, chinês e espanhol) nos níveis A2 a C1 do Marco Europeu Comum de Referência para Línguas (CEFR) por meio de tarefas de escrita, pontuação dupla por IA e especialistas humanos, e questionários estruturados. Em vez de listar testes individuais, múltiplas análises estatísticas foram empregadas para examinar validade, justiça e a relação percepção-aluno. Análises estatísticas combinaram correlação, erro quadrático médio (RMSE), testes de Odds Equalizados e Modelagem de Equações Estruturais (SEM). Os resultados revelam que, embora o sistema de avaliação assistida por IA (AWE) (Critério ETS) alcance validade geral (r = 0,82), persistem disparidades significativas: falantes nativos de chinês apresentam a menor concordância com avaliadores humanos (0,72) e o maior RMSE (mediana 2,15), os vieses de justiça são mais pronunciados em níveis de proficiência mais baixos (ΔEO = 0,15 para aprendizes A2), e a justiça percebida media plenamente a ligação entre a precisão percebida e a satisfação do aprendiz, com proficiência em moderar a sensibilidade à justiça. Ao reformular a justiça e a percepção como dimensões essenciais da explicabilidade, a pesquisa fortalece a base teórica da AWE e oferece um caminho prático para aumentar a transparência, equidade e aceitação social nas tecnologias educacionais.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A globalização intensiva da educação e das tecnologias digitais aumentou a necessidade de avaliar cientificamente e de forma credível o nível de escrita em inglês para o ensino de línguas, desenvolvimento acadêmico e avanço na^{carreira 1}. Avaliações convencionais de escrita, como praticadas pela avaliação humana, podem medir aspectos subjetivos da escrita, como a minuciosidade da argumentação e a adequação^{cultural 2}, mas são suscetíveis a longos prazos de resposta, altos custos de mão de obra e viés devido à experiência e inclinações dos^avaliadores ^3,4. Essas limitações são especialmente agudas em práticas em larga escala, como testes de língua internacional (IELTS, TOEFL) ou outros cursos de inglês ministrados em universidades onde a pontuação manual não pode ser tudo o que é necessário em termos de feedback instantâneo e cobertura⁵.

Sistemas AWE tornaram-se amplamente utilizados nesse contexto devido ao seu processamento em tempo real, padronização e escalabilidade⁶. Ferramentas populares como Grammarly (que foca em erros gramaticais e refinamento de estilo) e ETS Criterion (que segue normas formais de escrita) são atualmente usadas por milhões de estudantes na educação K-12, escolas de idiomas, ensino superior e treinamento^{individual 7}. Embora esses sejam os benefícios, a eficiência tecnológica e a aplicabilidade educacional dos sistemas AWE ainda são^contestadas. Tecnicamente falando, os sistemas existentes são altamente precisos em dimensões objetivas, incluindo detecção de erros e diversidade lexical, onde a correlação com a pontuação humana pode ser superior a 0,85⁹. No entanto, em áreas mais subjetivas, como relevância de conteúdo, argumentação lógica e organização de um texto, as correlações frequentemente ficam menores que 0,70¹⁰. Tal desproporção tem o risco de promover uma precisão superficial entre os aprendizes, ao custo da competência geral na^{escrita 11}.

A questão da equidade também limita a utilidade educacional da AWE. Os estudos atuais também tendem a focar nos indicadores agregados de precisão, negligenciando a possibilidade de desvios que prejudiquem sistematicamente alguns grupos¹². Indicativamente, características do interidioma compartilhadas por aprendizes de chinês ou espanhol seriam confundidas com erros, o que resultaria em subestimação^sistemática ^13,14. Além disso, a aceitação subjetiva do feedback de IA pelos aprendizes é geralmente pouco conhecida¹⁵. Pesquisas indicam que quase um terço dos aprendizes não nativos relata uma inadequação entre as pontuações de IA e o desempenho real, com os processos de precisão técnica, equidade em grupo e satisfação do aprendiz ainda sendo pouco^{compreendidos 16}.

Essas fraquezas refletem as deficiências do paradigma clássico de precisão¹⁷. Uma estrutura que considera apenas o alinhamento entre IA e pontuação humana não pode capturar questões de equidade ou a confiança do aprendiz no sistema. Na prática, o valor educacional da AWE deve satisfazer três condições simultaneamente: precisão técnica, justiça entre grupos e aceitação pelo^{aprendiz 18}. A ausência de uma abordagem de validação tão abrangente ajuda a explicar por que os sistemas AWE gozam de ampla adoção, porém de confiança limitada na prática educacional^19,20.

Para enfrentar esse desafio, o presente estudo introduz uma estrutura de validação multinível que integra precisão técnica, justiça em grupo e individual, e percepção do aprendiz em uma estrutura coerente. O framework XAI proposto foi projetado para ser implementado de forma prática nas plataformas AWE existentes, fornecendo a professores e alunos diagnósticos de imparcialidade e explicações transparentes de pontuação, podendo ser aplicado em cursos de redação ou aulas de preparação para provas para avaliar sua capacidade de aumentar a justiça, a interpretabilidade e a utilidade instrucional em ambientes reais de avaliação.

Nesse contexto, a hipótese é uma AFMM para investigar o papel mediador da justiça percebida na determinação da relação entre precisão e satisfação, bem como o papel moderador da proficiência linguística na sensibilidade à justiça. Portanto, contribui de duas formas, tanto teoricamente ao enriquecer os modelos de avaliação da AWE ao descrever a justiça como uma das principais dimensões de validação junto com a precisão e a percepção, quanto na prática, ao fornecer aos desenvolvedores estratégias para maximizar a justiça, educadores com critérios de seleção de sistemas sensíveis ao grupo, e o valor educacional da AWE, explicando a forma como as percepções dos aprendizes são formadas. Além da educação, o arcabouço também está alinhado com o conceito mais amplo de XAI, demonstrando como justiça e percepção do usuário podem aumentar a transparência, a confiança e a aceitação em outras áreas, como saúde, sistemas autônomos e cibersegurança.

Perguntas de Pesquisa:

1.To que ponto o sistema AWE demonstra precisão técnica e justiça entre diferentes grupos de língua nativa e proficiência?

2. Como uma estrutura de avaliação multinível baseada em XAI pode melhorar a transparência e a equidade na avaliação automatizada de redação em inglês?

REVISÃO DA LITERATURA:

Os fatores que afetam a aceitação do feedback do AWE pelos estudantes universitários foram examinados usando um Modelo de Aceitação de Tecnologia (TAM)²¹ estendido. Com base em dados de pesquisas de 448 estudantes chineses que usaram MEV, foi determinado que utilidade, facilidade de uso e intenção tiveram influência significativa na norma subjetiva, confiança, autoeficácia, feedback cognitivo e características do sistema. No entanto, o estudo foi limitado a uma única nação e a um único grupo de estudantes, o que limita a aplicabilidade da generalização. Para explorar como os estudantes chineses de EFL respondem ao feedback do Pigai^{AWE 22}, um estudo analisou submissões repetidas (n = 5) de estudantes universitários. Observou uma ênfase inicial na correção de erros, baixa captação de feedback linguístico e aprofundamento gradual da resposta. No entanto, o tamanho da amostra era muito limitado, assim como o sistema AWE, que restringe a aplicabilidade e a generalizabilidade. As crenças dos professores de EFL sobre a aplicação da ferramenta de avaliação de IA (CoGrader) foram examinadas para identificar os fatores que influenciam suas^{opiniões 23}. Por meio de um estudo de métodos mistos com 10 professores universitários sauditas, uma pesquisa e uma entrevista revelaram que havia uma opinião positiva mista, mas relutância em ter total certeza da confiabilidade e da substituição completa dos professores. Isso dificulta a generalização devido à amostra limitada e ao cenário de um país.

Considerando os avanços em linguística de corpus e tecnologia de IA, um estudo investigou os frameworks^{AES 24}. Utilizou PCA para melhorar indicadores linguísticos de avaliação da qualidade da escrita e descobriu que combinar microcaracterísticas com características agregadas definia a qualidade da escrita de forma mais eficaz do que as características agregadas isoladamente. A abordagem não linear AES baseada na Regressão em Floresta Aleatória superou as outras abordagens. Além disso, o SHAP identificou elementos essenciais da linguagem para cada atributo avaliado, aumentando a transparência do sistema por meio de IA explicável. Os resultados podem ajudar a aprimorar métodos multidimensionais na redação, avaliação e educação. O sistema de colaboração homem-máquina foi introduzido para enfrentar os desafios de anotar escritos árabes, que frequentemente são caros e demorados. O método considera ensaios baseados em sete características da literatura com a ajuda do LLM. Os processos de validação e as táticas de prompting foram personalizados para garantir consistência e precisão. A cooperação resulta em um maior fornecimento de recursos rotulados e não afeta a qualidade da avaliação, demonstrando que é um método escalável de anotação de dados adequado para linguagens de menor recurso.

O uso da IA na área educacional oferece uma oportunidade de reduzir significativamente as exigências de avaliação e aprimorar a educação em^{escrita 25,26}. Ao mesmo tempo, pesquisadores enfatizaram que a precisão da IA não é o único aspecto relevante para seu uso responsável. Existem princípios de justiça e redução de preconceitos, segurança e privacidade, responsabilidade, explicabilidade, transparência, efeito educacional, integridade e desenvolvimento contínuo. Pesquisas recentes avaliaram empiricamente a pontuação zero-shot baseada no GPT-4o, com foco nesses requisitos. A pesquisa focou nas percepções que os educadores tinham em relação aos ADWTs em relação ao aspecto da integridade educacional²⁷. O estudo transversal envolvendo 100 estudantes de pós-graduação e professores de 10 disciplinas sugere que, apesar dos professores atribuírem os benefícios dos ADWTs ao alcançar o objetivo educacional, eles apresentam algumas limitações, como acessibilidade limitada, falta de conhecimento e preocupação com seu impacto na integridade e criatividade. A pesquisa sugeriu que, à medida que as tecnologias de IA se integram mais à educação, preocupações éticas e a participação das partes interessadas são necessárias para seu uso bem-sucedido e responsável. Pesquisas investigaram a eficácia das tecnologias de IA em comparação com avaliadores humanos na avaliação de ensaios submetidos por alunos de^{EFL (28} anos). A avaliação de 30 ensaios revelou que, embora a IA oferecesse comentários de alta qualidade em termos de conteúdo, linguagem, organização e correção, ela constantemente apresentava avaliações mais baixas do que avaliadores humanos. Além disso, a IA forneceu um feedback mais completo, mas as pontuações das várias ferramentas de IA não foram substancialmente diferentes.

Lacuna na Pesquisa:

Atualmente, a maioria das pesquisas sobre estudos AWE examina a precisão ou a aceitação dos usuários. Pouquíssimos analisam se as diferenças de pontuação prejudicam sistematicamente grupos de língua nativa ou proficiência. Embora estudos anteriores tenham examinado a aceitação por usuários ou sejam limitados a um sistema AWE específico de um país e tamanho de amostra específicos, surgem questões sobre generalizabilidade. Embora tanto o SHAP quanto o PCA sejam estratégias XAI e tenham sido desenvolvidos para aumentar a transparência, nenhum estudo examinou mecanismos de justiça ou como os aprendizes utilizam o feedback da IA do AWE. Não existem estruturas extensas na literatura que contemplem dimensões definidas de precisão, análise de justiça e percepções do aprendiz. Não há exemplo de modelo explicável de avaliação que considere a precisão intra e interavaliadora, a justiça e as percepções do aprendiz. Uma estrutura explicável, TLEF, e um modelo combinado, AFMM, são propostos e validados nesta pesquisa para avaliar a precisão, justiça e percepções do aprendiz ao mesmo tempo entre aprendizes multilíngues e com diversos níveis de proficiência.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O processo de aprovação ética e recrutamento de participantes, incluindo administração de redações, pontuação dupla pela ETS Criterion e especialistas, avaliação da percepção do aprendiz e análise estatística, estão resumidos nesta seção. Ela destaca como precisão, justiça e modelagem de percepção baseada em SEM são integradas em um pipeline unificado de validação XAI. A estrutura de avaliação AWE orientada por XAI está ilustrada na Figura 1.

Procedimento:

O procedimento envolveu várias etapas. Primeiro, foi obtida a aprovação do IRB e o consentimento informado foi coletado de todos os participantes. Variáveis independentes, dependentes e de controle foram então definidas. Tarefas padronizadas de escrita foram aplicadas no Moodle usando três temas neutros para ensaios, e amostras de escrita foram coletadas, garantindo o cumprimento dos requisitos do ensaio, como contagem de palavras, limite de tempo e estrutura. A pontuação dupla foi realizada usando os resultados do Critério ETS combinados com avaliações de especialistas humanos. Questionários de percepção do aluno foram distribuídos imediatamente após a entrega do ensaio. Procedimentos de triagem de dados e controle de qualidade foram implementados para corrigir anomalias, como trapaça ou respostas inválidas. Limiares de análise de justiça (ΔEO, verificações RMSE) também foram aplicados. Por fim, todos os dados anonimizados foram armazenados de forma segura em servidores criptografados e com controle de acesso.

Aprovação ética e consentimento informado

Este estudo recebeu aprovação ética do Conselho de Revisão Institucional da instituição dos autores. Todos os procedimentos foram conduzidos de acordo com a Declaração de Helsinque e as regulamentações aplicáveis. Todos os participantes eram adultos (≥18 anos) e forneceram consentimento informado por escrito antes da participação. Amostras de escrita e respostas ao questionário eram desidentificadas na origem e armazenadas em servidores criptografados e com controle de acesso; Apenas investigadores autorizados tinham acesso. Avaliadores humanos eram cegos para a língua nativa, nível de proficiência e demografia dos participantes. A participação era voluntária, com direito de retirada a qualquer momento, e não havia engano ou intervenções sensíveis envolvidas. Documentação formal de aprovação pode ser fornecida ao periódico mediante solicitação.

Projeto variável

Um total de três grupos de variáveis foram definidos no estudo para orientar a análise. A Tabela 1 resume os tipos de medição e dados usados nos métodos de medição para cada construto e fornece as definições operacionais completas das variáveis independentes, dependentes e de controle.

A precisão da pontuação por IA foi a primeira variável independente avaliada em termos do coeficiente de correlação RMSE e Pearson (r) entre os resultados do Critério ETS e as avaliações dos especialistas. A calibração realizada por especialistas resultou em um ICC de 0,91, validando a confiabilidade.

A segunda variável independente era o contexto linguístico dos aprendizes, que era dividido em falantes nativos e não nativos, e a subdivisão era feita em chinês, espanhol, árabe e outros grupos. Estudantes chineses foram uma das populações-alvo porque foram observadas indicações preliminares de subestimação sistemática.

A terceira variável independente era a proficiência na escrita, que foi avaliada de acordo com os níveis do CECR de A2 a C1, conforme confirmado por certificados oficiais e testes de proficiência pré-aula, e também alinhada com equivalências do IELTS. Outro moderador introduzido no Modelo de Mediação de Justiça por IA foi escrever proficiência para testar se a sensibilidade à justiça difere entre os níveis de proficiência.

Percepção de justiça e satisfação do aprendiz foram as variáveis dependentes. A percepção de justiça foi avaliada por meio de um questionário de oito itens avaliado em uma escala de Likert de sete pontos, que incluía a consistência individual e a imparcialidade do grupo (Cronbachs 87; CVI 92). A satisfação dos aprendizes foi avaliada usando seis perguntas de Likert que indicaram disposição para usar e melhora percebida na habilidade (α = 0,85).

As variáveis foram controladas em termos de idade, sexo e experiência de escrita. A idade foi dividida em três grupos (18-22 anos, 23-28 anos e ≥29 anos), e o gênero foi categorizado em masculino e feminino. A experiência de escrita foi categorizada em três níveis de frequência por ano.

Escrevendo textos de tarefas

Temas padronizados para redações argumentativas foram formulados para obter dados de escrita para três temas neutros: Impacto da Globalização nas Culturas Locais, Vantagens e Desafios da Educação Online e Limites Éticos da Inteligência Artificial. Esses temas tinham como objetivo equilibrar dificuldade cognitiva e acessibilidade, por um lado, e reduzir diferenças de desempenho devido ao conhecimento prévio, por outro. A distribuição dos temas e estatísticas descritivas para o tamanho do ensaio está relatada na Tabela 2.

Cada redação deveria ter 250 palavras ±10% e ser escrita em até 45 minutos em uma plataforma baseada no Moodle. Ferramentas auxiliares foram proibidas e submissões tardias foram excluídas. Os ensaios seguiam uma estrutura padronizada de introdução, dois parágrafos argumentativos e conclusão. No total, foram reunidos 764 ensaios válidos, com um comprimento médio de 252,3 palavras (SD = 8,7).

Dados de comparação de pontuação

A precisão da pontuação AWE foi avaliada usando um procedimento duplo que combinava os resultados do Critério ETS com avaliações de especialistas humanos. As pontuações foram recuperadas da Criterion por meio de sua API aberta. Três linguistas com mais de dez anos de experiência em avaliação avaliaram todos os ensaios de forma independente. Antes da pontuação formal, os avaliadores completaram três sessões de calibração. Durante a calibração, a confiabilidade entre avaliadores atingiu ICC = 0,87; durante a pontuação formal, o ICC subiu para 0,91, com ICCs específicos por dimensão acima de 0,88. Redações com discrepâncias de pontuação superiores a dois pontos foram resolvidas coletivamente (18 casos). O fluxo de trabalho de pontuação e os resultados de confiabilidade são resumidos na Tabela 3.

Questionário de percepção do aprendiz

As percepções dos aprendizes sobre o feedback da IA foram capturadas por meio de um questionário de 22 itens baseado no TAM e estendido para incluir a justiça. O instrumento continha três domínios: percepção de justiça (8 itens), satisfação (6 itens) e fatores moderadores como compreensibilidade e transparência (8 itens). A validação por cinco especialistas resultou em um CVI de 0,92, e testes piloto com 60 aprendizes produziram uma confiabilidade geral de α = 0,90. A estrutura do questionário e os índices psicométricos são fornecidos na Tabela 4.

Os questionários do estudo principal foram aplicados logo após a entrega dos ensaios, e havia requisitos mínimos de tempo de conclusão para diminuir a conclusão sem pensar. Das 764 pesquisas emitidas, 756 foram válidas após verificações de qualidade, e uma taxa efetiva resultante de 98,95 foi obtida.

Coleta de dados e controle de qualidade

Os dados foram registrados por 8 semanas (março-abril de 2024) em quatro etapas: recrutamento e consentimento; redação de ensaios; dupla pontuação e distribuição de questionários; e compilação do banco de dados. Os certificados de proficiência baseados no desempenho pré-aula na escrita foram revisados por meio de triagem dupla, e esse processo eliminou 16 participantes. Quatro casos potenciais de trapaça foram eliminados por monitoramento em tempo real, e três desempenhos suspeitos de IA (desvios de pelo menos 8 pontos) foram posteriormente alterados após uma avaliação manual. Oito questionários inválidos foram eliminados com base em verificações de consistência reversas de items.

Armazenamento de dados e ética

Todos os dados eram anonimizados e armazenados usando identificadores únicos que consistiam no idioma nativo, nível de proficiência e número de série. Mensagens, pontuações e questionários eram criptografados e armazenados em servidores compatíveis com ISO27001 com acesso restrito. Os dados serão mantidos por 3 anos antes da exclusão permanente. A aprovação ética foi obtida do conselho de revisão institucional, e o consentimento informado por escrito foi coletado de todos os participantes.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A seção apresenta os resultados da pesquisa com base em cinco dimensões analíticas: desenho experimental, características dos participantes, precisão de pontuação, avaliação de justiça e modelagem de aprendizagem e percepção. Os resultados incluem desempenho estatístico, diferenças de grupo, disparidades de justiça e mediação e moderação baseadas em SEM.

Configuração experimental

As etapas principais do software envolveram configurar o ETS Criterion...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A pesquisa explorou um sistema AWE sob uma abordagem de três níveis, abrangendo precisão técnica, justiça em grupo e individual, e percepção do aprendiz, e identificou que a validade geral e as diferenças sistemáticas entre grupos estão presentes simultaneamente. Houve fortes correlações entre as avaliações de IA e especialistas (r agregado = 0,82), mas diferenças foram observadas por subgrupo (r nativo = 0,89 vs. r não nativo = 0,76; Chinês r = 0,72; Tabela 6). As distribuições dos RMSE...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O autor não tem conflitos de interesse a revelar.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Sistema de Armazenamento de Dados	Servidores criptografados e controlados por acesso para armazenar dados anonimizados.	Servidores institucionais	ARMAZENAMENTO-002
Sistema Criterio ETS	Sistema de avaliação de escrita assistido por IA usado para pontuar as tarefas de escrita.	Serviço de Testes Educacionais (ETS)	ETS-001
/forte>	Ferramentas para RMSE, Equalized Odds e análise estatística.	Scripts/pacotes de estatísticas personalizados	TOOL-FA-001
Avaliações de Especialistas Humanos	Avaliações independentes fornecidas por três linguistas com mais de 10 anos de experiência.	Avaliadores internos	HR-EXP-003
Questionário de Percepção do Aprendiz	Um questionário de 8 itens sobre justiça e satisfação, avaliado em uma escala de Likert de 7 pontos.	Desenvolvimento interno	QUES-008
Software Estatístico (R 4.3.1)	Usado para análise de dados, incluindo SEM (Modelagem de Equações Estruturais).	Fundação R	R-SW-431
forte	Dados coletados de 764 aprendizes multilíngues entre os níveis CEFR A2 a C1.	Participantes do estudo	DATA-764
Escrita de Propostas de Tarefas	Três temas padronizados para redação sobre globalização, educação online e ética em IA.	Plataforma baseada no Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Estrutura de IA Explicável para Precisão, Justiça e Percepção do Aprendiz na Avaliação de Escrita em Inglês

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles