Research Article

Marco de IA explicable para la precisión, la equidad y la percepción del alumno en la evaluación de escritura en inglés

DOI:

10.3791/69841

December 23rd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio desarrolla un marco de evaluación de tres niveles y un modelo de mediación de equidad para evaluar sistemas de escritura en inglés asistidos por IA. Utilizando 764 muestras interlingüísticas, los resultados muestran disparidades de precisión, sesgo de equidad contra los aprendices no nativos (especialmente el nivel de competencia A2 en chino) y la percepción de la equidad como mediador clave de la satisfacción del usuario, ofreciendo implicaciones teóricas y prácticas.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

En el contexto de la transformación digital educativa global, la evaluación automatizada de escritura (AWE) ha sido ampliamente adoptada debido a sus ventajas en tiempo real y estandarizadas; Sin embargo, los marcos tradicionales orientados a la precisión suelen descuidar las preocupaciones sobre la equidad y las percepciones de los alumnos, limitando así la transparencia y el valor educativo. Para abordar esta limitación, esta investigación propone un marco de IA explicable (XAI) diseñado para proporcionar retroalimentación transparente e interpretable, permitiendo a los estudiantes comprender y confiar en la evaluación automatizada, e integra un modelo de validación multinivel, el Marco de Evaluación de Tres Niveles (TLEF), que abarca la precisión técnica, la equidad tanto en grupo como en el individual, y la percepción del alumno, junto con el Modelo de Mediación de Equidad de IA (AFMM). Utilizando muestreo aleatorio estratificado, se recogieron datos de 764 estudiantes multilingües (hablantes nativos de inglés, chino y español) a través de los niveles A2 a C1 del Marco Europeo Común de Referencia para las Lenguas (MCER) mediante tareas de redacción, doble puntuación por parte de expertos en IA y humanos, y cuestionarios estructurados. En lugar de listar pruebas individuales, se empleó análisis estadísticos múltiples para examinar la validez, la equidad y la relación entre el aprendiz y la percepción. Los análisis estadísticos combinaron correlación, error cuadrático medio raíz (RMSE), pruebas de probabilidades igualadas y modelado de ecuaciones estructurales (SEM). Los hallazgos revelan que, aunque el sistema de evaluación de escritura asistida por IA (AWE) (Criterio ETS) alcanza validez global (r = 0,82), persisten disparidades significativas: los hablantes nativos de chino muestran la menor concordancia con los evaluadores humanos (0,72) y la RMSE más alta (mediana 2,15), los sesgos de equidad son más pronunciados en niveles de competencia más bajos (ΔEO = 0,15 para los estudiantes A2), y la equidad percibida media plenamente el vínculo entre la precisión percibida y la satisfacción del alumno, con competencia en la sensibilidad a la equidad. Al replantear la equidad y la percepción como dimensiones esenciales de la explicabilidad, la investigación refuerza la base teórica de la AWE y proporciona un camino práctico para aumentar la transparencia, la equidad y la aceptación social en las tecnologías educativas.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La intensa globalización de la educación y las tecnologías digitales ha incrementado la necesidad de evaluar científicamente y de forma creíble el nivel de escritura en inglés para la enseñanza de idiomas, el desarrollo académico y el avance profesional1. Las evaluaciones convencionales de escritura, tal como las practican la calificación humana, pueden medir aspectos subjetivos de la escritura como la exhaustividad de la argumentación y la idoneidadcultural, pero son susceptibles a largos tiempos de entrega, altos costes laborales y sesgos debido a la experiencia y preferencias del

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El proceso de aprobación ética y reclutamiento de participantes, que incluye la administración de ensayos, la doble puntuación por parte de ETS Criterion y expertos, la evaluación de la percepción del alumno y el análisis estadístico, se resumen en esta sección. Destaca cómo la precisión, la equidad y el modelado de percepción basado en SEM se integran en una cadena unificada de validación XAI. El marco de evaluación AWE impulsado por XAI se ilustra en la Figura 1.

Procedimiento:

El procedimiento implicó varios pasos. Primero, se obt....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La sección presenta los resultados de la investigación basándose en cinco dimensiones analíticas: diseño experimental, características de los participantes, precisión de la puntuación, evaluación de la equidad y modelización del aprendizaje y la percepción. Los resultados incluyen el rendimiento estadístico, diferencias entre grupos, disparidades de equidad y mediación y moderación basadas en el SEM.

Montaje experimental

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La investigación exploró un sistema AWE bajo un enfoque de tres niveles, que abarca la precisión técnica, la equidad grupal e individual, y la percepción del aprendiz, e identificó que la validez global y las diferencias sistemáticas entre grupos están presentes simultáneamente. Hubo fuertes correlaciones entre la IA y las valoraciones de expertos (r agregado = 0,82), pero se observaron diferencias por subgrupo (r nativo = 0,89 vs. r no nativo = 0,76; r chino = 0,72; Tabla 6). La distrib.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El autor no tiene conflictos de interés que revelar.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fuerteServidores cifrados y controlados por acceso para almacenar datos anónimos.Servidores institucionalesSTORAGE-002
Sistema de Criterios ETSSistema de evaluación de escritura asistido por IA utilizado para puntuar las tareas de escritura.Servicio de Exámenes Educativos (ETS)ETS-001
/Fuerte>Herramientas para RMSE, Cuotas Igualadas y análisis estadístico.Scripts/paquetes de estadísticas personalizadosTOOL-FA-001
Calificaciones de expertos humanosCalificaciones independientes proporcionadas por tres lingüistas con más de 10 años de experiencia.Evaluadores internosHR-EXP-003
Cuestionario de percepción del alumnoUn cuestionario de 8 ítems sobre equidad y satisfacción, valorado en una escala de Likert de 7 puntos.Desarrollo internoQUES-008
Software Estadístico (R 4.3.1)Se utiliza para análisis de datos, incluyendo SEM (Modelado de Ecuaciones Estructurales).Fundación RR-SW-431
fuerteDatos recogidos de 764 estudiantes multilingües de los niveles CEFR A2 a C1.Participantes del estudioDATA-764
Temas de Escritura de TareasTres temas estandarizados para ensayos sobre globalización, educación online y ética de la IA.Plataforma basada en MoodlePROMPT-003

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
  2. Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
  3. Barkaoui, K.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Explainable AIAutomated Writing EvaluationAI FairnessLearner PerceptionWriting AssessmentThree Level EvaluationStructural Equation ModelingEqualized OddsMultilingual LearnersEducational Technology
Video Coming Soon

Related Articles