Marco de IA explicable para la precisión, la equidad y la percepción del alumno en la evaluación de escritura en inglés

Meili Dai

doi:10.3791/69841

Research Article

Marco de IA explicable para la precisión, la equidad y la percepción del alumno en la evaluación de escritura en inglés

DOI:

10.3791/69841

⸱

December 23rd, 2025

Meili Dai¹

¹School of Foreign Languages/School of Translation & Interpreting, Henan University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio desarrolla un marco de evaluación de tres niveles y un modelo de mediación de equidad para evaluar sistemas de escritura en inglés asistidos por IA. Utilizando 764 muestras interlingüísticas, los resultados muestran disparidades de precisión, sesgo de equidad contra los aprendices no nativos (especialmente el nivel de competencia A2 en chino) y la percepción de la equidad como mediador clave de la satisfacción del usuario, ofreciendo implicaciones teóricas y prácticas.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

En el contexto de la transformación digital educativa global, la evaluación automatizada de escritura (AWE) ha sido ampliamente adoptada debido a sus ventajas en tiempo real y estandarizadas; Sin embargo, los marcos tradicionales orientados a la precisión suelen descuidar las preocupaciones sobre la equidad y las percepciones de los alumnos, limitando así la transparencia y el valor educativo. Para abordar esta limitación, esta investigación propone un marco de IA explicable (XAI) diseñado para proporcionar retroalimentación transparente e interpretable, permitiendo a los estudiantes comprender y confiar en la evaluación automatizada, e integra un modelo de validación multinivel, el Marco de Evaluación de Tres Niveles (TLEF), que abarca la precisión técnica, la equidad tanto en grupo como en el individual, y la percepción del alumno, junto con el Modelo de Mediación de Equidad de IA (AFMM). Utilizando muestreo aleatorio estratificado, se recogieron datos de 764 estudiantes multilingües (hablantes nativos de inglés, chino y español) a través de los niveles A2 a C1 del Marco Europeo Común de Referencia para las Lenguas (MCER) mediante tareas de redacción, doble puntuación por parte de expertos en IA y humanos, y cuestionarios estructurados. En lugar de listar pruebas individuales, se empleó análisis estadísticos múltiples para examinar la validez, la equidad y la relación entre el aprendiz y la percepción. Los análisis estadísticos combinaron correlación, error cuadrático medio raíz (RMSE), pruebas de probabilidades igualadas y modelado de ecuaciones estructurales (SEM). Los hallazgos revelan que, aunque el sistema de evaluación de escritura asistida por IA (AWE) (Criterio ETS) alcanza validez global (r = 0,82), persisten disparidades significativas: los hablantes nativos de chino muestran la menor concordancia con los evaluadores humanos (0,72) y la RMSE más alta (mediana 2,15), los sesgos de equidad son más pronunciados en niveles de competencia más bajos (ΔEO = 0,15 para los estudiantes A2), y la equidad percibida media plenamente el vínculo entre la precisión percibida y la satisfacción del alumno, con competencia en la sensibilidad a la equidad. Al replantear la equidad y la percepción como dimensiones esenciales de la explicabilidad, la investigación refuerza la base teórica de la AWE y proporciona un camino práctico para aumentar la transparencia, la equidad y la aceptación social en las tecnologías educativas.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La intensa globalización de la educación y las tecnologías digitales ha incrementado la necesidad de evaluar científicamente y de forma creíble el nivel de escritura en inglés para la enseñanza de idiomas, el desarrollo académico y el avance profesional¹. Las evaluaciones convencionales de escritura, tal como las practican la calificación humana, pueden medir aspectos subjetivos de la escritura como la exhaustividad de la argumentación y la idoneidad^cultural, pero son susceptibles a largos tiempos de entrega, altos costes laborales y sesgos debido a la experiencia y preferencias del^evaluador ^3,4. Estas limitaciones son especialmente agudas en prácticas a gran escala, como los exámenes de idiomas internacionales (IELTS, TOEFL) u otros cursos de inglés impartidos en universidades donde la puntuación manual no puede ser todo lo necesario en términos de retroalimentación instantánea y cobertura⁵.

Los sistemas AWE se han utilizado ampliamente en este contexto debido a su procesamiento en tiempo real, estandarización y^{escalabilidad 6}. Herramientas populares como Grammarly (que se centra en errores gramaticales y refinamiento de estilo) y ETS Criterion (que cumple con normas formales de escritura) son actualmente utilizadas por millones de estudiantes en educación K-12, escuelas de idiomas, educación superior y formación^{individual 7}. Aunque estos son los beneficios, la eficiencia tecnológica y la aplicabilidad educativa de los sistemas AWE siguen siendo objeto de debate⁸. Técnicamente hablando, los sistemas existentes son muy precisos en dimensiones objetivas, incluyendo la detección de errores y la diversidad léxica, donde la correlación con la puntuación humana puede ser superior a 0,85⁹. Sin embargo, en áreas más subjetivas, como la relevancia del contenido, la argumentación lógica y la organización de un texto, las correlaciones suelen ser inferiores a 0,70¹⁰. Tal desproporcionación conlleva el riesgo de promover una precisión superficial entre los alumnos a costa de la competencia general en la escritura¹¹.

La cuestión de la equidad también limita la utilidad educativa de la AWE. Los estudios actuales también tienden a centrarse en los indicadores agregados de precisión, descuidando la posibilidad de desviaciones que perjudiquen sistemáticamente a algunos grupos¹². De forma indicativa, las características del interidioma compartido por los aprendices de chino o español se confundirían con errores, lo que resultaría en una subestimación^sistemática ^13,14. Además, la aceptación subjetiva del feedback de IA por parte de los estudiantes es generalmente poco^conocida. Las encuestas indican que casi un tercio de los estudiantes no nativos reporta una inadecuación entre las puntuaciones de IA y el rendimiento real, mientras que los procesos de precisión técnica, equidad grupal y satisfacción del alumno siguen siendo poco^{comprendidos 16}.

Estas debilidades reflejan las carencias del paradigma clásico de precisión¹⁷. Un marco que solo considere la alineación entre la IA y la puntuación humana no puede captar cuestiones de equidad ni de confianza del alumno en el sistema. En la práctica, el valor educativo de la AWE debe cumplir tres condiciones simultáneamente: precisión técnica, equidad entre grupos y aceptación por parte del^{alumno 18}. La ausencia de un enfoque de validación tan integral ayuda a explicar por qué los sistemas AWE disfrutan de una adopción generalizada pero de una confianza limitada en la práctica educativa^19,20.

Para abordar este desafío, el presente estudio introduce un marco de validación multinivel que integra la precisión técnica, la equidad grupal e individual, y la percepción del aprendiz en una estructura coherente. El marco XAI propuesto está diseñado para implementarse de forma práctica dentro de las plataformas AWE existentes, proporcionando a profesores y estudiantes diagnósticos de equidad y explicaciones transparentes de las puntuaciones, y puede aplicarse en cursos de escritura o clases de preparación para exámenes para evaluar su capacidad de mejorar la equidad, la interpretabilidad y la utilidad instruccional en entornos reales de evaluación.

En este contexto, la hipótesis es un AFMM para investigar el papel mediador de la equidad percibida en la determinación de la relación entre precisión y satisfacción, así como el papel moderador de la competencia lingüística en la sensibilidad a la equidad. Por lo tanto, contribuye de dos maneras: tanto teóricamente enriqueciendo los modelos de evaluación de la AWE al describir la equidad como una de las dimensiones clave de validación junto con la precisión y la percepción, como al proporcionar a los desarrolladores estrategias para maximizar la equidad, a los educadores con criterios de selección de sistemas sensibles al grupo, y el valor educativo de la AWE explicando la forma en que se forman las percepciones de los estudiantes. Además de la educación, el marco también está alineado con el concepto más amplio de XAI, demostrando cómo la equidad y la percepción del usuario pueden mejorar la transparencia, la confianza y la aceptación en otros ámbitos como la sanidad, los sistemas autónomos y la ciberseguridad.

Preguntas de investigación:

1.To qué grado demuestra el sistema AWE precisión técnica y equidad entre diferentes grupos de lengua materna y competencia?

2. ¿Cómo puede un marco de evaluación multinivel basado en XAI mejorar la transparencia y la equidad en la evaluación automatizada de redacción en inglés?

REVISIÓN DE LA LITERATURA:

Se examinaron los factores que afectan la aceptación de la retroalimentación AWE por parte de los estudiantes universitarios utilizando un Modelo de Aceptación Tecnológica (TAM)²¹ ampliado. A partir de datos de encuestas de 448 estudiantes chinos que usaron MEB, se determinó que la utilidad, facilidad de uso e intención tuvieron una influencia significativa en la norma subjetiva, la confianza, la autoeficacia, la retroalimentación cognitiva y las características del sistema. Sin embargo, el estudio se limitó a una sola nación y a un solo grupo de estudiantes, lo que limita la aplicabilidad de la generalización. Para explorar cómo responden los estudiantes chinos de EFL a la retroalimentación del Pigai^{AWE 22}, un estudio analizó las presentaciones repetidas (n = 5) de estudiantes universitarios. Se señaló un énfasis temprano en la corrección de errores, una baja captación de retroalimentación lingüística y un profundo progresivo en la respuesta. Sin embargo, el tamaño de la muestra era muy limitado, al igual que el sistema AWE, que restringe la aplicabilidad y generalizabilidad. Se examinaron las creencias de los profesores de EFL sobre la aplicación de la herramienta de calificación de IA (CoGrader) para identificar los factores que influyen en sus^{puntos de vista 23}. A través de un estudio de métodos mixtos con 10 profesores universitarios saudíes, una encuesta y una entrevista revelaron que había opiniones positivas mixtas, pero reticencia a estar completamente seguros de la fiabilidad y del reemplazo completo de los profesores. Esto dificulta la generalización debido a la muestra limitada y al entorno de un solo país.

Considerando los avances en lingüística de corpus y tecnología de IA, un estudio investigó los marcos^{AES 24}. Empleó PCA para mejorar los indicadores lingüísticos que evaluan la calidad de la escritura y descubrió que combinar microcaracterísticas con características agregadas definía la calidad de la escritura de forma más eficaz que las características agregadas por sí solas. El enfoque AES no lineal basado en la Regresión en Bosque Aleatorio superó a los demás enfoques. Además, SHAP identificó elementos esenciales del lenguaje para cada atributo evaluado, aumentando la transparencia del sistema mediante una IA explicable. Los resultados pueden ayudar a mejorar los métodos multidimensionales en la redacción, la evaluación y la educación. El sistema de colaboración hombre-máquina se introdujo para abordar los retos de anotar escritos árabes, que a menudo son costosos y consumen mucho tiempo. El método considera ensayos basados en siete aspectos de la literatura con la ayuda de un LLM. Los procesos de validación y las tácticas de prompting se personalizaron para garantizar la consistencia y la precisión. La cooperación resulta en un mayor suministro de recursos etiquetados y no afecta a la calidad de la evaluación, demostrando que es un método escalable de anotación de datos adecuado para lenguajes con menos recursos.

El uso de la IA en el ámbito educativo ofrece la oportunidad de reducir significativamente los requisitos de calificación y mejorar la educación en escritura^25,26. Al mismo tiempo, los investigadores han subrayado que la precisión de la IA no es el único aspecto relevante para su uso responsable. Existen principios de equidad y reducción de sesgos, seguridad y privacidad, responsabilidad, explicabilidad, transparencia, efecto educativo, integridad y desarrollo continuo. Investigaciones recientes han evaluado empíricamente la puntuación de disparos cero basada en GPT-4o, con un enfoque en estos requisitos. La investigación se centró en las percepciones que los educadores tenían hacia los ADWT respecto al aspecto de la integridad^{educativa 27}. El estudio transversal que involucró a 100 estudiantes de posgrado y profesores de 10 materias sugiere que, a pesar de que los docentes atribuyen los beneficios de los ADWT para alcanzar el objetivo educativo, presenta algunas limitaciones, como accesibilidad limitada, falta de conocimiento y preocupación por su impacto en la integridad y la creatividad. La investigación sugería que, a medida que las tecnologías de IA se integran más en la educación, las preocupaciones éticas y la participación de los grupos de interés son necesarias para su uso exitoso y responsable. La investigación investigó la eficacia de las tecnologías de IA en comparación con evaluadores humanos en la evaluación de ensayos presentados por estudiantes de^{EFL 28}. Al evaluar 30 ensayos, se reveló que, aunque la IA ofrecía comentarios de alta calidad en cuanto a contenido, lenguaje, organización y corrección, constantemente proporcionaba puntuaciones más bajas que los evaluadores humanos. Además, la IA proporcionaba retroalimentación más completa, pero las puntuaciones de las distintas herramientas de IA no eran sustancialmente diferentes.

Carencia en la investigación:

Actualmente, la mayoría de las investigaciones sobre la investigación en AWE evalúan la precisión o la aceptación por parte de los usuarios. Muy pocos examinan si las diferencias de puntuación perjudican sistemáticamente a los grupos de lengua materna o de competencia. Aunque estudios previos han examinado la aceptación por parte de los usuarios o están limitados a un sistema AWE específico de un país y tamaño de muestra concretos, surgen dudas sobre la generalizabilidad. Aunque tanto SHAP como PCA son estrategias XAI y se desarrollaron para aumentar la transparencia, ningún estudio ha examinado los mecanismos de equidad ni cómo los estudiantes utilizan la retroalimentación de IA de la AWE. No existen marcos extensos en la literatura que contemplen dimensiones definidas de precisión, análisis de equidad y percepciones del alumno. No existe ningún ejemplo de un modelo explicable de evaluación que tenga en cuenta la precisión intra e interevaluadora, la equidad y las percepciones del alumno. En esta investigación se proponen y validan un marco explicable, TLEF, y un modelo combinado, AFMM, para evaluar la precisión, la equidad y las percepciones del aprendiz al mismo tiempo entre estudiantes multilingües y con diversas competencias.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El proceso de aprobación ética y reclutamiento de participantes, que incluye la administración de ensayos, la doble puntuación por parte de ETS Criterion y expertos, la evaluación de la percepción del alumno y el análisis estadístico, se resumen en esta sección. Destaca cómo la precisión, la equidad y el modelado de percepción basado en SEM se integran en una cadena unificada de validación XAI. El marco de evaluación AWE impulsado por XAI se ilustra en la Figura 1.

Procedimiento:

El procedimiento implicó varios pasos. Primero, se obtuvo la aprobación del IRB y se recogió el consentimiento informado de todos los participantes. A continuación, se definieron variables independientes, dependientes y de control. Las tareas de redacción estandarizadas se administraron en Moodle utilizando tres temas neutrales para ensayos, y se recogieron muestras de escritura asegurando el cumplimiento de los requisitos del ensayo, como el recuento de palabras, el límite de tiempo y la estructura. La puntuación dual se realizó utilizando los resultados de los criterios ETS combinados con calificaciones de expertos humanos. Los cuestionarios de percepción del alumno se distribuyeron inmediatamente después de la entrega del ensayo. Se implementaron procedimientos de selección de datos y control de calidad para abordar anomalías, como trampas o respuestas inválidas. También se aplicaron umbrales de análisis de equidad (comprobaciones ΔEO, RMSE). Finalmente, todos los datos anonimizados se almacenaban de forma segura en servidores cifrados y controlados por acceso.

Aprobación ética y consentimiento informado

Este estudio recibió la aprobación ética del Comité de Revisión Institucional de la institución de los autores. Todos los procedimientos se llevaron a cabo conforme a la Declaración de Helsinki y las normativas aplicables. Todos los participantes eran adultos (≥18 años) y proporcionaron consentimiento informado por escrito antes de participar. Las muestras de escritura y las respuestas al cuestionario se identificaban en la fuente y se almacenaban en servidores cifrados y con acceso controlado; Solo los investigadores autorizados tenían acceso. Los evaluadores humanos estaban cegados ante la lengua materna, el nivel de competencia y la demografía de los participantes. La participación era voluntaria, con derecho a retirarse en cualquier momento, y no se implicaban engaños ni intervenciones sensibles. La documentación formal de aprobación puede ser proporcionada a la revista bajo solicitud.

Diseño variable

En el estudio se definieron un total de tres grupos de variables para guiar el análisis. La Tabla 1 resume los tipos de medición y datos utilizados en los métodos de medición para cada constructo y proporciona las definiciones operativas completas de las variables independiente, dependiente y de control.

La precisión de la puntuación por IA fue la primera variable independiente evaluada en términos del coeficiente de correlación RMSE y Pearson (r) entre los resultados del Criterio ETS y las calificaciones de los expertos. La calibración realizada por expertos arrojó un ICC de 0,91, validando la fiabilidad.

La segunda variable independiente era el trasfondo lingüístico de los aprendices, que se dividía en hablantes nativos y no nativos, y se subdividía en chino, español, árabe y otros grupos. Los estudiantes chinos fueron una de las poblaciones objetivo porque se observaron indicios preliminares de subestimación sistemática.

La tercera variable independiente era la competencia en escritura, que se valoraba según los niveles del CEFR A2 a C1, según confirmaban los certificados oficiales y las pruebas de competencia previas a la clase, y también estaba alineada con las equivalencias del IELTS. Otro moderador introducido en el Modelo de Mediación de Equidad con IA fue escribir competencia para comprobar si la sensibilidad a la equidad difiere según los niveles de competencia.

La percepción de la equidad y la satisfacción del alumno fueron las variables dependientes. La percepción de equidad se evaluó mediante un cuestionario de ocho ítems evaluado en una escala de Likert de siete puntos, que incluía la consistencia individual y la imparcialidad del grupo (Cronbachs 87; CVI 92). La satisfacción de los alumnos se evaluó mediante seis preguntas de Likert que indicaban disposición a usar y mejora percibida en la habilidad (α = 0,85).

Las variables se controlaron en términos de edad, sexo y experiencia en escritura. La edad se dividía en tres grupos (18-22 años, 23-28 años y ≥29 años), y el género se categorizaba en masculino y femenino. La experiencia en escritura se clasificó en tres niveles de frecuencia por año.

Escritura de textos de tareas

Se formularon temas estandarizados para ensayos argumentativos para obtener datos de escritura sobre tres temas neutrales: el impacto de la globalización en las culturas locales, ventajas y desafíos de la educación en línea, y límites éticos de la inteligencia artificial. Estos temas tenían como objetivo equilibrar la dificultad cognitiva y la accesibilidad, por un lado, y reducir las diferencias de rendimiento debidas a conocimientos previos, por otro. La distribución de temas y estadísticas descriptivas para la extensión del ensayo se presenta en la Tabla 2.

Cada ensayo debía tener 250 palabras ±10% y escribirse en un plazo de 45 minutos en una plataforma basada en Moodle. Se prohibieron las herramientas auxiliares y se excluyeron las presentaciones tardías. Los ensayos seguían una estructura estandarizada de introducción, dos párrafos argumentativos y conclusión. En total, se recopilaron 764 ensayos válidos, con una longitud media de 252,3 palabras (SD = 8,7).

Datos comparativos de puntuación

La precisión de la puntuación AWE se evaluó mediante un procedimiento dual que combinaba los resultados del Criterio ETS con calificaciones de expertos humanos. Las puntuaciones se recuperaron de Criterion a través de su API abierta. Tres lingüistas con más de diez años de experiencia en evaluaciones calificaron todos los ensayos de forma independiente. Antes de la puntuación formal, los evaluadores completaron tres sesiones de calibración. Durante la calibración, la fiabilidad entre evaluadores alcanzó el ICC = 0,87; durante la puntuación formal, el ICC subió a 0,91, con ICC específicos por dimensión superiores a 0,88. Los ensayos con discrepancias de puntuación superiores a dos puntos se resolvieron colectivamente (18 casos). El flujo de trabajo de puntuación y los resultados de fiabilidad se resumen en la Tabla 3.

Cuestionario de percepción del aprendiz

Las percepciones de los estudiantes sobre la retroalimentación de la IA se recogieron mediante un cuestionario de 22 ítems basado en el TAM y se amplió para incluir la equidad. El instrumento contenía tres dominios: percepción de la equidad (8 ítems), satisfacción (6 ítems) y factores moderadores como la comprensibilidad y la transparencia (8 ítems). La validación por cinco expertos arrojó un CVI de 0,92, y las pruebas piloto con 60 aprendices produjeron una fiabilidad global de α = 0,90. La estructura del cuestionario y los índices psicométricos se proporcionan en la Tabla 4.

Los cuestionarios del estudio principal se administraron justo después de la entrega de los ensayos, y había requisitos mínimos de tiempo para completar la finalización que disminuía la realización irreflexiva. De las 764 encuestas emitidas, 756 fueron válidas tras las comprobaciones de calidad, y se obtuvo una tasa efectiva resultante de 98,95.

Recogida de datos y control de calidad

Los datos se registraron durante 8 semanas (marzo-abril de 2024) en cuatro fases: reclutamiento y consentimiento; redacción de ensayos; doble puntuación y distribución de cuestionarios; y la compilación de la base de datos. Los certificados de competencia basados en el rendimiento de escritura previa a clase se revisaron mediante un doble cribado, y este proceso eliminó a 16 participantes. Cuatro posibles casos de trampa fueron eliminados mediante monitorización en tiempo real, y tres actuaciones sospechosas de IA (desviaciones de al menos 8 puntos) fueron posteriormente modificadas tras una evaluación manual. Se eliminaron ocho cuestionarios inválidos basándose en comprobaciones de consistencia inversas de ítems.

Almacenamiento de datos y ética

Todos los datos se anonimizaban y almacenaban usando identificadores únicos que consistían en el idioma nativo, el nivel de competencia y el número de serie. Los mensajes, puntuaciones y cuestionarios se cifraban y almacenaban en servidores compatibles con ISO27001 con acceso restringido. Los datos se conservarán durante 3 años antes de su eliminación permanente. Se obtuvo la aprobación ética del comité de revisión institucional y se recogió el consentimiento informado por escrito de todos los participantes.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La sección presenta los resultados de la investigación basándose en cinco dimensiones analíticas: diseño experimental, características de los participantes, precisión de la puntuación, evaluación de la equidad y modelización del aprendizaje y la percepción. Los resultados incluyen el rendimiento estadístico, diferencias entre grupos, disparidades de equidad y mediación y moderación basadas en el SEM.

Montaje experimental

Los pasos clave del software...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La investigación exploró un sistema AWE bajo un enfoque de tres niveles, que abarca la precisión técnica, la equidad grupal e individual, y la percepción del aprendiz, e identificó que la validez global y las diferencias sistemáticas entre grupos están presentes simultáneamente. Hubo fuertes correlaciones entre la IA y las valoraciones de expertos (r agregado = 0,82), pero se observaron diferencias por subgrupo (r nativo = 0,89 vs. r no nativo = 0,76; r chino = 0,72; Tabla 6). La distrib...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El autor no tiene conflictos de interés que revelar.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fuerte	Servidores cifrados y controlados por acceso para almacenar datos anónimos.	Servidores institucionales	STORAGE-002
Sistema de Criterios ETS	Sistema de evaluación de escritura asistido por IA utilizado para puntuar las tareas de escritura.	Servicio de Exámenes Educativos (ETS)	ETS-001
/Fuerte>	Herramientas para RMSE, Cuotas Igualadas y análisis estadístico.	Scripts/paquetes de estadísticas personalizados	TOOL-FA-001
Calificaciones de expertos humanos	Calificaciones independientes proporcionadas por tres lingüistas con más de 10 años de experiencia.	Evaluadores internos	HR-EXP-003
Cuestionario de percepción del alumno	Un cuestionario de 8 ítems sobre equidad y satisfacción, valorado en una escala de Likert de 7 puntos.	Desarrollo interno	QUES-008
Software Estadístico (R 4.3.1)	Se utiliza para análisis de datos, incluyendo SEM (Modelado de Ecuaciones Estructurales).	Fundación R	R-SW-431
fuerte	Datos recogidos de 764 estudiantes multilingües de los niveles CEFR A2 a C1.	Participantes del estudio	DATA-764
Temas de Escritura de Tareas	Tres temas estandarizados para ensayos sobre globalización, educación online y ética de la IA.	Plataforma basada en Moodle	PROMPT-003

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voogt, J., Roblin, N. P. 21st century skills. Discussienota. 23 (03), 2000(2000).
Weigle, S. C. Assessing writing. , Cambridge University Press. (2002).
Barkaoui, K. Do ESL essay raters' evaluation criteria change with experience? A mixed-methods, cross-sectional study. TESOL Q. 44 (1), 31-57 (2010).
Bitchener, J., Knoch, U. The contribution of written corrective feedback to language development: A ten-month investigation. Appl Linguist. 31 (2), 193-214 (2009).
Chapelle, C. A., Douglas, D. Assessing language through computer technology. , Cambridge University Press. (2006).
Aldosemani, T. I., et al. Automated writing evaluation in EFL contexts. Int J Comput Assist Lang Learn Teach. 13 (1), 1-19 (2023).
Dikli, S. An overview of automated scoring of essays. J Technol Learn Assess. 5 (1), (2006).
Stevenson, M., Phakiti, A. The effects of computer-generated feedback on the quality of writing. Assess Writ. 19, 51-65 (2014).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Shermis, M. D., Burstein, J. Handbook of automated essay evaluation Routledge. , (2013).
Hyland, K., Hyland, F. Feedback in second language writing: Contexts and issues. , Cambridge University Press. (2019).
Williamson, D. M., Xi, X., Breyer, F. J. A framework for evaluation and use of automated scoring. Educ Meas Issues Pract. 31 (1), 2-13 (2012).
Selinker, L. Interlanguage. Int Rev Appl Linguist. 10, 209-241 (1972).
Odlin, T. Cross-linguistic influence. Handbook of second language acquisition. , 436-486 (2003).
Ranalli, J., Link, S., Chukharev-Hudilainen, E. Automated writing evaluation for formative assessment. Educ Psychol. 37 (1), 8-25 (2017).
Picón, A., Castro, I., Roldán, J. L. The relationship between satisfaction and loyalty: A mediator analysis. J Bus Res. 67 (5), 746-751 (2014).
Weigle, S. English language learners and automated scoring of essays: Critical considerations. Assess Writ. 18, 85-99 (2013).
Messick, S. Educational measurement Macmillan. Linn, R. L. , 13-103 (1989).
Floridi, L., Cowls, J. A unified framework of five principles for AI in society. Machine learning and the city. , 535-545 (2022).
Doshi-Velez, F., Kim, B. Towards a rigorous science of interpretable machine learning. arXiv preprint. , (2017).
Zhai, N., Ma, X. Automated writing evaluation feedback. Comput Assist Lang Learn. 35 (9), 2817-2842 (2022).
Yang, H., Gao, C., Shen, H. Learner interaction with AI-programmed AWE feedback. Educ Inf Technol. 29 (4), 3837-3858 (2024).
Alsalem, M. S. EFL teachers' perceptions of an AI grading tool. Cogent Educ. 11 (1), 2430865(2024).
Tang, X., et al. Incorporating linguistic features and explainable AI in automated writing assessment. Appl Sci. 14 (10), 4182(2024).
Elsayed, Y., et al. ZaQQ: A new Arabic dataset for automatic essay scoring. Data. 10 (9), 148(2025).
Johnson, M., Zhang, M. Responsible use of zero-shot AI for essay scoring. Sci Rep. 14 (1), 30064(2024).
Gustilo, L., Ong, E., Lapinid, M. Algorithmically-driven writing and academic integrity. Int J Educ Integr. 20 (1), 3(2024).
Almegren, A., et al. Evaluating the quality of AI feedback. Innov Educ Teach Int. 62 (6), 1-16 (2024).
Attali, Y., Burstein, J. Automated essay scoring with e-rater v.2. J Technol Learn Assess. 4 (3), (2006).
Hardt, M., Price, E., Srebro, N. Equality of opportunity in supervised learning. arXiv preprint arXiv:1610.02413. , (2016).
Davis, F. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q. 13 (3), 319(1989).
Colquitt, J. A., et al. Justice at the millennium: A meta-analytic review of 25 years of organizational justice research. J Appl Psychol. 86 (3), 425-445 (2001).
Greenberg, J. A taxonomy of organizational justice theories. Acad Manag Rev. 12 (1), 9-22 (1987).
Odlin, T. Language transfer: Cross-linguistic influence in language learning. , Cambridge University Press. (1989).
Vandenberg, R., Lance, C. A review and synthesis of the measurement invariance literature. Organ Res Methods. 3 (1), 4-69 (2000).
Kane, M. T. Validating the interpretations and uses of test scores. J Educ Meas. 50 (1), 1-73 (2013).
Pleiss, G., et al. On fairness and calibration. arXiv preprint arXiv:1709.02012. , (2017).
Mitchell, M., et al. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM. , 220-229 (2019).
Knoch, U. Rating scales for diagnostic assessment of writing. Assess Writ. 16 (2), 81-96 (2011).
Barkaoui, K. Effects of marking method and rater experience. Assess Educ Policy Pract. 18 (3), 279-293 (2011).
Chouldechova, A. Fair prediction with disparate impact. arXiv preprint arXiv. , (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Marco de IA explicable para la precisión, la equidad y la percepción del alumno en la evaluación de escritura en inglés

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles