$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
La anotación de emociones en lenguajes mixtos de código como el hinglish (hindi-inglés) presenta desafíos únicos debido a la complejidad lingüística y las limitaciones de recursos. Este estudio presenta un marco de aprendizaje activo híbrido que combina reglas léxicas, aprendizaje automático y comentarios iterativos de expertos para lograr una anotación de emociones rentable y de alta precisión. Basado en teorías psicológicas de la emoción, incluida la teoría de las emociones discretas y la teoría de la evaluación cognitiva, el marco emplea diccionarios de emociones bilingües (por ejemplo, mapear gussa y rabia a la ira), tokenización de subpalabras para términos compuestos (por ejemplo, dividir
en
) y aprendizaje activo para priorizar muestras ambiguas. Evaluado en un conjunto de datos de 19,000 tweets Hinglish relacionados con la guerra y el conflicto, el marco logró una precisión del 81% (puntuación F: 0.76) al tiempo que redujo los costos operativos en un 40% en comparación con la anotación manual. Las reglas léxicas resolvieron el 89% de las ambigüedades de cambio de código, y los refinamientos iterativos permitieron ganancias de precisión incrementales del 72% al 81%. La eficiencia del sistema se deriva de limitar el esfuerzo humano al 73% del conjunto de datos, con preprocesamiento automatizado de emojis, hashtags y jerga. Este estudio se basa en la hipótesis de que la integración de métodos léxicos basados en reglas con aprendizaje activo y aprendizaje automático puede mejorar la precisión de la anotación de emociones en el texto en hinglish, al tiempo que reduce el etiquetado manual y el esfuerzo general de anotación.