Research Article

Aprendizaje automático y anotación de emociones rentable basada en reglas léxicas de expresiones hinglish

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio combina la estrategia basada en reglas con el aprendizaje automático y la asistencia de expertos para anotar el texto en hinglish e inglés. Los datos se prueban en 19,000 tweets con un 81% de precisión, y es mucho más barato que hacerlo manualmente. Podría ser útil para rastrear las emociones durante una crisis.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La anotación de emociones en lenguajes mixtos de código como el hinglish (hindi-inglés) presenta desafíos únicos debido a la complejidad lingüística y las limitaciones de recursos. Este estudio presenta un marco de aprendizaje activo híbrido que combina reglas léxicas, aprendizaje automático y comentarios iterativos de expertos para lograr una anotación de emociones rentable y de alta precisión. Basado en teorías psicológicas de la emoción, incluida la teoría de las emociones discretas y la teoría de la evaluación cognitiva, el marco emplea diccionarios de emociones bilingües (por ejemplo, mapear gussa y rabia a la ira), tokenización de subpalabras para términos compuestos (por ejemplo, dividir figure-abstract-1 en figure-abstract-2) y aprendizaje activo para priorizar muestras ambiguas. Evaluado en un conjunto de datos de 19,000 tweets Hinglish relacionados con la guerra y el conflicto, el marco logró una precisión del 81% (puntuación F: 0.76) al tiempo que redujo los costos operativos en un 40% en comparación con la anotación manual. Las reglas léxicas resolvieron el 89% de las ambigüedades de cambio de código, y los refinamientos iterativos permitieron ganancias de precisión incrementales del 72% al 81%. La eficiencia del sistema se deriva de limitar el esfuerzo humano al 73% del conjunto de datos, con preprocesamiento automatizado de emojis, hashtags y jerga. Este estudio se basa en la hipótesis de que la integración de métodos léxicos basados en reglas con aprendizaje activo y aprendizaje automático puede mejorar la precisión de la anotación de emociones en el texto en hinglish, al tiempo que reduce el etiquetado manual y el esfuerzo general de anotación.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cuando dos o más idiomas se mezclan en una sola línea o voz, esto se denomina lenguaje de código mixto. Es común en diálogos casuales como Hinglish. Hay múltiples formas en que se pueden entender las emociones humanas, y modelar computacionalmente una serie de declaraciones emocionales es anotarlas por las personas que pronunciaron esas oraciones. Se puede entender en términos de niveles biológicos, fisiológicos, psicológicos, etc. Según científicos como Roger Penrose, muchos fenómenos en nuestro mundo no son computacionales, y científicos como Wolfram consideran que todo (cada fenómeno) se puede modelar computacionalmente

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta sección también explica cómo se ha construido el marco multimodal para la anotación de 8 emociones. La sección comienza con una discusión de las propiedades del conjunto de datos, seguida de los procedimientos posteriores. Para una mejor comprensión del procedimiento de investigación, consulte la Figura 1.

figure-protocol-1
Figura 1: Marco sistemático de anotación de emociones. La figura explica la emoción efectiva, la anotación de texto hinglish que combin....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El hallazgo de esta investigación sugiere que la integración de las reglas léxicas con el aprendizaje automático y las técnicas de aprendizaje activo ofrece una vía viable para mejorar la eficiencia y la precisión de la anotación de emociones en texto hinglish mezclado con código. A través del refinamiento iterativo y la sugerencia de expertos, el marco propuesto pudo lograr reducciones notables en el esfuerzo manual mientras mantenía un alto rendimiento en las matrices de evolución. Los .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El conjunto de datos para este estudio se seleccionó utilizando una combinación de anotación manual y aprendizaje activo. Inicialmente, 10.040 tweets hinglish relacionados con la guerra y el conflicto se etiquetaron manualmente con ocho emociones predefinidas. Luego, el conjunto de datos se amplió a 19,000 tweets utilizando un enfoque semiautomatizado. El aprendizaje activo permitió la intervención selectiva de expertos, reduciendo el esfuerzo manual en un 40% mientras mantenía una alta precisión de anotación del 81% con.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores declaran no tener ningún conflicto de intereses.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta investigación no recibió financiación externa.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fastTextIA de FacebookN/ARepresentación y clasificación de palabras
Google ColabGoogleN/AEntorno de Jupyter Notebook basado en la nube
Google Colab GPU/TPUGoogleN/AAceleración de hardware basada en la nube
Intel Core i5/i7 o AMD Ryzen 5/7Intel / AMDN/AProcesador para ejecución local (si es necesario)
MatplotlibCódigo abiertoN/ABiblioteca de visualización de datos
NLTKCódigo abiertoN/AKit de herramientas de lenguaje natural para el procesamiento de texto
NumPyCódigo abiertoN/ABiblioteca de computación numérica
NVIDIA GTX 1650 o superior (opcional)NVIDIAN/AGPU para tareas de aprendizaje profundo
PandasCódigo abiertoN/ABiblioteca de manipulación de datos
Python Fundación de software PythonN/ALenguaje de programación para ML y NLP
PyTorchMeta IAN/AMarco de aprendizaje profundo
RAM (8 GB como mínimo, se recomiendan 16 GB)VariosN/ARequisito de memoria para tareas de ML
Scikit-learnCódigo abiertoN/ABiblioteca de aprendizaje automático
Nacido en el marCódigo abiertoN/AVisualización de datos estadísticos
SpacyIA de explosiónN/ABiblioteca de NLP de potencia industrial
Almacenamiento SSD (mínimo 256 GB, se recomiendan 512 GB)VariosN/AAlmacenamiento para el procesamiento de conjuntos de datos
TensorFlowGoogleN/AMarco de aprendizaje profundo

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles