Aprendizaje automático y anotación de emociones rentable basada en reglas léxicas de expresiones hinglish

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Aprendizaje automático y anotación de emociones rentable basada en reglas léxicas de expresiones hinglish

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio combina la estrategia basada en reglas con el aprendizaje automático y la asistencia de expertos para anotar el texto en hinglish e inglés. Los datos se prueban en 19,000 tweets con un 81% de precisión, y es mucho más barato que hacerlo manualmente. Podría ser útil para rastrear las emociones durante una crisis.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La anotación de emociones en lenguajes mixtos de código como el hinglish (hindi-inglés) presenta desafíos únicos debido a la complejidad lingüística y las limitaciones de recursos. Este estudio presenta un marco de aprendizaje activo híbrido que combina reglas léxicas, aprendizaje automático y comentarios iterativos de expertos para lograr una anotación de emociones rentable y de alta precisión. Basado en teorías psicológicas de la emoción, incluida la teoría de las emociones discretas y la teoría de la evaluación cognitiva, el marco emplea diccionarios de emociones bilingües (por ejemplo, mapear gussa y rabia a la ira), tokenización de subpalabras para términos compuestos (por ejemplo, dividir figure-abstract-1 en figure-abstract-2 ) y aprendizaje activo para priorizar muestras ambiguas. Evaluado en un conjunto de datos de 19,000 tweets Hinglish relacionados con la guerra y el conflicto, el marco logró una precisión del 81% (puntuación F: 0.76) al tiempo que redujo los costos operativos en un 40% en comparación con la anotación manual. Las reglas léxicas resolvieron el 89% de las ambigüedades de cambio de código, y los refinamientos iterativos permitieron ganancias de precisión incrementales del 72% al 81%. La eficiencia del sistema se deriva de limitar el esfuerzo humano al 73% del conjunto de datos, con preprocesamiento automatizado de emojis, hashtags y jerga. Este estudio se basa en la hipótesis de que la integración de métodos léxicos basados en reglas con aprendizaje activo y aprendizaje automático puede mejorar la precisión de la anotación de emociones en el texto en hinglish, al tiempo que reduce el etiquetado manual y el esfuerzo general de anotación.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cuando dos o más idiomas se mezclan en una sola línea o voz, esto se denomina lenguaje de código mixto. Es común en diálogos casuales como Hinglish. Hay múltiples formas en que se pueden entender las emociones humanas, y modelar computacionalmente una serie de declaraciones emocionales es anotarlas por las personas que pronunciaron esas oraciones. Se puede entender en términos de niveles biológicos, fisiológicos, psicológicos, etc. Según científicos como Roger Penrose, muchos fenómenos en nuestro mundo no son computacionales, y científicos como Wolfram consideran que todo (cada fenómeno) se puede modelar computacionalmente¹. Penrose cree que la conciencia involucra procesos (quizás relacionados con la mecánica cuántica dentro del cerebro) que van más allá de lo que puede lograr cualquier procedimiento algorítmico paso a paso. A menudo cita los teoremas de incompletitud de Gödel para apoyar la idea de que la visión matemática humana, por ejemplo, trasciende los sistemas formales². Si la conciencia no es computacional, entonces las emociones, como un aspecto clave de la experiencia consciente, también pueden tener elementos no computacionales. Stephen Wolfram, conocido por Mathematica y su trabajo sobre autómatas celulares, propone el "Principio de equivalencia computacional". Esto sugiere que incluso los sistemas muy complejos, incluido potencialmente el universo mismo y los fenómenos dentro de él (como las emociones), pueden describirse y modelarse en última instancia mediante reglas computacionales, incluso si esas reglas son muy simples, generando un comportamiento complejo. Pero en la práctica, esto no es posible, y necesitamos a alguien que se refiera a él como un experto o simplemente un anotador que pueda hacer análisis de emociones³.

En esta investigación, propagamos la idea de construir modelos computacionales. Pero ese modelo será cuasi-computacional. Nuestra investigación en este contexto tiene como objetivo ser computacional en forma, pero es posible que no capture todos los aspectos a la perfección, tal vez dejando espacio para complejidades que son difíciles o imposibles de calcular por completo. Las emociones son difíciles de modelar computacionalmente porque dependen de experiencias subjetivas, contexto cultural y expresiones matizadas que no se pueden capturar completamente a través de algoritmos fijos.

Por lo tanto, para modelar las emociones humanas utilizando enfoques computacionales basados en variables, es necesario anotar las expresiones emocionales humanas. Esta anotación debe ser realizada por un experto o un anotador experto en análisis de emociones¹. Comprender las complejidades de las emociones humanas no es una tarea fácil, especialmente cuando se trata de idiomas mixtos. Además, los problemas relacionados con la escala significan que confiar únicamente en la anotación manual por parte de humanos no es una opción viable. Investigaciones recientes indican una necesidad constante de un enfoque humano en el bucle cuando se construyen sistemas para tareas tan complejas. En consecuencia, un enfoque semiautomático, que implica automatizar las partes más sencillas mientras se reservan tareas que requieren matices humanos para los anotadores, parece más apropiado para desarrollar sistemas de lenguaje natural en este dominio.

Un anotador humano, por supuesto, hará el trabajo manualmente, y en la era de la computación, esto no es lo que se espera de los científicos contemporáneos. Si el anotador (manual, semiautomático o completamente automático) es capaz de adivinar inteligentemente el tipo de emoción encarnada en los enunciados, enunciados que consisten en múltiples tipos de emociones expresadas como símbolos, con coloquialismo o código mixto y utilizando múltiples modalidades, entonces la tarea es difícil y fácil al mismo tiempo. La complejidad de la anotación de emociones en las expresiones en hinglish depende de la naturaleza de la expresión. Cuando las emociones se transmiten claramente usando palabras familiares o emojis, la anotación es relativamente sencilla. Sin embargo, la tarea se vuelve desafiante cuando las expresiones involucran múltiples emociones, mezcla de códigos o expresiones simbólicas ambiguas. Por lo tanto, la anotación puede ser fácil y difícil, dependiendo de qué tan directamente se exprese la emoción.

Los enfoques contemporáneos en la identificación de emociones y sentimientos abordan estos desafíos, incluida la naturaleza subjetiva de las emociones, la ambigüedad en las expresiones humanas, la complejidad de los lenguajes de código mixto como el hinglish y la naturaleza lenta e inconsistente de la anotación manual. asociado con la construcción de modelos computacionales y la gestión de tediosas tareas de anotación. Investigaciones recientes indican que los investigadores están empleando una amplia gama de métodos para lograr este objetivo, incluido el aprendizaje automático, el aprendizaje profundo y varios enfoques híbridos. Investigaciones recientes muestran que para superar estos problemas, los investigadores están empleando una variedad de técnicas, como el aprendizaje automático, el aprendizaje profundo y los modelos híbridos.

Investigaciones recientes muestran que los investigadores están empleando todo tipo de enfoques, incluido el aprendizaje automático, el aprendizaje profundo³ y los enfoques híbridos. El término análisis de sentimientos se refiere a un procedimiento utilizado cuando se cree que la polaridad de las emociones es un marcador para comprender la emoción cruda de los seres humanos ^3,4. El desarrollo de dicha tecnología ha ayudado a reconocer el estado de ánimo, los sentimientos, el habla, las emociones faciales y las señales no verbales, y ya ha incursionado en aplicaciones que permiten la traducción en tiempo real². Se podría utilizar un enfoque multimodal para traducir el hinglish al inglés y puede ser útil en el futuro para hacer que el cine indio sea más accesible para las sociedades remotas ^5,6. Por ejemplo, en la India, el inglés suele ser el segundo idioma. La investigación en este contexto muestra que esto ha mejorado la calidad de la enseñanza del inglés al analizar el habla india (lenguaje de código mixto) para determinar la expresividad, o el grado de sentimiento y emoción, de cada palabra.

Dentro de este contexto de investigación, se ha demostrado que el uso del lenguaje de código mixto junto con la traducción mejora la calidad de la enseñanza del inglés. Esto se logra mediante el análisis del habla india (lenguaje de código mixto) para determinar la expresividad o valencia emocional de cada palabra. A través de la aplicación del aprendizaje profundo para entrenar a las computadoras en la interpretación del habla, esta investigación ya ha mejorado la precisión del análisis computarizado del habla y ha facilitado una mayor comprensión de la comunicación ^4,5. Según los resultados del censo de 2001, el hinglish, un idioma que es una mezcla de hindi e inglés, es utilizado actualmente por aproximadamente 120 millones de personas en la India⁶.

Del panorama contemporáneo de los algoritmos de aprendizaje, está claro que el aprendizaje activo ha surgido como una herramienta poderosa para reducir significativamente el esfuerzo humano en la anotación de grandes conjuntos de datos, particularmente en el dominio de la identificación y el reconocimiento de emociones. Este enfoque iterativo, que anota selectivamente las anotaciones impactantes (con métricas adecuadas), no solo mejora la precisión de la anotación, sino que también mejora la eficiencia⁵. Estudios anteriores han demostrado su eficacia para lograr reducciones sustanciales en la carga de trabajo de anotación manual mientras se mantiene o incluso se mejora el rendimiento con conjuntos de datos de entrenamiento más pequeños y se propone un método basado en el análisis de conglomerados para la selección de instancias informativas ^7,8. En el contexto específico del reconocimiento de emociones Hinglish, los investigadores han realizado valiosas contribuciones a través de modelos de aprendizaje profundo y un conjunto de datos anotados de múltiples etiquetas ^9,10,11. Estudios anteriores^12,13 han introducido métodos de aprendizaje activo y semisupervisados para minimizar la dependencia de los datos etiquetados por humanos, mejorando aún más la eficiencia y reduciendo los costos de anotación. Además, se ha demostrado en muchos proyectos que el aprendizaje activo aumenta el rendimiento de la clasificación, particularmente en la clasificación de emociones multietiqueta¹⁴.

La eficacia del aprendizaje activo para mejorar el rendimiento del clasificador ha sido reconocida en varias aplicaciones de aprendizaje automático. Los estudios^15,16destacaron su papel crucial en la mejora del rendimiento al centrarse en las aplicaciones educativas. De manera similar, un estudio inicial introdujo un algoritmo novedoso para el aprendizaje activo con máquinas de vectores de soporte, lo que redujo significativamente la necesidad de instancias etiquetadas¹⁷. Otro trabajo también exploró su aplicación en tareas que involucran instancias estructuradas, como la clasificación de textos¹⁸. El impacto del aprendizaje activo en las tareas de reconocimiento de emociones se extiende más allá de las ganancias de eficiencia, particularmente al minimizar la dependencia de los datos etiquetados por humanos. Un estudio introdujo un marco multitarea para la clasificación y regresión de emociones, superando el rendimiento de los métodos de una sola tarea¹⁰.

Además, los investigadores¹⁹lograron avances significativos en el reconocimiento de emociones de voz y texto utilizando el aprendizaje activo, al tiempo que demostraron²⁰ su efectividad en la clasificación personalizada de emociones musicales. Sin embargo, el proceso de categorización y etiquetado de las emociones presenta un desafío significativo, como se destaca^21,22, particularmente en contextos de análisis de sentimientos. Señala que el uso de etiquetas puede influir significativamente en la categorización de las emociones, particularmente para las categorías aprendidas más tarde²³. Para hacer frente a estos desafíos, se han desarrollado varios algoritmos, incluidos métodos basados en palabras clave y en el aprendizaje, logrando tasas de precisión notables²⁴. La investigación sobre las emociones basada en expresiones escritas y textos se ha explorado en numerosos modelos, y los enfoques han implementado un modelo dimensional utilizando bases de datos normativas para la detección efectiva de emociones²⁵. En otro estudio²⁶, un modelo cognitivo de emociones mejoró un método secuencial utilizado para la identificación de la causa de las emociones sociales. El autor proporcionó una interpretación lingüística computacional del modelo de emoción OCC, mientras que un estudio similar²⁷propuso un sistema que utiliza ontologías para representar las relaciones de dependencia de palabras y las emociones. Los autores de un estudio²⁸discutieron las señales que se correlacionan con el procesamiento emocional de palabras, destacando la adaptación del cerebro para expresar emociones en el lenguaje escrito. La anotación de múltiples matrices de emociones en bruto, incluida la de los datos de múltiples modelos, es un desafío. Sin embargo, investigar las emociones relacionadas con la guerra y el conflicto proporciona una ventana científica y sistemática a la psique humana en circunstancias extremas, lo que nos permite comprender mejor cómo los individuos y las comunidades enfrentan el trauma, la pérdida y la incertidumbre⁵. Otro estudio encontró que la técnica de anotación mejoró efectivamente la clasificación de géneros, y la característica del título jugó un papel crucial en el proceso²⁹. Un estudio creó un conjunto de datos de visión táctil de 44K con expertos y GPT-4V para entrenar un codificador táctil y un modelo TVL para la generación de texto³⁰. Otro estudio exploró la minería de opiniones y tendencias sobre tuits políticos, centrándose en el proceso de aprendizaje activo para anotar automáticamente tuits en francés sobre políticos⁴¹. Otro estudio presentó CloudFlows, una plataforma de flujo de trabajo científico basada en la nube diseñada para el análisis central adaptativo dinámico en flujos de datos. Permite el aprendizaje activo para mejorar la clasificación de sentimientos, lo que permite que el algoritmo se adapte a los cambios en los datos en tiempo real⁴².

Existe una clara tensión entre la complejidad de la emoción humana y el deseo de un análisis automatizado de las emociones. Existe una tensión inherente entre la complejidad de la emoción humana y el objetivo del análisis automatizado de las emociones. La mayor parte del trabajo contemporáneo reconoce las limitaciones de la anotación manual y enfatiza la necesidad de métodos computacionales sofisticados para abordar los desafíos de comprender las emociones en diversas formas de comunicación. Este escenario ideal es en gran medida poco práctico, es decir, obtener anotaciones de las personas que escribieron o pronunciaron las oraciones⁴³. El escenario ideal para obtener datos, específicamente obtener anotaciones directamente de las personas que escribieron o pronunciaron las oraciones, es en gran medida poco práctico. Esta impracticabilidad se deriva de la imposibilidad de recopilar y procesar tales anotaciones personalizadas a gran escala. Por lo tanto, los esfuerzos actuales deben basarse en anotadores expertos o algoritmos automatizados de detección de emociones para analizar y etiquetar las emociones expresadas en el texto. En este trabajo de investigación, hemos intentado superar algunos aspectos de estos desafíos de dominio. A continuación se presentan las principales contribuciones en este ámbito problemático⁴⁴.

Por lo tanto, debemos confiar en expertos o anotadores y algoritmos de detección de emociones para analizar y etiquetar las emociones expresadas en el texto. Es imposible recopilar y procesar anotaciones tan personalizadas a gran escala. Por lo tanto, en este trabajo de investigación, hemos intentado superar algunos aspectos de este conocimiento de dominio. Las siguientes son las contribuciones clave en esta área problemática.

El marco funciona junto con métodos basados en reglas como el etiquetado de emociones, la detección de mezcla de códigos y la interpretación de emojis con técnicas de aprendizaje automático como Random Forest e incrustaciones de palabras, lo que mejora la precisión de las anotaciones y reduce el esfuerzo manual. El aprendizaje iterativo del clasificador emplea el aprendizaje activo y el aprendizaje por transferencia para priorizar muestras de características ambiguas, lo que reduce la necesidad de trabajo duro. Este enfoque redujo los costos operativos en un 40% en comparación con el etiquetado manual duro.

Para manejar los matices de Hinglish a un nivel granular, se desarrolló un método de tokenización personalizado sensible al contexto. Este enfoque procesa texto mixto de código teniendo en cuenta el cambio de idioma, la puntuación, los emojis y la segmentación de subpalabras, lo que permite una anotación de emociones más precisa en texto mixto hindi-inglés. A nivel granular, desarrollamos una tokenización sensible al contexto personalizada para el texto en hinglish. El marco aborda las complejidades del texto mezclado con código mediante la incorporación de diccionarios de emociones bilingües, tokenización de subpalabras y tokenización personalizada sensible al contexto. Las reglas léxicas resolvieron el 89% de las ambigüedades de cambio de código.

Nuestro trabajo se basa en teorías psicológicas establecidas de la emoción, como la Teoría de las Emociones Discretas y la Teoría de la Evaluación Cognitiva. La investigación demuestra la escalabilidad del enfoque para la respuesta a crisis y el monitoreo de redes sociales, proporcionando un modelo para aplicaciones de NLP multilingües de bajos recursos.

La Tabla 1 explica los estudios disponibles para el mismo dominio del problema. A partir de la encuesta bibliográfica y el resumen tabulado, se puede inferir que la mayoría de los estudios no pueden evitar hacer algún trabajo inicial sobre anotación utilizando métodos manuales. Pocos investigadores están siguiendo enfoques semiautomáticos⁴¹. Sin embargo, la verdadera diferencia en el rendimiento proviene del uso de un modelo de aprendizaje efectivo que puede automatizar el proceso de anotación. El contenido emocional de los tweets debe coincidir con las teorías que explican las vías de las emociones humanas y la organización de los sentimientos. La siguiente sección define el problema en función de las limitaciones de los enfoques existentes y los resultados empíricos de los artículos.

Estudiar	Conjunto de datos	Emoción	Métodos	Dominio	Proceso de etiquetado	Boquetes	Alcance futuro
[31]	9.000.000 de tuits	tensión, depresión, ira, vigor, fatiga,	Perfil de confusión de los estados de ánimo	Inglés	Sin etiquetado	El estudio pasa por alto diferencias emocionales sutiles como la sorpresa, la alegría o el miedo, lo que sugiere que el etiquetado de emociones puede mejorar la interpretabilidad y la granularidad de las tendencias de sentimientos, particularmente en relación con los eventos socioeconómicos.	Podría investigar cómo capturar y examinar mejor una variedad de expresiones emocionales en los datos de las redes sociales mediante el uso de métodos de categorización automatizados y taxonomías de emociones bien establecidas.
[32]	7000 Tweets	ira, asco, miedo, alegría, amor, tristeza,	Máquina de vectores de soporte	Inglés	Manual	La generalización del conjunto de datos es limitada debido a su especificidad temática y a la falta de representatividad del uso general de Twitter. Debido a la interpretación subjetiva y al contexto mínimo, que se muestra en un modesto acuerdo entre anotadores, es un desafío anotar emociones en tweets breves e informales.	El trabajo futuro se centrará en el desarrollo de modelos mejorados de detección de emociones mediante la incorporación de distinciones entre estilos lingüísticos específicos de temas y específicos de emociones, lo que permitirá una clasificación más precisa en diversos contextos de tweets.
[33]	21.000 Tweet	ira, asco, miedo, alegría, tristeza, sorpresa	Máquina de vectores de soporte	------	Uso de hashtags	Los corpus existentes etiquetados con emociones son limitados en tamaño y dominio, y carecen de conjuntos de datos grandes y diversos para microblogs. Los tweets son cortos, ruidosos y limitados por el contexto, lo que dificulta la detección y anotación precisa de emociones.	En el trabajo futuro, el estudio puede incluir la expansión del léxico de emociones con sinónimos y hashtags adicionales para mejorar la cobertura y la precisión de la detección.
[34]	16485 Tweets	ira, asco, miedo, alegría, tristeza, sorpresa	Regresión de vectores de soporte	Chino	Manual	Los métodos tradicionales de clasificación de emociones a menudo pasan por alto la causa subyacente de las emociones, lo que limita la calidad de las características. Extraer con precisión las causas emocionales de las publicaciones breves e informales de microblog requiere sistemas sólidos basados en reglas y conocimiento del dominio.	Una mayor exploración del análisis de la causa de las emociones puede mejorar los modelos de detección de emociones y abrir nuevas direcciones en la comprensión textual de las emociones.
[35]	10,040 Tweet	Miedo, esperanza, alegría, ira, sorpresa, tristeza, disgusto	LDA, acuerdo entre evaluadores	Hinglish	Manual	Hay una falta de conjuntos de datos estructurados disponibles públicamente para Hinglish, especialmente aquellos que capturan matices pragmáticos y emocionales en el contenido relacionado con la crisis. El hinglish es un lenguaje no estándar, con código mixto, y las variaciones regionales complican el análisis y la anotación precisos de sentimientos.	Para expandir conjuntos de datos multimodales, integre el análisis pragmático profundo con modelos de aprendizaje automático y aborde la escalabilidad para el seguimiento de emociones en tiempo real en el discurso de conflicto.
[36]	134.000 tuits	activo, inactivo feliz, infeliz	Máquina de vectores de soporte y K-vecinos más cercanos	Hinglish	Uso de hashtags	El etiquetado manual de emociones de los tweets requiere mucha mano de obra y es inconsistente, lo que limita los esfuerzos de clasificación de emociones a gran escala Las anotaciones de crowdsourcing carecen de confiabilidad, especialmente en la identificación de los niveles de excitación de las emociones, destacando la subjetividad en la interpretación de las emociones.	Concéntrese en refinar el etiquetado basado en hashtags y expandir los modelos de detección de emociones para mejorar la precisión y la generalización en diversos contextos emocionales.
[37]	3.000 estudiantes, psicólogos y no psicólogos de 37 países	alegría, miedo, ira, tristeza, disgusto, vergüenza y culpa.	--	-----	Manual	Exploración limitada de cómo los factores culturales influyen en la regulación y expresión de emociones específicas en diversas sociedades. Equilibrar la evidencia de patrones emocionales universales con variaciones culturalmente específicas en la elicitación e interpretación de emociones sigue siendo complejo.	Otros estudios deben investigar la interacción entre la universalidad biológica y el contexto cultural en la configuración de la experiencia emocional y la comunicación
[38]	12000	Felicidad, tristeza y enojo	Acuerdo entre evaluadores	Hindi+Inglés	Manual	La investigación actual carece de un conjunto de datos completo y anotado y modelos estandarizados para la detección de emociones Hinglish. La gramática irregular y la naturaleza mixta de los textos de las redes sociales dificultan la clasificación precisa de las emociones.	El trabajo futuro se centrará en expandir las categorías de emociones y desarrollar conjuntos de datos de código mixto multilingües más grandes.
[39]	2866	felicidad, tristeza, ira, sorpresa y tristeza	Máquina de vectores de soporte	Hinglish (hindi + inglés)	Manual	Falta de conjuntos de datos mixtos de código anotados por emociones. La expresión de emociones en el texto mezclado con código varía según los idiomas y los alfabetos, lo que hace que la anotación y la clasificación sean complejas.	El trabajo futuro podría expandir el corpus para incluir más diversidad emocional, integrar el etiquetado de partes del discurso y explorar contenido mixto de código en varios idiomas.
[40]	13738	---	Traducción automática Traductor de Google	Hinglish	Manual	Los sistemas de traducción automática existentes carecen de precisión en los datos de redes sociales con código mixto debido a la ausencia de grandes corpus paralelos específicos del dominio. La alta variación ortográfica, la estructura informal y la ambigüedad en la identificación del idioma complican la traducción del texto romanizado hindi-inglés.	El corpus puede admitir el desarrollo de sistemas de traducción de código mixto y extenderse a otros lenguajes de bajos recursos y tareas de NLP como el reconocimiento de entidades con nombre
[41]	11527	Positivo,Muy positivo y negativo,Muy negativo	Clasificación basada en kNN, representación BOW	Políticos franceses	Manual	Disponibilidad limitada de conjuntos de datos anotados de alta calidad para la minería de opiniones políticas en idiomas distintos del inglés. Equilibrar la reducción del ruido de las anotaciones con la retención de información y el manejo de la distribución desigual de etiquetas en conjuntos de datos de tweets a gran escala son dificultades clave.	El trabajo futuro puede refinar los métodos de aprendizaje activo para preservar mejor el contenido crítico y minimizar el ruido de anotación en el discurso político multilingüe.
[42]	764,416	---	Agrupación en clústeres de Kmeans, SVM	Inglés	Semi supervisado	El etiquetado en tiempo real y la actualización de modelos en el análisis de opiniones están limitados por la variabilidad del flujo de datos, el costo del etiquetado y la escalabilidad del sistema.	El trabajo futuro explorará la clasificación de sentimientos de varias clases, integrará estrategias de etiquetado adicionales y ampliará el control sobre la generación inicial del modelo

Tabla 1: Estudios disponibles con los métodos de etiquetado correspondientes. La tabla proporciona una descripción comparativa completa de los estudios existentes, abordando la anotación de emociones y estableciendo el panorama metodológico y conceptualizando la contribución del presente trabajo dentro de la literatura existente.

Planteamiento del problema
Las emociones estudiadas con mayor frecuencia en anotación están fuertemente influenciadas por modelos psicológicos fundamentales como los de Ekman y Plutchik, centrándose principalmente en categorías centrales como la ira, el miedo, la felicidad, la tristeza, la sorpresa, etc.⁴⁴. Por lo tanto, en este trabajo de investigación, pretendemos trabajar sobre connotaciones bien establecidas de las emociones. El desafío es desarrollar un marco computacional dinámico, F, capaz de anotar con precisión instancias de texto hinglish (ti ) de un corpus T centrado en guerras y conflictos con etiquetas de emoción (ei) de un conjunto predefinido E = {e₁, e₂, ..., e₈}. Este marco debe sintetizar los principios de la Teoría Construccionista de la Emoción, la Teoría de los Eventos Afectivos (AET), la Teoría de las Emociones Discretas y la Teoría de la Evaluación Cognitiva para modelar el paisaje emocional multifacético del discurso relacionado con el conflicto. Cada instancia de texto ti en T es lingüísticamente compleja, mezclando hindi (en escritura romana), inglés, emojis y símbolos, lo que requiere un enfoque de múltiples capas para capturar expresiones emocionales matizadas.

El modelo computacional de emociones relacionadas con la guerra (como estudio de caso) puede implicar un enfoque multifacético, comenzando con reglas léxicas que abordan los matices basados en Hinglish. La tokenización, denotada como T, abarca las escrituras romanas (hindi escrito en escritura romana), junto con emojis y puntuación, que forman la base del procesamiento del lenguaje. Los diccionarios de emociones, representados como D, asignan palabras en todos los idiomas a emociones específicas, como ira, alegría y otras, donde cada emotion_i ha asociado words_j en language_k. La descomposición de subpalabras, S, descompone los términos compuestos en sus subpalabras constituyentes, lo que permite una comprensión más profunda de expresiones complejas. Posteriormente, las técnicas de aprendizaje automático, M, utilizan incrustaciones, E, como Word2Vec/fastText, para transformar tokens en representaciones vectoriales, vector_v, facilitando el análisis numérico. Los clasificadores de conjuntos, C, como Random Forest, predicen las etiquetas de las emociones, emotion_label_p, a partir de estos conjuntos vectoriales. Para mejorar iterativamente el modelo de aprendizaje de anotaciones, se emplea un mecanismo de aprendizaje activo, AL. La retroalimentación de los expertos, F, refina los casos ambiguos, ambiguous_sample_q, asignando refined_label_r, proporcionando correcciones cruciales. La priorización de muestras, P, se centra en muestras de baja confianza, low_confidence_sample_s, asignándoles annotation_priority_t, optimizando así el proceso de anotación.

Al integrar estos componentes y teorías, este marco tiene como objetivo procesar dinámicamente el texto hinglish, unir los matices lingüísticos y culturales y refinar de manera adaptativa las anotaciones de emociones, ofreciendo una solución escalable para analizar las dimensiones afectivas en el discurso del conflicto.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta sección también explica cómo se ha construido el marco multimodal para la anotación de 8 emociones. La sección comienza con una discusión de las propiedades del conjunto de datos, seguida de los procedimientos posteriores. Para una mejor comprensión del procedimiento de investigación, consulte la Figura 1.

figure-protocol-1
Figura 1: Marco sistemático de anotación de emociones. La figura explica la emoción efectiva, la anotación de texto hinglish que combina el aprendizaje automático, el aprendizaje activo y las reglas de léxico dinámico a través de la entrada de expertos, los ejemplos mal clasificados se mejoran progresivamente para aumentar la precisión y reducir el costo de la anotación. Haga clic aquí para ver una versión más grande de esta figura.

Preparación del conjunto de datos
La recopilación de datos comienza identificando una lista completa de palabras clave y hashtags relacionados con la guerra, el conflicto y las emociones asociadas. Se utilizaron recursos como literatura académica, artículos de noticias y tendencias de redes sociales para compilar listas relevantes y existentes.

Según la Figura 1, después de que se realiza la recopilación de tweets y el preprocesamiento de los datos, los expertos humanos participan en el etiquetado manual y en la elaboración de reglas léxicas que deben incorporarse para mejorar el proceso de anotación. Usando estas palabras clave (conflicto, guerra, crisis, gussa, etc.) se recopiló un conjunto de datos inicial de 10,040 tweets y sirvió como base para el etiquetado manual donde cada tweet se anotó con ocho emociones predefinidas (ira, miedo, felicidad, tristeza, frustración, compasión, mixto, otras relevantes para el dominio de la guerra y el conflicto). El proceso de etiquetado manual fue realizado por un equipo de expertos competentes tanto en hindi como en inglés, lo que garantiza que los matices del inglés se capturen con precisión.

A continuación se describe un ejemplo de procesamiento.

Tokenización y preprocesamiento:
Tweet de entrada: "Mujhe Bhayanak lag raha hai figure-protocol-2 "
Salida tokenizada: ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-3 "]
Manejo de la escritura romana: Las palabras en hindi ("Mujhe", "Bhayanak") se conservan en la escritura romana.
Detección de emoji/símbolo: "" está aislado como un token simbólico.

Mapeo del diccionario de emociones (D):
Asigne fichas a las emociones en E usando léxicos de emociones bilingües (hindi / inglés): "Bhayanak" (hindi para "horrible") → Miedo; "lag raha hai" (frase contextual que implica emoción continua) → miedo; " figure-protocol-4 " → Ira

Descomposición de subpalabras (S):
Descomponga términos complejos para un análisis más profundo: "Bhayanak" → ["Bhay" (miedo), "anak" (sufijo)] para aclarar su raíz semántica en el miedo.

Generación de incrustación (E):
Genere incrustaciones de tokens mediante Word2Vec/fastText: incrustaciones para ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-5 "] → vectores v₁, v₂, v₃, v₄, v₅, v₆.
Regla de agregación: Promedio de incrustaciones de tokens para crear un vector semántico global:
V_avg = (v₁ + v₂ + v₃ + v₄ + v₅ + v₆) / 6

Extracción de características basada en reglas:
Extraiga características auxiliares para la concatenación. Recuentos de etiquetas de emoción: Miedo: 2 instancias ("Bhayanak", "lag raha hai"); Ira: 1 instancia (" figure-protocol-6 ").
Indicador de cambio de código: Indicador binario = 1 (tokens mixtos en hindi e inglés: "Mujhe" [hindi], "lag", "raha", "hai" [derivado del hindi]).

Fusión de características:
Combine incrustaciones agregadas y características basadas en reglas en un vector de entrada unificado: Vector semántico global = V_avg (incrustaciones promediadas), Recuentos de emociones = [Miedo: 2, Ira: 1, Otros: 0], Indicador de cambio de código = 1
Vector de entrada final de la regla de concatenación = V_avg figure-protocol-7 [Miedo: 2, Ira: 1, Otros: 0] figure-protocol-8 [1]
El algoritmo de aprendizaje automático procesa este vector final y comienza el proceso iterativo de mejora de la anotación. En la siguiente sección, discutimos el rendimiento del método de aprendizaje activo adoptado para este propósito.

Después de esto, el conjunto de datos se amplió a 19,000 tweets. Este conjunto de datos se seleccionó utilizando una combinación de técnicas automatizadas y semiautomatizadas, aprovechando la información obtenida de la anotación manual inicial. El conjunto de datos ampliado se refinó aún más a partir de un proceso de aprendizaje iterativo, que implicó identificar y priorizar selectivamente datos/tweets ambiguos para la anotación de expertos y comentarios de expertos en el dominio para mejorar la precisión, consistencia y eficiencia de la anotación. A lo largo del proceso de recopilación de datos, se prestó especial atención a mantener el equilibrio entre las diferentes emociones, asegurando que el conjunto de datos fuera representativo de los diversos sentimientos expresados sobre la guerra y el conflicto. El conjunto de datos resultante es un recurso valioso para analizar el texto en hinglish. Para una mejor comprensión, se puede consultar la Figura 2 .

figure-protocol-9
Figura 2: Procedimiento de recopilación de conjuntos de datos. La figura muestra el desarrollo del conjunto de datos desde la identificación de palabras iniciales hasta el etiquetado manual, seguido del aprendizaje activo, hasta el conjunto de datos anotado final. Haga clic aquí para ver una versión más grande de esta figura.

La preparación final del conjunto de datos se realiza después de completar el proceso de refinamiento iterativo con la ayuda del aprendizaje activo. El aprendizaje activo se utilizó en un marco híbrido que incluía reglas léxicas, aprendizaje automático y aportes iterativos de expertos para anotar las emociones de los enunciados hinglish. Los pasos fueron los siguientes:

El proceso comienza con un conjunto de datos etiquetado manualmente. Usando un clasificador de bosque aleatorio, que se empleó para identificar tweets ambiguos sobre los que el modelo de aprendizaje automático no estaba seguro. Envíe estos ejemplos ambiguos para su categorización a expertos humanos. El modelo se actualizó repetidamente utilizando los datos recientemente anotados, lo que mejoró gradualmente la precisión y redujo las clasificaciones erróneas. Finalice el conjunto de datos y revise las anotaciones para garantizar la precisión. Prepare el conjunto de datos para el análisis, asegurándose de que esté debidamente documentado y formateado para su uso futuro para implementarlo en casos posteriores. Sin embargo, es importante investigar los patrones de emociones incrustados en los enunciados para que los pasos futuros sean más claros en términos de implementación. Por lo tanto, en el siguiente paso, se realizará un análisis de conglomerados para encontrar emociones dominantes incrustadas en el conjunto de datos. Esto también ayuda a identificar las emociones que estamos investigando.

Selección de grupos de emociones
La Tabla 2 muestra los grupos de emociones y sus equivalentes hinglish, junto con la razón para seleccionar las emociones respectivas. De cada grupo de emociones, se ha seleccionado una emoción dominante para su posterior procesamiento. Estas emociones dominantes se seleccionan a partir del análisis de conglomerados.

Grupo de emociones	Equivalente de Hinglish	Justificación de la selección
Miedo (incluye ansiedad y pánico)	Dar, khauf, Asahaj, Bekabu, Angadai, Chinta, tensión, Fikr, Ashanka, Udaasi, Bechaini, Ghabrahat	El miedo es una emoción común en la guerra y los conflictos, ya que las personas enfrentan amenazas a su seguridad y bienestar. Este miedo puede manifestarse de varias maneras, como ansiedad, ataques de pánico e hipervigilancia.
Ira (incluye irritación, hostilidad, frustración y dolor)	Gussa, raag, Prakop, Raudra, Chidhaan, Shatruta, Krodh, Gussa dilana, apata, Atyachar, Khushfehmi, hairani, Bhayanak, Chakker Kathinaai	La ira es otra emoción frecuente en la guerra y el conflicto, que a menudo surge de sentimientos de injusticia, traición o pérdida. Esta ira puede alimentar la agresión y la violencia, contribuyendo a la naturaleza destructiva de estos conflictos.
Tristeza (incluye dolor, desesperación y desesperanza)	Udaasi, gham, Shok, Bhavuk, Dukhi, Udas, Vismay, Nirasha, Shok, Dukhi, Vairagya, Aashank, Vishada, Bhavuk, Dukhi, Udas, Vinamrata, Bhavuk, Hridaytoda, Beumaar, nirasha, Vinaash, Bair, Nirasha, Asambhav, Haar	La tristeza es una respuesta natural a la pérdida y al dolor, que desafortunadamente son experiencias comunes en la guerra y el conflicto. Los soldados pueden experimentar tristeza por la pérdida de camaradas, los civiles pueden llorar por sus seres queridos muertos o desplazados, y comunidades enteras pueden llorar la pérdida de sus hogares y su forma de vida. También pueden surgir sentimientos de desesperación y desesperanza debido a la naturaleza prolongada del conflicto y al ciclo de violencia aparentemente interminable.
Vergüenza y culpa	Sharm, lajjabari, Sharm, Laaj, Zillat, Afsos, Gunah, Afsos, Pashchatap, Laaj, Bechaini, Aatmasamarpan, Sharmindagi, Ashru, Pashchatap, Antaratma, Kasoor, gunaah, Khud ko doshi maana, Ninda, Dosha	La vergüenza y la culpa son emociones complejas que pueden surgir de sentimientos de mala conducta personal o colectiva, insuficiencia o humillación. En la guerra y el conflicto, las personas pueden experimentar vergüenza o culpa por sus acciones, su incapacidad para evitar el daño a otros o su supervivencia mientras otros han perecido.
Asco	Ghin, nafrat, Asahayak, Pratikool, Ghrina, Vairagya, Dvesha, Nakaratmak, Vibhavsu, Vairagya, Vairagya, Nirasha	El asco es un sentimiento de repulsión o aversión hacia algo percibido como desagradable u ofensivo. En la guerra y el conflicto, las personas pueden experimentar disgusto en respuesta a actos de crueldad, violencia y barbarie.
Empatía y compasión	Sahaaanubhuti, hamderdari, Samajhdari, Daan Sahabhooti, Sensibilidad, Apoyo, Consideración, Amabilidad, Cuidado, Calidez, Ternura, Daya, raham, Sahaaanubhuti, Sahyog, Dayalu, Samajh, Pyar, Daya, Narami, Paropkari	La empatía y la compasión son vitales para comprender y compartir los sentimientos de los demás. En la guerra y el conflicto, la empatía puede ser una herramienta poderosa para conectarse con otras personas que han sufrido experiencias similares, fomentar la compasión y promover la reconciliación. La compasión puede motivar a las personas a ayudar a los necesitados y contribuir a los esfuerzos de curación y reconstrucción.
Esperanza y gratitud	Umeed, aasha, Chah, Ichha, Sapna, Unnati, Ashvasan, Khushi, Utsaah, Ashirwad, Samvedansheelata, Vishwas, Bharosa, Shukraguzaar, eshaananand, Shukrana, Aabhaar, Namrata, Samaanya, Naman, Aasherewad, Badhai, Dhanyavaad, Abhivadn, Manobhav, Bhakti	La esperanza es un sentimiento de optimismo y expectativa de que algo bueno sucederá a pesar de los desafíos y dificultades enfrentados. La gratitud es un sentimiento de agradecimiento y aprecio por las cosas buenas de la vida. En la guerra y los conflictos, la esperanza puede ser una fuente de fortaleza y motivación, que permite a las personas perseverar y trabajar por un futuro mejor. La gratitud puede ayudar a las personas a concentrarse en los aspectos positivos de sus vidas, fomentar la resiliencia y cultivar una sensación de paz en medio de la confusión.
Resiliencia	Jheelaanek, himmat, Sahasi, Sahas, Dhairya, Majbooti, Samvedansheel, Samarthya, Majbuti, Lachari	La resiliencia es la capacidad de adaptarse y hacer frente a situaciones difíciles o desafiantes. En la guerra y los conflictos, la resiliencia es esencial para que las personas y las comunidades sobrevivan y perseveren frente a la adversidad.

Tabla 2: Justificación de la selección de la emoción. La tabla asigna grupos de emociones a sus equivalentes hinglish y explica su relevancia en contextos de guerra y conflicto.

Sin embargo, debe tenerse en cuenta que la selección de estas emociones no solo se basa en el análisis de conglomerados, sino que también se basa en las teorías de las emociones, incluida la Teoría de la Evaluación Cognitiva (CAT), la Teoría de las Emociones Discretas (DET) y la Teoría Orientada al Proceso (POT) de la Emoción⁴³.

Detalles del corpus
El conjunto de datos consta de conjuntos de datos de tweets específicos del dominio (guerras, conflictos y crisis) y adicionales que contienen una combinación de tweets en hindi e inglés. La Figura 3 es una instantánea de los conjuntos de datos de tweets disponibles públicamente que se procesan para este trabajo de investigación. El conjunto de datos principal está disponible públicamente en https://data.mendeley.com/datasets/y63frd6pmf/7.

figure-protocol-10
Figura 3: Detalles del corpus. La disponibilidad del conjunto de datos se explica aquí. Haga clic aquí para ver una versión más grande de esta figura.

Anotación de etiquetas de emociones
Un corpus inicial de 10.040 tuits hinglish relacionados con la guerra y el conflicto fue anotado manualmente con ocho etiquetas de emociones por expertos bilingües. Para abordar la complejidad lingüística del texto mixto de código, se desarrolló un marco léxico basado en reglas, que incorpora varios componentes. El marco incluye diccionarios específicos de emociones que asignan términos hindi/inglés a las emociones, como fear_words = {Miedo, pavor, Bhayanak, figure-protocol-11 , Terror, figure-protocol-12 } y anger_words = {gussa, rabia, figure-protocol-13 , irritación, figure-protocol-14 }. Las reglas de equivalencia interlingüística vincularon los términos (por ejemplo, if (Ae == Ah): anger = gussa | figure-protocol-15 ). Se utilizan reglas léxicas como diccionarios de emociones, tokenización para idiomas mixtos y descomposición de subpalabras. Para anotar emociones, estas reglas preprocesan texto y extraen características, que luego se combinan con incrustaciones de aprendizaje automático⁴⁵.

Para la tokenización, el marco utilizó reglas personalizadas para el cambio de idioma, la puntuación, los emojis y la tokenización de subpalabras. El texto hindi (devanagari) se tokenizó a nivel de carácter, mientras que el inglés (romano) usó espacios en blanco. Ejemplo: Mujhe frustr hai → [Mujhe, frustración, hai]. Los caracteres especiales como los hashtags (#) y las menciones (@) se aislaron como tokens individuales (por ejemplo, #WarCrimes → [#, WarCrimes]), mientras que los signos de puntuación como las comas (,) y los signos de exclamación (!) se dividieron en tokens separados (por ejemplo, figure-protocol-16 → figure-protocol-17 , !]).

Los emojis también se trataron como tokens independientes y se asignaron a emociones (por ejemplo, figure-protocol-18 figure-protocol-19 → ira → tristeza). Tokenización de subpalabras realizada con escritura devanagari en la que las palabras compuestas se dividieron usando patrones de expresiones regulares para las reglas Sandhi (por ejemplo, figure-protocol-20 ] [reino + mundo]) y los prefijos/sufijos de las escrituras romanas se segmentaron (por ejemplo, increíble → [un, creíble]). Para la expansión específica del dominio, los tokens se reemplazaron con etiquetas de emoción si coincidían en los diccionarios. Por ejemplo: Bhayanak → miedo, Dahad" → miedo, gussa → ira. Tweet Mujhe Bhayanak lag raha hai → Tokens [Mujhe, miedo, retraso, raha, hai].

Después de la vectorización, los tokens procesados (palabras, subpalabras, emojis) se convirtieron en incrustaciones de 300 dimensiones utilizando Word2Vec/fastText. Las representaciones numéricas en vectores columna de tokens, una matriz de vectores correspondientes a tokens. Cada fila corresponde a un vector de incrustación asociado con un token en el texto, que representa el orden del token. Las columnas de una fila significan dimensiones en el espacio de incrustación. Los vectores contienen números reales calculados mediante Word2Vec y FastText. Los tokens con vectores cero, representados por filas con todos los valores cero, pueden denotar espacios o caracteres especiales que carecen de información significativa en esta representación. Las incrustaciones tienen como objetivo capturar las relaciones contextuales de las palabras para mejorar la anotación. Los vectores distintos de cero indican representaciones significativas de palabras o símbolos. Los valores de estos vectores codifican varias características semánticas y sintácticas. Los vectores cero suelen representar relleno, espacio o tokens no reconocidos. La variabilidad en los valores refleja la riqueza de las características capturadas por el modelo de incrustación. Las diferentes dimensiones vectoriales capturan diversos aspectos del significado, el contexto y el uso de una palabra. La Figura 4 muestra cómo se representan los vectores y, a partir de la Figura 5, se pueden comprender las implicaciones de usar el proceso de vectorización.

figure-protocol-21
Figura 4: Tokenización personalizada. La figura muestra cómo se representan los vectores en el espacio de incrustación y muestra cómo se transfiere cada token a un formato numérico. Haga clic aquí para ver una versión más grande de esta figura.

figure-protocol-22
Figura 5: Proceso de vectorización de tokens y sus implicaciones. La figura ilustra la implicación de estos procesos, componentes y destaca cómo estas incrustaciones capturan la semántica de las emociones para una clasificación emocional precisa. Haga clic aquí para ver una versión más grande de esta figura.

Según el flujo de investigación, el proceso comienza con el análisis del texto de entrada, la expansión de tokens utilizando los diccionarios basados en reglas y luego la división de estos tokens en subpalabras. Este enfoque proporciona una comprensión del contenido emocional y el contexto cultural del texto, y a continuación se proporciona una pseudológica para la investigación.

Inicializar diccionarios de emociones (por ejemplo, fear_words = {"Miedo", "Pavor", "Bhayanak", ...}): Establecer Ae = Ah
SubwordRules(token, script): Si el devanagari → divide usando regex (compuesto/Sandhi), si el romano → divide prefijos/sufijos usando regex, devuelve subpalabras
DomainSpecificExpansion(token): Si el token en los diccionarios emocionales/lingüísticos → devolver emoción
De lo contrario→ token de retorno
ProcessTweet (texto): Defina expresiones regulares para Devanagari, Roman, otros; Extraer tokens mediante expresiones regulares; Aplicar DomainSpecificExpansion y SubwordRules a los tokens; Devolver subpalabras procesadas
Vectorizar tokens en incrustaciones numéricas
Aplicar el aprendizaje activo con retroalimentación humana

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El hallazgo de esta investigación sugiere que la integración de las reglas léxicas con el aprendizaje automático y las técnicas de aprendizaje activo ofrece una vía viable para mejorar la eficiencia y la precisión de la anotación de emociones en texto hinglish mezclado con código. A través del refinamiento iterativo y la sugerencia de expertos, el marco propuesto pudo lograr reducciones notables en el esfuerzo manual mientras mantenía un alto rendimiento en las matrices de evolución. Los ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El conjunto de datos para este estudio se seleccionó utilizando una combinación de anotación manual y aprendizaje activo. Inicialmente, 10.040 tweets hinglish relacionados con la guerra y el conflicto se etiquetaron manualmente con ocho emociones predefinidas. Luego, el conjunto de datos se amplió a 19,000 tweets utilizando un enfoque semiautomatizado. El aprendizaje activo permitió la intervención selectiva de expertos, reduciendo el esfuerzo manual en un 40% mientras mantenía una alta precisión de anotación del 81% con...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores declaran no tener ningún conflicto de intereses.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta investigación no recibió financiación externa.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fastText	IA de Facebook	N/A	Representación y clasificación de palabras
Google Colab	Google	N/A	Entorno de Jupyter Notebook basado en la nube
Google Colab GPU/TPU	Google	N/A	Aceleración de hardware basada en la nube
Intel Core i5/i7 o AMD Ryzen 5/7	Intel / AMD	N/A	Procesador para ejecución local (si es necesario)
Matplotlib	Código abierto	N/A	Biblioteca de visualización de datos
NLTK	Código abierto	N/A	Kit de herramientas de lenguaje natural para el procesamiento de texto
NumPy	Código abierto	N/A	Biblioteca de computación numérica
NVIDIA GTX 1650 o superior (opcional)	NVIDIA	N/A	GPU para tareas de aprendizaje profundo
Pandas	Código abierto	N/A	Biblioteca de manipulación de datos
Python	Fundación de software Python	N/A	Lenguaje de programación para ML y NLP
PyTorch	Meta IA	N/A	Marco de aprendizaje profundo
RAM (8 GB como mínimo, se recomiendan 16 GB)	Varios	N/A	Requisito de memoria para tareas de ML
Scikit-learn	Código abierto	N/A	Biblioteca de aprendizaje automático
Nacido en el mar	Código abierto	N/A	Visualización de datos estadísticos
Spacy	IA de explosión	N/A	Biblioteca de NLP de potencia industrial
Almacenamiento SSD (mínimo 256 GB, se recomiendan 512 GB)	Varios	N/A	Almacenamiento para el procesamiento de conjuntos de datos
TensorFlow	Google	N/A	Marco de aprendizaje profundo

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al. A systematic review of applications of natural language processing and future challenges with special emphasis in text-based emotion detection. Artif Intell Rev. 56 (12), 15129-15215 (2023).
Recent advancements and challenges in multimodal sentiment analysis: a survey. Dong, Z. X., Liu, H. 2023 Int Conf Machine Learning Cybernetics (ICMLC), , IEEE. 464-469 (2023).
Gandhi, A., et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fusion. 91, 424-444 (2023).
Chand, V. The rise and rise of Hinglish in India. Conversation. , https://theconversation.com/the-rise-and-rise-of-hinglish-in-india-53476 (2016).
Hernández-de-Menéndez, M., et al. Active learning in engineering education: a review of fundamentals, best practices and experiences. Int J Interact Des Manuf. 13, 909-922 (2019).
Liu, X., et al. Developing multi-labelled corpus of Twitter short texts: a semi-automatic method. Systems. 11 (8), 390(2023).
Alahmary, R., Al-Dossari, H. A semiautomatic annotation approach for sentiment analysis. J Inf Sci. 49 (2), 398-410 (2023).
Garg, N., Sharma, K. Annotated corpus creation for sentiment analysis in code-mixed Hindi-English (Hinglish) social network data. Indian J Sci Technol. 13 (40), 4216-4224 (2020).
Jamatia, A., et al. Deep learning based sentiment analysis in a code-mixed English-Hindi and English-Bengali social media corpus. Int J Artif Intell Tools. 29 (5), 2050014(2020).
Nainabasti, B. Role of students' participation on learning physics in active learning classes. ProQuest ETD Collection for FIU. , AAI10743750(2016).
Goudjil, M., et al. A novel active learning method using SVM for text classification. Int J Autom Comput. 15, 290-298 (2018).
Huang, S. J., Jin, R., Zhou, Z. H. Active learning by querying informative and representative examples. Adv Neural Inf Process Syst. 23, 1-9 (2010).
Zhang, Z., Strubell, E., Hovy, E. A survey of active learning for natural language processing. arXiv. , (2022).
Baghel, R. A survey on code-mixed sentiment analysis based on Hinglish dataset. Int Conf Comput Commun Cyber-Secur. 664, (2022).
Tong, S., Koller, D. Support vector machine active learning with applications to text classification. J Mach Learn Res. 2 (Nov), 45-66 (2001).
Subramanian, M., et al. A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alex Eng J. 80, 110-121 (2023).
Liu, Z., et al. An emotion-based personalized music recommendation framework for emotion improvement. Inf Process Manag. 60 (3), 103256(2023).
Ren, F., Liu, Z., Kang, X. An efficient framework for constructing speech emotion corpus based on integrated active learning strategies. IEEE Trans Affect Comput. 13 (4), 1929-1940 (2022).
Azzi, S. A., Zribi, C. B. O. Comparing deep learning models for multi-label classification of Arabic abusive texts in social media. Proc Int Conf Software Tech, , 374-381 (2022).
Min, X. Y., et al. Multi-label active learning through serial-parallel neural networks. Knowl Based Syst. 251, 109226(2022).
Gosselin, L., Sabourin, L. Language athletes: dual-language code-switchers exhibit inhibitory control advantages. Front Psychol. 14, 1150159(2023).
Acheampong, F. A., Wenyu, C., Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng Rep. 2 (7), e12189(2020).
Tracy, J. L., Randles, D. Four models of basic emotions: a review of Ekman and Cordaro, Izard, Levenson, and Panksepp and Watt. Emotion Rev. 3 (4), 397-405 (2011).
Xiao, X., et al. A cognitive emotion model enhanced sequential method for social emotion cause identification. Inf Process Manag. 60 (3), 103305(2023).
Park, E. H., Storey, V. C. Emotion ontology studies: a framework for expressing feelings digitally and its application to sentiment analysis. ACM Comput Surv. 55 (9), 1-38 (2023).
Batra, H., Nelson, L. DCADS: data-driven computer aided diagnostic system using machine learning techniques for polycystic ovary syndrome. Int J Performability Eng. 19 (3), 193(2023).
Sakib, N., et al. Towards automated recipe genre classification using semi-supervised learning. PLoS One. 20 (1), e0317697(2025).
Fu, L., et al. A touch, vision, and language dataset for multimodal alignment. arXiv. , (2024).
Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena. Bollen, J., Mao, H., Pepe, A. Proc Int AAAI Conf Web Soc Media, 5 (1), https://ojs.aaai.org/index.php/ICWSM/article/view/14171 (2011).
EmpaTweet: annotating and detecting emotions on Twitter. Roberts, K., et al. Proc Eighth Int Conf Language Resource Eval, 12 (12), 3806-3813 (2012).
Mohammad, S. #Emotional tweets. First Joint Conf on Lexical Comput Semantics. , 246-255 (2012).
Li, W., Xu, H. Text-based emotion classification using emotion cause extraction. Expert Syst Appl. 41 (4), 1742-1749 (2014).
Verma, P., Kaur, A., Khurana, M., Damaševičius, R. Multimodal Hinglish tweet dataset for deep pragmatic analysis. Data. 9 (2), 38(2024).
Hasan, M., Agu, E., Rundensteiner, E. Using hashtags as labels for supervised learning of emotions in Twitter messages. ACM SIGKDD Workshop Health Info. 34 (74), 1-8 (2014).
Scherer, K. R., Wallbott, H. G. Evidence for universality and cultural variation of differential emotion response patterning. J Pers Soc Psychol. 66 (2), 310(1994).
Sasidhar, T. T., Premjith, B., Soman, K. P. Emotion detection in Hinglish (Hindi+ English) code-mixed social media text. Procedia Comput Sci. 171, 1346-1352 (2020).
Corpus creation and emotion prediction for Hindi-English code-mixed social media text. Vijay, D., et al. Proc. 2018 Conf. North Am Chapter Assoc Comput Linguistics: Student Research Workshop, , 128-135 (2018).
Srivastava, V., Singh, M. Phinc: a parallel Hinglish social media code-mixed corpus for machine translation. arXiv. , (2004).
Cossu, J. V., Molina-Villegas, A., Tello-Signoret, M. Active learning in annotating micro-blogs dealing with e-reputation. J Interdiscip Methodol Issues Sci. 3, (2017).
Kranjc, J., et al. Active learning for sentiment analysis on data streams: methodology and workflow implementation in the ClowdFlows platform. Inf Process Manag. 51 (2), 187-203 (2015).
Smith, C. A., Kirby, L. D. Consequences require antecedents: toward a process model of emotion elicitation. Feeling and Thinking: The Role of Affect in Social Cognition. , 83-106 (2000).
Jan, T. G., Khurana, S. S., Kumar, M. Semi-supervised labeling: a proposed methodology for labeling the Twitter datasets. Multimed Tools Appl. 81 (6), 7669-7683 (2022).
Cahyana, N. H., et al. Semi-supervised text annotation for hate speech detection using k-nearest neighbors and term frequency-inverse document frequency. Int J Adv Comput Sci Appl. 13 (10), 147-151 (2022).
Saifullah, S., et al. Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection. Appl Sci. 14 (3), 1078(2024).
Advani, L., Lu, C., Maharjan, S. C1 at SemEval-2020 Task 9: SentiMix: sentiment analysis for code-mixed social media text using feature engineering. arXiv. , (2008).
Alarcão, S. M., et al. Annotate smarter, not harder: using active learning to reduce emotional annotation effort. IEEE Trans Affect Comput. 15 (3), 1213-1227 (2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Aprendizaje automático y anotación de emociones rentable basada en reglas léxicas de expresiones hinglish

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles