Aprendizado de máquina e anotação de emoção econômica baseada em regras lexicais de enunciados em hinglish

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Aprendizado de máquina e anotação de emoção econômica baseada em regras lexicais de enunciados em hinglish

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo combina a estratégia baseada em regras com aprendizado de máquina e assistência especializada para anotar o texto em hinglish e inglês. Os dados são testados em 19.000 tweets com 81% de precisão e é muito mais barato do que fazê-lo manualmente. Pode ser útil para rastrear emoções durante uma crise.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A anotação de emoções em linguagens mistas de código, como o hinglish (hindi-inglês), apresenta desafios únicos devido à complexidade linguística e às restrições de recursos. Este estudo apresenta uma estrutura híbrida de aprendizado ativo que combina regras lexicais, aprendizado de máquina e feedback iterativo de especialistas para obter anotação de emoções econômica e de alta precisão. Fundamentado em teorias psicológicas da emoção, incluindo a Teoria das Emoções Discretas e a Teoria da Avaliação Cognitiva, a estrutura emprega dicionários de emoções bilíngues (por exemplo, mapeando gussa e raiva para raiva), tokenização de subpalavras para termos compostos (por exemplo, divisão em figure-abstract-1 ) e aprendizado ativo para priorizar figure-abstract-2 amostras ambíguas. Avaliado em um conjunto de dados de 19.000 tweets Hinglish relacionados a guerras e conflitos, a estrutura alcançou 81% de precisão (pontuação F: 0,76) enquanto reduzia os custos operacionais em 40% em comparação com a anotação manual. As regras lexicais resolveram 89% das ambiguidades de troca de código e os refinamentos iterativos permitiram ganhos incrementais de precisão de 72% a 81%. A eficiência do sistema decorre da limitação do esforço humano a 73% do conjunto de dados, com pré-processamento automatizado de emojis, hashtags e gírias. Este estudo é baseado na hipótese de que a integração de métodos baseados em regras lexicais com aprendizado ativo e aprendizado de máquina pode aumentar a precisão da anotação de emoções no texto em hinglish, ao mesmo tempo em que reduz a rotulagem manual e o esforço geral de anotação.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Quando dois ou mais idiomas são misturados em uma única linha ou fala, isso é chamado de linguagem mista de código. É comum em diálogos casuais como o hinglish. Existem várias maneiras pelas quais as emoções humanas podem ser compreendidas, e modelar computacionalmente uma série de declarações emocionais é anotá-las pelas pessoas que proferiram essas frases. Pode ser entendido em termos de níveis biológicos, fisiológicos, psicológicos e assim por diante. De acordo com cientistas como Roger Penrose, muitos fenômenos em nosso mundo são não computacionais, e cientistas como Wolfram consideram que tudo (todos os fenômenos) podem ser model....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta seção também explica como a estrutura multimodal para anotação de 8 emoções foi construída. A seção começa com uma discussão sobre as propriedades do conjunto de dados, seguida pelos procedimentos subsequentes. Para uma melhor compreensão do procedimento de pesquisa, consulte a Figura 1.

figure-protocol-1
Figura 1: Estrutura sistemática de anotação de emoções. A figura explica a emoção efetiva, a anotação de texto hinglish que combina aprendizado de máquina....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A descoberta desta pesquisa sugere que a integração das regras lexicais com técnicas de aprendizado de máquina e aprendizado ativo oferece um caminho viável para aumentar a eficiência e a precisão da anotação de emoções em texto hinglish misto de código. Por meio de refinamento iterativo e sugestão de especialistas, a estrutura proposta foi capaz de alcançar reduções notáveis no esforço manual, mantendo o alto desempenho em todas as matrizes de evolução. Os resultados indicam potencial pa.......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O conjunto de dados para este estudo foi selecionado usando uma combinação de anotação manual e aprendizado ativo. Inicialmente, 10.040 tweets em hinglish relacionados a guerra e conflito foram rotulados manualmente com oito emoções predefinidas. O conjunto de dados foi então expandido para 19.000 tweets usando uma abordagem semiautomatizada. O aprendizado ativo permitiu a intervenção seletiva de especialistas, reduzindo o esforço manual em 40%, mantendo uma alta precisão de anotação de 81% com um escore F de 0,76. Regra.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores declaram não haver conflito de interesses.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta pesquisa não recebeu financiamento externo.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
texto rápido	IA do Facebook	N/A	Representação e classificação de palavras
Google Colab	Pesquise no Google	N/A	Ambiente Jupyter Notebook baseado em nuvem
Google Colab GPU/TPU	Pesquise no Google	N/A	Aceleração de hardware baseada em nuvem
Intel Core i5/i7 ou AMD Ryzen 5/7	Intel / AMD	N/A	Processador para execução local (se necessário)
Matplotlib	Código aberto	N/A	Biblioteca de visualização de dados
NLTK	Código aberto	N/A	Kit de ferramentas de linguagem natural para processamento de texto
NumPy	Código aberto	N/A	Biblioteca de computação numérica
NVIDIA GTX 1650 ou superior (opcional)	NVIDIA	N/A	GPU para tarefas de aprendizado profundo
Pandas	Código aberto	N/A	Biblioteca de manipulação de dados
Python	Fundação de Software Python	N/A	Linguagem de programação para ML e PNL
PyTorch	Meta IA	N/A	Estrutura de aprendizado profundo
RAM (mínimo de 8 GB, recomendado 16 GB)	Vário	N/A	Requisito de memória para tarefas de ML
Scikit-aprender	Código aberto	N/A	Biblioteca de aprendizado de máquina
Nascido no mar	Código aberto	N/A	Visualização de dados estatísticos
SpaCy	IA de explosão	N/A	Biblioteca de NLP de força industrial
Armazenamento SSD (mínimo de 256 GB, 512 GB recomendado)	Vário	N/A	Armazenamento para processamento de conjunto de dados
TensorFlow	Pesquise no Google	N/A	Estrutura de aprendizado profundo

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Aprendizado de máquina e anotação de emoção econômica baseada em regras lexicais de enunciados em hinglish

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles