Research Article

Aprendizado de máquina e anotação de emoção econômica baseada em regras lexicais de enunciados em hinglish

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo combina a estratégia baseada em regras com aprendizado de máquina e assistência especializada para anotar o texto em hinglish e inglês. Os dados são testados em 19.000 tweets com 81% de precisão e é muito mais barato do que fazê-lo manualmente. Pode ser útil para rastrear emoções durante uma crise.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A anotação de emoções em linguagens mistas de código, como o hinglish (hindi-inglês), apresenta desafios únicos devido à complexidade linguística e às restrições de recursos. Este estudo apresenta uma estrutura híbrida de aprendizado ativo que combina regras lexicais, aprendizado de máquina e feedback iterativo de especialistas para obter anotação de emoções econômica e de alta precisão. Fundamentado em teorias psicológicas da emoção, incluindo a Teoria das Emoções Discretas e a Teoria da Avaliação Cognitiva, a estrutura emprega dicionários de emoções bilíngues (por exemplo, mapeando gussa e raiva para raiva), tokenização de subpalavras para termos compostos (por exemplo, divisão em figure-abstract-1) e aprendizado ativo para priorizar figure-abstract-2 amostras ambíguas. Avaliado em um conjunto de dados de 19.000 tweets Hinglish relacionados a guerras e conflitos, a estrutura alcançou 81% de precisão (pontuação F: 0,76) enquanto reduzia os custos operacionais em 40% em comparação com a anotação manual. As regras lexicais resolveram 89% das ambiguidades de troca de código e os refinamentos iterativos permitiram ganhos incrementais de precisão de 72% a 81%. A eficiência do sistema decorre da limitação do esforço humano a 73% do conjunto de dados, com pré-processamento automatizado de emojis, hashtags e gírias. Este estudo é baseado na hipótese de que a integração de métodos baseados em regras lexicais com aprendizado ativo e aprendizado de máquina pode aumentar a precisão da anotação de emoções no texto em hinglish, ao mesmo tempo em que reduz a rotulagem manual e o esforço geral de anotação.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Quando dois ou mais idiomas são misturados em uma única linha ou fala, isso é chamado de linguagem mista de código. É comum em diálogos casuais como o hinglish. Existem várias maneiras pelas quais as emoções humanas podem ser compreendidas, e modelar computacionalmente uma série de declarações emocionais é anotá-las pelas pessoas que proferiram essas frases. Pode ser entendido em termos de níveis biológicos, fisiológicos, psicológicos e assim por diante. De acordo com cientistas como Roger Penrose, muitos fenômenos em nosso mundo são não computacionais, e cientistas como Wolfram consideram que tudo (todos os fenômenos) podem ser model....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta seção também explica como a estrutura multimodal para anotação de 8 emoções foi construída. A seção começa com uma discussão sobre as propriedades do conjunto de dados, seguida pelos procedimentos subsequentes. Para uma melhor compreensão do procedimento de pesquisa, consulte a Figura 1.

figure-protocol-1
Figura 1: Estrutura sistemática de anotação de emoções. A figura explica a emoção efetiva, a anotação de texto hinglish que combina aprendizado de máquina....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A descoberta desta pesquisa sugere que a integração das regras lexicais com técnicas de aprendizado de máquina e aprendizado ativo oferece um caminho viável para aumentar a eficiência e a precisão da anotação de emoções em texto hinglish misto de código. Por meio de refinamento iterativo e sugestão de especialistas, a estrutura proposta foi capaz de alcançar reduções notáveis no esforço manual, mantendo o alto desempenho em todas as matrizes de evolução. Os resultados indicam potencial pa.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O conjunto de dados para este estudo foi selecionado usando uma combinação de anotação manual e aprendizado ativo. Inicialmente, 10.040 tweets em hinglish relacionados a guerra e conflito foram rotulados manualmente com oito emoções predefinidas. O conjunto de dados foi então expandido para 19.000 tweets usando uma abordagem semiautomatizada. O aprendizado ativo permitiu a intervenção seletiva de especialistas, reduzindo o esforço manual em 40%, mantendo uma alta precisão de anotação de 81% com um escore F de 0,76. Regra.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores declaram não haver conflito de interesses.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta pesquisa não recebeu financiamento externo.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
texto rápidoIA do FacebookN/ARepresentação e classificação de palavras
Google ColabPesquise no GoogleN/AAmbiente Jupyter Notebook baseado em nuvem
Google Colab GPU/TPUPesquise no GoogleN/AAceleração de hardware baseada em nuvem
Intel Core i5/i7 ou AMD Ryzen 5/7Intel / AMDN/AProcessador para execução local (se necessário)
MatplotlibCódigo abertoN/ABiblioteca de visualização de dados
NLTKCódigo abertoN/AKit de ferramentas de linguagem natural para processamento de texto
NumPyCódigo abertoN/ABiblioteca de computação numérica
NVIDIA GTX 1650 ou superior (opcional)NVIDIAN/AGPU para tarefas de aprendizado profundo
PandasCódigo abertoN/ABiblioteca de manipulação de dados
Python Fundação de Software PythonN/ALinguagem de programação para ML e PNL
PyTorchMeta IAN/AEstrutura de aprendizado profundo
RAM (mínimo de 8 GB, recomendado 16 GB)VárioN/ARequisito de memória para tarefas de ML
Scikit-aprenderCódigo abertoN/ABiblioteca de aprendizado de máquina
Nascido no marCódigo abertoN/AVisualização de dados estatísticos
SpaCyIA de explosãoN/ABiblioteca de NLP de força industrial
Armazenamento SSD (mínimo de 256 GB, 512 GB recomendado)VárioN/AArmazenamento para processamento de conjunto de dados
TensorFlowPesquise no GoogleN/AEstrutura de aprendizado profundo

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles