$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
A anotação de emoções em linguagens mistas de código, como o hinglish (hindi-inglês), apresenta desafios únicos devido à complexidade linguística e às restrições de recursos. Este estudo apresenta uma estrutura híbrida de aprendizado ativo que combina regras lexicais, aprendizado de máquina e feedback iterativo de especialistas para obter anotação de emoções econômica e de alta precisão. Fundamentado em teorias psicológicas da emoção, incluindo a Teoria das Emoções Discretas e a Teoria da Avaliação Cognitiva, a estrutura emprega dicionários de emoções bilíngues (por exemplo, mapeando gussa e raiva para raiva), tokenização de subpalavras para termos compostos (por exemplo, divisão em
) e aprendizado ativo para priorizar
amostras ambíguas. Avaliado em um conjunto de dados de 19.000 tweets Hinglish relacionados a guerras e conflitos, a estrutura alcançou 81% de precisão (pontuação F: 0,76) enquanto reduzia os custos operacionais em 40% em comparação com a anotação manual. As regras lexicais resolveram 89% das ambiguidades de troca de código e os refinamentos iterativos permitiram ganhos incrementais de precisão de 72% a 81%. A eficiência do sistema decorre da limitação do esforço humano a 73% do conjunto de dados, com pré-processamento automatizado de emojis, hashtags e gírias. Este estudo é baseado na hipótese de que a integração de métodos baseados em regras lexicais com aprendizado ativo e aprendizado de máquina pode aumentar a precisão da anotação de emoções no texto em hinglish, ao mesmo tempo em que reduz a rotulagem manual e o esforço geral de anotação.