Research Article

Apprentissage automatique et annotation d’émotion rentable basée sur des règles lexicales des énoncés hinglish

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette étude combine la stratégie basée sur des règles avec l’apprentissage automatique et l’assistance d’experts pour annoter le texte en hinglish et en anglais. Les données sont testées sur 19 000 tweets avec une précision de 81 %, et c’est beaucoup moins cher que de le faire manuellement. Cela pourrait être utile pour suivre les émotions pendant une crise.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’annotation des émotions dans les langues codés comme le hinglish (hindi-anglais) présente des défis uniques en raison de la complexité linguistique et des contraintes de ressources. Cette étude présente un cadre d’apprentissage actif hybride qui combine des règles lexicales, l’apprentissage automatique et les commentaires itératifs d’experts pour obtenir une annotation d’émotion rentable et de haute précision. Fondé sur les théories psychologiques de l’émotion, y compris la théorie des émotions discrètes et la théorie de l’évaluation cognitive, le cadre utilise des dictionnaires d’émotions bilingues (par exemple, cartographier gussa et rage à la colère), la tokenisation de sous-mots pour les termes composés (par exemple, diviser figure-abstract-1 en figure-abstract-2), et l’apprentissage actif pour hiérarchiser les échantillons ambigus. Évalué sur un ensemble de 19 000 tweets hinglish liés à la guerre et aux conflits, le cadre a atteint une précision de 81 % (score F : 0,76) tout en réduisant les coûts opérationnels de 40 % par rapport à l’annotation manuelle. Les règles lexicales ont résolu 89 % des ambiguïtés de changement de code, et les raffinements itératifs ont permis des gains de précision incrémentiels de 72 % à 81 %. L’efficacité du système provient de la limitation de l’effort humain à 73 % de l’ensemble de données, avec un prétraitement automatisé des emojis, des hashtags et de l’argot. Cette étude est basée sur l’hypothèse que l’intégration de méthodes basées sur des règles lexicales avec l’apprentissage actif et l’apprentissage automatique peut améliorer la précision de l’annotation des émotions dans le texte hinglish, tout en réduisant simultanément l’étiquetage manuel et l’effort global d’annotation.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Lorsque deux langues ou plus sont mélangées dans une seule ligne ou un seul discours, on parle de langage mixte de code. C’est courant dans les dialogues informels comme le hinglish. Il existe de multiples façons de comprendre les émotions humaines, et modéliser informatiquement une série d’énoncés émotionnels consiste à les annoter par les personnes qui ont prononcé ces phrases. Il peut être compris en termes de niveaux biologiques, physiologiques, psychologiques, etc. Selon des scientifiques tels que Roger Penrose, de nombreux phénomènes dans notre monde ne sont pas informatiques, et des scientifiques tels que Wolfram considèrent qu....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette section explique également comment le cadre multimodal de l’annotation à 8 émotions a été construit. La section commence par une discussion sur les propriétés de l’ensemble de données, suivie des procédures ultérieures. Pour une meilleure compréhension de la procédure de recherche, reportez-vous à la figure 1.

figure-protocol-1
Figure 1 : Cadre systématique de l’annotation des émotions. La figure explique l’émotion efficace, l’annotation du texte hinglish ....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les résultats de cette recherche suggèrent que l’intégration des règles lexicales avec l’apprentissage automatique et les techniques d’apprentissage actif offre une voie viable pour améliorer l’efficacité et la précision de l’annotation des émotions dans le texte hinglish codé. Grâce à un raffinement itératif et à la suggestion d’experts, le cadre proposé a permis de réduire considérablement l’effort manuel tout en maintenant des performances élevées sur les matrices d’évolution. Les résu.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’ensemble de données de cette étude a été organisé à l’aide d’une combinaison d’annotations manuelles et d’apprentissage actif. Initialement, 10 040 tweets hinglish liés à la guerre et aux conflits étaient étiquetés manuellement avec huit émotions prédéfinies. L’ensemble de données a ensuite été étendu à 19 000 tweets en utilisant une approche semi-automatisée. L’apprentissage actif a permis l’intervention sélective d’experts, réduisant l’effort manuel de 40 % tout en maintenant une précision d’annotation élevée de 81 %.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs ne déclarent aucun conflit d’intérêts.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette recherche n’a reçu aucun financement externe.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fastTextIA de FacebookN/AReprésentation et classification des mots
Google ColabGoogle (en anglais)N/AEnvironnement Jupyter Notebook basé sur le cloud
Google Colab GPU/TPUGoogle (en anglais)N/AAccélération matérielle basée sur le cloud
Intel Core i5/i7 ou AMD Ryzen 5/7Intel / AMDN/AProcesseur pour l’exécution locale (si nécessaire)
MatplotlibLogiciel libreN/ABibliothèque de visualisation de données
NLTKLogiciel libreN/ABoîte à outils en langage naturel pour le traitement de texte
NumPyLogiciel libreN/ABibliothèque de calcul numérique
NVIDIA GTX 1650 ou supérieure (en option)NVIDIAN/AGPU pour les tâches de deep learning
PandasLogiciel libreN/ABibliothèque de manipulation de données
Python  ;Fondation du logiciel PythonN/ALangage de programmation pour le ML et le NLP
PyTorchMéta-IAN/ACadre d’apprentissage profond
RAM (8 Go minimum, 16 Go recommandés)DiversN/AMémoire requise pour les tâches de ML
Scikit-apprendreLogiciel libreN/ABibliothèque d’apprentissage automatique
Né de la merLogiciel libreN/AVisualisation statistique des données
SpacyIA d’explosionN/ABibliothèque NLP de qualité industrielle
Stockage SSD (256 Go minimum, 512 Go recommandés)DiversN/AStockage pour le traitement des jeux de données
TensorFlowGoogle (en anglais)N/ACadre d’apprentissage profond

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles