Apprentissage automatique et annotation d’émotion rentable basée sur des règles lexicales des énoncés hinglish

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Apprentissage automatique et annotation d’émotion rentable basée sur des règles lexicales des énoncés hinglish

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette étude combine la stratégie basée sur des règles avec l’apprentissage automatique et l’assistance d’experts pour annoter le texte en hinglish et en anglais. Les données sont testées sur 19 000 tweets avec une précision de 81 %, et c’est beaucoup moins cher que de le faire manuellement. Cela pourrait être utile pour suivre les émotions pendant une crise.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’annotation des émotions dans les langues codés comme le hinglish (hindi-anglais) présente des défis uniques en raison de la complexité linguistique et des contraintes de ressources. Cette étude présente un cadre d’apprentissage actif hybride qui combine des règles lexicales, l’apprentissage automatique et les commentaires itératifs d’experts pour obtenir une annotation d’émotion rentable et de haute précision. Fondé sur les théories psychologiques de l’émotion, y compris la théorie des émotions discrètes et la théorie de l’évaluation cognitive, le cadre utilise des dictionnaires d’émotions bilingues (par exemple, cartographier gussa et rage à la colère), la tokenisation de sous-mots pour les termes composés (par exemple, diviser figure-abstract-1 en figure-abstract-2 ), et l’apprentissage actif pour hiérarchiser les échantillons ambigus. Évalué sur un ensemble de 19 000 tweets hinglish liés à la guerre et aux conflits, le cadre a atteint une précision de 81 % (score F : 0,76) tout en réduisant les coûts opérationnels de 40 % par rapport à l’annotation manuelle. Les règles lexicales ont résolu 89 % des ambiguïtés de changement de code, et les raffinements itératifs ont permis des gains de précision incrémentiels de 72 % à 81 %. L’efficacité du système provient de la limitation de l’effort humain à 73 % de l’ensemble de données, avec un prétraitement automatisé des emojis, des hashtags et de l’argot. Cette étude est basée sur l’hypothèse que l’intégration de méthodes basées sur des règles lexicales avec l’apprentissage actif et l’apprentissage automatique peut améliorer la précision de l’annotation des émotions dans le texte hinglish, tout en réduisant simultanément l’étiquetage manuel et l’effort global d’annotation.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Lorsque deux langues ou plus sont mélangées dans une seule ligne ou un seul discours, on parle de langage mixte de code. C’est courant dans les dialogues informels comme le hinglish. Il existe de multiples façons de comprendre les émotions humaines, et modéliser informatiquement une série d’énoncés émotionnels consiste à les annoter par les personnes qui ont prononcé ces phrases. Il peut être compris en termes de niveaux biologiques, physiologiques, psychologiques, etc. Selon des scientifiques tels que Roger Penrose, de nombreux phénomènes dans notre monde ne sont pas informatiques, et des scientifiques tels que Wolfram considèrent que tout (chaque phénomène) peut être modélisé informatiquement¹. Penrose croit que la conscience implique des processus (peut-être liés à la mécanique quantique dans le cerveau) qui vont au-delà de ce que toute procédure algorithmique étape par étape peut accomplir. Il cite souvent les théorèmes d’incomplétude de Gödel pour soutenir l’idée que la perspicacité mathématique humaine, par exemple, transcende les systèmes formels². Si la conscience n’est pas computationnelle, alors les émotions, en tant qu’aspect clé de l’expérience consciente, pourraient également avoir des éléments non computationnels. Stephen Wolfram, connu pour Mathematica et ses travaux sur les automates cellulaires, propose le « principe d’équivalence computationnelle ». Cela suggère que même des systèmes très complexes, y compris potentiellement l’univers lui-même et les phénomènes qui s’y trouvent (comme les émotions), peuvent finalement être décrits et modélisés par des règles de calcul, même si ces règles sont très simples, générant un comportement complexe. Mais en pratique, ce n’est pas possible, et nous avons besoin de quelqu’un qui est qualifié soit d’expert, soit simplement d’annotateur qui peut faire de l’analyse des émotions³.

Dans cette recherche, nous propageons l’idée de construire des modèles informatiques. Mais ce modèle sera quasi informatique. Notre recherche dans ce contexte vise à être computationnelle dans sa forme, mais pourrait ne pas capturer tous les aspects parfaitement, laissant peut-être de la place à des complexités difficiles ou impossibles à calculer pleinement. Les émotions sont difficiles à modéliser par calcul car elles dépendent d’expériences subjectives, d’un contexte culturel et d’expressions nuancées qui ne peuvent pas être entièrement capturées par des algorithmes fixes.

Par conséquent, pour modéliser les émotions humaines à l’aide d’approches computationnelles basées sur des variables, il est nécessaire d’annoter les énoncés émotionnels humains. Cette annotation doit être réalisée par un expert ou un annotateur compétent en analyse des émotions¹. Comprendre les complexités des émotions humaines n’est pas une tâche facile, en particulier lorsqu’il s’agit de langues mixtes. De plus, les problèmes liés à l’échelle signifient que s’appuyer uniquement sur l’annotation manuelle par les humains n’est pas une option viable. Des recherches récentes indiquent un besoin constant d’une approche humaine dans la boucle lors de la construction de systèmes pour des tâches aussi complexes. Par conséquent, une approche semi-automatique, qui consiste à automatiser les parties les plus simples tout en réservant aux annotateurs les tâches nécessitant des nuances humaines, semble la plus appropriée pour développer des systèmes de langage naturel dans ce domaine.

Un annotateur humain fera, bien sûr, son travail manuellement, et à l’ère de l’informatique, ce n’est pas ce que l’on attend des scientifiques contemporains. Si l’annotateur (manuel, semi-automatique ou entièrement automatique) est capable de deviner intelligemment le type d’émotion incarnée dans les énoncés, des énoncés qui consistent en plusieurs types d’émotions exprimées sous forme de symboles, avec un langage familier ou un mélange de codes et en utilisant plusieurs modalités, alors la tâche est à la fois difficile et facile. La complexité de l’annotation des émotions dans les énoncés hinglish dépend de la nature de l’expression. Lorsque les émotions sont clairement transmises à l’aide de mots familiers ou d’emojis, l’annotation est relativement simple. Cependant, la tâche devient difficile lorsque les énoncés impliquent plusieurs émotions, un mélange de codes ou des expressions symboliques ambiguës. Par conséquent, l’annotation peut être à la fois facile et difficile, selon la façon dont l’émotion est exprimée directement.

Les approches contemporaines dans l’identification des émotions et des sentiments font face à ces défis, notamment la nature subjective des émotions, l’ambiguïté des expressions humaines, la complexité des langages codés comme le hinglish et la nature chronophage et incohérente de l’annotation manuelle. associé à la construction de modèles informatiques et à la gestion de tâches d’annotation fastidieuses. Des recherches récentes indiquent que les chercheurs utilisent un large éventail de méthodes pour atteindre cet objectif, notamment l’apprentissage automatique, l’apprentissage profond et diverses approches hybrides. Des recherches récentes montrent que pour surmonter ces problèmes, les chercheurs utilisent diverses techniques, telles que l’apprentissage automatique, l’apprentissage profond et les modèles hybrides.

Des recherches récentes montrent que les chercheurs utilisent toutes sortes d’approches, notamment l’apprentissage automatique, l’apprentissage profond³ et les approches hybrides. Le terme analyse des sentiments fait référence à une procédure utilisée lorsque la polarité des émotions est considérée comme un marqueur pour comprendre l’émotion brute des humains ^3,4. Le développement d’une telle technologie a permis de reconnaître l’humeur, les sentiments, la parole, les émotions faciales et les indices non verbaux, et a déjà fait des percées dans des applications qui permettent la traduction en temps réel². Une approche multimodale pourrait être utilisée pour traduire le hinglish en anglais et pourrait être utile à l’avenir pour rendre le cinéma indien plus accessible aux sociétés éloignées ^5,6. Par exemple, en Inde, l’anglais est souvent la deuxième langue. Les recherches dans ce contexte montrent que cela a amélioré la qualité de l’enseignement de l’anglais en analysant le discours indien (langage mix-code) pour l’expressivité, ou le degré de sentiment et d’émotion, de chaque mot.

Dans ce contexte de recherche, il a été démontré que l’utilisation d’un langage à code mixte en conjonction avec la traduction améliore la qualité de l’enseignement de l’anglais. Ceci est accompli par l’analyse de la parole indienne (langage à code mixte) pour déterminer l’expressivité, ou la valence émotionnelle, de chaque mot. Grâce à l’application de l’apprentissage profond pour former les ordinateurs à l’interprétation de la parole, cette recherche a déjà amélioré la précision de l’analyse de la parole informatisée et facilité une meilleure compréhension de la communication ^4,5. Selon les résultats du recensement de 2001, le hinglish, une langue qui est un mélange de hindi et d’anglais, est actuellement utilisé par environ 120 millions de personnes en Inde⁶.

Dans le paysage contemporain des algorithmes d’apprentissage, il est clair que l’apprentissage actif est apparu comme un outil puissant pour réduire considérablement l’effort humain dans l’annotation de grands ensembles de données, en particulier dans le domaine de l’identification et de la reconnaissance des émotions. Cette approche itérative, qui annote sélectivement les annotations percutantes (avec des mesures appropriées), améliore non seulement la précision des annotations, mais aussi l’efficacité⁵. Des études antérieures ont démontré son efficacité pour réduire considérablement la charge de travail des annotations manuelles tout en maintenant, voire en améliorant les performances, avec des ensembles de données d’entraînement plus petits et en proposant une méthode basée sur l’analyse de cluster pour la sélection informative des instances ^7,8. Dans le contexte spécifique de la reconnaissance des émotions de Hinglish, les chercheurs ont apporté de précieuses contributions grâce à des modèles d’apprentissage profond et à un ensemble de données annotées multi-étiquettes ^9,10,11. Des études antérieures^12,13 ont introduit des méthodes d’apprentissage actif et semi-supervisées pour minimiser la dépendance aux données étiquetées par l’homme, améliorant encore l’efficacité et réduisant les coûts d’annotation. De plus, l’apprentissage actif a été démontré dans de nombreux projets pour améliorer les performances de classification, en particulier dans la classification des émotions multi-étiquettes¹⁴.

L’efficacité de l’apprentissage actif dans l’amélioration des performances du classificateur a été reconnue dans diverses applications d’apprentissage automatique. Les études^15,16ont mis en évidence son rôle crucial dans l’amélioration des performances en se concentrant sur les applications éducatives. De même, une étude préliminaire a introduit un nouvel algorithme d’apprentissage actif avec des machines à vecteurs de support, réduisant considérablement le besoin d’instances étiquetées¹⁷. Un autre travail a également exploré son application dans des tâches impliquant des instances structurées, telles que la classification de texte¹⁸. L’impact de l’apprentissage actif sur les tâches de reconnaissance des émotions va au-delà des gains d’efficacité, en particulier en minimisant la dépendance aux données étiquetées par l’homme. Une étude a introduit un cadre multitâche pour la classification et la régression des émotions, surpassant les performances des méthodes à tâche unique¹⁰.

De plus, les chercheurs^ontfait des progrès significatifs dans la reconnaissance des émotions de la parole et du texte à l’aide de l’apprentissage actif, tout en démontrant²⁰ son efficacité dans la classification personnalisée des émotions musicales. Cependant, le processus de catégorisation et d’étiquetage des émotions présente un défi important, comme le souligne^21,22, en particulier dans les contextes d’analyse des sentiments. Note que l’utilisation d’étiquettes peut influencer de manière significative la catégorisation des émotions, en particulier pour les catégories apprises plus tard²³. Pour relever ces défis, divers algorithmes, y compris des méthodes basées sur des mots-clés et des méthodes basées sur l’apprentissage, ont été développés, atteignant des taux de précision notables²⁴. La recherche sur les émotions basée sur des énoncés écrits et des textes a été explorée dans de nombreux modèles, et des approches ont mis en œuvre un modèle dimensionnel utilisant des bases de données normatives pour une détection efficace des émotions²⁵. Dans une autre étude²⁶, un modèle d’émotion cognitive a amélioré une méthode séquentielle utilisée pour l’identification des causes des émotions sociales. L’auteur a fourni une interprétation linguistique computationnelle du modèle d’émotion OCC, tandis qu’une étude similaire²⁷a proposé un système utilisant des ontologies pour représenter les relations de dépendance aux mots et les émotions. Les auteurs d’une étude^ontdiscuté des signaux qui sont en corrélation avec le traitement de texte émotionnel, mettant en évidence l’adaptation du cerveau à exprimer les émotions dans le langage écrit. L’annotation de plusieurs tableaux d’émotions brutes, y compris celle des données multimodèles, est un défi. Néanmoins, l’étude des émotions liées à la guerre et aux conflits offre une fenêtre scientifique et systématique sur la psyché humaine dans des circonstances extrêmes, nous permettant de mieux comprendre comment les individus et les communautés font face aux traumatismes, aux pertes et à l’incertitude⁵. Une autre étude a révélé que la technique d’annotation améliorait efficacement la classification des genres, le titre jouant un rôle crucial dans le processus²⁹. Une étude a créé un ensemble de données vision-tactile 44K avec expert et GPT-4V pour entraîner un encodeur tactile et un modèle TVL pour la génération de texte³⁰. Une autre étude a exploré l’exploration des opinions et des tendances sur les tweets politiques, en se concentrant sur le processus d’apprentissage actif pour annoter automatiquement les tweets en français sur les politiciens⁴¹. Une autre étude a présenté CloudFlows, une plate-forme de flux de travail scientifique basée sur le cloud conçue pour l’analyse centrale adaptative dynamique dans les flux de données. Il permet l’apprentissage actif pour améliorer la classification des sentiments, ce qui permet à l’algorithme de s’adapter aux changements de données en temps réel⁴².

Il existe une tension nette entre la complexité de l’émotion humaine et le désir d’une analyse automatisée des émotions. Il existe une tension inhérente entre la complexité de l’émotion humaine et l’objectif de l’analyse automatisée des émotions. La plupart des travaux contemporains reconnaissent les limites de l’annotation manuelle et soulignent la nécessité de méthodes informatiques sophistiquées pour relever les défis de la compréhension des émotions dans diverses formes de communication. Ce scénario idéal est en grande partie peu pratique, c’est-à-dire qu’il s’agit d’obtenir des annotations des personnes qui ont écrit ou prononcé les phrases⁴³. Le scénario idéal pour obtenir des données, en particulier obtenir des annotations directement des personnes qui ont écrit ou prononcé les phrases, est largement irréalisable. Cette impraticabilité provient de l’impossibilité de collecter et de traiter de telles annotations personnalisées à grande échelle. Par conséquent, les efforts actuels doivent s’appuyer sur des annotateurs experts ou des algorithmes automatisés de détection des émotions pour analyser et étiqueter les émotions exprimées dans le texte. Dans ce travail de recherche, nous avons tenté de surmonter certains aspects de ces défis de domaine. Les principales contributions dans ce domaine sont présentées ci-après⁴⁴.

Par conséquent, nous devons nous appuyer sur des experts ou des annotateurs et des algorithmes de détection d’émotions pour analyser et étiqueter les émotions exprimées dans le texte. Il est impossible de collecter et de traiter de telles annotations personnalisées à grande échelle. Par conséquent, dans ce travail de recherche, nous avons tenté de surmonter certains aspects de ce domaine de connaissance. Voici les principales contributions dans ce domaine.

Le cadre fonctionne avec des méthodes basées sur des règles telles que le marquage des émotions, la détection de mélange de codes et l’interprétation des emoji avec des techniques d’apprentissage automatique telles que la forêt aléatoire et les plongements de mots, améliorant la précision des annotations tout en réduisant les efforts manuels. L’apprentissage itératif du classificateur utilise l’apprentissage actif ainsi que l’apprentissage par transfert pour hiérarchiser les échantillons de caractéristiques ambiguës, réduisant ainsi le besoin de travail acharné. Cette approche a permis de réduire les coûts d’exploitation de 40 % par rapport à l’étiquetage manuel dur.

Pour gérer les nuances du hinglish à un niveau granulaire, une méthode de tokenisation contextuelle personnalisée a été développée. Cette approche traite le texte codé en tenant compte du changement de langue, de la ponctuation, des emojis et de la segmentation des sous-mots, ce qui permet une annotation plus précise des émotions dans le texte mixte hindi-anglais. À un niveau granulaire, nous avons développé une tokenisation contextuelle personnalisée pour le texte hinglish. Le cadre aborde les complexités du texte codé en incorporant des dictionnaires d’émotions bilingues, la tokenisation des sous-mots et la tokenisation contextuelle personnalisée. Les règles lexicales ont résolu 89 % des ambiguïtés de changement de code.

Notre travail est fondé sur des théories psychologiques établies de l’émotion, telles que la théorie des émotions discrètes et la théorie de l’évaluation cognitive. L’étude démontre l’évolutivité de l’approche pour la réponse aux crises et la surveillance des médias sociaux, fournissant un modèle pour les applications NLP multilingues à faibles ressources.

Le tableau 1 explique les études disponibles pour le même domaine de problème. De l’étude de la littérature et du résumé tabulé, on peut déduire que la plupart des études ne peuvent échapper à un travail initial sur l’annotation à l’aide de méthodes manuelles. Peu de chercheurs suivent des approches semi-automatiques⁴¹. Cependant, la véritable différence de performance provient de l’utilisation d’un modèle d’apprentissage efficace qui peut automatiser le processus d’annotation. Le contenu émotionnel des tweets doit correspondre aux théories qui expliquent les chemins des émotions humaines et l’organisation des sentiments. La section suivante définit le problème en fonction des limites des approches existantes et des résultats empiriques des articles.

Étudier	Jeu de données	Émotion	Méthode	Domaine	Processus d’étiquetage	Lacunes	Portée future
[31]	9 000 000 de tweets	tension, dépression, colère, vigueur, fatigue,	Profil de confusion des états d’humeur	Anglais	Pas d’étiquetage	L’étude néglige les différences émotionnelles subtiles comme la surprise, la joie ou la peur, suggérant que l’étiquetage des émotions peut améliorer l’interprétabilité et la granularité des tendances sentimentales, en particulier en relation avec les événements socio-économiques.	Il pourrait étudier comment mieux capturer et examiner une gamme d’expressions émotionnelles dans les données des médias sociaux en utilisant des méthodes de catégorisation automatisée et des taxonomies d’émotions bien établies.
[32]	7000 Tweets	colère, dégoût, peur, joie, amour, tristesse,	Machine à vecteurs de support	Anglais	Manuelle	La généralisabilité de l’ensemble de données est limitée en raison de sa spécificité thématique et de son manque de représentativité de l’utilisation globale de Twitter. En raison de l’interprétation subjective et du contexte minimal, qui se manifeste par un accord modeste entre les annotateurs, il est difficile d’annoter les émotions dans des tweets brefs et décontractés.	Les travaux futurs se concentreront sur le développement de modèles améliorés de détection des émotions en intégrant des distinctions entre les styles linguistiques spécifiques au sujet et aux émotions, permettant une classification plus précise dans divers contextes de tweets.
[33]	21 000 Tweets	colère, dégoût, peur, joie, tristesse, surprise	Machine à vecteurs de support	------	Utilisation du hashtag	Les corpus existants étiquetés par émotion sont limités en taille et en domaine, en l’absence d’ensembles de données vastes et diversifiés pour les microblogs. Les tweets sont courts, bruyants et limités en contexte, ce qui rend difficile la détection et l’annotation précises des émotions.	À l’avenir, l’étude pourrait inclure l’élargissement du lexique des émotions avec des synonymes et des hashtags supplémentaires pour améliorer la couverture et la précision de la détection.
[34]	16485 Tweets	colère, dégoût, peur, joie, tristesse, surprise	Régression vectorielle de support	Chinois	Manuelle	Les méthodes traditionnelles de classification des émotions négligent souvent la cause sous-jacente des émotions, limitant ainsi la qualité des caractéristiques. Extraire avec précision les causes des émotions à partir de billets de microblog courts et informels nécessite des systèmes robustes basés sur des règles et une connaissance du domaine.	Une exploration plus poussée de l’analyse des causes des émotions peut améliorer les modèles de détection des émotions et ouvrir de nouvelles directions dans la compréhension des émotions textuelles.
[35]	10 040 Tweets	Peur, espoir, joie, colère, surprise, tristesse, dégoût	LDA, accord inter-juges	Hinglish	Manuelle	Il y a un manque d’ensembles de données structurés accessibles au public pour Hinglish, en particulier ceux qui capturent des nuances pragmatiques et émotionnelles dans le contenu lié à la crise. Le hinglish est une langue non standard, codifiée, et les variations régionales compliquent l’analyse et l’annotation précises des sentiments.	Élargir les ensembles de données multimodaux, intégrer une analyse pragmatique approfondie à des modèles d’apprentissage automatique et aborder l’évolutivité pour le suivi des émotions en temps réel dans le discours sur les conflits.
[36]	134 000 tweets	actif, inactif heureux, malheureux	Machine à vecteurs de support et k-plus proches voisins	Hinglish	Utilisation des hashtags	L’étiquetage manuel des émotions des tweets demande beaucoup de main-d’œuvre et est incohérent, ce qui limite les efforts de classification des émotions à grande échelle Les annotations participatives manquent de fiabilité, en particulier pour identifier les niveaux d’excitation émotionnelle, mettant en évidence la subjectivité dans l’interprétation des émotions.	Concentrez-vous sur l’affinement de l’étiquetage basé sur les hashtags et l’expansion des modèles de détection des émotions pour améliorer la précision et la généralisabilité dans divers contextes émotionnels.
[37]	3 000 étudiants, psychologues et non-psychologues de 37 pays	la joie, la peur, la colère, la tristesse, le dégoût, la honte et la culpabilité.	--	-----	Manuelle	Exploration limitée de la façon dont les facteurs culturels influencent la régulation et l’expression d’émotions spécifiques dans diverses sociétés. Il reste complexe de trouver un équilibre entre les preuves de modèles émotionnels universels et les variations culturelles spécifiques dans l’éveil et l’interprétation des émotions.	D’autres études devraient examiner l’interaction entre l’universalité biologique et le contexte culturel dans la formation de l’expérience émotionnelle et de la communication
[38]	12000	Le bonheur, la tristesse et la colère	accord inter-juges	Hindi+Anglais	Manuelle	Les recherches actuelles manquent d’un ensemble de données complet et annoté et de modèles standardisés pour la détection des émotions hinglish. La grammaire irrégulière et la nature codée des textes des médias sociaux rendent difficile une classification précise des émotions.	Les travaux futurs se concentreront sur l’élargissement des catégories d’émotions et le développement d’ensembles de données multilingues plus grands et mixtes de codes.
[39]	2866	Bonheur, tristesse, colère, surprise et tristesse	Machine à vecteurs de support	Hinglish (Hindi+Anglais)	Manuelle	Manque d’ensembles de données codés et annotés en termes d’émotions. L’expression des émotions dans un texte codé varie selon les langues et les scripts, ce qui rend l’annotation et la classification complexes.	Des travaux futurs pourraient élargir le corpus pour inclure une plus grande diversité émotionnelle, intégrer le marquage des parties du discours et explorer le contenu multilingue codé.
[40]	13738	---	Traduction automatique Google Translator	Hinglish	Manuelle	Les systèmes de traduction automatique existants manquent de précision sur les données de médias sociaux en raison de l’absence de grands corpus parallèles spécifiques à un domaine. Une grande variation orthographique, une structure informelle et une ambiguïté dans l’identification de la langue compliquent la traduction d’un texte romanisé hindi-anglais.	Le corpus peut prendre en charge le développement de systèmes de traduction mixtes et être étendu à d’autres langages à faibles ressources et à des tâches NLP telles que la reconnaissance d’entités nommées
[41]	11527	positif, très positif et négatif, très négatif	Classification basée sur kNN, représentation BOW	Hommes politiques français	Manuelle	Disponibilité limitée d’ensembles de données annotées de haute qualité pour l’exploration de l’opinion politique dans des langues autres que l’anglais. L’équilibre entre la réduction du bruit des annotations et la rétention d’informations, et la gestion de la distribution inégale des étiquettes dans les ensembles de données de tweets à grande échelle sont des difficultés clés.	Les travaux futurs pourraient affiner les méthodes d’apprentissage actif pour mieux préserver le contenu critique tout en minimisant le bruit des annotations dans le discours politique multilingue.
[42]	764,416	---	Kmeans Clustering, SVM	Anglais	Semi supervisé	L’étiquetage en temps réel et la mise à jour du modèle dans l’analyse des sentiments sont limités par la variabilité des flux de données, le coût de l’étiquetage et l’évolutivité du système.	Les travaux futurs exploreront la classification des sentiments multiclasses, intégreront des stratégies d’étiquetage supplémentaires et étendront le contrôle sur la génération initiale du modèle

Tableau 1 : Études disponibles avec les méthodes d’étiquetage correspondantes. Le tableau fournit un aperçu comparatif complet des études existantes, en abordant l’annotation des émotions, en établissant le paysage méthodologique et en conceptualisant la contribution du présent travail dans la littérature existante.

Énoncé du problème
Les émotions les plus fréquemment étudiées en annotation sont fortement influencées par des modèles psychologiques fondamentaux comme ceux d’Ekman et de Plutchik, se concentrant principalement sur des catégories fondamentales telles que la colère, la peur, le bonheur, la tristesse, la surprise^{, etc.} Par conséquent, dans ce travail de recherche, nous entendons travailler sur des connotations bien établies des émotions. Le défi consiste à développer un cadre de calcul dynamique, F, capable d’annoter avec précision les instances de texte en hinglish (ti ) à partir d’un corpus T axé sur les guerres et les conflits avec des étiquettes d’émotion (ei) à partir d’un ensemble prédéfini E = {e₁, e₂, ..., e₈}. Ce cadre doit synthétiser les principes de la théorie constructionniste de l’émotion, de la théorie des événements affectifs (AET), de la théorie des émotions discrètes et de la théorie de l’évaluation cognitive pour modéliser le paysage émotionnel multiforme du discours lié aux conflits. Chaque occurrence de texte ti in T est linguistiquement complexe, mélangeant l’hindi (en alphabet romain), l’anglais, les emojis et les symboles, nécessitant une approche à plusieurs niveaux pour capturer des expressions émotionnelles nuancées.

Le modèle computationnel des émotions liées à la guerre (en tant qu’étude de cas) peut impliquer une approche à multiples facettes, en commençant par des règles lexicales qui abordent les nuances basées sur le hinglish. La tokenisation, notée T, englobe les écritures romaines (hindi écrit en caractères romains), ainsi que les emojis et la ponctuation, formant la base du traitement du langage. Les dictionnaires d’émotions, représentés par D, associent des mots à travers les langues à des émotions spécifiques, telles que la colère, la joie et d’autres, où chaque emotion_i a associé words_j dans language_k. La décomposition des sous-mots, S, décompose les termes composés en leurs sous-mots constitutifs, ce qui permet une compréhension plus approfondie des expressions complexes. Par la suite, les techniques d’apprentissage automatique, M, utilisent des plongements, E, tels que Word2Vec/fastText, pour transformer les jetons en représentations vectorielles, vector_v, facilitant ainsi l’analyse numérique. Les classificateurs d’ensemble, C, comme Random Forest, prédisent ensuite des étiquettes d’émotion, emotion_label_p, à partir de ces ensembles de vecteurs. Pour améliorer de manière itérative le modèle d’apprentissage des annotations, un mécanisme d’apprentissage actif, AL, est utilisé. Le feedback d’expert, F, affine les cas ambigus, ambiguous_sample_q, en attribuant des refined_label_r, apportant des corrections cruciales. La hiérarchisation des échantillons, P, se concentre sur les échantillons à faible niveau de confiance, low_confidence_sample_s, en les attribuant annotation_priority_t, optimisant ainsi le processus d’annotation.

En intégrant ces composantes et théories, ce cadre vise à traiter dynamiquement le texte hinglish, à relier les nuances linguistiques et culturelles et à affiner de manière adaptative les annotations émotionnelles, offrant ainsi une solution évolutive pour analyser les dimensions affectives dans le discours conflictuel.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette section explique également comment le cadre multimodal de l’annotation à 8 émotions a été construit. La section commence par une discussion sur les propriétés de l’ensemble de données, suivie des procédures ultérieures. Pour une meilleure compréhension de la procédure de recherche, reportez-vous à la figure 1.

figure-protocol-1
Figure 1 : Cadre systématique de l’annotation des émotions. La figure explique l’émotion efficace, l’annotation du texte hinglish qui combine l’apprentissage automatique, l’apprentissage actif et les règles de lexique dynamique grâce à l’apport d’experts, les exemples mal classés sont progressivement améliorés pour augmenter la précision et réduire le coût de l’annotation. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Préparation de l’ensemble de données
La collecte de données commence par l’identification d’une liste complète de mots-clés et de hashtags liés à la guerre, au conflit et aux émotions associées. Des ressources telles que la littérature universitaire, les articles de presse et les tendances des médias sociaux ont été utilisées pour compiler des listes pertinentes et existantes.

Comme le montre la figure 1, une fois la collecte des tweets et le prétraitement des données effectués, des experts humains sont impliqués dans l’étiquetage manuel et l’élaboration de règles lexicales qui doivent être incorporées pour améliorer le processus d’annotation. À l’aide de ces mots-clés (conflit, guerre, crise, gussa, etc.), un ensemble initial de données de 10 040 tweets a été collecté et a servi de base à l’étiquetage manuel où chaque tweet a été annoté avec huit émotions prédéfinies (colère, peur, bonheur, tristesse, frustration, compassion, mixte, autres pertinentes au domaine de la guerre et des conflits). Le processus d’étiquetage manuel a été mené par une équipe d’experts maîtrisant à la fois l’hindi et l’anglais, ce qui a permis de s’assurer que les nuances de l’anglais sont saisies avec précision.

Un exemple de traitement est décrit ci-dessous.

Tokenisation et prétraitement :
Tweet d’entrée : « Mujhe Bhayanak lag raha hai figure-protocol-2 »
Sortie tokenisée : ["Mujhe », « Bhayanak », « lag », « raha », « hai », « figure-protocol-3 "]
Gestion de l’écriture romaine : Les mots hindi (« Mujhe », « Bhayanak ») sont conservés dans l’écriture romaine.
Détection d’emoji/symbole : « » est isolé en tant que jeton symbolique.

Cartographie du dictionnaire des émotions (D) :
Associez des jetons aux émotions en E à l’aide de lexiques d’émotions bilingues (hindi/anglais) : « Bhayanak » (hindi pour « horrible ») → Peur ; « lag raha hai » (phrase contextuelle impliquant une émotion continue) → Peur ; « figure-protocol-4 » → Colère

Décomposition des sous-mots (S) :
Décomposez des termes complexes pour une analyse plus approfondie : « Bhayanak » → [« Bhay » (peur), « anak » (suffixe)] pour clarifier sa racine sémantique dans la peur.

Intégration de la génération (E) :
Générez des plongements de jetons à l’aide de Word2Vec/fastText : Embeddings pour ["Mujhe », « Bhayanak », « lag », « raha », « hai », « figure-protocol-5 "] → vecteurs v₁, v₂, v₃, v₄, v₅, v₆.
Règle d’agrégation : Plongements de jetons moyens pour créer un vecteur sémantique global :
V_avg = (v₁ + v₂ + v₃ + v₄ + v₅ + v₆) / 6

Extraction de caractéristiques basée sur des règles :
Extrayez des fonctions auxiliaires pour la concaténation. L’émotion compte : Peur : 2 instances (« Bhayanak », « lag raha hai ») ; Colère : 1 instance (« figure-protocol-6 »).
Code-Switch Flag : Drapeau binaire = 1 (jetons mixtes hindi et anglais : « Mujhe » [hindi], « lag », « raha », « hai » [dérivé de l’hindi]).

Fusion de fonctionnalités :
Combinez des plongements agrégés et des fonctionnalités basées sur des règles en un vecteur d’entrée unifié : Vecteur sémantique global = V_avg (plongements moyennés),Nombre d’émotions = [Peur : 2, Colère : 1, Autres : 0], Indicateur de changement de code = 1
Vecteur d’entrée final de la règle de concaténation = V_avg figure-protocol-7 [Peur : 2, Colère : 1, Autres : 0] figure-protocol-8 [1]
L’algorithme d’apprentissage automatique traite ce vecteur final et le processus itératif d’amélioration des annotations commence. Dans la section suivante, nous aborderons les performances de la méthode d’apprentissage actif adoptée à cet effet.

Après cela, l’ensemble de données a été étendu à 19 000 tweets. Cet ensemble de données a été organisé à l’aide d’une combinaison de techniques automatisées et semi-automatisées, en tirant parti des informations obtenues lors de l’annotation manuelle initiale. L’ensemble de données élargi a été affiné à partir d’un processus d’apprentissage itératif, il a impliqué l’identification sélective et la hiérarchisation des données/tweets ambigus pour l’annotation d’experts et les commentaires d’experts du domaine afin d’améliorer la précision, la cohérence et l’efficacité de l’annotation. Tout au long du processus de collecte des données, une attention particulière a été accordée au maintien de l’équilibre entre les différentes émotions, en veillant à ce que l’ensemble des données soit représentatif des divers sentiments exprimés à propos de la guerre et des conflits. L’ensemble de données qui en résulte est une ressource précieuse pour l’analyse du texte en hinglish. Pour une meilleure compréhension, la figure 2 peut être consultée.

figure-protocol-9
Figure 2 : Procédure de collecte des ensembles de données. La figure illustre le développement de l’ensemble de données, de l’identification des mots de démarrage à l’étiquetage manuel, suivi de l’apprentissage actif, jusqu’à l’ensemble de données final annoté. Veuillez cliquer ici pour voir une version agrandie de cette figure.

La préparation finale de l’ensemble de données est effectuée après avoir terminé le processus de raffinement itératif à l’aide de l’apprentissage actif. L’apprentissage actif a été utilisé dans un cadre hybride comprenant des règles lexicales, l’apprentissage automatique et l’apport itératif d’experts pour annoter les émotions des énoncés hinglish. Les étapes ont été les suivantes :

Le processus commence par un ensemble de données étiqueté manuellement. À l’aide d’un classificateur Random Forest, qui a été utilisé pour identifier les tweets ambigus dont le modèle d’apprentissage automatique n’était pas certain. Envoyez ces échantillons ambigus pour catégorisation à des experts humains. Le modèle a été mis à jour à plusieurs reprises à l’aide des données récemment annotées, ce qui a progressivement amélioré la précision et réduit les erreurs de classification. Finalisez l’ensemble de données et examinez les annotations pour en assurer l’exactitude. Préparez l’ensemble de données pour l’analyse, en veillant à ce qu’il soit correctement documenté et formaté pour une utilisation future afin de l’implémenter dans les cas en aval. Cependant, il est important d’étudier les modèles d’émotions intégrés dans les énoncés afin que les étapes futures deviennent plus claires en termes de mise en œuvre. Par conséquent, à l’étape suivante, une analyse en grappes sera effectuée pour trouver les émotions dominantes intégrées dans l’ensemble de données. Cela aide également à identifier les émotions que nous recherchons.

Sélection de grappes d’émotions
Le tableau 2 montre les groupes d’émotions et leurs équivalents hinglish, ainsi que la raison de la sélection des émotions respectives. Dans chaque groupe d’émotions, une émotion dominante a été sélectionnée pour un traitement ultérieur. Ces émotions dominantes sont sélectionnées à partir de l’analyse par grappes.

Groupe Emotion	Équivalent en hinglish	Justification de la sélection
Peur (y compris l’anxiété et la panique)	Dar, khauf, Asahaj, Bekabu, Angadai, Chinta, tension, Fikr, Ashanka, Udaasi, Bechaini, Ghabrahat	La peur est une émotion courante en temps de guerre et de conflit, car les individus sont confrontés à des menaces pour leur sécurité et leur bien-être. Cette peur peut se manifester de diverses manières, telles que l’anxiété, les attaques de panique et l’hypervigilance.
Colère (y compris l’irritation, l’hostilité, la frustration et la douleur)	Gussa, raag, Prakop, Raudra, Chidhaan, Shatruta, Krodh, Gussa dilana, apata, Atyachar, Khushfehmi, hairani, Bhayanak, Chakker Kathinaai	La colère est une autre émotion répandue dans les guerres et les conflits, souvent due à des sentiments d’injustice, de trahison ou de perte. Cette colère peut alimenter l’agression et la violence, contribuant ainsi à la nature destructrice de ces conflits.
Tristesse (comprend le chagrin, le désespoir et le désespoir)	Udaasi, gham, Shok, Bhavuk, Dukhi, Udas, Vismay, Nirasha, Shok, Dukhi, Vairagya, Aashank, Vishada, Bhavuk, Dukhi, Udas, Vinamrata, Bhavuk, Hridaytoda, Beumaar, nirasha, Vinaash, Bair, Nirasha, Asambhav, Haar	La tristesse est une réponse naturelle à la perte et au chagrin, qui sont malheureusement des expériences courantes en temps de guerre et de conflit. Les soldats peuvent éprouver de la tristesse à cause de la perte de leurs camarades, les civils peuvent pleurer des êtres chers tués ou déplacés, et des communautés entières peuvent pleurer la perte de leurs maisons et de leur mode de vie. Des sentiments de désespoir et de désespoir peuvent également survenir en raison de la nature prolongée du conflit et du cycle apparemment sans fin de la violence.
Honte et culpabilité	Sharm, lajjabari, Sharm, Laaj, Zillat, Afsos, Gunah, Afsos, Pashchatap, Laaj, Bechaini, Aatmasamarpan, Sharmindagi, Ashru, Pashchatap, Antaratma, Kasoor, gunaah, Khud ko doshi maana, Ninda, Dosha	La honte et la culpabilité sont des émotions complexes qui peuvent découler de sentiments d’injustice personnelle ou collective, d’insuffisance ou d’humiliation. En temps de guerre et de conflit, les individus peuvent éprouver de la honte ou de la culpabilité à cause de leurs actes, de leur incapacité à éviter de nuire à autrui ou de leur survie alors que d’autres ont péri.
Dégoût	Ghin, nafrat, Asahayak, Pratikool, Ghrina, Vairagya, Dvesha, Nakaratmak, Vibhavsu, Vairagya, Vairagya, Nirasha	Le dégoût est un sentiment de répulsion ou d’aversion envers quelque chose perçu comme désagréable ou offensant. En temps de guerre et de conflit, les individus peuvent ressentir du dégoût en réponse à des actes de cruauté, de violence et de barbarie.
Empathie et compassion	Sahaaanubhuti, hamderdari, Samajhdari, Daan Sahabhooti, Sensibilité, Soutien, Considération, Gentillesse, Attention, Chaleur, Tendresse, Daya, raham, Sahaaanubhuti, Sahyog, Dayalu, Samajh, Pyar, Daya, Narami, Paropkari	L’empathie et la compassion sont essentielles pour comprendre et partager les sentiments des autres. En temps de guerre et de conflit, l’empathie peut être un outil puissant pour établir des liens avec d’autres personnes qui ont vécu des expériences similaires, favoriser la compassion et promouvoir la réconciliation. La compassion peut motiver les gens à aider ceux qui sont dans le besoin et à contribuer aux efforts de guérison et de reconstruction.
Espoir et gratitude	Umeed, aasha, Chah, Ichha, Sapna, Unnati, Ashvasan, Khushi, Utsaah, Ashirwad, Samvedansheelata, Vishwas, Bharosa, Shukraguzaar, eshaananand, Shukrana, Aabhaar, Namrata, Samaanya, Naman, Aasherewad, Badhai, Dhanyavaad, Abhivadn, Manobhav, Bhakti	L’espoir est un sentiment d’optimisme et l’attente que quelque chose de bien se produira malgré les défis et les difficultés rencontrés. La gratitude est un sentiment de gratitude et d’appréciation pour les bonnes choses de la vie. En temps de guerre et de conflit, l’espoir peut être une source de force et de motivation, permettant aux individus de persévérer et d’œuvrer pour un avenir meilleur. La gratitude peut aider les individus à se concentrer sur les aspects positifs de leur vie, à favoriser la résilience et à cultiver un sentiment de paix au milieu de la tourmente.
Résilience	Jheelaanek, himmat, Sahasi, Sahas, Dhairya, Majbooti, Samvedansheel, Samarthya, Majbuti, Lachari	La résilience est la capacité de s’adapter et de faire face à des situations difficiles ou difficiles. En temps de guerre et de conflit, la résilience est essentielle pour que les individus et les communautés puissent survivre et persévérer face à l’adversité.

Tableau 2 : Justification du choix de l’émotion. Le tableau associe les groupes d’émotions à leurs équivalents hinglish et explique leur pertinence dans des contextes de guerre et de conflit.

Cependant, il convient de noter que la sélection de ces émotions n’est pas seulement basée sur l’analyse de clusters, mais également fondée sur les théories des émotions, notamment la théorie de l’évaluation cognitive (CAT), la théorie des émotions discrètes (DET) et la théorie orientée processus (POT) de l’émotion⁴³.

Détails du corpus
L’ensemble de données se compose d’ensembles de données spécifiques à un domaine (guerres, conflits et crises) et d’ensembles de tweets supplémentaires contenant un mélange de tweets en hindi et en anglais. La figure 3 est un aperçu des ensembles de données de tweets disponibles publiquement et traités pour ce travail de recherche. L’ensemble de données principal est accessible au public à l’adresse https://data.mendeley.com/datasets/y63frd6pmf/7.

figure-protocol-10
Figure 3 : Détails du corpus. La disponibilité de l’ensemble de données est expliquée ici. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Annotation d’étiquettes d’émotions
Un corpus initial de 10 040 tweets en hinglish liés à la guerre et aux conflits a été annoté manuellement avec huit étiquettes d’émotion par des experts bilingues. Pour répondre à la complexité linguistique du texte codé, un cadre lexical basé sur des règles a été développé, incorporant plusieurs composants. Le cadre comprend des dictionnaires spécifiques aux émotions qui associent des termes hindi/anglais aux émotions, tels que fear_words = {Fear, Dread, Bhayanak, figure-protocol-11 , Terror, figure-protocol-12 } et anger_words = {gussa, rage, figure-protocol-13 , irritation, figure-protocol-14 }. Des règles d’équivalence interlinguistiques liaient les termes (par exemple, si (Ae == Ah) : colère = gussa | figure-protocol-15 ). Des règles lexicales telles que les dictionnaires d’émotions, la tokenisation pour les langues mixtes et la décomposition des sous-mots sont utilisées. Afin d’annoter les émotions, ces règles prétraitent le texte et extraient des entités, qui sont ensuite combinées avec des intégrations d’apprentissage automatique⁴⁵.

Pour la tokenisation, le cadre a utilisé des règles personnalisées pour le changement de langue, la ponctuation, les emojis et la tokenisation des sous-mots. Le texte hindi (devanagari) a été tokenisé au niveau des caractères, tandis que l’anglais (romain) a utilisé des espaces. Exemple : Mujhe frustration hai → [Mujhe, frustration, hai]. Les caractères spéciaux tels que les hashtags (#) et les mentions (@) ont été isolés sous forme de jetons individuels (par exemple, #WarCrimes → [#, WarCrimes]), tandis que les signes de ponctuation tels que les virgules (,) et les points d’exclamation ( !) ont été divisés en jetons séparés (par exemple, figure-protocol-16 → figure-protocol-17 , !]).

Les emojis ont également été traités comme des jetons autonomes et associés à des émotions (par exemple, figure-protocol-18 → colère, figure-protocol-19 → tristesse). Tokenisation des sous-mots effectuée avec l’écriture devanagari dans laquelle les mots composés ont été divisés à l’aide de modèles regex pour les règles Sandhi (par exemple, figure-protocol-20 ] [royaume + monde]) et les préfixes/suffixes de l’écriture romaine ont été segmentés (par exemple, unbelievable → [un, believable]). Pour l’expansion spécifique à un domaine, les jetons ont été remplacés par des étiquettes d’émotion s’ils correspondaient dans les dictionnaires. Par exemple : Bhayanak → la peur, Dahad" → la peur, gussa → la colère. Mujhe Bhayanak lag raha hai → Tokens [Mujhe, peur, lag, raha, hai].

Après la vectorisation, les jetons traités (mots, sous-mots, emojis) ont été convertis en plongements à 300 dimensions à l’aide de Word2Vec/fastText. Les représentations numériques en vecteurs colonnes de jetons, une matrice de vecteurs correspondant à des jetons. Chaque ligne correspond à un vecteur d’intégration associé à un jeton dans le texte, représentant l’ordre du jeton. Les colonnes d’une rangée indiquent les dimensions dans l’espace d’intégration. Les vecteurs contiennent des nombres réels calculés à l’aide de Word2Vec et FastText. Les jetons avec des vecteurs nuls, représentés par des lignes avec toutes des valeurs nulles, peuvent désigner des espaces ou des caractères spéciaux manquant d’informations significatives dans cette représentation. Les plongements visent à capturer les relations contextuelles entre les mots pour une meilleure annotation. Les vecteurs non nuls indiquent des représentations significatives de mots ou de symboles. Les valeurs de ces vecteurs codent diverses caractéristiques sémantiques et syntaxiques. Les vecteurs zéro représentent généralement le remplissage, l’espace ou les jetons non reconnus. La variabilité des valeurs reflète la richesse des caractéristiques capturées par le modèle d’intégration. Différentes dimensions vectorielles capturent divers aspects de la signification, du contexte et de l’utilisation d’un mot. La figure 4 montre comment les vecteurs sont représentés, et à partir de la figure 5, les implications de l’utilisation du processus de vectorisation peuvent être comprises.

figure-protocol-21
Figure 4 : Segmentation en image personnalisée. La figure montre comment les vecteurs sont représentés dans l’espace d’intégration et illustre comment chaque jeton est transféré dans un format numérique . Veuillez cliquer ici pour voir une version plus grande de cette figure.

figure-protocol-22
Figure 5 : Processus de vectorisation des tokens et ses implications. La figure illustre l’implication de ces processus, composants, et met en évidence comment ces intégrations capturent la sémantique des émotions pour une classification émotionnelle précise. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Selon le flux de recherche, le processus commence par l’analyse du texte d’entrée, l’expansion des jetons à l’aide des dictionnaires basés sur des règles, puis la décomposition de ces jetons en sous-mots. Cette approche permet de comprendre le contenu émotionnel et le contexte culturel du texte, et la pseudo-logique de la recherche est donnée ci-dessous.

Initialisez les dictionnaires d’émotions (par exemple, fear_words = {"Peur », « Effroi », « Bhayanak », ...}) : Définir Ae = Ah
SubwordRules(token, script) : Si Devanagari → divisé à l’aide de regex (compound/Sandhi), Si Roman → split prefixes/suffixes à l’aide de regex, Renvoie subwords
DomainSpecificExpansion(token) : Si le jeton dans les dictionnaires émotionnels/linguistiques → renvoyer l’émotion
Sinon → jeton de retour
ProcessTweet(text) : Définir regex pour Devanagari, Roman, autres ; Extraire des jetons à l’aide d’expressions régulières ; Appliquer DomainSpecificExpansion et SubwordRules aux jetons ; Retourner les sous-mots traités
Vectoriser les tokens en plongements numériques
Appliquer l’apprentissage actif avec le feedback humain

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les résultats de cette recherche suggèrent que l’intégration des règles lexicales avec l’apprentissage automatique et les techniques d’apprentissage actif offre une voie viable pour améliorer l’efficacité et la précision de l’annotation des émotions dans le texte hinglish codé. Grâce à un raffinement itératif et à la suggestion d’experts, le cadre proposé a permis de réduire considérablement l’effort manuel tout en maintenant des performances élevées sur les matrices d’évolution. Les résu...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’ensemble de données de cette étude a été organisé à l’aide d’une combinaison d’annotations manuelles et d’apprentissage actif. Initialement, 10 040 tweets hinglish liés à la guerre et aux conflits étaient étiquetés manuellement avec huit émotions prédéfinies. L’ensemble de données a ensuite été étendu à 19 000 tweets en utilisant une approche semi-automatisée. L’apprentissage actif a permis l’intervention sélective d’experts, réduisant l’effort manuel de 40 % tout en maintenant une précision d’annotation élevée de 81 %...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs ne déclarent aucun conflit d’intérêts.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette recherche n’a reçu aucun financement externe.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fastText	IA de Facebook	N/A	Représentation et classification des mots
Google Colab	Google (en anglais)	N/A	Environnement Jupyter Notebook basé sur le cloud
Google Colab GPU/TPU	Google (en anglais)	N/A	Accélération matérielle basée sur le cloud
Intel Core i5/i7 ou AMD Ryzen 5/7	Intel / AMD	N/A	Processeur pour l’exécution locale (si nécessaire)
Matplotlib	Logiciel libre	N/A	Bibliothèque de visualisation de données
NLTK	Logiciel libre	N/A	Boîte à outils en langage naturel pour le traitement de texte
NumPy	Logiciel libre	N/A	Bibliothèque de calcul numérique
NVIDIA GTX 1650 ou supérieure (en option)	NVIDIA	N/A	GPU pour les tâches de deep learning
Pandas	Logiciel libre	N/A	Bibliothèque de manipulation de données
Python ;	Fondation du logiciel Python	N/A	Langage de programmation pour le ML et le NLP
PyTorch	Méta-IA	N/A	Cadre d’apprentissage profond
RAM (8 Go minimum, 16 Go recommandés)	Divers	N/A	Mémoire requise pour les tâches de ML
Scikit-apprendre	Logiciel libre	N/A	Bibliothèque d’apprentissage automatique
Né de la mer	Logiciel libre	N/A	Visualisation statistique des données
Spacy	IA d’explosion	N/A	Bibliothèque NLP de qualité industrielle
Stockage SSD (256 Go minimum, 512 Go recommandés)	Divers	N/A	Stockage pour le traitement des jeux de données
TensorFlow	Google (en anglais)	N/A	Cadre d’apprentissage profond

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al. A systematic review of applications of natural language processing and future challenges with special emphasis in text-based emotion detection. Artif Intell Rev. 56 (12), 15129-15215 (2023).
Recent advancements and challenges in multimodal sentiment analysis: a survey. Dong, Z. X., Liu, H. 2023 Int Conf Machine Learning Cybernetics (ICMLC), , IEEE. 464-469 (2023).
Gandhi, A., et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fusion. 91, 424-444 (2023).
Chand, V. The rise and rise of Hinglish in India. Conversation. , https://theconversation.com/the-rise-and-rise-of-hinglish-in-india-53476 (2016).
Hernández-de-Menéndez, M., et al. Active learning in engineering education: a review of fundamentals, best practices and experiences. Int J Interact Des Manuf. 13, 909-922 (2019).
Liu, X., et al. Developing multi-labelled corpus of Twitter short texts: a semi-automatic method. Systems. 11 (8), 390(2023).
Alahmary, R., Al-Dossari, H. A semiautomatic annotation approach for sentiment analysis. J Inf Sci. 49 (2), 398-410 (2023).
Garg, N., Sharma, K. Annotated corpus creation for sentiment analysis in code-mixed Hindi-English (Hinglish) social network data. Indian J Sci Technol. 13 (40), 4216-4224 (2020).
Jamatia, A., et al. Deep learning based sentiment analysis in a code-mixed English-Hindi and English-Bengali social media corpus. Int J Artif Intell Tools. 29 (5), 2050014(2020).
Nainabasti, B. Role of students' participation on learning physics in active learning classes. ProQuest ETD Collection for FIU. , AAI10743750(2016).
Goudjil, M., et al. A novel active learning method using SVM for text classification. Int J Autom Comput. 15, 290-298 (2018).
Huang, S. J., Jin, R., Zhou, Z. H. Active learning by querying informative and representative examples. Adv Neural Inf Process Syst. 23, 1-9 (2010).
Zhang, Z., Strubell, E., Hovy, E. A survey of active learning for natural language processing. arXiv. , (2022).
Baghel, R. A survey on code-mixed sentiment analysis based on Hinglish dataset. Int Conf Comput Commun Cyber-Secur. 664, (2022).
Tong, S., Koller, D. Support vector machine active learning with applications to text classification. J Mach Learn Res. 2 (Nov), 45-66 (2001).
Subramanian, M., et al. A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alex Eng J. 80, 110-121 (2023).
Liu, Z., et al. An emotion-based personalized music recommendation framework for emotion improvement. Inf Process Manag. 60 (3), 103256(2023).
Ren, F., Liu, Z., Kang, X. An efficient framework for constructing speech emotion corpus based on integrated active learning strategies. IEEE Trans Affect Comput. 13 (4), 1929-1940 (2022).
Azzi, S. A., Zribi, C. B. O. Comparing deep learning models for multi-label classification of Arabic abusive texts in social media. Proc Int Conf Software Tech, , 374-381 (2022).
Min, X. Y., et al. Multi-label active learning through serial-parallel neural networks. Knowl Based Syst. 251, 109226(2022).
Gosselin, L., Sabourin, L. Language athletes: dual-language code-switchers exhibit inhibitory control advantages. Front Psychol. 14, 1150159(2023).
Acheampong, F. A., Wenyu, C., Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng Rep. 2 (7), e12189(2020).
Tracy, J. L., Randles, D. Four models of basic emotions: a review of Ekman and Cordaro, Izard, Levenson, and Panksepp and Watt. Emotion Rev. 3 (4), 397-405 (2011).
Xiao, X., et al. A cognitive emotion model enhanced sequential method for social emotion cause identification. Inf Process Manag. 60 (3), 103305(2023).
Park, E. H., Storey, V. C. Emotion ontology studies: a framework for expressing feelings digitally and its application to sentiment analysis. ACM Comput Surv. 55 (9), 1-38 (2023).
Batra, H., Nelson, L. DCADS: data-driven computer aided diagnostic system using machine learning techniques for polycystic ovary syndrome. Int J Performability Eng. 19 (3), 193(2023).
Sakib, N., et al. Towards automated recipe genre classification using semi-supervised learning. PLoS One. 20 (1), e0317697(2025).
Fu, L., et al. A touch, vision, and language dataset for multimodal alignment. arXiv. , (2024).
Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena. Bollen, J., Mao, H., Pepe, A. Proc Int AAAI Conf Web Soc Media, 5 (1), https://ojs.aaai.org/index.php/ICWSM/article/view/14171 (2011).
EmpaTweet: annotating and detecting emotions on Twitter. Roberts, K., et al. Proc Eighth Int Conf Language Resource Eval, 12 (12), 3806-3813 (2012).
Mohammad, S. #Emotional tweets. First Joint Conf on Lexical Comput Semantics. , 246-255 (2012).
Li, W., Xu, H. Text-based emotion classification using emotion cause extraction. Expert Syst Appl. 41 (4), 1742-1749 (2014).
Verma, P., Kaur, A., Khurana, M., Damaševičius, R. Multimodal Hinglish tweet dataset for deep pragmatic analysis. Data. 9 (2), 38(2024).
Hasan, M., Agu, E., Rundensteiner, E. Using hashtags as labels for supervised learning of emotions in Twitter messages. ACM SIGKDD Workshop Health Info. 34 (74), 1-8 (2014).
Scherer, K. R., Wallbott, H. G. Evidence for universality and cultural variation of differential emotion response patterning. J Pers Soc Psychol. 66 (2), 310(1994).
Sasidhar, T. T., Premjith, B., Soman, K. P. Emotion detection in Hinglish (Hindi+ English) code-mixed social media text. Procedia Comput Sci. 171, 1346-1352 (2020).
Corpus creation and emotion prediction for Hindi-English code-mixed social media text. Vijay, D., et al. Proc. 2018 Conf. North Am Chapter Assoc Comput Linguistics: Student Research Workshop, , 128-135 (2018).
Srivastava, V., Singh, M. Phinc: a parallel Hinglish social media code-mixed corpus for machine translation. arXiv. , (2004).
Cossu, J. V., Molina-Villegas, A., Tello-Signoret, M. Active learning in annotating micro-blogs dealing with e-reputation. J Interdiscip Methodol Issues Sci. 3, (2017).
Kranjc, J., et al. Active learning for sentiment analysis on data streams: methodology and workflow implementation in the ClowdFlows platform. Inf Process Manag. 51 (2), 187-203 (2015).
Smith, C. A., Kirby, L. D. Consequences require antecedents: toward a process model of emotion elicitation. Feeling and Thinking: The Role of Affect in Social Cognition. , 83-106 (2000).
Jan, T. G., Khurana, S. S., Kumar, M. Semi-supervised labeling: a proposed methodology for labeling the Twitter datasets. Multimed Tools Appl. 81 (6), 7669-7683 (2022).
Cahyana, N. H., et al. Semi-supervised text annotation for hate speech detection using k-nearest neighbors and term frequency-inverse document frequency. Int J Adv Comput Sci Appl. 13 (10), 147-151 (2022).
Saifullah, S., et al. Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection. Appl Sci. 14 (3), 1078(2024).
Advani, L., Lu, C., Maharjan, S. C1 at SemEval-2020 Task 9: SentiMix: sentiment analysis for code-mixed social media text using feature engineering. arXiv. , (2008).
Alarcão, S. M., et al. Annotate smarter, not harder: using active learning to reduce emotional annotation effort. IEEE Trans Affect Comput. 15 (3), 1213-1227 (2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Apprentissage automatique et annotation d’émotion rentable basée sur des règles lexicales des énoncés hinglish

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles