$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
L’annotation des émotions dans les langues codés comme le hinglish (hindi-anglais) présente des défis uniques en raison de la complexité linguistique et des contraintes de ressources. Cette étude présente un cadre d’apprentissage actif hybride qui combine des règles lexicales, l’apprentissage automatique et les commentaires itératifs d’experts pour obtenir une annotation d’émotion rentable et de haute précision. Fondé sur les théories psychologiques de l’émotion, y compris la théorie des émotions discrètes et la théorie de l’évaluation cognitive, le cadre utilise des dictionnaires d’émotions bilingues (par exemple, cartographier gussa et rage à la colère), la tokenisation de sous-mots pour les termes composés (par exemple, diviser
en
), et l’apprentissage actif pour hiérarchiser les échantillons ambigus. Évalué sur un ensemble de 19 000 tweets hinglish liés à la guerre et aux conflits, le cadre a atteint une précision de 81 % (score F : 0,76) tout en réduisant les coûts opérationnels de 40 % par rapport à l’annotation manuelle. Les règles lexicales ont résolu 89 % des ambiguïtés de changement de code, et les raffinements itératifs ont permis des gains de précision incrémentiels de 72 % à 81 %. L’efficacité du système provient de la limitation de l’effort humain à 73 % de l’ensemble de données, avec un prétraitement automatisé des emojis, des hashtags et de l’argot. Cette étude est basée sur l’hypothèse que l’intégration de méthodes basées sur des règles lexicales avec l’apprentissage actif et l’apprentissage automatique peut améliorer la précision de l’annotation des émotions dans le texte hinglish, tout en réduisant simultanément l’étiquetage manuel et l’effort global d’annotation.