Research Article

Machine learning en lexicale, op regels gebaseerde, kostenefficiënte emotie-annotatie van Hinglish-uitingen

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie combineert de op regels gebaseerde strategie met machine learning en deskundige hulp om de Hinglish- en Engelse tekst te annoteren. De gegevens zijn getest op 19,000 tweets met een nauwkeurigheid van 81% en het is veel goedkoper dan het handmatig te doen. Het kan nuttig zijn voor het volgen van emoties tijdens een crisis.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Emotie-annotatie in code-gemengde talen zoals Hinglish (Hindi-Engels) brengt unieke uitdagingen met zich mee vanwege de taalkundige complexiteit en beperkte middelen. Deze studie introduceert een hybride actief leerraamwerk dat lexicale regels, machine learning en iteratieve feedback van experts combineert om kostenefficiënte, zeer nauwkeurige emotie-annotatie te bereiken. Gebaseerd op psychologische theorieën over emotie, waaronder de Discrete Emotions Theory en de Cognitive Appraisal Theory, maakt het raamwerk gebruik van tweetalige emotiewoordenboeken (bijv. Gussa en woede in kaart brengen tot woede), subwoordtokenisatie voor samengestelde termen (bijv. opsplitsen figure-abstract-1 in figure-abstract-2), en actief leren om dubbelzinnige steekproeven te prioriteren. Geëvalueerd op een dataset van 19.000 oorlogs- en conflictgerelateerde Hinglish-tweets, bereikte het framework een nauwkeurigheid van 81% (F-score: 0,76) terwijl de operationele kosten met 40% werden verlaagd in vergelijking met handmatige annotatie. Lexicale regels losten 89% van de ambiguïteiten bij het wisselen van codes op, en iteratieve verfijningen zorgden voor een incrementele nauwkeurigheidswinst van 72% naar 81%. De efficiëntie van het systeem komt voort uit het beperken van menselijke inspanning tot 73% van de dataset, met geautomatiseerde voorverwerking van emoji's, hashtags en jargon. Deze studie is gebaseerd op de hypothese dat het integreren van lexicale, op regels gebaseerde methoden met actief leren en machine learning de nauwkeurigheid van emotieannotatie in Hinglish-tekst kan verbeteren, terwijl tegelijkertijd de handmatige labeling en de algehele annotatie-inspanning worden verminderd.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wanneer twee of meer talen in één regel of spraak met elkaar worden gemengd, wordt dit een codegemengde taal genoemd. Het is gebruikelijk in informele dialogen zoals Hinglish. Er zijn meerdere manieren waarop menselijke emoties kunnen worden begrepen, en het computationeel modelleren van een reeks emotionele uitspraken is het annoteren ervan door de mensen die die zinnen hebben uitgesproken. Het kan worden begrepen in termen van biologische, fysiologische, psychologische niveaus, enzovoort. Volgens wetenschappers zoals Roger Penrose zijn veel fenomenen in onze wereld niet-computationeel, en wetenschappers zoals Wolfram zijn van mening....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In dit deel wordt ook uitgelegd hoe het multimodale raamwerk voor 8 emotie-annotatie is geconstrueerd. De sectie begint met een bespreking van de eigenschappen van de dataset, gevolgd door de daaropvolgende procedures. Voor een beter begrip van de onderzoeksprocedure, zie Figuur 1.

figure-protocol-1
Figuur 1: Systematisch kader van emotie-annotatie. De figuur verklaart de effectieve emotie, annotatie van scharnierende tekst die ....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De bevinding van dit onderzoek suggereert dat de integratie van de lexicale regels met machine learning en actieve leertechnieken een levensvatbare weg biedt voor het verbeteren van de efficiëntie en nauwkeurigheid van emotie-annotatie in code-gemengde scharniertekst. Door iteratieve verfijning en suggesties van experts was het voorgestelde raamwerk in staat om opmerkelijke reducties in handmatige inspanning te bereiken, terwijl hoge prestaties in alle ev.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De dataset voor dit onderzoek is samengesteld met behulp van een combinatie van handmatige annotatie en actief leren. Aanvankelijk werden 10.040 Hinglish-tweets met betrekking tot oorlog en conflict handmatig gelabeld met acht vooraf gedefinieerde emoties. De dataset werd vervolgens uitgebreid tot 19.000 tweets met behulp van een semi-geautomatiseerde aanpak. Actief leren maakte selectieve interventie van experts mogelijk, waardoor handmatige inspanning met 40% werd verminderd met behoud.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs verklaren geen belangenconflict.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit onderzoek ontving geen externe financiering.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fastTextFacebook AIN/AWord representation and classification
Google ColabGoogleN/ACloud-based Jupyter Notebook environment
Google Colab GPU/TPUGoogleN/ACloud-based hardware acceleration
Intel Core i5/i7 or AMD Ryzen 5/7Intel / AMDN/AProcessor for local execution (if required)
MatplotlibOpen-sourceN/AData visualization library
NLTKOpen-sourceN/ANatural Language Toolkit for text processing
NumPyOpen-sourceN/ANumerical computing library
NVIDIA GTX 1650 or Higher (Optional)NVIDIAN/AGPU for deep learning tasks
PandasOpen-sourceN/AData manipulation library
Python Python Software FoundationN/AProgramming language for ML and NLP
PyTorchMeta AIN/ADeep Learning framework
RAM (8GB Minimum, 16GB Recommended)VariousN/AMemory requirement for ML tasks
Scikit-learnOpen-sourceN/AMachine Learning library
SeabornOpen-sourceN/AStatistical data visualization
SpaCyExplosion AIN/AIndustrial-strength NLP library
SSD Storage (256GB Minimum, 512GB Recommended)VariousN/AStorage for dataset processing
TensorFlowGoogleN/ADeep Learning framework

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles