$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Emotie-annotatie in code-gemengde talen zoals Hinglish (Hindi-Engels) brengt unieke uitdagingen met zich mee vanwege de taalkundige complexiteit en beperkte middelen. Deze studie introduceert een hybride actief leerraamwerk dat lexicale regels, machine learning en iteratieve feedback van experts combineert om kostenefficiënte, zeer nauwkeurige emotie-annotatie te bereiken. Gebaseerd op psychologische theorieën over emotie, waaronder de Discrete Emotions Theory en de Cognitive Appraisal Theory, maakt het raamwerk gebruik van tweetalige emotiewoordenboeken (bijv. Gussa en woede in kaart brengen tot woede), subwoordtokenisatie voor samengestelde termen (bijv. opsplitsen
in
), en actief leren om dubbelzinnige steekproeven te prioriteren. Geëvalueerd op een dataset van 19.000 oorlogs- en conflictgerelateerde Hinglish-tweets, bereikte het framework een nauwkeurigheid van 81% (F-score: 0,76) terwijl de operationele kosten met 40% werden verlaagd in vergelijking met handmatige annotatie. Lexicale regels losten 89% van de ambiguïteiten bij het wisselen van codes op, en iteratieve verfijningen zorgden voor een incrementele nauwkeurigheidswinst van 72% naar 81%. De efficiëntie van het systeem komt voort uit het beperken van menselijke inspanning tot 73% van de dataset, met geautomatiseerde voorverwerking van emoji's, hashtags en jargon. Deze studie is gebaseerd op de hypothese dat het integreren van lexicale, op regels gebaseerde methoden met actief leren en machine learning de nauwkeurigheid van emotieannotatie in Hinglish-tekst kan verbeteren, terwijl tegelijkertijd de handmatige labeling en de algehele annotatie-inspanning worden verminderd.