Machine learning en lexicale, op regels gebaseerde, kostenefficiënte emotie-annotatie van Hinglish-uitingen

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Machine learning en lexicale, op regels gebaseerde, kostenefficiënte emotie-annotatie van Hinglish-uitingen

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie combineert de op regels gebaseerde strategie met machine learning en deskundige hulp om de Hinglish- en Engelse tekst te annoteren. De gegevens zijn getest op 19,000 tweets met een nauwkeurigheid van 81% en het is veel goedkoper dan het handmatig te doen. Het kan nuttig zijn voor het volgen van emoties tijdens een crisis.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Emotie-annotatie in code-gemengde talen zoals Hinglish (Hindi-Engels) brengt unieke uitdagingen met zich mee vanwege de taalkundige complexiteit en beperkte middelen. Deze studie introduceert een hybride actief leerraamwerk dat lexicale regels, machine learning en iteratieve feedback van experts combineert om kostenefficiënte, zeer nauwkeurige emotie-annotatie te bereiken. Gebaseerd op psychologische theorieën over emotie, waaronder de Discrete Emotions Theory en de Cognitive Appraisal Theory, maakt het raamwerk gebruik van tweetalige emotiewoordenboeken (bijv. Gussa en woede in kaart brengen tot woede), subwoordtokenisatie voor samengestelde termen (bijv. opsplitsen figure-abstract-1 in figure-abstract-2 ), en actief leren om dubbelzinnige steekproeven te prioriteren. Geëvalueerd op een dataset van 19.000 oorlogs- en conflictgerelateerde Hinglish-tweets, bereikte het framework een nauwkeurigheid van 81% (F-score: 0,76) terwijl de operationele kosten met 40% werden verlaagd in vergelijking met handmatige annotatie. Lexicale regels losten 89% van de ambiguïteiten bij het wisselen van codes op, en iteratieve verfijningen zorgden voor een incrementele nauwkeurigheidswinst van 72% naar 81%. De efficiëntie van het systeem komt voort uit het beperken van menselijke inspanning tot 73% van de dataset, met geautomatiseerde voorverwerking van emoji's, hashtags en jargon. Deze studie is gebaseerd op de hypothese dat het integreren van lexicale, op regels gebaseerde methoden met actief leren en machine learning de nauwkeurigheid van emotieannotatie in Hinglish-tekst kan verbeteren, terwijl tegelijkertijd de handmatige labeling en de algehele annotatie-inspanning worden verminderd.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wanneer twee of meer talen in één regel of spraak met elkaar worden gemengd, wordt dit een codegemengde taal genoemd. Het is gebruikelijk in informele dialogen zoals Hinglish. Er zijn meerdere manieren waarop menselijke emoties kunnen worden begrepen, en het computationeel modelleren van een reeks emotionele uitspraken is het annoteren ervan door de mensen die die zinnen hebben uitgesproken. Het kan worden begrepen in termen van biologische, fysiologische, psychologische niveaus, enzovoort. Volgens wetenschappers zoals Roger Penrose zijn veel fenomenen in onze wereld niet-computationeel, en wetenschappers zoals Wolfram zijn van mening dat alles (elk fenomeen) computationeel kan worden gemodelleerd¹. Penrose gelooft dat bewustzijn processen omvat (misschien gerelateerd aan de kwantummechanica in de hersenen) die verder gaan dan wat een stapsgewijze algoritmische procedure kan bereiken. Hij citeert vaak de onvolledigheidsstellingen van Gödel om het idee te ondersteunen dat menselijk wiskundig inzicht bijvoorbeeld formele systemen^{overstijgt 2}. Als bewustzijn niet-computationeel is, kunnen emoties, als een belangrijk aspect van bewuste ervaring, ook niet-computationele elementen hebben. Stephen Wolfram, bekend van Mathematica en zijn werk over cellulaire automaten, stelt het "Principe van Computationele Equivalentie" voor. Dit suggereert dat zelfs zeer complexe systemen, waaronder mogelijk het universum zelf en fenomenen daarin (zoals emoties), uiteindelijk kunnen worden beschreven en gemodelleerd door computationele regels, zelfs als die regels heel eenvoudig zijn en complex gedrag genereren. Maar praktisch gezien is dit niet mogelijk, en we hebben iemand nodig die een expert wordt genoemd of gewoon een annotator die emotieanalyse³ kan doen.

In dit onderzoek propageren we het idee van het bouwen van rekenmodellen. Maar dat model zal quasi-computationeel zijn. Ons onderzoek in deze context is gericht op computationeel van vorm, maar legt misschien niet alle aspecten perfect vast, waardoor er misschien ruimte overblijft voor complexiteiten die moeilijk of onmogelijk volledig te berekenen zijn. Emoties zijn moeilijk computationeel te modelleren omdat ze afhankelijk zijn van subjectieve ervaringen, culturele context en genuanceerde uitdrukkingen die niet volledig kunnen worden vastgelegd door middel van vaste algoritmen.

Daarom is het voor het modelleren van menselijke emoties met behulp van op variabelen gebaseerde computationele benaderingen noodzakelijk om menselijke emotionele uitingen te annoteren. Deze annotatie moet worden uitgevoerd door een expert of een annotator die bekwaam is in emotieanalyse¹. Het begrijpen van de complexiteit van menselijke emoties is geen gemakkelijke taak, vooral niet als het gaat om gemengde talen. Bovendien betekenen schaalproblemen dat het geen haalbare optie is om alleen te vertrouwen op handmatige annotatie door mensen. Recent onderzoek wijst op een consistente behoefte aan een human-in-the-loop-benadering bij het bouwen van systemen voor dergelijke complexe taken. Bijgevolg lijkt een semi-automatische aanpak, waarbij de meer eenvoudige delen worden geautomatiseerd en taken die menselijke nuance vereisen worden gereserveerd voor annotatoren, het meest geschikt voor het ontwikkelen van natuurlijke taalsystemen in dit domein.

Een menselijke annotator zal natuurlijk handmatig werken, en in het tijdperk van berekening is dit niet wat van hedendaagse wetenschappers wordt verwacht. Als de annotator (handmatig, halfautomatisch of volledig automatisch) in staat is om op intelligente wijze het type emotie te raden dat in de uitingen is belichaamd, uitingen die bestaan uit meerdere soorten emoties die worden uitgedrukt als symbolen, met spreektaal of code-gemengd en met behulp van meerdere modaliteiten, dan is de taak tegelijkertijd moeilijk en gemakkelijk. De complexiteit van emotie-annotatie in Hinglish-uitingen hangt af van de aard van de uitdrukking. Wanneer emoties duidelijk worden overgebracht met behulp van bekende woorden of emoji's, is annotatie relatief eenvoudig. De taak wordt echter een uitdaging wanneer uitingen meerdere emoties, code-mixing of dubbelzinnige symbolische uitdrukkingen met zich meebrengen. Daarom kan annotatie zowel gemakkelijk als moeilijk zijn, afhankelijk van hoe direct de emotie wordt uitgedrukt.

Hedendaagse benaderingen bij het identificeren van emoties en sentimenten gaan om met deze uitdagingen, waaronder de subjectieve aard van emoties, de ambiguïteit in menselijke uitdrukkingen, de complexiteit van code-gemengde talen zoals Hinglish, en de tijdrovende en inconsistente aard van handmatige annotatie. Geassocieerd met het bouwen van rekenmodellen en het beheren van vervelende annotatietaken. Recent onderzoek geeft aan dat onderzoekers een breed scala aan methoden gebruiken om dit doel te bereiken, waaronder machine learning, deep learning en verschillende hybride benaderingen. Recent onderzoek toont aan dat om deze problemen op te lossen, onderzoekers een verscheidenheid aan technieken gebruiken, zoals machine learning, deep learning en hybride modellen.

Recent onderzoek toont aan dat onderzoekers allerlei benaderingen gebruiken, waaronder machine learning, deep learning³ en hybride benaderingen. De term sentimentanalyse verwijst naar een procedure die wordt gebruikt wanneer wordt aangenomen dat de polariteit van de emoties een marker is om de rauwe emotie van mensen te begrijpen ^3,4. De ontwikkeling van dergelijke technologie heeft geholpen om stemming, sentimenten, spraak, gezichtsemoties en non-verbale signalen te herkennen, en heeft al zijn intrede gedaan in toepassingen die real-time vertaling mogelijk maken². Een multimodale aanpak zou kunnen worden gebruikt om Hinglish in het Engels te vertalen en kan in de toekomst nuttig zijn om de Indiase cinema toegankelijker te maken voor afgelegen samenlevingen ^5,6. In India is Engels bijvoorbeeld vaak de tweede taal. Onderzoek in deze context toont aan dat dit de kwaliteit van het Engelse onderwijs heeft verbeterd door Indiase spraak (mix-code taal) te analyseren op de expressiviteit, of mate van gevoel en emotie, van elk woord.

Binnen deze onderzoekscontext is aangetoond dat het gebruik van mixed-code taal in combinatie met vertaling de kwaliteit van het Engelse onderwijs verbetert. Dit wordt bereikt door de analyse van Indiase spraak (mixed-code taal) om de expressiviteit, of emotionele valentie, van elk woord te bepalen. Door de toepassing van deep learning om computers te trainen in spraakinterpretatie, heeft dit onderzoek de nauwkeurigheid van geautomatiseerde spraakanalyse al verbeterd en een beter begrip van communicatie mogelijk gemaakt ^4,5. Volgens de volkstellingsresultaten van 2001 wordt het Hinglish, een taal die een mix is van Hindi en Engels, momenteel door naar schatting 120 miljoen mensen in India^{gebruikt 6}.

Uit het hedendaagse landschap van leeralgoritmen is het duidelijk dat actief leren naar voren is gekomen als een krachtig hulpmiddel om de menselijke inspanning bij het annoteren van grote datasets aanzienlijk te verminderen, met name op het gebied van emotie-identificatie en -herkenning. Deze iteratieve aanpak, waarbij selectief impactvolle annotaties worden geannoteerd (met de juiste statistieken), verbetert niet alleen de nauwkeurigheid van de annotatie, maar verbetert ook de efficiëntie⁵. Eerdere studies hebben de effectiviteit ervan aangetoond bij het bereiken van een substantiële vermindering van de werklast voor handmatige annotatie, terwijl de prestaties met kleinere trainingsdatasets behouden blijven of zelfs worden verbeterd, en een op clusteranalyse gebaseerde methode wordt voorgesteld voor informatieve instantieselectie ^7,8. In de specifieke context van Hinglish-emotieherkenning hebben onderzoekers waardevolle bijdragen geleverd door middel van deep learning-modellen en een geannoteerde dataset met meerdere labels ^9,10,11. Eerdere studies^12,13 hebben actief leren en semi-gesuperviseerde methoden geïntroduceerd om de afhankelijkheid van door mensen gelabelde gegevens te minimaliseren, de efficiëntie verder te verbeteren en de annotatiekosten te verlagen. Bovendien is in veel projecten aangetoond dat actief leren de classificatieprestaties verbetert, met name in multi-label emotieclassificatie¹⁴.

De doeltreffendheid van actief leren bij het verbeteren van de prestaties van classificatoren is erkend in verschillende machine-learningtoepassingen. Studies ^15,16benadrukten de cruciale rol ervan bij het verbeteren van prestaties door zich te concentreren op educatieve toepassingen. Evenzo introduceerde een vroege studie een nieuw algoritme voor actief leren met ondersteunende vectormachines, waardoor de behoefte aan gelabelde instanties aanzienlijk werd verminderd¹⁷. Een ander werk onderzocht ook de toepassing ervan in taken met gestructureerde instanties, zoals tekstclassificatie¹⁸. De impact van actief leren op emotieherkenningstaken gaat verder dan efficiëntiewinsten, met name bij het minimaliseren van de afhankelijkheid van door mensen gelabelde gegevens. Eén studie introduceerde een multi-task raamwerk voor emotieclassificatie en regressie, dat de prestaties van single-task-methoden overtrof¹⁰.

Bovendien hebben onderzoekers¹⁹aanzienlijke vooruitgang geboekt op het gebied van spraak- en tekstemotieherkenning met behulp van actief leren, terwijl ze de effectiviteit ervan aantoonden²⁰ in gepersonaliseerde muziekemotieclassificatie. Het proces van het categoriseren en labelen van emoties vormt echter een aanzienlijke uitdaging, zoals benadrukt^21,22, vooral in de context van sentimentanalyse. Merkt op dat het gebruik van etiketten een aanzienlijke invloed kan hebben op de categorisering van emoties, met name voor later geleerde categorieën²³. Om deze uitdagingen aan te gaan, zijn verschillende algoritmen ontwikkeld, waaronder op trefwoorden gebaseerde en op leren gebaseerde methoden, die opmerkelijke nauwkeurigheidspercentages bereiken²⁴. Onderzoek naar emoties op basis van geschreven uitingen en teksten is onderzocht in tal van modellen, en benaderingen hebben een dimensionaal model geïmplementeerd met behulp van normatieve databases voor effectieve emotiedetectie²⁵. In een andere studie²⁶ verbeterde een cognitief emotiemodel een sequentiële methode die werd gebruikt voor het identificeren van sociale emotieoorzaken. De auteur gaf een computationele linguïstische interpretatie van het OCC-emotiemodel, terwijl een vergelijkbare studie²⁷een systeem voorstelde dat gebruikmaakt van ontologieën voor het weergeven van woordafhankelijkheidsrelaties en emoties. De auteurs van een studie²⁸bespraken de signalen die correleren met emotionele tekstverwerking, waarbij de nadruk werd gelegd op de aanpassing van de hersenen bij het uiten van emoties in geschreven taal. Het annoteren van meerdere reeksen ruwe emoties, inclusief die van de gegevens van meerdere modellen, is een uitdaging. Desalniettemin biedt het onderzoeken van emoties die verband houden met oorlog en conflict een wetenschappelijk en systematisch venster op de menselijke psyche onder extreme omstandigheden, waardoor we beter kunnen begrijpen hoe individuen en gemeenschappen omgaan met trauma, verlies en onzekerheid⁵. Een andere studie wees uit dat de annotatietechniek de genreclassificatie effectief verbeterde, waarbij de titelfunctie een cruciale rol speelde in het proces²⁹. Eén studie creëerde een 44K vision-touch-dataset met expert en GPT-4V om een tactiele encoder en een TVL-model voor tekstgeneratie³⁰ te trainen. Een andere studie onderzocht opinie- en trendmining over politieke tweets, met de nadruk op het actieve leerproces om automatisch Franstalige tweets over politici te annoteren⁴¹. Een andere studie introduceerde CloudFlows, een cloudgebaseerd wetenschappelijk workflowplatform dat is ontworpen voor dynamische adaptieve centrale analyse in datastromen. Het maakt actief leren mogelijk om de sentimentclassificatie te verbeteren, waardoor het algoritme zich kan aanpassen aan veranderingen in realtime gegevens⁴².

Er is een duidelijke spanning tussen de complexiteit van de menselijke emotie en het verlangen naar geautomatiseerde emotieanalyse. Er bestaat een inherente spanning tussen de complexiteit van de menselijke emotie en het doel van geautomatiseerde emotieanalyse. Het grootste deel van het hedendaagse werk erkent de beperkingen van handmatige annotatie en benadrukt de noodzaak van geavanceerde computationele methoden om de uitdagingen van het begrijpen van emoties in verschillende vormen van communicatie aan te pakken. Dit ideale scenario is grotendeels onpraktisch, d.w.z. het verkrijgen van annotaties van de mensen die de zinnen hebben geschreven of uitgesproken⁴³. Het ideale scenario voor het verkrijgen van gegevens, met name het verkrijgen van annotaties rechtstreeks van de personen die de zinnen hebben geschreven of uitgesproken, is grotendeels onpraktisch. Deze onbruikbaarheid komt voort uit de onmogelijkheid om dergelijke gepersonaliseerde annotaties op grote schaal te verzamelen en te verwerken. Daarom moeten de huidige inspanningen vertrouwen op deskundige annotators of geautomatiseerde algoritmen voor emotiedetectie om emoties die in tekst worden uitgedrukt te analyseren en te labelen. In dit onderzoekswerk hebben we geprobeerd enkele aspecten van deze domeinuitdagingen te overwinnen. De belangrijkste bijdragen op dit probleemgebied worden hieronder⁴⁴ gepresenteerd.

Daarom moeten we vertrouwen op experts of annotators en algoritmen voor emotiedetectie om de emoties die in tekst worden uitgedrukt te analyseren en te labelen. Het is onmogelijk om dergelijke gepersonaliseerde annotaties op grote schaal te verzamelen en te verwerken. Daarom hebben we in dit onderzoekswerk geprobeerd enkele aspecten van deze domeinkennis te overwinnen. Hieronder volgen de belangrijkste bijdragen op dit probleemgebied.

Het framework werkt samen met op regels gebaseerde methoden zoals emotietagging, codemixdetectie en emoji-interpretatie met machine learning-technieken zoals Random Forest en woordinbeddingen, waardoor de nauwkeurigheid van annotaties wordt verbeterd en handmatige inspanning wordt verminderd. Het iteratieve leren van de classificatie maakt gebruik van actief leren en overdrachtsleren om dubbelzinnige functievoorbeelden te prioriteren, waardoor er minder hard werken nodig is. Deze aanpak verminderde de operationele kosten met 40% in vergelijking met harde handmatige etikettering.

Om de nuances van Hinglish op een gedetailleerd niveau te verwerken, werd een aangepaste contextgevoelige tokenisatiemethode ontwikkeld. Deze aanpak verwerkt gecodeerde tekst door rekening te houden met taalwisseling, interpunctie, emoji's en subwoordsegmentatie, waardoor nauwkeurigere emotieannotatie in gemengde Hindi-Engelse tekst mogelijk is. Op een gedetailleerd niveau hebben we aangepaste contextgevoelige tokenisatie ontwikkeld voor Hinglish-tekst. Het raamwerk pakt de complexiteit van code-gemengde tekst aan door tweetalige emotiewoordenboeken, tokenisatie van subwoorden en aangepaste contextgevoelige tokenisatie op te nemen. Lexicale regels losten 89% van de dubbelzinnigheden bij het wisselen van codes op.

Ons werk is gebaseerd op gevestigde psychologische theorieën over emotie, zoals de Discrete Emotions Theory en de Cognitive Appraisal Theory. Het onderzoek toont de schaalbaarheid aan van de aanpak voor crisisrespons en monitoring van sociale media, en biedt een blauwdruk voor meertalige NLP-toepassingen met weinig middelen.

Tabel 1 geeft een overzicht van de beschikbare studies voor hetzelfde probleemdomein. Uit het literatuuronderzoek en de samenvatting in tabelvorm kan worden afgeleid dat de meeste onderzoeken niet ontkomen aan wat eerste werk aan annotatie met behulp van handmatige methoden. Weinig onderzoekers volgen semi-automatische benaderingen⁴¹. Het echte verschil in prestaties komt echter voort uit het gebruik van een effectief leermodel dat het proces van annotatie kan automatiseren. De emotionele inhoud van de tweets moet overeenkomen met theorieën die de paden van de emoties van mensen en de organisatie van sentimenten verklaren. In het volgende deel wordt het probleem gedefinieerd op basis van de beperkingen van bestaande benaderingen en de empirische resultaten van de papers.

Studeren	Dataset	Emotie	Methoden	Domein	Etikettering proces	Hiaten	Toekomstige reikwijdte
[31]	9.000.000 Tweets	spanning, depressie, woede, kracht, vermoeidheid,	Verwarringsprofiel van stemmingstoestanden	Engels	Geen etikettering	De studie gaat voorbij aan subtiele emotionele verschillen zoals verrassing, vreugde of angst, wat suggereert dat emotielabeling de interpreteerbaarheid en granulariteit van sentimenttrends kan verbeteren, met name met betrekking tot sociaaleconomische gebeurtenissen.	Het zou kunnen onderzoeken hoe een reeks emotionele uitingen in gegevens van sociale media beter kan worden vastgelegd en onderzocht door gebruik te maken van geautomatiseerde categorisatiemethoden en gevestigde emotietaxonomieën.
[32]	7000 Tweets	woede, walging, angst, vreugde, liefde, verdriet,	Ondersteuning Vector Machine	Engels	Handmatig	De generaliseerbaarheid van de dataset is beperkt vanwege de onderwerpspecificiteit en het gebrek aan representativiteit van het totale Twitter-gebruik. Vanwege subjectieve interpretatie en minimale context, die wordt weergegeven in een bescheiden overeenkomst tussen annotators, is het een uitdaging om emoties te annoteren in korte, informele tweets.	Toekomstig werk zal zich richten op het ontwikkelen van verbeterde emotiedetectiemodellen door onderscheid te maken tussen onderwerpspecifieke en emotiespecifieke taalstijlen, waardoor een nauwkeurigere classificatie in verschillende tweetcontexten mogelijk wordt.
[33]	21.000 Tweet	woede, walging, angst, vreugde, verdriet, verrassing	Ondersteuning Vector Machine	------	Hashtag gebruiken	Bestaande emotie-gelabelde corpora zijn beperkt in omvang en domein, en missen grote, diverse datasets voor microblogs. Tweets zijn kort, luidruchtig en contextbeperkt, waardoor nauwkeurige emotiedetectie en annotatie moeilijk is.	In de toekomst kan de studie bestaan uit het uitbreiden van het emotielexicon met synoniemen en extra hashtags om de dekking en detectienauwkeurigheid te verbeteren.
[34]	16485 Tweets	woede, walging, angst, vreugde, verdriet, verrassing	Ondersteuning voor vectorregressie	Chinees	Handmatig	Traditionele methoden voor emotieclassificatie zien vaak de onderliggende oorzaak van emoties over het hoofd, waardoor de kwaliteit van de kenmerken wordt beperkt. Het nauwkeurig extraheren van emotieoorzaken uit korte, informele microblogposts vereist robuuste, op regels gebaseerde systemen en domeinkennis.	Verdere verkenning van de analyse van emotieoorzaken kan emotiedetectiemodellen verbeteren en nieuwe richtingen openen in het begrijpen van tekstuele emoties.
[35]	10.040 Tweet	Angst, hoop, vreugde, woede, verrassing, verdrietig, walging	LDA, overeenkomst tussen beoordelaars	Scharnierend	Handmatig	Er is een gebrek aan openbaar beschikbare, gestructureerde datasets voor Hinglish, vooral die welke pragmatische en emotionele nuances vastleggen in crisisgerelateerde inhoud. Hinglish is een niet-standaardtaal met code, en regionale variaties bemoeilijken een nauwkeurige sentimentanalyse en annotatie.	Om multimodale datasets uit te breiden, diepgaande pragmatische analyse te integreren met machine learning-modellen en schaalbaarheid aan te pakken voor real-time emotietracking in conflictdiscours.
[36]	134.000 tweets	Actief, inactief blij, ongelukkig	Ondersteuning voor vectormachine en k-dichtstbijzijnde buren	Scharnierend	Hashtags gebruiken	Het handmatig labelen van tweets is arbeidsintensief en inconsistent, waardoor grootschalige inspanningen voor emotieclassificatie worden beperkt Crowdsourced annotaties zijn niet betrouwbaar, vooral bij het identificeren van niveaus van emotie-opwinding, waarbij subjectiviteit bij emotie-interpretatie wordt benadrukt.	Richt u op het verfijnen van op hashtags gebaseerde labeling en het uitbreiden van emotiedetectiemodellen voor verbeterde nauwkeurigheid en generaliseerbaarheid in diverse emotionele contexten.
[37]	3.000 studenten, psychologen en niet-psychologen uit 37 landen	Vreugde, angst, woede, verdriet, walging, schaamte en schuldgevoel.	--	-----	Handmatig	Beperkte verkenning van hoe culturele factoren de regulatie en expressie van specifieke emoties in diverse samenlevingen beïnvloeden. Het balanceren van bewijs voor universele emotionele patronen met cultureel specifieke variaties in het opwekken en interpreteren van emoties blijft complex.	Verdere studies moeten de interactie tussen biologische universaliteit en culturele context bij het vormgeven van emotionele ervaring en communicatie onderzoeken
[38]	12000	Geluk, verdriet en woede	Overeenkomst tussen beoordelaars	Hindi+Engels	Handmatig	Huidig onderzoek mist een uitgebreide, geannoteerde dataset en gestandaardiseerde modellen voor Hinglish-emotiedetectie. De onregelmatige grammatica en het gemengde karakter van teksten op sociale media maken een nauwkeurige emotieclassificatie moeilijk.	Toekomstig werk zal zich richten op het uitbreiden van emotiecategorieën en het ontwikkelen van grotere, meertalige code-gemengde datasets.
[39]	2866	Geluk, verdriet, woede, verrassing en verdriet	Ondersteuning Vector Machine	Hinglish (Hindi+Engels)	Handmatig	Gebrek aan door emoties geannoteerde code-gemengde datasets. De expressie van emoties in tekst met codemix varieert per taal en script, waardoor annotatie en classificatie complex zijn.	Toekomstig werk zou het corpus kunnen uitbreiden met meer emotionele diversiteit, het taggen van spraakdelen kunnen integreren en meertalige codegemengde inhoud kunnen verkennen.
[40]	13738	---	Machinevertaling Google Translator	Scharnierend	Handmatig	Bestaande machinevertaalsystemen zijn niet nauwkeurig met betrekking tot code-gemengde gegevens op sociale media vanwege het ontbreken van grote, domeinspecifieke parallelle corpora. Hoge spellingsvariatie, informele structuur en ambiguïteit in taalidentificatie bemoeilijken de vertaling van geromaniseerde Hindi-Engelse tekst.	Het corpus kan de ontwikkeling van code-gemengde vertaalsystemen ondersteunen en worden uitgebreid naar andere talen met weinig bronnen en NLP-taken, zoals herkenning van benoemde entiteiten
[41]	11527	positief, zeer positief en negatief, zeer negatief	kNN-gebaseerde classificatie, BOW-vertegenwoordiging	Franse politici	Handmatig	Beperkte beschikbaarheid van hoogwaardige geannoteerde datasets voor politieke opiniepeiling in niet-Engelse talen. Het balanceren van annotatieruisonderdrukking met het vasthouden van informatie en het omgaan met ongelijke labeldistributie in grootschalige tweet-datasets zijn belangrijke problemen.	Toekomstig werk kan actieve leermethoden verfijnen om kritieke inhoud beter te behouden en tegelijkertijd annotatieruis in meertalig politiek discours te minimaliseren.
[42]	764,416	---	Kmeans Clustering, SVM	Engels	Semi-begeleid	Real-time labeling en modelupdates in sentimentanalyse worden beperkt door de variabiliteit van de gegevensstroom, de labelkosten en de schaalbaarheid van het systeem.	Toekomstig werk zal de classificatie van sentimenten met meerdere klassen onderzoeken, aanvullende labelstrategieën integreren en de controle over de initiële modelgeneratie uitbreiden

Tabel 1: Beschikbare studies met bijbehorende etiketteringsmethoden. De tabel geeft een compleet vergelijkend overzicht van de bestaande studies, waarbij de emotie-annotatie wordt behandeld en het methodologische landschap wordt vastgesteld en de bijdrage van het huidige werk aan de bestaande literatuur wordt geconceptualiseerd.

Probleemstelling
De meest bestudeerde emoties in annotatie worden sterk beïnvloed door fundamentele psychologische modellen zoals die van Ekman en Plutchik, die zich voornamelijk richten op kerncategorieën zoals woede, angst, geluk, verdriet, verrassing, enzovoort⁴⁴. Daarom willen we in dit onderzoek werken aan gevestigde connotaties van emoties. De uitdaging is om een dynamisch computationeel raamwerk te ontwikkelen, F, dat in staat is om Hinglish-tekstinstanties (ti) nauwkeurig te annoteren uit een corpus T gericht op oorlogen en conflicten met emotielabels (ei) uit een vooraf gedefinieerde set E = {e₁, e₂, ..., e₈}. Dit raamwerk moet principes uit de Constructionist Theory of Emotion, Affective Events Theory (AET), Discrete Emotions Theory en Cognitive Appraisal Theory synthetiseren om het veelzijdige emotionele landschap van conflictgerelateerd discours te modelleren. Elke tekstinstantie ti in T is taalkundig complex en combineert Hindi (in Romeins schrift), Engels, emoji's en symbolen, waardoor een gelaagde aanpak nodig is om genuanceerde emotionele uitingen vast te leggen.

Het computationele model van emoties met betrekking tot oorlog (als casestudy) kan een veelzijdige benadering omvatten, te beginnen met lexicale regels die ingaan op op Hinglish gebaseerde nuances. Tokenization, aangeduid als T, omvat Romeins schrift (Hindi geschreven in Romeins schrift), samen met emoji's en interpunctie, die de basis vormen van taalverwerking. emotiewoordenboeken, weergegeven als D, wijzen woorden in verschillende talen toe aan specifieke emoties, zoals woede, vreugde en andere, waarbij elke emotion_i words_j in language_k heeft geassocieerd. Subwoordontleding, S, splitst samengestelde termen op in hun samenstellende subwoorden, waardoor een dieper begrip van complexe uitdrukkingen mogelijk wordt. Vervolgens maken machine learning-technieken, M, gebruik van inbeddingen, E, zoals Word2Vec/fastText, om tokens om te zetten in vectorrepresentaties, vector_v, waardoor numerieke analyse wordt vergemakkelijkt. Ensemble-classificaties, C, voorspellen, zoals Random Forest, vervolgens emotielabels, emotion_label_p, uit deze vectorsets. Om het annotatieleermodel iteratief te verbeteren, wordt een actief leermechanisme, AL, gebruikt. Feedback van experts, F, verfijnt dubbelzinnige gevallen, ambiguous_sample_q, door refined_label_r toe te kennen en cruciale correcties te bieden. Steekproefprioritering, P, richt zich op steekproeven met een lage betrouwbaarheid, low_confidence_sample_s, en wijst ze toe annotation_priority_t, waardoor het annotatieproces wordt geoptimaliseerd.

Door deze componenten en theorieën te integreren, heeft dit raamwerk tot doel Hinglish-tekst dynamisch te verwerken, taalkundige en culturele nuances te overbruggen en emotieannotaties adaptief te verfijnen, en een schaalbare oplossing te bieden voor het analyseren van affectieve dimensies in conflictdiscours.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In dit deel wordt ook uitgelegd hoe het multimodale raamwerk voor 8 emotie-annotatie is geconstrueerd. De sectie begint met een bespreking van de eigenschappen van de dataset, gevolgd door de daaropvolgende procedures. Voor een beter begrip van de onderzoeksprocedure, zie Figuur 1.

figure-protocol-1
Figuur 1: Systematisch kader van emotie-annotatie. De figuur verklaart de effectieve emotie, annotatie van scharnierende tekst die machine learning, actief leren en dynamische lexiconregels combineert door middel van input van experts, verkeerd geclassificeerde voorbeelden worden geleidelijk verbeterd om de nauwkeurigheid te vergroten en de kosten van annotatie te verlagen. Klik hier om een grotere versie van deze figuur te bekijken.

Voorbereiding van datasets
Het verzamelen van gegevens begint met het identificeren van een uitgebreide lijst met trefwoorden en hashtags met betrekking tot oorlog, conflicten en bijbehorende emoties. Bronnen zoals academische literatuur, nieuwsartikelen en trends op sociale media werden gebruikt om relevante en bestaande lijsten samen te stellen.

Volgens figuur 1 zijn menselijke experts, nadat het verzamelen van tweets en de voorverwerking van de gegevens is voltooid, betrokken bij het handmatig labelen en het maken van lexicale regels die moeten worden opgenomen om het annotatieproces te verbeteren. Met behulp van deze trefwoorden (conflict, oorlog, crisis, gussa, enz.) werd een eerste dataset van 10.040 tweets verzameld en diende als basis voor handmatige labeling, waarbij elke tweet werd geannoteerd met acht vooraf gedefinieerde emoties (woede, angst, geluk, verdriet, frustratie, mededogen, gemengd, andere die relevant zijn voor het oorlogs- en conflictdomein. Het handmatige labelproces werd uitgevoerd door een team van experts die zowel het Hindi als het Engels machtig zijn, zodat de nuances van het Engels nauwkeurig worden vastgelegd.

Hieronder wordt een voorbeeld van een verwerking beschreven.

Tokenisatie en voorverwerking:
Input Tweet: "Mujhe Bhayanak lag raha hai figure-protocol-2 "
Tokenized uitvoer: ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-3 "]
Verwerking van Romeins schrift: Hindi-woorden ("Mujhe", "Bhayanak") blijven behouden in het Romeinse schrift.
Emoji-/symbooldetectie: "" is geïsoleerd als een symbolisch token.

Emotie woordenboek in kaart brengen (D):
Wijs tokens toe aan emoties in E met behulp van tweetalige (Hindi / Engels) emotielexicons: "Bhayanak" (Hindi voor "verschrikkelijk") → Angst; "lag raha hai" (contextuele uitdrukking die voortdurende emotie impliceert) → Angst; " figure-protocol-4 " → woede

Subwoord Ontleding (S):
Ontleed complexe termen voor een diepere analyse: "Bhayanak" → ["Bhay" (angst), "anak" (achtervoegsel)] om de semantische wortel in angst te verduidelijken.

Generatie inbedden (E):
Genereer token-inbeddingen met behulp van Word2Vec/fastText: Inbeddingen voor ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-5 "] → vectoren v₁, v₂, v₃, v₄, v₅, v₆.
Aggregatieregel: Gemiddelde token-inbeddingen om een wereldwijde semantische vector te maken:
V_avg = (v₁ + v₂ + v₃ + v₄ + v₅ + v₆) / 6

Extractie van op regels gebaseerde functies:
Extraheer hulpelementen voor aaneenschakeling. Emotion Tag Counts: Angst: 2 keer ("Bhayanak", "lag raha hai"); Woede: 1 instantie (" figure-protocol-6 ").
Code-Switch Flag: Binaire vlag = 1 (gemengde Hindi en Engelse tokens: "Mujhe" [Hindi], "lag", "raha", "hai" [Hindi-afgeleid]).

Functie Fusie:
Combineer geaggregeerde inbeddingen en op regels gebaseerde functies in een uniforme invoervector: Globale semantische vector = V_avg (gemiddelde inbeddingen), Emotie telt = [Angst: 2, Woede: 1, Overige: 0], Code-Switch Flag = 1
Aaneenschakelingsregel Uiteindelijke invoervector = V_avg figure-protocol-7 [Angst: 2, Woede: 1, Anderen: 0] figure-protocol-8 [1]
Het machine learning-algoritme verwerkt deze uiteindelijke vector en het iteratieve proces van annotatieverbetering begint. In het volgende deel bespreken we de prestaties van de Active learning-methode die voor dit doel is gebruikt.

Hierna werd de dataset uitgebreid tot 19.000 tweets. Deze dataset is samengesteld met behulp van een combinatie van geautomatiseerde en semi-geautomatiseerde technieken, waarbij gebruik is gemaakt van het inzicht dat is verkregen uit de eerste handmatige annotatie. De uitgebreide dataset werd verder verfijnd vanuit een iteratief leerproces, waarbij het ging om het selectief identificeren en prioriteren van dubbelzinnige gegevens/tweets voor deskundige annotatie en feedback van domeinexperts om de nauwkeurigheid, consistentie en efficiëntie van annotatie te verbeteren. Tijdens het hele gegevensverzamelingsproces werd speciale aandacht besteed aan het bewaren van het evenwicht tussen de verschillende emoties, zodat de dataset representatief was voor de verschillende sentimenten die over oorlog en conflict werden geuit. De resulterende dataset is een waardevolle bron voor het analyseren van Hinglish-tekst. Voor een beter begrip kan worden verwezen naar figuur 2 .

figure-protocol-9
Figuur 2: Procedure voor het verzamelen van datasets. De figuur toont de ontwikkeling van de dataset, van seed-woordidentificatie tot handmatige labeling, gevolgd door actief leren, tot de uiteindelijke geannoteerde dataset. Klik hier om een grotere versie van deze figuur te bekijken.

De definitieve voorbereiding van de dataset wordt gedaan na het voltooien van het iteratieve verfijningsproces met behulp van actief leren. Actief leren werd gebruikt in een hybride raamwerk dat lexicale regels, machine learning en iteratieve input van experts omvatte om de emoties van Hinglish-uitingen te annoteren. De stappen waren als volgt:

Het proces begint met een handmatig gelabelde gegevensset. Met behulp van een Random Forest-classificatie, die werd gebruikt om dubbelzinnige tweets te identificeren waar het machine learning-model niet zeker van was. Stuur deze dubbelzinnige voorbeelden voor categorisering naar menselijke experts. Het model werd herhaaldelijk bijgewerkt met behulp van de recent geannoteerde gegevens, waardoor de nauwkeurigheid geleidelijk verbeterde en verkeerde classificaties werden verminderd. Voltooi de dataset en controleer de annotaties om nauwkeurigheid te garanderen. Bereid de dataset voor op analyse en zorg ervoor dat deze correct is gedocumenteerd en geformatteerd voor toekomstig gebruik om te implementeren in downstream-gevallen. Het is echter belangrijk om de patronen van emoties die in de uitingen zijn ingebed, te onderzoeken, zodat toekomstige stappen duidelijker worden in termen van implementatie. Daarom zal in de volgende stap clusteranalyse worden uitgevoerd om dominante emoties te vinden die in de dataset zijn ingebed. Dit helpt ook bij het identificeren van de emoties die we onderzoeken.

Selectie van emotieclusters
Tabel 2 toont de emotiegroepen en hun Hinglish-equivalenten, samen met de reden voor het selecteren van de respectievelijke emoties. Uit elke groep emoties is een dominante emotie geselecteerd voor verdere verwerking. Deze dominante emoties worden geselecteerd uit clusteranalyse.

Emotie Groep	Hinglish Equivalent	Rechtvaardiging van selectie
Angst (inclusief angst en paniek)	Dar, khauf, Asahaj, Bekabu, Angadai, Chinta, spanning, Fikr, Ashanka, Udaasi, Bechaini, Ghabrahat	Angst is een veel voorkomende emotie in oorlog en conflicten, aangezien individuen worden bedreigd voor hun veiligheid en welzijn. Deze angst kan zich op verschillende manieren manifesteren, zoals angst, paniekaanvallen en hypervigilantie.
Woede (inclusief irritatie, vijandigheid, frustratie en pijn)	Gussa, raag, Prakop, Raudra, Chidhaan, Shatruta, Krodh, Gussa dilana, apata, Atyachar, Khushfehmi, hairani, Bhayanak, Chakker Kathinaai	Woede is een andere veel voorkomende emotie in oorlog en conflicten, vaak voortkomend uit gevoelens van onrechtvaardigheid, verraad of verlies. Deze woede kan agressie en geweld aanwakkeren, wat bijdraagt aan de destructieve aard van deze conflicten.
Verdriet (inclusief verdriet, wanhoop en hopeloosheid)	Udaasi, gham, Shok, Bhavuk, Dukhi, Udas, Vismay, Nirasha, Shok, Dukhi, Vairagya, Aashank, Vishada, Bhavuk, Dukhi, Udas, Vinamrata, Bhavuk, Hridaytoda, Beumaar, nirasha, Vinaash, Bair, Nirasha, Asambhav, Haar	Verdriet is een natuurlijke reactie op verlies en verdriet, wat helaas veel voorkomende ervaringen zijn in oorlog en conflict. Soldaten kunnen verdriet ervaren over het verlies van kameraden, burgers kunnen rouwen om dierbaren die zijn gedood of ontheemd, en hele gemeenschappen kunnen rouwen om het verlies van hun huizen en manier van leven. Gevoelens van wanhoop en hopeloosheid kunnen ook ontstaan als gevolg van de langdurige aard van het conflict en de schijnbaar eindeloze cyclus van geweld.
Schaamte en schuldgevoel	Sharm, lajjabari, Sharm, Laaj, Zillat, Afsos, Gunah, Afsos, Pashchatap, Laaj, Bechaini, Aatmasamarpan, Sharmindagi, Ashru, Pashchatap, Antaratma, Kasoor, gunaah, Khud ko doshi maana, Ninda, Dosha	Schaamte en schuldgevoel zijn complexe emoties die kunnen voortkomen uit gevoelens van persoonlijk of collectief wangedrag, ontoereikendheid of vernedering. In oorlog en conflict kunnen individuen schaamte of schuldgevoelens ervaren over hun daden, hun onvermogen om schade aan anderen te voorkomen, of hun overleving terwijl anderen zijn omgekomen.
Walging	Ghin, nafrat, Asahayak, Pratikool, Ghrina, Vairagya, Dvesha, Nakaratmak, Vibhavsu, Vairagya, Vairagya, Nirasha	Walging is een gevoel van afkeer of afkeer van iets dat als onsmakelijk of aanstootgevend wordt ervaren. In oorlog en conflict kunnen individuen walging ervaren als reactie op daden van wreedheid, geweld en barbaarsheid.
Empathie en mededogen	Sahaaanubhuti, hamderdari, Samajhdari, Daan Sahabhooti, Gevoeligheid, Ondersteuning, Overweging, Vriendelijkheid, Zorgzaamheid, Warmte, Tederheid, Daya, Raham, Sahaaanubhuti, Sahyog, Dayalu, Samajh, Pyar, Daya, Narami, Paropkari	Empathie en mededogen zijn essentieel om de gevoelens van anderen te begrijpen en te delen. In oorlog en conflict kan empathie een krachtig hulpmiddel zijn om contact te maken met anderen die soortgelijke ervaringen hebben meegemaakt, mededogen te bevorderen en verzoening te bevorderen. Mededogen kan mensen motiveren om mensen in nood te helpen en bij te dragen aan genezing en wederopbouw.
Hoop en dankbaarheid	Umeed, aasha, Chah, Ichha, Sapna, Unnati, Ashvasan, Khushi, Utsaah, Ashirwad, Samvedansheelata, Vishwas, Bharosa, Shukraguzaar, eshaananand, Shukrana, Aabhaar, Namrata, Samaanya, Naman, Aasherewad, Badhai, Dhanyavaad, Abhivadn, Manobhav, Bhakti	Hoop is een gevoel van optimisme en verwachting dat er iets goeds zal gebeuren, ondanks de uitdagingen en moeilijkheden waarmee we worden geconfronteerd. Dankbaarheid is een gevoel van dankbaarheid en waardering voor de goede dingen in iemands leven. In oorlog en conflict kan hoop een bron van kracht en motivatie zijn, waardoor mensen kunnen volharden en werken aan een betere toekomst. Dankbaarheid kan mensen helpen zich te concentreren op de positieve aspecten van hun leven, veerkracht te bevorderen en een gevoel van vrede te cultiveren te midden van de onrust.
Veerkracht	Jheelaanek, himmat, Sahasi, Sahas, Dhairya, Majbooti, Samvedansheel, Samarthya, Majbuti, Lachari	Veerkracht is het vermogen om je aan te passen en om te gaan met moeilijke of uitdagende situaties. In oorlog en conflict is veerkracht essentieel voor individuen en gemeenschappen om te overleven en door te zetten in tijden van tegenspoed.

Tabel 2: Rechtvaardiging voor de selectie van emoties. De tabel brengt emotiegroepen in kaart met hun Hinglish-equivalenten en legt hun relevantie uit in contexten van oorlog en conflict.

Er moet echter worden opgemerkt dat de selectie van deze emoties niet alleen gebaseerd is op clusteranalyse, maar ook gebaseerd is op de theorieën van emoties, waaronder de Cognitive Appraisal Theory (CAT), de Discrete Emotions Theory (DET) en de Process-Oriented Theory (POT) van Emotion⁴³.

Details van het corpus
De dataset bestaat uit domeinspecifieke (oorlogen, conflicten en crises) en aanvullende tweet-datasets die een mix van Hindi- en Engelse tweets bevatten. Figuur 3 is een momentopname van de tweet-datasets die openbaar beschikbaar zijn en die voor dit onderzoekswerk worden verwerkt. De primaire dataset is openbaar beschikbaar op https://data.mendeley.com/datasets/y63frd6pmf/7.

figure-protocol-10
Figuur 3: Corpus details. De beschikbaarheid van de dataset wordt hier toegelicht. Klik hier om een grotere versie van deze figuur te bekijken.

Annotatie van emotielabels
Een eerste corpus van 10.040 Hinglish-tweets met betrekking tot oorlog en conflict werd handmatig geannoteerd met acht emotielabels door tweetalige experts. Om de taalkundige complexiteit van code-gemengde tekst aan te pakken, werd een lexicaal, op regels gebaseerd raamwerk ontwikkeld, dat verschillende componenten omvat. Het raamwerk bevat emotiespecifieke woordenboeken die Hindi/Engelse termen toewijzen aan emoties, zoals fear_words = {Fear, Dread, Bhayanak, figure-protocol-11 , Terror, figure-protocol-12 } en anger_words = {gussa, rage, figure-protocol-13 , irritatie, figure-protocol-14 }. Meertalige equivalentieregels koppelden de termen aan elkaar (bijv. als (Ae == Ah): woede = gussa | figure-protocol-15 ). Lexicale regels zoals emotiewoordenboeken, tokenisatie voor gemengde talen en ontleding van subwoorden worden gebruikt. Om emoties te annoteren, verwerken deze regels tekst voor en extraheren ze functies, die vervolgens worden gecombineerd met inbeddingen van machine learning⁴⁵.

Voor tokenisatie gebruikte het framework aangepaste regels voor taalwisseling, interpunctie, emoji's en tokenisatie van subwoorden. Hindi (Devanagari) tekst werd gesymboliseerd op tekenniveau, terwijl Engels (Romeins) witruimte gebruikte. Voorbeeld: Mujhe frustratie hai → [Mujhe, frustratie, hai]. Speciale tekens zoals hashtags (#) en vermeldingen (@) werden geïsoleerd als individuele tokens (bijv. #WarCrimes → [#, WarCrimes]), terwijl leestekens zoals komma's (,) en uitroeptekens (!) werden opgesplitst in afzonderlijke tokens (bijv. figure-protocol-16 → figure-protocol-17 , !]).

Emoji's werden ook behandeld als op zichzelf staande tokens en toegewezen aan emoties (bijv. figure-protocol-18 → woede, figure-protocol-19 → verdriet). Subwoordtokenisatie gedaan met het Devanagari-schrift waarin samengestelde woorden werden gesplitst met behulp van regex-patronen voor Sandhi-regels (bijv. figure-protocol-20 ] [koninkrijk + wereld]) en voorvoegsels/achtervoegsels van Romeins schrift werden gesegmenteerd (bijv. ongelooflijk → [un, geloofwaardig]). Voor domeinspecifieke uitbreiding werden tokens vervangen door emotielabels als ze in woordenboeken overeenkwamen. Bijvoorbeeld: Bhayanak → angst, Dahad" → angst, gussa → woede. Tweet Mujhe Bhayanak lag raha hai → Tokens [Mujhe, angst, lag, raha, hai].

Na vectorisatie werden de verwerkte tokens (woorden, subwoorden, emoji's) geconverteerd naar 300-dimensionale inbeddingen met behulp van Word2Vec/fastText. De numerieke representaties in kolomvectoren van tokens, een matrix van vectoren die overeenkomen met tokens. Elke rij komt overeen met een inbeddingsvector die is gekoppeld aan een token in de tekst, die de volgorde van het token weergeeft. Kolommen in een rij geven de afmetingen in de invoegruimte aan. De vectoren bevatten reële getallen die zijn berekend met behulp van Word2Vec en FastText. Tokens met nulvectoren, weergegeven door rijen met allemaal nulwaarden, kunnen spaties of speciale tekens aanduiden die geen betekenisvolle informatie bevatten in deze weergave. Inbeddingen zijn bedoeld om contextuele woordrelaties vast te leggen voor een betere annotatie. Vectoren die niet nul zijn, geven betekenisvolle representaties van woorden of symbolen aan. Waarden in deze vectoren coderen voor verschillende semantische en syntactische kenmerken. Nulvectoren vertegenwoordigen doorgaans opvulling, spatie of niet-herkende tokens. Variabiliteit in waarden weerspiegelt de rijkdom aan functies die door het inbeddingsmodel worden vastgelegd. Verschillende vectordimensies leggen verschillende aspecten van de betekenis, context en het gebruik van een woord vast. Figuur 4 laat zien hoe vectoren worden weergegeven, en uit Figuur 5 kunnen de implicaties van het gebruik van het vectorisatieproces worden begrepen.

figure-protocol-21
Afbeelding 4: Aangepaste tokenisatie. De afbeelding laat zien hoe vectoren worden weergegeven in de inbeddingsruimte en laat zien hoe elk token wordt omgezet in een numeriek formaat Klik hier om een grotere versie van deze afbeelding te bekijken.

figure-protocol-22
Figuur 5: Tokenvectorisatieproces en de implicaties ervan. De figuur illustreert de implicatie van deze processen, componenten en benadrukt hoe deze inbeddingen de semantiek van emoties vastleggen voor een nauwkeurige emotionele classificatie. Klik hier om een grotere versie van deze figuur te bekijken.

Volgens de onderzoeksstroom begint het proces met het ontleden van de invoertekst, het uitbreiden van tokens met behulp van de op regels gebaseerde woordenboeken en het vervolgens opsplitsen van deze tokens in subwoorden. Deze benadering geeft inzicht in de emotionele inhoud en culturele context van de tekst, en pseudologica voor het onderzoek wordt hieronder gegeven.

Initialiseer emotiewoordenboeken (bijv. fear_words = {"Angst", "Dread", "Bhayanak", ...}): Set Ae = Ah
SubwordRules(token, script): Als Devanagari → splitsen met regex (compound/Sandhi), Als Roman → voorvoegsels/achtervoegsels splitsen met behulp van regex, Return subwoorden
DomainSpecificExpansion(token): Als token in emotionele/taalkundige woordenboeken → emotie teruggeeft
Anders → retour token
ProcessTweet(text): Definieer regex voor Devanagari, Roman, anderen; Tokens extraheren met behulp van regex; Pas DomainSpecificExpansion en SubwordRules toe op tokens; Verwerkte subwoorden retourneren
Tokens vectoriseren in numerieke inbeddingen
Pas Active Learning toe met menselijke feedback

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De bevinding van dit onderzoek suggereert dat de integratie van de lexicale regels met machine learning en actieve leertechnieken een levensvatbare weg biedt voor het verbeteren van de efficiëntie en nauwkeurigheid van emotie-annotatie in code-gemengde scharniertekst. Door iteratieve verfijning en suggesties van experts was het voorgestelde raamwerk in staat om opmerkelijke reducties in handmatige inspanning te bereiken, terwijl hoge prestaties in alle ev...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De dataset voor dit onderzoek is samengesteld met behulp van een combinatie van handmatige annotatie en actief leren. Aanvankelijk werden 10.040 Hinglish-tweets met betrekking tot oorlog en conflict handmatig gelabeld met acht vooraf gedefinieerde emoties. De dataset werd vervolgens uitgebreid tot 19.000 tweets met behulp van een semi-geautomatiseerde aanpak. Actief leren maakte selectieve interventie van experts mogelijk, waardoor handmatige inspanning met 40% werd verminderd met behoud...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs verklaren geen belangenconflict.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit onderzoek ontving geen externe financiering.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fastText	Facebook AI	N/A	Woordrepresentatie en classificatie
Google Colab	Google	N/A	Cloud-gebaseerde Jupyter Notebook-omgeving
Google Colab GPU/TPU	Google	N/A	Cloud-gebaseerde hardwareversnelling
Intel Core i5/i7 of AMD Ryzen 5/7	Intel / AMD	N/A	Processor voor lokale uitvoering (indien vereist)
Matplotlib	Open-source	N/A	Bibliotheek voor datavisualisatie
NLTK	Open-source	N/A	Natural Language Toolkit voor tekstverwerking
NumPy	Open-source	N/A	Numerieke rekenbibliotheek
NVIDIA GTX 1650 of hoger (optioneel)	NVIDIA	N/A	GPU voor deep learning taken
Pandas	Open-source	N/A	Bibliotheek voor gegevensmanipulatie
Python	Python Software Foundation	N/A	Programmeertaal voor ML en NLP
PyTorch	Meta AI	N/A	Deep Learning-framework
RAM (8GB minimum, 16GB aanbevolen)	Verschillende	N/A	Geheugenvereiste voor ML-taken
Scikit-learn	Open-source	N/A	Machine Learning-bibliotheek
Seaborn	Open-source	N/A	Statistische datavisualisatie
SpaCy	Explosion AI	N/A	NLP-bibliotheek voor industriële toepassingen
SSD-opslag (256GB minimum, 512GB aanbevolen)	Verschillende	N/A	Opslag voor datasetverwerking
TensorFlow	Google	N/A	Deep Learning-framework

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al. A systematic review of applications of natural language processing and future challenges with special emphasis in text-based emotion detection. Artif Intell Rev. 56 (12), 15129-15215 (2023).
Recent advancements and challenges in multimodal sentiment analysis: a survey. Dong, Z. X., Liu, H. 2023 Int Conf Machine Learning Cybernetics (ICMLC), , IEEE. 464-469 (2023).
Gandhi, A., et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fusion. 91, 424-444 (2023).
Chand, V. The rise and rise of Hinglish in India. Conversation. , https://theconversation.com/the-rise-and-rise-of-hinglish-in-india-53476 (2016).
Hernández-de-Menéndez, M., et al. Active learning in engineering education: a review of fundamentals, best practices and experiences. Int J Interact Des Manuf. 13, 909-922 (2019).
Liu, X., et al. Developing multi-labelled corpus of Twitter short texts: a semi-automatic method. Systems. 11 (8), 390(2023).
Alahmary, R., Al-Dossari, H. A semiautomatic annotation approach for sentiment analysis. J Inf Sci. 49 (2), 398-410 (2023).
Garg, N., Sharma, K. Annotated corpus creation for sentiment analysis in code-mixed Hindi-English (Hinglish) social network data. Indian J Sci Technol. 13 (40), 4216-4224 (2020).
Jamatia, A., et al. Deep learning based sentiment analysis in a code-mixed English-Hindi and English-Bengali social media corpus. Int J Artif Intell Tools. 29 (5), 2050014(2020).
Nainabasti, B. Role of students' participation on learning physics in active learning classes. ProQuest ETD Collection for FIU. , AAI10743750(2016).
Goudjil, M., et al. A novel active learning method using SVM for text classification. Int J Autom Comput. 15, 290-298 (2018).
Huang, S. J., Jin, R., Zhou, Z. H. Active learning by querying informative and representative examples. Adv Neural Inf Process Syst. 23, 1-9 (2010).
Zhang, Z., Strubell, E., Hovy, E. A survey of active learning for natural language processing. arXiv. , (2022).
Baghel, R. A survey on code-mixed sentiment analysis based on Hinglish dataset. Int Conf Comput Commun Cyber-Secur. 664, (2022).
Tong, S., Koller, D. Support vector machine active learning with applications to text classification. J Mach Learn Res. 2 (Nov), 45-66 (2001).
Subramanian, M., et al. A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alex Eng J. 80, 110-121 (2023).
Liu, Z., et al. An emotion-based personalized music recommendation framework for emotion improvement. Inf Process Manag. 60 (3), 103256(2023).
Ren, F., Liu, Z., Kang, X. An efficient framework for constructing speech emotion corpus based on integrated active learning strategies. IEEE Trans Affect Comput. 13 (4), 1929-1940 (2022).
Azzi, S. A., Zribi, C. B. O. Comparing deep learning models for multi-label classification of Arabic abusive texts in social media. Proc Int Conf Software Tech, , 374-381 (2022).
Min, X. Y., et al. Multi-label active learning through serial-parallel neural networks. Knowl Based Syst. 251, 109226(2022).
Gosselin, L., Sabourin, L. Language athletes: dual-language code-switchers exhibit inhibitory control advantages. Front Psychol. 14, 1150159(2023).
Acheampong, F. A., Wenyu, C., Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng Rep. 2 (7), e12189(2020).
Tracy, J. L., Randles, D. Four models of basic emotions: a review of Ekman and Cordaro, Izard, Levenson, and Panksepp and Watt. Emotion Rev. 3 (4), 397-405 (2011).
Xiao, X., et al. A cognitive emotion model enhanced sequential method for social emotion cause identification. Inf Process Manag. 60 (3), 103305(2023).
Park, E. H., Storey, V. C. Emotion ontology studies: a framework for expressing feelings digitally and its application to sentiment analysis. ACM Comput Surv. 55 (9), 1-38 (2023).
Batra, H., Nelson, L. DCADS: data-driven computer aided diagnostic system using machine learning techniques for polycystic ovary syndrome. Int J Performability Eng. 19 (3), 193(2023).
Sakib, N., et al. Towards automated recipe genre classification using semi-supervised learning. PLoS One. 20 (1), e0317697(2025).
Fu, L., et al. A touch, vision, and language dataset for multimodal alignment. arXiv. , (2024).
Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena. Bollen, J., Mao, H., Pepe, A. Proc Int AAAI Conf Web Soc Media, 5 (1), https://ojs.aaai.org/index.php/ICWSM/article/view/14171 (2011).
EmpaTweet: annotating and detecting emotions on Twitter. Roberts, K., et al. Proc Eighth Int Conf Language Resource Eval, 12 (12), 3806-3813 (2012).
Mohammad, S. #Emotional tweets. First Joint Conf on Lexical Comput Semantics. , 246-255 (2012).
Li, W., Xu, H. Text-based emotion classification using emotion cause extraction. Expert Syst Appl. 41 (4), 1742-1749 (2014).
Verma, P., Kaur, A., Khurana, M., Damaševičius, R. Multimodal Hinglish tweet dataset for deep pragmatic analysis. Data. 9 (2), 38(2024).
Hasan, M., Agu, E., Rundensteiner, E. Using hashtags as labels for supervised learning of emotions in Twitter messages. ACM SIGKDD Workshop Health Info. 34 (74), 1-8 (2014).
Scherer, K. R., Wallbott, H. G. Evidence for universality and cultural variation of differential emotion response patterning. J Pers Soc Psychol. 66 (2), 310(1994).
Sasidhar, T. T., Premjith, B., Soman, K. P. Emotion detection in Hinglish (Hindi+ English) code-mixed social media text. Procedia Comput Sci. 171, 1346-1352 (2020).
Corpus creation and emotion prediction for Hindi-English code-mixed social media text. Vijay, D., et al. Proc. 2018 Conf. North Am Chapter Assoc Comput Linguistics: Student Research Workshop, , 128-135 (2018).
Srivastava, V., Singh, M. Phinc: a parallel Hinglish social media code-mixed corpus for machine translation. arXiv. , (2004).
Cossu, J. V., Molina-Villegas, A., Tello-Signoret, M. Active learning in annotating micro-blogs dealing with e-reputation. J Interdiscip Methodol Issues Sci. 3, (2017).
Kranjc, J., et al. Active learning for sentiment analysis on data streams: methodology and workflow implementation in the ClowdFlows platform. Inf Process Manag. 51 (2), 187-203 (2015).
Smith, C. A., Kirby, L. D. Consequences require antecedents: toward a process model of emotion elicitation. Feeling and Thinking: The Role of Affect in Social Cognition. , 83-106 (2000).
Jan, T. G., Khurana, S. S., Kumar, M. Semi-supervised labeling: a proposed methodology for labeling the Twitter datasets. Multimed Tools Appl. 81 (6), 7669-7683 (2022).
Cahyana, N. H., et al. Semi-supervised text annotation for hate speech detection using k-nearest neighbors and term frequency-inverse document frequency. Int J Adv Comput Sci Appl. 13 (10), 147-151 (2022).
Saifullah, S., et al. Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection. Appl Sci. 14 (3), 1078(2024).
Advani, L., Lu, C., Maharjan, S. C1 at SemEval-2020 Task 9: SentiMix: sentiment analysis for code-mixed social media text using feature engineering. arXiv. , (2008).
Alarcão, S. M., et al. Annotate smarter, not harder: using active learning to reduce emotional annotation effort. IEEE Trans Affect Comput. 15 (3), 1213-1227 (2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Machine learning en lexicale, op regels gebaseerde, kostenefficiënte emotie-annotatie van Hinglish-uitingen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles