Maschinelles Lernen und lexikalische, regelbasierte, kosteneffiziente Emotionsannotation von Hinglish-Äußerungen

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Maschinelles Lernen und lexikalische, regelbasierte, kosteneffiziente Emotionsannotation von Hinglish-Äußerungen

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie kombiniert die regelbasierte Strategie mit maschinellem Lernen und fachkundiger Unterstützung bei der Annotation des hinglischen und englischen Textes. Die Daten werden an 19.000 Tweets mit einer Genauigkeit von 81 % getestet, und es ist viel billiger als dies manuell zu tun. Es könnte nützlich sein, um Emotionen während einer Krise zu verfolgen.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Emotionsannotation in Code-gemischten Sprachen wie Hinglish (Hindi-Englisch) stellt aufgrund der linguistischen Komplexität und Ressourcenbeschränkungen einzigartige Herausforderungen dar. In dieser Studie wird ein hybrides Framework für aktives Lernen vorgestellt, das lexikalische Regeln, maschinelles Lernen und iteratives Expertenfeedback kombiniert, um eine kosteneffiziente, hochpräzise Emotionsannotation zu erreichen. Basierend auf psychologischen Emotionstheorien, einschließlich der Theorie der diskreten Emotionen und der kognitiven Bewertungstheorie, verwendet das Framework zweisprachige Emotionswörterbücher (z. B. Mapping von Gussa und Wut auf Wut), Subword-Tokenisierung für zusammengesetzte Begriffe (z. B. Aufspaltung figure-abstract-1 in figure-abstract-2 ) und aktives Lernen, um mehrdeutige Stichproben zu priorisieren. Anhand eines Datensatzes von 19.000 kriegs- und konfliktbezogenen Hinglish-Tweets erreichte das Framework eine Genauigkeit von 81 % (F-Score: 0,76) und reduzierte gleichzeitig die Betriebskosten um 40 % im Vergleich zur manuellen Annotation. Lexikalische Regeln lösten 89 % der Mehrdeutigkeiten beim Code-Switching, und iterative Verfeinerungen ermöglichten inkrementelle Genauigkeitssteigerungen von 72 % auf 81 %. Die Effizienz des Systems beruht auf der Begrenzung des menschlichen Aufwands auf 73 % des Datensatzes mit automatischer Vorverarbeitung von Emojis, Hashtags und Slang. Diese Studie basiert auf der Hypothese, dass die Integration lexikalischer regelbasierter Methoden mit aktivem Lernen und maschinellem Lernen die Genauigkeit der Emotionsannotation in hinglischen Texten verbessern und gleichzeitig den manuellen Beschriftungs- und Gesamtannotationsaufwand reduzieren kann.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wenn zwei oder mehr Sprachen in einer einzigen Zeile oder Sprache miteinander vermischt werden, wird dies als Code-gemischte Sprache bezeichnet. Es ist üblich in lockeren Dialogen wie Hinglish. Es gibt mehrere Möglichkeiten, wie menschliche Emotionen verstanden werden können, und eine Reihe von emotionalen Aussagen rechnerisch zu modellieren bedeutet, sie von den Menschen, die diese Sätze geäußert haben, mit Anmerkungen zu versehen. Es kann auf biologischer, physiologischer, psychologischer Ebene usw. verstanden werden. Laut Wissenschaftlern wie Roger Penrose sind viele Phänomene in unserer Welt nicht rechnerisch, und Wissenschaftler wie Wolfram sind der Ansicht, dass alles (jedes Phänomen) rechnerisch modelliert werden kann¹. Penrose glaubt, dass Bewusstsein Prozesse beinhaltet (die vielleicht mit der Quantenmechanik im Gehirn zusammenhängen), die über das hinausgehen, was jedes algorithmische Schritt-für-Schritt-Verfahren erreichen kann. Er zitiert oft Gödels Unvollständigkeitssätze, um die Idee zu unterstützen, dass zum Beispiel die menschliche mathematische Einsicht formale Systeme transzendiert². Wenn Bewusstsein nicht-rechnerisch ist, dann könnten Emotionen als Schlüsselaspekt bewusster Erfahrung auch nicht-rechnerische Elemente haben. Stephen Wolfram, bekannt für Mathematica und seine Arbeit über zelluläre Automaten, schlägt das "Prinzip der rechnerischen Äquivalenz" vor. Dies deutet darauf hin, dass selbst sehr komplexe Systeme, einschließlich möglicherweise des Universums selbst und Phänomene darin (wie Emotionen), letztendlich durch Rechenregeln beschrieben und modelliert werden können, selbst wenn diese Regeln sehr einfach sind und komplexes Verhalten erzeugen. Aber in der Praxis ist das nicht möglich, und wir brauchen jemanden, der entweder als Experte oder einfach als Kommentator bezeichnet wird und der Emotionsanalysen durchführen kann³.

In dieser Forschung propagieren wir die Idee, Computermodelle zu erstellen. Aber dieses Modell wird quasi-rechnerisch sein. Unsere Forschung in diesem Zusammenhang zielt darauf ab, rechnerisch zu sein, aber möglicherweise nicht alle Aspekte perfekt zu erfassen, was möglicherweise Raum für Komplexitäten lässt, die nur schwer oder gar nicht vollständig berechnet werden können. Emotionen sind schwer rechnerisch zu modellieren, da sie von subjektiven Erfahrungen, kulturellem Kontext und nuancierten Ausdrücken abhängen, die durch feste Algorithmen nicht vollständig erfasst werden können.

Daher ist es für die Modellierung menschlicher Emotionen mit variablenbasierten Berechnungsansätzen notwendig, menschliche emotionale Äußerungen zu kommentieren. Diese Annotation sollte von einem Experten oder einem Annotator durchgeführt werden, der sich mit Emotionsanalyse auskennt¹. Es ist keine leichte Aufgabe, die Komplexität menschlicher Emotionen zu verstehen, insbesondere wenn es sich um Mischsprachen handelt. Darüber hinaus bedeuten Probleme im Zusammenhang mit der Skalierung, dass es keine praktikable Option ist, sich ausschließlich auf manuelle Annotationen durch Menschen zu verlassen. Jüngste Forschungen deuten darauf hin, dass bei der Entwicklung von Systemen für solch komplexe Aufgaben ein kontinuierlicher Bedarf an einem Human-in-the-Loop-Ansatz besteht. Folglich scheint ein halbautomatischer Ansatz, bei dem die einfacheren Teile automatisiert werden, während Aufgaben, die menschliche Nuancen erfordern, den Annotatoren vorbehalten bleiben, am besten geeignet für die Entwicklung natürlicher Sprachsysteme in diesem Bereich.

Ein menschlicher Kommentator wird natürlich manuell arbeiten, und im Zeitalter der Berechnung ist dies nicht das, was von heutigen Wissenschaftlern erwartet wird. Wenn der Annotator (manuell, halbautomatisch oder vollautomatisch) in der Lage ist, die Art der Emotion, die in den Äußerungen verkörpert ist, intelligent zu erraten, Äußerungen, die aus mehreren Arten von Emotionen bestehen, die als Symbole ausgedrückt werden, mit Umgangssprache oder Code-Mix und unter Verwendung mehrerer Modalitäten, dann ist die Aufgabe schwierig und einfach zugleich. Die Komplexität der Emotionsannotation in hinglischen Äußerungen hängt von der Art des Ausdrucks ab. Wenn Emotionen mit vertrauten Wörtern oder Emojis klar vermittelt werden, ist die Annotation relativ einfach. Die Aufgabe wird jedoch schwierig, wenn Äußerungen mehrere Emotionen, Code-Mixing oder mehrdeutige symbolische Ausdrücke beinhalten. Daher kann die Annotation sowohl einfach als auch schwierig sein, je nachdem, wie direkt die Emotion ausgedrückt wird.

Zeitgenössische Ansätze zur Identifizierung von Emotionen und Empfindungen befassen sich mit diesen Herausforderungen, einschließlich der subjektiven Natur von Emotionen, der Mehrdeutigkeit menschlicher Ausdrücke, der Komplexität von Code-gemischten Sprachen wie Hinglish und der zeitaufwändigen und inkonsistenten Natur der manuellen Annotation. im Zusammenhang mit der Erstellung von Rechenmodellen und der Verwaltung langwieriger Annotationsaufgaben. Jüngste Forschungen deuten darauf hin, dass Forscher eine Vielzahl von Methoden einsetzen, um dieses Ziel zu erreichen, darunter maschinelles Lernen, Deep Learning und verschiedene hybride Ansätze. Jüngste Forschungen zeigen, dass Forscher zur Überwindung dieser Probleme eine Vielzahl von Techniken einsetzen, wie z. B. maschinelles Lernen, Deep Learning und hybride Modelle.

Jüngste Forschungen zeigen, dass Forscher alle Arten von Ansätzen anwenden, darunter maschinelles Lernen, Deep Learning³ und hybride Ansätze. Der Begriff Stimmungsanalyse bezieht sich auf ein Verfahren, das verwendet wird, wenn angenommen wird, dass die Polarität der Emotionen ein Marker ist, um die rohen Emotionen des Menschen zu verstehen ^3,4. Die Entwicklung einer solchen Technologie hat dazu beigetragen, Stimmungen, Stimmungen, Sprache, Gesichtsemotionen und nonverbale Signale zu erkennen, und hat bereits Fortschritte in Anwendungen gemacht, die eine Echtzeitübersetzung ermöglichen². Ein multimodaler Ansatz könnte für die Übersetzung des Hinglischen ins Englische verwendet werden und könnte in Zukunft hilfreich sein, um das indische Kino für entlegene Gesellschaften zugänglicher zu machen ^5,6. In Indien zum Beispiel ist Englisch oft die zweite Sprache. Untersuchungen in diesem Zusammenhang zeigen, dass dies die Qualität des Englischunterrichts verbessert hat, indem die indische Sprache (Mix-Code-Sprache) auf die Ausdruckskraft oder den Grad der Gefühle und Emotionen jedes Wortes analysiert wurde.

In diesem Forschungskontext hat sich gezeigt, dass die Verwendung von Mixed-Code-Sprache in Verbindung mit Übersetzung die Qualität des Englischunterrichts verbessert. Dies wird durch die Analyse der indischen Sprache (Mixed-Code-Sprache) erreicht, um die Ausdruckskraft oder emotionale Wertigkeit jedes Wortes zu bestimmen. Durch die Anwendung von Deep Learning zum Trainieren von Computern in der Sprachinterpretation hat diese Forschung bereits die Genauigkeit der computergestützten Sprachanalyse verbessert und ein besseres Verständnis der Kommunikation ermöglicht ^4,5. Laut den Volkszählungsergebnissen von 2001 wird Hinglish, eine Sprache, die eine Mischung aus Hindi und Englisch ist, derzeit von schätzungsweise 120 Millionen Menschen in Indien gesprochen⁶.

Aus der heutigen Landschaft der Lernalgorithmen wird deutlich, dass sich aktives Lernen zu einem leistungsstarken Werkzeug entwickelt hat, um den menschlichen Aufwand bei der Annotation großer Datensätze erheblich zu reduzieren, insbesondere im Bereich der Emotionsidentifikation und -erkennung. Dieser iterative Ansatz, der wirkungsvolle Annotationen selektiv (mit geeigneten Metriken) annotiert, verbessert nicht nur die Genauigkeit der Annotationen, sondern auch die Effizienz⁵. Frühere Studien haben gezeigt, dass es effektiv ist, den Arbeitsaufwand für manuelle Annotationen erheblich zu reduzieren, während die Leistung mit kleineren Trainingsdatensätzen beibehalten oder sogar verbessert wird, und eine auf Clusteranalyse basierende Methode für die informative Instanzauswahl vorgeschlagen ^7,8. Im speziellen Kontext der Hinglish-Emotionserkennung haben Forscher durch Deep-Learning-Modelle und einen annotierten Datensatz^mit mehreren Labels ^9,10,11 wertvolle Beiträge geleistet. Frühere Studien^12,13 haben aktives Lernen und semi-überwachte Methoden eingeführt, um die Abhängigkeit von menschlich markierten Daten zu minimieren, die Effizienz weiter zu steigern und die Annotationskosten zu senken. Darüber hinaus wurde in vielen Projekten gezeigt, dass aktives Lernen die Klassifikationsleistung steigert, insbesondere bei der Multi-Label-Emotionsklassifikation¹⁴.

Die Wirksamkeit von aktivem Lernen bei der Verbesserung der Leistung von Klassifikatoren wurde in verschiedenen Anwendungen des maschinellen Lernens erkannt. Die Studien^15,16hoben seine entscheidende Rolle bei der Leistungssteigerung hervor, indem er sich auf Bildungsanwendungen konzentrierte. In ähnlicher Weise führte eine frühe Studie einen neuartigen Algorithmus für aktives Lernen mit Support-Vektor-Maschinen ein, der den Bedarf an gelabelten Instanzen erheblich reduzierte¹⁷. Eine andere Arbeit untersuchte auch seine Anwendung bei Aufgaben mit strukturierten Instanzen, wie z. B. der Textklassifizierung¹⁸. Die Auswirkungen des aktiven Lernens auf Emotionserkennungsaufgaben gehen über Effizienzgewinne hinaus, insbesondere bei der Minimierung der Abhängigkeit von von Menschen gekennzeichneten Daten. In einer Studie wurde ein Multi-Task-Framework für die Klassifizierung und Regression von Emotionen eingeführt, das die Leistung von Single-Task-Methoden übertraf¹⁰.

Darüber hinaus machten die Forscher¹⁹signifikante Fortschritte bei der Erkennung von Sprach- und Textemotionen durch aktives Lernen, während²⁰ ihre Wirksamkeit bei der personalisierten Klassifizierung von Musikemotionen demonstrierten. Der Prozess der Kategorisierung und Etikettierung von Emotionen stellt jedoch eine große Herausforderung dar, wie hervorgehoben^21,22, insbesondere im Kontext der Stimmungsanalyse. Stellt fest, dass die Verwendung von Labels die Kategorisierung von Emotionen erheblich beeinflussen kann, insbesondere bei später erlernten Kategorien²³. Um diesen Herausforderungen zu begegnen, wurden verschiedene Algorithmen, einschließlich schlüsselwortbasierter und lernbasierter Methoden, entwickelt, die bemerkenswerte Genauigkeitsraten erreichen²⁴. Die Erforschung von Emotionen, die auf schriftlichen Äußerungen und Texten basiert, wurde in zahlreichen Modellen untersucht, und Ansätze haben ein dimensionales Modell unter Verwendung normativer Datenbanken für eine effektive Emotionserkennung implementiert²⁵. In einer anderen Studie²⁶ verbesserte ein kognitives Emotionsmodell eine sequentielle Methode, die zur Identifizierung sozialer Emotionsursachen verwendet wurde. Der Autor lieferte eine computerlinguistische Interpretation des OCC-Emotionsmodells, während eine ähnliche Studie²⁷ein System vorschlug, das Ontologien zur Darstellung von Wortabhängigkeitsbeziehungen und Emotionen verwendet. Die Autoren einer Studie²⁸diskutierten die Signale, die mit der emotionalen Textverarbeitung korrelieren, und hoben die Anpassung des Gehirns beim Ausdruck von Emotionen in geschriebener Sprache hervor. Die Annotation mehrerer Arrays von rohen Emotionen, einschließlich des Arrays der Multi-Modell-Daten, ist eine Herausforderung. Nichtsdestotrotz bietet die Untersuchung von Emotionen im Zusammenhang mit Krieg und Konflikten ein wissenschaftliches und systematisches Fenster in die menschliche Psyche unter extremen Bedingungen, das es uns ermöglicht, besser zu verstehen, wie Individuen und Gemeinschaften mit Traumata, Verlust und Unsicherheit umgehen⁵. Eine andere Studie ergab, dass die Annotationstechnik die Klassifizierung von Genres effektiv verbesserte, wobei das Titelmerkmal eine entscheidende Rolle in diesem Prozess spielte²⁹. In einer Studie wurde ein 44K-Vision-Touch-Datensatz mit expert und GPT-4V erstellt, um einen taktilen Encoder und ein TVL-Modell für die Textgenerierung³⁰ zu trainieren. Eine andere Studie untersuchte das Meinungs- und Trend-Mining bei politischen Tweets und konzentrierte sich auf den aktiven Lernprozess zur automatischen Annotation französischsprachiger Tweets über Politiker⁴¹. In einer weiteren Studie wurde CloudFlows vorgestellt, eine Cloud-basierte wissenschaftliche Workflow-Plattform, die für die dynamische, adaptive zentrale Analyse von Datenströmen entwickelt wurde. Es ermöglicht aktives Lernen, um die Stimmungsklassifizierung zu verbessern, so dass sich der Algorithmus an Änderungen der Echtzeitdaten anpassen^{kann 42}.

Es besteht eine klare Spannung zwischen der Komplexität menschlicher Emotionen und dem Wunsch nach automatisierter Emotionsanalyse. Zwischen der Komplexität menschlicher Emotionen und dem Ziel der automatisierten Emotionsanalyse besteht eine inhärente Spannung. Der größte Teil der zeitgenössischen Arbeit erkennt die Grenzen der manuellen Annotation an und betont die Notwendigkeit ausgefeilter computergestützter Methoden, um die Herausforderungen des Verständnisses von Emotionen in verschiedenen Kommunikationsformen zu bewältigen. Dieses Idealszenario ist weitgehend unpraktisch, d.h. Anmerkungen von den Personen zu erhalten, die die Sätze⁴³ geschrieben oder gesprochen haben. Das ideale Szenario für die Gewinnung von Daten, insbesondere das Abrufen von Anmerkungen direkt von den Personen, die die Sätze geschrieben oder gesprochen haben, ist weitgehend unpraktisch. Diese Unpraktikabilität ergibt sich aus der Unmöglichkeit, solche personalisierten Anmerkungen in großem Umfang zu sammeln und zu verarbeiten. Daher müssen sich die aktuellen Bemühungen auf Expertenannotatoren oder automatisierte Algorithmen zur Emotionserkennung stützen, um in Texten ausgedrückte Emotionen zu analysieren und zu kennzeichnen. In dieser Forschungsarbeit haben wir versucht, einige Aspekte dieser Herausforderungen zu überwinden. Die wichtigsten Beiträge zu diesem Problembereich werden im Folgenden vorgestellt⁴⁴.

Daher müssen wir uns auf Experten oder Annotatoren und Emotionserkennungsalgorithmen verlassen, um die im Text ausgedrückten Emotionen zu analysieren und zu kennzeichnen. Es ist unmöglich, solche personalisierten Anmerkungen in großem Umfang zu sammeln und zu verarbeiten. Daher haben wir in dieser Forschungsarbeit versucht, einige Aspekte dieses Domänenwissens zu überwinden. Im Folgenden sind die wichtigsten Beiträge zu diesem Problembereich aufgeführt.

Das Framework arbeitet mit regelbasierten Methoden wie Emotions-Tagging, Code-Mix-Erkennung und Emoji-Interpretation mit maschinellen Lerntechniken wie Random Forest und Worteinbettungen zusammen, um die Genauigkeit der Anmerkungen zu verbessern und gleichzeitig den manuellen Aufwand zu reduzieren. Das iterative Lernen des Klassifikators nutzt aktives Lernen sowie Transferlernen, um mehrdeutige Merkmalsstichproben zu priorisieren und so den Bedarf an harter Arbeit zu reduzieren. Dieser Ansatz senkte die Betriebskosten um 40 % im Vergleich zur harten manuellen Etikettierung.

Um die Nuancen von Hinglish auf einer granularen Ebene zu behandeln, wurde eine benutzerdefinierte kontextsensitive Tokenisierungsmethode entwickelt. Dieser Ansatz verarbeitet Code-gemischten Text, indem er Sprachumschaltung, Interpunktion, Emojis und Subwortsegmentierung berücksichtigt, was eine genauere Emotionsanmerkung in gemischtem Hindi-Englisch-Text ermöglicht. Auf granularer Ebene haben wir eine benutzerdefinierte kontextsensitive Tokenisierung für Hinglish-Text entwickelt. Das Framework adressiert die Komplexität von Code-gemischtem Text, indem es zweisprachige Emotionswörterbücher, die Tokenisierung von Unterwörtern und die benutzerdefinierte kontextsensitive Tokenisierung integriert. Lexikalische Regeln lösten 89 % der Mehrdeutigkeiten beim Code-Switching.

Unsere Arbeit basiert auf etablierten psychologischen Theorien der Emotion, wie z.B. der Diskreten Emotionstheorie und der Kognitiven Bewertungstheorie. Die Studie zeigt die Skalierbarkeit des Ansatzes für Krisenreaktion und Social-Media-Monitoring und bietet eine Blaupause für ressourcenarme, mehrsprachige NLP-Anwendungen.

Tabelle 1 erläutert die verfügbaren Studien für die gleiche Problemdomäne. Aus der Literaturrecherche und der tabellarischen Zusammenfassung lässt sich ableiten, dass die meisten Studien nicht umhinkommen, erste Arbeiten zur Annotation mit manuellen Methoden zu leisten. Nur wenige Forscher verfolgen halbautomatische Ansätze⁴¹. Der eigentliche Leistungsunterschied ergibt sich jedoch aus der Verwendung eines effektiven Lernmodells, das den Prozess der Annotation automatisieren kann. Der emotionale Inhalt der Tweets muss mit Theorien übereinstimmen, die die Bahnen der menschlichen Emotionen und die Organisation von Gefühlen erklären. Der nächste Abschnitt definiert die Problematik auf der Grundlage der Einschränkungen bestehender Ansätze und der empirischen Ergebnisse der Arbeiten.

Studieren	Dataset	Emotion	Methodik	Domäne	Prozess der Etikettierung	Lücken	Zukünftiger Geltungsbereich
[31]	9.000.000 Tweets	Anspannung, Depression, Wut, Elan, Müdigkeit,	Verwirrungsprofil von Stimmungszuständen	Englisch	Keine Beschriftung	Die Studie übersieht subtile emotionale Unterschiede wie Überraschung, Freude oder Angst, was darauf hindeutet, dass die Emotionskennzeichnung die Interpretierbarkeit und Granularität von Stimmungstrends verbessern kann, insbesondere in Bezug auf sozioökonomische Ereignisse.	Es könnte untersucht werden, wie eine Reihe von emotionalen Ausdrücken in Social-Media-Daten durch den Einsatz automatisierter Kategorisierungsmethoden und etablierter Emotionstaxonomien besser erfasst und untersucht werden kann.
[32]	7000 Tweets	Wut, Ekel, Angst, Freude, Liebe, Trauer,	Unterstützung Vektor Maschine	Englisch	Manuell	Die Generalisierbarkeit des Datensatzes ist aufgrund seiner Themenspezifität und der mangelnden Repräsentativität der gesamten Twitter-Nutzung eingeschränkt. Aufgrund der subjektiven Interpretation und des minimalen Kontexts, der sich in bescheidener Übereinstimmung zwischen den Kommentatoren zeigt, ist es schwierig, Emotionen in kurzen, beiläufigen Tweets zu kommentieren.	Zukünftige Arbeiten werden sich auf die Entwicklung verbesserter Emotionserkennungsmodelle konzentrieren, indem Unterscheidungen zwischen themenspezifischen und emotionsspezifischen Sprachstilen einbezogen werden, um eine genauere Klassifizierung in verschiedenen Tweet-Kontexten zu ermöglichen.
[33]	21.000 Tweets	Wut, Ekel, Angst, Freude, Trauer, Überraschung	Unterstützung Vektor Maschine	------	Verwendung von Hashtags	Bestehende Korpora, die mit Emotionen gekennzeichnet sind, sind in Größe und Domäne begrenzt und es fehlen große, vielfältige Datensätze für Microblogs. Tweets sind kurz, verrauscht und kontextbeschränkt, was eine genaue Erkennung und Annotation von Emotionen erschwert.	In Zukunft kann die Studie das Emotionslexikon um Synonyme und zusätzliche Hashtags erweitern, um die Abdeckung und Erkennungsgenauigkeit zu verbessern.
[34]	16485 Tweets	Wut, Ekel, Angst, Freude, Trauer, Überraschung	Unterstützung der Vektor-Regression	Chinesisch	Manuell	Traditionelle Methoden zur Klassifizierung von Emotionen übersehen oft die zugrunde liegende Ursache von Emotionen, was die Qualität der Merkmale einschränkt. Die genaue Extraktion von Emotionsursachen aus kurzen, informellen Mikroblog-Posts erfordert robuste regelbasierte Systeme und Domänenwissen.	Die weitere Erforschung der Emotionsursachenanalyse kann Modelle zur Emotionserkennung verbessern und neue Richtungen im textuellen Emotionsverständnis eröffnen.
[35]	10.040 Tweets	Angst, Hoffnung, Freude, Wut, Überraschung, Traurigkeit, Ekel	LDA, Inter-Rater-Vereinbarung	Hinglisch	Manuell	Es gibt einen Mangel an öffentlich zugänglichen, strukturierten Datensätzen für Hinglish, insbesondere an solchen, die pragmatische und emotionale Nuancen in krisenbezogenen Inhalten erfassen. Hinglish ist eine nicht standardisierte, codegemischte Sprache, und regionale Unterschiede erschweren eine genaue Stimmungsanalyse und -annotation.	Erweiterung multimodaler Datensätze, Integration tiefer pragmatischer Analysen mit Modellen des maschinellen Lernens und Verbesserung der Skalierbarkeit für die Echtzeit-Emotionsverfolgung im Konfliktdiskurs.
[36]	134.000 Tweets	aktiv, inaktiv glücklich, unglücklich	Support Vector Machine und K-Nearest Neighbors	Hinglisch	Verwendung von Hashtags	Die manuelle Emotionskennzeichnung von Tweets ist arbeitsintensiv und inkonsistent, was groß angelegte Bemühungen zur Emotionsklassifizierung einschränkt Crowdsourcing-Annotationen mangelt es an Zuverlässigkeit, insbesondere bei der Identifizierung von Emotionserregungsgraden, was die Subjektivität bei der Emotionsinterpretation hervorhebt.	Konzentrieren Sie sich auf die Verfeinerung der Hashtag-basierten Beschriftung und die Erweiterung von Emotionserkennungsmodellen, um die Genauigkeit und Generalisierbarkeit in verschiedenen emotionalen Kontexten zu verbessern.
[37]	3.000 Studierende, Psychologen und Nicht-Psychologen aus 37 Ländern	Freude, Angst, Wut, Traurigkeit, Ekel, Scham und Schuld.	--	-----	Manuell	Begrenzte Erforschung der Frage, wie kulturelle Faktoren die Regulation und den Ausdruck spezifischer Emotionen in verschiedenen Gesellschaften beeinflussen. Die Abwägung zwischen Evidenz für universelle emotionale Muster und kulturell spezifischen Variationen in der Emotionsauslösung und -interpretation bleibt komplex.	Weitere Studien sollen die Wechselwirkung zwischen biologischer Universalität und kulturellem Kontext bei der Gestaltung emotionaler Erfahrung und Kommunikation untersuchen
[38]	12000	Glück, Trauer und Wut	Inter-Rater-Vereinbarung	Hindi+Englisch	Manuell	Der aktuellen Forschung fehlen ein umfassender, annotierter Datensatz und standardisierte Modelle für die Emotionserkennung in Hinglish. Die unregelmäßige Grammatik und die Code-Mixing-Natur von Social-Media-Texten erschweren eine genaue Klassifizierung von Emotionen.	Zukünftige Arbeiten werden sich auf die Erweiterung von Emotionskategorien und die Entwicklung größerer, mehrsprachiger Code-gemischter Datensätze konzentrieren.
[39]	2866	Glück, Trauer, Wut, Überraschung und Trauer	Unterstützung Vektor Maschine	Hinglish (Hindi+Englisch)	Manuell	Mangel an emotionsannotierten, mit Code gemischten Datensätzen. Der Ausdruck von Emotionen in Code-gemischten Texten variiert je nach Sprache und Schrift, was die Annotation und Klassifizierung komplex macht.	Zukünftige Arbeiten könnten den Korpus um mehr emotionale Vielfalt erweitern, Part-of-Speech-Tagging integrieren und mehrsprachige Code-gemischte Inhalte erforschen.
[40]	13738	---	Maschinelle Übersetzung Google Übersetzer	Hinglisch	Manuell	Bestehenden maschinellen Übersetzungssystemen mangelt es an Genauigkeit bei codegemischten Social-Media-Daten, da große, domänenspezifische parallele Korpora fehlen. Hohe Rechtschreibvariation, informelle Struktur und Mehrdeutigkeit bei der Sprachidentifikation erschweren die Übersetzung von romanisiertem Hindi-Englisch-Text.	Das Korpus kann die Entwicklung von codegemischten Übersetzungssystemen unterstützen und auf andere ressourcenarme Sprachen und NLP-Aufgaben wie die Erkennung benannter Entitäten erweitert werden
[41]	11527	positiv, sehr positiv und negativ, sehr negativ	kNN-basierte Klassifizierung, BOW-Darstellung	Französische Politiker	Manuell	Begrenzte Verfügbarkeit von qualitativ hochwertigen annotierten Datensätzen für politisches Opinion Mining in nicht-englischen Sprachen. Die Balance zwischen der Reduzierung des Annotationsrauschens und der Informationsspeicherung und dem Umgang mit ungleichmäßiger Label-Verteilung in großen Tweet-Datensätzen sind die Hauptschwierigkeiten.	Zukünftige Arbeiten könnten aktive Lernmethoden verfeinern, um kritische Inhalte besser zu bewahren und gleichzeitig das Rauschen von Anmerkungen im mehrsprachigen politischen Diskurs zu minimieren.
[42]	764,416	---	Kmeans Clustering, SVM	Englisch	Semi-beaufsichtigt	Die Beschriftung und Modellaktualisierung in Echtzeit in der Stimmungsanalyse wird durch die Variabilität des Datenstroms, die Beschriftungskosten und die Skalierbarkeit des Systems eingeschränkt.	Zukünftige Arbeiten werden die Klassifizierung von Multi-Klassen-Stimmungen untersuchen, zusätzliche Labeling-Strategien integrieren und die Kontrolle über die anfängliche Modellgenerierung erweitern

Tabelle 1: Verfügbare Studien mit entsprechenden Markierungsmethoden. Die Tabelle bietet einen vollständigen vergleichenden Überblick über die bestehenden Studien, befasst sich mit der Emotionsannotation, etabliert die methodische Landschaft und konzeptualisiert den Beitrag der vorliegenden Arbeit innerhalb der vorhandenen Literatur.

Problemstellung
Die am häufigsten untersuchten Emotionen in der Annotation sind stark von grundlegenden psychologischen Modellen wie dem von Ekman und Plutchik beeinflusst und konzentrieren sich hauptsächlich auf Kernkategorien wie Wut, Angst, Glück, Traurigkeit, Überraschung und so weiter⁴⁴. Daher beabsichtigen wir in dieser Forschungsarbeit, an etablierten Konnotationen von Emotionen zu arbeiten. Die Herausforderung besteht darin, ein dynamisches Berechnungsframework, F, zu entwickeln, das in der Lage ist, hinglische Textinstanzen (ti) aus einem Korpus T, der sich auf Kriege und Konflikte konzentriert, mit Emotionslabels (ei) aus einer vordefinierten Menge E = {e₁, e₂, ..., e₈} genau zu kommentieren. Dieser Rahmen muss Prinzipien aus der konstruktivistischen Theorie der Emotion, der Theorie der affektiven Ereignisse (AET), der Theorie der diskreten Emotionen und der Theorie der kognitiven Bewertung synthetisieren, um die facettenreiche emotionale Landschaft des konfliktbezogenen Diskurses zu modellieren. Jede Textinstanz ti in T ist sprachlich komplex und mischt Hindi (in lateinischer Schrift), Englisch, Emojis und Symbole, was einen mehrschichtigen Ansatz erfordert, um nuancierte emotionale Ausdrücke zu erfassen.

Das computergestützte Modell von Emotionen im Zusammenhang mit Krieg (als Fallstudie) kann einen vielschichtigen Ansatz beinhalten, beginnend mit lexikalischen Regeln, die Hinglish-basierte Nuancen berücksichtigen. Die Tokenisierung, die als T bezeichnet wird, umfasst lateinische Schriften (Hindi in lateinischer Schrift) sowie Emojis und Interpunktion, die die Grundlage der Sprachverarbeitung bilden. Emotionswörterbücher, die als D dargestellt werden, ordnen Wörter sprachübergreifend bestimmten Emotionen zu, z. B. Wut, Freude und anderen, wobei jedes emotion_i words_j in language_k zugeordnet hat. Die Unterwortzerlegung S zerlegt zusammengesetzte Begriffe in ihre Bestandteile und ermöglicht so ein tieferes Verständnis komplexer Ausdrücke. Anschließend verwenden maschinelle Lerntechniken M Einbettungen wie Word2Vec/fastText, um Token in Vektordarstellungen umzuwandeln vector_v die numerische Analyse zu erleichtern. Ensemble-Klassifikatoren (C) wie Random Forest sagen dann Emotionsbeschriftungen (emotion_label_p) aus diesen Vektorsätzen voraus. Um das Annotations-Lernmodell iterativ zu verbessern, wird ein aktiver Lernmechanismus, AL, eingesetzt. Expertenfeedback, F, verfeinert mehrdeutige Fälle, ambiguous_sample_q durch Zuweisung von refined_label_r wichtige Korrekturen. Die Stichprobenpriorisierung P konzentriert sich auf Stichproben mit geringer Konfidenz, low_confidence_sample_s, ordnet sie annotation_priority_t zu und optimiert so den Annotationsprozess.

Durch die Integration dieser Komponenten und Theorien zielt dieses Framework darauf ab, hinglische Texte dynamisch zu verarbeiten, sprachliche und kulturelle Nuancen zu überbrücken und Emotionsannotationen adaptiv zu verfeinern und eine skalierbare Lösung für die Analyse affektiver Dimensionen im Konfliktdiskurs zu bieten.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In diesem Abschnitt wird auch erklärt, wie das multimodale Framework für die 8-Emotions-Annotation aufgebaut wurde. Der Abschnitt beginnt mit einer Erläuterung der Eigenschaften des Datasets, gefolgt von den nachfolgenden Verfahren. Zum besseren Verständnis des Forschungsverfahrens siehe Abbildung 1.

figure-protocol-1
Abbildung 1: Systematischer Rahmen der Emotionsannotation . Die Abbildung erklärt die effektive Emotion, die Annotation von hinglischigem Text, die maschinelles Lernen, aktives Lernen und dynamische Lexikonregeln durch Experteneingaben kombiniert, falsch klassifizierte Beispiele werden schrittweise verbessert, um die Genauigkeit zu erhöhen und die Kosten der Annotation zu senken. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Vorbereitung des Datensatzes
Die Datenerhebung beginnt mit der Identifizierung einer umfassenden Liste von Schlüsselwörtern und Hashtags, die sich auf Krieg, Konflikte und die damit verbundenen Emotionen beziehen. Ressourcen wie akademische Literatur, Nachrichtenartikel und Social-Media-Trends wurden verwendet, um relevante und vorhandene Listen zusammenzustellen.

Wie in Abbildung 1 zu sehen ist, sind nach dem Sammeln der Tweets und der Vorverarbeitung der Daten menschliche Experten an der manuellen Kennzeichnung und der Erstellung lexikalischer Regeln beteiligt, die zur Verbesserung des Annotationsprozesses integriert werden müssen. Unter Verwendung dieser Schlüsselwörter (Konflikt, Krieg, Krise, Gussa usw.) wurde ein anfänglicher Datensatz von 10.040 Tweets gesammelt, der als Grundlage für die manuelle Kennzeichnung diente, bei der jeder Tweet mit acht vordefinierten Emotionen (Wut, Angst, Glück, Traurigkeit, Frustration, Mitgefühl, gemischt, andere, die für den Kriegs- und Konfliktbereich relevant sind) kommentiert wurde. Der manuelle Etikettierungsprozess wurde von einem Expertenteam durchgeführt, das sowohl Hindi als auch Englisch beherrscht und sicherstellt, dass die Nuancen des Englischen genau erfasst werden.

Im Folgenden wird ein Beispiel für eine Verarbeitung beschrieben.

Tokenisierung und Vorverarbeitung:
Eingabe-Tweet: "Mujhe Bhayanak lag raha hai figure-protocol-2 "
Tokenisierte Ausgabe: ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-3 "]
Handhabung der lateinischen Schrift: Hindi-Wörter ("Mujhe", "Bhayanak") werden in lateinischer Schrift beibehalten.
Emoji-/Symbolerkennung: "" wird als symbolisches Token isoliert.

Emotion Dictionary Mapping (D):
Ordnen Sie Emotionen in E Token zu, indem Sie zweisprachige (Hindi/Englisch) Emotionslexika verwenden: "Bhayanak" (Hindi für "schrecklich") → Angst; "lag raha hai" (kontextuelle Phrase, die anhaltende Emotionen impliziert) → Angst; " figure-protocol-4 " → Wut

Zerlegung des Teilworts (S):
Zerlegen Sie komplexe Begriffe für eine tiefere Analyse: "Bhayanak" → ["Bhay" (Angst), "anak" (Suffix)], um seine semantische Wurzel in der Angst zu klären.

Einbettungs-Generierung (E):
Generieren Sie Token-Einbettungen mit Word2Vec/fastText: Einbettungen für ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-5 "] → Vektoren v₁,_{v 2}, v₃, v₄, v₅,_{v 6}.
Aggregationsregel: Durchschnittliche Token-Einbettungen, um einen globalen semantischen Vektor zu erstellen:
V_avg = (v₁ + v₂ + v₃ + v₄ + v₅ +_{v 6}) / 6

Regelbasierte Merkmalsextraktion:
Extrahieren Sie Hilfs-KEs für die Verkettung. Anzahl der Emotions-Tag: Angst: 2 Instanzen ("Bhayanak", "lag raha hai"); Wut: 1 Instanz (" figure-protocol-6 ").
Code-Switch-Flag: Binäres Flag = 1 (gemischte Hindi- und Englisch-Token: "Mujhe" [Hindi], "lag", "raha", "hai" [Hindi-abgeleitet]).

Funktions-Fusion:
Kombinieren Sie aggregierte Einbettungen und regelbasierte Merkmale zu einem einheitlichen Eingabevektor: Global Semantic Vector=V_avg(gemittelte Einbettungen),Emotion Counts=[Angst: 2, Wut: 1, Andere: 0], Code-Switch-Flag=1
Verkettungsregel Letzter Eingabevektor = V_avg figure-protocol-7 [Angst: 2, Wut: 1, Andere: 0] figure-protocol-8 [1]
Der Algorithmus des maschinellen Lernens verarbeitet diesen endgültigen Vektor, und der iterative Prozess der Annotationsverbesserung beginnt. Im nächsten Abschnitt diskutieren wir die Leistung der zu diesem Zweck gewählten Methode des aktiven Lernens.

Danach wurde der Datensatz dann auf 19.000 Tweets erweitert. Dieser Datensatz wurde mit einer Kombination aus automatisierten und halbautomatischen Techniken kuratiert, wobei die Erkenntnisse aus der anfänglichen manuellen Annotation genutzt wurden. Der erweiterte Datensatz wurde in einem iterativen Lernprozess weiter verfeinert, wobei mehrdeutige Daten/Tweets für die Annotation durch Experten und das Feedback von Fachexperten selektiv identifiziert und priorisiert wurden, um die Genauigkeit, Konsistenz und Effizienz der Annotation zu verbessern. Während des gesamten Datenerhebungsprozesses wurde besonderes Augenmerk darauf gelegt, das Gleichgewicht zwischen den verschiedenen Emotionen zu wahren, um sicherzustellen, dass der Datensatz repräsentativ für die unterschiedlichen Stimmungen ist, die über Krieg und Konflikte geäußert werden. Das resultierende Dataset ist eine wertvolle Ressource für die Analyse von hinglischischem Text. Zum besseren Verständnis kann auf Abbildung 2 verwiesen werden.

figure-protocol-9
Abbildung 2: Vorgehensweise bei der Sammlung von Datensätzen. Die Abbildung zeigt die Entwicklung des Datensatzes von der Identifizierung des Seed-Wortes über die manuelle Beschriftung, gefolgt von aktivem Lernen, bis hin zum endgültigen annotierten Datensatz. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Die abschließende Aufbereitung des Datensatzes erfolgt nach Abschluss des iterativen Verfeinerungsprozesses mit Hilfe von Active Learning. Aktives Lernen wurde in einem hybriden Framework verwendet, das lexikalische Regeln, maschinelles Lernen und iterativen Experteninput umfasste, um die Emotionen von Hinglish-Äußerungen zu kommentieren. Die Schritte waren wie folgt:

Der Prozess beginnt mit einem manuell beschrifteten Datensatz. Mit einem Random Forest-Klassifikator, der verwendet wurde, um mehrdeutige Tweets zu identifizieren, bei denen das maschinelle Lernmodell unsicher war. Senden Sie diese mehrdeutigen Proben zur Kategorisierung an menschliche Experten. Das Modell wurde wiederholt mit den kürzlich annotierten Daten aktualisiert, wodurch die Genauigkeit schrittweise verbessert und Fehlklassifizierungen reduziert wurden. Schließen Sie das Dataset ab, und überprüfen Sie die Anmerkungen, um die Genauigkeit sicherzustellen. Bereiten Sie das Dataset für die Analyse vor und stellen Sie sicher, dass es ordnungsgemäß dokumentiert und für die zukünftige Verwendung formatiert ist, um es in nachgelagerten Fällen zu implementieren. Es ist jedoch wichtig, die in den Äußerungen eingebetteten Emotionsmuster zu untersuchen, damit die zukünftigen Schritte in Bezug auf die Umsetzung klarer werden. Daher wird im nächsten Schritt eine Clusteranalyse durchgeführt, um dominante Emotionen zu finden, die in den Datensatz eingebettet sind. Dies hilft auch bei der Identifizierung der Emotionen, die wir erforschen.

Auswahl von Emotionsclustern
Tabelle 2 zeigt die Emotionsgruppen und ihre hinglischen Entsprechungen sowie den Grund für die Auswahl der jeweiligen Emotionen. Aus jeder Gruppe von Emotionen wurde eine dominante Emotion für die weitere Verarbeitung ausgewählt. Diese dominanten Emotionen werden aus der Clusteranalyse ausgewählt.

Gruppe Emotion	Hinglish Äquivalent	Begründung der Selektion
Angst (einschließlich Angst und Panik)	Dar, khauf, Asahaj, Bekabu, Angadai, Chinta, tension, Fikr, Ashanka, Udaasi, Bechaini, Ghabrahat	Angst ist eine häufige Emotion in Kriegen und Konflikten, da die Sicherheit und das Wohlergehen des Einzelnen bedroht sind. Diese Angst kann sich auf verschiedene Weise manifestieren, z. B. durch Angstzustände, Panikattacken und Hypervigilanz.
Wut (einschließlich Irritation, Feindseligkeit, Frustration und Verletzung)	Gussa, raag, Prakop, Raudra, Chidhaan, Shatruta, Krodh, Gussa dilana, apata, Atyachar, Khushfehmi, hairani, Bhayanak, Chakker Kathinaai	Wut ist eine weitere vorherrschende Emotion in Kriegen und Konflikten, die oft aus Gefühlen der Ungerechtigkeit, des Verrats oder des Verlusts entsteht. Diese Wut kann Aggression und Gewalt schüren und zur zerstörerischen Natur dieser Konflikte beitragen.
Traurigkeit (einschließlich Trauer, Verzweiflung und Hoffnungslosigkeit)	Udaasi, gham, Shok, Bhavuk, Dukhi, Udas, Vismay, Nirasha, Shok, Dukhi, Vairagya, Aashank, Vishada, Bhavuk, Dukhi, Udas, Vinamrata, Bhavuk, Hridaytoda, Beumaar, nirasha, Vinaash, Bair, Nirasha, Asambhav, Haar	Trauer ist eine natürliche Reaktion auf Verlust und Trauer, die in Kriegen und Konflikten leider häufig vorkommen. Soldaten können Trauer über den Verlust von Kameraden empfinden, Zivilisten können um geliebte Menschen trauern, die getötet oder vertrieben wurden, und ganze Gemeinschaften können den Verlust ihrer Häuser und ihrer Lebensweise betrauern. Gefühle der Verzweiflung und Hoffnungslosigkeit können auch aufgrund der langwierigen Natur des Konflikts und des scheinbar endlosen Kreislaufs der Gewalt entstehen.
Scham und Schuld	Sharm, lajjabari, Sharm, Laaj, Zillat, Afsos, Gunah, Afsos, Pashchatap, Laaj, Bechaini, Aatmasamarpan, Sharmindagi, Ashru, Pashchatap, Antaratma, Kasoor, gunaah, Khud ko doshi maana, Ninda, Dosha	Scham und Schuld sind komplexe Emotionen, die aus Gefühlen von persönlichem oder kollektivem Fehlverhalten, Unzulänglichkeit oder Demütigung entstehen können. In Kriegen und Konflikten können Individuen Scham oder Schuld für ihre Taten, ihre Unfähigkeit, Schaden von anderen zu verhindern, oder ihr Überleben, während andere umgekommen sind, empfinden.
Ekel	Ghin, nafrat, Asahayak, Pratikool, Ghrina, Vairagya, Dvesha, Nakaratmak, Vibhavsu, Vairagya, Vairagya, Nirasha	Ekel ist ein Gefühl des Ekels oder der Abneigung gegen etwas, das als geschmacklos oder beleidigend empfunden wird. In Kriegen und Konflikten können Individuen als Reaktion auf Akte der Grausamkeit, Gewalt und Barbarei Abscheu empfinden.
Empathie und Mitgefühl	Sahaaanubhuti, hamderdari, Samajhdari, Daan Sahabhooti, Sensibilität, Unterstützung, Rücksichtnahme, Freundlichkeit, Fürsorge, Wärme, Zärtlichkeit, Daya, raham, Sahaaanubhuti, Sahyog, Dayalu, Samajh, Pyar, Daya, Narami, Paropkari	Empathie und Mitgefühl sind unerlässlich, um die Gefühle anderer zu verstehen und zu teilen. In Kriegen und Konflikten kann Empathie ein mächtiges Werkzeug sein, um mit anderen in Kontakt zu treten, die ähnliche Erfahrungen gemacht haben, Mitgefühl zu fördern und Versöhnung zu fördern. Mitgefühl kann den Einzelnen motivieren, den Bedürftigen zu helfen und zur Heilung und zum Wiederaufbau beizutragen.
Hoffnung und Dankbarkeit	Umeed, aasha, Chah, Ichha, Sapna, Unnati, Ashvasan, Khushi, Utsaah, Ashirwad, Samvedansheelata, Vishwas, Bharosa, Shukraguzaar, eshaananand, Shukrana, Aabhaar, Namrata, Samaanya, Naman, Aasherewad, Badhai, Dhanyavaad, Abhivadn, Manobhav, Bhakti	Hoffnung ist ein Gefühl des Optimismus und der Erwartung, dass trotz der Herausforderungen und Schwierigkeiten, denen man gegenübersteht, etwas Gutes geschehen wird. Dankbarkeit ist ein Gefühl der Dankbarkeit und Wertschätzung für die guten Dinge im eigenen Leben. In Kriegen und Konflikten kann Hoffnung eine Quelle der Kraft und Motivation sein, die es dem Einzelnen ermöglicht, durchzuhalten und auf eine bessere Zukunft hinzuarbeiten. Dankbarkeit kann dem Einzelnen helfen, sich auf die positiven Aspekte seines Lebens zu konzentrieren, die Widerstandsfähigkeit zu fördern und inmitten der Turbulenzen ein Gefühl des Friedens zu entwickeln.
Resilienz	Jheelaanek, himmat, Sahasi, Sahas, Dhairya, Majbooti, Samvedansheel, Samarthya, Majbuti, Lachari	Resilienz ist die Fähigkeit, sich anzupassen und mit schwierigen oder herausfordernden Situationen umzugehen. In Kriegen und Konflikten ist Resilienz für Einzelpersonen und Gemeinschaften unerlässlich, um zu überleben und angesichts von Widrigkeiten durchzuhalten.

Tabelle 2: Begründung für die Selektion von Emotionen. Die Tabelle ordnet Emotionsgruppen ihren hinglischen Entsprechungen zu und erläutert ihre Relevanz in Kontexten von Krieg und Konflikten.

Es muss jedoch beachtet werden, dass die Auswahl dieser Emotionen nicht nur auf der Clusteranalyse basiert, sondern auch auf den Theorien der Emotionen basiert, einschließlich der Cognitive Appraisal Theory (CAT), der Discrete Emotions Theory (DET) und der Process-Oriented Theory (POT) of Emotion⁴³.

Details zum Korpus
Der Datensatz besteht aus domänenspezifischen (Kriege, Konflikte und Krisen) und zusätzlichen Tweet-Datensätzen, die eine Mischung aus Hindi- und englischen Tweets enthalten. Abbildung 3 ist ein Schnappschuss der öffentlich zugänglichen Tweet-Datensätze, die für diese Forschungsarbeit verarbeitet werden. Der primäre Datensatz ist unter https://data.mendeley.com/datasets/y63frd6pmf/7 öffentlich zugänglich.

figure-protocol-10
Abbildung 3: Details zum Korpus. Die Verfügbarkeit des Datensatzes wird hier erläutert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Annotation von Emotions-Labels
Ein anfänglicher Korpus von 10.040 Hinglish-Tweets im Zusammenhang mit Krieg und Konflikten wurde von zweisprachigen Experten manuell mit acht Emotions-Labels versehen. Um der sprachlichen Komplexität von Code-Mixed-Texten gerecht zu werden, wurde ein lexikalisches regelbasiertes Framework entwickelt, das mehrere Komponenten umfasst. Das Framework umfasst emotionsspezifische Wörterbücher, die Hindi/Englisch-Begriffe auf Emotionen abbilden, wie z. B. fear_words = {Fear, Dread, Bhayanak, figure-protocol-11 , Terror, figure-protocol-12 } und anger_words = {gussa, rage, figure-protocol-13 , irritation, figure-protocol-14 }. Sprachübergreifende Äquivalenzregeln verknüpften die Begriffe (z.B. if (Ae == Ah): Wut = gussa | figure-protocol-15 ). Es werden lexikalische Regeln wie Emotionswörterbücher, Tokenisierung für gemischte Sprachen und die Zerlegung von Teilwörtern verwendet. Um Emotionen zu kommentieren, verarbeiten diese Regeln Text vor und extrahieren Merkmale, die dann mit Einbettungen des maschinellen Lernens^{kombiniert werden 45}.

Für die Tokenisierung verwendete das Framework benutzerdefinierte Regeln für Sprachumschaltung, Zeichensetzung, Emojis und die Tokenisierung von Zwischenwörtern. Hindi-Text (Devanagari) wurde auf Zeichenebene tokenisiert, während im Englischen (Romanisch) Leerzeichen verwendet wurden. Beispiel: Mujhe frustration hai → [Mujhe, Frustration, hai]. Sonderzeichen wie Hashtags (#) und Erwähnungen (@) wurden als einzelne Token isoliert (z. B. #WarCrimes → [#, WarCrimes]), während Satzzeichen wie Kommas (,) und Ausrufezeichen (!) in separate Token aufgeteilt wurden (z. B. figure-protocol-16 → figure-protocol-17 , !]).

Emojis wurden auch als eigenständige Token behandelt und Emotionen (z. B. → Wut figure-protocol-18 → Traurigkeit) figure-protocol-19 zugeordnet. Die Tokenisierung von Unterwörtern erfolgte mit der Devanagari-Schrift, bei der zusammengesetzte Wörter anhand von Regex-Mustern für Sandhi-Regeln (z. B. figure-protocol-20 ] [Königreich + Welt]) und Präfixe/Suffixe der römischen Schriften segmentiert wurden (z. B. unglaublich → [un, glaubwürdig]). Für die domänenspezifische Erweiterung wurden Token durch Emotionsbeschriftungen ersetzt, wenn sie in Wörterbüchern übereinstimmten. Zum Beispiel: Bhayanak → Furcht, Dahad" → Angst, Gussa → Zorn. Tweet Mujhe Bhayanak lag raha hai → Tokens [Mujhe, Angst, lag, raha, hai].

Nach der Vektorisierung wurden die verarbeiteten Token (Wörter, Zwischenwörter, Emojis) mittels Word2Vec/fastText in 300-dimensionale Einbettungen umgewandelt. Die numerischen Darstellungen in Spaltenvektoren von Token, einer Matrix von Vektoren, die Token entsprechen. Jede Zeile entspricht einem Einbettungsvektor, der mit einem Token im Text verknüpft ist und die Reihenfolge des Tokens darstellt. Spalten in einer Zeile kennzeichnen Dimensionen im Einbettungsraum. Die Vektoren enthalten reelle Zahlen, die mit Word2Vec und FastText berechnet wurden. Token mit Nullvektoren, die durch Zeilen mit allen Nullwerten dargestellt werden, können Leerzeichen oder Sonderzeichen bezeichnen, denen in dieser Darstellung aussagekräftige Informationen fehlen. Einbettungen zielen darauf ab, kontextbezogene Wortbeziehungen für eine verbesserte Annotation zu erfassen. Vektoren ungleich Null geben sinnvolle Darstellungen von Wörtern oder Symbolen an. Werte in diesen Vektoren kodieren verschiedene semantische und syntaktische Merkmale. Nullvektoren stellen in der Regel Auffüllung, Leerzeichen oder nicht erkannte Token dar. Die Variabilität der Werte spiegelt die Fülle der Features wider, die vom Einbettungsmodell erfasst werden. Verschiedene Vektordimensionen erfassen unterschiedliche Aspekte der Bedeutung, des Kontexts und der Verwendung eines Wortes. Abbildung 4 zeigt, wie Vektoren dargestellt werden, und aus Abbildung 5 können die Auswirkungen der Verwendung des Vektorisierungsprozesses verstanden werden.

figure-protocol-21
Abbildung 4: Benutzerdefinierte Tokenisierung. Die Abbildung zeigt, wie Vektoren im Einbettungsraum dargestellt werden und wie jedes Token in ein numerisches Format übertragen wird . Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

figure-protocol-22
Abbildung 5: Token-Vektorisierungsprozess und seine Auswirkungen. Die Abbildung veranschaulicht die Auswirkungen dieser Prozesse und Komponenten und hebt hervor, wie diese Einbettungen die Semantik von Emotionen für eine genaue emotionale Klassifizierung erfassen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Gemäß dem Forschungsablauf beginnt der Prozess mit dem Parsen des Eingabetextes, dem Erweitern von Token mithilfe der regelbasierten Wörterbücher und dem anschließenden Aufteilen dieser Token in Unterwörter. Dieser Ansatz ermöglicht ein Verständnis des emotionalen Inhalts und des kulturellen Kontexts des Textes, und die Pseudologik für die Forschung wird im Folgenden gegeben.

Initialisieren von Emotionswörterbüchern (z.B. fear_words = {"Angst", "Schrecken", "Bhayanak", ...}): Set ae = ah
SubwordRules(token, script): Wenn Devanagari mit Regex geteilt → (zusammengesetzt/Sandhi), Wenn römische → Präfixe/Suffixe mit Regex geteilt haben, werden Unterwörter zurückgegeben
DomainSpecificExpansion(token): Wenn Token in emotionalen/linguistischen Wörterbüchern Emotionen zurückgeben →
Andernfalls → Token zurückgeben
ProcessTweet(text): Regex für Devanagari, Roman, andere definieren; Extrahieren von Token mit Regex; Wenden Sie DomainSpecificExpansion und SubwordRules auf Token an. Rückgabe von verarbeiteten Unterwörtern
Vektorisieren von Token in numerische Einbettungen
Wenden Sie aktives Lernen mit menschlichem Feedback an

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Ergebnisse dieser Forschung deuten darauf hin, dass die Integration der lexikalischen Regeln mit maschinellem Lernen und aktiven Lerntechniken einen gangbaren Weg zur Verbesserung der Effizienz und Genauigkeit der Emotionsannotation in codegemischtem Hinglis-Text bietet. Durch iterative Verfeinerung und Expertenvorschläge konnte das vorgeschlagene Framework eine bemerkenswerte Reduzierung des manuellen Aufwands erzielen und gleichzeitig eine hohe Leistung über alle Evolutionsmatrizen ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Datensatz für diese Studie wurde mit einer Kombination aus manueller Annotation und aktivem Lernen kuratiert. Ursprünglich wurden 10.040 Hinglish-Tweets, die sich auf Krieg und Konflikte bezogen, manuell mit acht vordefinierten Emotionen versehen. Der Datensatz wurde dann mit einem halbautomatischen Ansatz auf 19.000 Tweets erweitert. Aktives Lernen ermöglichte selektive Experteninterventionen, wodurch der manuelle Aufwand um 40 % reduziert wurde, während eine hohe Annotationsgenauigkeit von 81 % mit einem F-Score vo...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren erklären, dass kein Interessenkonflikt besteht.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Forschung erhielt keine externe Finanzierung.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fastText	Facebook-KI	N/A	Wortdarstellung und -klassifikation
Google Colab	Googeln	N/A	Cloud-basierte Jupyter Notebook-Umgebung
Google Colab GPU/TPU	Googeln	N/A	Cloud-basierte Hardwarebeschleunigung
Intel Core i5/i7 oder AMD Ryzen 5/7	Intel / AMD	N/A	Prozessor für lokale Ausführung (falls erforderlich)
Matplotlib	Open-Source	N/A	Bibliothek zur Datenvisualisierung
NLTK	Open-Source	N/A	Natural Language Toolkit für die Textverarbeitung
NumPy	Open-Source	N/A	Bibliothek für numerisches Rechnen
NVIDIA GTX 1650 oder höher (optional)	NVIDIA	N/A	GPU für Deep-Learning-Aufgaben
Pandas	Open-Source	N/A	Bibliothek für Datenmanipulation
Python	Python-Software-Stiftung	N/A	Programmiersprache für ML und NLP
PyTorch	Meta-KI	N/A	Deep-Learning-Framework
RAM (mindestens 8 GB, 16 GB empfohlen)	Verschieden	N/A	Speicherbedarf für ML-Aufgaben
Scikit-lernen	Open-Source	N/A	Bibliothek für maschinelles Lernen
Seegeborene	Open-Source	N/A	Visualisierung statistischer Daten
Geräumig	Explosions-KI	N/A	Industrietaugliche NLP-Bibliothek
SSD-Speicher (mindestens 256 GB, 512 GB empfohlen)	Verschieden	N/A	Speicher für die Verarbeitung von Datensätzen
TensorFlow	Googeln	N/A	Deep-Learning-Framework

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al. A systematic review of applications of natural language processing and future challenges with special emphasis in text-based emotion detection. Artif Intell Rev. 56 (12), 15129-15215 (2023).
Recent advancements and challenges in multimodal sentiment analysis: a survey. Dong, Z. X., Liu, H. 2023 Int Conf Machine Learning Cybernetics (ICMLC), , IEEE. 464-469 (2023).
Gandhi, A., et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fusion. 91, 424-444 (2023).
Chand, V. The rise and rise of Hinglish in India. Conversation. , https://theconversation.com/the-rise-and-rise-of-hinglish-in-india-53476 (2016).
Hernández-de-Menéndez, M., et al. Active learning in engineering education: a review of fundamentals, best practices and experiences. Int J Interact Des Manuf. 13, 909-922 (2019).
Liu, X., et al. Developing multi-labelled corpus of Twitter short texts: a semi-automatic method. Systems. 11 (8), 390(2023).
Alahmary, R., Al-Dossari, H. A semiautomatic annotation approach for sentiment analysis. J Inf Sci. 49 (2), 398-410 (2023).
Garg, N., Sharma, K. Annotated corpus creation for sentiment analysis in code-mixed Hindi-English (Hinglish) social network data. Indian J Sci Technol. 13 (40), 4216-4224 (2020).
Jamatia, A., et al. Deep learning based sentiment analysis in a code-mixed English-Hindi and English-Bengali social media corpus. Int J Artif Intell Tools. 29 (5), 2050014(2020).
Nainabasti, B. Role of students' participation on learning physics in active learning classes. ProQuest ETD Collection for FIU. , AAI10743750(2016).
Goudjil, M., et al. A novel active learning method using SVM for text classification. Int J Autom Comput. 15, 290-298 (2018).
Huang, S. J., Jin, R., Zhou, Z. H. Active learning by querying informative and representative examples. Adv Neural Inf Process Syst. 23, 1-9 (2010).
Zhang, Z., Strubell, E., Hovy, E. A survey of active learning for natural language processing. arXiv. , (2022).
Baghel, R. A survey on code-mixed sentiment analysis based on Hinglish dataset. Int Conf Comput Commun Cyber-Secur. 664, (2022).
Tong, S., Koller, D. Support vector machine active learning with applications to text classification. J Mach Learn Res. 2 (Nov), 45-66 (2001).
Subramanian, M., et al. A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alex Eng J. 80, 110-121 (2023).
Liu, Z., et al. An emotion-based personalized music recommendation framework for emotion improvement. Inf Process Manag. 60 (3), 103256(2023).
Ren, F., Liu, Z., Kang, X. An efficient framework for constructing speech emotion corpus based on integrated active learning strategies. IEEE Trans Affect Comput. 13 (4), 1929-1940 (2022).
Azzi, S. A., Zribi, C. B. O. Comparing deep learning models for multi-label classification of Arabic abusive texts in social media. Proc Int Conf Software Tech, , 374-381 (2022).
Min, X. Y., et al. Multi-label active learning through serial-parallel neural networks. Knowl Based Syst. 251, 109226(2022).
Gosselin, L., Sabourin, L. Language athletes: dual-language code-switchers exhibit inhibitory control advantages. Front Psychol. 14, 1150159(2023).
Acheampong, F. A., Wenyu, C., Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng Rep. 2 (7), e12189(2020).
Tracy, J. L., Randles, D. Four models of basic emotions: a review of Ekman and Cordaro, Izard, Levenson, and Panksepp and Watt. Emotion Rev. 3 (4), 397-405 (2011).
Xiao, X., et al. A cognitive emotion model enhanced sequential method for social emotion cause identification. Inf Process Manag. 60 (3), 103305(2023).
Park, E. H., Storey, V. C. Emotion ontology studies: a framework for expressing feelings digitally and its application to sentiment analysis. ACM Comput Surv. 55 (9), 1-38 (2023).
Batra, H., Nelson, L. DCADS: data-driven computer aided diagnostic system using machine learning techniques for polycystic ovary syndrome. Int J Performability Eng. 19 (3), 193(2023).
Sakib, N., et al. Towards automated recipe genre classification using semi-supervised learning. PLoS One. 20 (1), e0317697(2025).
Fu, L., et al. A touch, vision, and language dataset for multimodal alignment. arXiv. , (2024).
Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena. Bollen, J., Mao, H., Pepe, A. Proc Int AAAI Conf Web Soc Media, 5 (1), https://ojs.aaai.org/index.php/ICWSM/article/view/14171 (2011).
EmpaTweet: annotating and detecting emotions on Twitter. Roberts, K., et al. Proc Eighth Int Conf Language Resource Eval, 12 (12), 3806-3813 (2012).
Mohammad, S. #Emotional tweets. First Joint Conf on Lexical Comput Semantics. , 246-255 (2012).
Li, W., Xu, H. Text-based emotion classification using emotion cause extraction. Expert Syst Appl. 41 (4), 1742-1749 (2014).
Verma, P., Kaur, A., Khurana, M., Damaševičius, R. Multimodal Hinglish tweet dataset for deep pragmatic analysis. Data. 9 (2), 38(2024).
Hasan, M., Agu, E., Rundensteiner, E. Using hashtags as labels for supervised learning of emotions in Twitter messages. ACM SIGKDD Workshop Health Info. 34 (74), 1-8 (2014).
Scherer, K. R., Wallbott, H. G. Evidence for universality and cultural variation of differential emotion response patterning. J Pers Soc Psychol. 66 (2), 310(1994).
Sasidhar, T. T., Premjith, B., Soman, K. P. Emotion detection in Hinglish (Hindi+ English) code-mixed social media text. Procedia Comput Sci. 171, 1346-1352 (2020).
Corpus creation and emotion prediction for Hindi-English code-mixed social media text. Vijay, D., et al. Proc. 2018 Conf. North Am Chapter Assoc Comput Linguistics: Student Research Workshop, , 128-135 (2018).
Srivastava, V., Singh, M. Phinc: a parallel Hinglish social media code-mixed corpus for machine translation. arXiv. , (2004).
Cossu, J. V., Molina-Villegas, A., Tello-Signoret, M. Active learning in annotating micro-blogs dealing with e-reputation. J Interdiscip Methodol Issues Sci. 3, (2017).
Kranjc, J., et al. Active learning for sentiment analysis on data streams: methodology and workflow implementation in the ClowdFlows platform. Inf Process Manag. 51 (2), 187-203 (2015).
Smith, C. A., Kirby, L. D. Consequences require antecedents: toward a process model of emotion elicitation. Feeling and Thinking: The Role of Affect in Social Cognition. , 83-106 (2000).
Jan, T. G., Khurana, S. S., Kumar, M. Semi-supervised labeling: a proposed methodology for labeling the Twitter datasets. Multimed Tools Appl. 81 (6), 7669-7683 (2022).
Cahyana, N. H., et al. Semi-supervised text annotation for hate speech detection using k-nearest neighbors and term frequency-inverse document frequency. Int J Adv Comput Sci Appl. 13 (10), 147-151 (2022).
Saifullah, S., et al. Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection. Appl Sci. 14 (3), 1078(2024).
Advani, L., Lu, C., Maharjan, S. C1 at SemEval-2020 Task 9: SentiMix: sentiment analysis for code-mixed social media text using feature engineering. arXiv. , (2008).
Alarcão, S. M., et al. Annotate smarter, not harder: using active learning to reduce emotional annotation effort. IEEE Trans Affect Comput. 15 (3), 1213-1227 (2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Maschinelles Lernen und lexikalische, regelbasierte, kosteneffiziente Emotionsannotation von Hinglish-Äußerungen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles