Research Article

Maschinelles Lernen und lexikalische, regelbasierte, kosteneffiziente Emotionsannotation von Hinglish-Äußerungen

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie kombiniert die regelbasierte Strategie mit maschinellem Lernen und fachkundiger Unterstützung bei der Annotation des hinglischen und englischen Textes. Die Daten werden an 19.000 Tweets mit einer Genauigkeit von 81 % getestet, und es ist viel billiger als dies manuell zu tun. Es könnte nützlich sein, um Emotionen während einer Krise zu verfolgen.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Emotionsannotation in Code-gemischten Sprachen wie Hinglish (Hindi-Englisch) stellt aufgrund der linguistischen Komplexität und Ressourcenbeschränkungen einzigartige Herausforderungen dar. In dieser Studie wird ein hybrides Framework für aktives Lernen vorgestellt, das lexikalische Regeln, maschinelles Lernen und iteratives Expertenfeedback kombiniert, um eine kosteneffiziente, hochpräzise Emotionsannotation zu erreichen. Basierend auf psychologischen Emotionstheorien, einschließlich der Theorie der diskreten Emotionen und der kognitiven Bewertungstheorie, verwendet das Framework zweisprachige Emotionswörterbücher (z. B. Mapping von Gussa und Wut auf Wut), Subword-Tokenisierung für zusammengesetzte Begriffe (z. B. Aufspaltung figure-abstract-1 in figure-abstract-2) und aktives Lernen, um mehrdeutige Stichproben zu priorisieren. Anhand eines Datensatzes von 19.000 kriegs- und konfliktbezogenen Hinglish-Tweets erreichte das Framework eine Genauigkeit von 81 % (F-Score: 0,76) und reduzierte gleichzeitig die Betriebskosten um 40 % im Vergleich zur manuellen Annotation. Lexikalische Regeln lösten 89 % der Mehrdeutigkeiten beim Code-Switching, und iterative Verfeinerungen ermöglichten inkrementelle Genauigkeitssteigerungen von 72 % auf 81 %. Die Effizienz des Systems beruht auf der Begrenzung des menschlichen Aufwands auf 73 % des Datensatzes mit automatischer Vorverarbeitung von Emojis, Hashtags und Slang. Diese Studie basiert auf der Hypothese, dass die Integration lexikalischer regelbasierter Methoden mit aktivem Lernen und maschinellem Lernen die Genauigkeit der Emotionsannotation in hinglischen Texten verbessern und gleichzeitig den manuellen Beschriftungs- und Gesamtannotationsaufwand reduzieren kann.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wenn zwei oder mehr Sprachen in einer einzigen Zeile oder Sprache miteinander vermischt werden, wird dies als Code-gemischte Sprache bezeichnet. Es ist üblich in lockeren Dialogen wie Hinglish. Es gibt mehrere Möglichkeiten, wie menschliche Emotionen verstanden werden können, und eine Reihe von emotionalen Aussagen rechnerisch zu modellieren bedeutet, sie von den Menschen, die diese Sätze geäußert haben, mit Anmerkungen zu versehen. Es kann auf biologischer, physiologischer, psychologischer Ebene usw. verstanden werden. Laut Wissenschaftlern wie Roger Penrose sind viele Phänomene in unserer Welt nicht rechnerisch, und Wissenschaftler ....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In diesem Abschnitt wird auch erklärt, wie das multimodale Framework für die 8-Emotions-Annotation aufgebaut wurde. Der Abschnitt beginnt mit einer Erläuterung der Eigenschaften des Datasets, gefolgt von den nachfolgenden Verfahren. Zum besseren Verständnis des Forschungsverfahrens siehe Abbildung 1.

figure-protocol-1
Abbildung 1: Systematischer Rahmen der Emotionsannotation . Die Abbildung erklärt die effektive Emotion, die Annotation von hinglischigem Text, di....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Ergebnisse dieser Forschung deuten darauf hin, dass die Integration der lexikalischen Regeln mit maschinellem Lernen und aktiven Lerntechniken einen gangbaren Weg zur Verbesserung der Effizienz und Genauigkeit der Emotionsannotation in codegemischtem Hinglis-Text bietet. Durch iterative Verfeinerung und Expertenvorschläge konnte das vorgeschlagene Framework eine bemerkenswerte Reduzierung des manuellen Aufwands erzielen und gleichzeitig eine hohe Leistung über alle Evolutionsmatrizen .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Datensatz für diese Studie wurde mit einer Kombination aus manueller Annotation und aktivem Lernen kuratiert. Ursprünglich wurden 10.040 Hinglish-Tweets, die sich auf Krieg und Konflikte bezogen, manuell mit acht vordefinierten Emotionen versehen. Der Datensatz wurde dann mit einem halbautomatischen Ansatz auf 19.000 Tweets erweitert. Aktives Lernen ermöglichte selektive Experteninterventionen, wodurch der manuelle Aufwand um 40 % reduziert wurde, während eine hohe Annotationsgenauigkeit von 81 % mit einem F-Score vo.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren erklären, dass kein Interessenkonflikt besteht.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Forschung erhielt keine externe Finanzierung.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fastTextFacebook-KIN/AWortdarstellung und -klassifikation
Google ColabGoogelnN/ACloud-basierte Jupyter Notebook-Umgebung
Google Colab GPU/TPUGoogelnN/ACloud-basierte Hardwarebeschleunigung
Intel Core i5/i7 oder AMD Ryzen 5/7Intel / AMDN/AProzessor für lokale Ausführung (falls erforderlich)
MatplotlibOpen-SourceN/ABibliothek zur Datenvisualisierung
NLTKOpen-SourceN/ANatural Language Toolkit für die Textverarbeitung
NumPyOpen-SourceN/ABibliothek für numerisches Rechnen
NVIDIA GTX 1650 oder höher (optional)NVIDIAN/AGPU für Deep-Learning-Aufgaben
PandasOpen-SourceN/ABibliothek für Datenmanipulation
Python Python-Software-StiftungN/AProgrammiersprache für ML und NLP
PyTorchMeta-KIN/ADeep-Learning-Framework
RAM (mindestens 8 GB, 16 GB empfohlen)VerschiedenN/ASpeicherbedarf für ML-Aufgaben
Scikit-lernenOpen-SourceN/ABibliothek für maschinelles Lernen
SeegeboreneOpen-SourceN/AVisualisierung statistischer Daten
GeräumigExplosions-KIN/AIndustrietaugliche NLP-Bibliothek
SSD-Speicher (mindestens 256 GB, 512 GB empfohlen)VerschiedenN/ASpeicher für die Verarbeitung von Datensätzen
TensorFlowGoogelnN/ADeep-Learning-Framework

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles