Uczenie maszynowe i oparte na regułach leksykalnych, ekonomiczne adnotacje emocji wypowiedzi Hinglish

Pratibha Verma; Amandeep Kaur; Meenu Khurana; Deepali Gupta

doi:10.3791/68437

Research Article

Uczenie maszynowe i oparte na regułach leksykalnych, ekonomiczne adnotacje emocji wypowiedzi Hinglish

DOI:

10.3791/68437

⸱

August 19th, 2025

Pratibha Verma¹ , Amandeep Kaur¹ , Meenu Khurana² , Deepali Gupta¹

¹Chitkara University Institute of Engineering & Technology, Chitkara University, ²Chitkara University School of Engineering & Technology, Chitkara University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

To badanie łączy strategię opartą na regułach z uczeniem maszynowym i pomocą ekspertów w celu dodawania adnotacji do tekstu w języku Hinglish i angielskim. Dane są testowane na 19 000 tweetów z 81% dokładnością i są znacznie tańsze niż robienie tego ręcznie. Może być przydatny do śledzenia emocji podczas kryzysu.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Adnotacje dotyczące emocji w językach mieszanych z kodem, takich jak hinglish (hindi-angielski), stanowią wyjątkowe wyzwanie ze względu na złożoność językową i ograniczenia zasobów. To badanie wprowadza hybrydową platformę aktywnego uczenia się, która łączy reguły leksykalne, uczenie maszynowe i iteracyjne informacje zwrotne od ekspertów w celu uzyskania opłacalnych i dokładnych adnotacji emocji. Opierając się na psychologicznych teoriach emocji, w tym teorii emocji dyskretnych i teorii oceny poznawczej, ramy wykorzystują dwujęzyczne słowniki emocji (np. mapowanie gussa i wściekłości na gniew), tokenizację podsłów dla terminów złożonych (np. podział figure-abstract-1 na figure-abstract-2 ) oraz aktywne uczenie się w celu priorytetyzacji niejednoznacznych próbek. Oceniono na podstawie 19 000 zestawów danych tweetów Hinglish związanych z wojną i konfliktem, platforma osiągnęła 81% dokładności (F-score: 0,76), jednocześnie zmniejszając koszty operacyjne o 40% w porównaniu z ręcznymi adnotacjami. Reguły leksykalne rozwiązały 89% niejasności związanych z przełączaniem kodu, a iteracyjne udoskonalenia umożliwiły przyrostowy wzrost dokładności z 72% do 81%. Wydajność systemu wynika z ograniczenia ludzkiego wysiłku do 73% zbioru danych, z automatycznym wstępnym przetwarzaniem emotikonów, hashtagów i slangu. Badanie to opiera się na hipotezie, że integracja metod opartych na regułach leksykalnych z aktywnym uczeniem się i uczeniem maszynowym może zwiększyć dokładność adnotacji emocji w tekście Hinglish, jednocześnie zmniejszając ręczne etykietowanie i ogólny wysiłek związany z adnotacjami.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gdy dwa lub więcej języków jest zmieszanych ze sobą w jednym wierszu lub mowie, nazywa się to językiem mieszanym z kodem. Jest to powszechne w swobodnych dialogach, takich jak Hinglish. Istnieje wiele sposobów, w jakie ludzkie emocje mogą być zrozumiane, a obliczeniowe modelowanie serii emocjonalnych stwierdzeń polega na dodawaniu do nich adnotacji przez osoby, które wypowiedziały te zdania. Można to rozumieć w kategoriach poziomu biologicznego, fizjologicznego, psychologicznego i tak dalej. Według naukowców, takich jak Roger Penrose, wiele zjawisk w naszym świecie nie jest obliczeniowych, a naukowcy tacy jak Wolfram uważają, że wszystko (każde zjawisko) można modelować^{obliczeniowo1}. Penrose uważa, że świadomość obejmuje procesy (być może związane z mechaniką kwantową w mózgu), które wykraczają poza to, co może osiągnąć jakakolwiek procedura algorytmiczna krok po kroku. Często cytuje twierdzenia Gödla o niezupełności, aby poprzeć ideę, że na przykład ludzka wnikliwość matematyczna wykracza^{poza systemy} formalne. Jeśli świadomość nie jest obliczeniowa, to emocje, jako kluczowy aspekt świadomego doświadczenia, mogą również zawierać elementy nieobliczeniowe. Stephen Wolfram, znany z Mathematica i swojej pracy nad automatami komórkowymi, proponuje "Zasadę Równoważności Obliczeniowej". Sugeruje to, że nawet bardzo złożone systemy, w tym potencjalnie sam wszechświat i zjawiska w nim zachodzące (takie jak emocje), mogą być ostatecznie opisane i modelowane przez reguły obliczeniowe, nawet jeśli te reguły są bardzo proste, generując złożone zachowanie. Ale w praktyce nie jest to możliwe i potrzebujemy kogoś, kto jest określany jako ekspert lub po prostu anotator, który może przeprowadzić analizę emocji³.

W niniejszym badaniu propagujemy ideę budowania modeli obliczeniowych. Ale ten model będzie quasi-obliczeniowy. Nasze badania w tym kontekście mają na celu uzyskanie formy obliczeniowej, ale mogą nie uchwycić idealnie wszystkich aspektów, być może pozostawiając miejsce na zawiłości, które są trudne lub niemożliwe do pełnego obliczenia. Emocje są trudne do modelowania obliczeniowego, ponieważ zależą od subiektywnych doświadczeń, kontekstu kulturowego i zniuansowanych wyrażeń, których nie można w pełni uchwycić za pomocą ustalonych algorytmów.

Dlatego, aby modelować ludzkie emocje przy użyciu podejść obliczeniowych opartych na zmiennych, konieczne jest opisywanie ludzkich wypowiedzi emocjonalnych. Adnotacja ta powinna być wykonana przez eksperta lub anotatora wykwalifikowanego w analizie emocji¹. Zrozumienie złożoności ludzkich emocji nie jest łatwym zadaniem, zwłaszcza gdy mamy do czynienia z językami mieszanymi. Co więcej, problemy związane ze skalą oznaczają, że poleganie wyłącznie na ręcznych adnotacjach przez ludzi nie jest realną opcją. Ostatnie badania wskazują na konsekwentne zapotrzebowanie na podejście human-in-the-loop podczas tworzenia systemów do tak złożonych zadań. W związku z tym podejście półautomatyczne, które polega na automatyzacji prostszych części przy jednoczesnym zarezerwowaniu zadań wymagających ludzkich niuansów dla adnotatorów, wydaje się najbardziej odpowiednie do tworzenia systemów języka naturalnego w tej dziedzinie.

Ludzki adnotator będzie oczywiście wykonywał pracę ręcznie, a w dobie obliczeń nie jest to to, czego oczekuje się od współczesnych naukowców. Jeśli anotator (ręczny, półautomatyczny lub w pełni automatyczny) jest w stanie inteligentnie odgadnąć rodzaj emocji ucieleśnionej w wypowiedziach, wypowiedziach, które składają się z wielu rodzajów emocji wyrażonych w symbolach, z kolokwializmem lub mieszanym kodem i przy użyciu wielu modalności, to zadanie jest jednocześnie trudne i łatwe. Złożoność adnotacji emocji w wypowiedziach Hinglish zależy od charakteru wyrażenia. Gdy emocje są wyraźnie przekazywane za pomocą znanych słów lub emotikonów, adnotacje są stosunkowo proste. Zadanie staje się jednak trudne, gdy wypowiedzi obejmują wiele emocji, mieszanie kodów lub niejednoznaczne wyrażenia symboliczne. Dlatego adnotacja może być zarówno łatwa, jak i trudna, w zależności od tego, jak bezpośrednio wyrażona jest emocja.

Współczesne podejścia do identyfikacji emocji i sentymentów radzą sobie z tymi wyzwaniami, w tym z subiektywną naturą emocji, niejednoznacznością ludzkich wyrażeń, złożonością języków mieszanych z kodem, takich jak Hinglish, oraz czasochłonnym i niespójnym charakterem ręcznych adnotacji. związany z konstruowaniem modeli obliczeniowych i zarządzaniem żmudnymi zadaniami adnotacji. Ostatnie badania wskazują, że naukowcy stosują w tym celu różnorodne metody, w tym uczenie maszynowe, uczenie głębokie i różne podejścia hybrydowe. Ostatnie badania pokazują, że aby przezwyciężyć te problemy, naukowcy stosują różne techniki, takie jak uczenie maszynowe, głębokie uczenie i modele hybrydowe.

Ostatnie badania pokazują, że naukowcy stosują wszelkiego rodzaju podejścia, w tym uczenie maszynowe, głębokie uczenie³ i podejścia hybrydowe. Termin analiza sentymentu odnosi się do procedury stosowanej, gdy uważa się, że biegunowość emocji jest markerem do zrozumienia surowych emocji ludzi ^3,4. Rozwój takiej technologii pomógł w rozpoznawaniu nastroju, nastrojów, mowy, emocji twarzy i sygnałów niewerbalnych, a także przyczynił się już do powstania aplikacji, które umożliwiają tłumaczenie w czasie rzeczywistym². Podejście multimodalne może zostać wykorzystane do przetłumaczenia języka Hinglish na język angielski i może być pomocne w przyszłości w zwiększaniu dostępności kina indyjskiego dla odległych społeczeństw ^5,6. Na przykład w Indiach angielski jest często drugim językiem. Badania w tym kontekście pokazują, że poprawiło to jakość nauczania języka angielskiego poprzez analizę mowy indyjskiej (język mix-code) pod kątem ekspresji, czyli stopnia uczuć i emocji każdego słowa.

W tym kontekście badawczym wykazano, że stosowanie języka mieszanego w połączeniu z tłumaczeniem poprawia jakość nauczania języka angielskiego. Osiąga się to poprzez analizę mowy indyjskiej (język mieszanego kodu) w celu określenia wyrazistości lub wartości emocjonalnej każdego słowa. Dzięki zastosowaniu głębokiego uczenia się do szkolenia komputerów w zakresie interpretacji mowy, badania te już poprawiły dokładność komputerowej analizy mowy i ułatwiły lepsze zrozumienie komunikacji ^4,5. Zgodnie z wynikami spisu powszechnego z 2001 roku, język hinglish, który jest mieszanką hindi i angielskiego, jest obecnie używany przez około 120 milionów ludzi w Indiach⁶.

Ze współczesnego krajobrazu algorytmów uczenia się jasno wynika, że aktywne uczenie się stało się potężnym narzędziem do znacznego zmniejszenia ludzkiego wysiłku związanego z opisywaniem dużych zbiorów danych, szczególnie w dziedzinie identyfikacji i rozpoznawania emocji. To iteracyjne podejście, które selektywnie dodaje adnotacje o dużym znaczeniu (z odpowiednimi metrykami), nie tylko zwiększa dokładność adnotacji, ale także poprawia wydajność⁵. Wcześniejsze badania wykazały jego skuteczność w osiąganiu znacznego zmniejszenia obciążenia ręcznymi adnotacjami przy jednoczesnym utrzymaniu lub nawet poprawie wydajności przy mniejszych zestawach danych treningowych i zaproponowaniu opartej na analizie skupień metody informacyjnej selekcji instancji ^7,8. W specyficznym kontekście rozpoznawania emocji Hinglish naukowcy wnieśli cenny wkład dzięki modelom głębokiego uczenia i zestawowi danych^z wieloma adnotacjami ^9,10,11. Poprzednie badania^12,13 wprowadziły metody aktywnego uczenia się i częściowo nadzorowane, aby zminimalizować zależność od danych oznaczonych przez człowieka, co jeszcze bardziej zwiększyło wydajność i zmniejszyło koszty adnotacji. Co więcej, w wielu projektach wykazano, że aktywne uczenie się zwiększa wydajność klasyfikacji, szczególnie w przypadku klasyfikacji emocji opartej na wielu etykietach¹⁴.

Skuteczność aktywnego uczenia się w poprawie wydajności klasyfikatora została uznana w różnych aplikacjach uczenia maszynowego. Badania^15,16 podkreśliły jego kluczową rolę w zwiększaniu wydajności poprzez skupienie się na zastosowaniach edukacyjnych. Podobnie, we wczesnym badaniu wprowadzono nowatorski algorytm aktywnego uczenia się z maszynami wektorów nośnych, znacznie zmniejszając zapotrzebowanie na oznaczone instancje¹⁷. W innej pracy zbadano również jego zastosowanie w zadaniach obejmujących ustrukturyzowane instancje, takie jak klasyfikacja tekstu¹⁸. Wpływ aktywnego uczenia się na zadania związane z rozpoznawaniem emocji wykracza poza wzrost wydajności, szczególnie w zakresie minimalizacji zależności od danych oznaczonych przez człowieka. W jednym z badań wprowadzono wielozadaniowe ramy klasyfikacji i regresji emocji, przewyższając wydajność metod jednozadaniowych¹⁰.

Co więcej, badacze¹⁹poczynili znaczące postępy w rozpoznawaniu emocji mowy i tekstu za pomocą aktywnego uczenia się, wykazując^{jednocześnie} jego skuteczność w spersonalizowanej klasyfikacji emocji muzycznych. Jednak proces kategoryzowania i etykietowania emocji stanowi poważne wyzwanie, jak podkreślono^w ^21,22, szczególnie w kontekście analizy sentymentu. Zauważa, że użycie etykiety może znacząco wpłynąć na kategoryzację emocji, szczególnie w przypadku kategorii wyuczonych^{później 23}. Aby sprostać tym wyzwaniom, opracowano różne algorytmy, w tym metody oparte na słowach kluczowych i uczeniu się, które osiągają znaczące wskaźniki dokładności²⁴. Badania nad emocjami na podstawie pisemnych wypowiedzi i tekstów były badane w licznych modelach, a podejścia te wprowadziły model wymiarowy wykorzystujący normatywne bazy danych do skutecznego wykrywania emocji²⁵. W innym badaniu²⁶ model emocji poznawczych udoskonalił sekwencyjną metodę stosowaną do identyfikacji przyczyn emocji społecznych. Autor przedstawił komputerowo-lingwistyczną interpretację modelu emocji OCC, podczas gdy w podobnym badaniu²⁷zaproponowano system wykorzystujący ontologie do reprezentowania relacji zależności słów i emocji. Autorzy^{jednego z badań}omówili sygnały, które korelują z emocjonalnym przetwarzaniem tekstu, podkreślając adaptację mózgu do wyrażania emocji w języku pisanym. Adnotacja wielu tablic surowych emocji, w tym danych z wielu modeli, jest wyzwaniem. Niemniej jednak badanie emocji związanych z wojną i konfliktem dostarcza naukowego i systematycznego okna na ludzką psychikę w ekstremalnych okolicznościach, pozwalając nam lepiej zrozumieć, w jaki sposób jednostki i społeczności radzą sobie z traumą, stratą i niepewnością⁵. Inne badanie wykazało, że technika adnotacji skutecznie poprawiła klasyfikację gatunków, a cecha tytułu odegrała w tym procesie kluczową rolę²⁹. W jednym z badań stworzono zestaw danych 44K vision-touch z ekspertem i GPT-4V w celu wytrenowania kodera dotykowego i modelu TVL do generowania tekstu³⁰. W innym badaniu analizowano wyszukiwanie opinii i trendów na tweetach politycznych, koncentrując się na procesie aktywnego uczenia się w celu automatycznego dodawania adnotacji do francuskojęzycznych tweetów na temat polityków⁴¹. W innym badaniu przedstawiono CloudFlows, opartą na chmurze platformę naukowego przepływu pracy przeznaczoną do dynamicznej, adaptacyjnej analizy centralnej w strumieniach danych. Umożliwia aktywne uczenie się w celu poprawy klasyfikacji sentymentu, umożliwiając algorytmowi dostosowanie się do zmian danych w czasie rzeczywistym⁴².

Istnieje wyraźne napięcie między złożonością ludzkich emocji a pragnieniem zautomatyzowanej analizy emocji. Istnieje nieodłączne napięcie między złożonością ludzkich emocji a celem automatycznej analizy emocji. Większość współczesnych prac uznaje ograniczenia ręcznych adnotacji i podkreśla potrzebę wyrafinowanych metod obliczeniowych, aby sprostać wyzwaniom związanym ze zrozumieniem emocji w różnych formach komunikacji. Ten idealny scenariusz jest w dużej mierze niepraktyczny, tj. otrzymywanie adnotacji od osób, które napisały lub wypowiedziały zdania⁴³. Idealny scenariusz uzyskiwania danych, w szczególności uzyskiwania adnotacji bezpośrednio od osób, które napisały lub wypowiedziały zdania, jest w dużej mierze niepraktyczny. Ta niepraktyczność wynika z braku możliwości gromadzenia i przetwarzania takich spersonalizowanych adnotacji na dużą skalę. Dlatego obecne wysiłki muszą opierać się na eksperckich adnotatorach lub zautomatyzowanych algorytmach wykrywania emocji w celu analizy i oznaczania emocji wyrażonych w tekście. W niniejszej pracy badawczej staraliśmy się przezwyciężyć niektóre aspekty tych wyzwań związanych z tą dziedziną. Najważniejsze uwagi w tym obszarze problemowym przedstawiono poniżej⁴⁴.

Dlatego musimy polegać na ekspertach lub adnotatorach i algorytmach wykrywania emocji, aby analizować i oznaczać emocje wyrażone w tekście. Niemożliwe jest gromadzenie i przetwarzanie takich spersonalizowanych adnotacji na dużą skalę. Dlatego w niniejszej pracy badawczej staraliśmy się przezwyciężyć niektóre aspekty tej wiedzy dziedzinowej. Poniżej przedstawiono kluczowe wkłady w ten obszar problemowy.

Struktura współpracuje z metodami opartymi na regułach, takimi jak tagowanie emocji, wykrywanie mieszanego kodu i interpretacja emotikonów, z technikami uczenia maszynowego, takimi jak Random Forest i osadzanie słów, poprawiając dokładność adnotacji przy jednoczesnym zmniejszeniu wysiłku ręcznego. Iteracyjne uczenie się klasyfikatora wykorzystuje aktywne uczenie się, a także uczenie transferowe, aby nadać priorytet niejednoznacznym próbkom funkcji, zmniejszając potrzebę ciężkiej pracy. Takie podejście obniżyło koszty operacyjne o 40% w porównaniu z twardym etykietowaniem ręcznym.

Aby poradzić sobie z niuansami Hinglish na poziomie szczegółowym, opracowano niestandardową metodę tokenizacji kontekstowej. Takie podejście przetwarza tekst mieszany z kodem, uwzględniając przełączanie języków, interpunkcję, emotikony i segmentację podsłów, umożliwiając dokładniejsze adnotacje emocji w mieszanym tekście hindi-angielskim. Na poziomie szczegółowym opracowaliśmy niestandardową tokenizację kontekstową dla tekstu Hinglish. Struktura rozwiązuje problemy związane z tekstem mieszanym z kodem, uwzględniając dwujęzyczne słowniki emocji, tokenizację podsłów i niestandardową tokenizację kontekstową. Reguły leksykalne rozwiązały 89% niejasności związanych z przełączaniem kodu.

Nasza praca opiera się na uznanych psychologicznych teoriach emocji, takich jak teoria emocji dyskretnych i teoria oceny poznawczej. Badania pokazują skalowalność podejścia do reagowania kryzysowego i monitorowania mediów społecznościowych, dostarczając planu dla wielojęzycznych aplikacji NLP o niskich zasobach.

W tabeli 1 przedstawiono dostępne badania dotyczące tej samej dziedziny problemowej. Z przeglądu literatury i tabelarycznego podsumowania można wywnioskować, że większość badań nie może uniknąć wstępnej pracy nad adnotacjami przy użyciu metod ręcznych. Niewielu badaczy stosuje podejścia półautomatyczne⁴¹. Jednak prawdziwa różnica w wydajności wynika z zastosowania skutecznego modelu uczenia się, który może zautomatyzować proces adnotacji. Emocjonalna treść tweetów musi pasować do teorii, które wyjaśniają ścieżki ludzkich emocji i organizację uczuć. Następna sekcja definiuje problem w oparciu o ograniczenia istniejących podejść i wyniki empiryczne artykułów.

Studiować	Dataset	Emocja	Metody	Domena	Proces etykietowania	Luki	Przyszły zakres
[31]	9 000 000 tweetów	napięcie, depresja, złość, wigor, zmęczenie,	Profil splątania stanów nastroju	Angielski	Brak etykietowania	Badanie pomija subtelne różnice emocjonalne, takie jak zaskoczenie, radość lub strach, sugerując, że etykietowanie emocji może zwiększyć interpretowalność i szczegółowość trendów sentymentu, szczególnie w odniesieniu do wydarzeń społeczno-ekonomicznych.	Mógłby on zbadać, w jaki sposób lepiej uchwycić i zbadać szereg ekspresji emocjonalnych w danych z mediów społecznościowych, wykorzystując zautomatyzowane metody kategoryzacji i dobrze ugruntowane taksonomie emocji.
[32]	7000 tweetów	złość, wstręt, strach, radość, miłość, smutek,	Maszyna wektorów nośnych	Angielski	Ręcznie	Możliwość uogólnienia zbioru danych jest ograniczona ze względu na jego specyfikę tematyczną i brak reprezentatywności ogólnego korzystania z Twittera. Ze względu na subiektywną interpretację i minimalny kontekst, który jest pokazany w skromnej zgodzie między komentatorami, trudno jest opisać emocje w krótkich, swobodnych tweetach.	Przyszłe prace będą koncentrować się na opracowaniu ulepszonych modeli wykrywania emocji poprzez uwzględnienie rozróżnienia między stylami językowymi specyficznymi dla tematu i emocji, co umożliwi dokładniejszą klasyfikację w różnych kontekstach tweetów.
[33]	21 000 Tweetów	złość, wstręt, strach, radość, smutek, zaskoczenie	Maszyna wektorów nośnych	------	Korzystanie z hashtagu	Istniejące korpusy oznaczone emocjami są ograniczone pod względem rozmiaru i domeny, brakuje dużych, zróżnicowanych zbiorów danych dla mikroblogów. Tweety są krótkie, hałaśliwe i ograniczone kontekstowo, co utrudnia dokładne wykrywanie emocji i dodawanie adnotacji.	W przyszłych badaniach może dojść do rozszerzenia leksykonu emocji o synonimy i dodatkowe hashtagi w celu poprawy zasięgu i dokładności wykrywania.
[34]	16485 Tweety	złość, wstręt, strach, radość, smutek, zaskoczenie	Regresja wektora nośnego	Chiński	Ręcznie	Tradycyjne metody klasyfikacji emocji często pomijają podstawową przyczynę emocji, ograniczając jakość cech. Dokładne wydobycie przyczyn emocji z krótkich, nieformalnych postów na mikroblogu wymaga solidnych systemów opartych na regułach i wiedzy domenowej.	Dalsza eksploracja analizy przyczyn emocji może udoskonalić modele wykrywania emocji i otworzyć nowe kierunki w rozumieniu emocji tekstowych.
[35]	10 040 Tweet	Strach, nadzieja, radość, złość, zaskoczenie, smutek, wstręt	LDA, porozumienie między oceniającymi	Hinglish powiedział:	Ręcznie	Brakuje publicznie dostępnych, ustrukturyzowanych zbiorów danych dla Hinglish, zwłaszcza tych, które ujmują pragmatyczne i emocjonalne niuanse w treściach związanych z kryzysem. Hinglish jest niestandardowym, mieszanym z kodem językiem, a odmiany regionalne komplikują dokładną analizę tonacji i adnotacje.	Aby rozszerzyć multimodalne zestawy danych, zintegruj głęboką analizę pragmatyczną z modelami uczenia maszynowego i zajmij się skalowalnością w celu śledzenia emocji w czasie rzeczywistym w dyskursie konfliktowym.
[36]	134 000 tweetów	aktywny, nieaktywny szczęśliwy, nieszczęśliwy	Maszyna wektorów nośnych i k-najbliżsi sąsiedzi	Hinglish powiedział:	Używanie hashtagów	Ręczne oznaczanie tweetów pod kątem emocji jest pracochłonne i niespójne, co ogranicza wysiłki związane z klasyfikacją emocji na dużą skalę Adnotacje crowdsourcingowe są nierzetelne, zwłaszcza w identyfikowaniu poziomów pobudzenia emocji, podkreślając subiektywność w interpretacji emocji.	Skoncentruj się na udoskonaleniu etykietowania opartego na hashtagach i rozszerzeniu modeli wykrywania emocji, aby zwiększyć dokładność i możliwość uogólnienia w różnych kontekstach emocjonalnych.
[37]	3 000 studentów, psychologów i nie-psychologów z 37 krajów	radość, strach, złość, smutek, wstręt, wstyd i poczucie winy.	--	-----	Ręcznie	Ograniczone badanie wpływu czynników kulturowych na regulację i ekspresję określonych emocji w różnych społeczeństwach. Zrównoważenie dowodów na istnienie uniwersalnych wzorców emocjonalnych z kulturowo specyficznymi różnicami w wywoływaniu i interpretacji emocji pozostaje złożone.	Dalsze badania powinny dotyczyć interakcji między uniwersalnością biologiczną a kontekstem kulturowym w kształtowaniu doświadczeń emocjonalnych i komunikacji
[38]	12000	Szczęście, smutek i złość	Porozumienie między oceniającymi	hindi+angielski	Ręcznie	W obecnych badaniach brakuje kompleksowego, opatrzonego adnotacjami zestawu danych i ustandaryzowanych modeli wykrywania emocji Hinglish. Nieregularna gramatyka i mieszany z kodem charakter tekstów w mediach społecznościowych utrudniają dokładną klasyfikację emocji.	Przyszłe prace będą koncentrować się na rozszerzeniu kategorii emocji i opracowaniu większych, wielojęzycznych zestawów danych mieszanych z kodem.
[39]	2866	szczęście, smutek, złość, zaskoczenie i smutek	Maszyna wektorów nośnych	Hinglish (hindi+angielski)	Ręcznie	Brak zestawów danych mieszanych z adnotacjami w kodzie. Wyrażanie emocji w tekście mieszanym z kodem różni się w zależności od języka i skryptów, co sprawia, że adnotacje i klasyfikacja są złożone.	Przyszłe prace mogą poszerzyć korpus o większą różnorodność emocjonalną, zintegrować tagowanie części mowy i zbadać wielojęzyczne treści mieszane z kodem.
[40]	13738	---	Tłumaczenie maszynowe Google Translator	Hinglish powiedział:	Ręcznie	Istniejące systemy tłumaczenia maszynowego nie są dokładne w przypadku mieszanych z kodem danych z mediów społecznościowych ze względu na brak dużych, specyficznych dla danej dziedziny równoległych korpusów. Duże różnice w pisowni, nieformalna struktura i niejednoznaczność w identyfikacji języka komplikują tłumaczenie zromanizowanego tekstu hindi-angielskiego.	Korpus może wspierać rozwój systemów tłumaczenia mieszanego z kodem i być rozszerzony na inne języki o niskich zasobach i zadania NLP, takie jak rozpoznawanie jednostek nazwanych
[41]	11527	pozytywne, bardzo pozytywne i negatywne, bardzo negatywne	Klasyfikacja oparta na kNN, reprezentacja BOW	Francuscy politycy	Ręcznie	Ograniczona dostępność wysokiej jakości zestawów danych z adnotacjami do wyszukiwania opinii politycznych w językach innych niż angielski. Zrównoważenie redukcji szumów adnotacji z przechowywaniem informacji i radzenie sobie z nierównomiernym rozkładem etykiet w dużych zestawach danych tweetów to kluczowe trudności.	Przyszłe prace mogą udoskonalić metody aktywnego uczenia się, aby lepiej zachować krytyczne treści przy jednoczesnym zminimalizowaniu szumu związanego z adnotacjami w wielojęzycznym dyskursie politycznym.
[42]	764,416	---	Klastrowanie Kmeans, SVM	Angielski	Częściowo nadzorowany	Etykietowanie w czasie rzeczywistym i aktualizowanie modelu w analizie tonacji jest ograniczone przez zmienność strumienia danych, koszt etykietowania i skalowalność systemu.	Przyszłe prace będą badać wieloklasową klasyfikację tonacji, integrować dodatkowe strategie etykietowania i rozszerzać kontrolę nad początkowym generowaniem modelu

Tabela 1: Dostępne badania wraz z odpowiednimi metodami znakowania. Tabela zawiera pełny przegląd porównawczy istniejących badań, odnosząc się do adnotacji emocjonalnych i ustanawiając krajobraz metodologiczny oraz konceptualizując wkład niniejszej pracy w istniejącą literaturę.

Opis problemu
Najczęściej badane emocje w adnotacjach są pod silnym wpływem podstawowych modeli psychologicznych, takich jak Ekmana i Plutchika, koncentrujących się przede wszystkim na podstawowych kategoriach, takich jak gniew, strach, szczęście, smutek, zaskoczenie^{i tak dalej}. Stąd w niniejszej pracy badawczej zamierzamy pracować nad dobrze ugruntowanymi konotacjami emocji. Wyzwanie polega na opracowaniu dynamicznej struktury obliczeniowej F, zdolnej do dokładnego opisywania instancji tekstu Hinglish (ti ) z korpusu T skoncentrowanego na wojnach i konfliktach za pomocą etykiet emocji (ei) z predefiniowanego zestawu E = {e₁, e₂, ..., e₈}. Ramy te muszą syntetyzować zasady z konstrukcjonistycznej teorii emocji, teorii zdarzeń afektywnych (AET), teorii emocji dyskretnych i teorii oceny poznawczej, aby modelować wieloaspektowy krajobraz emocjonalny dyskursu związanego z konfliktem. Każda instancja tekstu ti w T jest złożona językowo, łącząc hindi (w alfabecie łacińskim), angielski, emotikony i symbole, co wymaga wielowarstwowego podejścia do uchwycenia zniuansowanych wyrażeń emocjonalnych.

Model obliczeniowy emocji związanych z wojną (jako studium przypadku) może obejmować podejście wieloaspektowe, począwszy od reguł leksykalnych, które odnoszą się do niuansów opartych na Hinglish. Tokenizacja, oznaczona jako T, obejmuje pisma łacińskie (hindi pisane alfabetem łacińskim), wraz z emotikonami i interpunkcją, stanowiące podstawę przetwarzania języka. Słowniki emocji, reprezentowane jako D, mapują słowa w różnych językach na określone emocje, takie jak gniew, radość i inne, w których każde emotion_i ma words_j w language_k. Dekompozycja podsłów, S, rozbija terminy złożone na ich podsłowa składowe, umożliwiając głębsze zrozumienie złożonych wyrażeń. Następnie techniki uczenia maszynowego, M, wykorzystują osadzanie E, takie jak Word2Vec/fastText, do przekształcania tokenów w reprezentacje wektorowe, vector_v, ułatwiając analizę numeryczną. Klasyfikatory zespołowe, C, takie jak Random Forest, przewidują następnie etykiety emocji, emotion_label_p, na podstawie tych zestawów wektorów. Aby iteracyjnie ulepszać model uczenia się adnotacji, stosuje się mechanizm aktywnego uczenia się, AL. Informacja zwrotna od ekspertów, F, udoskonala niejednoznaczne przypadki, ambiguous_sample_q, przypisując refined_label_r, wprowadzając kluczowe poprawki. Priorytetyzacja próbek, P, koncentruje się na próbkach o niskim poziomie ufności, low_confidence_sample_s, przypisując je annotation_priority_t, optymalizując w ten sposób proces adnotacji.

Integrując te komponenty i teorie, ramy te mają na celu dynamiczne przetwarzanie tekstu Hinglish, łączenie niuansów językowych i kulturowych oraz adaptacyjne udoskonalanie adnotacji emocjonalnych, oferując skalowalne rozwiązanie do analizy wymiarów afektywnych w dyskursie konfliktowym.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W tej sekcji wyjaśniono również, w jaki sposób skonstruowano multimodalną strukturę dla adnotacji 8 emocji. Sekcja rozpoczyna się od omówienia właściwości zestawu danych, po którym następują kolejne procedury. Aby lepiej zrozumieć procedurę badawczą, zapoznaj się z rysunkiem 1.

figure-protocol-1
Rysunek 1: Systematyczne ramy adnotacji emocji. Rysunek wyjaśnia efektywną emocję, adnotację tekstu hinglish, która łączy uczenie maszynowe, aktywne uczenie się i dynamiczne reguły leksykonu dzięki wkładowi eksperta, błędnie sklasyfikowane przykłady są stopniowo ulepszane w celu zwiększenia dokładności i obniżenia kosztów adnotacji. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Przygotowanie zestawu danych
Zbieranie danych rozpoczyna się od zidentyfikowania obszernej listy słów kluczowych i hashtagów związanych z wojną, konfliktem i związanymi z nim emocjami. Zasoby, takie jak literatura naukowa, artykuły prasowe i trendy w mediach społecznościowych, zostały wykorzystane do sporządzenia odpowiednich i istniejących list.

Jak pokazano na rysunku 1, po zebraniu tweetów i wstępnym przetworzeniu danych, eksperci są zaangażowani w ręczne oznaczanie i tworzenie reguł leksykalnych, które należy uwzględnić, aby usprawnić proces adnotacji. Korzystając z tych słów kluczowych (konflikt, wojna, kryzys, gussa itp.), zebrano początkowy zestaw danych 10 040 tweetów, który posłużył jako podstawa do ręcznego etykietowania, w którym każdy tweet był opatrzony adnotacjami z ośmioma predefiniowanymi emocjami (gniew, strach, szczęście, smutek, frustracja, współczucie, mieszane, inne związane z domeną wojny i konfliktu. Proces ręcznego etykietowania został przeprowadzony przez zespół ekspertów biegle posługujących się zarówno językiem hindi, jak i angielskim, zapewniając dokładne uchwycenie niuansów języka angielskiego.

Przykładowe przetwarzanie opisano poniżej.

Tokenizacja i przetwarzanie wstępne:
Tweet wejściowy: "Mujhe Bhayanak lag raha hai figure-protocol-2 "
Tokenizowane dane wyjściowe: ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-3 "]
Obsługa alfabetu łacińskiego: Słowa hindi ("Mujhe", "Bhayanak") są zachowane w alfabecie łacińskim.
Wykrywanie emotikonów/symboli: "" jest izolowane jako token symboliczny.

Mapowanie słownika emocji (D):
Mapuj tokeny do emocji w E za pomocą dwujęzycznych (hindi/angielskich) leksykonów emocji: "Bhayanak" (hindi oznacza "okropny") → Strach; "lag raha hai" (wyrażenie kontekstowe sugerujące trwające emocje) → Strach; " figure-protocol-4 " → Gniew

Dekompozycja podsłowa (S):
Rozkładaj złożone terminy na czynniki pierwsze, aby uzyskać głębszą analizę: "Bhayanak" → ["Bhay" (strach), "anak" (przyrostek)], aby wyjaśnić jego semantyczne korzenie w strachu.

Generacja osadzania (E):
Generuj osadzanie tokenów za pomocą Word2Vec/fastText: Osadzanie dla wektorów ["Mujhe", "Bhayanak", "lag", "raha", "hai", " figure-protocol-5 "] → wektory v₁,_{v 2}, v₃, v₄, v₅, v₆.
Reguła agregacji: Średnia liczba osadzonych tokenów w celu utworzenia globalnego wektora semantycznego:
V_avg = (v₁ + v₂ + v₃ + v₄ + v₅ + v₆) / 6

Wyodrębnianie funkcji na podstawie reguł:
Wyodrębnianie elementów pomocniczych do konkatenacji. Liczba tagów emocji: Strach: 2 wystąpienia ("Bhayanak", "lag raha hai"); Gniew: 1 instancja (" figure-protocol-6 ").
Flaga przełączania kodu: flaga binarna = 1 (mieszane tokeny hindi i angielskie: "Mujhe" [hindi], "lag", "raha", "hai" [pochodne hindi]).

Fuzja funkcji:
Połącz zagregowane osadzenia i funkcje oparte na regułach w ujednolicony wektor wejściowy: Globalny wektor semantyczny = V_avg (uśrednione osadzania), Emotion Counts = [Strach: 2, Gniew: 1, Inne: 0], Flaga przełącznika kodu = 1
Reguła konkatenacji Końcowy wektor wejściowy = V_avg figure-protocol-7 [Strach: 2, Złość: 1, Inne: 0] figure-protocol-8 [1]
Algorytm uczenia maszynowego przetwarza ten końcowy wektor i rozpoczyna się iteracyjny proces ulepszania adnotacji. W następnej sekcji omówimy wydajność przyjętej w tym celu metody aktywnego uczenia się.

Następnie zestaw danych został rozszerzony do 19 000 tweetów. Ten zestaw danych został wyselekcjonowany przy użyciu kombinacji technik automatycznych i półautomatycznych, wykorzystując wgląd uzyskany z początkowej adnotacji ręcznej. Rozszerzony zestaw danych został dodatkowo udoskonalony w oparciu o iteracyjny proces uczenia się, który polegał na selektywnym identyfikowaniu i priorytetyzowaniu niejednoznacznych danych/tweetów do adnotacji ekspertów i informacji zwrotnych od ekspertów w danej dziedzinie w celu poprawy dokładności, spójności i wydajności adnotacji. W całym procesie zbierania danych szczególną uwagę zwrócono na utrzymanie równowagi między różnymi emocjami, zapewniając, że zestaw danych jest reprezentatywny dla różnych uczuć wyrażanych na temat wojny i konflikt. Wynikowy zestaw danych jest cennym zasobem do analizowania tekstu Hinglish. Dla lepszego zrozumienia można odwołać się do rysunku 2 .

figure-protocol-9
Rysunek 2: Procedura zbierania zbiorów danych. Rysunek przedstawia rozwój zestawu danych od identyfikacji słowa zalążkowego, przez ręczne etykietowanie, a następnie aktywne uczenie się, aż do końcowego zestawu danych z adnotacjami. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Ostateczne przygotowanie zbioru danych odbywa się po zakończeniu iteracyjnego procesu udoskonalania za pomocą aktywnego uczenia się. Aktywne uczenie się wykorzystano w hybrydowej strukturze, która obejmowała reguły leksykalne, uczenie maszynowe i iteracyjny wkład ekspertów w celu opisywania emocji w wypowiedziach Hinglish. Kroki były następujące:

Proces rozpoczyna się od ręcznie oznaczonego zestawu danych. Użycie klasyfikatora lasu losowego, który został wykorzystany do identyfikacji niejednoznacznych tweetów, co do których model uczenia maszynowego był niepewny. Wyślij te niejednoznaczne próbki do kategoryzacji do ekspertów. Model był wielokrotnie aktualizowany przy użyciu ostatnio opatrzonych adnotacjami danych, co stopniowo poprawiało dokładność i zmniejszało liczbę błędnych klasyfikacji. Sfinalizuj zestaw danych i przejrzyj adnotacje, aby zapewnić dokładność. Przygotuj zestaw danych do analizy, upewniając się, że jest on odpowiednio udokumentowany i sformatowany do wykorzystania w przyszłości w celu wdrożenia w dalszych przypadkach. Ważne jest jednak, aby zbadać wzorce emocji osadzonych w wypowiedziach, aby przyszłe kroki stały się jaśniejsze pod względem implementacji. W związku z tym w kolejnym kroku zostanie przeprowadzona analiza skupień w celu znalezienia dominujących emocji osadzonych w zbiorze danych. Pomaga to również w identyfikacji emocji, które badamy.

Wybór klastrów emocji
Tabela 2 przedstawia grupy emocji i ich odpowiedniki Hinglish wraz z powodem wyboru odpowiednich emocji. Z każdej grupy emocji wybrano emocję dominującą do dalszego przetworzenia. Te dominujące emocje są wybierane na podstawie analizy skupień.

Grupa emocji	Odpowiednik Hinglish	Uzasadnienie wyboru
Strach (w tym lęk i panika)	Dar, khauf, Asahaj, Bekabu, Angadai, Chinta, napięcie, Fikr, Ashanka, Udaasi, Bechaini, Ghabrahat	Strach jest powszechną emocją podczas wojen i konfliktów, ponieważ jednostki stają w obliczu zagrożeń dla swojego bezpieczeństwa i dobrobytu. Ten strach może objawiać się na różne sposoby, takie jak lęk, ataki paniki i nadmierna czujność.
Gniew (obejmuje irytację, wrogość, frustrację i zranienie)	Gussa, raag, Prakop, Raudra, Chidhaan, Shatruta, Krodh, Gussa dilana, apata, Atyachar, Khushfehmi, hairani, Bhayanak, Chakker Kathinaai	Gniew to kolejna emocja powszechna na wojnach i konfliktach, często wynikająca z poczucia niesprawiedliwości, zdrady lub straty. Ten gniew może napędzać agresję i przemoc, przyczyniając się do destrukcyjnego charakteru tych konfliktów.
Smutek (obejmuje żal, rozpacz i beznadziejność)	Udaasi, gham, Shok, Bhavuk, Dukhi, Udas, Vismay, Nirasha, Shok, Dukhi, Vairagya, Aashank, Vishada, Bhavuk, Dukhi, Udas, Vinamrata, Bhavuk, Hridaytoda, Beumaar, nirasha, Vinaash, Bair, Nirasha, Asambhav, Haar	Smutek jest naturalną reakcją na stratę i żal, które są niestety powszechnymi doświadczeniami podczas wojen i konfliktów. Żołnierze mogą odczuwać smutek po stracie towarzyszy, cywile mogą opłakiwać bliskich, którzy zostali zabici lub przesiedleni, a całe społeczności mogą opłakiwać utratę swoich domów i stylu życia. Uczucie rozpaczy i beznadziei może również powstać z powodu przedłużającego się charakteru konfliktu i pozornie niekończącego się cyklu przemocy.
Wstyd i poczucie winy	Sharm, lajjabari, Sharm, Laaj, Zillat, Afsos, Gunah, Afsos, Pashchatap, Laaj, Bechaini, Aatmasamarpan, Sharmindagi, Ashru, Pashchatap, Antaratma, Kasoor, gunaah, Khud ko doshi maana, Ninda, Dosha	Wstyd i poczucie winy to złożone emocje, które mogą wynikać z poczucia osobistego lub zbiorowego wykroczenia, nieadekwatności lub upokorzenia. Podczas wojen i konfliktów jednostki mogą odczuwać wstyd lub poczucie winy z powodu swoich czynów, niezdolności do zapobieżenia krzywdzie innych lub przetrwania, podczas gdy inni zginęli.
Wstręt	Ghin, nafrat, Asahayak, Pratikool, Ghrina, Vairagya, Dvesha, Nakaratmak, Vibhavsu, Vairagya, Vairagya, Nirasha	Wstręt to uczucie wstrętu lub niechęci do czegoś postrzeganego jako niesmaczne lub obraźliwe. Podczas wojen i konfliktów jednostki mogą odczuwać obrzydzenie w odpowiedzi na akty okrucieństwa, przemocy i barbarzyństwa.
Empatia i współczucie	Sahaaanubhuti, hamderdari, Samajhdari, Daan Sahabhooti, wrażliwość, wsparcie, rozwaga, życzliwość, opiekuńczy, ciepło, czułość, daya, raham, Sahaaanubhuti, Sahyog, Dayalu, Samajh, Pyar, Daya, Narami, Paropkari	Empatia i współczucie są niezbędne do zrozumienia i dzielenia się uczuciami innych. Podczas wojen i konfliktów empatia może być potężnym narzędziem do łączenia się z innymi, którzy doświadczyli podobnych doświadczeń, pielęgnowania współczucia i promowania pojednania. Współczucie może motywować osoby do pomagania potrzebującym i przyczyniać się do wysiłków na rzecz uzdrowienia i odbudowy.
Nadzieja i wdzięczność	Umeed, aasha, Chah, Ichha, Sapna, Unnati, Ashvasan, Khushi, Utsaah, Ashirwad, Samvedansheelata, Vishwas, Bharosa, Shukraguzaar, eshaananand, Shukrana, Aabhaar, Namrata, Samaanya, Naman, Aasherewad, Badhai, Dhanyavaad, Abhivadn, Manobhav, Bhakti	Nadzieja to uczucie optymizmu i oczekiwanie, że coś dobrego się wydarzy pomimo wyzwań i trudności, z którymi się borykamy. Wdzięczność to uczucie wdzięczności i uznania za dobre rzeczy w życiu. W czasie wojen i konfliktów nadzieja może być źródłem siły i motywacji, uzdalniając ludzi do wytrwania i pracy na rzecz lepszej przyszłości. Wdzięczność może pomóc jednostkom skupić się na pozytywnych aspektach ich życia, wzmocnić odporność i kultywować poczucie spokoju pośród zawirowań.
Sprężystość	Jheelaanek, himmat, Sahasi, Sahas, Dhairya, Majbooti, Samvedansheel, Samarthya, Majbuti, Lachari	Odporność to zdolność do adaptacji i radzenia sobie z trudnymi lub wymagającymi sytuacjami. Podczas wojen i konfliktów odporność jest niezbędna, aby jednostki i społeczności mogły przetrwać i wytrwać w obliczu przeciwności losu.

Tabela 2: Uzasadnienie wyboru emocji. Tabela odwzorowuje grupy emocji na ich odpowiedniki w języku Hinglish i wyjaśnia ich znaczenie w kontekście wojen i konfliktów.

Należy jednak zauważyć, że wybór tych emocji opiera się nie tylko na analizie skupień, ale jest również zakorzeniony w teoriach emocji, w tym teorii oceny poznawczej (CAT), teorii emocji dyskretnych (DET) i teorii emocji zorientowanej na proces (POT)⁴³.

Szczegóły korpusu
Zestaw danych składa się z specyficznych dla domeny (wojny, konflikty i kryzysy) oraz dodatkowych zestawów danych tweetów, które zawierają mieszankę tweetów w języku hindi i angielskim. Rysunek 3 przedstawia migawkę zestawów danych tweetów dostępnych publicznie, które są przetwarzane na potrzeby tej pracy badawczej. Podstawowy zestaw danych jest publicznie dostępny pod adresem https://data.mendeley.com/datasets/y63frd6pmf/7.

figure-protocol-10
Rysunek 3: Szczegóły korpusu. Dostępność zestawu danych jest wyjaśniona tutaj. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Adnotacje etykiet emocji
Początkowy korpus 10 040 tweetów Hinglish związanych z wojną i konfliktem został ręcznie opatrzony adnotacjami z ośmioma etykietami emocji przez dwujęzycznych ekspertów. Aby rozwiązać problem złożoności językowej tekstu mieszanego z kodem, opracowano ramy leksykalne oparte na regułach, obejmujące kilka komponentów. Ramy obejmują słowniki specyficzne dla emocji, które odwzorowują terminy hindi/angielskie na emocje, takie jak fear_words = {Strach, Przerażenie, Bhayanak, figure-protocol-11 , Przerażenie, figure-protocol-12 } i anger_words = {gussa, wściekłość, figure-protocol-13 , irytacja, figure-protocol-14 }. Reguły równoważności międzyjęzykowej łączyły terminy (np. if (Ae == Ah): gniew = gussa | figure-protocol-15 ). Używane są reguły leksykalne, takie jak słowniki emocji, tokenizacja dla języków mieszanych i dekompozycja podsłów. Aby dodać adnotacje do emocji, reguły te wstępnie przetwarzają tekst i wyodrębniają funkcje, które są następnie łączone z osadzaniem uczenia maszynowego⁴⁵.

W przypadku tokenizacji platforma wykorzystywała niestandardowe reguły przełączania języka, interpunkcji, emotikonów i tokenizacji podsłów. Tekst hindi (dewanagari) był tokenizowany na poziomie znaków, podczas gdy angielski (rzymski) używał białych znaków. Przykład: Mujhe frustration hai → [Mujhe, frustracja, hai]. Znaki specjalne, takie jak hashtagi (#) i wzmianki (@) zostały wyodrębnione jako indywidualne tokeny (np. #WarCrimes → [#, WarCrimes]), podczas gdy znaki interpunkcyjne, takie jak przecinki (,) i wykrzykniki (!) zostały podzielone na osobne tokeny (np. figure-protocol-16 → figure-protocol-17 , !]).

Emoji były również traktowane jako samodzielne tokeny i mapowane na emocje (np. figure-protocol-18 → złość, figure-protocol-19 → smutek). Tokenizacja podsłów wykonana za pomocą skryptu dewanagari, w którym słowa złożone zostały podzielone za pomocą wzorców wyrażeń regularnych dla reguł Sandhi (np. figure-protocol-20 ] [królestwo + świat]), a prefiksy/sufiksy skryptów łacińskich zostały podzielone na segmenty (np. niewiarygodne → [un, believable]). W przypadku rozszerzenia specyficznego dla domeny tokeny zostały zastąpione etykietami emocji, jeśli są dopasowane w słownikach. Na przykład: Bhayanak → strachu, Dahad" → strach, gussa → gniew. Tweet Mujhe Bhayanak lag raha hai → Tokens [Mujhe, strach, lag, raha, hai].

Po wektoryzacji przetworzone tokeny (słowa, podsłowa, emotikony) zostały przekonwertowane na 300-wymiarowe osadzenia za pomocą Word2Vec/fastText. Reprezentacje liczbowe w wektorach kolumnowych tokenów, macierz wektorów odpowiadających tokenom. Każdy wiersz odpowiada wektorowi osadzania skojarzonemu z tokenem w tekście, reprezentującym kolejność tokenu. Kolumny w wierszu oznaczają wymiary w przestrzeni osadzania. Wektory zawierają liczby rzeczywiste obliczone za pomocą Word2Vec i FastText. Tokeny z wektorami zerowymi, przedstawione przez wiersze z samymi wartościami zerowymi, mogą oznaczać spacje lub znaki specjalne, w których brakuje istotnych informacji w tej reprezentacji. Osadzanie ma na celu uchwycenie kontekstowych relacji między wyrazami w celu ulepszenia adnotacji. Wektory niezerowe wskazują znaczące reprezentacje słów lub symboli. Wartości w tych wektorach kodują różne cechy semantyczne i składniowe. Wektory zerowe zazwyczaj reprezentują dopełnienie, spację lub nierozpoznane tokeny. Zmienność wartości odzwierciedla bogactwo funkcji uchwyconych przez model osadzania. Różne wymiary wektorowe oddają różne aspekty znaczenia, kontekstu i użycia słowa. Rysunek 4pokazuje, w jaki sposób wektory są reprezentowane, a na rysunku 5 można zrozumieć implikacje stosowania procesu wektoryzacji.

figure-protocol-21
Rysunek 4: Tokenizacja niestandardowa. Rysunek pokazuje, w jaki sposób wektory są reprezentowane w przestrzeni osadzania i pokazuje, w jaki sposób każdy token jest przenoszony do formatu liczbowego Kliknij tutaj, aby wyświetlić większą wersję tego rysunku.

figure-protocol-22
Rysunek 5: Proces wektoryzacji tokenów i jego implikacje. Rysunek ilustruje implikacje tych procesów, komponentów i podkreśla, w jaki sposób te osadzenia ujmują semantykę emocji w celu dokładnej klasyfikacji emocji. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Zgodnie z przepływem badawczym proces rozpoczyna się od przeanalizowania tekstu wejściowego, rozwinięcia tokenów za pomocą słowników opartych na regułach, a następnie podzielenia tych tokenów na podsłowa. Takie podejście zapewnia zrozumienie emocjonalnej treści tekstu i kontekstu kulturowego, a pseudologika dla badań jest podana poniżej.

Zainicjuj słowniki emocji (np. fear_words = {"Strach", "Przerażenie", "Bhayanak", ...}): Ustaw Ae = Ah
SubwordRules(token, script): Jeśli → Devanagari podzielone za pomocą wyrażenia regularnego (złożone/Sandhi), Jeśli → rzymskie dzielą przedrostki/sufiksy za pomocą wyrażenia regularnego, Zwróć podsłowa
DomainSpecificExpansion(token): Jeśli token w słownikach emocjonalnych/językowych → zwracać emocje
W przeciwnym razie → zwróć token
ProcessTweet(text): Zdefiniuj wyrażenie regularne dla dewanagari, rzymskiego i innych; Wyodrębnianie tokenów przy użyciu wyrażenia regularnego; Stosowanie reguł DomainSpecificExpansion i SubwordRules do tokenów; Zwracanie przetworzonych podsłów
Wektoryzacja tokenów w osadzaniu numerycznym
Stosowanie aktywnego uczenia się z informacjami zwrotnymi od ludzi

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wyniki tych badań sugerują, że integracja reguł leksykalnych z technikami uczenia maszynowego i aktywnego uczenia się oferuje realną ścieżkę do zwiększenia wydajności i dokładności adnotacji emocji w tekście hinglish mieszanym z kodem. Dzięki iteracyjnemu udoskonalaniu i sugestiom ekspertów zaproponowana struktura była w stanie osiągnąć znaczne zmniejszenie nakładu pracy ręcznej przy jednoczesnym utrzymaniu wysokiej wydajności we wszystkich matrycach ewolucji. Wyniki wskazują na potencjał...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zestaw danych dla tego badania został wyselekcjonowany przy użyciu kombinacji ręcznych adnotacji i aktywnego uczenia się. Początkowo 10 040 tweetów Hinglish związanych z wojną i konfliktem zostało ręcznie oznaczonych ośmioma predefiniowanymi emocjami. Zbiór danych został następnie rozszerzony do 19 000 tweetów przy użyciu podejścia półautomatycznego. Aktywne uczenie się umożliwiło selektywną interwencję eksperta, zmniejszając wysiłek manualny o 40% przy jednoczesnym utrzymaniu wysokiej dokładności adnotacji wynoszącej 81...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy deklarują brak konfliktu interesów.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badania te nie otrzymały żadnego zewnętrznego finansowania.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
fastText (szybki tekst	Sztuczna inteligencja Facebooka	N/A	Reprezentacja i klasyfikacja słów
Współpraca z Google	Wyszukiwarka Google	N/A	Oparte na chmurze środowisko Jupyter Notebook
Procesor graficzny/TPU Google Colab	Wyszukiwarka Google	N/A	Akceleracja sprzętowa oparta na chmurze
Intel Core i5/i7 lub AMD Ryzen 5/7	Intel / AMD	N/A	Procesor do wykonywania lokalnego (jeśli jest wymagany)
biblioteka matplotlib	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Biblioteka wizualizacji danych
NLTK (Biblioteka NLTK)	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Zestaw narzędzi języka naturalnego do przetwarzania tekstu
NumPy	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Biblioteka obliczeń numerycznych
NVIDIA GTX 1650 lub lepsza (opcjonalnie)	Technologia NVIDIA	N/A	Procesor graficzny do zadań głębokiego uczenia
Pandy	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Biblioteka manipulacji danymi
Język Python	Fundacja oprogramowania Python	N/A	Język programowania dla ML i NLP
Pochodnia PyTorch	Meta Sztuczna inteligencja	N/A	Struktura głębokiego uczenia
Pamięć RAM (minimum 8 GB, zalecane 16 GB)	Rozmaity	N/A	Wymagania dotyczące pamięci dla zadań uczenia maszynowego
Scikit-naucz się	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Biblioteka uczenia maszynowego
Urodzony na morzu	Oprogramowanie typu open source (oprogramowanie typu open source)	N/A	Wizualizacja danych statystycznych
SpaCy	Sztuczna inteligencja eksplozji	N/A	Biblioteka NLP o sile przemysłowej
Pamięć SSD (minimum 256 GB, zalecane 512 GB)	Rozmaity	N/A	Magazyn do przetwarzania zestawu danych
Technologia TensorFlow	Wyszukiwarka Google	N/A	Struktura głębokiego uczenia

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
Kusal, S., et al. A systematic review of applications of natural language processing and future challenges with special emphasis in text-based emotion detection. Artif Intell Rev. 56 (12), 15129-15215 (2023).
Recent advancements and challenges in multimodal sentiment analysis: a survey. Dong, Z. X., Liu, H. 2023 Int Conf Machine Learning Cybernetics (ICMLC), , IEEE. 464-469 (2023).
Gandhi, A., et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fusion. 91, 424-444 (2023).
Chand, V. The rise and rise of Hinglish in India. Conversation. , https://theconversation.com/the-rise-and-rise-of-hinglish-in-india-53476 (2016).
Hernández-de-Menéndez, M., et al. Active learning in engineering education: a review of fundamentals, best practices and experiences. Int J Interact Des Manuf. 13, 909-922 (2019).
Liu, X., et al. Developing multi-labelled corpus of Twitter short texts: a semi-automatic method. Systems. 11 (8), 390(2023).
Alahmary, R., Al-Dossari, H. A semiautomatic annotation approach for sentiment analysis. J Inf Sci. 49 (2), 398-410 (2023).
Garg, N., Sharma, K. Annotated corpus creation for sentiment analysis in code-mixed Hindi-English (Hinglish) social network data. Indian J Sci Technol. 13 (40), 4216-4224 (2020).
Jamatia, A., et al. Deep learning based sentiment analysis in a code-mixed English-Hindi and English-Bengali social media corpus. Int J Artif Intell Tools. 29 (5), 2050014(2020).
Nainabasti, B. Role of students' participation on learning physics in active learning classes. ProQuest ETD Collection for FIU. , AAI10743750(2016).
Goudjil, M., et al. A novel active learning method using SVM for text classification. Int J Autom Comput. 15, 290-298 (2018).
Huang, S. J., Jin, R., Zhou, Z. H. Active learning by querying informative and representative examples. Adv Neural Inf Process Syst. 23, 1-9 (2010).
Zhang, Z., Strubell, E., Hovy, E. A survey of active learning for natural language processing. arXiv. , (2022).
Baghel, R. A survey on code-mixed sentiment analysis based on Hinglish dataset. Int Conf Comput Commun Cyber-Secur. 664, (2022).
Tong, S., Koller, D. Support vector machine active learning with applications to text classification. J Mach Learn Res. 2 (Nov), 45-66 (2001).
Subramanian, M., et al. A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alex Eng J. 80, 110-121 (2023).
Liu, Z., et al. An emotion-based personalized music recommendation framework for emotion improvement. Inf Process Manag. 60 (3), 103256(2023).
Ren, F., Liu, Z., Kang, X. An efficient framework for constructing speech emotion corpus based on integrated active learning strategies. IEEE Trans Affect Comput. 13 (4), 1929-1940 (2022).
Azzi, S. A., Zribi, C. B. O. Comparing deep learning models for multi-label classification of Arabic abusive texts in social media. Proc Int Conf Software Tech, , 374-381 (2022).
Min, X. Y., et al. Multi-label active learning through serial-parallel neural networks. Knowl Based Syst. 251, 109226(2022).
Gosselin, L., Sabourin, L. Language athletes: dual-language code-switchers exhibit inhibitory control advantages. Front Psychol. 14, 1150159(2023).
Acheampong, F. A., Wenyu, C., Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng Rep. 2 (7), e12189(2020).
Tracy, J. L., Randles, D. Four models of basic emotions: a review of Ekman and Cordaro, Izard, Levenson, and Panksepp and Watt. Emotion Rev. 3 (4), 397-405 (2011).
Xiao, X., et al. A cognitive emotion model enhanced sequential method for social emotion cause identification. Inf Process Manag. 60 (3), 103305(2023).
Park, E. H., Storey, V. C. Emotion ontology studies: a framework for expressing feelings digitally and its application to sentiment analysis. ACM Comput Surv. 55 (9), 1-38 (2023).
Batra, H., Nelson, L. DCADS: data-driven computer aided diagnostic system using machine learning techniques for polycystic ovary syndrome. Int J Performability Eng. 19 (3), 193(2023).
Sakib, N., et al. Towards automated recipe genre classification using semi-supervised learning. PLoS One. 20 (1), e0317697(2025).
Fu, L., et al. A touch, vision, and language dataset for multimodal alignment. arXiv. , (2024).
Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena. Bollen, J., Mao, H., Pepe, A. Proc Int AAAI Conf Web Soc Media, 5 (1), https://ojs.aaai.org/index.php/ICWSM/article/view/14171 (2011).
EmpaTweet: annotating and detecting emotions on Twitter. Roberts, K., et al. Proc Eighth Int Conf Language Resource Eval, 12 (12), 3806-3813 (2012).
Mohammad, S. #Emotional tweets. First Joint Conf on Lexical Comput Semantics. , 246-255 (2012).
Li, W., Xu, H. Text-based emotion classification using emotion cause extraction. Expert Syst Appl. 41 (4), 1742-1749 (2014).
Verma, P., Kaur, A., Khurana, M., Damaševičius, R. Multimodal Hinglish tweet dataset for deep pragmatic analysis. Data. 9 (2), 38(2024).
Hasan, M., Agu, E., Rundensteiner, E. Using hashtags as labels for supervised learning of emotions in Twitter messages. ACM SIGKDD Workshop Health Info. 34 (74), 1-8 (2014).
Scherer, K. R., Wallbott, H. G. Evidence for universality and cultural variation of differential emotion response patterning. J Pers Soc Psychol. 66 (2), 310(1994).
Sasidhar, T. T., Premjith, B., Soman, K. P. Emotion detection in Hinglish (Hindi+ English) code-mixed social media text. Procedia Comput Sci. 171, 1346-1352 (2020).
Corpus creation and emotion prediction for Hindi-English code-mixed social media text. Vijay, D., et al. Proc. 2018 Conf. North Am Chapter Assoc Comput Linguistics: Student Research Workshop, , 128-135 (2018).
Srivastava, V., Singh, M. Phinc: a parallel Hinglish social media code-mixed corpus for machine translation. arXiv. , (2004).
Cossu, J. V., Molina-Villegas, A., Tello-Signoret, M. Active learning in annotating micro-blogs dealing with e-reputation. J Interdiscip Methodol Issues Sci. 3, (2017).
Kranjc, J., et al. Active learning for sentiment analysis on data streams: methodology and workflow implementation in the ClowdFlows platform. Inf Process Manag. 51 (2), 187-203 (2015).
Smith, C. A., Kirby, L. D. Consequences require antecedents: toward a process model of emotion elicitation. Feeling and Thinking: The Role of Affect in Social Cognition. , 83-106 (2000).
Jan, T. G., Khurana, S. S., Kumar, M. Semi-supervised labeling: a proposed methodology for labeling the Twitter datasets. Multimed Tools Appl. 81 (6), 7669-7683 (2022).
Cahyana, N. H., et al. Semi-supervised text annotation for hate speech detection using k-nearest neighbors and term frequency-inverse document frequency. Int J Adv Comput Sci Appl. 13 (10), 147-151 (2022).
Saifullah, S., et al. Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection. Appl Sci. 14 (3), 1078(2024).
Advani, L., Lu, C., Maharjan, S. C1 at SemEval-2020 Task 9: SentiMix: sentiment analysis for code-mixed social media text using feature engineering. arXiv. , (2008).
Alarcão, S. M., et al. Annotate smarter, not harder: using active learning to reduce emotional annotation effort. IEEE Trans Affect Comput. 15 (3), 1213-1227 (2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Uczenie maszynowe i oparte na regułach leksykalnych, ekonomiczne adnotacje emocji wypowiedzi Hinglish

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles