Research Article

Uczenie maszynowe i oparte na regułach leksykalnych, ekonomiczne adnotacje emocji wypowiedzi Hinglish

DOI:

10.3791/68437

August 19th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

To badanie łączy strategię opartą na regułach z uczeniem maszynowym i pomocą ekspertów w celu dodawania adnotacji do tekstu w języku Hinglish i angielskim. Dane są testowane na 19 000 tweetów z 81% dokładnością i są znacznie tańsze niż robienie tego ręcznie. Może być przydatny do śledzenia emocji podczas kryzysu.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Adnotacje dotyczące emocji w językach mieszanych z kodem, takich jak hinglish (hindi-angielski), stanowią wyjątkowe wyzwanie ze względu na złożoność językową i ograniczenia zasobów. To badanie wprowadza hybrydową platformę aktywnego uczenia się, która łączy reguły leksykalne, uczenie maszynowe i iteracyjne informacje zwrotne od ekspertów w celu uzyskania opłacalnych i dokładnych adnotacji emocji. Opierając się na psychologicznych teoriach emocji, w tym teorii emocji dyskretnych i teorii oceny poznawczej, ramy wykorzystują dwujęzyczne słowniki emocji (np. mapowanie gussa i wściekłości na gniew), tokenizację podsłów dla terminów złożonych (np. podział figure-abstract-1 na figure-abstract-2) oraz aktywne uczenie się w celu priorytetyzacji niejednoznacznych próbek. Oceniono na podstawie 19 000 zestawów danych tweetów Hinglish związanych z wojną i konfliktem, platforma osiągnęła 81% dokładności (F-score: 0,76), jednocześnie zmniejszając koszty operacyjne o 40% w porównaniu z ręcznymi adnotacjami. Reguły leksykalne rozwiązały 89% niejasności związanych z przełączaniem kodu, a iteracyjne udoskonalenia umożliwiły przyrostowy wzrost dokładności z 72% do 81%. Wydajność systemu wynika z ograniczenia ludzkiego wysiłku do 73% zbioru danych, z automatycznym wstępnym przetwarzaniem emotikonów, hashtagów i slangu. Badanie to opiera się na hipotezie, że integracja metod opartych na regułach leksykalnych z aktywnym uczeniem się i uczeniem maszynowym może zwiększyć dokładność adnotacji emocji w tekście Hinglish, jednocześnie zmniejszając ręczne etykietowanie i ogólny wysiłek związany z adnotacjami.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gdy dwa lub więcej języków jest zmieszanych ze sobą w jednym wierszu lub mowie, nazywa się to językiem mieszanym z kodem. Jest to powszechne w swobodnych dialogach, takich jak Hinglish. Istnieje wiele sposobów, w jakie ludzkie emocje mogą być zrozumiane, a obliczeniowe modelowanie serii emocjonalnych stwierdzeń polega na dodawaniu do nich adnotacji przez osoby, które wypowiedziały te zdania. Można to rozumieć w kategoriach poziomu biologicznego, fizjologicznego, psychologicznego i tak dalej. Według naukowców, takich jak Roger Penrose, wiele zjawisk w naszym świecie nie jest obliczeniowych, a naukowcy tacy jak Wolfram uważają, że wszystko (każde zjawisko) można modelow....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W tej sekcji wyjaśniono również, w jaki sposób skonstruowano multimodalną strukturę dla adnotacji 8 emocji. Sekcja rozpoczyna się od omówienia właściwości zestawu danych, po którym następują kolejne procedury. Aby lepiej zrozumieć procedurę badawczą, zapoznaj się z rysunkiem 1.

figure-protocol-1
Rysunek 1: Systematyczne ramy adnotacji emocji. Rysunek wyjaśnia efektywną emocję, adnotację tekstu hinglish, która łączy uczenie maszynowe, aktywne uczenie się i dynami....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wyniki tych badań sugerują, że integracja reguł leksykalnych z technikami uczenia maszynowego i aktywnego uczenia się oferuje realną ścieżkę do zwiększenia wydajności i dokładności adnotacji emocji w tekście hinglish mieszanym z kodem. Dzięki iteracyjnemu udoskonalaniu i sugestiom ekspertów zaproponowana struktura była w stanie osiągnąć znaczne zmniejszenie nakładu pracy ręcznej przy jednoczesnym utrzymaniu wysokiej wydajności we wszystkich matrycach ewolucji. Wyniki wskazują na potencjał.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zestaw danych dla tego badania został wyselekcjonowany przy użyciu kombinacji ręcznych adnotacji i aktywnego uczenia się. Początkowo 10 040 tweetów Hinglish związanych z wojną i konfliktem zostało ręcznie oznaczonych ośmioma predefiniowanymi emocjami. Zbiór danych został następnie rozszerzony do 19 000 tweetów przy użyciu podejścia półautomatycznego. Aktywne uczenie się umożliwiło selektywną interwencję eksperta, zmniejszając wysiłek manualny o 40% przy jednoczesnym utrzymaniu wysokiej dokładności adnotacji wynoszącej 81.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy deklarują brak konfliktu interesów.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badania te nie otrzymały żadnego zewnętrznego finansowania.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
fastText (szybki tekstSztuczna inteligencja FacebookaN/AReprezentacja i klasyfikacja słów
Współpraca z GoogleWyszukiwarka GoogleN/AOparte na chmurze środowisko Jupyter Notebook
Procesor graficzny/TPU Google ColabWyszukiwarka GoogleN/AAkceleracja sprzętowa oparta na chmurze
Intel Core i5/i7 lub AMD Ryzen 5/7Intel / AMDN/AProcesor do wykonywania lokalnego (jeśli jest wymagany)
biblioteka matplotlibOprogramowanie typu open source (oprogramowanie typu open source)N/ABiblioteka wizualizacji danych
NLTK (Biblioteka NLTK)Oprogramowanie typu open source (oprogramowanie typu open source)N/AZestaw narzędzi języka naturalnego do przetwarzania tekstu
NumPyOprogramowanie typu open source (oprogramowanie typu open source)N/ABiblioteka obliczeń numerycznych
NVIDIA GTX 1650 lub lepsza (opcjonalnie)Technologia NVIDIAN/AProcesor graficzny do zadań głębokiego uczenia
PandyOprogramowanie typu open source (oprogramowanie typu open source)N/ABiblioteka manipulacji danymi
Język Python Fundacja oprogramowania PythonN/AJęzyk programowania dla ML i NLP
Pochodnia PyTorchMeta Sztuczna inteligencjaN/AStruktura głębokiego uczenia
Pamięć RAM (minimum 8 GB, zalecane 16 GB)RozmaityN/AWymagania dotyczące pamięci dla zadań uczenia maszynowego
Scikit-naucz sięOprogramowanie typu open source (oprogramowanie typu open source)N/ABiblioteka uczenia maszynowego
Urodzony na morzuOprogramowanie typu open source (oprogramowanie typu open source)N/AWizualizacja danych statystycznych
SpaCySztuczna inteligencja eksplozjiN/ABiblioteka NLP o sile przemysłowej
Pamięć SSD (minimum 256 GB, zalecane 512 GB)RozmaityN/AMagazyn do przetwarzania zestawu danych
Technologia TensorFlowWyszukiwarka GoogleN/AStruktura głębokiego uczenia

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Herce, R. Non-locality of the phenomenon of consciousness according to Roger Penrose. Dialogo. 3 (2), 127-134 (2016).
  2. Wolfram, S. The future of computation. Math J. 10 (2), 329-362 (2006).
  3. Kusal, S., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Emotion AnnotationHinglish UtterancesCode Mixed LanguageLexical Rule BasedMachine LearningActive LearningBilingual Emotion DictionarySubword TokenizationCognitive Appraisal TheoryDiscrete Emotions Theory
Video Coming Soon

Related Articles