$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Adnotacje dotyczące emocji w językach mieszanych z kodem, takich jak hinglish (hindi-angielski), stanowią wyjątkowe wyzwanie ze względu na złożoność językową i ograniczenia zasobów. To badanie wprowadza hybrydową platformę aktywnego uczenia się, która łączy reguły leksykalne, uczenie maszynowe i iteracyjne informacje zwrotne od ekspertów w celu uzyskania opłacalnych i dokładnych adnotacji emocji. Opierając się na psychologicznych teoriach emocji, w tym teorii emocji dyskretnych i teorii oceny poznawczej, ramy wykorzystują dwujęzyczne słowniki emocji (np. mapowanie gussa i wściekłości na gniew), tokenizację podsłów dla terminów złożonych (np. podział
na
) oraz aktywne uczenie się w celu priorytetyzacji niejednoznacznych próbek. Oceniono na podstawie 19 000 zestawów danych tweetów Hinglish związanych z wojną i konfliktem, platforma osiągnęła 81% dokładności (F-score: 0,76), jednocześnie zmniejszając koszty operacyjne o 40% w porównaniu z ręcznymi adnotacjami. Reguły leksykalne rozwiązały 89% niejasności związanych z przełączaniem kodu, a iteracyjne udoskonalenia umożliwiły przyrostowy wzrost dokładności z 72% do 81%. Wydajność systemu wynika z ograniczenia ludzkiego wysiłku do 73% zbioru danych, z automatycznym wstępnym przetwarzaniem emotikonów, hashtagów i slangu. Badanie to opiera się na hipotezie, że integracja metod opartych na regułach leksykalnych z aktywnym uczeniem się i uczeniem maszynowym może zwiększyć dokładność adnotacji emocji w tekście Hinglish, jednocześnie zmniejszając ręczne etykietowanie i ogólny wysiłek związany z adnotacjami.