$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Strumienie ludzkiego głosu są bogate w informacje, takie jak emocje1,2, stan zdrowia3,4, płeć biologiczna5, wiek6, i, co ważniejsze, indywidualna tożsamość wokalna7,8. Badania sugerują, że ludzcy słuchacze mają solidną zdolność do rozpoznawania i różnicowania tożsamości swoich rówieśników za pomocą głosów, pokonując różnice wewnątrz mówców dotyczące średniej reprezentacji tożsamości mówcy w przestrzeni akustycznej9. Takie różnice są spowodowane manipulacją akustyczną (podstawowa częstotliwość i długość traktu głosowego, tj. F0 i VTL), która nie odpowiada żadnym wyraźnym pragmatycznym intencjom9, prozodie emocji10, oraz pewność siebie, która przekazuje poczucie wiedzy mówcy11. Eksperymenty behawioralne koncentrowały się na wielu czynnikach, które wpływają na skuteczność słuchaczy w rozpoznawaniu mówców, w tym na manipulacjach związanych z językiem8,12,13, cechach związanych z uczestnikami, takich jak doświadczenie muzyczne lub umiejętność czytania14,15 oraz adaptacje związane z bodźcami, takie jak mowa wsteczna lub niesłowa16,17; Więcej można znaleźć w przeglądach literatury18,19. W kilku ostatnich eksperymentach zbadano, w jaki sposób indywidualna odmiana reprezentacji tożsamości mówcy może podważyć dokładność rozpoznawania, biorąc pod uwagę takie aspekty, jak wysoka i niska ekspresja emocjonalna16 oraz neutralne kontra przerażające prozodie5; Więcej możliwych scenariuszy otwartych do dalszego zbadania, zgodnie z sugestią review20.
Dla pierwszej luki badawczej, badanie sugeruje, że neurologiczne podstawy identyfikacji mówcy muszą jeszcze w pełni zbadać, w jaki sposób zmienność wewnątrz mówcy stanowi wyzwanie dla aktywności mózgu słuchaczy. Na przykład w zadaniu rozpoznawania mówcy opartym na fMRI przeprowadzonym przez Zäske i wsp., prawy tylny górny zakręt skroniowy (pSTG), prawy dolny/środkowy zakręt czołowy (IFG/MFG), prawy przyśrodkowy zakręt czołowy i lewy ogoniasty wykazywały zmniejszoną aktywację, gdy zostały prawidłowo zidentyfikowane jako starzy i nowi mówcy, niezależnie od tego, czy treść językowa była taka sama lub inna21. Jednak wcześniejsze badanie elektroencefalograficzne (EEG) przeprowadzone przez Zäske i wsp. nie zaobserwowało tego starego/nowego efektu, gdy wariant tożsamości mówcy został wprowadzony za pomocą różnych tekstów22. W szczególności większy, późny składnik dodatni (LPC) w zakresie od 300 do 700 ms, wykrywany na elektrodzie Pz, gdy słuchacze napotkali znajomego wyszkolonego mówcę wyrażającego ten sam tekst (tj. słysząc powtórkę z niezróżnicowaną treścią językową), był nieobecny, gdy mówcy dostarczali nowe teksty.
Na poparcie twierdzenia Zäske et al.21, to badanie podejrzewa, że stary/nowy efekt można nadal zaobserwować pomimo różnic w treści językowej między sesjami szkoleniowymi i testowymi w analizach potencjału związanego ze zdarzeniami (ERP). Uzasadnienie to wynika z założenia, że brak efektu stary/nowy w Zäske et al.22, w warunkach, w których użyto różnych tekstów, można przypisać brakowi dodatkowej sesji kontrolnej podczas zadania szkoleniowego w celu zapewnienia dokładnego i skutecznego uczenia się tożsamości, jak sugeruje Lavan et al.23. W związku z tym pierwszym celem badania jest zbadanie i potwierdzenie tej hipotezy. To badanie ma na celu przetestowanie tego poprzez dodanie sesji sprawdzającej do paradygmatu trenowania-testowania22.
Kolejnym kluczowym pytaniem, na które to badanie ma odpowiedzieć, jest solidność identyfikacji mówcy w obecności prozodii mowy. Wcześniejsze badania behawioralne sugerowały, że słuchacze mają szczególne trudności z rozpoznawaniem mówców w różnych prozodiach, co wskazuje na modulacyjną rolę kontekstu prozodycznego - słuchacze osiągali gorsze wyniki w różnych warunkach prozodii trenująco-testowej. To badanie ma na celu przetestowanie tego poprzez umożliwienie słuchaczom rozpoznawania znajomych mówców w pewnych lub wątpliwych prozodiach24. Badanie to ma nadzieję, że zaobserwowane różnice w ERP pomogą wyjaśnić, w jaki sposób prozodia mowy wpływa na rozpoznawanie tożsamości.
Głównym celem obecnego badania jest zbadanie odporności starego/nowego efektu w rozpoznawaniu mówcy, a konkretnie zbadanie, czy istnieją różnice w rozpoznawaniu mówców w prozodiach pewnych siebie i wątpliwych. Xu i Armony10 przeprowadzili badanie behawioralne przy użyciu paradygmatu treningowo-testowego, a ich wyniki sugerują, że słuchacze nie mogą przezwyciężyć różnic prozodycznych (np. przeszkoleni w rozpoznawaniu mówcy w neutralnej prozodii i testowani na przerażającej prozodii) i mogą osiągnąć dokładność niższą niż poziom szansy10. Analiza akustyczna wskazuje, że mówcy wyrażający różne stany emocjonalne są związani z modulacją VTL/F0; na przykład pewna prozodia charakteryzuje się wydłużonym VTL i niższym F0, podczas gdy odwrotnie jest w przypadku wątpliwej prozodii11,24. Kolejny dowód pochodzi z badania przeprowadzonego przez Lavan et al.23, które potwierdziło, że słuchacze mogą dostosować się do zmian VTL i F0 mówcy i tworzyć reprezentacje mówiących oparte na średniej. Badanie to potwierdza, że z perspektywy danych behawioralnych słuchacze prawdopodobnie nadal będą rozpoznawać tożsamość mówiącego w różnych prozodiach (np. przeszkoleni w rozpoznawaniu jednego z nich w pewnej prozodii, ale testowani w wątpliwej prozodii; opisani w oddzielnym manuskrypcie w przygotowaniu). Jednak neuronalne korelaty identyfikacji mówcy, a w szczególności możliwość uogólnienia starego/nowego efektu zaobserwowanego przez Zäske et al.22, pozostają niejasne. W związku z tym obecne badanie ma na celu walidację solidności starego/nowego efektu w prozodiach pewnych i wątpliwych jako kontekstach do testowania.
Badanie wprowadza odejście od poprzednich paradygmatów badawczych w starych/nowych badaniach nad efektami. Podczas gdy wcześniejsze badania koncentrowały się na tym, jak rozpoznawanie starego/nowego mówcy wpływa na percepcję, to badanie rozszerza je, włączając do paradygmatu dwa poziomy pewności siebie (pewny siebie i wątpiący) (stąd badanie 2+2). Pozwala nam to badać rozpoznawanie mówcy w kontekście pewnych siebie i wątpliwych prozodii mowy. Paradygmat ten umożliwia badanie odporności starych/nowych efektów. Analizy efektów pamięciowych i obszarów zainteresowania (ROI) zarówno w kontekstach mowy pewnej, jak i wątpliwej służą jako dowód w tym badaniu.
Ogółem, badanie ma na celu aktualizację zrozumienia korelatów EEG rozpoznawania głosu, z hipotezami, że powiększony LPC starego/nowego efektu EEG jest zauważalny nawet wtedy, gdy 1) treść językowa nie jest taka sama, oraz 2) z obecnością prozodii pewnej i wątpliwej. W tym badaniu zbadano hipotezy za pomocą trzyetapowego paradygmatu. Po pierwsze, podczas fazy szkolenia uczestnicy ustalili skojarzenia między trzema głosami i odpowiadającymi im nazwami. Następnie, w fazie sprawdzania, mieli za zadanie zidentyfikować nazwisko odpowiadające głosowi z wybranych trzech kandydatów. To sprawdzenie, zgodne z Lavan et al.23, ma na celu przezwyciężenie niedostatecznego zaznajomienia się ze starymi mówcami, co doprowadziło do nieobserwowanego efektu starego/nowego, gdy tekst w fazie szkolenia i testowania różnił się6, a mówiący nie mogli rozpoznać mówiących przez neutralne i przerażające prozodie10. Wreszcie, w fazie testów, uczestnicy rozróżnili między trzema starymi i trzema nowymi głosami mówcy w dwualternatywnym zadaniu wymuszonego wyboru, przy czym prozodia mowy była przedstawiana jako pewna lub wątpliwa. Dane EEG zebrano za pomocą 64-kanałowego systemu EEG i poddano wstępnemu przetwarzaniu przed analizą. Analizę statystyczną i analizę potencjału związanego ze zdarzeniami (ERP) przeprowadzono w RStudio, podczas gdy MATLAB wykorzystano do analizy topografii mózgu.
Jeśli chodzi o szczegóły projektu, to badanie proponuje eksperyment z uczeniem się tożsamości mówcy, który kontroluje wzrost mówcy, który jest związany z VTL i wpływa na wrażenia tego, kto mówi23. Ten aspekt wpływa również na wrażenia społeczne, takie jak postrzegana dominacja25, a takie tworzenie wrażenia na wyższym poziomie może wchodzić w interakcje z dekodowaniem tożsamości mówcy26.