Method Article

Paradygmat treningu i testowania oparty na zapamiętywaniu dla solidnego rozpoznawania tożsamości głosowej w mowie ekspresyjnej przy użyciu analizy potencjałów związanych ze zdarzeniami

DOI:

10.3791/66913

August 9th, 2024

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badanie wprowadza paradygmat treningowo-testowy do badania starych/nowych efektów potencjałów związanych ze zdarzeniami w pewnych i wątpliwych scenariuszach prozodycznych. Dane wskazują na wzmocniony późny składnik dodatni między 400-850 ms przy Pz i innych elektrodach. Ten potok może badać czynniki wykraczające poza prozodię mowy i ich wpływ na identyfikację celu wiążącego wskazówki.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Rozpoznawanie znajomych mówców na podstawie strumieni wokalnych jest podstawowym aspektem komunikacji werbalnej człowieka. Nie jest jednak jasne, w jaki sposób słuchacze mogą jeszcze rozpoznać tożsamość mówcy w ekspresyjnej mowie. W tym badaniu opracowano oparte na zapamiętywaniu podejście do rozpoznawania tożsamości indywidualnego mówcy i towarzyszący mu potok analizy danych elektroencefalogramu (EEG), który monitoruje, w jaki sposób słuchacze rozpoznają znajomych mówców i odróżniają nieznanych. Dane EEG rejestrują procesy poznawcze online podczas rozróżnienia nowego i starego mówcy na podstawie głosu, oferując pomiar aktywności mózgu w czasie rzeczywistym, pokonując ograniczenia czasu reakcji i pomiary dokładności. Paradygmat składa się z trzech kroków: słuchacze ustanawiają skojarzenia między trzema głosami i ich nazwami (trening); słuchacze wskazują imię odpowiadające głosowi z trzech kandydatów (sprawdzanie); Słuchacze rozróżniają trzy stare i trzy nowe głosy mówcy w dwualternatywnym zadaniu wymuszonego wyboru (testowanie). Prozodia mowy w testach była albo pewna, albo wątpliwa. Dane EEG zebrano za pomocą 64-kanałowego systemu EEG, a następnie wstępnie przetworzono i zaimportowano do RStudio w celu ERP i analizy statystycznej oraz MATLAB do topografii mózgu. Wyniki wykazały, że powiększony późny składnik dodatni (LPC) został wywołany u starego mówcy w porównaniu ze stanem nowego mówcy w oknie 400-850 ms w Pz i innym szerszym zakresie elektrod w obu prozodii. Jednak stary/nowy efekt był silny w elektrodach centralnych i tylnych dla wątpliwej percepcji prozodii, podczas gdy elektrody przednie, centralne i tylne są dla pewnego stanu prozodii. Badanie to sugeruje, że ten projekt eksperymentu może służyć jako punkt odniesienia do badania specyficznych dla mówcy efektów wiązania wskazówek w różnych scenariuszach (np. ekspresja anaforyczna) i patologiach u pacjentów takich jak fonagnozja.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Strumienie ludzkiego głosu są bogate w informacje, takie jak emocje1,2, stan zdrowia3,4, płeć biologiczna5, wiek6, i, co ważniejsze, indywidualna tożsamość wokalna7,8. Badania sugerują, że ludzcy słuchacze mają solidną zdolność do rozpoznawania i różnicowania tożsamości swoich rówieśników za pomocą głosów, pokonując różnice wewnątrz mówców dotyczące średniej reprezentacji tożsamości mówcy w przestrzeni akustycznej9. Takie różnice są spowodowane manipulacją akustyczną (podstawowa częstotliwość i długość traktu głosowego, tj. F0 i VTL), która nie odpowiada żadnym wyraźnym pragmatycznym intencjom9, prozodie emocji10, oraz pewność siebie, która przekazuje poczucie wiedzy mówcy11. Eksperymenty behawioralne koncentrowały się na wielu czynnikach, które wpływają na skuteczność słuchaczy w rozpoznawaniu mówców, w tym na manipulacjach związanych z językiem8,12,13, cechach związanych z uczestnikami, takich jak doświadczenie muzyczne lub umiejętność czytania14,15 oraz adaptacje związane z bodźcami, takie jak mowa wsteczna lub niesłowa16,17; Więcej można znaleźć w przeglądach literatury18,19. W kilku ostatnich eksperymentach zbadano, w jaki sposób indywidualna odmiana reprezentacji tożsamości mówcy może podważyć dokładność rozpoznawania, biorąc pod uwagę takie aspekty, jak wysoka i niska ekspresja emocjonalna16 oraz neutralne kontra przerażające prozodie5; Więcej możliwych scenariuszy otwartych do dalszego zbadania, zgodnie z sugestią review20.

Dla pierwszej luki badawczej, badanie sugeruje, że neurologiczne podstawy identyfikacji mówcy muszą jeszcze w pełni zbadać, w jaki sposób zmienność wewnątrz mówcy stanowi wyzwanie dla aktywności mózgu słuchaczy. Na przykład w zadaniu rozpoznawania mówcy opartym na fMRI przeprowadzonym przez Zäske i wsp., prawy tylny górny zakręt skroniowy (pSTG), prawy dolny/środkowy zakręt czołowy (IFG/MFG), prawy przyśrodkowy zakręt czołowy i lewy ogoniasty wykazywały zmniejszoną aktywację, gdy zostały prawidłowo zidentyfikowane jako starzy i nowi mówcy, niezależnie od tego, czy treść językowa była taka sama lub inna21. Jednak wcześniejsze badanie elektroencefalograficzne (EEG) przeprowadzone przez Zäske i wsp. nie zaobserwowało tego starego/nowego efektu, gdy wariant tożsamości mówcy został wprowadzony za pomocą różnych tekstów22. W szczególności większy, późny składnik dodatni (LPC) w zakresie od 300 do 700 ms, wykrywany na elektrodzie Pz, gdy słuchacze napotkali znajomego wyszkolonego mówcę wyrażającego ten sam tekst (tj. słysząc powtórkę z niezróżnicowaną treścią językową), był nieobecny, gdy mówcy dostarczali nowe teksty.

Na poparcie twierdzenia Zäske et al.21, to badanie podejrzewa, że stary/nowy efekt można nadal zaobserwować pomimo różnic w treści językowej między sesjami szkoleniowymi i testowymi w analizach potencjału związanego ze zdarzeniami (ERP). Uzasadnienie to wynika z założenia, że brak efektu stary/nowy w Zäske et al.22, w warunkach, w których użyto różnych tekstów, można przypisać brakowi dodatkowej sesji kontrolnej podczas zadania szkoleniowego w celu zapewnienia dokładnego i skutecznego uczenia się tożsamości, jak sugeruje Lavan et al.23. W związku z tym pierwszym celem badania jest zbadanie i potwierdzenie tej hipotezy. To badanie ma na celu przetestowanie tego poprzez dodanie sesji sprawdzającej do paradygmatu trenowania-testowania22.

Kolejnym kluczowym pytaniem, na które to badanie ma odpowiedzieć, jest solidność identyfikacji mówcy w obecności prozodii mowy. Wcześniejsze badania behawioralne sugerowały, że słuchacze mają szczególne trudności z rozpoznawaniem mówców w różnych prozodiach, co wskazuje na modulacyjną rolę kontekstu prozodycznego - słuchacze osiągali gorsze wyniki w różnych warunkach prozodii trenująco-testowej. To badanie ma na celu przetestowanie tego poprzez umożliwienie słuchaczom rozpoznawania znajomych mówców w pewnych lub wątpliwych prozodiach24. Badanie to ma nadzieję, że zaobserwowane różnice w ERP pomogą wyjaśnić, w jaki sposób prozodia mowy wpływa na rozpoznawanie tożsamości.

Głównym celem obecnego badania jest zbadanie odporności starego/nowego efektu w rozpoznawaniu mówcy, a konkretnie zbadanie, czy istnieją różnice w rozpoznawaniu mówców w prozodiach pewnych siebie i wątpliwych. Xu i Armony10 przeprowadzili badanie behawioralne przy użyciu paradygmatu treningowo-testowego, a ich wyniki sugerują, że słuchacze nie mogą przezwyciężyć różnic prozodycznych (np. przeszkoleni w rozpoznawaniu mówcy w neutralnej prozodii i testowani na przerażającej prozodii) i mogą osiągnąć dokładność niższą niż poziom szansy10. Analiza akustyczna wskazuje, że mówcy wyrażający różne stany emocjonalne są związani z modulacją VTL/F0; na przykład pewna prozodia charakteryzuje się wydłużonym VTL i niższym F0, podczas gdy odwrotnie jest w przypadku wątpliwej prozodii11,24. Kolejny dowód pochodzi z badania przeprowadzonego przez Lavan et al.23, które potwierdziło, że słuchacze mogą dostosować się do zmian VTL i F0 mówcy i tworzyć reprezentacje mówiących oparte na średniej. Badanie to potwierdza, że z perspektywy danych behawioralnych słuchacze prawdopodobnie nadal będą rozpoznawać tożsamość mówiącego w różnych prozodiach (np. przeszkoleni w rozpoznawaniu jednego z nich w pewnej prozodii, ale testowani w wątpliwej prozodii; opisani w oddzielnym manuskrypcie w przygotowaniu). Jednak neuronalne korelaty identyfikacji mówcy, a w szczególności możliwość uogólnienia starego/nowego efektu zaobserwowanego przez Zäske et al.22, pozostają niejasne. W związku z tym obecne badanie ma na celu walidację solidności starego/nowego efektu w prozodiach pewnych i wątpliwych jako kontekstach do testowania.

Badanie wprowadza odejście od poprzednich paradygmatów badawczych w starych/nowych badaniach nad efektami. Podczas gdy wcześniejsze badania koncentrowały się na tym, jak rozpoznawanie starego/nowego mówcy wpływa na percepcję, to badanie rozszerza je, włączając do paradygmatu dwa poziomy pewności siebie (pewny siebie i wątpiący) (stąd badanie 2+2). Pozwala nam to badać rozpoznawanie mówcy w kontekście pewnych siebie i wątpliwych prozodii mowy. Paradygmat ten umożliwia badanie odporności starych/nowych efektów. Analizy efektów pamięciowych i obszarów zainteresowania (ROI) zarówno w kontekstach mowy pewnej, jak i wątpliwej służą jako dowód w tym badaniu.

Ogółem, badanie ma na celu aktualizację zrozumienia korelatów EEG rozpoznawania głosu, z hipotezami, że powiększony LPC starego/nowego efektu EEG jest zauważalny nawet wtedy, gdy 1) treść językowa nie jest taka sama, oraz 2) z obecnością prozodii pewnej i wątpliwej. W tym badaniu zbadano hipotezy za pomocą trzyetapowego paradygmatu. Po pierwsze, podczas fazy szkolenia uczestnicy ustalili skojarzenia między trzema głosami i odpowiadającymi im nazwami. Następnie, w fazie sprawdzania, mieli za zadanie zidentyfikować nazwisko odpowiadające głosowi z wybranych trzech kandydatów. To sprawdzenie, zgodne z Lavan et al.23, ma na celu przezwyciężenie niedostatecznego zaznajomienia się ze starymi mówcami, co doprowadziło do nieobserwowanego efektu starego/nowego, gdy tekst w fazie szkolenia i testowania różnił się6, a mówiący nie mogli rozpoznać mówiących przez neutralne i przerażające prozodie10. Wreszcie, w fazie testów, uczestnicy rozróżnili między trzema starymi i trzema nowymi głosami mówcy w dwualternatywnym zadaniu wymuszonego wyboru, przy czym prozodia mowy była przedstawiana jako pewna lub wątpliwa. Dane EEG zebrano za pomocą 64-kanałowego systemu EEG i poddano wstępnemu przetwarzaniu przed analizą. Analizę statystyczną i analizę potencjału związanego ze zdarzeniami (ERP) przeprowadzono w RStudio, podczas gdy MATLAB wykorzystano do analizy topografii mózgu.

Jeśli chodzi o szczegóły projektu, to badanie proponuje eksperyment z uczeniem się tożsamości mówcy, który kontroluje wzrost mówcy, który jest związany z VTL i wpływa na wrażenia tego, kto mówi23. Ten aspekt wpływa również na wrażenia społeczne, takie jak postrzegana dominacja25, a takie tworzenie wrażenia na wyższym poziomie może wchodzić w interakcje z dekodowaniem tożsamości mówcy26.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Komisja Etyki Instytutu Lingwistyki Uniwersytetu Studiów Międzynarodowych w Szanghaju zatwierdziła projekt eksperymentu opisany poniżej. Uzyskano świadomą zgodę wszystkich uczestników tego badania.

1. Przygotowanie i walidacja biblioteki audio

  1. Nagrywanie i edycja dźwięku
    1. Utwórz bazę danych chińskich wokali zgodnie ze standardową procedurą tworzenia poprzedniej wersji angielskiej, dokonując adaptacji tam, gdzie jest to potrzebne, aby dopasować się do kontekstu China11. W tym eksperymencie użyto 123 zdań zawierających trzy rodzaje intencji pragmatycznych, a mianowicie osąd, intencję i fakt. Aby to zrobić, odwołaj się do istniejącego angielskiego instrukcji corpus11 i utwórz zlokalizowaną wersję chińską z dodatkowymi zlokalizowanymi scenariuszami.
    2. Zwerbuj 24 mówców (12 kobiet), aby wyrażali te zdania w neutralnych, wątpliwych i pewnych siebie prozodach, odwołując się i dostosowując określone instrukcje z poprzednich zadań nagraniowych11,24.
      1. Do grona prelegentów zaprosi się 24 standardowych użytkowników języka mandaryńskiego z Uniwersytetu Studiów Międzynarodowych w Szanghaju, 12 kobiet i 12 mężczyzn, którzy wykazali się biegłością w języku mandaryńskim dzięki wynikom od 87 do 91 w teście biegłości Putonghua. Uczestnicy płci męskiej mieli średnio 24,55 ± wieku 2,09 lat, 18,55 ± 1,79 roku edukacji i średni wzrost 174,02 ± 20,64 cm. Kobiety miały średnio 22,30 ± 2,54 lat, o wzroście 18,20 ± 2,59 lat wykształcenia i średnim wzroście 165,24 ± 11,42 cm. Żaden z nich nie zgłosił zaburzeń mowy i słuchu ani zaburzeń neurologicznych lub psychiatrycznych.
    3. Poproś mówców, aby powtórzyli każdy tekst dwa razy. Ustaw częstotliwość próbkowania na 48 000 Hz w oprogramowaniu Praat27. Upewnij się, że żaden strumień nie jest dłuższy niż 10 minut, ponieważ Praat może się zepsuć, powodując utratę nagrywania.
    4. Edytuj długi strumień audio w klipy na zdanie za pomocą Praat. Ponieważ istnieją dwa powtórzenia tego samego tekstu, wybierz wersję, która najlepiej reprezentuje zamierzoną prozodię jako zdanie docelowe.
  2. Wybór dźwięku
    1. Znormalizuj bibliotekę audio na poziomie 70 dB i częstotliwość próbkowania na poziomie 41 000 Hz za pomocą Praat script28. Aby to zrobić, otwórz Praat, załaduj pliki dźwiękowe i wybierz je w oknie Obiekty. Przejdź do menu Modyfikuj, wybierz Skala intensywności..., ustaw Nowe średnie natężenie (dB SPL) na 70 w oknie ustawień i kliknij OK, aby zastosować normalizację.
    2. Zrekrutuj 48 niezależnych słuchaczy, aby ocenili każde nagranie w jednej skali 7-Likerta dotyczącej poziomu ufności: 1 oznacza brak znajomości i 7 oznacza bardzo pewny siebie11. Upewnij się, że każde zdanie zostało ocenione przez 12 oceniających.
    3. Wybierz dźwięk, który odpowiada wyznaczonym progom, kierując się jedną główną zasadą: upewnij się, że średnia ocena dźwięku dla osób mających pewne intencje jest wyższa niż dla dźwięku o wątpliwych intencjach. Upewnij się, że te progi są spójne dla 12 mówców tej samej płci biologicznej. Na przykład, jeśli ci mówcy wypowiedzieli dwa zdania, każde z pewnymi siebie i wątpliwymi prozodami, należy zaobserwować znaczące różnice w ocenach.
    4. Na potrzeby obecnego projektu eksperymentalnego należy użyć czterech bloków audio, w sumie 480 klipów audio, z których każdy zawiera 120 klipów audio.
      1. Podziel 24 mówiących na cztery grupy po sześć, z dwiema grupami mężczyzn i dwiema grupami kobiet, przy czym każda grupa składa się z mówiących tej samej płci biologicznej.
      2. Dla każdej grupy wybierz klipy audio na podstawie ocen percepcyjnych (na tym samym tekście), upewniając się, że średnie oceny ufności były wyższe niż wątpliwe oceny dla każdego zdania. Te cztery bloki różnią się pod następującymi względami: 1) połączonych sześciu mówców - ich tożsamości są różne; 2) połowa bloków jest wyrażana przez samców, a druga połowa przez samice; oraz 3) tekst wyrażony w każdym bloku jest inny.
    5. Przed rozpoczęciem procesu wyboru udokumentuj dane dotyczące wysokości każdego głośnika. Skorzystaj z tych informacji, aby podzielić prelegentów na cztery niezależne grupy w oparciu o płeć i wzrost.
      1. W sumie jest 24 prelegentów, podzielonych po równo między mężczyzn i kobiety. W każdej grupie płci posortuj 12 osób według wzrostu.
    6. Podziel te 12 osób na dwie grupy naprzemiennie, na przykład z posortowanej listy od 1 do 12 osoby 1, 3, 5, 7, 9 i 11 utworzą jedną grupę, a druga połowa utworzy drugą grupę. W ramach tych grup dokonuj wyboru głośników dla klipów audio w regularnych odstępach czasu w zależności od ich wysokości.
      UWAGA: Uwzględnienie wysokości jako czynnika kontrolnego opiera się na wynikach sugerujących, że miary akustyczne związane z wysokością mówcy (VTL i F0) wpływają na rozpoznawanie tożsamości mówcy i mówcy23.

2. Programowanie zbierania danych EEG

  1. Projektowanie macierzy eksperymentu
    1. W badaniu zastosowano projekt wewnątrzprzedmiotowy. Przygotuj sesję testową, która prezentuje się zgodnie z każdym tematem, jednocześnie dostosowując sesję szkoleniową. Przygotuj cztery bloki, w których mówcy płci męskiej i żeńskiej zajmą każdą połowę dwóch bloków. Przypisz dwa bloki do szkolenia w prozodii pewności siebie i testowania zarówno na pewnym, jak i wątpiącym, a także trenowania w prozodii wątpliwej i testowania zarówno na pewnym, jak i wątpiącym, zgodnie z sugestią w Rysunek 1.
    2. Zdecyduj o czasie działania ekranów, odwołując się do istniejących badań EEG dotyczących identyfikacji mówcy i percepcji pewności głosu22,29. Uporządkuj sekwencję czterech bloków za pomocą łacińskiej kwadratowej macierzy między uczestnikami30,31. Do przygotowania takiej listy zalecane jest niestandardowe kodowanie w Pythonie. Zobacz fragment kodu dla macierzy kwadratu łacińskiego i listę prób dla programu PsychoPy na OSF32.
    3. Wybierz mówców w każdym interwale z sekwencji wzrostu tej samej płci biologicznej. Dla każdego bloku wybierz sześciu mówców z oryginalnych 24 mówców, którzy grupują się w cztery listy zgodnie z zgłoszonym wzrostem mówców.
    4. Wybierz pierwsze 24 imiona w stu chińskich nazwiskach rodzinnych. Losowo przypisz nazwiska 24 rozmówcom, którzy wyrazili dźwięk, zwracając się do nich jak Xiao (Junior w języku chińskim) ZHAO.
    5. Zbierz wszystkie istotne informacje w arkuszu kalkulacyjnym z kolumnami dla Mówcy (od 1 do 24), Płeć biologiczna (męska lub żeńska), Imię osoby (z 24 nazwisk), Poziom pewności siebie (pewny lub wątpliwy), Pozycja (indeks tekstowy), Oceniany poziom ufności (uśredniony wynik z badania percepcyjnego), Dźwięk (np. dźwięk/1_h_c_f_56.wav),
    6. Poprawnie rozpoznaj jeden z trzech (1, 2 lub 3) i poprawnie rozpoznaj stare i nowe (stare lub nowe). Ponadto upewnij się, że dodano kolumny o nazwach training_a, training_b, training_c, check i test.
    7. Dodaj kolumny training_a_marker, training_b_marker, check_marker i testing_marker do arkuszy kalkulacyjnych, aby wysłać markery EEG. Sformatuj te znaczniki za pomocą trzech cyfr, co oznacza, że nawet cyfra 1 jest zapisana jako 001.
  2. Budowanie trzech sesji
    UWAGA: PsychoPy jest zalecany do budowania programu, głównie za pomocą trybu budowniczego. Komponent Kodu w konstruktorze służy dodatkowo do połączenia programu z systemem zbierania danych EEG, równoważenia przycisków F i J oraz obliczania dokładności, która ma być raportowana na ekranie.
    1. Przede wszystkim kliknij ikonę Edytuj ustawienia eksperymentu i dostosuj komórkę Informacje o eksperymencie do dwóch pól, a mianowicie Uczestnik i Blok. Pozostaw wartość domyślną dla obu z nich jako pustą. W tym badaniu, spośród 40 uczestników, z których każdy miał cztery bloki, 4/40 uczestników ponownie przeszło przez pewne bloki (jeśli dokładność w sesji kontrolnej jest niższa niż 10/12), ze wskaźnikiem ponownych wykonań 19 powtórzeń/4 bloki x 40 uczestników = 11,875%.
    2. Sesja treningowa: trzykrotne powtarzanie uczenia się tożsamości
      1. Zdefiniuj pętlę o nazwie Training_A, która zawiera trzy ekrany: Fiksacja, Prezentacja i Puste miejsce. Zaznacz opcję Jest to wersja próbna. Pozostaw wartość nReps 1, pozostawiając puste pola Wybrane wiersze i Losowe ziarno. Napisz warunek jak poniżej:
        "$"trials/{:}_training_a.xlsx".format(expInfor["Uczestnik"]), expInfo["Blok"])
        Gdzie trials/ to nazwa folderu; Uczestnik to indeks uczestnika; Blok to sekwencja bloków bieżącego bloku.
      2. Na ekranie Fiksacja dodaj składnik tekstowy z czasem rozpoczęcia ustawionym na 0, czasem trwania ustawionym na 2 (s) i znakiem + umieszczonym w oknie wprowadzania tekstu, który wybiera opcję Ustaw każde powtórzenie. Podobnie, dołącz podobny składnik Text do pustego ekranu bez żadnych informacji w komórce Text i trwa on 0,5 sekundy.
      3. Na ekranie Prezentacja wykonaj następujące czynności:
        1. Dodaj komponent Dźwięk z czasem rozpoczęcia ustawionym na 0, polem Czas trwania zakończenia pozostawionym pustym oraz wejściem komórki Dźwięk z $Sound i wybierz opcję Ustaw każde powtórzenie. Zaznacz ekran Rozpocznij synchronizację z.
        2. Dodaj kolejny komponent Text z komórką Warunek początkowy wprowadzoną za pomocą Cross_for_Training_A.status == FINISHED. Pozostaw pustą komórkę Czas zatrzymania. W komórce tekstowej jest wyświetlany $Name. Wybierz opcję Ustaw każde powtórzenie.
        3. Dodaj Key_Response_Training_A, w którym warunek początkowy to Training_A.status == FINISHED. Pozostaw pustą komórkę Czas zatrzymania. Zaznacz wymuszony koniec rutyny. W polu Komórka Dozwolone dodaj spację; dla ustawienia wybierz opcję Stałe.
        4. Dodaj Cross_for_Training_A. Jego czas rozpoczęcia jest ustawiony na 0; Komórka Warunek zatrzymania jest ustawiona jako Training_A.status == FINISHED. Umieść znak + w oknie Wprowadzanie tekstu i wybierz opcję Ustaw każde powtórzenie.
      4. Przygotuj Training_B, postępując zgodnie z podobną procedurą jak Training_A.
    3. Sesja sprawdzająca: Wybierz imiona i nazwiska trzech uczestników, którzy rozmawiają.
      1. Zdefiniuj pętlę o nazwie Sprawdź, z tą samą fiksacją i pustym ekranem co sesja treningowa.
      2. Użyj innej prezentacji niż podczas szkolenia, dodając funkcję do zbierania reakcji z klawiatury. Na ekranie Prezentacja wykonaj następującą czynność.
        1. Dodaj składnik Dźwięk i nadaj mu nazwę Checking_audio, z godziną rozpoczęcia ustawioną na 0, a komórkę Czas zakończenia pozostaw pustą. Ustaw komórkę Dźwięk jako $Sound, z włączoną opcją Ustaw każde powtórzenie.
        2. Dodaj składnik tekstowy o nazwie Show_names z warunkiem początkowym zapisanym za pomocą polecenia:
          Checking_audio.status == ZAKOŃCZONE
          i pozostaw pole Stop Duration (Czas zatrzymania) puste. Ustaw komórkę tekstową na wartość $ People_Name z włączoną opcją Ustaw każde powtórzenie.
        3. Dodaj komponent Klawiatura i zatytułuj go Key_Response_Check, z warunkiem rozpoczęcia Checking_audio.status == FINISHED i pozostaw pole Stop Duration puste. Wybierz opcję Wymuś koniec rutyny, gdy dozwolone num_1, num_2 i num_3 pozostają stałe, aby uczestnicy mogli używać klawiatury numerycznej do indeksowania swojego wyboru.
        4. Dodaj fiksację o nazwie Cross_Check, gdzie czas rozpoczęcia wynosi 0, a warunek zakończenia jest wprowadzany za pomocą Checking_audio.status == FINISHED. Dodaj znak + do komórki Tekst, która spowoduje wybranie opcji Ustaw każde powtórzenie.
      3. Wstaw składnik kodu. W sekcji Rozpocznij eksperyment zainicjuj total_trials, current_correct, current_incorrect i current_accuracy jako 0. W procedurze Rozpocznij zdefiniuj user_input jako Brak. W sekcji Każda klatka zbierz dane wejściowe użytkownika z klawiatury i sprawdź, czy poprawna odpowiedź jest zapisana w pliku arkusza kalkulacyjnego, z kodem klucza user_key = Key_Response_Check.keys do wyodrębnienia 1, 2 lub 3. Następnie użyj go do zmierzenia liczby zapisanych 1,2 lub 3 w kolumnie o nazwie Correctly_recognize_one_out_of_three.
      4. Po wyjściu z pętli upewnij się, że pojawi się ekran informacji zwrotnej z następującym komunikatem: check_feedbacks.text = f" Drugi krok jest zakończony.\nZidentyfikowałeś mówcę w sumie w {total_trials} zdaniach,\nPoprawnie rozpoznałeś {current_correct} mówców,\nNieprawidłowo oceniłeś {current_incorrect} mówców.\nTwój ogólny wskaźnik dokładności wynosi {current_accuracy}%.\n\nJeśli jest poniżej 83,33%, proszę zasygnalizować eksperymentatorowi, \nZapoznasz się ponownie z trzema głośnikami wymienionymi powyżej.\n\nJeśli spełniasz wymagania, naciśnij spację, aby kontynuować.
    4. Sesja testowa: klasyfikacja starego i nowego mówcy
      1. Zdefiniuj pętlę o nazwie Testowanie. Zawiera Fiksację i Puste (tak samo jak w sesji szkoleniowej) oraz ekran prezentacji.
      2. Przygotuj sekcję Prezentacja, jak poniżej.
        1. Dodaj komponent odtwarzania dźwięku, Testing_sound, z ustawieniami identycznymi jak podczas sesji treningowej. Dodaj komponent Key_response_old_new, który ma warunek początkowy Testing_sound.status == ZAKOŃCZONO, pozostaw pole Czas trwania zatrzymania puste i zaznacz opcję Wymuś koniec rutyny. W polu Dozwolone klucze uwzględnij f i j, a następnie wybierz pozycję Stała.
      3. Dodaj komponent tekstowy o nazwie Testing_old_new, z warunkiem początkowym Testing_sound.status == FINISHED, pozostaw pole Czas trwania zatrzymania puste i pozostaw pustą komórkę tekstową z opcją Ustaw każde powtórzenie - tekst zostanie zdefiniowany przez późniejszy komponent kodu.
      4. Dodaj Cross_Testing, gdzie czas rozpoczęcia wynosi 0, warunek zakończenia jest Testing_sound.status == ZAKOŃCZONO i znak + w komórce tekstowej, gdy opcja Ustaw każde powtórzenie jest włączona.
      5. Dodaj składnik Code zgodnie z poniższym opisem.
        1. W sekcji Rozpocznij eksperyment zainicjuj łączną liczbę prób (total_trials_t), liczbę prawidłowych prób (correct_trials_t) i liczbę nieprawidłowych prób (incorrect_trials_t).
        2. W sekcji Rozpocznij rutynę rozpocznij od sprawdzenia warunkowego, aby określić format prezentacji na podstawie numeru identyfikacyjnego uczestnika (expInfo["Uczestnik"]). Jeśli numer identyfikacyjny jest nieparzysty, upewnij się, że instrukcje dotyczące identyfikacji starych i nowych bodźców są przedstawione w jednym formacie, albo ("Stary(F) Nowy(J)"), albo ("Nowy (F) 'Stary (J)").
        3. Poza tą pętlą znajduje się ekran informacji zwrotnej z komponentem kodu. Upewnij się, że każda sekcja klatki ma postać: testing_feedbacks.text = f"Zidentyfikowałeś mówcę w sumie {total_trials_t} zdań,\nPoprawnie rozpoznałeś {correct_trials_t} mówców,\nNieprawidłowo oceniłeś {incorrect_trials_t} mówców.\nTwój ogólny wskaźnik dokładności wynosi {accuracy_t:.2f}%.\nProszę nacisnąć spację, aby zakończyć tę bieżącą część.
    5. Połącz program z systemem Brain Products w sposób opisany poniżej.
      1. Zsynchronizuj znacznik, ustawiając znacznik jako początek każdego dźwięku. Przed samym początkiem pętli Training_A zdefiniuj protokół wysyłania markerów EEG w komponencie kodu Rozpocznij eksperyment, jak opisano poniżej.
        1. Zaimportuj niezbędne komponenty PsychoPy, w tym moduł równoległy, i skonfiguruj adres portu równoległego za pomocą 0x3EFC.
        2. Ustanów funkcję sendTrigger do przesyłania markerów EEG. Ta funkcja wysyła określony triggerCode przez port równoległy z parallel.setData(triggerCode) po sprawdzeniu, czy jest to liczba całkowita NumPy i przekonwertowaniu jej zgodnie z potrzebami.
        3. Dodaj krótki czas oczekiwania wynoszący 16 ms, aby zapewnić przechwycenie znacznika przed zresetowaniem kanału wyzwalania do 0 za pomocą parallel.setData(0).
      2. Wysłanie znacznika do rejestratora EEG odbywa się za pomocą metody sendTrigger(). Uwzględnij dokładną nazwę odpowiedniej kolumny w nawiasach. W tym badaniu znajdują się training_a_marker, training_b_marker, check_marker i testing_marker - odnoszą się do kolumny zdefiniowanej wcześniej w arkuszu kalkulacyjnym.

3. Zbieranie danych EEG

  1. Przygotowanie miejsca
    UWAGA: Dostępne są co najmniej dwa komputery, na których można przeprowadzić zbieranie danych. Jednym z nich jest połączenie z systemem EEG, a drugim zbieranie danych behawioralnych. Zaleca się zbudowanie kolejnego ekranu w celu zdublowania komputera związanego z danymi behawioralnymi. System składa się ze wzmacniacza i pasywnych nakładek EEG.
    1. Do tego badania rekrutowali się uczestnicy bez zgłoszonych zaburzeń mowy i słuchu. Upewnij się, że uczestnicy nie mają żadnych zaburzeń psychicznych ani neurologicznych. W sumie wybrano 43 uczestników, z których trzech zostało wykluczonych z powodu problemów z dopasowaniem do markerów EEG. Z pozostałych 40 uczestników było 20 kobiet i 20 mężczyzn. Kobiety były w wieku od 20,70 ± 0,37 lat, natomiast mężczyźni od 22,20 ± 0,37 lat. Ich lata edukacji wynosiły 17,55 ± 0,43 dla kobiet i 18,75 ± 0,38 dla mężczyzn.
    2. Przypisz identyfikatory uczestników i zaproś uczestników do umycia i wysuszenia włosów w ciągu godziny przed udziałem w eksperymencie.
    3. Wymieszaj żel elektrolitowy i żel elektrolitowy ścierny w stosunku 1:3, dodając niewielką ilość wody. Wymieszaj mieszaninę równomiernie w pojemniku z łyżką.
    4. Przygotuj bawełniane waciki z cienką końcówką i suchy czepek EEG.
    5. Poproś uczestnika, aby usiadł wygodnie na krześle i poinformuj go, że eksperymentator założy czepek EEG. Wyjaśnij, że pasta przewodząca, która jest nieszkodliwa dla ludzi i poprawia odbiór sygnałów mózgowych, nakłada się na otwory nasadki za pomocą bawełnianych wacików.
    6. Przekaż uczestnikowi instrukcje dotyczące zadań eksperymentalnych oraz formularz świadomej zgody na eksperyment. Przejdź do fazy przygotowawczej po uzyskaniu podpisu uczestnika.
    7. Podłącz nasadkę EEG do wzmacniacza, który z kolei łączy się z komputerem akwizycji danych EEG. W tym badaniu wykorzystano pasywną nasadkę, dlatego konieczne jest użycie dodatkowego monitora do sprawdzenia kolorowych wskaźników na 64 elektrodach.
    8. Otwórz BrainVision Recorder33 i zaimportuj niestandardowy plik przestrzeni roboczej, który zdefiniował parametry nagrywania. Kliknij Monitor, aby sprawdzić impedancję. Na kolorowy pasek, od czerwonego do zielonego, mają wpływ ustawione poziomy rezystancji, przy czym impedancje docelowe mieszczą się w zakresie od 0 do 10 kΩ.
  2. Przygotowanie uczestników
    1. Poproś uczestnika, aby usiadł prosto na krześle. Wybierz żelowy system elektrod pasywnych o odpowiedniej wielkości (rozmiar 54 lub 56) dla głowy uczestnika i upewnij się, że system elektrod jest prawidłowo zamontowany zgodnie z systemem 10-2028,34.
    2. Zacznij od zanurzenia jednorazowego bawełnianego wacika w paście przewodzącej i nałożenia go w otwory nasadki, upewniając się, że pocierasz skórę głowy uczestnika. Odpowiedni wskaźnik elektrody zmieniający kolor na zielony na komputerze gromadzącym dane EEG oznacza, że pomyślnie zbiera on optymalne dane.
    3. Po tym, jak orientacyjny kolor dla wszystkich elektrod na ekranie, z wyjątkiem dwóch elektrod po niezależnej stronie, zmieni kolor na zielony (na ekranie monitora), nałóż pastę przewodzącą na elektrody boczne. Przymocuj lewą elektrodę w pobliżu lewego oka uczestnika, w okolicy dolnej powieki, a prawą elektrodę w pobliżu prawej skroni.
    4. Gdy wszystkie elektrody będą zielone, umieść elastyczną siatkę na głowie uczestnika, aby czepek EEG pewniej i stabilniej przylegał do głowy uczestnika.
    5. Wyposaż uczestnika w słuchawki przewodowe (specjalne słuchawki na przewodnictwo powietrzne używane w laboratorium). Zamknij drzwi ekranu elektromagnetycznego i kieruj działaniami uczestnika przez mikrofon, który umożliwia komunikację wewnątrz i na zewnątrz. Dodatkowo monitoruj ruchy uczestnika za pomocą zewnętrznego monitora, np. przypominając mu, aby nie poruszał znacząco ciałem; Monitoruj również postępy uczestnika w zadaniach behawioralnych za pomocą monitora danych behawioralnych.
    6. Poproś uczestnika, aby założył słuchawki podłączone do komputera zbierającego dane behawioralne za pośrednictwem interfejsu audio.
  3. Niezależne uruchamianie eksperymentu blok po bloku
    1. Na komputerze gromadzącym dane EEG otwórz BrainVision Recorder i kliknij Monitor, aby dwukrotnie sprawdzić impedancję i Stat/Resume Recording i rozpocząć nagrywanie. Utwórz nowy plik z zapisem EEG i nazwij go odpowiednio, na przykład 14_2, co oznacza drugi blok dla uczestnika o numerze 14.
    2. Otwórz program PsychoPy Uruchom eksperyment (zielony przycisk) dla eksperymentu behawioralnego, wprowadź identyfikator uczestnika (np. 14) i odpowiadający mu numer bloku (np. 2), a następnie kliknij OK, aby rozpocząć eksperyment.
    3. Ściśle monitoruj dokładność danych zgłaszanych na ekranie po tym, jak uczestnik zakończy fazę sprawdzania na komputerze z danymi behawioralnymi. Jeśli dokładność jest mniejsza niż 10 na 12, poproś uczestnika o powtórzenie sesji treningowej, aż osiągnie wymaganą dokładność, zanim przejdzie do fazy testowania.
    4. Zwróć szczególną uwagę na ostateczną dokładność starego i nowego rozpoznawania zgłaszaną na ekranie po zakończeniu przez uczestnika fazy testowania bloku. Jeśli dokładność jest wyjątkowo niska (na przykład poniżej 50%), zapytaj uczestnika o możliwe przyczyny.
  4. Eksperyment po EEG
    1. Po tym, jak uczestnik wykona wszystkie bloki, poproś go o umycie włosów. Wyczyść nasadkę EEG, usuwając resztki pasty przewodzącej szczoteczką do zębów, uważając, aby nie zmoczyć złączy sygnałowych i zawijając je w plastikowe torby. Po oczyszczeniu zawieś czepek EEG w dobrze wentylowanym miejscu do wyschnięcia.
    2. Skopiuj EEG i dane behawioralne na przenośny dysk twardy, upewniając się, że dane EEG i dane behawioralne są zgodne. Na przykład dane EEG są nazwane dwoma plikami, 14_2.eeg i 14_2.vhdr, a dane behawioralne jako plik 14_2.xlsx.

4. Przetwarzanie danych EEG

UWAGA: Poniższe opisy dotyczą wstępnego przetwarzania danych EEG, analizy statystycznej i wizualizacji przy użyciu MATLAB i RStudio do przetwarzania wsadowego.

  1. Wstępne przetwarzanie danych EEG za pomocą MATLAB
    1. Łączenie danych EEG i behawioralnych
      1. Biorąc pod uwagę, że uczestnicy mogą być zmuszeni do ponownego wykonania zadania, jeśli nie osiągną wymaganej dokładności 10/12 lub wyższej, co wpływa na nazewnictwo EEG i danych behawioralnych, na przykład 14_2.vhdr może stać się 14_2(1).vhdr, ustandaryzuj nazwy plików, usuwając znaki inne niż 14_2. Podczas iteracji danych każdego uczestnika nazwij pliki danych jako sub, stripped_filename, .set, co spowoduje automatyczne zapisanie plików takich jak sub14_2.set (zawierające metadane i linki do zestawu danych EEG) i sub10_1.fdt (rzeczywiste dane EEG). Spowoduje to zmianę nazw plików 14_2.vhdr i 14_2.eeg na sub14_2.fdt i sub14_2.set.
      2. Użyj funkcji EEG = pop_mergeset(), aby scalić dane w jeden plik dla każdego uczestnika, łącząc różne dane blokowe w porządku chronologicznym, a nie numerycznym w kolejności bloków 1,2,3,4.
      3. Scal wiele plików danych behawioralnych w jeden arkusz kalkulacyjny na uczestnika w oparciu o porządek chronologiczny, co jest niezbędne do późniejszej synchronizacji.
      4. Dostosuj kod, aby zsynchronizować próby w sygnałach EEG z próbami w sygnałach behawioralnych. Na przykład testing_list = [37:108, 145:216, 253:324, 361:432] odpowiadałoby punktom znacznika EEG dla czterech bloków.
      5. Przekształć arkusz kalkulacyjny danych behawioralnych w plik .txt, w wyniku czego powstanie tabela z danymi zarówno w wierszach, jak i kolumnach. Nazwy kolumn zawierają większość nazw wymienionych w kroku 2.1.
      6. Zredefiniuj zawartość danych EEG, dodając informacje do danych EEG za pomocą kodu podobnego do następującego, na przykład EEG = pop_importepoch(EEG, behav_txt_path, {'Epoka', 'Dźwięk', 'Mówca', 'Płeć', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Odpowiedź'}, 'jednostka czasu', 1, 'nagłówki', 1). Proces ten łączy odpowiadające mu dane EEG i behawioralne każdego uczestnika poprzez przetwarzanie wsadowe.
        UWAGA: Wartości odpowiedzi 1 i 0 pochodzą z danych behawioralnych, gdzie 1 oznacza poprawną ocenę, a 0 oznacza nieprawidłową ocenę.
    2. Wstępne przetwarzanie danych EEG
      1. Aby uzyskać odniesienie i ponowne odniesienie29,35, wywołaj funkcję pop_reref, aby ponownie odwołać dane EEG do elektrody FCz, upewniając się, że każdy sygnał jest obliczany względem elektrody FCz. Użyj funkcji pop_reref, aby ponownie odwołać dane EEG do kanałów 28 i 29, reprezentujących obustronne elektrody wyrostka sutkowatego znajdujące się w tylnej części skóry głowy, upewniając się, że każdy sygnał jest obliczany względem obustronnych wyrostka sutkowatego.
      2. Ustaw filtr górnoprzepustowy (do usuwania trendów liniowych) na EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0) i wykonaj korektę linii podstawowej od -500 do 0 ms przy EEG = pop_rmbase(EEG, [-500 0]).
      3. Ręcznie sprawdź złe próby: po zaimportowaniu danych za pomocą EEGLAB wybierz Wykres, a następnie kliknij Dane kanału (przewiń) i ustaw maksymalną wartość na 50.
      4. Usuń próby z widocznymi artefaktami mięśniowymi i innymi typami artefaktów i zaznacz uszkodzone elektrody: najechanie myszką na przebieg kanału spowoduje wyświetlenie jego elektrody. Zapisz wszystkie uszkodzone elektrody, wróć do strony głównej EEGLAB, wybierz Interpoluj elektrody w obszarze Narzędzia, wybierz Wybierz z kanałów danych, wybierz elektrody wymagające interpolacji i potwierdź przyciskiem OK. Zapisz plik w nowym folderze.
      5. Przeprowadź analizę głównych składowych (PCA) za pomocą EEG = pop_runica(EEG, 'rozszerzony', 1, 'pca', 30, 'interupt', 'on'). Ręcznie odrzuć problematyczne ICA, usuwając artefakty z oczu, mięśni i szumu kanału, a następnie zapisz plik.
      6. Użyj funkcji pop_eegthresh, aby ustawić próg od -75 do +75 Hz w celu usunięcia wartości ekstremalnych34,36,37.
      7. Zastosuj pop_eegfiltnew z parametrami ustawionymi (trzeci parametr wejściowy) na 30, aby zachować częstotliwości 30 Hz i niższe38.
      8. Dostosuj kod, aby wyświetlić listę wszystkich interesujących Cię warunków, w tym old_new_speaker = {'stary', 'nowy'}; same_different_prosody = {'taki sam', 'inny'}; Confidence_level = {'c', 'd'}; i Odpowiedź = {'1', '0'}. Następnie połącz te warunki, aby utworzyć kombinacje danych, takie jak sub1_new_different_c_0, i zapisać je jako pliki z rozszerzeniem txt.
  2. Analiza ERP za pomocą RStudio
    1. Aby uporządkować dane, przekonwertuj je na długi format. Zaimportuj wszystkie pliki .txt do programu RStudio i użyj funkcji rbind, aby dołączyć każdą tymczasową ramkę danych do alldata, tworząc dużą ramkę danych zawierającą wszystkie dane pliku. Zmień nazwę kolumny Wiersz we wszystkich danych na Czas w celu uzyskania dokładności. Wykorzystaj funkcję topnienia, aby przekonwertować wszystkie dane z szerokiego na długi format (Data_Long), gdzie każda obserwacja zajmuje wiersz i zawiera wszystkie powiązane warunki i informacje o kanale.
    2. Użyj funkcji filtrowania z pakietu dplyr, aby wybrać dane pasujące do określonych warunków: Ocena wynosi 1. Źródłem jest h. Pamięć jest albo stara, albo nowa. Prozodia to c lub d.
    3. Zdefiniuj obszary na podstawie kanałów elektrod w następujący sposób: Lewy przedni (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Lewy środkowy (C3, T7, CP5, C5, TP7, CP3). Lewy tylny (P3, P7, P5, PO7, PO3). Przyśrodkowa przednia (Fz, AFz, FC1, FC2, F1, F2, FCz). Przyśrodkowa centralna (CP1, CP2, Cz, C1, C2, CPz). Przyśrodkowa tylna (Pz, O1, Oz, O2, P1, POz, P2). Prawy przedni (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Prawy środkowy (CP6, C4, T8, CP4, C6, TP8). Prawy tył (P4, P8, PO4, PO8, P6). Pogrupuj te regiony w regiony przednie, centralne i tylne.
    4. Zapisz obszar roboczy do późniejszego ładowania danych. Aby zapisać, użyj setwd(); Aby załadować, użyj funkcji load().
  3. analiza statystyczna
    1. W przypadku analizy danych EEG we wszystkich elektrodach przefiltruj zestaw danych, aby zawierał tylko odpowiednie punkty danych, w których Judgement wynosi 1, Source to h, Memory jest stara lub nowa, Obiekt nie jest pusty, a Czas wynosi od 400 do 850 ms.
    2. Aktualizuj nazwy regionów zainteresowania (ROI) na podstawie wstępnie zdefiniowanych mapowań. Na przykład lewy przedni, przedni przyśrodkowy i prawy przedni są dla przedniego.
    3. Dopasuj liniowy model efektów mieszanych do danych za pomocą lmer z pakietu lme4 39, z napięciem jako zmienną odpowiedzi i pamięcią i ROI jako stałymi efektami, w tym losowymi przechwytywaniami dla tematu i kanału: fit_time_window <- lmer(Napięcie ~ Pamięć * ROI + (1|Temat) + (1| kanał), data=DANE). Zastąp DANE danymi połączonymi, tylko pewnymi i tylko wątpliwymi wielokrotnie. Zobacz przykładowy kod w OSF32.
      1. Uzyskaj wyniki analizy z dopasowanego modelu: anova(fit_time_window), eta_squared(fit_time_window) i emmeans(fit_time_window, specs = parami ~ Pamięć * ROI, regulacja = "Tukey").
    4. W przypadku analizy danych EEG w Pz, podczas filtrowania zbioru danych, wykonaj te same kroki, co powyżej, ale dodaj również warunek Kanał == 'ChPz'. Powtórz powyższy proces, ale użyj lmer(Napięcie ~ Pamięć + (1|Temat)) do analizy danych Pz od 400 do 850 ms.
    5. Aby wykreślić ERP w Pz (powtórz na połączonym, tylko pewnym i wątpliwym zestawie danych), przefiltruj zestaw danych, aby uwzględnić tylko odpowiednie punkty danych, w których Judgement ma wartość 1, Source to h, Memory jest stara lub nowa, a Subject nie jest pusty.
      1. Zdefiniuj wektor zawierający wiele punktów elektrod (w tym Pz) i poprzedź je literą C, aby dopasować je do konwencji nazewnictwa kanałów w danych. Wybierz opcję Pz out.
      2. Określ okno czasowe dla analizy ERP: time_window <- c(400, 850). Zdefiniuj interesującą Cię elektrodę, w tym przypadku Pz. Przejdź przez wybraną elektrodę i utwórz wykresy zgodnie z poniższym opisem.
        1. Przefiltruj dane dla elektrody Pz za pomocą filtra (Kanał == k), aby wyizolować odpowiednie punkty danych.
        2. Utwórz współczynnik interakcji dla typu linii i koloru na podstawie warunku Pamięć za pomocą interaction(current_channel_data$Memory) i oznacz warunki jako Stary i Nowy.
        3. Oblicz statystyki sumaryczne i błąd standardowy dla pomiarów napięcia w czasie za pomocą funkcji summarySEwithin, określając Voltage jako zmienną miary i Time jako zmienną wewnętrzną.
        4. Wygeneruj wykres ERP dla elektrody Pz, dodając tło dla określonego okna czasowego za pomocą geom_rect z parametrami xmin, xmax, ymin i ymax. Dołącz standardowe taśmy błędów z geom_ribbon, rysując średnie napięcie za pomocą geom_line. Dostosuj wygląd wydruku i etykiety za pomocą funkcji, takich jak scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual i scale_color_manual.
      3. Użyj theme_minimal dla motywu podstawowego i dostosuj rozmiary tekstu i rozmieszczenie legendy za pomocą motywu.
  4. Kreślenie topografii za pomocą programu MATLAB
    1. Zaimportuj dane i ustaw warunki, zdefiniuj listę tematów od 1 do 40 z subject_list = 1:40. Zdefiniuj dwie puste tablice komórek do przechowywania danych w celu poprawnej klasyfikacji starych i nowych warunków: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Przeglądaj w pętli listę tematów, importuj dane każdego tematu i filtruj je na podstawie warunków.
    2. Wyodrębnij informacje o zdarzeniach z surowych danych EEGLAB, wybierając tylko zdarzenia, których odpowiedź jest równa 1. Wybierz wersje próbne z wartością Źródło równą h i odpowiednio zaktualizuj strukturę danych. Oddziel dane dla starych i nowych warunków, ograniczając się do prawidłowych prób ze źródłem h i wykonaj analizę z blokadą czasową.
      1. Oblicz średnią końcową zarówno dla starych, jak i nowych warunków: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
    3. Wykonaj test permutacji zgodnie z poniższym opisem.
      1. Zdefiniuj konfigurację sąsiadów za pomocą określonego pliku układu: cfg_neigh = []; cfg_neigh.method = 'odległość'; cfg_neigh.layout = 'path_to_layout_file'; sąsiedzi = ft_prepare_neighbours(cfg_neigh).
      2. Skonfiguruj parametry testu permutacji, w tym macierz obliczeniową i metodę statystyczną: cfg = []; cfg.method = 'montecarlo'; cfg.statistic = 'ft_statfun_indepsamplesT'; cfg.correctm = 'klaster'; cfg.clusteralpha = 0.05; cfg.clusterstatistic = 'maxsum'; cfg.minnbchan = 2; cfg.tail = 0; cfg.clustertail = 0; cfg.alpha = 0.05; cfg.numrandomization = 1000; cfg.neighbours = sąsiedzi; cfg.design = [2*ones(1, length(human_timelocked_new_correct)) jedynki(1, długość(human_timelocked_old_correct))]; cfg.ivar = 1. Ponadto zapoznaj się z poniższym linkiem (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/), aby zapoznać się z samouczkami dotyczącymi korzystania z Fieldtrip40.
      3. Wykonaj test statystyczny na uśrednionych danych dla starych i nowych warunków: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
    4. Wykonaj niestandardowe drukowanie interwałowe zgodnie z poniższym opisem.
      1. Oblicz różnicę między tymi dwoma warunkami: cfg = []; cfg.operation = 'odejmować'; cfg.parameter = 'średnia'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
      2. Zdefiniuj okna czasowe: time_windows = { [0.500, 0.800] % LPC}.
      3. Utwórz rysunek i wykreśl różnicę między warunkami za pomocą ft_topoplotER(cfg_plot, grandavg_difference).

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Klasyczny stary/nowy efekt charakteryzuje się znacznym wzrostem aktywności mózgu słuchaczy na elektrodzie Pz (między 300 a 700 ms), gdy treść mowy podczas sesji testowej odpowiada tej z sesji treningowej, szczególnie w starym stanie mówcy w porównaniu do nowego stanu mówcy22. Protokół przedstawia zaktualizowaną wersję tego efektu: po pierwsze, obserwuje się większe pozytywne trendy w elektrodzie Pz i w całym obszarze mózgu dla starego stanu w porównaniu z nowym stanem mówcy między 400 a 850 ms. Po drugie, treść przemówienia w sesji testowej będzie się różnić od treści sesji szkoleniowej. Po trzecie, oczekuje się, że zarówno pewne jak i wątpliwe warunki prozodii mowy będą wykazywać te trendy. Wreszcie, efekt stary/nowy jest bardziej wyraźny w wątpliwym stanie podczas sesji testowej (Rysunek 2).

Analiza LMER za pomocą formuły

lmer(Napięcie ~ Pamięć * ROI + (1|Temat) + (1|Kanał))

sugeruje, że zarówno typy pamięci (stara kontra nowa), jak i ROI mają główne efekty, jak również interakcję między pamięcią a ROI (Tabela 1). Dalsza analiza post-hoc wykazała, że we wszystkich obszarach mózgu stary stan wykazuje większe napięcie dodatnie niż stan wątpliwy, w tym w przednim, centralnym i tylnym regionie (Tabela 2). Porównanie wartości beta sugeruje, że stary/nowy efekt był bardziej wyraźny na elektrodach centralnych i tylnych niż na elektrodach przednich: dla połączonego zestawu danych - β przednia = 0,40, β centralna = 0,63 i tylna β = 0,60; dla pewnego zbioru danych - β przednia = 0,61, β centralna = 0,63 i tylna β = 0,76, a dla wątpliwego zbioru danych - β przednia = 0,44, β centralna = 0,87 i β tylna = 0,69. Udział elektrod centralnych i tylnych był najbardziej zauważalny w wątpliwym stanie prozodii.

Z formułą

lmer(Napięcie ~ Pamięć + (1|Temat))

potwierdziliśmy istnienie starych/nowych efektów w elektrodzie Z. Na elektrodzie Pz zaobserwowano główny efekt pamięci (stary kontra nowy) (F(1, 69341.99) = 120.46, p < 0,001, η²p = 0,002, β = 0,425, SE = 0,039, z-ratio = 10,98, p < 0,001). W stanie tylko pewności zaobserwowano główny efekt pamięci (stary kontra nowy) na elektrodzie Pz (F(1, 34318.32) = 5,04, p = 0,025, η²p = 0,0001, β = 0,125, SE = 0,056, z-ratio = 2,25, p = 0,025). W stanie tylko wątpliwym główny efekt pamięci (stary kontra nowy) zaobserwowano na elektrodzie Pz (F(1, 34993.20) = 317.02, p < 0,001, η²p = 0,009, β = 0,914, SE = 0,051, z-ratio = 17,81, p < 0,001).

figure-results-1
Rysunek 1: Przebieg zbierania danych dla każdego bloku. W (A) Treningu słuchacze słyszą głos i kojarzą z nim imię, które następnie jest mu przedstawione. Trzej starzy gaduły muszą zostać zapamiętani. Językiem, który pojawił się w programie, był pierwotnie chiński. Litery A i C reprezentują imiona takie jak Xiao (Junior) ZHANG. W (B) Sprawdzanie, słuchacze identyfikują imię mówcy po usłyszeniu głosu, naciskając 1, 2 lub 3 na klawiaturze numerycznej, aby skojarzyć tożsamość głosową z imionami takimi jak Xiao ZHAO. W (C) Testing, słuchacze słyszą głos i klasyfikują go jako wypowiedziany przez starego lub nowego mówcę. Jak pokazano w (D) Prosody Design, słuchacze uczą się, że trzech mówiących wyraża się tylko pewnie lub z powątpiewaniem, ale słysząc sześciu mówiących mówi zarówno pewnie, jak i z powątpiewaniem. Wygląd wersji A lub B wzajemnie się wyklucza. Jeśli wersja A pojawi się z głośnikiem męskim lub żeńskim, wersja B pojawi się z odpowiednim głośnikiem żeńskim lub męskim. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-2
Rysunek 2: Stary/nowy efekt. (A, B, C) Rysunki pokazują zaznaczone na szaro ERP elektrod Pz od 400 do 850 ms odpowiednio dla warunków kombinowanych prozodii, tylko pewności i tylko wątpliwości. (D, E, F) Rysunki ilustrują topografię starego minus nowego warunku we wszystkich elektrodach (przedstawionych jako czarne kropki) dla warunków połączonych prozodią, tylko pewnych i tylko wątpliwych. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

pkt. siebie pkt. pkt.
kontekstObszar mózguWartość FPr(>F)Eta2_partial
PołączonepamięćNumer katalogowy: 9938.980,000,00
RoiRozdział 4.130,02.13
Pamięć:ROI182,370,000,00
Pewnypamięć7291.220,000,00
RoiGodzina 3,600,03.12
Pamięć:ROI41,940,000,00
WątpliwepamięćNumer katalogowy: 8333.380,000,00
RoiGodzina 4,650,01.15
Pamięć:ROI290,150,000,00

Tabela 1: Wyniki analizy LMER dla starego/nowego efektu w różnych regionach mózgu: Połączone, pewne i wątpliwe zestawy danych. Korzystając z analizy post-hoc, * istotne przy p < 0,05, ** istotne przy p < 0,01, *** istotne przy p < 0,001.

pkt. pkt. siebie pkt. TGL TGL pkt.
kontekstObszar mózgukontrastoszacowanieSezp
Połączonewcześniejszystary-nowy.400,01Z godziny 43,70.00***
centralnystary-nowy.630,0161,74.00***
Tylnejstary-nowy0,600,0167,51.00***
Pewnywcześniejszystary-nowy.610,01Z numerem 46,63.00***
centralnystary-nowy.630,01Z dnia 43,22.00***
Tylnejstary-nowy.760,01Klasa 59,95.00***
Wątpliwewcześniejszystary-nowy.440,01Godzina 35,95.00***
centralnystary-nowy.870,0164.05.00***
Tylnejstary-nowy.690,0157,75.00***

Tabela 2: Wyniki testów post-hoc dla starych/nowych efektów w różnych regionach mózgu: Połączone, pewne i wątpliwe zestawy danych. Korzystając z analizy post-hoc, istotna przy p < 0,001 (***).

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W badaniu przedstawiono proces gromadzenia i analizy danych EEG, koncentrując się na rozpoznawaniu wcześniej poznanych tożsamości mówców. Badanie to dotyczy różnic między fazami uczenia się i rozpoznawania, w tym różnic w treści mowy22 i prozodii10. Projekt można dostosować do wielu dziedzin badawczych, w tym psycholingwistyki, takich jak przetwarzanie zaimków i anaforii41.

Paradygmat szkoleniowo-testowy jest klasycznym projektem eksperymentalnym wykorzystywanym do oceny efektów uczenia się uczestników w zakresie określonych tematów, takich jak uczenie się głosem42,43. Ten paradygmat ocenia, jak dobrze uczestnicy przyswoili sobie określone informacje (co znajduje odzwierciedlenie w dokładności)10. Pozwala to naukowcom na stopniowe wprowadzanie zmiennych w kontrolowanych warunkach eksperymentalnych, takich jak różne prozodie podczas faz trenowania i testowania, aby zrozumieć ich wpływ na dokładność rozpoznawania głosu, na przykład głosy modulowane VTL/F023, głosy lękliwe kontra neutralne10 lub wątpliwe kontra pewne siebie w tym badaniu.

Paradygmat ten ma jednak swoje ograniczenia. Różnice między środowiskiem uczenia się i testowania mogą wpływać na trafność wyników eksperymentalnych, ponieważ kontrolowane warunki uczenia się mogą nie odzwierciedlać bardziej zmiennych warunków testowania. Na przykład sesja treningowa wykorzystuje pojedynczą prozodię, a nie proporcjonalną różnicę, np. 30% kontra 70%44. Aby zaradzić tej nierównowadze, zapewnienie bardziej zróżnicowanego środowiska uczenia się może lepiej odwzorować rzeczywiste scenariusze, w których mówcy używają różnych prozodii podczas interakcji ze słuchaczami. Ponadto badanie to przyznaje, że złożoność projektu eksperymentalnego, obejmującego wiele etapów i wyrafinowane programowanie (przy użyciu narzędzi takich jak R Studio, MATLAB i Python), może być wyzwaniem dla nowicjuszy.

Podstawowe spostrzeżenie podkreśla znaczenie odpowiedniego zapoznania się i fazy kontroli. Praca Xu i Armony'ego podkreśla, że słuchacze mają trudności z identyfikacją tożsamości starych mówców bez odpowiedniego przeszkolenia i sprawdzenia powyżej10 poziomu szansy. Ponadto Zaske i in. stwierdzili, że efekt stary/nowy LPC był obecny tylko wtedy, gdy ten sam tekst był powtarzany, a nie z innym tekstem22. W tym badaniu wdrożenie fazy kontrolnej ujawniło utrzymywanie się starego/nowego efektu ERP, nawet przy różnych bodźcach tekstowych, co potwierdza twierdzenia badań fMRI21. Badanie sugeruje, że w przypadku paradygmatów opartych na testowaniu treningowym wprowadzenie sesji kontrolnej ma kluczowe znaczenie. Pozwala słuchaczom wyrobić sobie solidne wrażenie na temat tożsamości akustycznej mówcy, kojarząc mówcę z określonym symbolem, takim jak imię23. Bez wystarczającego poznania reprezentacji mówcy słuchacze mogą mieć trudności z dostosowaniem się do wariacji wewnątrz głośnika10.

W badaniu tym zaobserwowano również rolę prozodii jako wiążącej wskazówki do rozpoznawania mówcy45. W przeciwieństwie do wcześniejszych poglądów, że prozodia może utrudniać rozpoznawanie starych mówców, badanie to wykazało, że stary/nowy efekt jest obecny w pewnych i wątpliwych warunkach prozodii. Ten silny efekt sugeruje modulacyjną rolę prozodii w rozpoznawaniu mówcy. Dalsza analiza ujawniła różnice w aktywacji przedniego obszaru w różnych warunkach prozodii. Pewna prozodia wywoływała niższe poziomy starego/nowego efektu w obszarach przednich w porównaniu z prozodią wątpliwą. Odkrycie to sugeruje, że pewna siebie mowa może utrudniać identyfikację mówcy ze względu na wydłużoną długość traktu głosowego i obniżoną częstotliwość podstawową, co potencjalnie prowadzi do zwiększonej uwagi słuchaczy11,29.

Projekt tego badania może stanowić podstawę przyszłych badań nad zaburzeniami rozpoznawania w populacjach pacjentów, takich jak osoby z prozopagnozją lub fonagnozją 46,47. Ponadto modyfikacje mające na celu dostosowanie się do uczestników o krótszym czasie koncentracji, takich jak osoby z zaburzeniami ze spektrum autyzmu48, mogą zwiększyć dostępność badania.

Co więcej, paradygmat wykracza poza rozpoznawanie mówcy, aby badać przetwarzanie zaimków i rozumienie anaforyczne w ramach badań psycholingwistycznych. Coopmans i Nieuwland41 pokazują, w jaki sposób wzorce synchronizacji oscylacji neuronalnej rozróżniają aktywację poprzedzającą i integrację w rozumieniu anafory, co jest zgodne z badaniem wskazówek związanych z tożsamością. Wskazówki obejmują zarówno style komunikacyjne (np. wypowiedzi dosłowne lub ironiczne), szyk wyrazów (struktura zdania Podmiot-Przedmiot-Czasownik (SOV) lub Obiekt-Podmiot-Czasownik (OSV) 44,45,49,50) oraz typy ekspresji głosowej (prozodia pewna vs. wątpliwa) w tym artykule.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nie ma żadnych informacji do ujawnienia.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ta praca była wspierana przez Chińską Fundację Nauk Przyrodniczych (Grant nr 31971037); Program Shuguang wspierany przez Szanghajską Fundację Rozwoju Edukacji i Miejski Komitet Edukacji w Szanghaju (Grant nr 20SG31); Fundację Nauk Przyrodniczych w Szanghaju (22ZR1460200); Program Poradnictwa dla Opiekunów Naukowych Uniwersytetu Studiów Międzynarodowych w Szanghaju (2022113001); oraz Program Główny Narodowej Fundacji Nauk Społecznych Chin (Grant nr 18ZDA293).

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
64-kanałowy standardowy BrainCap dla BrainAmpEasycap GmbHSteingrabenstrasse 14 DE-82211https://shop.easycap.de/products/64ch-standard-braincap
Elektrolit-żel ściernyEasycap GmbHAbralyt 2000https://shop.easycap.de/products/abralyt-2000
actiCHamp PlusBrain Products GmbH64 kanały + 8 AUXhttps://www.brainproducts.com/solutions/actichamp/
Interfejs audioNative Instruments GmbHKomplete audio 6https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
piankowe wkładki douszneNeuronixER3-14 https://neuronix.ca/products/er3-14-foam-eartips
Żelowy system elektrod pasywnychBrain Products GmbHBC 01453https://www.brainproducts.com/solutions/braincap/
Żel elektrolitowy o wysokiej lepkości Easycap GmbHSuperVischttps://shop.easycap.de/products/supervisc

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722(2024).">Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722(2024).
  2. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).">Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).">Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).">Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).">Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).">Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).">Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).">Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404(2019).">Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404(2019).
  10. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).">Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).">Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).">Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).">Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).">Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).">Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).">Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).">White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483(2019).">Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483(2019).
  19. The Oxford Handbook of Voice Perception. Frühholz, S., Belin, P. , Oxford University Press. 515-538 (2018).">Perrachione, T. K. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. Frühholz, S., Belin, P. , Oxford University Press. 515-538 (2018).
  20. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).">Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).">Zäske, R., Hasan, B. aS., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).">Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).">Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , 10.20944/preprints202312.0807.v1 (2023).">Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , 10.20944/preprints202312.0807.v1 (2023).
  25. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401(2022).">Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401(2022).
  26. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).">Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. https://www.fon.hum.uva.nl/praat/ (2022).">Boersma, P., Weenink, D. Praat: doing phonetics by computer. , Available from: https://www.fon.hum.uva.nl/praat/ (2022).
  28. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).">Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).">Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740(2012).">Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740(2012).
  31. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).">Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. https://osf.io/6zu83/ (2024).">Chen, W., Jiang, X. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis. , Available from: https://osf.io/6zu83/ (2024).
  33. https://www.brainproducts.com/downloads/recorder/ (2024).">Gmbh, B. P. Brainvision recorder. , Available from: https://www.brainproducts.com/downloads/recorder/ (2024).
  34. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597(2015).">Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597(2015).
  35. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412(2016).">Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412(2016).
  36. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).">Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).">Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).">Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).">Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
  40. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).">Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).">Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).">Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).">Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581(2017).">Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581(2017).
  45. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).">Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).">Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).">Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).">Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).">Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).">Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Vocal Identity RecognitionExpressive SpeechEvent Related PotentialsEEG AnalysisSpeaker RecognitionMemorization TrainingLate Positive ComponentSpeech ProsodyFamiliar Speaker RecognitionBrain Topography

Related Articles