Method Article

Gedächtnisbasiertes Trainings- und Testparadigma für eine robuste stimmliche Identitätserkennung in expressiver Sprache unter Verwendung der ereigniskorrelierten Potentialanalyse

DOI:

10.3791/66913

August 9th, 2024

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Studie führt ein Trainings-Test-Paradigma ein, um alte/neue Effekte ereigniskorrelierter Potentiale in zuversichtlichen und zweifelhaften prosodischen Szenarien zu untersuchen. Die Daten zeigen eine erhöhte späte positive Komponente zwischen 400 und 850 ms an Pz und anderen Elektroden. Diese Pipeline kann Faktoren untersuchen, die über die Sprachprosodie hinausgehen, und ihren Einfluss auf die Identifizierung von Zielmolekülen bei der Signalbindung.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Das Erkennen vertrauter Sprecher anhand von Stimmströmen ist ein grundlegender Aspekt der menschlichen verbalen Kommunikation. Unklar bleibt allerdings, wie Zuhörer die Identität des Sprechers in ausdrucksstarker Sprache noch erkennen können. In dieser Studie wird ein auf dem Auswendiglernen basierender Ansatz zur Erkennung der Identität einzelner Sprecher und eine begleitende Elektroenzephalogramm (EEG)-Datenanalysepipeline entwickelt, die überwacht, wie Zuhörer vertraute Sprecher erkennen und unbekannte Sprecher auseinanderhalten. EEG-Daten erfassen kognitive Online-Prozesse bei der Unterscheidung zwischen neuen und alten Sprechern auf der Grundlage der Stimme und bieten eine Echtzeitmessung der Gehirnaktivität, die Überwindung von Grenzen der Reaktionszeiten und Genauigkeitsmessungen. Das Paradigma umfasst drei Schritte: Die Zuhörer stellen Assoziationen zwischen drei Stimmen und ihren Namen her (Training); Die Zuhörer geben den Namen an, der einer Stimme von drei Kandidaten entspricht (Prüfen); Die Zuhörer unterscheiden zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe (Testing). Die Sprachprosodie im Test war entweder zuversichtlich oder zweifelhaft. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System gesammelt, anschließend vorverarbeitet und in RStudio für ERP und statistische Analysen und MATLAB für die Hirntopographie importiert. Die Ergebnisse zeigten, dass eine vergrößerte späte positive Komponente (LPC) im Old-Talker im Vergleich zum New-Talker-Zustand im 400-850-ms-Fenster im Pz und anderen breiteren Elektrodenbereichen in beiden Prosodien hervorgerufen wurde. Der alte/neue Effekt war jedoch in den zentralen und hinteren Elektroden robust für eine zweifelhafte Prosodiewahrnehmung, während die vorderen, zentralen und hinteren Elektroden für einen sicheren Prosodiezustand stehen. Diese Studie schlägt vor, dass dieses Versuchsdesign als Referenz für die Untersuchung sprecherspezifischer Signalbindungseffekte in verschiedenen Szenarien (z.B. anaphorische Expression) und Pathologien bei Patienten wie Phonagnosie dienen kann.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Menschliche Stimmströme sind reich an Informationen, wie z. B. Emotion 1,2, Gesundheitszustand 3,4, biologisches Geschlecht5, Alter6 und, was noch wichtiger ist, die individuelle stimmliche Identität 7,8. Studien haben gezeigt, dass menschliche Zuhörer über eine robuste Fähigkeit verfügen, die Identitäten ihrer Altersgenossen anhand von Stimmen zu erkennen und zu unterscheiden, wodurch Schwankungen innerhalb des Sprechers in Bezug auf die durchschnittlich basierte Repräsentation der Sprecheridentität im akustischen Raum überwundenwerden 9. Solche Variationen werden durch akustische Manipulation (Grundfrequenz und Länge des Vokaltrakts, d.h. F0 und VTL) hervorgerufen, die keinen klaren pragmatischen Absichten entspricht9, Emotionsprosodien10 und stimmliches Selbstvertrauen, das das Gefühl des Wissens der Sprecher vermittelt11. Verhaltensexperimente haben sich auf viele Faktoren konzentriert, die die Leistung der Zuhörer beim Erkennen der Sprechenden beeinflussen, einschließlich sprachbezogener Manipulationen 8,12,13, teilnehmerbezogener Merkmale wie Musikerfahrung oder Lesefähigkeit14,15 und reizbezogener Anpassungen wie Rückwärtssprechen oder Nichtwörter16,17; Mehr dazu finden Sie in den Literaturübersichten18,19. In einigen neueren Experimenten wurde untersucht, wie individuelle Variationen der Repräsentation der Sprecheridentität die Erkennungsgenauigkeit untergraben können, wobei Aspekte wie hohe und niedrige emotionale Ausdrucksfähigkeit16 und neutrale versus ängstliche Prosodien5 berücksichtigt wurden. Weitere mögliche Szenarien können weiter untersucht werden, wie in einem Berichtvorgeschlagen wird 20.

Für die erste Forschungslücke schlägt die Studie vor, dass die neurologischen Grundlagen der Sprecheridentifikation noch nicht vollständig erforscht sind, wie die Variation innerhalb des Sprechers die Gehirnaktivitäten der Zuhörer herausfordert. In einer fMRT-basierten Sprechererkennungsaufgabe von Zäske et al. zeigten beispielsweise der rechte hintere Gyrus temporalis (pSTG), der rechte untere/mittlere frontale Gyrus (IFG/MFG), der rechte mediale frontale Gyrus und der linke Caudatus eine verminderte Aktivierung, wenn sie korrekt als alte oder neue Sprechende identifiziert wurden, unabhängig davon, ob der sprachliche Inhalt gleich oder unterschiedlich war21. Eine frühere Elektroenzephalographie (EEG)-Studie von Zäske et al. beobachtete diesen alten/neuen Effekt jedoch nicht, wenn die Variation der Sprecheridentität durch verschiedene Texte eingeführt wurde22. Insbesondere fehlte eine größere, späte positive Komponente (LPC) im Bereich von 300 bis 700 ms, die an der Pz-Elektrode nachgewiesen wurde, wenn Zuhörer auf ihren vertrauten trainierten Sprecher trafen, der denselben Text ausdrückte (d. h. eine Wiederholung mit nicht verändertem sprachlichem Inhalt hörte), wenn die Sprecher neue Texte lieferten.

Zur Untermauerung der Behauptung von Zäske et al.21 vermutet diese Studie, dass trotz unterschiedlicher sprachlicher Inhalte zwischen Trainings- und Testsitzungen in ereigniskorrelierten Potenzialanalysen (ERP) immer noch ein alter/neuer Effekt beobachtet werden kann. Diese Begründung beruht auf der Vorstellung, dass das Fehlen des alten/neuen Effekts in Zäske et al.22 unter Bedingungen, unter denen unterschiedliche Texte verwendet wurden, auf das Fehlen einer zusätzlichen Kontrollsitzung während der Trainingsaufgabe zurückzuführen sein könnte, um ein gründliches und effektives Identitätslernen zu gewährleisten, wie von Lavan et al.23 vorgeschlagen. Folglich besteht das erste Ziel der Studie darin, diese Hypothese zu überprüfen und zu validieren. Diese Studie zielt darauf ab, dies zu testen, indem sie dem Trainings-Test-Paradigma22 eine Überprüfungssitzung hinzufügt.

Eine weitere Schlüsselfrage, die in dieser Studie beantwortet werden soll, ist die Robustheit der Sprecheridentifikation in Gegenwart von Sprachprosodie. Frühere Verhaltensstudien haben gezeigt, dass Zuhörer besonders Schwierigkeiten haben, Sprecher über verschiedene Prosodien hinweg zu erkennen, was auf eine modulatorische Rolle des prosodischen Kontexts hinweist - Zuhörer schnitten in den verschiedenen Trainingstest-Prosodiebedingungen unterdurchschnittlich ab. Diese Studie zielt darauf ab, dies zu testen, indem Zuhörer dazu gebracht werden, vertraute Sprecher entweder in selbstbewussten oder zweifelnden Prosodien zu erkennen24. Diese Studie geht davon aus, dass die beobachteten ERP-Unterschiede dazu beitragen werden, zu erklären, wie die Sprachprosodie die Identitätserkennung beeinflusst.

Das Kernziel der vorliegenden Studie ist es, die Robustheit des alten/neuen Effekts bei der Sprechererkennung zu untersuchen, insbesondere zu untersuchen, ob es Unterschiede beim Erkennen von Sprechern in selbstbewussten und zweifelhaften Prosodien gibt. Xu und Armony10 führten eine Verhaltensstudie mit einem Trainings-Test-Paradigma durch, und ihre Ergebnisse deuten darauf hin, dass Zuhörer prosodische Unterschiede nicht überwinden können (z. B. trainiert, einen Sprecher in neutraler Prosodie zu erkennen und getestet auf ängstlicher Prosodie) und nur eine Genauigkeit unterhalb des Zufallsniveaus10 erreichen können. Die akustische Analyse zeigt, dass Lautsprecher, die unterschiedliche emotionale Zustände ausdrücken, mit der VTL/F0-Modulation verbunden sind. Zum Beispiel ist die zuversichtliche Prosodie durch eine verlängerte VTL und ein niedrigeres F0 gekennzeichnet, während das Gegenteil für die zweifelhafte Prosodie11,24 der Fall ist. Ein weiterer Beweis stammt aus der Studie von Lavan et al.23, die bestätigte, dass Zuhörer sich an VTL- und F0-Veränderungen des Sprechers anpassen und durchschnittliche Repräsentationen der Sprechenden bilden können. Diese Studie kommt zu dem Schluss, dass Zuhörer aus der Perspektive der Verhaltensdaten wahrscheinlich immer noch die Identität des Sprechenden über Prosodien hinweg erkennen (z. B. trainiert, eine Person in einer selbstbewussten Prosodie zu erkennen, aber in einer zweifelhaften Prosodie getestet; berichtet in einem separaten Manuskript zur Vorbereitung). Die neuronalen Korrelate der Sprecheridentifikation, insbesondere die von Zäske et al.22 beobachtete Generalisierbarkeit des alten/neuen Effekts, bleiben jedoch unklar. Daher ist die vorliegende Studie darauf ausgerichtet, die Robustheit des alten/neuen Effekts in zuversichtlichen versus zweifelhaften Prosodien als Kontext für die Prüfung zu validieren.

Die Studie stellt eine Abkehr von bisherigen Forschungsparadigmen in alten/neuen Wirkungsstudien dar. Während sich frühere Forschungen darauf konzentrierten, wie die Erkennung alter/neuer Sprecher die Wahrnehmung beeinflusst, erweitert diese Studie dies, indem sie zwei Konfidenzniveaus (zuversichtlich und zweifelhaft) in das Paradigma einbezieht (daher eine 2+2-Studie). Dies ermöglicht es uns, die Sprechererkennung im Kontext von selbstbewussten und zweifelhaften Sprechprosodien zu untersuchen. Das Paradigma ermöglicht die Erforschung der Robustheit alter/neuer Effekte. Die Analysen von Gedächtniseffekten und Regions of Interest (ROI) sowohl in selbstbewussten als auch in zweifelhaften Sprachkontexten dienen als Evidenz für diese Untersuchung.

Insgesamt zielt die Studie darauf ab, das Verständnis der EEG-Korrelate der Spracherkennung zu aktualisieren, mit der Hypothese, dass der vergrößerte LPC des EEG-Effekts alt/neu auch dann beobachtbar ist, wenn 1) der sprachliche Inhalt nicht derselbe ist und 2) eine sichere versus zweifelhafte Prosodie vorhanden ist. In dieser Studie wurden die Hypothesen anhand eines dreistufigen Paradigmas untersucht. Zunächst stellten die Teilnehmer während der Trainingsphase Assoziationen zwischen drei Stimmen und den entsprechenden Namen her. Anschließend wurden sie in der Prüfphase damit beauftragt, aus einer Auswahl von drei Kandidaten den Namen zu identifizieren, der einer Stimme entspricht. Diese Überprüfung, in Anlehnung an Lavan et al.23, zielt darauf ab, eine unzureichende Vertrautheit mit alten Sprechern zu überwinden, die zu dem unbeobachteten alten/neuen Effekt führte, wenn sich der Text in der Trainings- und Testphase unterschied6 und die Sprecher Sprecher über neutrale und ängstliche Prosodien hinweg nicht erkennen konnten10. In der Testphase schließlich unterschieden die Teilnehmer zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe, wobei die Sprechprosodie entweder als zuversichtlich oder zweifelhaft dargestellt wurde. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System erhoben und vor der Analyse vorverarbeitet. Statistische Analysen und ereigniskorrelierte Potenzialanalysen (ERP) wurden in RStudio durchgeführt, während MATLAB für die Analyse der Hirntopographie verwendet wurde.

In Bezug auf Designdetails schlägt diese Studie ein Lernexperiment zur Sprecheridentität vor, das die Körpergröße des Sprechers kontrolliert, die mit VTL zusammenhängt und die Eindrücke davon beeinflusst, wer spricht23. Dieser Aspekt beeinflusst auch soziale Eindrücke, wie z. B. wahrgenommene Dominanz25, und eine solche Eindrucksbildung auf höherer Ebene könnte mit der Dekodierung der Sprecheridentitätinteragieren 26.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Ethikkommission des Institute of Linguistics der Shanghai International Studies University hat das unten beschriebene Versuchsdesign genehmigt. Für diese Studie wurde von allen Teilnehmern eine Einverständniserklärung eingeholt.

1. Vorbereitung und Validierung der Audiobibliothek

  1. Audioaufnahme und -bearbeitung
    1. Erstellen Sie eine chinesische Gesangsdatenbank nach dem Standardverfahren, bei dem eine frühere englische Version erstellt wird, und nehmen Sie bei Bedarf Anpassungen vor, um sie in den Kontext von China11 zu integrieren. Für das Experiment hier wurden 123 Sätze verwendet, die drei Arten von pragmatischen Absichten enthalten, nämlich Urteil, Absicht und Tatsache. Beziehen Sie sich dazu auf ein vorhandenes englisches Anweisungskorpus11 und erstellen Sie eine lokalisierte chinesische Version mit zusätzlichen lokalisierten Szenarien.
    2. Rekrutieren Sie 24 Sprecher (12 Frauen), um diese Sätze in neutralen, zweifelnden und selbstbewussten Prosodien auszudrücken, während Sie sich auf bestimmte Anweisungen früherer Aufzeichnungsaufgaben beziehen und diese anpassen11,24.
      1. Für die Referenten hier gewinnen Sie 24 Standard-Mandarin-Sprecher der Shanghai International Studies University, 12 Frauen und 12 Männer, die ihre Mandarin-Kenntnisse durch Punktzahlen von 87 bis 91 im Putonghua Proficiency Test nachgewiesen haben. Die männlichen Teilnehmer waren durchschnittlich 24,55 ± 2,09 Jahre alt, mit 18,55 ± 1,79 Jahren Bildung und einer durchschnittlichen Körpergröße von 174,02 ± 20,64 cm. Frauen waren durchschnittlich 22,30 ± 2,54 Jahre alt, mit 18,20 ± 2,59 Jahren Bildung und einer durchschnittlichen Körpergröße von 165,24 ± 11,42 cm. Keiner berichtete über Sprach- und Hörstörungen oder neurologische oder psychiatrische Störungen.
    3. Bitten Sie die Sprecher, jeden Text zweimal zu wiederholen. Stellen Sie die Abtastrate in der Software Praat27 auf 48.000 Hz ein. Stellen Sie sicher, dass kein Stream länger als 10 Minuten ist, da Praat zusammenbrechen und zu Aufnahmeverlusten führen kann.
    4. Bearbeiten Sie den langen Audiostream mit Praat in Clips pro Satz. Da es zwei Wiederholungen desselben Textes gibt, wählen Sie die Version, die die beabsichtigte Prosodie am besten darstellt, als Zielsatz aus.
  2. Audio-Auswahl
    1. Normalisieren Sie die Audiobibliothek auf 70 dB und die Abtastrate auf 41.000 Hz mit Praat script28. Öffnen Sie dazu Praat, laden Sie die Sounddateien und wählen Sie sie im Objektfenster aus. Gehen Sie zum Menü Ändern, wählen Sie Intensität skalieren..., setzen Sie die neue durchschnittliche Intensität (dB SPL) auf 70 im Einstellungsfenster und klicken Sie auf OK , um die Normalisierung anzuwenden.
    2. Rekrutieren Sie 48 unabhängige Zuhörer, um jedes Audio auf einer 7-Likert-Skala über das Konfidenzniveau zu bewerten: 1 für überhaupt nicht und 7 für sehr zuversichtlich11. Stellen Sie sicher, dass jeder Satz von 12 Bewertern bewertet wurde.
    3. Wählen Sie die Audiodaten aus, die den festgelegten Schwellenwerten entsprechen, wobei ein Hauptprinzip gilt: Stellen Sie sicher, dass die durchschnittliche Bewertung für Audio mit zuversichtlichen Absichten höher ist als für Audio mit zweifelhafter Absicht. Stellen Sie sicher, dass diese Schwellenwerte für 12 Sprecher desselben biologischen Geschlechts konsistent sind. Wenn diese Sprecher zum Beispiel zwei Sätze mit jeweils selbstbewussten und zweifelnden Prosodien äußerten, müssen signifikante Unterschiede in den Bewertungen beobachtet werden.
    4. Verwenden Sie für den aktuellen Versuchsplan vier Audioblöcke mit insgesamt 480 Audioclips, wobei jeder Block 120 Audioclips enthält.
      1. Teilen Sie 24 Sprecher in vier Sechsergruppen auf, mit zwei Gruppen von Männern und zwei Gruppen von Frauen, wobei jede Gruppe aus Sprechern des gleichen biologischen Geschlechts besteht.
      2. Wählen Sie für jede Gruppe Audioclips basierend auf Wahrnehmungsbewertungen (für denselben Text) aus und stellen Sie sicher, dass die durchschnittlichen Konfidenzbewertungen höher waren als die zweifelhaften Bewertungen für jeden Satz. Diese vier Blöcke unterscheiden sich in folgender Weise: 1) die sechs Sprecher zusammen - ihre Identitäten sind unterschiedlich; 2) Die Hälfte der Blöcke wird von Männchen und die andere Hälfte von Weibchen exprimiert; und 3) der Text, der in jedem Block ausgedrückt wird, ist unterschiedlich.
    5. Bevor der Auswahlprozess beginnt, dokumentieren Sie die Höhendaten für jeden Lautsprecher. Verwenden Sie diese Informationen, um die Sprecher basierend auf Geschlecht und Größe in vier unabhängige Gruppen einzuteilen.
      1. Es gibt insgesamt 24 Sprecher, die sich zu gleichen Teilen auf Männer und Frauen verteilen. Sortieren Sie innerhalb jeder Geschlechtsgruppe die 12 Personen nach Körpergröße.
    6. Teilen Sie diese 12 Individuen abwechselnd in zwei Gruppen auf; Aus einer sortierten Liste von 1 bis 12 würden z. B. die Individuen 1, 3, 5, 7, 9 und 11 eine Gruppe bilden, und die andere Hälfte würde die zweite Gruppe bilden. Wählen Sie innerhalb dieser Gruppen die Lautsprecher für die Audioclips in regelmäßigen Abständen basierend auf ihrer Höhe aus.
      HINWEIS: Die Einbeziehung der Körpergröße als Kontrollfaktor basiert auf Befunden, die darauf hindeuten, dass akustische Messungen der Sprecherhöhe (VTL und F0) die Identitätserkennung von Sprechern und Sprechern beeinflussen23.

2. Programmierung für die EEG-Datenerfassung

  1. Entwerfen der Experimentmatrix
    1. Die Studie verwendet ein Within-Subject-Design. Bereiten Sie eine Testsitzung vor, die für jedes Fach entsprechend präsentiert wird, während Sie die Schulungssitzung anpassen. Bereiten Sie vier Blöcke vor, wobei männliche und weibliche Sprecher jeweils die Hälfte von zwei Blöcken einnehmen. Weisen Sie zwei Blöcke zu, in denen Sie in sicherer Prosodie geschult und sowohl an zuversichtlichen als auch an zweifelhaften Prosodie getestet werden, sowie für die Ausbildung in zweifelhafter Prosodie und für die Prüfung sowohl an zuversichtlichen als auch an zweifelhaften, wie in Abbildung 1 vorgeschlagen.
    2. Bestimmen Sie die Dauer der funktionierenden Bildschirme unter Bezugnahme auf bestehende EEG-Studien zur Sprecheridentifikation und zur Wahrnehmung des stimmlichen Vertrauens22,29. Organisieren Sie die Reihenfolge der vier Blöcke mit einer lateinischen quadratischen Matrix zwischen den Teilnehmern30,31. Um eine solche Liste zu erstellen, wird benutzerdefinierte Python-Codierung empfohlen. Siehe das Code-Snippet für die Matrix des lateinischen Quadrats und die Testliste für das PsychoPy-Programm auf OSF32.
    3. Wählen Sie in jedem Intervall Sprecher aus einer Höhensequenz desselben biologischen Geschlechts aus. Wählen Sie für jeden Block sechs Sprecher aus den ursprünglichen 24 Sprechern aus, die entsprechend der von den Sprechern angegebenen Körpergröße in vier Listen gruppiert werden.
    4. Wählen Sie die ersten 24 Namen in Chinas Hundert Familiennamen aus. Weisen Sie die Nachnamen nach dem Zufallsprinzip den 24 Sprechern zu, die das Audio ausgedrückt haben, indem Sie sie wie Xiao (Junior auf Chinesisch) ZHAO ansprechen.
    5. Stellen Sie alle relevanten Informationen in einer Tabelle mit Spalten für Sprecher (1 bis 24), biologisches Geschlecht (männlich oder weiblich), Personenname (aus den 24 Nachnamen), Vertrauensgrad (zuversichtlich oder zweifelhaft), Item (Textindex), bewerteter Konfidenzgrad (gemittelte Punktzahl aus der Wahrnehmungsstudie), Klang (z. B. Klang/1_h_c_f_56.wav),
    6. Erkennen Sie eine von drei (1, 2 oder 3) korrekt und erkennen Sie Alt und Neu (alt oder neu) richtig. Stellen Sie außerdem sicher, dass Spalten mit den Namen training_a, training_b, training_c, check und test hinzugefügt wurden.
    7. Fügen Sie die Spalten training_a_marker, training_b_marker, check_marker und testing_marker zu den Tabellenkalkulationen hinzu, um EEG-Marker zu senden. Formatieren Sie diese Marker mit drei Ziffern, d.h. selbst die Zahl 1 wird als 001 geschrieben.
  2. Aufbau der drei Sitzungen
    HINWEIS: PsychoPy wird empfohlen, um das Programm zu erstellen, hauptsächlich durch die Verwendung des Builder-Modus. Die Code-Komponente im Builder wird zusätzlich verwendet, um das Programm mit dem EEG-Datenerfassungssystem zu verbinden, die Tasten F und J auszugleichen und die Genauigkeit zu berechnen, die auf dem Bildschirm gemeldet werden soll.
    1. Klicken Sie vor allem auf das Symbol "Experimentiereinstellungen bearbeiten " und passen Sie die Zelle "Experimentinformationen" in zwei Felder an, nämlich "Teilnehmer" und "Block". Lassen Sie die Standardeinstellung für beide leer. In dieser Studie durchliefen von den 40 Teilnehmern, die jeweils vier Blöcke hatten, 4/40 Teilnehmer bestimmte Blöcke erneut (wenn die Genauigkeit in der Check-Sitzung niedriger als 10/12 ist), mit einer Wiederholungsrate von 19 Wiederholungszahlen/4 Blöcken x 40 Teilnehmern = 11,875%.
    2. Training: Dreimal wiederholtes Identitätslernen
      1. Definieren Sie eine Schleife mit dem Namen Training_A, die drei Bildschirme enthält: Fixierung, Präsentation und Leerzeichen. Aktivieren Sie die Option Is Trials . Behalten Sie die Anzahl der Wiederholungen 1 bei, und lassen Sie die Felder "Ausgewählte Zeilen" und "Zufälliger Startwert" leer. Schreiben Sie die Bedingung wie folgt:
        "$"trials/{:}_training_a.xlsx".format(expInfor["Teilnehmer"]), expInfo["Block"])
        Dabei ist trials/ der Name des Ordners; Teilnehmer ist der Index des Teilnehmers; Block ist die Sequenz von Blöcken des aktuellen Blocks.
      2. Fügen Sie im Fixierungsbildschirm eine Textkomponente hinzu, bei der die Startzeit auf 0 und die Dauer auf 2 (s) festgelegt ist und ein +-Zeichen in das Texteingabefenster eingefügt wird, das die Option Jede Wiederholung festlegen auswählt. Fügen Sie auf ähnliche Weise eine ähnliche Textkomponente ohne Informationen in der Zelle Text in den leeren Bildschirm ein, und sie dauert 0,5 Sekunden.
      3. Führen Sie im Bildschirm Präsentation die folgenden Aktionen aus:
        1. Fügen Sie eine Sound-Komponente hinzu, bei der die Startzeit auf 0 festgelegt ist, die Stoppdauer leer gelassen wird und die Soundzelleneingabe $Sound ist, und wählen Sie Jede Wiederholung festlegen aus. Aktivieren Sie den Bildschirm Start mit synchronisieren.
        2. Fügen Sie eine weitere Textkomponente hinzu, wobei die Zelle Startbedingung mit Cross_for_Training_A.status == FINISHED eingegeben wird. Lassen Sie die Zelle Stoppdauer leer. In der Textzelle wird $Name angezeigt. Wählen Sie Jede Wiederholung festlegen aus.
        3. Fügen Sie eine Key_Response_Training_A hinzu, in der die Startbedingung Training_A.status == FINISHED ist. Lassen Sie die Zelle Stoppdauer leer. Kreuzen Sie das Kontrollkästchen Ende der Routine erzwingen an. Fügen Sie für die Zelle Zulässige Schlüssel Leerzeichen hinzu. Wählen Sie für die Einstellung die Option Konstante aus.
        4. Fügen Sie einen Cross_for_Training_A hinzu. Die Startzeit ist auf 0 festgelegt. Die Zelle Stoppbedingung ist auf Training_A.status == FINISHED festgelegt. Fügen Sie ein +-Zeichen in das Texteingabefenster ein, und wählen Sie Jede Wiederholung festlegen aus.
      4. Bereiten Sie Training_B vor, indem Sie ein ähnliches Verfahren wie Training_A befolgen.
    3. Sitzung überprüfen: Wählen Sie die Namen der drei Teilnehmer aus, die sprechen.
      1. Definieren Sie eine Schleife mit dem Namen Check, mit dem gleichen Fixations- und Leerbildschirm wie die Trainingssitzung.
      2. Verwenden Sie eine andere Darstellung als das Training, indem Sie eine Funktion hinzufügen, um die Reaktion von der Tastatur zu erfassen. Führen Sie im Bildschirm Präsentation die folgende Aktion aus.
        1. Fügen Sie eine Sound-Komponente hinzu, nennen Sie sie Checking_audio, wobei die Startzeit auf 0 festgelegt ist, und lassen Sie die Zelle Stoppdauer leer. Stellen Sie die Klangzelle auf $Sound ein, wobei die Option "Jede Wiederholung einstellen" aktiviert ist.
        2. Fügen Sie eine Textkomponente mit dem Namen Show_names hinzu, wobei die Startbedingung mit einem Befehl geschrieben wurde:
          Checking_audio.status == ABGESCHLOSSEN
          und lassen Sie das Feld Stoppdauer leer. Legen Sie die Textzelle auf People_Name $ fest, wobei die Option "Jede Wiederholung festlegen" aktiviert ist.
        3. Fügen Sie eine Tastaturkomponente hinzu, und benennen Sie sie Key_Response_Check, wobei die Startbedingung Checking_audio.status == FINISHED lautet, und lassen Sie Stoppdauer leer. Wählen Sie Ende der Routine erzwingen mit den Tasten Erlaubte num_1, num_2 und num_3 verbleibende Konstante aus, damit die Teilnehmer den Ziffernblock verwenden konnten, um ihre Auswahl zu indizieren.
        4. Fügen Sie eine Fixierung mit dem Namen Cross_Check hinzu, wobei die Startzeit 0 ist und die Stoppbedingung mit Checking_audio.status == FINISHED eingegeben wird. Fügen Sie der Zelle Text ein + hinzu, in der die Option Jede Wiederholung festlegen ausgewählt wird.
      3. Fügen Sie eine Codekomponente ein. Initialisieren Sie im Abschnitt Experiment starten total_trials, current_correct, current_incorrect und current_accuracy mit 0. Definieren Sie in der Begin-Routine user_input als Keine. Erfassen Sie im Abschnitt "Jeder Frame" die Eingaben des Benutzers über die Tastatur und vergleichen Sie die korrekte Antwort, die in der Tabellenkalkulationsdatei gespeichert ist, mit dem Tastencode user_key = Key_Response_Check.keys, um 1, 2 oder 3 zu extrahieren. Verwenden Sie es dann, um gegen die gespeicherten 1, 2 oder 3 in einer Spalte mit dem Namen Correctly_recognize_one_out_of_three zu messen.
      4. Sobald Sie die Schleife verlassen haben, stellen Sie sicher, dass ein Feedback-Bildschirm mit der folgenden Meldung angezeigt wird: check_feedbacks.text = f" Der zweite Schritt ist abgeschlossen.\nSie haben den Sprecher in insgesamt {total_trials} Sätzen identifiziert,\n{current_correct} Sprecher richtig erkannt,\n{current_incorrect} Sprecher falsch beurteilt.\nIhre Gesamtgenauigkeitsrate beträgt {current_accuracy}%.\n\nWenn sie unter 83,33 % liegt, Bitte signalisieren Sie dem Experimentator,\nSie machen sich wieder mit den drei oben genannten Lautsprechern vertraut.\n\nWenn Sie die Anforderungen erfüllen, drücken Sie bitte die Leertaste, um fortzufahren.
    4. Testsitzung: Klassifizierung des alten und neuen Sprechers
      1. Definieren Sie eine Schleife mit dem Namen Testing. Es enthält Fixierung und Leerzeichen (wie in der Schulungssitzung) und einen Präsentationsbildschirm.
      2. Bereiten Sie den Abschnitt "Präsentation" wie folgt vor.
        1. Fügen Sie eine Soundwiedergabekomponente (Testing_sound) hinzu, deren Einstellungen mit denen in der Schulungssitzung identisch sind. Fügen Sie eine Key_response_old_new-Komponente hinzu, die die Startbedingung Testing_sound.status == FINISHED hat, lassen Sie die Stoppdauer leer und aktivieren Sie Ende der Routine erzwingen. Fügen Sie in den zulässigen Tasten f und j ein, und wählen Sie Konstante aus.
      3. Fügen Sie eine Text-Komponente mit dem Namen Testing_old_new hinzu, wobei die Startbedingung Testing_sound.status == FINISHED ist, lassen Sie Stoppdauer leer, und lassen Sie die Textzelle leer mit Set Every Repeat – der Text wird durch eine spätere Codekomponente definiert.
      4. Fügen Sie eine Cross_Testing hinzu, wobei Startzeit 0, Stoppbedingung Testing_sound.status == FINISHED und ein + in der Textzelle ist, während Jede Wiederholung festlegen aktiviert ist.
      5. Fügen Sie eine Codekomponente hinzu, wie unten beschrieben.
        1. Initialisieren Sie im Abschnitt Experiment starten die Gesamtzahl der Versuche (total_trials_t), die Anzahl der richtigen Versuche (correct_trials_t) und die Anzahl der falschen Versuche (incorrect_trials_t).
        2. Beginnen Sie im Abschnitt Routine starten mit einer bedingten Prüfung, um das Präsentationsformat basierend auf der ID-Nummer des Teilnehmers zu bestimmen (expInfo["Teilnehmer"]). Wenn die ID-Nummer ungerade ist, stellen Sie sicher, dass die Anweisungen zur Identifizierung alter und neuer Stimuli in einem Format dargestellt werden, entweder ("Alt(F) Neu (J)") oder ("Neu (F) 'Alt (J)").
        3. Außerhalb dieser Schleife befindet sich ein Feedback-Bildschirm mit einer Code-Komponente. Stellen Sie sicher, dass jeder Frame-Abschnitt wie folgt lautet: testing_feedbacks.text = f"Sie haben den Sprecher in insgesamt {total_trials_t} Sätzen identifiziert,\n{correct_trials_t} Sprecher korrekt erkannt,\n{incorrect_trials_t} Sprecher falsch beurteilt.\nIhre Gesamtgenauigkeit beträgt {accuracy_t:.2f}%.\nBitte drücken Sie die Leertaste, um diesen aktuellen Teil zu beenden.
    5. Verbinden Sie das Programm mit dem Brain Products-System, wie unten beschrieben.
      1. Synchronisieren Sie den Marker, indem Sie einen Marker als Beginn jedes Audiomaterials festlegen. Definieren Sie vor dem Anfang der Schleife Training_A ein EEG-Marker-Sendeprotokoll in der Codekomponente Begin Experiment, wie unten beschrieben.
        1. Importieren Sie wichtige PsychoPy-Komponenten, einschließlich des parallelen Moduls, und konfigurieren Sie die Adresse des parallelen Ports mit 0x3EFC.
        2. Richten Sie eine sendTrigger-Funktion ein, um EEG-Marker zu übertragen. Diese Funktion sendet einen angegebenen triggerCode über den parallelen Port mit parallel.setData(triggerCode), nachdem überprüft wurde, ob es sich um eine NumPy-Ganzzahl handelt, und sie nach Bedarf konvertiert hat.
        3. Fügen Sie eine kurze Wartezeit von 16 ms hinzu, um die Markererfassung sicherzustellen, bevor Sie den Triggerkanal mit parallel.setData(0) auf 0 zurücksetzen.
      2. Um den Marker an den EEG-Rekorder zu senden, wird sendTrigger() verwendet. Fügen Sie den genauen Namen der entsprechenden Spalte in eckige Klammern ein. In dieser Studie gibt es training_a_marker, training_b_marker, check_marker und testing_marker - beziehen Sie sich auf die Spalte, die zuvor in der Tabelle definiert wurde.

3. Erhebung von EEG-Daten

  1. Vorbereitung des Veranstaltungsortes
    HINWEIS: Es stehen mindestens zwei Computer zur Verfügung, um die Datenerfassung durchzuführen. Eine besteht darin, sich mit dem EEG-System zu verbinden, und die andere besteht darin, Verhaltensdaten zu sammeln. Es wird empfohlen, einen weiteren Bildschirm zu erstellen, um den verhaltensdatenbezogenen Computer zu spiegeln. Das System besteht aus einem Verstärker und passiven EEG-Kappen.
    1. Rekrutieren Sie für diese Studie Teilnehmer ohne gemeldete Sprach-Hör-Beeinträchtigung. Stellen Sie sicher, dass die Teilnehmer keine psychiatrischen oder neurologischen Störungen haben. Insgesamt wurden 43 Teilnehmer ausgewählt, von denen drei aufgrund von Ausrichtungsproblemen mit den EEG-Markern ausgeschlossen wurden. Von den restlichen 40 nahmen 20 Frauen und 20 Männer teil. Frauen waren 20,70 ± 0,37 Jahre alt, während Männer 22,20 ± 0,37 Jahre alt waren. Ihre Bildungsjahre betrugen 17,55 ± 0,43 für Frauen und 18,75 ± 0,38 für Männer.
    2. Vergeben Sie Teilnehmer-IDs und laden Sie die Teilnehmer ein, ihre Haare innerhalb einer Stunde vor der Teilnahme am Experiment zu waschen und zu trocknen.
    3. Mischen Sie das Elektrolytgel und das abrasive Elektrolytgel im Verhältnis 1:3 und fügen Sie eine kleine Menge Wasser hinzu. Die Mischung in einem Behälter mit einem Löffel gleichmäßig umrühren.
    4. Bereiten Sie Wattestäbchen mit feiner Spitze und eine trockene EEG-Kappe vor.
    5. Lassen Sie den Teilnehmer bequem auf einem Stuhl sitzen und informieren Sie ihn, dass der Experimentator die EEG-Kappe anbringen wird. Erklären Sie, dass leitfähige Paste, die für den Menschen harmlos ist und den Empfang von Gehirnsignalen verbessert, mit Wattestäbchen auf die Löcher der Kappe aufgetragen wird.
    6. Geben Sie dem Teilnehmer eine Anleitung zu den experimentellen Aufgaben und eine Einverständniserklärung für den Versuch. Fahren Sie mit der Vorbereitungsphase fort, nachdem Sie die Unterschrift des Teilnehmers erhalten haben.
    7. Verbinden Sie die EEG-Kappe mit dem Verstärker, der wiederum mit dem EEG-Datenerfassungscomputer verbunden ist. In dieser Studie wird eine passive Kappe verwendet, so dass es notwendig ist, einen zusätzlichen Monitor zu verwenden, um die Farbindikatoren auf den 64 Elektroden zu überprüfen.
    8. Öffnen Sie BrainVision Recorder33 und importieren Sie eine benutzerdefinierte Arbeitsbereichsdatei, in der die Aufzeichnungsparameter definiert sind. Klicken Sie auf Monitor , um die Impedanz zu überprüfen. Der Farbbalken von Rot bis Grün wird durch die eingestellten Widerstandsstufen beeinflusst, wobei die Zielimpedanzen von 0 bis 10 kΩ reichen.
  2. Vorbereitung der Teilnehmer
    1. Bitten Sie den Teilnehmer, aufrecht auf einem Stuhl zu sitzen. Wählen Sie ein passives Elektrodensystem auf Gelbasis in geeigneter Größe (Größe 54 oder 56) für den Kopf des Teilnehmers und stellen Sie sicher, dass das Elektrodensystem gemäß dem 10-20-System28,34 korrekt montiert ist.
    2. Tauchen Sie zunächst ein Einweg-Wattestäbchen in die leitfähige Paste und tragen Sie es in die Löcher der Kappe auf, wobei Sie darauf achten, dass es an der Kopfhaut des Teilnehmers reibt. Wenn die entsprechende Anzeige einer Elektrode auf dem EEG-Datenerfassungscomputer grün wird, bedeutet dies, dass sie erfolgreich optimale Daten sammelt.
    3. Nachdem die Indikativfarbe für alle Elektroden auf dem Bildschirm, mit Ausnahme der beiden unabhängigen Elektroden, grün wird (auf dem Monitorbildschirm), tragen Sie die leitfähige Paste auf die Seitenelektroden auf. Befestigen Sie die linke Elektrode in der Nähe des linken Auges des Teilnehmers, im Bereich des unteren Augenlids und die rechte Elektrode in der Nähe der rechten Schläfe.
    4. Sobald alle Elektroden grün sind, legen Sie ein elastisches Netz über den Kopf des Teilnehmers, damit die EEG-Kappe sicherer und stabiler am Kopf des Teilnehmers anliegt.
    5. Statten Sie den Teilnehmer mit kabelgebundenen Kopfhörern aus (spezielle Luftleitungskopfhörer, die im Labor verwendet werden). Schließen Sie die elektromagnetische Abschirmtür und leiten Sie die Aktionen des Teilnehmers durch ein Mikrofon, das die Kommunikation nach innen und außen ermöglicht. Überwachen Sie außerdem die Bewegungen des Teilnehmers über einen externen Monitor, z. B. indem Sie ihn daran erinnern, seinen Körper nicht wesentlich zu bewegen. Überwachen Sie auch den Fortschritt des Teilnehmers bei Verhaltensaufgaben durch einen Verhaltensdatenmonitor.
    6. Bitten Sie den Teilnehmer, Kopfhörer zu tragen, die über eine Audioschnittstelle mit dem Computer zur Verhaltenserfassung verbunden sind.
  3. Unabhängiges Ausführen des Experiments Block für Block
    1. Öffnen Sie auf dem EEG-Datenerfassungscomputer den BrainVision Recorder und klicken Sie auf Monitor, um die Impedanz und die Stat/Resume-Aufzeichnung zu überprüfen und die Aufzeichnung zu starten. Erstellen Sie eine neue EEG-Aufzeichnungsdatei und benennen Sie diese entsprechend, z.B. 14_2, also den zweiten Block für Teilnehmer Nummer 14.
    2. Öffnen Sie die Option Experiment ausführen (grüne Schaltfläche) des PsychoPy-Programms für das Verhaltensexperiment, geben Sie die ID des Teilnehmers (z. B. 14) und die entsprechende Blocknummer (z. B. 2) ein und klicken Sie auf OK , um das Experiment zu starten.
    3. Überwachen Sie die Genauigkeit der auf dem Bildschirm gemeldeten Daten genau, nachdem der Teilnehmer die Überprüfungsphase auf dem Verhaltensdatencomputer abgeschlossen hat. Wenn die Genauigkeit unter 10 von 12 liegt, bitten Sie den Teilnehmer, die Trainingseinheit zu wiederholen, bis er die erforderliche Genauigkeit erreicht hat, bevor Sie mit der Testphase fortfahren.
    4. Achten Sie genau auf die endgültige Genauigkeit der alten und neuen Erkennung, die auf dem Bildschirm angezeigt wird, nachdem der Teilnehmer die Testphase des Blocks abgeschlossen hat. Wenn die Genauigkeit außergewöhnlich niedrig ist (z. B. unter 50 %), erkundigen Sie sich beim Teilnehmer nach möglichen Gründen.
  4. Post-EEG-Experiment
    1. Nachdem der Teilnehmer alle Blöcke abgeschlossen hat, laden Sie ihn ein, sich die Haare zu waschen. Reinigen Sie die EEG-Kappe, indem Sie leitfähige Pastenreste mit einer Zahnbürste entfernen, darauf achten, die Signalanschlüsse nicht zu benetzen, und sie in Plastiktüten einwickeln. Hängen Sie die EEG-Kappe nach der Reinigung zum Trocknen an einen gut belüfteten Ort.
    2. Kopieren Sie die EEG- und Verhaltensdaten auf eine tragbare Festplatte und stellen Sie sicher, dass die EEG-Daten und die Verhaltensdaten übereinstimmen. Zum Beispiel werden die EEG-Daten mit zwei Dateien, 14_2.eeg und 14_2.vhdr, und die Verhaltensdaten als 14_2.xlsx Datei benannt.

4. EEG-Datenverarbeitung

HINWEIS: Die folgenden Beschreibungen beziehen sich auf die Vorverarbeitung von EEG-Daten, die statistische Analyse und die Visualisierung mit MATLAB und RStudio für die Stapelverarbeitung.

  1. Vorverarbeitung der EEG-Daten mit MATLAB
    1. Zusammenführung von EEG- und Verhaltensdaten
      1. Angesichts der Tatsache, dass die Teilnehmer die Aufgabe möglicherweise wiederholen müssen, wenn sie die erforderliche Genauigkeit von 10/12 oder höher nicht erreichen, was sich auf die Benennung von EEG- und Verhaltensdaten auswirkt, z. B. könnte 14_2.vhdr zu 14_2(1).vhdr werden, standardisieren Sie die Dateinamen, indem Sie andere Zeichen als 14_2 entfernen. Benennen Sie die Datendateien beim Durchlaufen der Daten jedes Teilnehmers als sub, stripped_filename, .set, was dazu führt, dass Dateien wie sub14_2.set (mit Metadaten und Links zum EEG-Datensatz) und sub10_1.fdt (die eigentlichen EEG-Daten) automatisch gespeichert werden. Dadurch werden die Dateien 14_2.vhdr und 14_2.eeg in sub14_2.fdt und sub14_2.set umbenannt.
      2. Verwenden Sie die Funktion EEG = pop_mergeset(), um die Daten für jeden Teilnehmer in einer einzigen Datei zusammenzuführen, indem Sie verschiedene Blockdaten in chronologischer Reihenfolge und nicht in numerischer Reihenfolge der Blöcke 1,2,3,4 kombinieren.
      3. Führen Sie mehrere Verhaltensdatendateien in einer Tabelle pro Teilnehmer zusammen, basierend auf der chronologischen Reihenfolge, was für die spätere Synchronisierung unerlässlich ist.
      4. Passen Sie den Code an, um Versuche in den EEG-Signalen mit Versuchen in den Verhaltenssignalen zu synchronisieren. Zum Beispiel würde testing_list = [37:108, 145:216, 253:324, 361:432] den EEG-Markierungspunkten für die vier Blöcke entsprechen.
      5. Konvertieren Sie die Verhaltensdatentabelle in eine .txt Datei, was zu einer Tabelle mit Daten in Zeilen und Spalten führt. Die Spaltennamen enthalten die meisten der in Schritt 2.1 erwähnten.
      6. Definieren Sie den Inhalt von EEG-Daten neu, indem Sie den EEG-Daten Informationen hinzufügen, indem Sie einen Code wie den folgenden verwenden, z. B. EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1). Bei diesem Prozess werden die entsprechenden EEG- und Verhaltensdaten jedes Teilnehmers durch eine Stapelverarbeitung zusammengeführt.
        HINWEIS: Die Antwortwerte von 1 und 0 stammen aus Verhaltensdaten, wobei 1 für eine richtige Beurteilung und 0 für eine falsche Beurteilung steht.
    2. Vorverarbeitung der EEG-Daten
      1. Für Referenz und Rereferenz29,35 wird die Funktion pop_reref aufgerufen, um die EEG-Daten erneut auf die FCz-Elektrode zu referenzieren, wobei sichergestellt wird, dass jedes Signal relativ zur FCz-Elektrode berechnet wird. Verwenden Sie die Funktion pop_reref, um die EEG-Daten auf die Kanäle 28 und 29 zu verweisen, die die bilateralen Mastoidelektroden an der hinteren Kopfhaut darstellen, und stellen Sie sicher, dass jedes Signal relativ zu den bilateralen Mastoiden berechnet wird.
      2. Stellen Sie einen Hochpassfilter (zum Entfernen linearer Trends) mit EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0) ein und führen Sie eine Basislinienkorrektur von -500 bis 0 ms mit EEG = pop_rmbase(EEG, [-500 0]) durch.
      3. Fehlerhafte Versuche manuell überprüfen: Nachdem Sie die Daten mit EEGLAB importiert haben, wählen Sie Plotten, klicken Sie dann auf Kanaldaten (scrollen) und setzen Sie den maximalen Wert auf 50.
      4. Löschen Sie Versuche mit sichtbaren Muskel- und anderen Artefakten und markieren Sie fehlerhafte Elektroden: Wenn Sie mit der Maus über die Wellenform des Kanals fahren, wird die Elektrode angezeigt. Zeichnen Sie alle fehlerhaften Elektroden auf, kehren Sie zur EEGLAB-Hauptseite zurück, wählen Sie unter Tools die Option Elektroden interpolieren , wählen Sie Aus Datenkanälen auswählen, wählen Sie die Elektroden aus, die interpoliert werden sollen, und bestätigen Sie mit OK. Speichern Sie die Datei in einem neuen Ordner.
      5. Durchführung der Hauptkomponentenanalyse (PCA) mit EEG = pop_runica(EEG, 'erweitert', 1, 'pca', 30, 'interupt', 'an'). Lehnen Sie problematische ICAs manuell ab, entfernen Sie Artefakte von Augen, Muskeln und Kanalrauschen, und speichern Sie dann die Datei.
      6. Verwenden Sie die Funktion pop_eegthresh, um einen Schwellenwert von -75 bis +75 Hz einzustellen, um die Extremwerte 34,36,37 zu entfernen.
      7. Wenden Sie pop_eegfiltnew an, bei dem die Parameter (der dritte Eingangsparameter) auf 30 eingestellt sind, um Frequenzen von 30 Hz und unter38 Hz beizubehalten.
      8. Passen Sie den Code an, um alle relevanten Bedingungen aufzulisten, einschließlich old_new_speaker = {'alt', 'neu'}; same_different_prosody = {'gleich', 'anders'}; Confidence_level = {'c', 'd'}; und Antwort = {'1', '0'}. Kombinieren Sie dann diese Bedingungen, um Datenkombinationen wie sub1_new_different_c_0 zu erstellen und sie als Dateien mit der Erweiterung txt zu speichern.
  2. ERP-Analyse mit RStudio
    1. Um die Daten zu organisieren, konvertieren Sie sie in ein langes Format. Importieren Sie alle .txt Dateien in RStudio und verwenden Sie die rbind-Funktion, um jeden temporären Datenrahmen an alldata anzuhängen, wodurch ein großer Datenrahmen erstellt wird, der alle Dateidaten enthält. Benennen Sie die Spalte Zeile in allen Daten aus Gründen der Genauigkeit in Zeit um. Verwenden Sie die Melt-Funktion, um alle Daten vom Breit- in das Langformat (Data_Long) zu konvertieren, wobei jede Beobachtung eine Zeile einnimmt und alle zugehörigen Bedingungen und Kanalinformationen enthält.
    2. Verwenden Sie die Filterfunktion aus dem dplyr-Paket, um Daten auszuwählen, die bestimmten Bedingungen entsprechen: Judgement ist 1. Quelle ist h. Der Speicher ist entweder alt oder neu. Die Prosodie ist c oder d.
    3. Definieren Sie Bereiche basierend auf Elektrodenkanälen wie folgt: Links anterior (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Links mittig (C3, T7, CP5, C5, TP7, CP3). Links posterior (P3, P7, P5, PO7, PO3). Medial anterior (Fz, AFz, FC1, FC2, F1, F2, FCz). Medial zentral (CP1, CP2, Cz, C1, C2, CPz). Medial posterior (Pz, O1, Oz, O2, P1, POz, P2). Rechter anterior (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Rechts mittig (CP6, C4, T8, CP4, C6, TP8). Rechts posterior (P4, P8, PO4, PO8, P6). Gruppieren Sie diese Regionen in vordere, zentrale und hintere Regionen.
    4. Speichern Sie den Arbeitsbereich für das spätere Laden der Daten. Um zu speichern, verwenden Sie setwd(); Zum Laden verwenden Sie load().
  3. Statistische Analyse
    1. Für die EEG-Datenanalyse über alle Elektroden hinweg filtern Sie den Datensatz so, dass nur relevante Datenpunkte enthalten sind, bei denen Urteilsvermögen 1 ist, Quelle h ist, Speicher entweder alt oder neu ist, Proband nicht leer ist und Zeit zwischen 400 und 850 ms liegt.
    2. Aktualisieren Sie die Namen der Interessenbereiche (ROI) basierend auf vordefinierten Zuordnungen. Zum Beispiel sind links anterior, medial anterior und rechts anterior für anterior.
    3. Passen Sie ein lineares Mixed-Effects-Modell an die Daten an, indem Sie lmer aus dem lme4-Paket39 verwenden, mit Voltage als Antwortvariable und Memory und ROI als feste Effekte, einschließlich zufälliger Intercepts für Subjekt und Kanal: fit_time_window <- lmer(Voltage ~ Memory * ROI + (1|Betreff) + (1| Kanal), data=DATA). Ersetzen Sie DATA wiederholt durch kombinierte, nur sichere und nur zweifelhafte Daten. Sehen Sie sich einen Beispielcode in OSF32 an.
      1. Erhalten Sie die Analyseergebnisse aus dem angepassten Modell: anova(fit_time_window), eta_squared(fit_time_window) und emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey").
    4. Für die Analyse von EEG-Daten in Pz befolgen Sie beim Filtern des Datensatzes die gleichen Schritte wie oben, fügen Sie jedoch auch die Bedingung Channel == 'ChPz' hinzu. Wiederholen Sie den obigen Vorgang, aber verwenden Sie lmer(Voltage ~ Memory + (1|Subject)) zur Analyse von Pz-Daten von 400 bis 850 ms.
    5. Um ERPs in der Pz darzustellen (Wiederholung über den kombinierten, nur zuversichtlichen und zweifelhaften Datensatz), filtern Sie den Datensatz so, dass nur relevante Datenpunkte enthalten sind, bei denen Urteilsvermögen 1, Quelle h ist, Speicher entweder alt oder neu ist und Subjekt nicht leer ist.
      1. Definieren Sie einen Vektor, der mehrere Elektrodenpunkte (einschließlich Pz) enthält, und stellen Sie ihnen das Präfix Ch voran, um der Konvention für die Kanalbenennung in den Daten zu entsprechen. Wählen Sie Pz out aus.
      2. Geben Sie das Zeitfenster für die ERP-Analyse an: time_window <- c(400, 850). Definieren Sie die gewünschte Elektrode, in diesem Fall Pz. Durchlaufen Sie die ausgewählte Elektrode und erstellen Sie Diagramme wie unten beschrieben.
        1. Filtern Sie die Daten für die Pz-Elektrode mit dem Filter (Kanal == k), um die relevanten Datenpunkte zu isolieren.
        2. Erstellen Sie einen Interaktionsfaktor für Linientyp und -farbe basierend auf der Speicherbedingung mit interaction(current_channel_data$Memory) und beschriften Sie die Bedingungen als Alt und Neu.
        3. Berechnen Sie die Zusammenfassungsstatistik und den Standardfehler für die Spannungsmessungen im Zeitverlauf mit der Funktion summarySEwithin, indem Sie Voltage als Messvariable und Time als Within-Variable angeben.
        4. Erzeugen Sie den ERP-Plot für die Pz-Elektrode, indem Sie mit geom_rect mit den Parametern xmin, xmax, ymin und ymax einen Hintergrund für das angegebene Zeitfenster hinzufügen. Fügen Sie Standard-Fehlerbänder in geom_ribbon ein und zeichnen Sie die mittlere Spannung mit geom_line. Passen Sie das Aussehen und die Beschriftungen des Diagramms mit Funktionen wie scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual und scale_color_manual an.
      3. Verwenden Sie theme_minimal für das Basisdesign, und passen Sie die Textgrößen und die Platzierung der Legende mit dem Design weiter an.
  4. Topographie-Plotten mit MATLAB
    1. Importieren Sie Daten und legen Sie Bedingungen fest, definieren Sie die Liste der Themen von 1 bis 40 mit subject_list = 1:40. Definieren Sie zwei leere Zellenarrays zum Speichern von Daten für die korrekte Klassifizierung alter und neuer Bedingungen: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Durchlaufen Sie die Betreffliste, importieren Sie die Daten der einzelnen Betreffzeilen und filtern Sie sie basierend auf Bedingungen.
    2. Extrahieren Sie Ereignisinformationen aus EEGLAB-Rohdaten, wobei nur Ereignisse ausgewählt werden, bei denen die Antwort gleich 1 ist. Wählen Sie Versuche mit Quelle gleich h aus, und aktualisieren Sie die Datenstruktur entsprechend. Trennen Sie die Daten für alte und neue Erkrankungen, beschränken Sie sich auf korrekte Versuche mit Quelle h und führen Sie eine Zeitsperrenanalyse durch.
      1. Berechnen Sie den Gesamtdurchschnitt sowohl für den alten als auch für den neuen Zustand: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
    3. Führen Sie den Permutationstest wie unten beschrieben durch.
      1. Definieren Sie die Nachbarkonfiguration mithilfe einer angegebenen Layoutdatei: cfg_neigh = []; cfg_neigh.method = 'Entfernung'; cfg_neigh.layout = 'path_to_layout_file'; Nachbarn = ft_prepare_neighbours(cfg_neigh).
      2. Konfigurieren Sie die Parameter für den Permutationstest, einschließlich der Designmatrix und der statistischen Methode: cfg = []; cfg.method = 'montecarlo'; cfg.statistic = 'ft_statfun_indepsamplesT'; cfg.correctm = 'Cluster'; cfg.clusteralpha = 0,05; cfg.clusterstatistic = 'maxsum'; cfg.minnbchan = 2; cfg.tail = 0; cfg.clustertail = 0; cfg.alpha = 0,05; cfg.numrandomisierung = 1000; cfg.neighbours = Nachbarn; cfg.design = [2*Eins(1, Länge(human_timelocked_new_correct)) Eins(1, Länge(human_timelocked_old_correct))]; cfg.ivar = 1. Darüber hinaus finden Sie unter dem folgenden Link (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) Tutorials zur Verwendung von Fieldtrip40.
      3. Führen Sie den statistischen Test mit den gemittelten Daten für alte und neue Bedingungen durch: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
    4. Führen Sie benutzerdefinierte Intervalldiagramme wie unten beschrieben durch.
      1. Berechnen Sie die Differenz zwischen den beiden Bedingungen: cfg = []; cfg.operation = 'subtrahieren'; cfg.parameter = 'durchschnittlich'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
      2. Zeitfenster definieren: time_windows = { [0.500, 0.800] % LPC}.
      3. Erstellen Sie eine Abbildung, und stellen Sie die Differenz zwischen den Bedingungen mit ft_topoplotER(cfg_plot, grandavg_difference) dar.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der klassische Alt-Neu-Effekt zeichnet sich durch eine signifikante Steigerung der Gehirnaktivität der Zuhörer an der Pz-Elektrode (zwischen 300 und 700 ms) aus, wenn der Sprachinhalt der Testsitzung mit dem der Trainingseinheit übereinstimmt, insbesondere in der alten Sprecherbedingung im Vergleich zur neuen Sprecherbedingung22. Das Protokoll enthüllt eine aktualisierte Version dieses Effekts: Zunächst werden größere positive Trends in der Pz-Elektrode und in der gesamten Gehirnregion für den alten Zustand im Vergleich zum neuen Sprecherzustand zwischen 400 und 850 ms beobachtet. Zweitens unterscheidet sich der Sprachinhalt in der Testsitzung von dem der Trainingseinheit. Drittens wird erwartet, dass sowohl zuversichtliche als auch zweifelhafte Sprechprosodiebedingungen diese Trends aufweisen. Schließlich ist der alte/neue Effekt in zweifelhaftem Zustand während der Testsitzung stärker ausgeprägt (Abbildung 2).

Die LMER-Analyse mit der Formel

lmer(Spannung ~ Speicher * ROI + (1|Thema) + (1|Kanal))

deutet darauf hin, dass sowohl die Speichertypen (alt versus neu) als auch der ROI Haupteffekte haben, ebenso wie eine Wechselwirkung zwischen Speicher und ROI (Tabelle 1). Weitere Post-hoc-Analysen zeigten, dass der alte Zustand in allen Hirnregionen eine größere positive Spannung aufweist als der zweifelhafte Zustand, auch in den vorderen, zentralen und hinteren Regionen (Tabelle 2). Der Vergleich der Beta-Werte deutet darauf hin, dass der alte/neue Effekt an zentralen und hinteren Elektroden stärker ausgeprägt war als an vorderen Elektroden: für den kombinierten Datensatz - anterior β = .40, Central β = .63 und posterior β = .60; für den sicheren Datensatz - Anterior β = .61, Central β = .63 und Posterior β = .76 - und für den zweifelhaften Datensatz - Anterior β = .44, Central β = .87 und Posterior β = .69. Die Beteiligung der zentralen und hinteren Elektroden war bei der zweifelhaften Prosodie am deutlichsten.

Mit der Formel

lmer(Spannung ~ Speicher + (1|Betreff))

Wir haben das Vorhandensein von alten/neuen Effekten in der Pz-Elektrode bestätigt. An der Pz-Elektrode wurde ein Haupteffekt des Gedächtnisses (alt versus neu) beobachtet (F(1, 69341.99) = 120.46, p < .001, η²p = .002, β = .425, SE = .039, z-Verhältnis = 10.98, p < .001). In der Nur-Konfidenz-Bedingung wurde ein Haupteffekt des Gedächtnisses (alt versus neu) an der Pz-Elektrode beobachtet (F(1, 34318.32) = 5.04, p = .025, η²p = .0001, β = .125, SE = .056, z-Verhältnis = 2.25, p = .025). In der Nur-Zweifel-Bedingung wurde ein Haupteffekt des Gedächtnisses (alt versus neu) an der Pz-Elektrode beobachtet (F(1, 34993.20) = 317.02, p < .001, η²p = .009, β = .914, SE = .051, z-Verhältnis = 17.81, p < .001).

figure-results-1
Abbildung 1: Ablauf der Datenerfassung für jeden Block. In (A) Training hören die Zuhörer eine Stimme und assoziieren den anschließend präsentierten Namen damit. Drei alte Schwätzer sind erforderlich, um sich an sie zu erinnern. Die Sprache, die in der Sendung erschien, war ursprünglich Chinesisch. Das A und C stehen für Namen wie Xiao (Junior) ZHANG. Bei der Überprüfung (B) identifizieren Zuhörer den Namen des Sprechers, wenn sie eine Stimme hören, indem sie 1, 2 oder 3 auf dem Ziffernblock drücken, um die Stimmidentität mit Namen wie Xiao ZHAO zu verknüpfen. Beim (C)-Test hören Zuhörer eine Stimme und klassifizieren sie als vom alten oder neuen Sprecher gesprochen. Wie in (D) Prosody Design dargestellt, lernen die Zuhörer, dass drei Sprechende nur selbstbewusst oder zweifelnd ausdrücken, während sie sechs Sprechende sowohl selbstbewusst als auch zweifelnd sprechen hören. Das Erscheinungsbild der Version A bzw. B schließt sich gegenseitig aus. Wenn Version A mit einem männlichen oder weiblichen Lautsprecher erscheint, wird Version B mit dem entsprechenden weiblichen oder männlichen Lautsprecher angezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

figure-results-2
Abbildung 2: Der alte/neue Effekt. (A, B, C) Die Abbildungen zeigen die grau angezeigte ERP der Pz-Elektroden von 400 bis 850 ms für die Bedingungen "Prosodie-kombiniert", "Nur Konfidenz" bzw. "Nur zweifelhaft". (D, E, F) Die Abbildungen veranschaulichen die Topographie des alten minus neuen Zustands über alle Elektroden hinweg (dargestellt als schwarze Punkte) für die prosoda-kombinierten, nur zuversichtlichen und zweifelhaften Bedingungen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

ZusammenhangHirnregionF-WertPr(>F)Eta2_partial
KombiniertGedächtnis9938.98.00.00
ROI4.13.02.13
Speicher:ROI182.37.00.00
SicherGedächtnis7291.22.00.00
ROI3.60.03.12
Speicher:ROI41.94.00.00
ZweifelhaftGedächtnis8333.38.00.00
ROI4.65.01.15
Speicher:ROI290.15.00.00

Tabelle 1: Ergebnisse der LMER-Analyse für alte/neue Effekte in Gehirnregionen: Kombinierte, zuversichtliche und zweifelhafte Datensätze. Unter Verwendung der Post-hoc-Analyse, * signifikant bei p < 0,05, ** signifikant bei p < 0,01, *** signifikant bei p < 0,001.

ZusammenhangHirnregionKontrastSchätzenSEzp
KombiniertAnteriorAlt-Neu.40.0143.70.00***
ZentralAlt-Neu.63.0161.74.00***
HinternAlt-Neu.60.0167.51.00***
SicherAnteriorAlt-Neu.61.0146.63.00***
ZentralAlt-Neu.63.0143.22.00***
HinternAlt-Neu.76.0159.95.00***
ZweifelhaftAnteriorAlt-Neu.44.0135.95.00***
ZentralAlt-Neu.87.0164.05.00***
HinternAlt-Neu.69.0157.75.00***

Tabelle 2: Post-hoc-Testergebnisse für alte/neue Effekte in verschiedenen Hirnregionen: Kombinierte, zuversichtliche und zweifelhafte Datensätze. Unter Verwendung einer Post-hoc-Analyse, signifikant bei p < .001 (***).

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Studie stellt eine Pipeline für die EEG-Datenerfassung und -analyse vor, wobei der Schwerpunkt auf der Erkennung zuvor erlernter Sprecheridentitäten liegt. Diese Studie befasst sich mit Variationen zwischen Lern- und Erkennungsphasen, einschließlich Unterschieden im Sprachinhalt22 und in der Prosodie10. Das Design ist an eine Reihe von Forschungsbereichen anpassbar, einschließlich der Psycholinguistik, wie z. B. Pronomen und anaphorische Verarbeitung41.

Das Trainings-Test-Paradigma ist ein klassisches experimentelles Design, das verwendet wird, um die Lernergebnisse der Teilnehmer zu bestimmten Themen wie dem sprachgesteuerten Lernen zu bewerten42,43. Dieses Paradigma bewertet, wie gut die Teilnehmer bestimmte Informationen gelernt haben (was sich in der Genauigkeit widerspiegelt)10. Es ermöglicht Forschern, Variablen inkrementell unter kontrollierten experimentellen Bedingungen einzuführen, wie z. B. verschiedene Prosodien während der Trainings- und Testphasen, um ihren Einfluss auf die Genauigkeit der Spracherkennung zu verstehen, z. B. VTL/F0-modulierte Stimmen23, ängstlich versus neutral10 oder zweifelhaft versus zuversichtlich in dieser Studie.

Das Paradigma hat jedoch Grenzen. Die Unterschiede zwischen der Lern- und der Testumgebung können die Gültigkeit der experimentellen Ergebnisse beeinträchtigen, da die kontrollierten Lernbedingungen möglicherweise nicht die variableren Testbedingungen widerspiegeln. Zum Beispiel wird in der Trainingseinheit eine einzelne Prosodie anstelle einer proportionalen Differenz verwendet, z. B. 30 % gegenüber 70 %44. Um dieses Ungleichgewicht zu beheben, könnte eine vielfältigere Lernumgebung reale Szenarien besser nachbilden, in denen Sprecher unterschiedliche Prosodien verwenden, während sie mit den Zuhörern interagieren. Darüber hinaus erkennt diese Studie an, dass die Komplexität des experimentellen Designs, das mehrere Phasen und eine ausgefeilte Programmierung (unter Verwendung von Tools wie R Studio, MATLAB und Python) umfasst, für Neueinsteiger eine Herausforderung darstellen kann.

Die primäre Erkenntnis unterstreicht die Bedeutung einer adäquaten Einarbeitung und einer Kontrollphase. Die Arbeit von Xu und Armony zeigt, dass Zuhörer Schwierigkeiten haben, alte Sprecheridentitäten ohne ausreichendes Training und Überprüfungen über den Zufallsstufen10 zu identifizieren. Darüber hinaus fanden Zaske et al. heraus, dass der LPC-Effekt "alt/neu" nur dann vorhanden war, wenn derselbe Text wiederholt wurde, nicht mit unterschiedlichem Text22. In dieser Studie zeigte die Implementierung einer Check-Phase die Persistenz des alten/neuen ERP-Effekts, auch bei unterschiedlichen Textstimuli, was die Behauptungen der fMRT-Studie stützt21. Die Studie legt nahe, dass für Paradigmen, die auf Trainingstests basieren, das Einfügen einer Prüfsitzung von entscheidender Bedeutung ist. Sie ermöglicht es den Zuhörern, sich einen robusten Eindruck von der akustischen Identität des Sprechers zu machen, indem sie einen Sprecher mit einem bestimmten Symbol, wie z. B. einem Namen23, in Verbindung bringt. Ohne ausreichendes Erlernen der Repräsentation des Sprechers können Zuhörer Schwierigkeiten haben, sich an die Variationen innerhalb des Sprechersanzupassen 10.

In dieser Studie wurde auch die Rolle der Prosodie als Bindungshinweis für die Sprechererkennung beobachtet45. Im Gegensatz zu früheren Ansichten, dass Prosodie die Erkennung alter Sprecher behindern kann, fand diese Studie heraus, dass der Alt/Neue Effekt bei selbstbewussten und zweifelhaften Prosodiebedingungen vorhanden ist. Dieser robuste Effekt deutet auf eine modulationstechnische Rolle der Prosodie bei der Sprechererkennung hin. Weitere Analysen zeigten Unterschiede in der Aktivierung der vorderen Region bei verschiedenen Prosodiebedingungen. Eine zuversichtliche Prosodie löste im Vergleich zu einer zweifelhaften Prosodie ein geringeres Ausmaß des alten/neuen Effekts in den Frontzahnregionen aus. Dieser Befund deutet darauf hin, dass selbstbewusstes Sprechen die Identifizierung des Sprechers aufgrund der längeren Länge des Vokaltrakts und der verringerten Grundfrequenz erschweren kann, was möglicherweise zu einer erhöhten Aufmerksamkeit der Zuhörer führt11,29.

Das Design dieser Studie kann als Grundlage für zukünftige Untersuchungen zu Erkennungsbeeinträchtigungen in Patientenpopulationen, wie z. B. Patienten mit Prosopagnosie oder Phonagnosie, dienen46,47. Darüber hinaus könnten Modifikationen zur Anpassung an Teilnehmer mit kürzerer Aufmerksamkeitsspanne, wie z. B. Personen mit Autismus-Spektrum-Störungen48, die Zugänglichkeit der Studie verbessern.

Darüber hinaus geht das Paradigma über die Sprechererkennung hinaus und untersucht die Pronomenverarbeitung und das anaphorische Verständnis in der psycholinguistischen Forschung. Coopmans und Nieuwland41 zeigen, wie neuronale oszillatorische Synchronisationsmuster zwischen vorausgehender Aktivierung und Integration im Anaphernverständnis unterscheiden, was mit der Erforschung identitätsbezogener Hinweise in dieser Studie übereinstimmt. Zu den Hinweisen gehören in dieser Arbeit sowohl kommunikative Stile (z. B. wörtliche oder ironische Aussagen), Wortstellungen (Subjekt-Objekt-Verb (SOV) oder Objekt-Subjekt-Verb (OSV) Satzstruktur 44,45,49,50) als auch stimmliche Ausdrucksformen (selbstbewusste vs. zweifelhafte Prosodie).

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Es gibt keine Informationen, die offengelegt werden müssen.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Arbeit wurde unterstützt von der Natural Science Foundation of China (Grant No. 31971037); das Shuguang-Programm, das von der Shanghai Education Development Foundation und dem Shanghai Municipal Education Committee unterstützt wird (Zuschuss Nr. 20SG31); die Natural Science Foundation von Shanghai (22ZR1460200); das Supervisor Guidance Program der Shanghai International Studies University (2022113001); und das Major Program der National Social Science Foundation of China (Grant No. 18ZDA293).

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
64Ch Standard BrainCap für BrainAmpEasycap GmbHSteingrabenstrasse 14 DE-82211https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-GelEasycap GmbHAbralyt 2000https://shop.easycap.de/products/abralyt-2000
actiCHamp PlusBrain Products GmbH64 Kanäle + 8 AUXhttps://www.brainproducts.com/solutions/actichamp/
Audio InterfaceNative Instruments GmbHKomplete audio 6https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Schaumstoff-OhrstöpselNeuronixER3-14 https://neuronix.ca/products/er3-14-foam-eartips
Gelbasiertes passives ElektrodensystemBrain Products GmbHBC 01453https://www.brainproducts.com/solutions/braincap/
Hochviskoses Elektrolytgel Easycap GmbHSuperVischttps://shop.easycap.de/products/supervisc

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722(2024).">Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722(2024).
  2. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).">Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).">Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).">Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).">Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).">Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).">Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).">Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404(2019).">Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404(2019).
  10. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).">Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).">Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).">Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).">Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).">Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).">Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).">Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).">White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483(2019).">Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483(2019).
  19. The Oxford Handbook of Voice Perception. Frühholz, S., Belin, P. , Oxford University Press. 515-538 (2018).">Perrachione, T. K. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. Frühholz, S., Belin, P. , Oxford University Press. 515-538 (2018).
  20. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).">Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).">Zäske, R., Hasan, B. aS., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).">Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).">Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , 10.20944/preprints202312.0807.v1 (2023).">Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , 10.20944/preprints202312.0807.v1 (2023).
  25. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401(2022).">Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401(2022).
  26. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).">Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. https://www.fon.hum.uva.nl/praat/ (2022).">Boersma, P., Weenink, D. Praat: doing phonetics by computer. , Available from: https://www.fon.hum.uva.nl/praat/ (2022).
  28. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).">Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).">Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740(2012).">Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740(2012).
  31. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).">Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. https://osf.io/6zu83/ (2024).">Chen, W., Jiang, X. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis. , Available from: https://osf.io/6zu83/ (2024).
  33. https://www.brainproducts.com/downloads/recorder/ (2024).">Gmbh, B. P. Brainvision recorder. , Available from: https://www.brainproducts.com/downloads/recorder/ (2024).
  34. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597(2015).">Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597(2015).
  35. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412(2016).">Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412(2016).
  36. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).">Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).">Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).">Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).">Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
  40. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).">Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).">Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).">Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).">Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581(2017).">Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581(2017).
  45. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).">Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).">Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).">Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).">Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).">Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).">Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Vocal Identity RecognitionExpressive SpeechEvent Related PotentialsEEG AnalysisSpeaker RecognitionMemorization TrainingLate Positive ComponentSpeech ProsodyFamiliar Speaker RecognitionBrain Topography

Related Articles