Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
JoVE Science Education
Sensation and Perception

A subscription to JoVE is required to view this content.
You will only be able to see the first 20 seconds.

 

Overview

Fonte: Laboratorio di Jonathan Flombaum—Johns Hopkins University

La lingua parlata, una singolare conquista umana, si basa fortemente su meccanismi percettivi specializzati. Una caratteristica importante dei meccanismi di percezione del linguaggio è che si basano contemporaneamente su informazioni uditive e visive. Questo ha senso, perché fino ai tempi moderni, una persona poteva aspettarsi che la maggior parte della lingua sarebbe stata ascoltata nelle interazioni faccia a faccia. E poiché la produzione di suoni vocali specifici richiede un'articolazione precisa, la bocca può fornire buone informazioni visive su ciò che qualcuno sta dicendo. Infatti, con una visione ravvicinata e senza ostacoli del viso di qualcuno, la bocca può spesso fornire segnali visivi migliori rispetto ai segnali uditivi che forniscono segnali uditivi. Il risultato è che il cervello umano favorisce l'input visivo e lo usa per disambiguare l'ambiguità intrinseca nel linguaggio parlato.

Questa dipendenza dall'input visivo per interpretare il suono è stata descritta da Harry McGurk e John Macdonald in un articolo del 1976 intitolato Hearing lips and seeing voices. 1 In quel documento, essi descrivevano un'illusione che sorge a seguito di una mancata corrispondenza tra una registrazione sonora e una registrazione video. Questa illusione è diventata nota come effetto McGurk. Questo video dimostrerà come produrre e interpretare l'effetto McGurk.

Procedure

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

1. Stimoli

  1. Per rendere gli stimoli dell'effetto McGurk avrai bisogno di una videocamera, del tipo su uno smartphone va bene.
  2. Avrai anche bisogno di un computer per controllare la presentazione dei video a un soggetto ingenuo.
  3. Punta la fotocamera verso te stesso, in modo che la testa riempia il display.
  4. Fai quattro registrazioni. Ognuno dovrebbe essere lungo 10 s. In ciascuna delle quattro registrazioni, ripeterai una parola 10 volte, circa 1/s. Ecco le parole: bane, gain, pan, can. Prova a pronunciare le parole in ogni video a un ritmo simile.

2. Indurre l'illusione

  1. Per indurre l'illusione, potresti unire insieme il suono di un video e l'immagine di un altro. Ma non è davvero necessario. È più facile farlo semplicemente usando il telefono e un computer contemporaneamente. Ecco come.
  2. Sul desktop del tuo computer apri il video in cui stai dicendo guadagno. Disattiva l'audio e riproduci il video.
  3. Sul tuo telefono apri il video in cui stai dicendo bane. Metti il telefono dietro lo schermo del computer in modo che il suono possa essere ascoltato, ma il video non può essere visto. Riproduci il video.
  4. Chiedi a un osservatore di guardare lo schermo del computer durante l'ascolto e, quando il video ha finito di riprodurlo, chiedi loro cosa hanno sentito.
  5. Fai lo stesso per i video pan/can: riproduci il flusso di immagini di te che dici di puoi mentre il tuo telefono riproduce il flusso audio dal video pan. Chiedi al partecipante cosa ha sentito.

La percezione del linguaggio, in una forma parlata, beneficia delle interazioni faccia a faccia, poiché la bocca fornisce buone informazioni visive per articolare suoni specifici.

Ad esempio, in una situazione ravvicinata e senza ostacoli, un individuo può guardare il proprio amico menzionare di andare in spiaggia. In questo caso, usano l'input visivo– osservando il movimento intorno alle labbra e alla lingua – per comprendere chiaramente ciò che è stato detto.

Tuttavia, se l'amico continua a parlare fuori dalla vista in un'altra stanza, potrebbe essere tentato di guardare la televisione in sordina e quindi deve fare affidamento esclusivamente sulla voce ostruita per dare un senso al messaggio.

In questo caso, ciò che è stato effettivamente detto all'estremità della coda, pick, ha interferito con il calcio silenzioso ed è stato interpretato erroneamente come tick. Questo è un esempio dell'effetto McGurk, un'illusione percettiva che sorge attraverso una mancata corrispondenza tra segnali sonori e visivi.

Questo video dimostra come costruire gli stimoli audiovisivi per testare il fenomeno originariamente scoperto da McGurk e Macdonald. Studia anche come la visione interagisce con la produzione del suono per capire come gli individui imparano la lingua in età molto giovane.

In questo esperimento, ai partecipanti viene chiesto di guardare video muti, in cui una parola come guadagno viene pronunciata, mentre un suono come bane viene riprodotto contemporaneamente in sottofondo. Successivamente, viene chiesto loro di condividere ciò che hanno sentito.

Per capire il risultato, come viene prodotta l'illusione, discutiamo prima di come i fonemi – le unità minime dei suoni vocali – sono articolati.

Ad esempio, bane e gain condividono gli stessi elementi in tutte le posizioni ad eccezione della prima, che sono i suoni /b/ e /g/.

Sebbene le parole con questi fonemi iniziali possano sembrare simili, quando viene mostrato /g/ e viene riprodotto /b/, ci si aspetta che gli individui sentano un terzo suono completamente diverso.

Il motivo per cui /d/ viene ascoltato è dovuto al fatto che tutti e tre sono fondamentalmente prodotti nello stesso modo, con solo una piccola differenza in cui l'altoparlante pone un'ostruzione nel flusso d'aria, chiamata punti di articolazione o POA.

Ad esempio, quando viene prodotto un suono /b/, le labbra forniscono l'ostruzione, risultando in un POA labiale, mentre per /g/, è indicato come palatale, nella parte posteriore della bocca. Per quanto riguarda /d/, il POA è dentale, una conseguenza della lingua che tocca i denti superiori.

Quando il cervello integra il conflitto visivo /g/ e uditivo /b/, conclude che il suono finale deve trovarsi da qualche parte nel mezzo dei POA, sentendo così /d/ e riportando la parola danese.

In preparazione alla dimostrazione, procuratevi un computer per presentare i video e uno smartphone con una videocamera.

Per prima cosa posiziona la fotocamera in modo che la tua testa riempia il display. Ora, registra quattro clip da 10 s, ognuna contenente parole diverse che dovrebbero essere ripetute 10 volte ad una velocità di 1 parola / s. Assicurati di trasferire i video di guadagno e lattina al computer per la riproduzione visiva.

Per condurre l'esperimento, siediti un partecipante davanti al computer. Apri il file video per il guadagno della parola e disattiva l'audio.

Al telefono, apri il video per la rovina. Posizionalo dietro il computer in modo che il suo schermo sia nascosto e solo il suono possa essere sentito chiaramente.

Istruire il partecipante a guardare il monitor del computer e ascoltare. Quindi, riproduci entrambi i video contemporaneamente.

Quando le clip terminano, chiedi al partecipante cosa ha sentito. [Il partecipante dice: "Dane"]. Ripeti la procedura riproducendo il video della parola può sul computer e presentando l'audio per la panoramica sul telefono. Ancora una volta, interroga il partecipante su ciò che ha sentito. [Il partecipante dice: "abbronzatura"].

Qui, le parole bane e pan sono state suonate ad alta voce mentre il partecipante guardava guadagnare e può essere boccata. In genere, quando un termine con il fonema /g/ viene mostrato visivamente e abbinato al suono /b/, gli individui sentiranno /d/.

Allo stesso modo, quando una parola che inizia con /k/ è abbinata al suono /p/, gli individui sentiranno /t/.

La ragione alla base di tale percezione uditiva è dovuta al modo in cui i suoni vengono prodotti. Il cervello cerca di risolvere le informazioni contrastanti dagli occhi che vedono movimenti labiali - / b / e / p / - mentre le orecchie sentono unità palatali - / g / e / k /. Di conseguenza, conclude che i suoni devono trovarsi nel mezzo, con conseguente percezione dei fonemi dentali —/d/ e /t/.

Ora che hai familiarità con come produrre l'effetto McGurk, diamo un'occhiata ad alcuni altri modi in cui i ricercatori usano questo fenomeno percettivo per indagare sullo sviluppo del linguaggio e sui casi in cui l'effetto è alterato.

I neonati possono anche essere testati sull'effetto McGurk già a cinque mesi di età, quando sono pre-linguistici, usando un paradigma di assuefazione del tempo.

In questa procedura, Rosenblum e colleghi hanno ripetutamente presentato ai bambini una particolare sillaba, come va, sia nel dominio audio che in quello visivo prima di introdurre fonemi non corrispondenti in una fase di test.

I neonati mostravano segni di assuefazione a va – tempi di ricerca ridotti – e disassuefazione, notata come aumento dell'aspetto, quando veniva percepito qualcosa di diverso da va. Pertanto, anche prima che i bambini possano parlare, mostrano risultati simili a quelli degli adulti, in cui si basano sull'uso di informazioni visive per la discriminazione linguistica.

Tuttavia, i bambini con autismo hanno maggiori difficoltà a mostrare l'effetto McGurk con la dovuta facilità dei controlli a causa della loro ridotta capacità di comprendere e occuparsi dei componenti visivi del viso. Ciò indica differenze fondamentali nell'elaborazione del parlato audiovisivo, che possono contribuire alla loro difficoltà con il linguaggio e la comunicazione.

Infine, i pazienti con lesioni nel loro emisfero sinistro - il lato tipicamente predominante per la comprensione e l'apprendimento del linguaggio - spesso usano caratteristiche facciali visive per aiutare durante la logopedia. È interessante notare che, quando testati sull'effetto McGurk, hanno riferito più spesso di sentire suoni dentali rispetto ai controlli. Tali percezioni sono probabilmente dovute alla loro maggiore attenzione alle informazioni visive.

Hai appena visto il video di JoVE sull'effetto McGurk. Ora dovresti sapere come condurre questa illusione audiovisiva e mettere in relazione i fonemi con la produzione del suono. Inoltre, dovresti anche avere una migliore comprensione delle interazioni tra visione e udito e di come possono essere influenzate durante lo sviluppo e l'età adulta.

Grazie per l'attenzione!

Subscription Required. Please recommend JoVE to your librarian.

Results

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

Ricorda, i suoni riprodotti al tuo osservatore sono le parole bane o pan. Ma nei video di accompagnamento, le parole articolate sono rispettivamente guadagno e possono. Quindi quali parole sentiranno effettivamente le persone? La risposta è il più delle volte nessuna di queste quattro. Invece, il risultato tipico è che gli osservatori nella condizione di bane / guadagno sentiranno la parola danese. E gli osservatori nella condizione pan/can sentiranno la parola abbronzatura.

Per capire perché abbiamo bisogno di capire un po 'su come vengono prodotti i fonemi. Un fonema è un'unità minima di suono vocale. Le parole bane e gain hanno gli stessi fonemi in tutte le posizioni tranne la prima. Nella parola bane il primo fonema è un suono b, indicato con /b/. Nella parola guadagno è il suono /g/. I suoni rimanenti sono gli stessi, motivo per cui le parole fanno rima. La Figura 1 suddivide l'effetto McGurk in termini di fonemi iniziali in questi esempi. Quando viene mostrato /b/ e viene riprodotto /g/, le persone sentono /d/. La parola danese in altre parole fa anche rima con bane e gain, con una differenza di un fonema proprio all'inizio.

Figure 1
Figura 1: L'effetto McGurk si verifica quando c'è una mancata corrispondenza tra un fonema articolato in una presentazione visiva e un fonema diverso viene riprodotto contemporaneamente attraverso gli altoparlanti. Con i fonemi che condividono determinate proprietà di articolazione, il risultato udito potrebbe non corrispondere a nessuno degli stimoli non corrispondenti. Nella mancata corrispondenza si sente un terzo suono. In particolare, una /g/ visiva con una /b/ uditiva fa sì che il fonema /d/ venga ascoltato. Questo è il motivo per cui un guadagno visivo con un bane uditivo fa sentire Dane. Allo stesso modo, una /k/ visiva con una /p/ uditiva porta il suono /t/ ad essere ascoltato. Ecco perché can/pan produce abbronzatura nell'effetto McGurk.

Perché i conflitti /b/ e /g/ producono una /d/ in particolare? Beh, /b/, /g/, e /d/ non sono poi così diversi l'uno dall'altro, specialmente in termini di come vengono prodotti. I tre fondamentalmente comportano lo spostamento della stessa quantità di aria dalla laringe di una persona attraverso la bocca, con solo una differenza in cui l'altoparlante posiziona una piccola ostruzione. Quando qualcuno emette un suono /b/, usa le labbra per ostruire l'aria; questo è noto come punto labiale di articolazione. Per un suono /g/, il punto di articolazione è palatale: è lontano nella parte posteriore della bocca. E per un suono /d/, il punto di articolazione è noto come dentale perché le persone ostruiscono il flusso d'aria attraverso la bocca toccando la lingua ai denti superiori. La Figura 2 mostra i punti relativi di articolazione per i sei fonemi nell'effetto McGurk.

Figure 2
Figura 2: Gli esseri umani producono suoni muovendo l'aria attraverso la gola e la bocca. Ciò comporta vibrazioni nella laringe. Un dato insieme di vibrazioni prodotte nella laringe può produrre più fonemi diversi ostruendo il flusso d'aria. Il luogo in cui viene posizionata un'ostruzione per creare un suono specifico è chiamato punto di articolazione. Tre importanti punti di articolazione sono noti come labiale, riferendosi alle labbra; dentale, riferendosi ai denti; e palatale, riferendosi al palato, o al tetto posteriore della bocca. La figura mostra come i fonemi prodotti e ascoltati nell'effetto McGurk differiscono in termini di punti di articolazione.

Ora che sai un po 'di come vengono prodotti questi suoni, la logica dell'effetto McGurk dovrebbe essere più evidente. Funziona così: il tuo cervello sa che alcuni fonemi sono in realtà abbastanza simili tra loro. Nell'effetto McGurk la parola bane viene suonata all'osservatore, guidata da un suono /b/. Ma la faccia nel video sta muovendo la bocca come farebbero per fare un suono /g/, e la parola guadagno. Il cervello riceve quindi input contrastanti dagli occhi e dalle orecchie. Per risolvere il conflitto, il cervello giunge alla conclusione che la verità è probabilmente da qualche parte nel mezzo. Poiché /d/ è il suono tra /b/ e /g/-in termini di produzione, questo è ciò che la gente sente. La stessa spiegazione vale per trasformare il conflitto tra padella e lattina in abbronzatura. /p/ è un suono labiale e /k/ è un suono palatale. Quello dentale in mezzo è /t/.

Subscription Required. Please recommend JoVE to your librarian.

Applications and Summary

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

Un posto in cui l'effetto McGurk è stato importante è capire come i bambini molto piccoli imparano la lingua parlata. Uno studio del 1997 è stato in grado di dimostrare che anche i bambini di 5 mesi percepiscono l'effetto McGurk. 2 Questo è importante perché suggerisce che le informazioni visive possono essere utilizzate dai neonati per risolvere una grande sfida all'apprendimento della lingua: analizzare un flusso audio continuo nelle sue unità. Pensa a come una lingua straniera parlata alla sua velocità normale possa sembrare un tale guazzabuglio che potresti non sapere nemmeno dove sono i confini della parola. Bene, se tutte le lingue sono estranee ai bambini, allora come fanno a capire dove sono le parole? L'effetto McGurk suggerisce che possono fare affidamento su modelli di articolazione facciale.

Subscription Required. Please recommend JoVE to your librarian.

References

  1. McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
  2. Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants. Perception & Psychophysics, 59(3), 347-357.

Transcript

Please note that all translations are automatically generated.

Click here for the English version.

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter