L'effetto McGurk

JoVE Science Education
Sensation and Perception
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Science Education Sensation and Perception
The McGurk Effect

15,874 Views

08:13 min
April 30, 2023

Overview

Fonte: Laboratorio di Jonathan Flombaum—Johns Hopkins University

La lingua parlata, una singolare conquista umana, si basa fortemente su meccanismi percettivi specializzati. Una caratteristica importante dei meccanismi di percezione del linguaggio è che si basano contemporaneamente su informazioni uditive e visive. Questo ha senso, perché fino ai tempi moderni, una persona poteva aspettarsi che la maggior parte della lingua sarebbe stata ascoltata nelle interazioni faccia a faccia. E poiché la produzione di suoni vocali specifici richiede un’articolazione precisa, la bocca può fornire buone informazioni visive su ciò che qualcuno sta dicendo. Infatti, con una visione ravvicinata e senza ostacoli del viso di qualcuno, la bocca può spesso fornire segnali visivi migliori rispetto ai segnali uditivi che forniscono segnali uditivi. Il risultato è che il cervello umano favorisce l’input visivo e lo usa per disambiguare l’ambiguità intrinseca nel linguaggio parlato.

Questa dipendenza dall’input visivo per interpretare il suono è stata descritta da Harry McGurk e John Macdonald in un articolo del 1976 intitolato Hearing lips and seeing voices. 1 In quel documento, essi descrivevano un’illusione che sorge a seguito di una mancata corrispondenza tra una registrazione sonora e una registrazione video. Questa illusione è diventata nota come effetto McGurk. Questo video dimostrerà come produrre e interpretare l’effetto McGurk.

Procedure

1. Stimoli

  1. Per rendere gli stimoli dell’effetto McGurk avrai bisogno di una videocamera, del tipo su uno smartphone va bene.
  2. Avrai anche bisogno di un computer per controllare la presentazione dei video a un soggetto ingenuo.
  3. Punta la fotocamera verso te stesso, in modo che la testa riempia il display.
  4. Fai quattro registrazioni. Ognuno dovrebbe essere lungo 10 s. In ciascuna delle quattro registrazioni, ripeterai una parola 10 volte, circa 1/s. Ecco le parole: bane, gain, pan, can. Prova a pronunciare le parole in ogni video a un ritmo simile.

2. Indurre l’illusione

  1. Per indurre l’illusione, potresti unire insieme il suono di un video e l’immagine di un altro. Ma non è davvero necessario. È più facile farlo semplicemente usando il telefono e un computer contemporaneamente. Ecco come.
  2. Sul desktop del tuo computer apri il video in cui stai dicendo guadagno. Disattiva l’audio e riproduci il video.
  3. Sul tuo telefono apri il video in cui stai dicendo bane. Metti il telefono dietro lo schermo del computer in modo che il suono possa essere ascoltato, ma il video non può essere visto. Riproduci il video.
  4. Chiedi a un osservatore di guardare lo schermo del computer durante l’ascolto e, quando il video ha finito di riprodurlo, chiedi loro cosa hanno sentito.
  5. Fai lo stesso per i video pan/can: riproduci il flusso di immagini di te che dici di puoi mentre il tuo telefono riproduce il flusso audio dal video pan. Chiedi al partecipante cosa ha sentito.

La percezione del linguaggio, in una forma parlata, beneficia delle interazioni faccia a faccia, poiché la bocca fornisce buone informazioni visive per articolare suoni specifici.

Ad esempio, in una situazione ravvicinata e senza ostacoli, un individuo può guardare il proprio amico menzionare di andare in spiaggia. In questo caso, usano l’input visivo– osservando il movimento intorno alle labbra e alla lingua – per comprendere chiaramente ciò che è stato detto.

Tuttavia, se l’amico continua a parlare fuori dalla vista in un’altra stanza, potrebbe essere tentato di guardare la televisione in sordina e quindi deve fare affidamento esclusivamente sulla voce ostruita per dare un senso al messaggio.

In questo caso, ciò che è stato effettivamente detto all’estremità della coda, pick, ha interferito con il calcio silenzioso ed è stato interpretato erroneamente come tick. Questo è un esempio dell’effetto McGurk, un’illusione percettiva che sorge attraverso una mancata corrispondenza tra segnali sonori e visivi.

Questo video dimostra come costruire gli stimoli audiovisivi per testare il fenomeno originariamente scoperto da McGurk e Macdonald. Studia anche come la visione interagisce con la produzione del suono per capire come gli individui imparano la lingua in età molto giovane.

In questo esperimento, ai partecipanti viene chiesto di guardare video muti, in cui una parola come guadagno viene pronunciata, mentre un suono come bane viene riprodotto contemporaneamente in sottofondo. Successivamente, viene chiesto loro di condividere ciò che hanno sentito.

Per capire il risultato, come viene prodotta l’illusione, discutiamo prima di come i fonemi – le unità minime dei suoni vocali – sono articolati.

Ad esempio, bane e gain condividono gli stessi elementi in tutte le posizioni ad eccezione della prima, che sono i suoni /b/ e /g/.

Sebbene le parole con questi fonemi iniziali possano sembrare simili, quando viene mostrato /g/ e viene riprodotto /b/, ci si aspetta che gli individui sentano un terzo suono completamente diverso.

Il motivo per cui /d/ viene ascoltato è dovuto al fatto che tutti e tre sono fondamentalmente prodotti nello stesso modo, con solo una piccola differenza in cui l’altoparlante pone un’ostruzione nel flusso d’aria, chiamata punti di articolazione o POA.

Ad esempio, quando viene prodotto un suono /b/, le labbra forniscono l’ostruzione, risultando in un POA labiale, mentre per /g/, è indicato come palatale, nella parte posteriore della bocca. Per quanto riguarda /d/, il POA è dentale, una conseguenza della lingua che tocca i denti superiori.

Quando il cervello integra il conflitto visivo /g/ e uditivo /b/, conclude che il suono finale deve trovarsi da qualche parte nel mezzo dei POA, sentendo così /d/ e riportando la parola danese.

In preparazione alla dimostrazione, procuratevi un computer per presentare i video e uno smartphone con una videocamera.

Per prima cosa posiziona la fotocamera in modo che la tua testa riempia il display. Ora, registra quattro clip da 10 s, ognuna contenente parole diverse che dovrebbero essere ripetute 10 volte ad una velocità di 1 parola / s. Assicurati di trasferire i video di guadagno e lattina al computer per la riproduzione visiva.

Per condurre l’esperimento, siediti un partecipante davanti al computer. Apri il file video per il guadagno della parola e disattiva l’audio.

Al telefono, apri il video per la rovina. Posizionalo dietro il computer in modo che il suo schermo sia nascosto e solo il suono possa essere sentito chiaramente.

Istruire il partecipante a guardare il monitor del computer e ascoltare. Quindi, riproduci entrambi i video contemporaneamente.

Quando le clip terminano, chiedi al partecipante cosa ha sentito. [Il partecipante dice: “Dane”]. Ripeti la procedura riproducendo il video della parola può sul computer e presentando l’audio per la panoramica sul telefono. Ancora una volta, interroga il partecipante su ciò che ha sentito. [Il partecipante dice: “abbronzatura”].

Qui, le parole bane e pan sono state suonate ad alta voce mentre il partecipante guardava guadagnare e può essere boccata. In genere, quando un termine con il fonema /g/ viene mostrato visivamente e abbinato al suono /b/, gli individui sentiranno /d/.

Allo stesso modo, quando una parola che inizia con /k/ è abbinata al suono /p/, gli individui sentiranno /t/.

La ragione alla base di tale percezione uditiva è dovuta al modo in cui i suoni vengono prodotti. Il cervello cerca di risolvere le informazioni contrastanti dagli occhi che vedono movimenti labiali – / b / e / p / – mentre le orecchie sentono unità palatali – / g / e / k /. Di conseguenza, conclude che i suoni devono trovarsi nel mezzo, con conseguente percezione dei fonemi dentali —/d/ e /t/.

Ora che hai familiarità con come produrre l’effetto McGurk, diamo un’occhiata ad alcuni altri modi in cui i ricercatori usano questo fenomeno percettivo per indagare sullo sviluppo del linguaggio e sui casi in cui l’effetto è alterato.

I neonati possono anche essere testati sull’effetto McGurk già a cinque mesi di età, quando sono pre-linguistici, usando un paradigma di assuefazione del tempo.

In questa procedura, Rosenblum e colleghi hanno ripetutamente presentato ai bambini una particolare sillaba, come va, sia nel dominio audio che in quello visivo prima di introdurre fonemi non corrispondenti in una fase di test.

I neonati mostravano segni di assuefazione a va – tempi di ricerca ridotti – e disassuefazione, notata come aumento dell’aspetto, quando veniva percepito qualcosa di diverso da va. Pertanto, anche prima che i bambini possano parlare, mostrano risultati simili a quelli degli adulti, in cui si basano sull’uso di informazioni visive per la discriminazione linguistica.

Tuttavia, i bambini con autismo hanno maggiori difficoltà a mostrare l’effetto McGurk con la dovuta facilità dei controlli a causa della loro ridotta capacità di comprendere e occuparsi dei componenti visivi del viso. Ciò indica differenze fondamentali nell’elaborazione del parlato audiovisivo, che possono contribuire alla loro difficoltà con il linguaggio e la comunicazione.

Infine, i pazienti con lesioni nel loro emisfero sinistro – il lato tipicamente predominante per la comprensione e l’apprendimento del linguaggio – spesso usano caratteristiche facciali visive per aiutare durante la logopedia. È interessante notare che, quando testati sull’effetto McGurk, hanno riferito più spesso di sentire suoni dentali rispetto ai controlli. Tali percezioni sono probabilmente dovute alla loro maggiore attenzione alle informazioni visive.

Hai appena visto il video di JoVE sull’effetto McGurk. Ora dovresti sapere come condurre questa illusione audiovisiva e mettere in relazione i fonemi con la produzione del suono. Inoltre, dovresti anche avere una migliore comprensione delle interazioni tra visione e udito e di come possono essere influenzate durante lo sviluppo e l’età adulta.

Grazie per l’attenzione!

Results

Ricorda, i suoni riprodotti al tuo osservatore sono le parole bane o pan. Ma nei video di accompagnamento, le parole articolate sono rispettivamente guadagno e possono. Quindi quali parole sentiranno effettivamente le persone? La risposta è il più delle volte nessuna di queste quattro. Invece, il risultato tipico è che gli osservatori nella condizione di bane / guadagno sentiranno la parola danese. E gli osservatori nella condizione pan/can sentiranno la parola abbronzatura.

Per capire perché abbiamo bisogno di capire un po ‘su come vengono prodotti i fonemi. Un fonema è un’unità minima di suono vocale. Le parole bane e gain hanno gli stessi fonemi in tutte le posizioni tranne la prima. Nella parola bane il primo fonema è un suono b, indicato con /b/. Nella parola guadagno è il suono /g/. I suoni rimanenti sono gli stessi, motivo per cui le parole fanno rima. La Figura 1 suddivide l’effetto McGurk in termini di fonemi iniziali in questi esempi. Quando viene mostrato /b/ e viene riprodotto /g/, le persone sentono /d/. La parola danese in altre parole fa anche rima con bane e gain, con una differenza di un fonema proprio all’inizio.

Figure 1
Figura 1: L’effetto McGurk si verifica quando c’è una mancata corrispondenza tra un fonema articolato in una presentazione visiva e un fonema diverso viene riprodotto contemporaneamente attraverso gli altoparlanti. Con i fonemi che condividono determinate proprietà di articolazione, il risultato udito potrebbe non corrispondere a nessuno degli stimoli non corrispondenti. Nella mancata corrispondenza si sente un terzo suono. In particolare, una /g/ visiva con una /b/ uditiva fa sì che il fonema /d/ venga ascoltato. Questo è il motivo per cui un guadagno visivo con un bane uditivo fa sentire Dane. Allo stesso modo, una /k/ visiva con una /p/ uditiva porta il suono /t/ ad essere ascoltato. Ecco perché can/pan produce abbronzatura nell’effetto McGurk.

Perché i conflitti /b/ e /g/ producono una /d/ in particolare? Beh, /b/, /g/, e /d/ non sono poi così diversi l’uno dall’altro, specialmente in termini di come vengono prodotti. I tre fondamentalmente comportano lo spostamento della stessa quantità di aria dalla laringe di una persona attraverso la bocca, con solo una differenza in cui l’altoparlante posiziona una piccola ostruzione. Quando qualcuno emette un suono /b/, usa le labbra per ostruire l’aria; questo è noto come punto labiale di articolazione. Per un suono /g/, il punto di articolazione è palatale: è lontano nella parte posteriore della bocca. E per un suono /d/, il punto di articolazione è noto come dentale perché le persone ostruiscono il flusso d’aria attraverso la bocca toccando la lingua ai denti superiori. La Figura 2 mostra i punti relativi di articolazione per i sei fonemi nell’effetto McGurk.

Figure 2
Figura 2: Gli esseri umani producono suoni muovendo l’aria attraverso la gola e la bocca. Ciò comporta vibrazioni nella laringe. Un dato insieme di vibrazioni prodotte nella laringe può produrre più fonemi diversi ostruendo il flusso d’aria. Il luogo in cui viene posizionata un’ostruzione per creare un suono specifico è chiamato punto di articolazione. Tre importanti punti di articolazione sono noti come labiale, riferendosi alle labbra; dentale, riferendosi ai denti; e palatale, riferendosi al palato, o al tetto posteriore della bocca. La figura mostra come i fonemi prodotti e ascoltati nell’effetto McGurk differiscono in termini di punti di articolazione.

Ora che sai un po ‘di come vengono prodotti questi suoni, la logica dell’effetto McGurk dovrebbe essere più evidente. Funziona così: il tuo cervello sa che alcuni fonemi sono in realtà abbastanza simili tra loro. Nell’effetto McGurk la parola bane viene suonata all’osservatore, guidata da un suono /b/. Ma la faccia nel video sta muovendo la bocca come farebbero per fare un suono /g/, e la parola guadagno. Il cervello riceve quindi input contrastanti dagli occhi e dalle orecchie. Per risolvere il conflitto, il cervello giunge alla conclusione che la verità è probabilmente da qualche parte nel mezzo. Poiché /d/ è il suono tra /b/ e /g/-in termini di produzione, questo è ciò che la gente sente. La stessa spiegazione vale per trasformare il conflitto tra padella e lattina in abbronzatura. /p/ è un suono labiale e /k/ è un suono palatale. Quello dentale in mezzo è /t/.

Applications and Summary

Un posto in cui l’effetto McGurk è stato importante è capire come i bambini molto piccoli imparano la lingua parlata. Uno studio del 1997 è stato in grado di dimostrare che anche i bambini di 5 mesi percepiscono l’effetto McGurk. 2 Questo è importante perché suggerisce che le informazioni visive possono essere utilizzate dai neonati per risolvere una grande sfida all’apprendimento della lingua: analizzare un flusso audio continuo nelle sue unità. Pensa a come una lingua straniera parlata alla sua velocità normale possa sembrare un tale guazzabuglio che potresti non sapere nemmeno dove sono i confini della parola. Bene, se tutte le lingue sono estranee ai bambini, allora come fanno a capire dove sono le parole? L’effetto McGurk suggerisce che possono fare affidamento su modelli di articolazione facciale.

References

  1. McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
  2. Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants. Perception & Psychophysics, 59(3), 347-357.

Transcript

Language perception—in a spoken form—benefits from face-to-face interactions, as the mouth supplies good visual information for articulating specific sounds.

For instance, in an up-close and unobstructed situation, an individual can watch their friend mention going to the beach. In this case, they use visual input—observing the movement around the lips and tongue—to clearly comprehend what was said.

However, if the friend continues to talk out of sight in another room, they might be tempted to watch the muted television and therefore must solely rely on the obstructed voice to make sense of the message.

In this case, what was actually said at the tail end, pick, interfered with the silent kick and was misinterpreted as tick. This is an example of the McGurk Effect—a perceptual illusion that arises through a mismatch between sound and visual cues.

This video demonstrates how to construct the audiovisual stimuli to test the phenomenon originally discovered by McGurk and Macdonald. It also investigates how vision interacts with sound production to understand how individuals learn language at a very young age.

In this experiment, participants are asked to watch muted videos, in which a word like gain is mouthed, while a sound such as bane is played simultaneously in the background. Afterwards, they are asked to share what they heard.

To understand the outcome, how the illusion is produced, let’s first discuss how phonemes—the minimal units of speech sounds—are articulated.

For example, bane and gain share the same elements in all positions except for the first, which are the sounds /b/ and /g/.

Although words with these initial phonemes may sound similar, when /g/ is shown and /b/ is played, individuals are expected to hear a completely different third sound—/d/—instead.

The reason /d/ is heard is due to the fact that all three are basically produced in the same manner, with only a small difference in where the speaker places an obstruction in airflow, called the points of articulation, or POA.

For instance, when a /b/ sound is made, lips provide the obstruction, resulting in a labial POA, whereas for /g/, it’s referred to as palatal—in the back of the mouth. As for /d/, the POA is dental, a consequence of the tongue touching the upper teeth.

When the brain integrates the conflicting visual /g/ and auditory /b/, it concludes that the final sound must lie somewhere in the middle of POAs, thus hearing /d/ and reporting the word Dane.

In preparation for the demonstration, obtain a computer to present videos on and a smartphone with a video camera.

First position the camera so that your head fills the display. Now, record four 10-s clips, each one containing different words that should be repeated 10 times at a rate of 1 word/s. Make sure to transfer the gain and can videos to the computer for visual playback.

To conduct the experiment, sit a participant in front of the computer. Open up the video file for the word gain and turn off the audio.

On the phone, open up the video for bane. Place it behind the computer so that its screen is hidden and only the sound can be heard clearly.

Instruct the participant to watch the computer monitor and listen. Then, play both videos simultaneously.

When the clips end, ask the participant what they heard. [Participant says: “Dane”]. Repeat the procedure by playing the video of the word can on the computer and presenting the audio for pan on the phone. Once again, question the participant as to what they heard. [Participant says: “tan”].

Here, the words bane and pan were played aloud as the participant watched gain and can being mouthed. Typically, when a term with the /g/ phoneme is shown visually and paired with the sound /b/, individuals will hear /d/.

Likewise, when a word starting with /k/ is paired with the sound /p/, individuals will hear /t/.

The reason behind such auditory perception is due to the way that sounds are produced. The brain tries to resolve conflicting information from the eyes seeing labial movements—/b/ and /p/—while the ears hear palatal units—/g/ and /k/. As a result, it concludes that the sounds must lie in the middle, resulting in the perception of dental phonemes—/d/ and /t/.

Now that you are familiar with how to produce the McGurk effect, let’s look at some other ways that researchers use this perceptual phenomenon to investigate language development and cases in which the effect is altered.

Infants can even be tested on the McGurk effect as early as five months of age, when they are pre-linguistic, using an habituation-of-looking-time paradigm.

In this procedure, Rosenblum and colleagues repeatedly presented infants with a particular syllable, like va, in both the audio and visual domains before introducing mismatched phonemes in a testing phase.

Infants showed signs of habituation to va—reduced looking times—and dishabituation, noted as increased looking, when something other than va was perceived. Thus, even before infants can talk, they display similar results as adults, in which they rely on the use of visual information for language discrimination.

However, children with autism have greater difficulty exhibiting the McGurk effect as readily as controls due to their impaired ability to understand and attend to the visual facial components. This indicates fundamental differences in processing audiovisual speech, which may contribute to their difficulty with language and communication.

Lastly, patients with lesions in their left hemisphere—the side typically predominant for understanding and learning language—often use visual facial features to help during speech therapy. Interestingly, when tested on the McGurk effect, they more often reported hearing dental sounds compared to controls. Such perceptions are likely due to their higher focus on visual information.

You’ve just watched JoVE’s video on the McGurk Effect. Now you should know how to conduct this audiovisual illusion and relate phonemes to sound production. In addition, you should also have a better understanding of the interactions between vision and hearing, and how they can be affected during development and adulthood.

Thanks for watching!