Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
JoVE Science Education
Sensation and Perception

A subscription to JoVE is required to view this content.
You will only be able to see the first 20 seconds.

 

Overview

Fonte: Laboratório de Jonathan Flombaum - Universidade Johns Hopkins

A língua falada, uma conquista humana singular, depende fortemente de mecanismos perceptivos especializados. Uma característica importante dos mecanismos de percepção da linguagem é que eles dependem simultaneamente de informações auditivas e visuais. Isso faz sentido, porque até os tempos modernos, uma pessoa poderia esperar que a maioria da linguagem fosse ouvida em interações cara a cara. E como produzir sons de fala específicos requer uma articulação precisa, a boca pode fornecer boas informações visuais sobre o que alguém está dizendo. Na verdade, com uma visão de perto e desobstruída do rosto de alguém, a boca pode muitas vezes fornecer melhores sinais visuais do que sinais auditivos de fala. O resultado é que o cérebro humano favorece a entrada visual, e o usa para desambiguar a ambiguidade inerente na língua falada.

Essa dependência da entrada visual para interpretar o som foi descrita por Harry McGurk e John Macdonald em um artigo em 1976 chamado Ouvir lábios e ver vozes. 1 Nesse artigo, eles descreveram uma ilusão que surge através de uma incompatibilidade entre uma gravação de som e uma gravação de vídeo. Essa ilusão tornou-se conhecida como o efeito McGurk. Este vídeo demonstrará como produzir e interpretar o efeito McGurk.

Procedure

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

1. Estímulos

  1. Para fazer estímulos de efeito McGurk você vai precisar de uma câmera de vídeo - do tipo em um smartphone é bom.
  2. Você também precisará de um computador para controlar a apresentação dos vídeos para um assunto ingênuo.
  3. Aponte sua câmera para si mesmo, para que sua cabeça encha o display.
  4. Faça quatro gravações. Cada um deve ter 10 anos. Em cada uma das quatro gravações, você repetirá uma palavra 10 vezes, cerca de 1/s. Aqui estão as palavras: bane, gain, pan, can. Tente dizer as palavras em cada vídeo em um ritmo semelhante.

2. Induzir a Ilusão

  1. Para induzir a ilusão, você poderia unir o som de um vídeo e a imagem de outro. Mas isso não é realmente necessário. É mais fácil apenas fazê-lo usando seu telefone e um computador simultaneamente. Aqui está como.
  2. Na área de trabalho do seu computador abra o vídeo em que você está dizendo ganho. Desligue o som e reprodugue o vídeo.
  3. No seu telefone abra o vídeo em que você está dizendo bane. Coloque o telefone atrás da tela do computador para que o som possa ser ouvido, mas o vídeo não pode ser visto. Reprodução do vídeo.
  4. Peça a um observador para assistir a tela do computador enquanto escuta, e quando o vídeo terminar de ser reproduzido, pergunte-lhes o que ouviram.
  5. Faça o mesmo para os vídeos pan/can: Reproduza o fluxo de imagens de você dizendo pode enquanto seu telefone reproduz o fluxo de áudio do vídeo da panela. Pergunte à participante o que ela ouviu.

A percepção da linguagem — de forma falada — beneficia-se das interações presenciais, já que a boca fornece boas informações visuais para articular sons específicos.

Por exemplo, em uma situação de perto e desobstruída, um indivíduo pode ver seu amigo mencionar ir à praia. Neste caso, eles usam a entrada visual — observando o movimento ao redor dos lábios e da língua — para compreender claramente o que foi dito.

No entanto, se o amigo continuar a falar fora de vista em outra sala, eles podem ser tentados a assistir a televisão silenciada e, portanto, devem depender apenas da voz obstruída para dar sentido à mensagem.

Neste caso, o que foi realmente dito na extremidade traseira, pick, interferiu com o chute silencioso e foi mal interpretado como carrapato. Este é um exemplo do Efeito McGurk — uma ilusão perceptiva que surge através de uma incompatibilidade entre sinais sonoros e visuais.

Este vídeo demonstra como construir os estímulos audiovisuais para testar o fenômeno originalmente descoberto por McGurk e Macdonald. Também investiga como a visão interage com a produção sonora para entender como os indivíduos aprendem a língua em uma idade muito jovem.

Neste experimento, os participantes são convidados a assistir vídeos silenciados, nos quais uma palavra como ganho é falada, enquanto um som como bane é reproduzido simultaneamente ao fundo. Depois, eles são convidados a compartilhar o que ouviram.

Para entender o resultado, como a ilusão é produzida, vamos primeiro discutir como os fonemas — as unidades mínimas de sons da fala — são articulados.

Por exemplo, bane e ganhe compartilhar os mesmos elementos em todas as posições, exceto o primeiro, que são os sons /b/ e /g/.

Embora as palavras com esses foneões iniciais possam soar semelhantes, quando /g/ é mostrado e /b/ é reproduzido, espera-se que os indivíduos ouçam um terceiro som completamente diferente —/d/— em vez disso.

A razão de ser ouvida é devido ao fato de que todos os três são basicamente produzidos da mesma forma, com apenas uma pequena diferença em que o alto-falante coloca uma obstrução no fluxo de ar, chamado de pontos de articulação, ou POA.

Por exemplo, quando um /b/ som é feito, os lábios fornecem a obstrução, resultando em um POA labial, enquanto para /g/, é referido como palatal — na parte de trás da boca. Quanto ao /d/, o POA é dental, uma consequência da língua tocando os dentes superiores.

Quando o cérebro integra o visual conflitante /g/ e auditivo /b/, conclui que o som final deve estar em algum lugar no meio dos POAs, ouvindo /d/ e relatando a palavra Dane.

Em preparação para a demonstração, obtenha um computador para apresentar vídeos e um smartphone com uma câmera de vídeo.

Primeiro posicione a câmera para que sua cabeça preencha o visor. Agora, grave quatro clipes de 10 s, cada um contendo palavras diferentes que devem ser repetidas 10 vezes a uma taxa de 1 palavra/s. Certifique-se de transferir o ganho e pode fazer vídeos para o computador para reprodução visual.

Para realizar o experimento, sente-se um participante na frente do computador. Abra o arquivo de vídeo para o ganho de palavra e desligue o áudio.

No telefone, abra o vídeo para bane. Coloque-o atrás do computador para que sua tela esteja escondida e apenas o som possa ser ouvido claramente.

Instrua o participante a observar o monitor do computador e ouvir. Em seguida, reprodução ambos os vídeos simultaneamente.

Quando os clipes terminarem, pergunte ao participante o que eles ouviram. [Participante diz: "Dane"]. Repita o procedimento reproduzindo o vídeo da palavra no computador e apresentando o áudio para panela no telefone. Mais uma vez, questione o participante sobre o que ouviu. [Participante diz: "bronzeado"].

Aqui, as palavras bane e pan foram tocadas em voz alta enquanto o participante assistia ganho e pode ser falado. Normalmente, quando um termo com o /g/ phoneme é mostrado visualmente e emparelhado com o som /b/, os indivíduos ouvirão /d/.

Da mesma forma, quando uma palavra que começa com /k/ é emparelhada com o som /p/, os indivíduos ouvirão /t/.

A razão por trás dessa percepção auditiva deve-se à forma como os sons são produzidos. O cérebro tenta resolver informações conflitantes dos olhos vendo movimentos labiais —/b/ e /p/— enquanto os ouvidos ouvem unidades palatais —/g/ e /k/. Como resultado, conclui-se que os sons devem estar no meio, resultando na percepção das fonemes dentárias —/d/ e /t/.

Agora que você está familiarizado com como produzir o efeito McGurk, vamos olhar para algumas outras maneiras que os pesquisadores usam este fenômeno perceptivo para investigar o desenvolvimento da linguagem e casos em que o efeito é alterado.

Os bebês podem até ser testados no efeito McGurk a partir dos cinco meses de idade, quando são pré-linguísticos, usando um paradigma de habitação de tempo.

Neste procedimento, Rosenblum e colegas apresentaram repetidamente aos bebês uma sílaba particular, como va, tanto nos domínios audiovisuais quanto no visual antes de introduzir fonemas incompatíveis em uma fase de teste.

Os bebês apresentaram sinais de habituação ao va — tempos de aparência reduzidos — e desabitação, notado como aumento da aparência, quando algo além de va foi percebido. Assim, mesmo antes de os bebês poderem falar, eles apresentam resultados semelhantes aos adultos, nos quais dependem do uso de informações visuais para discriminação linguística.

No entanto, crianças com autismo têm maior dificuldade em exibir o efeito McGurk tão facilmente quanto os controles devido à sua capacidade prejudicada de entender e atender aos componentes faciais visuais. Isso indica diferenças fundamentais no processamento da fala audiovisual, o que pode contribuir para sua dificuldade com a linguagem e a comunicação.

Por fim, pacientes com lesões no hemisfério esquerdo — o lado tipicamente predominante para compreensão e aprendizado de linguagem — geralmente usam características faciais visuais para ajudar durante a fonoaudiologia. Curiosamente, quando testados sobre o efeito McGurk, eles mais frequentemente relataram ouvir sons dentários em comparação com controles. Tais percepções são prováveis devido ao seu maior foco em informações visuais.

Você acabou de ver o vídeo do JoVE no Efeito McGurk. Agora você deve saber como conduzir essa ilusão audiovisual e relacionar fonemes à produção sonora. Além disso, você também deve ter uma melhor compreensão das interações entre visão e audição, e como elas podem ser afetadas durante o desenvolvimento e a idade adulta.

Obrigado por assistir!

Subscription Required. Please recommend JoVE to your librarian.

Results

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

Lembre-se, os sons tocados para o seu observador são as palavras bane ou pan. Mas nos vídeos que acompanham, as palavras que estão sendo articuladas são ganhos e podem, respectivamente. Então, quais palavras as pessoas realmente ouvirão? A resposta é, na maioria das vezes, nenhuma dessas quatro. Em vez disso, o resultado típico é que os observadores na condição de bane/gain ouvirão a palavra Dinamarquês. E os observadores da condição pan/lata ouvirão a palavra bronzeamento.

Para entender por que precisamos entender um pouco sobre como os fonemes são produzidos. Um fonema é uma unidade mínima de som de fala. As palavras bane e gain têm os mesmos fonemes em todas as posições, menos na primeira. Na palavra bane o primeiro foneme é um som b, denotado /b/. No ganho de palavra é o som /g/. Os sons restantes são os mesmos- é por isso que as palavras rimam. A Figura 1 quebra o efeito McGurk em termos dos fonemes iniciais nestes exemplos. Quando /b/ é mostrado e /g/ é reproduzido, as pessoas ouvem /d/. A palavra Dinamarquês em outras palavras também rima com bane e ganho, com uma diferença de um fone no início.

Figure 1
Figura 1: O efeito McGurk acontece quando há uma incompatibilidade entre um fonema que é articulado em uma apresentação visual e diferentes fonema é reproduzido simultaneamente através de alto-falantes. Com fonemas que compartilham certas propriedades de articulação, o resultado ouvido pode não coincidir com nenhum dos estímulos incomparáveis. No descompasso faz com que um terceiro som seja ouvido. Especificamente, um visual /g/ com um auditivo /b/ faz com que o foneme /d/ seja ouvido. É por isso que um ganho visual com um bane auditivo resulta em Dane sendo ouvido. Da mesma forma, um visual /k/ com um auditivo /p/ leva o som /t/ a ser ouvido. É por isso que a lata/pan produz bronzeado no efeito McGurk.

Por que conflitantes /b/ e /g/ produzem a /d/ especificamente? Bem, /b/, /g/, e /d/ não são realmente tão diferentes um do outro, especialmente em termos de como eles são produzidos. Os três basicamente envolvem mover a mesma quantidade de ar da laringe de uma pessoa através de sua boca, com apenas uma diferença em que o alto-falante coloca uma pequena obstrução. Quando alguém faz um /b/ som, usa os lábios para obstruir o ar; isso é conhecido como um ponto labial de articulação. Para um /g/ som, o ponto de articulação é palatal- está longe na parte de trás da boca. E para um /d/ som, o ponto de articulação é conhecido como odontológico porque as pessoas obstruem o fluxo de ar através da boca tocando suas línguas até os dentes superiores. A Figura 2 mostra os pontos relativos de articulação para os seis fonemes no efeito McGurk.

Figure 2
Figura 2: Humanos produzem sons movendo o ar através de suas gargantas e boca. Isso envolve vibrações na laringe. Um determinado conjunto de vibrações produzidas na laringe pode produzir vários fonem diferentes, obstruindo o fluxo de ar. O lugar onde uma obstrução é colocada para criar um som específico é chamado de ponto de articulação. Três pontos importantes de articulação são conhecidos como labial, referindo-se aos lábios; odontológico, referindo-se aos dentes; e palatal, referindo-se ao paladar, ou ao céu traseiro da boca. A figura mostra como as fonemes produzidas e ouvidas no efeito McGurk diferem em termos de seus pontos de articulação.

Agora que você sabe um pouco sobre como esses sons são produzidos, a lógica do efeito McGurk deve ser mais aparente. Funciona assim: seu cérebro sabe que alguns fonemes são realmente muito semelhantes um ao outro. No efeito McGurk, a palavra bane é tocada para o observador, liderada por um /b/ som. Mas o rosto no vídeo está movendo a boca como fariam para fazer um /g/ som, e a palavra ganhar. O cérebro recebe, portanto, entradas conflitantes dos olhos e ouvidos. Para resolver o conflito, o cérebro chega à conclusão de que a verdade provavelmente está em algum lugar no meio. Uma vez que /d/ é o som entre /b/ e /g/-em termos de produção - isso é o que as pessoas ouvem. A mesma explicação se aplica para transformar o conflito entre panela e lata em bronzeado. /p/ é um som labial, e /k/ é um som palatal. O dentário no meio é /t/.

Subscription Required. Please recommend JoVE to your librarian.

Applications and Summary

or Start trial to access full content. Learn more about your institution’s access to JoVE content here

Um lugar que o efeito McGurk tem sido importante é entender como crianças muito jovens aprendem a língua falada. Um estudo em 1997 foi capaz de mostrar que mesmo bebês de 5 meses de idade percebem o efeito McGurk. 2 Isso é importante porque sugere que as informações visuais podem ser usadas por bebês para resolver um grande desafio para aprender a analisar um fluxo de áudio contínuo em suas unidades. Pense em como uma língua estrangeira falada em sua velocidade normal pode parecer uma confusão que você pode nem saber onde estão os limites da palavra. Bem, se todas as línguas são estranhas aos bebês, então como eles descobrem onde estão as palavras? O efeito McGurk sugere que eles podem confiar em padrões de articulação facial.

Subscription Required. Please recommend JoVE to your librarian.

References

  1. McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
  2. Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants. Perception & Psychophysics, 59(3), 347-357.

Transcript

Please note that all translations are automatically generated.

Click here for the English version.

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter