אפקט מקגורק

The McGurk Effect
JoVE Science Education
Sensation and Perception
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Science Education Sensation and Perception
The McGurk Effect

15,925 Views

08:13 min
April 30, 2023

Overview

מקור: המעבדה של ג’ונתן פלומבאום – אוניברסיטת ג’ונס הופקינס

שפה מדוברת, הישג אנושי ייחודי, מסתמכת במידה רבה על מנגנונים תפיסתיים מיוחדים. אחד המאפיינים החשובים של מנגנוני תפיסת השפה הוא שהם מסתמכים בו זמנית על מידע שמיעתי וחזותי. זה הגיוני, כי עד העידן המודרני, אדם יכול לצפות שרוב השפה תישמע באינטראקציות פנים אל פנים. ומכיוון שהפקת צלילי דיבור ספציפיים דורשת ביטוי מדויק, הפה יכול לספק מידע חזותי טוב על מה שמישהו אומר. למעשה, עם מבט מקרוב ובלתי מפריע על פניו של מישהו, הפה יכול לעתים קרובות לספק אותות חזותיים טובים יותר מאשר דיבור מספק אותות שמיעתיים. התוצאה היא שהמוח האנושי מעדיף קלט חזותי, ומשתמש בו כדי להפרך את העמימות הטבועה בשפה המדוברת.

הסתמכות זו על קלט חזותי כדי לפרש צליל תוארה על ידי הארי מקגורק וג’ון מקדונלד במאמר בשנת 1976 שנקרא שמיעה שפתיים וצפייה בקולות. 1 בעיתון זה, הם תיארו אשליה המתעוררת באמצעות חוסר התאמה בין הקלטת קול להקלטת וידאו. האשליה הזו נודעה כאפקט מקגורק. וידאו זה ידגים כיצד לייצר ולפרש את אפקט McGurk.

Procedure

1. גירויים

  1. כדי להפוך את McGurk לגירויים אפקט תצטרך מצלמת וידאו – הסוג על טלפון חכם הוא בסדר.
  2. תצטרך גם מחשב כדי לשלוט בהצגת הסרטונים לנושא נאיבי.
  3. כוון את המצלמה אל עצמך, כך שהראש שלך ימלא את הצג.
  4. הפוך ארבע הקלטות. כל אחד צריך להיות באורך 10. בכל אחת מארבע ההקלטות, תחזור על מילה 10 פעמים, בערך 1/s. הנה המילים: קללה, רווח, פאן, יכול. נסה לומר את המילים בכל סרטון בקצב דומה.

2. גרימת האשליה

  1. כדי לגרום לאשליה, אתה יכול לחבר יחד את הצליל מסרטון אחד ואת התמונה מסרטון אחר. אבל זה לא ממש הכרחי. קל יותר פשוט לעשות את זה באמצעות הטלפון והמחשב שלך בו זמנית. הנה איך.
  2. בשולחן העבודה של המחשב פתח את הווידאו שבו אתה אומר רווח. כבה את הצליל והפעל את הווידאו.
  3. בטלפון שלך לפתוח את הווידאו שבו אתה אומר ביין. שים את הטלפון מאחורי מסך המחשב כך שניתן יהיה לשמוע את הצליל, אך לא ניתן לראות את הווידאו. הפעל את הווידאו.
  4. בקשו מהצופה לצפות במסך המחשב בזמן ההאזנה, וכאשר הסרטון יסיים לפעול, שאלו אותו מה שמעו.
  5. עשה את אותו הדבר עבור סרטוני המחבת/יכול: הפעל את זרם התמונות שלך אומר יכול בזמן שהטלפון שלך מפעיל את זרם השמע מסרטון המחבת. שאל את המשתתף מה שמעה.

תפיסת השפה – בצורה מדוברת – נהנית מאינטראקציות פנים אל פנים, שכן הפה מספק מידע חזותי טוב להפקת צלילים ספציפיים.

לדוגמה, במצב קרוב ובלתי מופרע, אדם יכול לצפות בחברו מזכיר את הולך לחוף הים. במקרה זה, הם משתמשים בקלט חזותי – התבוננות בתנועה סביב השפתיים והלשון – כדי להבין בבירור את הנאמר.

עם זאת, אם החבר ממשיך לדבר מחוץ לטווח הראייה בחדר אחר, הם עלולים להתפתות לצפות בטלוויזיה המושתקת ולכן חייבים להסתמך אך ורק על הקול החסום כדי להבין את המסר.

במקרה זה, מה שנאמר למעשה בקצה הזנב, לבחור, הפריע לבעיטה השקטה והתפרש לא נכון כקרציה. זוהי דוגמה לאפקט מקגורק – אשליה תפיסתית המתעוררת באמצעות חוסר התאמה בין רמזים קוליים וחזותיים.

וידאו זה מדגים כיצד לבנות את הגירויים האודיו-קוליים כדי לבחון את התופעה שהתגלתה במקור על ידי מקגורק ומקדונלד. הוא גם חוקר כיצד ראייה מתקשרת עם הפקת קול כדי להבין כיצד אנשים לומדים שפה בגיל צעיר מאוד.

בניסוי זה, המשתתפים מתבקשים לצפות בסרטונים מושתקים, שבהם מילה כמו רווח מושמעת, בעוד שצליל כמו ביין מושמע בו זמנית ברקע. לאחר מכן, הם מתבקשים לחלוק את מה ששמעו.

כדי להבין את התוצאה, כיצד נוצרת האשליה, הבה נדון תחילה באופן שבו פונמות – היחידות המינימליות של צלילי הדיבור – מתבטאות.

לדוגמה, ביין ולרכוש לשתף את אותם אלמנטים בכל העמדות למעט הראשון, שהם הצלילים /b/ ו / g / .

למרות שמילים עם פונמות ראשוניות אלה עשויות להישמע דומות, כאשר הפרמטר /g/ מוצג ו- /b/ מושמע, אנשים צפויים לשמוע צליל שלישי שונה לחלוטין – /d/— במקום זאת.

הסיבה /d/ נשמעת נובעת מהעובדה כי כל השלושה מיוצרים בעצם באותו אופן, עם הבדל קטן בלבד שבו הרמקול מציב חסימה בזרימת האוויר, הנקראת נקודות הניסוח, או POA.

לדוגמה, כאשר נוצר צליל /b/ , השפתיים מספקות את החסימה, וכתוצאה מכך POA שפתיים, ואילו עבור /g/, הוא מכונה palatal – בחלק האחורי של הפה. באשר /d/, POA הוא דנטלי, תוצאה של הלשון נוגעת בשיניים העליונות.

כאשר המוח משלב את החזותי הסותר /g/ ושמיעתי /b/, הוא מסיק כי הצליל הסופי חייב לשכב איפשהו באמצע POAs, ובכך לשמוע /d/ ולדווח על המילה דיין.

כהכנה להדגמה, יש להשיג מחשב שיציג סרטונים וטלפון חכם עם מצלמת וידאו.

מקם תחילה את המצלמה כך שהראש ימלא את הצג. כעת, הקלט ארבעה קליפים של 10 שניות, שכל אחד מהם מכיל מילים שונות שיש לחזור עליהן 10 פעמים בקצב של מילה/שניה אחת. הקפד להעביר את הרווח ויכול קטעי וידאו למחשב להפעלה חזותית.

כדי לערוך את הניסוי, לשבת משתתף מול המחשב. פתח את קובץ הווידאו עבור רווח המילים וכבה את השמע.

בטלפון, פתח את הווידאו עבור ביין. מקם אותו מאחורי המחשב כך שהמסך שלו מוסתר ורק הצליל יכול להישמע בבירור.

הנחה את המשתתף לצפות בצג המחשב ולהאזין. לאחר מכן, הפעל את שני הסרטונים בו-זמנית.

כאשר הסרטונים מסתיימים, שאל את המשתתף מה שמע. [המשתתף אומר: “דיין”]. חזור על ההליך על-ידי הפעלת הווידאו של המילה יכול במחשב והצגת השמע עבור פאן בטלפון. שוב, שאל את המשתתף לגבי מה שהם שמעו. [המשתתף אומר: “שיזוף”].

כאן, המילים ביין ומחבת הושמעו בקול רם כאשר המשתתף צפה ברווח ויכול להיות בפה. בדרך כלל, כאשר מונח עם /g/ phoneme מוצג חזותית ומשויך לצליל /b/, אנשים ישמעו /d/.

כמו כן, כאשר מילה המתחילה ב- /k/ משויכת לצליל /p/, אנשים ישמעו /t/.

הסיבה מאחורי תפיסה שמיעתית כזו נובעת מהאופן שבו צלילים מיוצרים. המוח מנסה לפתור מידע סותר מהעיניים ורואה תנועות מעבדה – /b/ ו- /p/— בעוד האוזניים שומעות יחידות חיך – /g/ ו- /k/. כתוצאה מכך, הוא מסיק כי הצלילים חייבים לשכב באמצע, וכתוצאה מכך את התפיסה של פונמות שיניים – / ד / ו / t / .

עכשיו שאתם מכירים כיצד לייצר את אפקט מקגורק, בואו נסתכל על כמה דרכים אחרות שבהן חוקרים משתמשים בתופעה התפיסתית הזו כדי לחקור את התפתחות השפה ומקרים שבהם ההשפעה משתנה.

תינוקות יכולים אפילו להיבדק על אפקט McGurk כבר בגיל חמישה חודשים, כאשר הם טרום לשוניים, באמצעות פרדיגמה הרגלה של זמן מראה.

בהליך זה, רוזנבלום ועמיתיו הציגו שוב ושוב לתינוקות הברה מסוימת, כמו va, הן בתחומים האודיו והן בתחום החזותי לפני הצגת פונמות לא תואמות בשלב הבדיקה.

תינוקות הראו סימנים של הרגלה va – זמני המראה מופחתים – ו dishabituation, ציין כמו מראה מוגבר, כאשר משהו אחר מאשר va נתפס. לכן, עוד לפני שתינוקות יכולים לדבר, הם מציגים תוצאות דומות למבוגרים, שבהן הם מסתמכים על שימוש במידע חזותי לאפליה בשפה.

עם זאת, ילדים עם אוטיזם מתקשים יותר להציג את אפקט McGurk בקלות כמו פקדים בשל יכולתם הלקויה להבין ולטפל ברכיבי הפנים החזותיים. זה מצביע על הבדלים מהותיים בעיבוד דיבור אורקולי, אשר עשוי לתרום לקושי שלהם עם שפה ותקשורת.

לבסוף, חולים עם נגעים בחצי הכדור השמאלי שלהם – הצד השולט בדרך כלל להבנה ולמידה של שפה – משתמשים לעתים קרובות בתווי פנים חזותיים כדי לעזור במהלך טיפול בדיבור. מעניין, כאשר נבדק על אפקט McGurk, הם דיווחו לעתים קרובות יותר שמיעה צלילי שיניים לעומת פקדים. תפיסות כאלה נובעות ככל הנראה מהתמקדותן הגבוהה יותר במידע חזותי.

הרגע צפית בסרטון של ג’וב על אפקט מקגורק. עכשיו אתה צריך לדעת איך לנהל את האשליה האודיו-קולית הזו ולקשר פונמות לייצור קול. בנוסף, אתה צריך גם הבנה טובה יותר של האינטראקציות בין ראייה ושמיעה, וכיצד הם יכולים להיות מושפעים במהלך התפתחות ובגרות.

תודה שצפיתם!

Results

זכור, הצלילים שהושמעו לצופה שלך הם המילים ביין או פאן. אבל בסרטונים הנלווים, המילים המתבטאות הן רווח ויכולות בהתאמה. אז אילו מילים אנשים באמת ישמעו? התשובה היא לרוב אף אחד מארבעת אלה. במקום זאת, התוצאה האופיינית היא כי משקיפים במצב הקללה / רווח ישמעו את המילה דיין. וצופים במחבת / יכול מצב ישמע את המילה שיזוף.

כדי להבין למה אנחנו צריכים להבין קצת על איך פונמות מיוצרות. פונמה היא יחידה מינימלית של צליל דיבור. למילים ביין ולרווח יש את אותם פונמות בכל העמדות אבל הראשונה. במילה ביין הפונמה הראשונה היא צליל b, מסומן /b/. במילה רווח זה הצליל / g / . הצלילים הנותרים זהים – ולכן המילים מתחרזות. איור 1 מפרק את אפקט מקגורק במונחים של הפונמות הראשוניות בדוגמאות אלה. כאשר הפרמטר /b/ מוצג ומושמע /g/ , אנשים שומעים /d/. המילה דיין במילים אחרות גם מתחרזת עם קללה ורווח, עם הבדל פונטם אחד ממש בהתחלה.

Figure 1
איור 1: אפקט מקגורק מתרחש כאשר יש חוסר התאמה בין פונמה המתבטאת במצגת חזותית לבין פונמה שונה מושמעת בו-זמנית באמצעות רמקולים. עם פונמות החולקות תכונות ביטוי מסוימות, התוצאה שנשמעה עשויה שלא להתאים לאף אחד מהגירויים הלא תואמים. באי-התאמה נשמע צליל שלישי. באופן ספציפי, חזותי /g / עם שמיעתי /b / גורם פונטם /d / להישמע. זו הסיבה שרווח חזותי עם חריבה שמיעתית גורם לדיין להישמע. באופן דומה, חזותי /k / עם שמיעתי /p / מוביל את הצליל /t / להישמע. לכן יכול / פאן מייצר שיזוף באפקט McGurk.

מדוע סותרים /b/ ו/ g / לייצר a /d / באופן ספציפי? ובכן, /b/, /g/, ו/ d / הם באמת לא כל כך שונים אחד מהשני, במיוחד במונחים של איך הם מיוצרים. השלושה בעצם כרוכים בהעברת אותה כמות אוויר מהגרון של אדם דרך הפה שלהם, עם הבדל רק במקום שבו הרמקול מציב חסימה קטנה. כאשר מישהו משמיע קול / b , הם משתמשים בשפתיו כדי לחסום את האוויר; זה ידוע כנקודת רהוטה מעבדה. עבור צליל / g / , נקודת הניסוח היא palatal – זה רחוק בחלק האחורי של הפה. ולצליל / d / , נקודת הניסוח ידועה בשם שיניים מכיוון שאנשים חוסמים את זרימת האוויר דרך הפה על ידי נגיעה בלשונם לשיניים העליונות. איור 2 מציג את נקודות ההתבטאות היחסיות של שש הפונמות באפקט מקגורק.

Figure 2
איור 2: בני אדם מפיקים צלילים על ידי הזזת אוויר דרך גרונם ופיהם. זה כרוך בתנודות בגרון. קבוצה נתונה של תנודות המיוצרות בגרון יכול לייצר פונמות שונות מרובות על ידי חסימת זרימת האוויר. המקום שבו חסימה ממוקמת כדי ליצור צליל מסוים נקרא נקודת הניסוח. שלוש נקודות חשובות של ביטוי ידועות בשם labial, בהתייחסו לשפתיים; שיניים, בהתייחס לשיניים; ופלאטאל, בהתייחס לחיך, או לגג האחורי של הפה. האיור מראה כיצד הפונמות המיוצרות ונשמעות באפקט מקגורק שונות מבחינת נקודות הניסוח שלהן.

עכשיו שאתה יודע קצת על איך הצלילים האלה מיוצרים, ההיגיון של אפקט McGurk צריך להיות ברור יותר. זה עובד ככה: המוח שלך יודע שיש פונמות שלמעשה די דומות זו לזו. באפקט מקגורק המילה ביין מושמעת לצופה, מובלת על ידי צליל / b . אבל הפנים בסרטון מזיזות את הפה שלהם כפי שהם היו עושים צליל / g / ומילה רווח. לכן המוח מקבל תשומות סותרות מהעיניים והאוזניים. כדי לפתור את הסכסוך, המוח מגיע למסקנה שהאמת היא כנראה איפשהו באמצע. מאז /d/ הוא הצליל בין /b / ו / g / -במונחים של ייצור – זה מה שאנשים שומעים. אותו הסבר חל על הפיכת הקונפליקט בין פאן לפחית לשיזוף. /p/ הוא צליל מעבדה, ו/ k / הוא צליל פלטלי. הדנטלי שביניהם הוא /t/.

Applications and Summary

מקום אחד שאפקט מקגורק היה חשוב הוא להבין כיצד תינוקות צעירים מאוד לומדים שפה מדוברת. מחקר שנערך בשנת 1997 הצליח להראות שאפילו תינוקות בני 5 חודשים תופסים את אפקט מקגורק. 2 זה חשוב כי זה מרמז כי מידע חזותי עשוי לשמש תינוקות כדי לפתור אתגר גדול ללמוד שפה לנתח זרם שמע רציף ליחידות שלה. חשוב כיצד שפה זרה המדוברת במהירותה הרגילה יכולה להיראות כמו ערבוביה כזו שאולי אתה אפילו לא יודע היכן המילה גבולות. ובכן, אם כל השפות זרות לתינוקות, אז איך הם להבין איפה המילים? אפקט מקגורק מצביע על כך שהם יכולים להסתמך על דפוסי ביטוי פנים.

References

  1. McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
  2. Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants. Perception & Psychophysics, 59(3), 347-357.

Transcript

Language perception—in a spoken form—benefits from face-to-face interactions, as the mouth supplies good visual information for articulating specific sounds.

For instance, in an up-close and unobstructed situation, an individual can watch their friend mention going to the beach. In this case, they use visual input—observing the movement around the lips and tongue—to clearly comprehend what was said.

However, if the friend continues to talk out of sight in another room, they might be tempted to watch the muted television and therefore must solely rely on the obstructed voice to make sense of the message.

In this case, what was actually said at the tail end, pick, interfered with the silent kick and was misinterpreted as tick. This is an example of the McGurk Effect—a perceptual illusion that arises through a mismatch between sound and visual cues.

This video demonstrates how to construct the audiovisual stimuli to test the phenomenon originally discovered by McGurk and Macdonald. It also investigates how vision interacts with sound production to understand how individuals learn language at a very young age.

In this experiment, participants are asked to watch muted videos, in which a word like gain is mouthed, while a sound such as bane is played simultaneously in the background. Afterwards, they are asked to share what they heard.

To understand the outcome, how the illusion is produced, let’s first discuss how phonemes—the minimal units of speech sounds—are articulated.

For example, bane and gain share the same elements in all positions except for the first, which are the sounds /b/ and /g/.

Although words with these initial phonemes may sound similar, when /g/ is shown and /b/ is played, individuals are expected to hear a completely different third sound—/d/—instead.

The reason /d/ is heard is due to the fact that all three are basically produced in the same manner, with only a small difference in where the speaker places an obstruction in airflow, called the points of articulation, or POA.

For instance, when a /b/ sound is made, lips provide the obstruction, resulting in a labial POA, whereas for /g/, it’s referred to as palatal—in the back of the mouth. As for /d/, the POA is dental, a consequence of the tongue touching the upper teeth.

When the brain integrates the conflicting visual /g/ and auditory /b/, it concludes that the final sound must lie somewhere in the middle of POAs, thus hearing /d/ and reporting the word Dane.

In preparation for the demonstration, obtain a computer to present videos on and a smartphone with a video camera.

First position the camera so that your head fills the display. Now, record four 10-s clips, each one containing different words that should be repeated 10 times at a rate of 1 word/s. Make sure to transfer the gain and can videos to the computer for visual playback.

To conduct the experiment, sit a participant in front of the computer. Open up the video file for the word gain and turn off the audio.

On the phone, open up the video for bane. Place it behind the computer so that its screen is hidden and only the sound can be heard clearly.

Instruct the participant to watch the computer monitor and listen. Then, play both videos simultaneously.

When the clips end, ask the participant what they heard. [Participant says: “Dane”]. Repeat the procedure by playing the video of the word can on the computer and presenting the audio for pan on the phone. Once again, question the participant as to what they heard. [Participant says: “tan”].

Here, the words bane and pan were played aloud as the participant watched gain and can being mouthed. Typically, when a term with the /g/ phoneme is shown visually and paired with the sound /b/, individuals will hear /d/.

Likewise, when a word starting with /k/ is paired with the sound /p/, individuals will hear /t/.

The reason behind such auditory perception is due to the way that sounds are produced. The brain tries to resolve conflicting information from the eyes seeing labial movements—/b/ and /p/—while the ears hear palatal units—/g/ and /k/. As a result, it concludes that the sounds must lie in the middle, resulting in the perception of dental phonemes—/d/ and /t/.

Now that you are familiar with how to produce the McGurk effect, let’s look at some other ways that researchers use this perceptual phenomenon to investigate language development and cases in which the effect is altered.

Infants can even be tested on the McGurk effect as early as five months of age, when they are pre-linguistic, using an habituation-of-looking-time paradigm.

In this procedure, Rosenblum and colleagues repeatedly presented infants with a particular syllable, like va, in both the audio and visual domains before introducing mismatched phonemes in a testing phase.

Infants showed signs of habituation to va—reduced looking times—and dishabituation, noted as increased looking, when something other than va was perceived. Thus, even before infants can talk, they display similar results as adults, in which they rely on the use of visual information for language discrimination.

However, children with autism have greater difficulty exhibiting the McGurk effect as readily as controls due to their impaired ability to understand and attend to the visual facial components. This indicates fundamental differences in processing audiovisual speech, which may contribute to their difficulty with language and communication.

Lastly, patients with lesions in their left hemisphere—the side typically predominant for understanding and learning language—often use visual facial features to help during speech therapy. Interestingly, when tested on the McGurk effect, they more often reported hearing dental sounds compared to controls. Such perceptions are likely due to their higher focus on visual information.

You’ve just watched JoVE’s video on the McGurk Effect. Now you should know how to conduct this audiovisual illusion and relate phonemes to sound production. In addition, you should also have a better understanding of the interactions between vision and hearing, and how they can be affected during development and adulthood.

Thanks for watching!