Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
JoVE Science Education
Neuropsychology

A subscription to JoVE is required to view this content.

Decodifica delle immagini uditive con l'analisi del modello multivoxel
 
Click here for the English version

Decodifica delle immagini uditive con l'analisi del modello multivoxel

Overview

Fonte: Laboratori di Jonas T. Kaplan e Sarah I. Gimbel—University of Southern California

Immagina il suono di una campana che suona. Cosa sta succedendo nel cervello quando evochiamo un suono come questo nell'"orecchio della mente"? Ci sono prove crescenti che il cervello usa gli stessi meccanismi per l'immaginazione che usa per la percezione. 1 Ad esempio, quando si immaginano immagini visive, la corteccia visiva si attiva e, quando si immaginano i suoni, la corteccia uditiva è impegnata. Tuttavia, fino a che punto queste attivazioni di cortecce sensoriali sono specifiche per il contenuto della nostra immaginazione?

Una tecnica che può aiutare a rispondere a questa domanda è l'analisi del modello multivoxel (MPVA), in cui le immagini cerebrali funzionali vengono analizzate utilizzando tecniche di apprendimento automatico. 2-3 In un esperimento MPVA, addestramo un algoritmo di apprendimento automatico per distinguere tra i vari modelli di attività evocati da stimoli diversi. Ad esempio, potremmo chiederci se immaginare il suono di una campana produce diversi modelli di attività nella corteccia uditiva rispetto all'immaginare il suono di una motosega o il suono di un violino. Se il nostro classificatore impara a distinguere i modelli di attività cerebrale prodotti da questi tre stimoli, allora possiamo concludere che la corteccia uditiva viene attivata in modo distinto da ogni stimolo. Un modo per pensare a questo tipo di esperimento è che invece di porre una domanda semplicemente sull'attività di una regione del cervello, facciamo una domanda sul contenuto informativo di quella regione.

In questo esperimento, basato su Meyer et al.,2010,4 suggeriremo ai partecipanti di immaginare diversi suoni presentando loro video silenziosi che potrebbero evocare immagini uditive. Poiché siamo interessati a misurare i modelli sottili evocati dall'immaginazione nella corteccia uditiva, è preferibile che gli stimoli siano presentati in completo silenzio, senza interferenze dai forti rumori fatti dallo scanner fMRI. Per raggiungere questo obiettivo, useremo un tipo speciale di sequenza MRI funzionale nota come campionamento temporale sparso. In questo approccio, un singolo volume fMRI viene acquisito 4-5 s dopo ogni stimolo, tempottico per catturare il picco della risposta emodinamica.

Procedure

1. Reclutamento dei partecipanti

  1. Recluta 20 partecipanti.
    1. I partecipanti dovrebbero essere destrimani e non avere una storia di disturbi neurologici o psicologici.
    2. I partecipanti dovrebbero avere una visione normale o corretta a normale per garantire che saranno in grado di vedere correttamente i segnali visivi.
    3. I partecipanti non dovrebbero avere metallo nel loro corpo. Questo è un importante requisito di sicurezza a causa dell'elevato campo magnetico coinvolto nella fMRI.
    4. I partecipanti non dovrebbero soffrire di claustrofobia, poiché la fMRI richiede di sdraiarsi nel piccolo spazio del foro dello scanner.

2. Procedure di pre-scansione

  1. Compila i documenti pre-scansione.
  2. Quando i partecipanti arrivano per la loro scansione fMRI, istruisci prima di compilare un modulo di schermo metallico per assicurarsi che non abbiano controindicazioni per la risonanza magnetica, un modulo di risultati incidentali che dà il consenso affinché la loro scansione sia esaminata da un radiologo e un modulo di consenso che dettaglia i rischi e i benefici dello studio.
  3. Prepara i partecipanti ad andare nello scanner rimuovendo tutto il metallo dal loro corpo, tra cui cinture, portafogli, telefoni, fermagli per capelli, monete e tutti i gioielli.

3. Fornire istruzioni per il partecipante.

  1. Dì ai partecipanti che vedranno una serie di diversi brevi video all'interno dello scanner. Questi video saranno silenziosi, ma potrebbero evocare un suono nell'orecchio della loro "mente". Chiedi al partecipante di concentrarsi e incoraggiare queste immagini uditive, per cercare di "sentire" il suono nel miglior modo possibile.
  2. Sottolinea al partecipante l'importanza di mantenere la testa ferma per tutta la scansione.

4. Metti il partecipante nello scanner.

  1. Dare ai partecipanti tappi per le orecchie per proteggere le orecchie dal rumore dello scanner e dei telefoni auricolari da indossare in modo che possano sentire lo sperimentatore durante la scansione e farli sdraiare sul letto con la testa nella bobina.
  2. Dare al partecipante la palla di spremimento di emergenza e istruirlo a spremerlo in caso di emergenza durante la scansione.
  3. Utilizzare cuscinetti di schiuma per fissare la testa dei partecipanti nella bobina per evitare movimenti eccessivi durante la scansione e ricordare al partecipante che è molto importante rimanere il più fermo possibile durante la scansione, poiché anche i più piccoli movimenti offuscano le immagini.

5. Raccolta dei dati

  1. Raccogli la scansione anatomica ad alta risoluzione.
  2. Avviare la scansione funzionale.
    1. Sincronizzare l'inizio della presentazione dello stimolo con l'avvio dello scanner.
    2. Per ottenere il campionamento temporale sparso, impostare il tempo di acquisizione di un volume MRI su 2 s, con un ritardo di 9 s tra le acquisizioni di volume.
    3. Presenta i video silenziosi tramite un laptop collegato a un proiettore. Il partecipante ha uno specchio sopra gli occhi, che riflette uno schermo sul retro del foro dello scanner.
    4. Sincronizza l'inizio di ogni clip video 5-s per iniziare 4 s dopo l'inizio dell'acquisizione MRI precedente. Ciò garantirà che il volume MRI successivo venga acquisito 7 s dopo l'inizio del video clip, per catturare l'attività emodinamica che corrisponde al centro del filmato.
    5. Presenta tre diversi video muti che evocano vivide immagini uditive: una campana che oscilla avanti e indietro, una motosega che taglia un albero e una persona che suona un violino.
    6. In ogni scansione funzionale, presenta ogni video 10 volte, in ordine casuale. Con ogni prova della durata di 11 s, ciò si tradurrà in una scansione lunga 330 s (5,5 min).
    7. Eseguire 4 scansioni funzionali.

6. Analisi dei dati

  1. Definire una regione di interesse (ROI).
    1. Utilizzare la scansione anatomica ad alta risoluzione di ciascun partecipante per tracciare i voxel che corrispondono alla corteccia uditiva precoce (Figura 1). Questo corrisponde alla superficie del lobo temporale, chiamato planum temporale. Usa le caratteristiche anatomiche del cervello di ogni persona per creare una maschera specifica per la loro corteccia uditiva.

Figure 1
Figura 1: Tracciamento delle regioni di interesse. La superficie del planum temporale è stata tracciata sull'immagine anatomica ad alta risoluzione di questo partecipante ed è mostrata qui in blu. In verde è la maschera di controllo del polo frontale. Questi voxel saranno utilizzati per l'analisi MVPA.

  1. Pre-elaborare i dati.
    1. Eseguite la correzione del movimento per ridurre gli artefatti di movimento.
    2. Eseguire il filtraggio temporale per rimuovere le derive del segnale.
  2. Addestrare e testare l'algoritmo del classificatore.
    1. Dividere i dati in set di training e test. I dati di addestramento verranno utilizzati per addestrare il classificatore e i dati di test lasciati fuori saranno utilizzati per valutare ciò che ha appreso. Per massimizzare l'indipendenza dei dati di training e test, escludere i dati da una scansione funzionale come set di test.
    2. Addestrare un algoritmo support vector machine sui dati di addestramento etichettati dalla corteccia uditiva in ogni soggetto. Verificare la capacità del classificatore di indovinare correttamente l'identità del set di test senza etichetta e registrare l'accuratezza del classificatore.
    3. Ripetere questa procedura 4 volte, tralasciando ogni scansione come dati di test ogni volta. Questo tipo di procedura, in cui ogni sezione dei dati viene tralasciata una volta, è chiamata convalida incrociata.
    4. Combina le precisioni del classificatore attraverso le 4 pieghe di convalida incrociata facendo la media.
  3. Test statistici
    1. Per determinare se il classificatore sta ottenendo risultati migliori del caso (33%), possiamo confrontare i risultati a livello di gruppo con il caso. Per fare ciò, raccogliere le precisioni per ciascun soggetto e verificare che la distribuzione sia diversa dal caso utilizzando un test Wilcoxon Signed-Rank non parametrico.
    2. Possiamo anche chiederci se il classificatore sta funzionando meglio del caso per ogni individuo. Per determinare la probabilità di un determinato livello di accuratezza nei dati casuali, creare una distribuzione null addestrando e testando l'algoritmo MVPA su dati le cui etichette sono state mescolate in modo casuale. Permutare le etichette 10.000 volte per creare una distribuzione nulla dei valori di accuratezza e quindi confrontare il valore di accuratezza effettivo con questa distribuzione.
    3. Per dimostrare la specificità delle informazioni all'interno della corteccia uditiva, possiamo addestrare e testare il classificatore su voxel da una posizione diversa nel cervello. Qui, useremo una maschera del polo frontale, presa da un atlante probabilistico e deformata per adattarsi al cervello individuale di ciascun soggetto.

Le immagini uditive sono un processo che dà origine all'esperienza di sentire i suoni, anche quando non sono presenti stimoli uditivi esterni.

Ad esempio, pensa a sentire il suono di un telefono cellulare che squilla. Mentre le informazioni all'interno della memoria sono alla base di questo evento immaginario, le prove suggeriscono che il cervello di un individuo utilizza gli stessi meccanismi per l'immaginazione di quelli che sono coinvolti nella percezione reale.

Solo dopo aver immaginato lo squillo, le regioni all'interno della corteccia uditiva si attivano. Tuttavia, anche se questo è vero attraverso gli stimoli acustici, il modo in cui i suoni sono codificati per consentire l'elaborazione dettagliata di suoni distinti, come distinguere tra un campanello e una canzone che suona alla radio, è una domanda importante.

Basato su precedenti lavori di Meyer e colleghi, questo video dimostra come combinare la risonanza magnetica funzionale - fMRI - con presentazioni di diversi video silenziosi per indagare su come il cervello risponde alle immagini uditive.

Descriveremo anche come utilizzare un metodo chiamato multi-voxel pattern analysis – MVPA in breve – per prevedere ciò che i soggetti hanno immaginato analizzando i modelli di attivazione ottenuti durante le sessioni fMRI.

In questo esperimento, i partecipanti giacciono in uno scanner fMRI e vengono mostrati una serie di video silenziosi. Ognuno di essi, che si tratti di un gallo che canta, di una motosega che taglia un albero o di una persona che suona un pianoforte, evoca immagini uditive distintive e vivide e gli viene chiesto di immaginare i suoni durante ogni singola presentazione.

La procedura di acquisizione dell'imaging si basa su un campionamento temporale sparso, per cui un singolo volume fMRI viene acquisito da 4 a 5 s dopo la presentazione di ogni stimolo. Tale temporizzazione cattura il picco della risposta emodinamica e riduce la probabilità che i segnali siano mascherati dal rumore dello scanner.

Ci si aspetta che ogni suono immaginato induca modelli sottili ma distintivi di attività neurale, in particolare nella corteccia uditiva. Qui, modello è la parola chiave: il modo classico di analizzare questi dati utilizza un approccio univariato, in cui i singoli voxel, che rappresentano un certo livello di attivazione, sono compressi in un'unica media.

Questi valori vengono quindi confrontati tra i suoni e potrebbero non produrre differenze significative nei livelli di attivazione.

Invece, utilizzando un'analisi multivariata, vengono disposti più voxel per ogni suono e i livelli di attivazione possono essere confrontati collettivamente, su tutti i voxel, contribuendo a un modello generale unico per ogni suono immaginato.

Con questo approccio di analisi del modello multi-voxel, o MVPA, se i modelli sono effettivamente sensibili a contenuti specifici, è possibile che possano essere utilizzati per prevedere lo stimolo originale. Esatto: MVPA è spesso indicato come una tecnica di lettura della mente!

Per ottenere questo aspetto di previsione, è necessario eseguire un'elaborazione più intensiva dopo aver raccolto i dati dei partecipanti, che sono suddivisi in set di formazione e test.

I dati etichettati dal set di addestramento vengono prima sottoposti a calcoli di apprendimento automatico, in particolare un algoritmo Support Vector Machine. Questo processo viene utilizzato per classificare accuratamente i dati riconoscendo le caratteristiche nei modelli neurali che possono distinguere i tre tipi di suoni l'uno dall'altro.

Dopo che il classificatore ha appreso le caratteristiche per identificare con precisione i tipi, viene presentato con dati non etichettati dal set di test e le sue ipotesi vengono quindi confrontate con le etichette degli stimoli corrette.

In questo caso, la prestazione di classificazione funge da variabile dipendente, registrata come accuratezza del classificatore, che viene anche confrontata con i voxel evocati in una posizione diversa nel cervello, come il polo frontale.

Il classificatore dovrebbe prevedere l'identificazione delle immagini uditive, rivelando l'importanza dell'MVPA nel rilevare l'attività specifica del contenuto all'interno della corteccia uditiva.

Per problemi sperimentali e di sicurezza, verificare che tutti i partecipanti siano destrimani, abbiano una visione normale o corretta a normale, nessuna storia di disturbi neurologici o claustrofobia e non possiedano alcun metallo nel loro corpo. Inoltre, assicurati che compilino i moduli di consenso necessari.

Prima di procedere, spiega che vedranno diversi brevi video silenziosi nello scanner che potrebbero evocare un suono nella loro mente. Chiedi loro di concentrarsi sui suoni immaginati, di "ascoltarli" nel miglior modo possibile e di rimanere fermi per tutta la durata del compito.

Ora, prepara il partecipante a entrare nello scanner. Per vedere questi passaggi in dettaglio, si prega di fare riferimento a un altro video fMRI prodotto in questa raccolta.

Dopo la preparazione, allineare il partecipante e inviarlo all'interno del foro. Nella stanza adiacente, prima raccogli una scansione anatomica ad alta risoluzione. Quindi, sincronizzare l'inizio della presentazione video silenziosa con l'avvio della scansione funzionale.

Per ottenere un campionamento temporale sparso, impostare il tempo di acquisizione di un volume MRI su 2 s, con un ritardo di 9 s nel mezzo.

È importante sottolineare che coordinare l'inizio di ogni video clip 5-s per iniziare 4 s dopo che l'acquisizione MRI precedente inizia a catturare l'attività emodinamica che corrisponde al centro del filmato.

Presenta ogni video 10 volte, in ordine casuale, generando una sessione di scansione della durata di 5,5 minuti. Ripetete questa sequenza di acquisizione funzionale altre tre volte.

Dopo che le quattro scansioni funzionali sono state eseguite, portare il partecipante fuori dallo scanner e debriefing per concludere lo studio.

Per definire le regioni di interesse, utilizzare le scansioni anatomiche ad alta risoluzione di ciascun partecipante e tracciare voxel sulla superficie del lobo temporale che corrispondono alla corteccia uditiva precoce, nota anche come planum temporale. Inoltre, creare una maschera contenente voxel nel lobo frontale, che verrà utilizzato come regione di controllo.

Quindi, preelaborare i dati eseguendo la correzione del movimento per ridurre gli artefatti di movimento e il filtraggio temporale per rimuovere le derive del segnale.

Quindi, dividere i dati in due set: formazione e test. In un set di dati, addestra un classificatore, un algoritmo di macchina vettoriale di supporto, assicurandoti di mantenere i dati delle due regioni del cervello separati per ciascun soggetto.

Nell'altro set, valuta ciò che il classificatore ha imparato, ovvero la sua capacità di indovinare correttamente l'identità dei dati non etichettati, e registra l'accuratezza dell'algoritmo tra le esecuzioni. Eseguire questa procedura per un totale di quattro volte, tralasciando ogni volta una scansione funzionale come dati di test, un processo chiamato convalida incrociata.

Per visualizzare i dati, rappresentare graficamente le precisioni medie del classificatore attraverso le quattro pieghe di convalida incrociata per ciascun partecipante.

Traccia queste medie sia per la regione primaria di interesse - il planum temporale - che per l'area di controllo - il polo frontale - per confrontare la specificità focale del classificatore, la misura in cui una particolare area, come la corteccia uditiva, è selettivamente prevista per essere coinvolta nell'immaginazione uditiva.

In questo caso, esegui una statistica non parametrica, il test Wilcoxon Signed-Rank, per testare le prestazioni contro il caso, che è del 33%. Si noti che l'accuratezza media del classificatore nella corteccia uditiva era del 59%, che è significativamente diversa dal livello casuale.

Al contrario, la prestazione media nella maschera frontale del polo era del 33%, che non è significativamente diversa dal caso.

Inoltre, si noti che le prestazioni del classificatore variavano da individuo a individuo. Dopo aver utilizzato un test di permutazione per calcolare una nuova soglia statistica del 42%, vedere che 19 soggetti su 20 avevano valori di accuratezza significativamente superiori a questo livello utilizzando voxel dal planum temporale, mentre nessuno aveva prestazioni superiori alla possibilità di usare voxel dal polo frontale.

Nel complesso, questi risultati implicano che le tecniche MVPA hanno previsto con precisione quale dei tre suoni i partecipanti stavano immaginando in base a modelli di attività neurale. Tali previsioni sono state fatte solo all'interno della corteccia uditiva, suggerendo che il contenuto acustico non è rappresentato globalmente in tutto il cervello.

Ora che hai familiarità con come applicare l'analisi del modello multi-voxel per studiare le immagini uditive, diamo un'occhiata a come i neuropsicologi usano tecniche multivariate per far avanzare un approccio futuristico alla lettura della mente - la decodifica degli stati mentali - in altri domini.

I classificatori sono stati utilizzati sui dati fMRI ottenuti dalla corteccia temporale ventrale per prevedere i tipi di oggetti che i partecipanti hanno visualizzato, distinguendo tra case e volti, per esempio.

Facendo un ulteriore passo avanti, è anche possibile prevedere se l'individuo acquisterebbe quella casa o troverebbe la persona piacevole. Per quanto inquietante possa sembrare, queste implicazioni di neuromarketing non sono inverosimili!

Lo stesso approccio potrebbe anche essere utilizzato per rilevare gli stati emotivi dopo aver visto uno spettacolo , riconoscendo che un film spaventoso è davvero terrificante - o anche il genere cinematografico; ad esempio, il movimento spaventoso potrebbe coinvolgere l'amigdala in modo più prevedibile rispetto a uno contemplativo che coinvolgerebbe in modo affidabile la corteccia prefrontale.

Inoltre, le interfacce cervello-computer potrebbero convertire gli stati mentali in segnali che migliorerebbero la comunicazione, nel caso di individui sottoposti a logopedia, o movimenti, per coloro che hanno sofferto di amputazione di un arto.

Hai appena visto il video di JoVE sulla comprensione delle immagini uditive utilizzando l'analisi del modello multi-voxel. Ora dovresti avere una buona comprensione di come progettare e condurre l'esperimento di immagini uditive in combinazione con il neuroimaging funzionale e, infine, come analizzare e interpretare specifici modelli di attività cerebrale.

Grazie per l'attenzione!

Subscription Required. Please recommend JoVE to your librarian.

Results

L'accuratezza media del classificatore nel planum temporale in tutti i 20 partecipanti è stata del 59%. Secondo il test Wilcoxon Signed-Rank, questo è significativamente diverso dal livello di probabilità del 33%. La prestazione media nella maschera del polo frontale è stata del 32,5%, che non è maggiore del caso (Figura 2).

Figure 2
Figura 2. Prestazioni di classificazione in ciascun partecipante. Per la classificazione a tre vie, la prestazione casuale è del 33%. Secondo un test di permutazione, il livello alfa di p < 0,05 corrisponde al 42%.

Il test di permutazione ha rilevato che solo il 5% delle permutazioni ha raggiunto una precisione superiore al 42%; quindi, la nostra soglia statistica per i singoli soggetti è del 42%. Diciannove dei 20 soggetti avevano prestazioni del classificatore significativamente maggiori della possibilità di usare i voxel dal planum temporale, mentre nessuno aveva prestazioni maggiori del caso usando i voxel dal polo frontale.

Pertanto, siamo in grado di prevedere con successo dai modelli di attività nella corteccia uditiva quale dei tre suoni il partecipante stava immaginando. Non siamo stati in grado di fare questa previsione basata su modelli di attività dal polo frontale, suggerendo che l'informazione non è globale in tutto il cervello.

Subscription Required. Please recommend JoVE to your librarian.

Applications and Summary

MVPA è uno strumento utile per capire come il cervello rappresenta le informazioni. Invece di considerare il corso temporale di ciascun voxel separatamente come in un'analisi di attivazione tradizionale, questa tecnica considera i modelli su molti voxel contemporaneamente, offrendo una maggiore sensibilità rispetto alle tecniche univariate. Spesso un'analisi multivariata scopre differenze in cui una tecnica univariata non è in grado di farlo. In questo caso, abbiamo imparato qualcosa sui meccanismi delle immagini mentali sondando il contenuto delle informazioni in un'area specifica del cervello, la corteccia uditiva. La natura specifica del contenuto di questi modelli di attivazione sarebbe difficile da testare con approcci univariati.

Ci sono ulteriori vantaggi che derivano dalla direzione dell'inferenza in questo tipo di analisi. In MVPA iniziamo con modelli di attività cerebrale e tentiamo di dedurre qualcosa sullo stato mentale del partecipante. Questo tipo di approccio di "lettura del cervello" può portare allo sviluppo di interfacce cervello-computer e può consentire nuove opportunità di comunicazione con coloro che hanno problemi di parola o movimento.

Subscription Required. Please recommend JoVE to your librarian.

References

  1. Kosslyn, S.M., Ganis, G. & Thompson, W.L. Neural foundations of imagery. Nat Rev Neurosci 2, 635-642 (2001).
  2. Haynes, J.D. & Rees, G. Decoding mental states from brain activity in humans. Nat Rev Neurosci 7, 523-534 (2006).
  3. Norman, K.A., Polyn, S.M., Detre, G.J. & Haxby, J.V. Beyond mind-reading: multi-voxel pattern analysis of fMRI data. Trends Cogn Sci 10, 424-430 (2006).
  4. Meyer, K., et al. Predicting visual stimuli on the basis of activity in auditory cortices. Nat Neurosci 13, 667-668 (2010).

Transcript

Please note that all translations are automatically generated.

Click here for the English version.

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter