Neuroscience

Cenni di analisi multivariata dei dati in neuroimaging

Published: July 24, 2010 doi: 10.3791/1988

¹Department of Neurology, Columbia University

Summary

L'attuale articolo descrive le basi di analisi multivariata e contrasti al più comunemente utilizzati voxel-saggio di analisi univariata. Entrambi i tipi di analisi sono applicati a un clinico-neuroscienze set di dati. Supplementare split-half simulazioni mostrano una migliore replica dei risultati multivariata indipendente in insiemi di dati.

Abstract

Tecniche di analisi multivariata dei dati di neuroimaging hanno recentemente ricevuto una crescente attenzione in quanto hanno molte caratteristiche interessanti che non possono essere facilmente realizzati dal più comunemente utilizzati univariata, voxel-saggio, le tecniche

Protocol

Per dare una panoramica concettuale di analisi multivariata si può immaginare una situazione molto semplice: un set di dati ipotetici per 50 partecipanti umano, dove solo tre regioni, rappresentate da voxel (pixel = 3-dimensionale in Figura 1) nel cervello sono stati misurati. (Inserisci Figura 1 qui, leggere didascalia come voice over).
L'obiettivo generale di analisi multivariata è quello di individuare le principali fonti di varianza nei dati, e poi descrivere gli effetti di maggiore interesse nei dati in termini di queste fonti di varianza. La Figura 2 mostra un esempio semplicistico. (Inserisci Figura 2 qui, leggere didascalia come voice over).
Ora applicare l'analisi univariata e multivariata, sia ad un insieme di dati clinici. Abbiamo scaricato le scansioni di riposo FDG-PET per i primi 95 pazienti affetti da Alzheimer e 102 controlli appaiati per età dal sito dell'iniziativa morbo di Alzheimer Neuroimaging (http://www.loni.ucla.edu/ADNI/). Abbiamo scelto a caso 20 scansioni di entrambi i pazienti e controlli e designato come il nostro campione derivazione. Il restante 75 e 82 scansioni, rispettivamente, costituiscono il nostro campione di replica. Univariata e multivariata malattia di Alzheimer (AD) marcatori sarà ora derivato nel campione derivazione, e la loro efficacia diagnostica testato nel campione di replica.
Per l'indicatore univariata, mettiamo a confronto il 20 scansioni dC con il 20 controlli esegue la scansione del campione derivazione e scegliere la posizione del cervello che mostra la maggiore riduzione del segnale di PET nei pazienti dC come dimostrato da una T-test. Per testare l'efficacia diagnostica di questa regione, controlliamo i dati del campione replica in questa posizione e tracciare il suo segnale PET in funzione dello stato di malattia.
Per l'indicatore multivariato, per prima cosa effettuare un APC sulla combinato 40 scansioni nel campione derivazione, e quindi costruire un modello di covarianza da primi 5 componenti principali il cui soggetto fattore di scala mostra una massima differenza media tra i pazienti AD e controlli sani. (Ulteriori dettagli sono riportati in questi documenti rappresentativi ^2.) Il modello di covarianza diagnostico ottenuto formare un campione derivazione viene poi applicata in modo prospettico al campione di replica. La risultante fattori di scala soggetti sono rappresentati in funzione dello stato di malattia.
Per fornire un confronto più generale di approcci sia univariate e multivariate a partire dal punto 4 e 5, si esegue un "split campione" simulazione e ripetere entrambi i passi 1.000 volte su dati ricampionato, ogni volta formando un campione di derivazione 20/20 e un 75/82 replica di pazienti affetti da AD e sano di nuovo controlli. Marker di malattia univariata e multivariata sono calcolati dal campione derivazione e la soglia di decisione è impostato in modo tale che al massimo 1 sani di controllo è erroneamente classificati come AD (specificità = 95%). Indicatori delle malattie con le loro soglie di decisione specifica sono poi prospettica applicata ai campioni di replica. I tassi di errore di classificazione nel campione di replica sono registrati per tutte le iterazioni ricampionamento.

Rappresentante Risultati

Prestazioni univariata I risultati possono essere visti in dettaglio nella Figura 3. L'area del più grande AD-FDG relativi deficit è stato trovato nel giro super-temporale, area di Brodmann 38. L'area sotto la curva ROC è stato raggiunto AUC = 0.90. La generalizzazione di questo contrasto al campione replica era abbastanza buono con un'area sotto la curva ROC di AUC = 0,84.

Prestazioni multivariata I risultati possono essere visti in dettaglio nella Figura 4. Le aree con carichi positivi, accennando a una conservazione relativa del segnale a fronte di malattia sono stati trovati nel cervelletto, mentre la perdita di segnale associato è stato trovato le aree parietotemporal e frontale, e il giro del cingolo posteriore. Le aree sotto le curve ROC, in entrambi i campioni di derivazione e replica erano leggermente migliore rispetto al marcatore univariata a 0,96 e 0,88, rispettivamente.

Split-campione simulazioni I risultati possono essere visti in dettaglio nella Figura 5. La figura mostra che l'indicatore multivariato offre migliori prestazioni di diagnostica replica che il marcatore univariata. Il tasso di errore medio totale per il marcatore multivariata è 0,203, mentre per il marcatore univariata è 0,307.

. Figura 1 Questa figura semplice descrive la differenza tra le strategie di analisi univariata e multivariata: un ipotetico 3-dimensionale set di dati viene visualizzato in questa illustrazione. Sul lato sinistro, non vi è alcuna correlazione tra le 3 variabili tracciati. Sul lato destro invece, si può vedere una delle principali fonti di varianza che indicano una correlazione positiva tra tutti e tre i voxel. L'analisi univariata che appena considerati i valori medi su un voxel-by-voxel base non poteva dire alcuna differenza tra questi due scenari. L'analisi multivariata, al contrario, identifica le principali fonti di Variance nei dati (freccia rossa) prima di procedere alla costruzione di pattern di attivazione neurale forma queste fonti.

Figura 2. Questa diapositiva mostra in forma semplificata la realizzazione di base di qualsiasi analisi multivariata dei dati di neuroimaging. L'array di dati Y (s, x), che dipende da un indice argomento s, e un voxel indice x, che indica la posizione del voxel nel cervello, viene scomposto in una somma di diversi termini. In primo luogo, il prodotto di un puro soggetto dipendente dal punteggio fattore, SSF (s), e un modello di covarianza puramente voxel-dipendente, v (x). In secondo luogo, l'attivazione che non possono essere valutate con il modello di covarianza viene catturato in un termine di rumore soggetto e voxel-dipendente, e (s, x). I due grafici sotto l'equazione dare un esempio del fattore di scala soggetto e il modello di covarianza. Ogni partecipante manifesta il modello di covarianza, solo per un diverso grado, come dimostrato dal punteggio fattore soggetto. Invece di dover tenere traccia del comportamento di ogni voxel a parte, il modello di covarianza e la sua espressione soggetto fornire una sintesi parsimonioso delle principali fonti di varianza. Con l'aumento della materia fattore di scala di grandezza, le aree indicate in blu nel modello di covarianza diminuire la loro attivazione associate, mentre le zone indicate in rosso contemporaneamente aumentare la loro attivazione associati. Il punteggio fattore soggetto può essere correlata con le variabili di interesse esterni come l'età o le prestazioni oggetto del comportamento in un compito cognitivo, e nessuna correzione per confronti multipli deve essere applicato a questa correlazione.

Diverse tecniche per la decomposizione esistono, ma il più comune è Analisi delle Componenti Principali (PCA). Questa è la tecnica di scelta per noi. Si noti che i fattori di scala possono essere ottenute proiettando il modello di covarianza in qualsiasi insieme di dati di dimensionalità pari, non solo il set di dati che ha prodotto il modello di covarianza, in primo luogo. Questo rende i modelli di covarianza adatto a verificare che il cervello-comportamentale relazioni che sono state osservate in una serie di dati possono essere replicati in un diverso insieme di dati.

Figura 3. Questa figura mostra il risultato delle analisi univariata. Nel pannello in basso a sinistra, i valori del segnale FDG sono rappresentati per l'area che mostra la più grande AD-correlati deficit nel campione derivazione. MNI le sue coordinate sono X = 2 mm, Y = -48 mm, Z = 30 mm (Precuneus / PCG, Area Brodmann 31). Il pannello in basso a destra mostra il segnale di FDG in questa posizione nel campione di replica. Si può apprezzare che le differenze tra i pazienti FDG dC e controlli nel campione replica, pur significative nel complesso, sono ridotti con maggiore sovrapposizione tra i gruppi.

Figura 4. La figura mostra i risultati delle analisi multivariata. Nel pannello in alto, ci mostra diverse sezioni assiali che mostrano in modo significativo le zone positivamente e negativamente pesato (p <0,001) nel modello di covarianza in rosso e blu, rispettivamente. Si noti che abbiamo scalato ogni scansione dal suo valore medio globale, colore così rosso e blu indicano un aumento relativo e assoluto, piuttosto e diminuisce del segnale PET con gravità della malattia. Le zone rosse così accenno alla conservazione relative a fronte della malattia, mentre il blu indica una perdita di segnale come conseguenza della malattia. Zone rosse si trovano principalmente nel cervelletto, mentre le aree blu appaiono nel giro del cingolo posteriore, le regioni parietotemporal e frontale. Pannello in basso a sinistra: i punteggi fattore oggetto di AD-correlati modello covarianza sono visualizzati nel campione di derivazione. Punteggi più elevati si trovano soggetti per i pazienti AD. Pannello in basso a destra: i punteggi fattore soggetto risultante dalla applicazione prospettica del modello AD-covarianza relativi al campione di replica sono tracciate qui. Si può apprezzare un lieve peggioramento del contrasto diagnostica con sovrapposizione maggiore nel campione di replica, ma la generalizzazione della efficacia diagnostica è notevolmente migliore rispetto al caso univariato.

Figura 5. Questa figura mostra i risultati dei 1.000 split-campione simulazioni. Elencate sono medie e deviazioni standard dei tassi di univariate e multivariate errore diagnostico nei campioni di replica. Si può apprezzare il fatto che la generalizzazione del marcatore multivariata di prestazioni è decisamente meglio, anche se un po 'più variabile di quella del marcatore univariata.

Discussion

Speriamo di aver dato allo spettatore un sapore delle basi di analisi multivariata; spettatori interessati sono invitati a controllare il nostro sito web. A poche scelte per i parametri per l'analisi multivariata sono stati fatti che possono essere oggetto di dibattito dibattito considerevole. Non sono stati risparmiati la discussione di questi temi in questo articolo per evitare distrazioni dalle questioni più importanti. In primo luogo, abbiamo scelto i primi 6 componenti principali per costruire il nostro modello AD-correlati covarianza. Ci sono ragioni teoriche per questa scelta che non abbiamo discusso ^4. La scelta particolare di 6 componenti principali anche se non è critico per il nostro argomento: si può scelto nella variare da 2 a 20 PC e ancora ottenere prestazioni superiori generalizzazione del marcatore multivariata in split-campione simulazioni. I risultati sono altrettanto robusto rispetto alla scelta del numero di soggetti in derivazione e campioni di replica. Abbiamo scelto 20 soggetti di entrambi i gruppi nel campione di replica, ma questa era puramente per comodità matematica per velocizzare i calcoli. I nostri risultati sui meriti relativi di entrambe le tecniche ostacolare in modo simile se i numeri dei soggetti in campioni di derivazione sono state aumentate.

In secondo luogo, abbiamo solo presentato il tipo più basilare di analisi multivariata. Complicazione notevole con tecniche prese in prestito dalla Macchina-Learning letteratura, trasformazioni lineari e non lineari prima del PCA, e vari altri rughe sono fattibili che possano aumentare le prestazioni generalizzazione ancora di più. Per semplicità non abbiamo toccato queste possibilità in questo articolo.

Disclosures

Nessun conflitto di interessi dichiarati.

Acknowledgments

L'autore è grato per il supporto NIH sovvenzione:

NIH / NIBIB 5R01EB006204-03 approcci all'analisi multivariata neuroimaging

NIH / NIA rilevamento 5R01AG026114 AD-02 ASL precoce con la risonanza magnetica e analisi di covarianza

ADNI: dati Imaging è stato fornito dal Alzheimer Disease Neuroimaging Initiative (ADNI) (NIH U01AG024904). La raccolta dei dati e la condivisione di questo progetto è stato finanziato dalla iniziativa di Alzheimer Disease Neuroimaging (ADNI) (National Institutes of Health di Grant U01 AG024904). ADNI è finanziato dal National Institute on Aging, l'Istituto Nazionale di Biomedical Imaging e Bioingegneria, e da contributi generosi tra le seguenti: Abbott, AstraZeneca AB, Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Global Development Clinica, Elan Corporation, Genentech, GE Healthcare, GlaxoSmithKline, Innogenetics, Johnson & Johnson, Eli Lilly and Co., Medpace, Inc., Merck & Co., Inc., Novartis, Pfizer Inc, F. Hoffmann-La Roche, Schering-Plough, Synarc , Inc., e Wyeth, così come non-profit partner Associazione Alzheimer e il morbo di Alzheimer Drug Discovery Fondazione, con la partecipazione della US Food and Drug Administration. Contributi del settore privato a ADNI sono facilitate dalla Fondazione per il National Institutes of Health ( http://www.fnih.org ). L'organizzazione concessionario è il Northern California Institute per la ricerca e l'educazione e lo studio è coordinato da Studio Disease Cooperative di Alzheimer presso la University of California, San Diego. ADNI dati sono diffusi dal Laboratorio di Neuro Imaging presso la University of California, Los Angeles. Questa ricerca è stata sostenuta anche da sovvenzioni NIH AG010129 P30, K01 AG030514, e Dana Foundation.