Neuroscience

Fundamentos da Análise Multivariada em Dados de neuroimagem

Published: July 24, 2010 doi: 10.3791/1988

¹Department of Neurology, Columbia University

Summary

O presente artigo descreve os conceitos básicos de análise multivariada e contrasta-lo para o mais comumente utilizado a análise baseada em voxel univariada. Ambos os tipos de análise são aplicadas a um conjunto de dados clínico-neurociência. Complementares das metades simulações mostram melhor replicação dos resultados multivariada em conjuntos de dados independentes.

Abstract

Técnicas de análise multivariada para dados de neuroimagem foram recentemente alvo de atenção crescente, pois têm muitas características atraentes que não pode ser facilmente realizado pelo univariada mais comumente utilizados, baseada em voxel, técnicas

Protocol

Para dar uma visão geral conceitual de análise multivariada, podemos imaginar um situação muito simples: um conjunto de dados hipotéticos para 50 participantes humanos, onde apenas três regiões, representadas por voxels (pixels = 3-dimensional na Figura 1) no cérebro foram medidos. (Inserir Figura 1 aqui, leia legenda como voz sobre.)
O objetivo geral da análise multivariada é identificar as principais fontes de variância nos dados, e então descrever os efeitos de maior interesse nos dados em termos destas fontes de variação. A Figura 2 mostra um exemplo simplista. (Inserir Figura 2 aqui, leia legenda como voz sobre.)
Vamos agora aplicar a análise univariada e multivariada a um conjunto de dados clínicos. Baixamos FDG-PET em repouso por 95 primeiros doentes de Alzheimer e 102 controles pareados por idade a partir do site de Neuroimagem da doença de Alzheimer Initiative (http://www.loni.ucla.edu/ADNI/). Nós escolhidos aleatoriamente 20 exames de pacientes e controles e os designou como nossa amostra de derivação. Os restantes 75 e 82 exames, respectivamente, constituem nossa amostra de replicação. Univariada e multivariada doença de Alzheimer (AD) marcadores agora serão obtidos na amostra de derivação, e sua eficácia diagnóstica testada na amostra de replicação.
Para o marcador univariada, contraste de 20 scans AD com os 20 controles scans na amostra de derivação e escolher o local do cérebro que mostra a maior diminuição do sinal de PET nos pacientes AD como mostrado por uma T-teste. Para testar a eficácia diagnóstica da região, vamos verificar os dados na amostra de replicação nesse local e traçar o seu sinal de PET em função do estado da doença.
Multivariada para o marcador, primeiro executar um PCA na combinados 40 scans na amostra de derivação, e então construir um padrão de covariância dos 5 primeiros Componentes Principais cujo tema escala fator mostra uma diferença máxima média entre pacientes com DA e controles saudáveis. (Detalhes podem ser encontrados nestes documentos representativos ^2.) O padrão de covariância de diagnóstico obtido formar a amostra de derivação é, então, prospectivamente aplicados à amostra de replicação. Os fatores de escala resultantes assunto são plotados em função do estado da doença.
Para fornecer uma comparação mais geral de abordagens univariada e multivariada a partir do passo 4 e 5, realizamos um "split sample" de simulação e repetir as duas etapas de 1.000 vezes em dados resampled, cada vez formando uma amostra de derivação 20/20 e 75/82 uma replicação de pacientes com DA e controles saudáveis de novo. Marcadores de doenças univariada e multivariada são computados a partir da amostra de derivação e do limiar de decisão é definida de tal forma que, no máximo, um controle saudável é erroneamente classificada como AD (especificidade = 95%). Os marcadores da doença com seus limites de decisão específica são, então, prospectivamente aplicado às amostras de replicação. As taxas de classificação de erro na amostra de replicação são registrados para todas as iterações de reamostragem.

Resultados representante

Desempenho univariada Os resultados podem ser vistos em detalhe na Figura 3. A área de maior déficit FDG AD-relacionada foi encontrada no giro super-temporal, área de Brodmann 38. A área sob a curva ROC-alcançado foi AUC = 0,90. A generalização deste contraste com a amostra de replicação foi muito bom, com uma área sob a curva ROC da AUC = 0,84.

Desempenho multivariada Os resultados podem ser vistos em detalhe na Figura 4. Áreas com cargas positivas, sugerindo uma relativa preservação do sinal em face da doença foram encontrados no cerebelo, enquanto a perda de sinal associadas foi encontrada nas áreas parietotemporal e frontal, eo giro do cíngulo posterior. As áreas sob as curvas ROC-em ambos os derivação e replicação de amostras foram ligeiramente melhor do que o marcador univariada em 0,96 e 0,88, respectivamente.

Divisão da amostra de simulações Os resultados podem ser vistos em detalhe na Figura 5. A figura mostra que o marcador multivariada dá melhor replicação do desempenho diagnóstico do que o marcador univariada. A taxa de erro médio total para o marcador multivariada é 0,203, enquanto que para o marcador univariada é 0,307.

. Figura 1 Esta simples figura descreve a diferença entre univariada e multivariada estratégias analíticas: uma hipotética 3-dimensional conjunto de dados é exibido nesta ilustração. No lado esquerdo, não há correlação entre as 3 variáveis plotadas. No lado direito, em contraste, pode-se ver uma importante fonte de variação, indicando uma correlação positiva entre os três voxels. A análise univariada que acabamos de considerar os valores médios em uma base voxel-a-voxel não poderia dizer qualquer diferença entre estes dois cenários. Análise multivariada, ao contrário, identifica as principais fontes de Variance nos dados (seta vermelha), antes de prosseguir para a construção de padrões de ativação neural forma essas fontes.

Figura 2. Este slide mostra de forma simplificada a realização de base de qualquer análise multivariada em neuroimagem de dados. A matriz de dados Y (s, x), que depende de um índice de assuntos s, e um voxel índice x, indicando a localização do voxel no cérebro, é decomposto em uma soma de vários termos. Primeiro, um produto de uma pontuação fator puramente sujeito-dependente, ssf (s), e um padrão de covariância puramente voxel-dependente, v (x). Ativação, segundo que não pode ser explicada pelo padrão de covariância é capturado em um termo de ruído e sujeito-voxel-dependente, e (s, x). Os dois gráficos abaixo a equação dar um exemplo do fator de escala do padrão de assunto e covariância. Cada participante manifesta o padrão de covariância, apenas para um grau diferente, como mostrado pela pontuação fator assunto. Ao invés de ter que manter o controle do comportamento a cada voxel, separadamente, o padrão de covariância e sua expressão assunto fornecer um resumo parcimoniosa de a principal fonte de variação. Com o aumento da escala assunto fator de magnitude, as áreas indicadas em azul no padrão de covariância diminuir sua ativação associados, enquanto as áreas indicadas em vermelho, simultaneamente, aumentar sua ativação associados. A pontuação fator assunto pode ser correlacionado com variáveis externas de interesse, como idade de assunto ou o desempenho em uma tarefa comportamental cognitiva, e sem correção para comparações múltiplas tem de ser aplicado a esta correlação.

Várias técnicas para a decomposição existem, mas o mais comum é a Análise de Componentes Principais (PCA). Esta é a técnica de escolha para nós. Note-se que fatores de escala assunto podem ser obtidas projetando o padrão de covariância em qualquer conjunto de dados de dimensionalidade igual, e não apenas definir os dados que produziu o padrão de covariância, em primeiro lugar. Isso faz com que padrões adequados de covariância para testar se o cérebro-comportamentais relacionamentos que foram observados em um conjunto de dados pode ser replicado em um conjunto de dados diferentes.

Figura 3. Esta figura mostra o resultado da análise univariada. Na parte inferior do painel esquerdo, os valores de sinal FDG são traçados para a área que apresenta o maior déficit AD-relacionados na amostra de derivação. Coordena a sua MNI são X = 2 mm, Y = mm -48, Z = 30mm (precuneus / PCG, Brodmann Área 31). O painel inferior direito mostra o sinal de FDG neste local muito na amostra de replicação. Pode-se apreciar que as diferenças entre os pacientes FDG AD e controles na amostra de replicação, ao mesmo tempo global significativo, são reduzidos com a sobreposição mais entre os grupos.

Figura 4. Esta figura mostra os resultados da análise multivariada. No painel superior, apresentamos vários cortes axiais que mostram significativamente positiva e negativamente áreas ponderada (p <0,001) no padrão de covariância em vermelho e azul, respectivamente. Note que nós escalado cada varredura pelo seu valor médio global, de modo cores vermelho e azul indicam aumentos relativos e absolutos, em vez de sinal e diminui a PET com a gravidade da doença. Áreas vermelhas, assim, alusão a relativa preservação em face da doença, enquanto o azul indica uma perda de sinal como uma conseqüência da doença. Áreas vermelhas são encontradas principalmente no cerebelo, enquanto que as áreas azuis aparecem no giro do cíngulo posterior, regiões parietotemporal e frontal. Painel inferior esquerdo: os escores fatoriais assunto do padrão de covariância AD-relacionados são exibidos na amostra de derivação. Escores mais altos assunto são encontrados para os pacientes AD. Painel inferior direito: os escores fatoriais assunto resultante da aplicação prospectiva do padrão de covariância AD-relacionados com a amostra de replicação são plotados aqui. Pode-se apreciar um ligeiro agravamento do contraste de diagnóstico com sobreposição aumento na amostra de replicação, mas a generalização da eficácia diagnóstica é visivelmente melhor do que no caso univariado.

Figura 5. Esta figura mostra os resultados da divisão da amostra 1.000 simulações. Listados são médias e desvios-padrão dos univariada e multivariada taxas de erro de diagnóstico nas amostras de replicação. Pode-se apreciar que a generalização do marcador multivariada de desempenho é consideravelmente melhor, embora um pouco mais variável do que o univariada marcador.

Discussion

Esperamos ter dado o espectador um sabor das noções básicas de análise multivariada; espectadores interessados são encorajados a verificar o nosso website. A poucas opções para os parâmetros na análise multivariada foram feitas, que pode ser sujeita a debate um debate considerável. Não poupamos a discussão dessas questões neste artigo para evitar a distração das questões mais importantes. Primeiro, nós escolhemos os 6 primeiros componentes principais para construir o nosso padrão de covariância AD-relacionados. Existem razões teóricas para essa escolha que nós não discutimos ^4. A escolha particular de seis componentes principais que não é crítico para o nosso argumento: um pode escolher no intervalo de 2-20 PCs e ainda obter um desempenho superior de generalização do marcador multivariada nas simulações divisão da amostra. Os resultados são igualmente robusta em relação à escolha de números de indivíduos em derivação e replicação de amostras. Escolhemos 20 indivíduos de ambos os grupos na amostra de replicação, mas esta era puramente por conveniência matemática para acelerar os cálculos. Nossos resultados sobre os méritos relativos de ambas as técnicas iria realizar da mesma forma se o número de sujeitos na amostra de derivação foram aumentadas.

Em segundo lugar, nós só apresentou o tipo mais básico de análise multivariada. Complicação considerável com técnicas emprestadas da literatura de aprendizagem de máquina, transformações lineares e não-linear antes da PCA, e várias outras rugas são viáveis que poderiam melhorar o desempenho de generalização ainda mais. Para simplificar, não toquei nessas possibilidades neste artigo.

Disclosures

Não há conflitos de interesse declarados.

Acknowledgments

O autor é grato pelo NIH apoio financeiro:

NIH / NIBIB 5R01EB006204-03 abordagens à análise multivariada de neuroimagem

NIH / NIA Detecção AD-02 5R01AG026114 precoce com ASL MRI e Análise de Covariância

ADNI: dados de imagem foi fornecido por Doença de Alzheimer Neuroimagem Initiative (ADNI) (NIH U01AG024904). Coleta de dados e compartilhamento para este projeto foi financiado pela Neuroimagem da doença de Alzheimer Initiative (ADNI) (National Institutes of Health Grant AG024904 U01). ADNI é financiado pelo Instituto Nacional do Envelhecimento, do Instituto Nacional de Imagem Biomédica e Bioengenharia, e através de generosas contribuições a partir do seguinte: Abbott, AstraZeneca AB, a Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Desenvolvimento Clínico Global, Elan Corporation, Genentech, a GE Healthcare, GlaxoSmithKline, Innogenetics, Johnson e Johnson, Eli Lilly and Co., Medpace, Inc., Merck e Co., Inc., Novartis AG, Pfizer Inc, F. Hoffman-La Roche, Schering-Plough, Synarc , Inc., e Wyeth, bem como sem fins lucrativos parceiros a Associação de Alzheimer e da droga de Alzheimer Descoberta Foundation, com a participação da Food and Drug Administration EUA. Contribuições do setor privado para ADNI são facilitados pela Fundação para o National Institutes of Health ( http://www.fnih.org ). A organização beneficiária é a Califórnia do Norte Instituto de Pesquisa e Educação, bem como o estudo é coordenado pelo Estudo da Doença de Alzheimer Cooperativa da Universidade da Califórnia, San Diego. ADNI dados são divulgados pelo Laboratório de Imagem Neuro da Universidade da Califórnia, em Los Angeles. Esta pesquisa também foi apoiado pelo NIH concede P30 AG010129, K01 AG030514, ea Fundação Dana.