Neuroscience

Grundlagen der multivariaten Analyse in Neuroimaging-Daten

Published: July 24, 2010 doi: 10.3791/1988

¹Department of Neurology, Columbia University

Summary

Der aktuelle Artikel beschreibt die Grundlagen der multivariaten Analyse und Kontraste es am häufigsten verwendeten Voxel-weise univariaten Analyse. Beide Arten der Analyse sind zu einem klinisch-neurowissenschaftliche Datensatz angelegt. Ergänzende Split-half-Simulationen zeigen, besser Replikation der multivariaten Ergebnisse in unabhängigen Datensätzen.

Abstract

Multivariate Analyseverfahren für Neuroimaging Daten haben in letzter Zeit zunehmend Beachtung gefunden, da sie viele attraktive Features, die nicht einfach durch die am häufigsten gebrauchten univariate, Voxel-weise, Techniken realisiert werden können, haben

Protocol

Um einen konzeptionellen Überblick über multivariate Analyse können wir Bild einer sehr einfachen Situation: eine hypothetische Daten für 50 menschlichen Teilnehmern, bei denen nur drei Regionen, wie Voxeln (= 3-dimensional Pixel in Abbildung 1) im Gehirn bezeichnet gesetzt wurden gemessen. (Insert Abbildung 1 hier lesen Beschriftung wie Voice-over).
Das allgemeine Ziel der multivariaten Analyse ist es, die wichtigsten Quellen der Varianz in den Daten zu identifizieren und dann beschreibt die wichtigsten Auswirkungen der Interesse an den Daten in Bezug auf diese Quellen der Varianz. Abbildung 2 zeigt ein einfaches Beispiel. (Abbildung 2 einfügen hier lesen Beschriftung wie Voice-over).
Wir wenden nun sowohl univariate und multivariate Analyse, um eine klinische Daten eingestellt. Wir heruntergeladen FDG-PET Scans Ruhestätte für 95 frühen Alzheimer-Patienten und 102 gleichaltrigen Kontrollen aus der Website der Alzheimer-Krankheit Neuroimaging Initiative (http://www.loni.ucla.edu/ADNI/). Wir zufällig ausgewählten 20-Scans von Patienten und Kontrollen und bezeichnet sie als unsere Ableitung Probe. Die restlichen 75 und 82 Scans bzw. sind unsere Replikation Probe. Univariate und multivariate Alzheimer-Krankheit (AD)-Marker wird nun in die Ableitung Probe abgeleitet werden, und ihre diagnostische Wirksamkeit bei der Replikation Probe getestet.
Für die univariate Marker, wir dagegen die 20 AD-Scans mit den 20 Kontrollen in der Ableitung Probe scannt und holen das Gehirn Ort, der stärkste Rückgang in PET-Signal in der AD-Patienten zeigt, wie durch ein T-Test gezeigt. Um zu testen, die diagnostische Wirksamkeit dieser Region, prüfen wir die Daten in der Replikation Probe an diesem Ort und Handlung ihre PET-Signal als Funktion der Krankheitsstatus.
Für die multivariate Marker, wir zunächst eine PCA auf die zusammen 40 Scans in der Ableitung Probe, und konstruiert anschließend ein Kovarianz-Muster aus den ersten 5 Hauptkomponenten, deren Gegenstand Skalierungsfaktor zeigt eine maximale mittlere Differenz zwischen AD-Patienten und gesunden Kontrollpersonen. (Details finden Sie in dieser repräsentativen Papiere ² zu entnehmen.) Die Diagnose-Kovarianz Muster erhalten bilden die Ableitung Probe wird dann prospektiv auf die Replikation Probe aufgetragen. Die daraus resultierende unterliegen Skalierungsfaktoren werden in Abhängigkeit von der Krankheit Status dargestellt.
Um einen allgemeinen Vergleich der beiden univariate und multivariate Ansätze aus Schritt 4 und 5, führen wir eine "split sample" Simulation und wiederholen Sie die beiden Schritte 1.000 Mal auf resampled Daten jedes Mal, wenn Bildung einer 20/20 Ableitung Probe und eine 75/82 Replikation von AD-Patienten und gesunden Kontrollen von neuem. Univariate und multivariate Krankheitsmarker sind aus der Ableitung Probe berechnet und die Entscheidung Schwelle ist so eingestellt, dass maximal 1 gesunden Kontrollpersonen als AD (= Spezifität 95%) ist falsch klassifiziert. Die Krankheit Marker mit ihren spezifischen Entscheidung Schwellenwerte sind dann prospektiv auf die Replikation Proben angewandt. Die Klassifizierung Fehlerraten bei der Replikation Probe für alle Resampling Iterationen aufgezeichnet.

Repräsentative Ergebnisse

Univariate Performance Die Ergebnisse können im Detail in Abbildung 3 zu sehen. Die Fläche der größte AD-bezogenen FDG Defizit wurde in der Super-temporalen Gyrus, Brodmann Bereich 38 gefunden. Die Fläche unter der ROC-Kurve erreicht wurde AUC = 0,90. Die Verallgemeinerung dieser Gegensatz zu der Replikation Probe war sehr gut mit einer Fläche unter der ROC-Kurve von AUC = 0,84.

Multivariate Performance Die Ergebnisse können im Detail in Abbildung 4 zu sehen. Die Gebiete mit positiven Ladungen, was auf eine relative Erhaltung des Signals in das Gesicht der Krankheit wurden im Kleinhirn gefunden, während verbundenen Signalverlust der parietotemporal und frontalen Bereichen, und dem hinteren Gyrus cinguli gefunden wurde. Die Flächen unter der ROC-Kurven in beide Ableitung und Replikation Proben wurden etwas besser als die univariate Marker bei 0,96 und 0,88, beziehungsweise.

Split-Sample-Simulationen Die Ergebnisse können im Detail in Abbildung 5 zu sehen. Die Abbildung zeigt, dass die multivariate Marker besser Replikation der diagnostischen Leistung als die univariate Marker gibt. Die mittlere Gesamt-Fehlerquote für die multivariate Marker 0,203, während für die univariate Marker es 0,307 ist.

. Abbildung 1 Diese einfache Abbildung beschreibt den Unterschied zwischen uni-und multivariaten analytischen Strategien: eine hypothetische 3-dimensionalen Datensatz wird in dieser Abbildung dargestellt. Auf der linken Seite, gibt es keine Korrelation zwischen den 3 Variablen aufgezeichnet. Auf der rechten Seite dagegen kann man sehen, eine wichtige Quelle der Varianz zeigt eine positive Korrelation zwischen allen drei Voxeln. Eine univariate Analyse, die nur als Mittelwerte auf einer Voxel-by-Voxel-Basis konnte nicht sagen, einen Unterschied zwischen diesen beiden Szenarien. Multivariate Analyse, im Gegensatz, identifiziert die wichtigsten Quellen von Variance in den Daten (roter Pfeil), bevor Sie fortfahren, um neuronale Aktivierungsmuster Konstrukt bilden diese Quellen.

Abbildung 2. Diese Folie zeigt in vereinfachter Form die grundlegenden Ausführung einer multivariaten Analyse in Neuroimaging-Daten. Die Daten-Array Y (s, x), die auf ein Sachregister s, und ein Voxel Index x, der die Position des Voxels im Gehirn abhängt, ist in eine Summe von mehreren Bedingungen zerlegt. Erstens, ein Produkt von einer rein fachlichen abhängigen Faktor Gäste, ssf (s), und eine rein Voxel-abhängige Kovarianz Muster, v (x). Zweitens, die Aktivierung, die nicht für durch die Kovarianz Muster zu bilanzieren sind in einem Fach-und Voxel-abhängige Rauschen Begriff, e (s, x) erfasst. Die beiden folgenden Grafiken die Gleichung ein Beispiel geben, das Thema Skalierungsfaktor und die Kovarianz-Muster. Jeder Teilnehmer zeigt die Kovarianz-Muster, nur in unterschiedlichem Maße, wie das Motiv Faktorwerte dargestellt. Anstatt den Überblick über alle Voxel das Verhalten getrennt zu halten, bieten die Kovarianz Muster und ihr Gegenstand Ausdruck eine sparsame Zusammenfassung der wichtigsten Quelle der Varianz. Da das Thema Skalierungsfaktor erhöht in der Größe, verringern Sie die Bereiche in blau in der Kovarianz-Muster bezeichnet die damit verbundenen Aktivierung, während die Bereiche angegeben in rot erhöhen gleichzeitig die damit verbundenen Aktivierung. Das Thema Faktorwerte kann mit externen Variablen von Interesse wie Subjekt des Alters oder der Verhaltensleistung in einer kognitiven Aufgabe korreliert werden, und keine Korrektur für multiple Vergleiche hat, um diese Korrelation angewendet werden.

Verschiedene Techniken für eine solche Zerlegung existiert, aber die häufigste ist Principal Components Analysis (PCA). Dies ist die Technik der Wahl für uns. Beachten Sie, dass unter Skalierungsfaktoren durch Projektion der Kovarianz Muster in Daten von gleicher Dimensionalität gesetzt, nicht nur die Datenmenge, die die Kovarianz Muster in erster Linie produziert erzielt werden kann. Dies macht Kovarianz Mustern geeignet zum Testen, ob Hirn-Verhaltens-Beziehungen, die in einem Datensatz beobachtet wurden in einem anderen Datensatz repliziert werden können.

Abbildung 3. Diese Abbildung zeigt das Ergebnis der univariaten Analyse. In der unteren linken Fenster sind die FDG-Signal-Werte für den Bereich, der größte AD-bezogenen Defizit in der Ableitung Beispiel zeigt, dargestellt. Seine MNI-Koordinaten sind X = 2 mm, Y = -48 mm, Z = 30mm (Precuneus / PCG, Brodmann Bereich 31). Das untere rechte Bild zeigt die FDG-Signal an diesem Standort in der Replikation Probe. Man kann verstehen, dass die FDG Unterschiede zwischen AD-Patienten und Kontrollen bei der Replikation Probe, während immer noch signifikant insgesamt mit mehr Überschneidungen zwischen den Gruppen reduziert werden.

Abbildung 4. Diese Abbildung zeigt die Ergebnisse der multivariaten Analyse. In der oberen Platte, zeigen wir mehrere axiale Schnitte, die deutlich positiv und negativ gewichtet Bereiche (p <0,001) in der Kovarianz-Muster in rot und blau zeigen jeweils. Beachten Sie, dass wir in jedem Zyklus skaliert durch seine globale Mittelwert, geben Sie dies rote und blaue Farbe eher relativ und absolut zu-und abnimmt von PET-Signal mit der Schwere der Erkrankung. Rote Flächen damit andeuten relativen Erhaltung im Angesicht der Krankheit, während Blau zeigt einen Verlust des Signals als Folge der Krankheit. Rote Flächen sind vor allem im Kleinhirn gefunden, während blaue Flächen in den hinteren Gyrus cinguli, parietotemporal und frontalen Regionen erscheinen. Untere linke Tafel: das Thema Faktorwerte der AD-bezogenen Kovarianz Muster sind in der Ableitung Probe angezeigt. Höhere Subjektwerte sind für die Alzheimer-Patienten gefunden. Untere rechte Tafel: das Thema Faktorwerte aus der prospektiven Anwendung der AD-bezogenen Kovarianz Muster, um die Replikation Probe sind hier dargestellt. Man kann schätzen, eine leichte Verschlechterung der diagnostischen Gegensatz zu erhöhten überschneiden sich in der Replikation Probe, aber die Verallgemeinerung der diagnostische Wirksamkeit ist deutlich besser als im eindimensionalen Fall.

Abbildung 5. Diese Abbildung zeigt die Ergebnisse der 1.000 split-sample-Simulationen. Aufgeführt sind Mittelwerte und Standardabweichungen der univariate und multivariate Diagnostik Fehlerraten bei der Replikation Proben. Man kann verstehen, dass die multivariate Marker Verallgemeinerung der Leistung deutlich besser ist, wenn auch etwas variabler als die univariate Markers.

Discussion

Wir hoffen, dass angesichts der Betrachter einen Eindruck von den Grundlagen der multivariaten Analyse, interessierte Zuschauer sind aufgefordert, Sie auf unserer Webseite. Ein paar Entscheidungen für Parameter in der multivariaten Analyse wurden das kann Gegenstand Debatte zu heftigen Diskussionen sein. Wir verschont die Diskussion dieser Fragen in diesem Artikel Ablenkung von den großen Themen zu vermeiden. Zuerst haben wir uns für die ersten 6 Hauptkomponenten unserer AD-bezogenen Kovarianz Muster zu konstruieren. Es gibt theoretische Gründe für diese Wahl, dass wir nicht zu diskutieren ^4. Die besondere Auswahl von 6 Hauptkomponentenanalyse ist jedoch nicht entscheidend für unser Argument: Man kann im Bereich wählte 2 bis 20 PCs und immer noch überlegen Verallgemeinerung Leistung der multivariaten Marker in der Split-Sample-Simulationen. Die Ergebnisse sind ähnlich robust gegenüber der Wahl der Zahl von Patienten in Ableitung und Replikation Proben. Wir haben 20 Probanden in beiden Gruppen bei der Replikation Probe, aber das war rein mathematische Bequemlichkeit zur Beschleunigung der Berechnungen. Unsere Ergebnisse über die relativen Vorteile beider Techniken würde ähnlich halten, wenn die Anzahl der Patienten in der Ableitung Proben wurden erhöht.

Zweitens haben wir nur präsentiert die elementarsten Art von multivariaten Analyse. Erhebliche Komplikation mit Techniken aus der Machine-Learning Literatur, lineare und nicht-lineare Transformationen vor der PCA und verschiedene andere Falten entlehnt sind denkbar, dass könnte die Verallgemeinerung Leistung noch zu steigern. Der Einfachheit halber haben wir nicht auf diese Möglichkeiten in diesem Artikel angesprochen.

Disclosures

Keine Interessenskonflikte erklärt.

Acknowledgments

Der Autor ist dankbar für NIH-Unterstützung:

NIH / NIBIB 5R01EB006204-03 Multivariate Ansätze zur bildgebenden Analyse

NIH / NIA 5R01AG026114-02 Frühe AD-Erkennung mit ASL-MRT und Kovarianzanalyse

ADNI: Imaging-Daten wurde von der Alzheimer-Krankheit Neuroimaging Initiative (ADNI) (NIH U01AG024904) zur Verfügung gestellt. Datensammlung und-Sharing für dieses Projekt wurde von der Alzheimer-Krankheit Neuroimaging Initiative (ADNI) (National Institutes of Health Grants U01 AG024904) finanziert. Abbott, AstraZeneca AB, Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Global Clinical Development, Elan Corporation,: ADNI wird durch das National Institute on Aging, National Institute of Biomedical Imaging and Bioengineering, und durch großzügige Spenden aus den folgenden finanziert Genentech, GE Healthcare, GlaxoSmithKline, Innogenetics, Johnson und Johnson, Eli Lilly and Co., Medpace, Inc., Merck & Co., Inc., Novartis AG, Pfizer Inc, F. Hoffman-La Roche, Schering-Plough, Synarc , Inc., und Wyeth, sowie Non-Profit-Partner der Alzheimer-Gesellschaft und der Alzheimer-Drug Discovery Foundation, mit der Teilnahme von der US Food and Drug Administration. Beiträge des privaten Sektors zu ADNI werden von der Stiftung für das National Institutes of Health (erleichtert http://www.fnih.org ). Der Stipendiat Organisation ist die Northern California Institute for Research and Education, und die Studie wird von der Alzheimer-Krankheit Cooperative Study an der University of California, San Diego koordiniert. ADNI Daten werden vom Labor für Neuro Imaging an der University of California, Los Angeles verbreitet. Diese Arbeit wurde auch von NIH gewährt P30 AG010129, AG030514 K01 und die Dana Foundation unterstützt.