Neuroscience

データを神経画像の多変量解析の基礎

Published: July 24, 2010 doi: 10.3791/1988

¹Department of Neurology, Columbia University

Summary

現在の記事は、多変量解析の基本を説明し、一般的に使用されるボクセル単位の単変量解析に対照的です。分析の両方のタイプの臨床神経科学のデータセットに適用されます。補足折半のシミュレーションでは、独立したデータセットにおける多変量の結果のより良いレプリケーションを示しています。

Abstract

彼らは簡単に、より一般的に使用される単変量、ボクセル単位で、テクニックでは実現できない多くの魅力的な特徴を持っている神経画像データのための多変量解析の手法は、近年ますます注目を受けている

Protocol

脳内のボクセル（図1の= 3次元ピクセル）と示される3つだけの領域が、測定した50人の参加者、に設定されている仮想的なデータ：多変量解析の概念的な概要を与えるために、我々は非常に単純な状況を想像することができます。（図1をここに挿入し、上で音声と字幕を読んで。）
多変量解析の一般的な目的は、データの分散の主要な発生源を特定し、分散のこれらのソースの観点からデータに関心の主要な効果を記述することです。図2は、単純化した例を示しています。（図2をここに挿入し、上で音声と字幕を読んで。）
我々は現在、臨床データセットへの単変量および多変量の両方の分析を適用する。我々は、アルツハイマー病神経イメージング研究イニシアティブ（http://www.loni.ucla.edu/ADNI/）のウェブサイトから95の早期のアルツハイマー病患者と102年齢をマッチさせたコントロールのFDG - PETの休憩スキャンをダウンロード。我々は無作為に患者とコントロールの両方の20スキャンを拾い、私たちの導出のサンプルとして、それらを指定。残りの75および82のスキャンは、それぞれ、私たちの複製のサンプルを構成する。単変量および多変量アルツハイマー病（AD）マーカーは、現在、導出のサンプルに由来し、その診断効率は、レプリケーションのサンプルでテストされます。
単変量マーカーでは、コントラスト20、コントロール、20 ADスキャンでは、導出のサンプルでスキャンして、T -テストによって示されるようにAD患者におけるPETの信号で最大の減少を示す脳の場所を選ぶ。この地域の診断有効性をテストするには、我々はこの場所でレプリケーションサンプルのデータをチェックし、病気の状態の関数としてのPETの信号をプロットします。
多変量マーカーの場合は、まず対象のスケーリング係数は、AD患者と健常対照者との間の最大差の平均値を示す最初の5主成分から共分散のパターンを構築して導出のサンプルの組み合わせ40スキャンでPCAを実行し、と。（詳細は、これらの代表的な論文²で見つけることができます。）導出のサンプルを形成して得られた診断共分散のパターンをして前向きにレプリケーションサンプルに適用されます。結果として被験者のスケーリング係数は、疾患の状態の関数としてプロットされている。
ステップ4と5から単変量および多変量の両方のアプローチのより一般的な比較を提供するために、我々は、それぞれの時間が20分の20導出のサンプルと82分の75を形成し、リサンプリングデータに1,000回を"スプリットサンプル"シミュレーションを実行し、両方の手順を繰り返します。 AD患者と健常対照者の再出発の複製。単変量および多変量の疾患マーカーは、導出のサンプルから計算されると決定しきい値は、最大で1健康な制御は、AD（=特異度95％）として誤分類されるように設定されています。彼らの特定の決定のしきい値と疾患マーカーは、前向きにレプリケーションサンプルに適用されます。レプリケーションサンプルの分類のエラー率は、すべてのリサンプリングの反復のために記録されます。

代表的な結果

一変量のパフォーマンスは、結果を図3に詳細に見ることができます。最大のAD関連FDGの赤字の面積は、スーパー側頭回、ブロードマン領域38に発見された。 ROC曲線下の面積はAUC = 0.90であった達成。レプリケーションサンプルのこのコントラストの一般化はAUC = 0.84のROC曲線下面積で非常に良かった。

多変量のパフォーマンスは、結果を図4に詳細に見ることができます。関連する信号の損失がparietotemporalと前頭葉の領域、および後部帯状回を発見された間に病気に直面して信号の相対的な保全を示唆正の負荷、ある領域は、小脳に認められた。導出とレプリケーションサンプルの両方でROCカーブ下の面積はそれぞれ、0.96および0.88における単変量マーカーよりもやや優れていた。

スプリットサンプルのシミュレーション結果を図5に詳細に見ることができます。図は、多変量マーカーが単変量マーカーより診断能の向上複製を与えることを示しています。単変量マーカーのためにそれは0.307であるのに対し、多変量マーカーの平均合計エラー率は、0.203です。

図1この単純な図は、単変量および多変量解析の戦略の違いを説明します：仮想的な3次元のデータセットは、この図に表示されます。左側には、プロットされた3つの変数間に相関関係はありません。対照的に右側で、1つはすべての3つのボクセルの間に正の相関を示す分散の主要なソースを見ることができます。単にボクセルごとのボクセル単位で値を意味すると考えている単変量解析では、2つのシナリオの違いを言うことができませんでした。多変量解析では、対照的に、バリアンの主要な源を識別する神経活性化パターンを構築するために進む前に、データのCE（赤い矢印）は、これらのソースを形成する。

図2。このスライドでは、簡略化した形でデータを神経画像内の任意の多変量解析の基本的な成果を示しています。脳内のボクセルの位置を示す、対象指数の、とボクセルのインデックスxに依存するデータ配列Y（S、x）は、、いくつかの項の和に分解されます。最初に、純粋に対象依存の因子得点、SSF（S）、そして純粋にボクセルに依存する共分散パターン、V（x）の製品。共分散のパターンによって説明することができる2番目の、活性化が主題とボクセルに依存した雑音項、E（S、X）でキャプチャされます。方程式以下の二つのグラフィックスは、予告スケーリングファクターと共分散パターンの例を与える。対象因子得点によって示されるようにすべての参加者は、単に異なる程度に、共分散のパターンを明示する。むしろ別々に全てのvoxelの行動を追跡することより、共分散のパターンとその主題の表現は、分散の主な原因の無駄のない要約を提供しています。領域が同時にそれらに関連する活性を増加させる赤で示されている間、大きさの被写体倍率が増加すると、共分散のパターンで青色で示された領域は、それらに関連する活性化を減少させる。対象因子得点は、対象年齢や認知タスクの行動パフォーマンスのような関心の外部変数と相関し、多重比較に対する補正は、この相関関係に適用する必要がありますすることはできません。

このような分解のためのいくつかのテクニックが存在しますが、最も一般的なものは、主成分分析（PCA）です。これは私たちにとって最適な手法です。主題スケーリングファクタは最初の場所では、共分散のパターンを生成しただけで、データセット、等しい次元が設定されているデータに共分散のパターンをしない投影することによって得ることができることに注意してください。これは、1つのデータセットで観察された脳 - 行動の関係は、異なるデータセットにレプリケートできるかどうかをテストするための共分散のパターンに適しています。

図3：この図は、単変量解析の結果を示しています。左下のパネルでは、FDGの信号値は、導出のサンプルの最大のAD関連の赤字を示す領域にプロットされています。そのMNI座標はX = 2mmの、Y = -48 mmのZ = 30ミリメートル（楔前部/ PCG、ブロードマンエリア31）です。右下のパネルには、レプリケーションサンプルのこの非常に場所でのFDGの信号を示しています。一つは、レプリケーションサンプルのAD患者と対照との間のFDGの違いは、依然として重要な一方、全体的、グループ間のより多くのオーバーラップで還元されていることを理解することができる。

図4この図は、多変量解析の結果を示しています。トップパネルには、我々はそれぞれ、赤と青の共分散のパターンで有意に正と負の重みの領域（P <0.001）を示すいくつかの軸方向のスライスを表示します。私たちはその地球の平均値ですべてのスキャンをスケーリングことに注意してください、そう、赤と青の色は、疾患の重症度とPET信号の代わりに相対的と絶対的な増減を示している。青は病気の結果として、信号の損失を示し、赤色の領域は、このように、病気に直面して相対的な保全をほのめかす。青色の領域は後帯状回、parietotemporalと前頭部に出現しながら赤の領域は主に、小脳に記載されています。左下のパネルは：AD -関連の共分散のパターンの対象因子得点は、導出のサンプルで表示されます。高い被験者のスコアは、AD患者のために発見されています。右下のパネル：レプリケーションサンプルのAD関連の共分散パターンの将来のアプリケーションに起因する被験者因子得点がここにプロットされています。一つは、レプリケーションサンプルの増加オーバーラップと診断コントラストの軽度の悪化を認めることができるが、診断有効性の一般化は、単変量の場合よりも著しく優れています。

図5。この図は、1,000分割サンプルシミュレーションの結果を示しています。記載されている手段と、レプリケーションサンプルの単変量および多変量診断エラー率の標準偏差である。一つは、パフォーマンスの多変量マーカーの一般化は、単変量マーカーのよりものの幾分変数かなり優れていることを理解することができる。

Discussion

我々は、視聴者の多変量解析の基本の味を与えていると思っています。興味のある視聴者は、当社のウェブサイトをチェックアウトすることをお勧めします。多変量解析でのパラメータのいくつかの選択肢は、かなりの議論の対象に議論できるよう作られた。我々は主要な問題から気晴らしを避けるために、この記事ではこれらの問題の議論を免れる。最初に、我々は、ADに関連する共分散のパターンを構築する最初の6つの主成分を選びました。我々は^4つを議論していないことこの選択の理論的な理由があります。 6主成分しかし、特定の選択は、私たちの議論にとって重要ではない：一つは、2〜20のPCからの範囲で選択し、まだ分割サンプルシミュレーションにおける多変量マーカーの優れた汎化性能を得ることができます。結果は、導出および複製サンプルでは、被験者の数字の選択に関しても同様に堅牢です。我々は、レプリケーションサンプルの両方のグループの20人の被験者を選んだが、これは計算を高速化するために数学的な便宜のために純粋だった。導出のサンプル中の被験者の数が増えたときの両方の技術の優劣に関する我々の結果は、同様に保持されるため。

第二に、我々は多変量解析の最も基本的な種類を発表した。機械学習の文献、前にPCAの線形および非線形変換、およびさまざまな他のしわから借用したテクニックとかなりの合併症はさらに汎化性能を向上させることがその実現可能である。簡単にするために、この記事ではこれらの可能性に触れていない。