多元分析的基础，在影像学资料

Published: July 24, 2010 doi: 10.3791/1988

Christian Georg Habeck¹

¹Department of Neurology, Columbia University

Summary

本文介绍的多因素分析的基础知识和对比比较常用的体素明智的单因素分析。分析这两种类型的应用到临床神经科学数据集。补充分半的模拟显示出更好的复制在独立的数据集的多元结果。

Abstract

神经影像数据的多变量分析技术最近日益受到重视，因为他们有许多吸引人的特点，比较常用的一元，体素的智慧，技术，不能轻易实现的

Protocol

为了让一个多元分析的概念概述，我们可以想像一个非常简单的情况：50人的参与者，只有三个地区，在大脑中体素（图1 = 3维像素）表示一个假设的数据进行测量。（此处插入图1，请阅读标题为语音结束。）
多元分析的总体目标是，以确定数据的方差的主要来源，然后在利益产生重大影响的方差这些来源的数据描述。图2显示了一个简单的例子。（此处插入图2，阅读标题为语音“结束了。）
现在，我们应用单因素和多因素分析临床资料一套。我们下载了95早期阿尔茨海默氏症患者和阿尔茨海默氏病影像学倡议（http://www.loni.ucla.edu/ADNI/）网站102的年龄匹配的对照FDG - PET的休息扫描。我们随机挑选20个病人和控制的扫描，并指定他们作为我们的推导样本。余下的75％和82扫描，分别构成复制样本。现在将得到单因素和多因素阿尔茨海默氏病（AD）的标记在推导样本，并在复制样本测试其诊断疗效。
对于元标记，我们对比20与20控制广告扫描扫描推导样本，并挑选大脑的位置，显示最大的PET信号在AD患者的减少，t检验所示。为了本地区的测试诊断疗效，我们在这个位置检查复制样本中的数据，并绘制其作为疾病状态的功能PET信号。
多元的标记，我们首先执行上，结合40推导样本扫描PCA，然后构建一个从第5主成分，其主题缩放系数显示了最大的AD患者和健康对照组之间的平均差异的协方差模式。（详情可在这^2个有代表性的论文。）诊断协模式，取得形式的推导样本然后前瞻性应用到复制样本。由此产生的主体缩放因素绘制作为疾病状态的功能。
为了提供一个更普遍的单因素和多步骤4和5的方法比较，我们执行“分裂样品”模拟并重复这两个步骤，重采样数据的1000倍，每次形成20/20推导样品和75/82 AD患者和健康对照组重新复制。从推导样本计算单因素和多因素的疾病标志物和决定的阈值设置，错误归类为AD（=特异性为95％）1健康对照。其具体的决策阈值的疾病标志物，然后前瞻性应用复制样本。所有重采样迭代复制样本的分类错误率记录。

代表性的成果

单因素表现的结果可以看出，图3中详细。在超级颞上回，布罗德曼38区，面积最大的广告相关的葡萄糖赤字。取得的ROC曲线下面积AUC = 0.90。这种反差的复制样本的泛化是相当不错的，根据ROC曲线下面积AUC = 0.84。

多元的表现 ，结果可以看出，在图4的细节。积极负荷相对保存在面对疾病的信号提示，地区被发现在小脑，而相关的信号损失被发现parietotemporal和正面的地区，后扣带回。根据中华民国曲线推导和复制样本地区比0.96和0.88的单变量标记稍微好一点。

分割样本模拟的结果可以看出，图5中详细。数字显示，多元标记提供了更好的诊断性能比单变量标记复制。多元标记的平均总误差率是0.203，而为单变量的标记，它是0.307。

图1：这个简单的数字描述了单因素和多因素分析战略之间的差别：一个假设的三维数据集，在此图中显示。在左侧，有3绘制变量之间没有相关性。相反的右侧，可以看到一个表明所有三个体素之间的正相关性变异的主要来源。一个单因素分析，仅仅考虑对一个体素的体素的基础上平均值，不能告诉任何这两种情况之间的差异。多因素分析，对比，确定的主要来源瓦里安CE中的数据（红色箭头），然后再继续兴建神经激活模式，形成这些来源。

图2：这张幻灯片显示了一个简化的形式，任何神经影像数据的多变量分析的基本素养。数据数组Y（S，X），这取决于一个主题索引S，和一个体素指数X，表明大脑中的体素的位置，被分解成几个术语的总和。首先，一个纯粹的受依赖的因子得分，SSF（S），和一个纯粹的体素依赖的协方差模式的产品，V（X）。二，激活，不能占协模式是在主题和体素依赖，噪声项E（S，X）抓获。下面的方程的两个图形的主题缩放系数和协方差模式的一个例子。每一个参与者，体现了协模式，只是在不同程度上的主题因子得分所示。而不是保持跟踪每个体素的行为分开，协方差模式，其主体表达提供一个吝啬的方差的主要来源总结。作为主体的缩放因子增加的幅度，以蓝色表示在协模式的地区降低其相关的激活，而在红色区域，同时表示，增加其相关的激活。主题因子得分可以与外部变量的利益，如受年龄或行为表现在认知任务，并没有被应用到这种关联的多重比较校正。

这种分解的几个技术存在，但最常见的一种主要成分分析（PCA）。这是我们的首选技术。注意：主题缩放因子可以通过平等维度设置任何数据投影到协模式，不只是生产摆在首位的协方差模式的数据集。这使得协模式适合用于测试是否可以在不同的数据集复制大脑的行为，在一个数据集的关系。

图3，此图显示的单因素分析的结果。在左下方的面板，FDG的信号值绘制的区域显示的最大的广告相关的推导样本中的赤字。它的MNI的坐标是X = 2毫米，Y = -48毫米，Z = 30毫米（楔前叶/盈科，布罗德曼31区）。右下面板显示FDG的信号在此复制样本的位置。人们可以欣赏复制样本中的AD患者和控制之间的FDG的差异，但总体仍然显着，减少与组之间的重叠。

图4这个数字显示的多因素分析的结果。在顶部面板中，我们显示显着积极和消极加权领域中的红色和蓝色的协方差模式（P <0.001），分别显示多个轴位片。请注意，我们按比例缩减其全球平均值每次扫描，让红色和蓝色表示相对而不是绝对增加，并降低与疾病严重程度的PET信号。因此，红色区域相对保存在面对疾病的暗示，而蓝色表示的信号损失，为疾病的后果。红色区域主要分布在小脑，而蓝色区域出现在后扣带回，parietotemporal和额叶区域。左下面板：AD相关的协方差模式的主题因子得分显示在推导样本。高等教育的学科分数发现AD患者。右下面板：这里绘制主体因素导致AD相关的协方差模式复制样本应用前景的分数。一个可以理解的复制样本中增加了重叠的诊断对比略有恶化，但泛化诊断疗效明显比在单因素的情况下更好。

图5：此图显示了1000分割样本模拟结果。上市是手段和复制样本的单因素和多因素诊断错误率的标准偏差。人们可以欣赏多元标记的泛化性能相当好，虽然有点超过一元标记的变量。

Discussion

我们希望给观众的多元分析的基础气息;鼓励有兴趣的观众是来检查我们的网站。多变量分析中的参数作了一些选择，可相当多的争论议题的辩论。我们不遗余力地在这篇文章中讨论这些问题，以避免重大问题分心。首先，我们选择了第6个主成分来构造我们的广告相关的协方差模式。这种选择有理论方面的原因，我们没有讨论^4。特别是6个主成分的选择，虽然不是对于我们的观点是至关重要的：一个可以选择的范围从2到20个，仍取得优异的泛化性能的多元分割样本模拟标记。结果推导和复制样本科目数量的选择方面也同样强劲。我们选择了20个科目复制样本两组，但是这是纯粹数学的方便，以加快计算。同样，如果在推导样本科目的数量增加，这两种技术的相对优势，我们的研究结果将举行。

其次，我们只介绍最基本的一种多因素分析。从机器学习文学，线性和非线性PCA的转换之前，和其他各种皱纹借来的技术相当复杂化是可行的，可以提高泛化性能更。为了简单起见，我们没有在这篇文章中谈到这些可能性。

Disclosures

没有利益冲突的声明。

Acknowledgments

作者是为美国国立卫生研究院授予支持表示感谢：

美国国立卫生研究院/ NIBIB 5R01EB006204 - 03多元影像学分析方法

NIH / NIA的5R01AG026114 - 02早期AD与ASL MRI及协方差分析检测

ADNI：阿尔茨海默氏病影像学倡议（ADNI）研究院（NIH U01AG024904）提供影像数据。这个项目的数据收集和共享的阿尔茨海默病的神经影像学倡议（ADNI）（美国国立卫生格兰特U01 AG024904研究院）资助。 ADNI是由国家老龄问题研究所，国家生物医学成像和生物工程研究所，并通过从以下几个：雅培，阿斯利康AB，拜耳先灵医药公司，施贵宝，卫材全球临床开发，Elan公司的慷慨捐助， Genentech公司，GE医疗集团，葛兰素史克，Innogenetics，强生公司，礼来公司，Medpace公司，默克公司和有限责任公司，诺华公司，辉瑞公司，F.霍夫曼罗氏，先灵葆雅，Synarc公司和惠氏公司，以及非营利性的合作伙伴阿尔茨海默氏症协会和老年痴呆症的药物发现基金会，与来自美国食品和药物管理局的参与。促进私营部门的贡献ADNI为国家健康（研究院基金会http://www.fnih.org ）。承批人的组织是北加州理工学院的研究和教育，这项研究是由阿尔茨海默氏病，圣地亚哥加州大学的合作研究协调。在加州大学洛杉矶分校神经影像实验室ADNI数据传播。也支持这项研究是由美国国立卫生研究院拨款P30 AG010129，K01 AG030514，和达纳基金会。