Summary
我们提供一个标准化的协议用于基因集的浓缩转录组数据分析,找出理想的小鼠模型的转化研究。
该协议可以用 DNA 微阵列和 RNA 测序数据,并且可以进一步扩展到其他组学数据如果数据可用。
Abstract
最近的研究表明人类疾病转录组数据集与数据集从小鼠模型使用传统基因到基因比较技术导致相互矛盾的结论关于相关性的动物模型的转化研究。不同的基因表达分析差异的主要原因是任意筛选差异表达基因。此外,单个基因不同物种和经常的平台之间的比较被受到限制技术的差异,导致人类与动物模型的数据之间的误解 con/不一致。因此,需要系统的数据分析的标准化的方法。为了克服主观基因筛选和无效基因到基因比较,我们最近表明基因集的富集分析 (GSEA),潜力来避免这些问题。因此,我们制定的 GSEA 来区分合适与不合适的动物模型,为转化型研究使用标准化的协议。本议定书不适于预测如何设计新模型系统是-先验的因为它需要现有实验组学数据。但是,议定书 》 描述了如何选择最合适的动物模型,从而避免不必要的动物实验和误导翻译研究以标准化的方式解释现有的数据。
Introduction
广泛用于动物模型来研究人类疾病,因为它们对人类在遗传学、 解剖学和生理学方面的假定相似性。此外,动物模型经常作为临床治疗的守门人,可以对转化医学研究的成功产生巨大的影响。谨慎选择最优的动物模型可以减少误导的动物研究的数量。最近,为转化型研究的动物模型的相关性有争议的讨论,特别是因为分析从人类的炎症性疾病和相关的小鼠模型中获得相同的数据集导致相互矛盾的结论1,2。这次讨论组学数据分析期间展示了一个基本的问题: 标准化系统的数据分析方法需减少有偏见的基因选择,增加的物种间比较3的鲁棒性。
传统上,转录组学数据 (和其他组学数据) 分析在级别上进行单基因和包括基因选择基于严格禁产参数初始步骤 (例如,褶皱变化 > 2.0,p 值 < 0.05)。然而,最初截止参数的设置往往是主观的、 任意的和生理上有正当理由,和甚至可以导致相反结论1,2。此外,基因的初步选择一般限于几个高度-和氪基因分析,因此不具有足够的灵敏度,要包括的大多数基因表达的差异程度较轻。
随着基因组学时代在本世纪初的兴起和增长的知识的生物学通路和上下文,替代统计方法被开发,允许绕过单基因水平分析的局限性。基因集富集分析 (GSEA)4,这是被广泛接受的转录组学数据分析方法之一,利用先验定义组的基因 (例如,信号转导通路,近端位置对染色体等.)。GSEA 首先映射所有检测到未筛选的基因到预期的基因集 (例如,路径),不论其个人的转变,在表达式中。因此,这种方法还包括适度下调的基因,否则会丢失与单基因水平的分析。在基因组内的表达式中的添加剂更改随后可使用运行总和统计信息。
尽管其广泛应用在医学研究中,GSEA 和相关设置的浓缩方法不不言而喻考虑复杂的组学数据分析。在这里,我们描述协议比较组学数据来自于人体样本与那些从小鼠模型以确定翻译研究的理想模式。我们展示协议基于集合用于模仿人类的炎性疾病的小鼠模型的适用性。然而,这个分析管道不局限于人-鼠比较和修正对进一步研究的问题。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1.下载的 GSEA 软件和分子的签名数据库
- 去 GSEA 南广学院官网 (http://software.broadinstitute.org/gsea/index.jsp) 和注册,才能进入 GSEA 软件工具和分子签名数据库 (MSigDB)。
- 下载 javaGSEA 桌面应用程序或替代软件选项 (例如,R 脚本)。
注意: 所有选项都实现完全相同的算法。GSEA 软件是免费提供给个人在学术界和工业界的内部研究目的。 - 要进一步 GSEA 软件的详细信息,请访问文档网站 (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) 和 GSEA 用户指南 (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)。
- 从 GSEA 网站要访问的单个基因集集合下载分子签名数据库 (MSigDB)。
注: MSigDB 是与 GSEA 软件或其他目的使用带注释的基因组的集合。基因组可以根据信号转导通路、 基因本体术语、 顺式调控图案、 实验签名和其他划分。从 MSigDB 基因总是由他们官方的雨果 (人类基因组组织) 基因符号命名。为模型的比较研究途径调节给定人类障碍与不同的鼠标它推荐下载 ' 所有规范通路、 基因符号 ' 文件 (c2.cp.v5.2.symbols.gmt)。此文件包括基因组,并注明由 KEGG 5 , 6、 Reactome 7 , 8 和 BioCarta 组织成信号通路 9.字符串 ' v5.2 ' 表示集合的版本信息。请确保下载最新版本的文件。MSigDB 是免费提供给个人在学术界和工业界的内部研究目的。它不需要下载的 MSigDB,如果在分析期间提供互联网连接。在这种情况下 MSigDB 可以直接选择在 GSEA 用户界面内。 - 下载 DNA 芯片 (阵列) 注释文件从 GSEA 网站翻译一般的雨果基因符号 (例如,Mouse430_2.chip) 的特定于阵列的探针标识符。
注意: 它不需要下载 DNA 芯片注释,如果在分析期间提供互联网连接。在这种情况下 DNA 芯片注释直接在 GSEA 用户界面中选择。议定书 》 还可以用 RNA 测序数据。在这种情况下,它不需要下载的批注文件。相反,使用 GSEA preranked 的工具用于分析基因表达数据 (请参见步骤 4.12)。
2。下载实验基因表达数据的合适的动物模型和人类秩序混乱的
- 识别实验基因表达 (转录组学) 研究为人类选择障碍的 (例如,基因表达谱研究白细胞来自 GSE9960 脓毒症患者)。
- 同样,搜索几个动物模型被认为与人类研究 (例如,金黄色葡萄球菌 (金葡菌) GSE20524 注射后小鼠血液细胞的基因表达谱) 相比。在这一步的先验知识用于预选的动物模型,可能适合模仿人类的处境。
- 为此目的指文学和数据库等基因表达综合 (GEO) 数据库 10 或 ArrayExpress 11 和下载感兴趣的归一化的转录组学数据。将数据保存为文本文件在本地硬盘上。对于地理数据库,建议下载选项卡分隔系列矩阵文本文件。此外注意到的平台 (数组类型) 用于这项研究,因为此信息需要翻译一般雨果基因符号的特定于阵列的探针标识符。
注: 确保足够的内存用于数据存储,如转录组学数据集通常包括几百 MB。
3。数据处理和格式
- 在实验性基因表达数据导入的 GSEA 软件工具之前, 考虑所需的数据结构。对于每个研究手动创建两个不同的文件: 包含各种基因和样品,测量值 1) 基因表达数据文件和包含示例标签进行分组 (例如,对治疗组) 个别样品 2) 表型文件。
为进一步的详细信息和数据结构选项转到 GSEA 数据格式页面 (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats)。
注: 一般来说,所有形式的转录组学数据都都符合议定书 》,包括 DNA 微阵列实验、 RNA 序列或芯片 seq 研究。使用 DNA 微阵列实验,基因表达数据文件应包含特定于阵列的探针标识符或雨果基因符号的每个基因 (探头标识符将被译成雨果基因符号在分析期间,请参阅步骤 1.5 和 4.10)。使用 RNA 序列或芯片 seq 数据,而不是单个样本数据应该用于手动计算的组度量的基因表达数据 (例如,组平均比率)。这些组度量标准应当加以分析与 GSEA preranked 工具 (请参见步骤 4.12)。基因表达数据已经被导入的 GSEA 软件之前像往常一样正常化。类型的正常化 (例如,四分位数或三次样条) 一般留给研究员。 - 基因表达数据文件: 使用制表符分隔的文本文件 (*.txt) 文件格式来描述表达数据集,如 图 1A 所示。请参阅支持的示例文件 GSE20524_expression.txt.
注: 基因表达数据文件包含表达式值为 所有 检出基因 (或探针),也不可能差异表达的基因。因此,该文件通常包含许多成千上万个基因。它被组织如 图 1A 所示。第一行包含的标签名称 (例如,基因符号或探头 ID) 其后每个示例中的数据集 (例如,样品 1,样本 2 等) 的标识符。该文件的其余部分包含表达式值为每个基因,每个样本的数据集。GSEA 软件工具执行计算的组指标 (例如,组平均比率或信号信噪比),因此它建议,包括每个示例中的数据。或者,也可以使用外部计算的组指标进行基因表达谱数据 (见 图 1B)。 - 型文件: 创建一个单独的文件,用于定义和标签组,包括个别样品中所示 < 强类="xfig"> 图 2。使用空格或制表符分隔字段。CLS (c + + 类定义) 文件格式保存它。请参阅支持的示例文件 GSE20524_pheno_infection.cls.
注: 第一行包含的样本总数和进一步组 ( 图 2) 的数目。虽然样本数目应该对应于基因表达数据文件 (见 3.2),组的数目取决于研究设计。第三个字段的第一行是总是 ' 1 '.
第二行 CLS 文件中的包含每个组的名称。线应开始与一个磅符号 (#) 后跟一个空格 ( 图 2)。
第三行包含为每个样品组标签。组标签可以是任意数字或文本。它是只确定每个样本对群体协会的标签顺序: 所用的第一个标签分配给第一组在第二行;第二个的独特标签分配给第二组,等等。确保每个样本的同一集团在此步骤中,具有相同的标签和标签数目是样本中的第一行指定数目相同。最后,将该文件另存为以制表符分隔的文本文件 (*.txt) 和手动将文件扩展名更改为 (*.cls)。 - (可选) 基因设置数据库文件: 定义自定义的基因组。基因组,如 图 3 所示为使用制表符分隔的 GMT (基因矩阵转置) 文件格式。也请参阅支持的示例文件 Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
注意: 定义自定义基因集可以有用例如限制基因设富集分析途径特别感兴趣 (例如,信号的脓毒症研究的免疫学),或为 de novo 定义自己的基因组 (例如,激活和抑制基因的研究进行比较)。该文件被组织如 图 3 所示。在格林尼治标准时间格式中,每一行代表一基因组 ( 图 3)。每个基因组由一个名称、 说明和基因在基因组中的描述。第一列包含独特的基因集的名称。第二行选择可能包含基因集的描述。以下各列包含相应的基因组的基因名称 (官方雨果基因符号)。最后,将该文件另存为选项卡分隔的文本文件 (*.txt) 和手动更改文件扩展名为 (*.gmt)。
4。执行 GSEA
- 打开 GSEA 软件工具 (见 1.2)。
- 单击 ' 加载数据 ' ( 图 4A) 主窗口左侧的按钮。一个新的选项卡会打开导入所需的数据文件 ( 图 4B)。在新选项卡中的基因表达数据 (*.txt) 文件浏览 (见 3.2),表型 (*.cls) 文件 (见 3.3) 和 (可选) 自定义基因组 (*.gmt) 文件 ( 图 4B)。
- GSEA 不能连接到互联网的情况下还加载下载的 MSigDB (*.gmt) 文件 (例如,c2.cp.v5.2.symbols.gmt 为通路,见 1.4) 和 DNA 芯片 (阵列) 注释 (*.chip) 文件 (例如,Mouse430_2.chip,见 1.5)。成功导入的数据出现在 ' 加载数据 ' 节 ( 图 4)。
注: 每个基因的表达研究,必须分析与 GSEA 分别。将在第 5 步执行两项研究 (例如 人类障碍与小鼠模型) 之间比较。
- GSEA 不能连接到互联网的情况下还加载下载的 MSigDB (*.gmt) 文件 (例如,c2.cp.v5.2.symbols.gmt 为通路,见 1.4) 和 DNA 芯片 (阵列) 注释 (*.chip) 文件 (例如,Mouse430_2.chip,见 1.5)。成功导入的数据出现在 ' 加载数据 ' 节 ( 图 4)。
- 单击 ' 运行 GSEA ' 主窗口左侧的按钮。一个新的选项卡会打开要设置的参数分析 ( 图 4)。选项卡被细分为三个部分: 必填的字段、 基本字段 和 先进的领域。
- 在 必填的字段, 首先选择 表达数据集 加载步 4.2 ( 图 4)。
- 基因设置数据库,选择从连接的网站或手动导入的基因集文件 ( 图 4)。
- 编辑的 表型标签 选择应该要比较 (例如,金黄色葡萄球菌 与 健康对照治疗) 彼此的样品的组 ( 图 4)。
- 崩溃数据集到基因符号 (= true),翻译中基因组数据库中使用的官方雨果基因符号表达数据集的探针标识符。请选择 false,如果表达式 dataset 已包含雨果基因符号 ( 图 4)。
- 设置 到排列数 默认设置为 1000 ( 图 4)。
注: 为更多的计算时间将大大增加。 - 更改 排列类型 到 ' 基因组 ',因为表型排列建议仅在每个表型 ( 图 4) 中有超过 7 个样品时。
- 最后,选择用于生成的基因表达数据的芯片平台,从连接的网站或从手动导入 DNA 芯片 (阵列) 注释文件 ( 图 4)。
注: 此步骤仅是必要的如果在上载的表达数据集使用了探针的标识符。 - 在 基本字段 至少编辑 分析名称 和 保存结果在此文件夹中 的部分,再一次找到的结果文件 ( 图 4)。此外,还可以改变统计参数。为进一步的参数和 先进的领域 部分的详细信息请去 GSEA 用户指南 (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)。
- (可选): 在基因表达数据 (例如,组平均比率) 必须而不是单个样本数据使用案例的外部计算的组度量值,使用 GSEA preranked 的工具。然后,将基于一个简单的基因与用于排列基因的预计算的组指标分配列表进行分析。后装替代基因表达文件转到主导航栏,点击 工具/GseaPreranked。同样,一个新的选项卡会打开设置的参数分析 ( 图 4E)。
注意: 建议使用 GSEA preranked 的工具并没有个别样品特异性基因表达数据的研究。如果特别统计或标准化方法和程序进行导致组平均值而不是单个样本数据的数据,这可能是个案。对于 RNA 测序数据情况下,建议使用 GSEA preranked 的工具。正常化的 RNA 序列表达数据并计算组度量值可以用来排名根据其表达的基因的样品 (例如,日志的褶皱变化)。
单击 - ' 运行 ' 上的窗口右下角的按钮。
注意: 分析然后可能需要几分钟时间,具体取决于计算机的速度。按照 GSEA 报告部分中分析进展上左下角的窗口。后整理分析,状态 ' 成功 ' 出现在 GSEA 报告部分。
要打开分析结果的 GSEA 报告 部分中单击 - 上成功分析。
注: 在总结了所有的结果和参数设置 ( 图 5) 的浏览器窗口中将打开一个新的导航菜单。导航菜单的上部的两个部分组成基因为已定义的组 (例如,在美国治疗金黄色葡萄球菌样品或健康对照样品富集) 设置富集结果。这两个部分的第一个行显示统计结果摘要。显著富集在错误发现率 (FDR) 低于 25%的基因组作为浓缩在下面解释。进一步详细分析的解释可以发现在 GSEA 用户指南 (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)。 - 点击上 详细的富集结果在 excel 格式,将分析结果导出到电子表格 ( 图 6A)。导出 详细的富集结果在 excel 分别为这两个表型 ( 图 5),加入一个电子表格文件中的结果数据。几项研究,基因表达数据相比较,至少保持基因集 (A 列) 的名称,其归一化的浓缩分数 (NES) (F 列) 和其罗斯福 (错误发现率) 值 (列 H) ( 图 6B)。
注意: 电子表格文件包含大量数据的分析每个基因的基因组 (A 列),其大小 (即基因在基因表达数据,列 D 中检测到的数量),名称包括设置其 NES (定量的方向和富集,F 列程度),其名义上的 p 值 (不加以纠正,列 G) 和价值罗斯福 (更正为多重假设检验,H 列)。为进一步解释的详细信息请参阅 GSEA 用户指南 (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)。
对于第二项研究 (例如,金黄色葡萄球菌 GSE9960) 和理应互相比较的所有进一步的研究, - 重复基因集富集分析 (步骤 4.1 到 4.15)。包括尽可能多的人类临床研究和不同小鼠模型,以识别转化型研究问题的最优鼠标模型。
5。比较 GSEA 结果
- 来确定最优的动物模型,模仿人类的处境比较彼此的所有研究的 GSEA 结果。使用浓缩分数和罗斯福值来激活列为通路 (基因组) (NES > 0,罗斯福 < 25%)、 抑制 (NES < 0,罗斯福 < 25%) 或两者都没有 (罗斯福 > 25%)。每个比较的两项研究,计算的认识途径调节 3 x 3 列联表 ( 图 7A) 所示九个可能的组合数。
- 评估两项研究,通过计算的阳性预测值 (ppv) 和阴性预测值 (npv),是由定义的途径,在两项研究中显示同样的规定 (激活或抑制) 一部分的相关性.
- 计算 ppv 和 npv 根据下面的公式 (1) 和 (2):
(1)
(2)
注: 由于重叠可能是纯属巧合,ppv 和净现值必须进一步比作值预期的机会。这种方法允许估计,大量的可以从预测的影响在另一项研究中的一项研究中得到的信息。例如,如果两个模型的调节过程是独立于另一个 (只偶然重叠),和第一种模式中有 10%的途径表达上调,比到第二个模型 ppv 也将 10%,有没有额外获得的 inf信息。另一边,如果这两种模型被联系共同监管机制,然后 ppv (和 npv) 会明显大于预期的机会。例如,对于人类脓毒症 (GSE9960) 从美国金黄色葡萄球菌注射小鼠中 (GSE20524) 的影响时的基因表达变化预测,ppv 是 43%(6/(6+8+0)) 和净现值为 61%(11/(0+7+11))。换句话说,43%的小鼠美国金黄色葡萄球菌注入模型 (GSE20524) 激活通路在人类脓毒症 (GSE9960) 也被激活了。同样,61%的小鼠美国金黄色葡萄球菌注入模型 (GSE20524) 抑制通路也抑制期间人类脓毒症 (GSE9960) ( 图 7B)。ppv 和净现值也可以确定为逆的星座 (这意味着预测从研究 1 研究 2)。
- 计算 ppv 和 npv 根据下面的公式 (1) 和 (2):
- 计算重叠偶然及 3 x 3 列联表 ( 图 7),请参阅计算 ppvchance 和 npvchance 根据下面的公式 (3) 和 (4):
(3) < img alt ="方程 3"src ="//cloudfront.jove.com/files/ftp_upload/55768/55768eq3.jpg"/ >
(4)
注: 例如,对于基因表达的变化过程人类脓毒症 (GSE9960) 从小鼠金黄色葡萄球菌的影响预测注射模型 (GSE20524) ppvchance 是 13%(8/64) 和 npvchance 是和 22%(14/64)。 - 通过减去从 ppv ppvchance 计算增益的 ppv 与机会。据此计算净现值:
(5)
(6)
注: 例如,为基因的预测表达变化在人类脓毒症 (GSE9960) 从影响小鼠美国金黄色葡萄球菌注入模型 (GSE20524) 在聚对苯乙炔变化和净现值法与机会是 + 30%(43%-13%) 和 39%(61%-22%),分别。 - 计算就可以获得从研究 2 关于研究 1 通过平均 ppvgain 和 npvgain 的信息增益:
(7) - 使用一对的研究 (study1.pathway,study2.pathway) 来计算的 p 值由 χ 测试步骤 5.1 中定义的列联表
将列联表的数据存储在一个矩阵十.执行卡方检验,例如,通过使用 R 的函数 chisq.test.
注: 例如,比较选定人类脓毒症研究 (GSE9960) 与 金黄色葡萄球菌 的小鼠注射模型 (GSE20524) 显示统计学意义的重叠在炎症通路调控:
> chisq.test(X,simulate.p.value=F)$p.value
3.82e-07
6。确定最优的动物模型
- GSEA 比较结果的所有组合的选择进行分析研究.
注意: 它还建议比较对另一个 (类似) 人类的研究,以及到另一个不同的动物研究。这种比较可以洞察种内差异的临床研究 (或疾病) 和不同的动物模型。它被预期的临床研究应显示可接受的重叠和重大信息的获得,因为否则可能过于杂乱,找到一个可以模仿人类的处境的动物模型的临床研究。在这种情况下,它建议包括只是类似于彼此的合适的动物模型辨识的人类研究。 - 通过增益的信息 (步骤 5.5) 进行排序的所有组合。对于许多数据集的比较,使用矩阵和通过使用彩色热图或类似的可视化结果 ( 图 8)。
- 选择与信息的高增益的动物模型。为了评估的信息增益的意义,也考虑卡方检验 (步骤 5.6)。
注: 动物模型应该只能算是适当如果信息的收益是巨大的如果卡方检验 p 值小于显著性水平。用户定义的阈值将一般取决于几个因素: 1) 上的可转让性 (例如类似生理学),人类从动物模型结果 2) 预期的利益,为人所推定的成功,3) 实用前学习知识那动物的实验和 4 的适用性) 预期的疼痛、 痛苦或劳顾会伤害演讲动物。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
论证了的 GSEA 工作流和模范数据的屏幕截图。图 1显示了包含感兴趣的转录组数据的基因表达数据文件。为每一个描述性的表型文件是必修课,是图 2中所示。带注释的基因集 (例如,通路) 基因设置的数据库文件 (图 3) 中定义。图 4显示了分步协议 GSEA 软件工具的使用。图 5给出了堪称典范的结果报告。图 6中,总结了详细的 GSEA 富集结果。对于不同的基因表达研究的比较,特别是人类与老鼠的研究,列联表是需要 (图 7)。为结果的可视化,图 8显示了相关矩阵的途径比较人类和老鼠的研究。
图 1: GSEA 基因表达数据文件。该文件包含表达式值为所有检出基因 (或探针),也不可能差异表达的基因。因此,该文件通常包含许多成千上万个基因。(A) 基因表达数据文件包含每个示例中的数据。第一行包含的标签名称 (在这里: 探测器 ID) 其次是可选的描述和个别样品名称 (在这里: GSM515585、 GSM515586,等)。该文件的其余部分包含表达式值为每个基因,每个样本的数据集。(B) 替代基因表达数据格式。从外部计算组度量 (在这里: 平均比率) 可用于 GSEA preranked 工具如果个别样本数据不可用。请点击这里查看此图的大版本。
图 2: GSEA 型文件。文件据此结合各自的样品组和组的标签。第一行包含的样本总数和进一步的组数。第一行第三个字段始终是 '1'。第二行包含每个组的名称。行以一个磅符号 (#) 后跟一个空格开头。第三行包含为每个样品组标签 (在这里: 0 或 1)。请点击这里查看此图的大版本。
图 3: GSEA 基因数据库文件设置。这个文件定义分配给某些生物过程或种类的基因组的 (在这里: 炎症通路)。在格林尼治标准时间格式中,每一行代表一基因组,由一个名称、 说明和包括的基因 (官方雨果基因符号)。请点击这里查看此图的大版本。
图 4: GSEA 软件设置。GSEA 软件工具是从 Broad 研究所网站中下载 java 桌面应用程序来决定的。(A) 开始菜单。左侧包含导航菜单,而右侧部分 (家里) 给出了 GSEA 工作流的简短摘要。单击加载数据按钮将会打开一个新的选项卡导入文件。(B)负载数据节之前数据导入。所需的文件可以导入通过文件浏览器。(C)负载数据节后数据导入。导入的数据文件列出在对象缓存中和到数据集 (强制性文件),表型 (强制性文件),组织基因设置数据库 (可选,如果互联网连接提供) 和芯片文件 (可选,如果互联网连接提供)。单击运行 GSEA按钮将会打开一个新的选项卡设置分析参数。(D)运行 GSEA节。选项卡用于设置分析参数分为基本字段和先进的字段必填字段。单击运行按钮在窗口的右下角将开始分析。分析的进展,将然后在窗口的左下角 GSEA 报告部分可见。后整理分析,状态 '成功' 出现在 GSEA 报告部分。(E) GSEA preranked 工具。基因表达数据文件包含外部计算的组而不是单个样本数据的度量数据可以分析通过主导航栏。请点击这里查看此图的大版本。
图 5: GSEA 报告。GSEA 报告将在总结了所有的结果和所选的参数的浏览器窗口中打开。导航菜单的上部的两个部分包括定义的组 (例如,在金黄色葡萄球菌处理样品或健康对照样品浓缩) 的基因集的富集结果。在该示例中,65 基因集 (途径) 42金黄色葡萄球菌治疗小鼠状态时激活其中 14 显著富集与罗斯福低于 25%。同样,23 65 基因集 (途径) 被抑制金黄色葡萄球菌治疗小鼠,而其中 18 显著富集与罗斯福低于 25%。点击详细的富集结果打开 html 或 excel 用于导出所需的不同的基因表达研究比较的分析数据文件。请点击这里查看此图的大版本。
图 6: 详细的富集结果。(A) 导出电子表格文件包含详细的分析结果为被激活在金黄色葡萄球菌的基因组 (途径) 治疗小鼠。电子表格文件包含每个分析的基因组,包括基因组、 其大小,其归一化的浓缩分数,其名义 (裸眼) p 值和其罗斯福值名称庞大的数据。(B) 简化电子表格文件,仅包含所需的比较不同的基因表达研究的信息。请点击这里查看此图的大版本。
图 7:3 x 3 列联表的 GSEA 结果。(A) 共同的列联表格式 2 研究的比较。(B) 模范数字调节通路的人类脓毒症研究 (GSE9960) 与小鼠比较的金黄色葡萄球菌注入模型 (GSE20524)。请点击这里查看此图的大版本。
图 8: 相关矩阵的途径比较人类和小鼠研究。重叠的通路就可以从一个 (鼠标) 研究预测的影响在另一个 (人类) 研究 (蓝色、 减少、 低度相关; 红,增加,高相关性) 获得的信息增益所示。在该示例中的人类和小鼠数据集比较揭示了高度相关人类临床研究 (研究 10 和 11,虚线),指示这些小鼠模型最适合于模仿的实验小鼠模型的一个子群人类的处境。相比之下,7、 8 和 9 的研究表明没有相关人类疾病的研究。请点击这里查看此图的大版本。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
动物模型长申请疾病机制研究和发展的新的治疗策略。然而,动物模型的真怀疑开始蔓延后临床试验12失败。此外,适当的战略分析和解释临床前试验的大组学数据有争议讨论提出了相反的结论,应用不同的数据分析策略1 后来自相同的数据 ,2。因此,是高需求量进一步健全生物信息学技术复杂的组学数据分析系统定义的最优给定的人类疾病动物模型。最好的可用模型的应用不仅提高了转化型研究进一步有助于避免与人类的处境可能不相关的动物实验动物福利。
提出的协议描述了系统地比较,目的是找出最优的动物模型和给定的人类疾病治疗方案的不同物种的组学数据的标准的方法。通过使用 GSEA 而不是单基因分析,本议定书绕过与主观设置的阈值基因表达和基因筛选有关的所有问题。将重点放在所选路径进一步允许具体地址 (病理) 生理过程的障碍/条件问题 (例如,炎症)。当然,GSEA 结果的准确性取决于当前基因集注释的质量和是否调节机制保守的物种之间。然而,我们推测,在一般养护是更高一级通路比单一基因水平上。此外,集的浓缩方法是为不同的平台和实验模型或临床组群之间的转录组数据的比较,比单基因分析13更加健全。
而不是使用预定义的基因集等途径,该方法还允许定义自定义基因集。尤其是,实验表达数据可以用于标识相关基因的激活或抑制处于一种状态 (例如,重叠的人类基因在临床队列)。De novo定义的基因集可然后用于测试为丰富的数据来自不同的动物模型。此替代方法避免了使用带注释的通路的 '改道'。此外,议定书 》 不局限于转录组数据的比较,但转移到任何组学数据包括蛋白质组学和代谢组学。尽管如此,就必须牢记这种办法是限制向现有的组学数据从模型小鼠和人类,和,它并不表示如何发展新的动物模型。然而,它代表现有的数据,这可能促进仔细选择最优的动物模型,从而避免不必要和误导性的翻译研究的规范解释的有效途径。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者宣称,他们有没有经济利益的竞争。
Acknowledgments
这项工作是由德国联邦研究所资助风险评估 (BfR)。
Materials
Name | Company | Catalog Number | Comments |
Excel | Microsoft Corporation |
References
- Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
- Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
- Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
- Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
- Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
- Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
- Fabregat, A., et al.
The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016). - Croft, D., et al.
The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014). - Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
- Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
- Kolesnikov, N., et al.
ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015). - Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
- Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).