Genetics

降解FFPE-RNA样品测序与分析优化

Published: June 8, 2020 doi: 10.3791/61060

Yelena Levin*¹, Keyur Talsania*^1,2, Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao^1,2, Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* These authors contributed equally

Summary

该方法描述了提高从正式固定石蜡嵌入（FFPE）RNA样品中获得的序列数据的质量和数量的步骤。我们描述了更准确地评估FFPE-RNA样品质量、准备测序库和分析FFPE-RNA样品数据的方法。

Abstract

RNA测序（RNA-seq）的基因表达分析能够对临床样本进行独特的洞察，从而潜在地了解各种疾病的基础以及抗药性和/或易感性机制。然而，FFPE组织是临床标本中保存组织形态的最常见方法，它不是基因表达分析的最佳来源。从这些样本中获得的RNA通常退化、碎片和化学修饰，从而导致测序库不理想。反过来，这些生成质量较差的序列数据，对于基因表达分析和突变发现可能不可靠。为了充分利用FFPE样品，并从低质量样品中获取最佳数据，在规划实验设计、准备测序库和数据分析过程中采取某些预防措施非常重要。这包括使用适当的指标进行精确的样品质量控制（QC），确定测序库生成期间各种步骤的最佳方法，以及仔细的库 QC。此外，应用正确的软件工具和参数进行序列数据分析对于识别RNA-seq数据中的伪影、过滤污染和低质量读取、评估基因覆盖率的均匀性以及测量生物复制中基因表达特征的可重复性至关重要。这些步骤可确保对非常异构RNA样品进行分析的高精度和可重复性。在这里，我们描述了样品QC，库制备和质量控制，测序和数据分析的各种步骤，可以帮助增加从低质量RNA获得的有用数据的数量，例如从FFPE-RNA组织获得的数据。

Introduction

使用下一代测序方法使我们能够从各种类型的样品中收集大量信息。但是，对于常用的生成序列数据的方法，旧样本和保存不良的样本仍然不起作用，并且通常需要对成熟的协议进行修改。FFPE组织代表这种样本类型，已广泛用于临床标本¹^1，2，3。²^,³虽然FFPE保存维持组织形态，但FFPE组织中的核酸通常表现出广泛的损伤和降解，使得很难检索基因组信息，这些信息可能导致对各种疾病背后的分子机制有重要的见解。

RNA测序产生的基因表达数据通常有助于研究疾病和抗药性机制，并补充DNA突变分析。然而，RNA更容易降解，使得从FFPE组织生成准确的基因表达数据更具挑战性。此外，由于测序的广泛可用性和可负担性是较新的，较老的标本往往没有储存在保持RNA完整性所需的条件下。FFPE样品的一些问题包括：由于嵌入石蜡而导致RNA降解，RNA的化学改性导致测序所需的酶过程的分裂或折射性，以及多A尾部的丢失，限制了寡聚-dT作为反向转录酶的引物^的适用性。另一个挑战是在次优条件下处理/储存FFPE样品，这可能导致组织⁵中的RNA等实验室分子进一步降解。这尤其与在预计对样本进行RNA测序的基因表达分析时可能收集的较老样本特别相关。所有这些都导致提取的RNA的质量和数量下降，可用于生成有用的序列数据。成功概率低，加上测序成本高，使许多研究人员无法尝试从可能有用的FFPE样本中生成和分析基因表达数据。近年来的一些研究表明，FFPE组织在基因表达分析²^{2、6、7、8、9}⁶^,⁷^,方面的可用性，尽管样本较少和/或较新。⁸^,⁹

作为可行性研究，我们使用从从监测、流行病学和最终结果（SEER）癌症登记册中提取的FFPE肿瘤组织标本中提取的RNA，用于RNA测序和基因表达分析^10。从临床病理实验室采购，来自高级卵巢血清腺癌的FFPE组织在RNA提取前的不同条件下储存7-32年。因为在大多数情况下，这些块储存在不同的地点多年，没有期望将来有任何敏感的基因分析，没有采取任何谨慎保存核酸。因此，大多数样品的RNA质量较差，大部分样品被细菌污染。然而，我们能够执行基因定量，测量基因覆盖的均匀性和连续性，并在生物复制中执行Pearson相关分析，以测量可重复性。基于一组关键特征基因面板，我们将研究中的样本与癌症基因组图谱（TCGA）数据进行了比较，确认约60%的样本具有可比的基因表达特征^11。根据各种QC结果和样本元数据之间的相关性，我们确定了关键QC指标，这些指标具有良好的预测价值，可用于识别更有可能生成可用序列数据¹¹的样本。

在这里，我们描述了用于FFPE-RNA质量评估的方法，从提取的RNA样本开始的测序库的生成，以及测序数据的生物信息分析。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA数量和质量评估

根据预定义的标准选择FFPE样品，并使用适当的方法（例如，FFPE-核酸萃取试剂盒、材料表）提取RNA。
注：有几种不同的方法可用于FFPE-RNA提取，包括较新的微解剖方法，可以工作很少的组织，并提取高质量的RNA12，13，14。¹²^,¹³^,¹⁴
应尽最大努力在所有阶段保持RNA的完整性。这包括使用无 RNase 脱去水，使用无 RNase 塑料器皿，并使用 RNase 脱污试剂清洁与 FFPE 块接触的所有仪器。
RNA 应始终小心处理并保存在冰中，除非另有说明，以尽量减少处理时的降解。
如果有足够的材料可用，从FFPE块中的多个区域提取RNA，从尽可能多的样品中产生生物复制。对于一些RNA产量充足的样品，将提取的RNA分成两个，作为技术复制进行加工。
如果可能，在提取QC（即QC等位）后单独收集少量样品，以避免样品的重复处理和冷冻解冻周期，这可能导致RNA降解。
根据制造商的说明，在RNA QC系统（例如，使用RNA纳米芯片的安捷伦生物分析仪系统）上运行，检查RNA的质量（最好来自QC等值）
通过计算DV₂₀₀和DV₁₀₀值作为大于 200 nt （DV_200）或 100 nt （DV₁₀₀）大小的片段的百分比，分析样品中 RNA 片段的分布（例如，使用 Bioanalyzer 2100 专家软件）。
在 DV₂₀₀和 DV₁₀₀中，确定给定样本集的值分布较大的指标，并选取该指标根据样本的完整性程度对样本进行分组。
注：对于RNA分子更完整的样品组（即DV₂₀₀值，全部或大部分为DV₂₀₀ > 40%），DV₂₀₀可能是一个有用的QC指标。但是，对于成绩单降级较多（即 DV₂₀₀值较低、全部或大部分具有 DV₂₀₀ < 40%）的示例集，DV₁₀₀更可能有用。
根据 QC 指标，确定具有 DV₁₀₀ < 40% 的样本。由于这种程度的退化极不可能生成有用的测序数据^11，因此最好避免处理此类样本。如果此类样品的替代品可用，则应检查其质量，以理想情况下只包括 DV 100 >_50%的样品。

2. 测序库准备

根据第 1 节中评估的样本质量，确定生成测序库的适当方法。
1. 对于具有极低降解和高 DV₂₀₀值的示例集，使用mRNA测序（即捕获多失性转录本），靶向RNA测序（即，使用捕获探针进行特定感兴趣的基因），RNA外泌测序（即使用捕获探针来丰富编码转录），或总RNA测序（即，使用随机引物反向转录来测序整个RNA种群后从样品中取出核糖核酸酯）。然而，重要的是要注意，固定过程可能会引入偏置在提取的RNA。因此，捕获方法可能并非在所有情况下都工作良好，即使具有高 DV₂₀₀值也是如此。
2. 如果样本组包括高降解的样品（DV₂₀₀ < 30%），请使用总 RNA 库制备方法，而不是依赖于记录器特定区域捕获的方法，因为降级样本中可能缺少这些特定区域。使用随机引素生成 cDNA 可使可用 RNA 在最终库中具有更高的代表性，因此更适合 FFPE-RNA 样品。
3. 对于高降解样品组核糖核酸RNA耗竭，使用基于RNaseH的方法。这些方法使rRNA特异性DNA探针与rRNA结合，双链分子被RNaseH消化，剩下的探针由DNase（例如，NEBNext rRNA耗尽试剂盒，材料表）进行清理。与其他方法⁸相比，这些方法对降级的样本效果更好。
对于生成测序库，对RNA降解较多的样品（如果可能）使用更高的输入量（如果可能）。₁₀₀而具有相当优质RNA（DV₁₀₀ > 60%）的样品即使在较低的输入量下也能产生良好的序列数据（此协议测试的最低值为+20 ng），对于降解性更高的RNA（DV₁₀₀ < 60%），最好从更高的输入量（例如，>100 ng）开始。
注：如果有足够的样品（例如，>500 ng），建议保存至少一半的样品，以便重复库准备（如果需要）。对于低输入样本（例如，<100 ng），通常最好使用整个量并生成足够多样性的库。
在选择合适的库制备套件，从高降解样品生成总RNA seq库（例如，适用于光明的 NEBNext Ultra II RNA 库准备套件，请参阅材料表），按照制造商的说明生成库。
注：在库制备过程中，必须跳过降解样品的RNA分片步骤，并确保使用随机底漆进行第一链cDNA合成。
为了提高效率和速度，特别是对于低输入样品，请使用具有强固定磁铁的适当磁性机架进行基于珠子的纯化和尺寸选择步骤（参见材料表）。
对于适配器结扎DNA的 PCR 浓缩，根据输入 DNA 的数量调整扩增周期数，以确保最大表示，同时避免不必要的库分子重复。对于低输入的 FFPE-RNA 样品（<100 ng），我们建议 16-18 个放大周期，而高输入样本（1，000 ng）通常在 12-14 轮放大中产生足够的库量。
根据制造商的说明进行 PCR 扩增和清理后，通过分析适当的平台上的库浓度和分子分布来评估库质量（例如，安捷伦生物分析仪 DNA 芯片，请参阅材料表）。对于底漆峰值（+80 bp）或适配器-dimer 峰值（+128 bp）的样品，重复清理以移除这些峰值。
计算每个库的平均库大小（例如，使用 Bioanalyzer 2100 专家软件）。

3. 测序库质量控制

一旦确定库不含多余的底漆和适配器调子，并且有足够的浓度用于后续测序，则通过 qPCR 进一步定量。
注：由于群集生成对库集中的敏感性，精确的定量对于防止昂贵的测序运行性能不足或过载至关重要。定量实时 PCR （qPCR）方法可用于提高 Illumina 平台上的聚类密度，而不会导致过度聚类。qPCR 方法比基于所有库分子（例如安捷伦生物分析仪）的定性和/或定量分析的方法更精确、更敏感，因为它测量的模板两端都有两端的适配器序列，将在流细胞上形成簇。但是，必须提前知道库大小，因为必须对所有样本应用大小校正，以便结果可以与标准曲线进行比较。
注意：执行 qPCR 时必须始终佩戴实验室外套和手套，并且必须按照制造商的说明在生物安全柜中执行该程序。
1. 设置一个 96 井板，每个样品有三个复制，使用合适的套件（例如，适用于光明的图书馆的 KAPA SYBR FAST qPCR 主混音、库量化套件的一部分，请参阅材料表），以及标准、正控制（例如，PhiX 控制，请参阅材料表）和无模板控制（NTC）。NTC 是 qPCR 组合，没有 DNA 库。正控制可以是任何具有已知浓度和片段大小的库。
  1. 根据供应商协议准备至少六个稀释标准。
2. 添加所有组件（即 qPCR 母料组合、库、标准）后，用密封膜盖住板，并使用刮刀确保薄膜与板均匀且安全接触。
3. 涡旋，以 1，500 rpm 的速度向下旋转板至少 1 分钟。目视检查板以确保井底没有气泡。
4. 使用制造商推荐的设置在热循环器（例如 CFX96 触摸系统，请参阅材料表）上设置板。
5. 保存运行文件夹，以便访问该文件夹以进行数据分析。
6. 在数据分析期间，检查斜率是否在 -3.1 到 -3.6 范围内，效率从 90% 到 110%，R^2（标准曲线获得的相关系数）是否小于 0.98。
池：一旦获得测序就绪库的qPCR浓度，根据每个样本所需的测序读取次数和仪器的测序输出，池出每个库的等值量。
池的 QC：按照步骤 3.1 中所述的相同协议，通过 qPCR 再次对库池进行量化。

4. 排序

根据运行参数，拉动测序试剂套件，然后按照用户指南将其解冻。请查看 Illumina 网站，了解最新版本的所有用户指南，了解在光明照照仪器上进行测序。
确保试剂完全解冻，并将试剂托盘置于 4°C。在试剂解冻后，应不迟于 2 小时开始运行。不这样做可能会影响运行结果的质量。
反转墨盒 5 倍以混合试剂，轻轻敲击工作台以减少气泡。
将未包装的流动单元包放在室温下 30 分钟。
用无绒酒精擦拭，解开流动电池包装并清洁流动电池的玻璃表面。用低绒实验室组织擦干玻璃。
打开光明会"实验管理器"应用程序。选择"创建示例表"，然后选择"序列器"并单击"下一步"。
根据 Illumina 测序仪标准（例如，光明会实验管理器、软件指南）创建和上传示例表。
在提示符处，扫描试剂套件条形码并输入运行设置参数（例如，对于单个索引 PE 75 周期运行，输入76-8-76）。
根据音序器用户指南建议对库池进行变性和稀释（例如，来自光明网的 NextSeq 500 系统指南，请参阅材料表）。
变性和稀释控制库 PhiX（参见材料表）到适当的浓度（例如，NextSeq 的 1.8 pM）。
混合样品库和 PhiX 控制，从而产生 1% 的 PhiX 控制容积比。
将变性和稀释的样品装入指定储液罐中的试剂盒中。
加载流单元、缓冲盒和试剂盒。
执行自动检查和检查，以确保运行参数通过系统检查。
自动检查完成后，选择"开始"以开始排序运行。

5. 数据分析和质量评估

注：典型的RNA-seq数据分析工作流程（图1）包括预处理和质量控制、与基因组和后对齐质量控制对齐、基因和笔录定量、样本相关性分析、不同样本组之间的差分分析、治疗条件以及基因集扩充和通路分析。

RNA-seq数据可能存在质量问题，可能会影响基因分析的准确性，并导致错误的结论。因此，对测序质量、污染、测序覆盖偏差和其他工件来源进行初始质量控制非常重要。建议应用与此处描述的工作流类似的 RNA-Seq QC 管道来检测伪影，并在下游分析之前应用过滤或校正。

预处理
注：这包括消除多用、序列读取质量评估、GC 内容、存在排序适配器、代表过高的k-mers和 PCR 重复读取。此信息有助于检测测序错误、PCR 伪影或污染。
1. 使用 Illumina 软件工具bcl2fastq2运行 Demultix Illumina 测序，为示例表中定义的每个示例生成原始 FASTQ 文件。如果不存在条形码冲突，则允许样本索引条形码中的一个不匹配，以容忍排序错误。
2. 运行FASTQC¹⁵软件工具，对原始 FASTQ 文件执行质量检查，以检测测序读取的任何不良质量或异常。
3. 对于适配器和低质量的底座修整，请使用CutADAPT¹⁶或Trimmatic¹⁷软件工具修剪测序适配器和低质量底座。将修剪过的读取保存在对端 fastq 文件中。
4. 污染屏幕
  1. 运行FASTQ_screen¹⁸检测与其他物种的交叉污染。
  2. 运行 Kraken2¹⁹ 的迷你Kraken，以识别污染物种的分类。
与参考基因组和后对齐 QC 的对齐
1. 修剪的读取可以使用STAR对齐器²⁰与参考基因组序列（GRCh Build hg19或hg38）对齐。应用 Gencode 注释 GTF 文件以指导拼接的脚本对齐。建议运行 STAR 2 通，以提高对新型拼接结的灵敏度。在第二次传递中，所有读取都将使用批号基因、笔录以及第一次传递的新结重新映射。
2. 执行对齐后 QC。
  1. 运行 Picard 的²¹标记重复项，通过确定示例中的唯一或无重复读取量来评估库的复杂性。
  2. 运行 Picard 的收集RnaSeqMetrics计划，收集编码、内电子、互生、UTR 区域和基因体覆盖的映射百分比。
  3. 运行RSeQC²²以确定读取对内部距离、CDS 外子、5'UTR、3'UTR、intron、TSS_up_1kb、TSS_up_5kb、TSS_up_10kb、TES_down_1kb、TES_down_5kb、TES_down_10kb、读取 GC 内容、结饱和度和库链信息之间的读取分布。
  4. 运行多 QC²³以生成 HTML 格式的聚合报表。
基因定量和校正分析
1. 运行RSEM²⁴获得原始计数以及基因和成绩单的标准化读取计数。读取计数测量（如 RPKM（每百万次读取的 exon 模型每千基读取）、FPKM（每百万次映射读取的 exon 模型每千基片段）和 TPM（每百万次记录）是最常报告的 RNA-seq 基因表达值。表示在噪声阈值以下的基因（如 TPM < 1 或原始计数 <5）可以过滤。
2. 使用 HTSeq 计数或功能计数等程序执行脚本量化，以聚合映射到读取的原始计数到每个脚本序列。
3. 使用R 脚本运行主要组件分析（PCA），以确定批处理效果并评估给定数据集²⁵的质量映射。样本相关性分析可以使用不同指标之间的 Pearson 相关性进行。
差异基因表达分析
1. 使用程序边缘R^26、27^,²⁷和/或limma-Voom²⁸在采样条件之间进行基因差分分析，并使用规范化方法，包括 TPM、TMM、DESeq 或上石器。 TPM TMM DESeq
2. 建议运行至少两个差分分析软件工具，以便调用两组 DEG 列表进行比较，并获得最终 DEG 以提高检测灵敏度和准确性。
基因集扩充和通路分析
1. 根据对不同表达基因（DEGs）列表的测量结果进行基因集扩充分析（GSEA）29、30，以确定DEG是否显示出统计显著性、一致性的生物条件差异。²⁹^,³⁰
2. 使用基因本体^31、DAVID DAVID³²^32、33³³或其他可用的软件工具等资源进行功能分析。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

上述方法适用于67个FFPE样品，这些样品在各种不同条件下储存了7~32年（样本储存中值为17.5年）。此处介绍的数据集和分析结果此前在赵等¹¹年进行了描述和发布。在检查样品质量时，如前面所述（即图2中的示例痕迹），DV₁₀₀被认为比 DV₂₀₀更有用处，因为准确测量高降解 RNA 样品较小片段大小的比例更为敏感。

在给定的样本集中，不到10%的样本（67个样本中有7个）高于DV₂₀₀截止30%，如Illumina³⁴所建议的那样。约 26% 的样品（67 的 19 个）具有 DV₁₀₀ > 60%（即生成良好序列数据的可能性较高），40%（27/67）在DV₁₀₀的40%-60%范围内（即可以接受，但生成良好序列数据的可能性较低），约10%（67的7）的DV₁₀₀为<40%（即，产生良好序列数据的可能性非常低）。对于 67 个样本中的 14 个，软件无法确定 DV 值。表 1显示了不同 DV₁₀₀类别中样本的质量控制指标摘要。有关所有 67 个样本的详细 QC 分析和数据相关性，请参阅赵等人¹¹.

鉴于样品组退化程度高，选择了"总RNA"库制备方法，并使用NEBNext Ultra II RNA库制备试剂盒（材料表）制备测序库。为了提高测序库的表示能力，尽管样品降解程度很高，但将最大可能的RNA量（1，000纳克（如有）用作库制备的输入。此外，FFPE-RNA样品的高降解要求采用rRNA消耗法，因为降解的转录物可能没有用于mRNA捕获的多A尾部。在通过杂交到特定的探针和使用RNaseH消化杂交转录剂后，剩余的转体RNA被转化为cDNA使用随机底漆。对于从较低输入样本准备的库，也避免了大小选择。最终库的示例轨迹如图3所示。

高度降解的FFPE样本对肿瘤样本的基因表达分析构成巨大挑战。因此，应用正确的生物信息学分析方法和软件工具对于检测数据集中的伪影或异常，以确保基因定量的高精度和可重复性至关重要。本研究中使用的软件工具列在补充表中。在给定的示例集中，我们执行了排序和库质量评估，如图 4所示的一些示例指标。图4A和图4B分别显示了原始 fastq 文件排序质量和示例适配器内容的概述。Fastqc 屏幕可以帮助检测样品中的污染，如细菌和小鼠污染，如图4C所示。在给定的样本集中，67个样本中有41个细菌污染5%-48%，6个样本有4%-11%的小鼠污染（图4C）。STAR 对齐结果（图 4D）显示了映射到参考基因组的读取比例、唯一映射到参考基因组的读取百分比以及未映射或映射到多个位点的读取比例。皮卡收集RNA统计用于确定对齐文件中存在的mRNA、内电子和基因间碱基百分比（图4E）。为了评估基因和笔录读取覆盖率的均匀性，我们使用 Picard 软件工具生成基因体覆盖率图，该图测量覆盖所有基因的每个核苷酸位置的读取百分比，从 5° UTR 到 3° UTR。图 4F显示，某些降级的库具有 3' 偏差，其中更多的读取映射到接近 3' 端而不是 5' 端。

FFPE样品在基因表达配置文件中通常具有较大的变异性，这些变异性可能是由于样品储存、RNA 提取或样品处理过程中的可变降解而产生的。使用适当的统计方法来揭示基础模式并测量样本之间的变异和相关性非常重要。我们应用了67个FFPE样品子集的六对生物复制的主要成分分析（PCA）。PCA 图显示，第一个主要组件捕获了总变异的 26%，第二和第三个组件组合捕获了 19%（图 5）。在六对复制中，两对复制在比较复制对之间的基因表达值时，其变异率（相关性低于 0.22）高于最后四个样本（0.7-0.8 之间的相关值）。由于复制物是从从相同的 FFPE 块切割的两个不同的组织卷曲中提取 RNA 产生的，因此组织年龄不是此处差异较高的因素，并且很可能是由不同数量的细菌污染（1%-55%）引起的。以及不同的mRNA含量（2-3折差）之间的复制。萃取后mRNA降解的随机性也可能导致相似来源的样品之间的高方差。

图 1：RNaseq 分析工作流。流程图描述了不同样本组之间的预处理、质量评估、映射到参考、基因定量和差分分析的分析步骤。请点击此处查看此图形的较大版本。

图2：六个不同FFPE-RNA样品的生物分析仪痕迹示例。水平轴表示分子量（bp）和荧光单位（FU），垂直轴显示不同大小的片段的浓度。每个轮廓上都标出RNA完整性编号（RIN）、DV_200（即碎片 >200 bp 的百分比）和 DV_100（即片段 >100 bp 的百分比）。每个轮廓中的 25 bp 峰值表示分子量标记。请点击此处查看此图形的较大版本。

图 3：从四个不同的样本制备的最终库的生物分析仪跟踪示例。水平轴表示垂直轴上的分子量（bp）和荧光单位（FU）表示不同大小的片段的浓度。下部（35 bp 或 50 bp）和上部（10，380 bp）标记峰分别以绿色和紫色标记。请点击此处查看此图形的较大版本。

图 4：预处理 QC 结果的多 QC 报告示例。（A）线图显示每个样本中所有测序读取的 Q30 基础的百分比。（B）对原始 fastq 文件中的适配器内容进行排序。（C）污染筛网，以检查与匹配的物种。（D）基因组图谱统计。（E）基于Gencode基因注释的读取分布。（F）基因体/记录覆盖率请点击这里查看此图的较大版本。

图 5：示例 PCA 分析，以显示样本组一致性。生物复制的PCA分析。PCA 绘图，样本在两维中绘制，使用其投影绘制到前两个主要组件上。生物复制以相同的颜色显示。请点击此处查看此图形的较大版本。

	样本数	lib 准备输入中位数（ng）	中值 RIN	中位数 DV₂₀₀	中位数 DV₁₀₀	中位利比大小（bp）	中位利率（ng）	中位自由度（nM）	样本储存时间中位数（年）	中位百分比污染	中位基因计数
DV100 <40%	7	237.6	2.5	6	34	445	24.5	7	22	27.4	14,759
DV100 40-60%	27	1000	2.5	12	51	408	19.8	5.9	18	9.9	10,202
DV100 >60%	19	1000	2.3	26	73	355	84.9	24	13	3.2	9,993

表 1：样本集质量控制指标的摘要。该表显示样本的 QC 指标，根据其 DV₁₀₀值分组。列出每个组中的样本数，并显示每个指标的中位数值。

补充表：分析软件工具、参数和软件参考。该表列出了RNA-seq分析每一步中使用的分析软件工具和参数。软件工具引用列在表中。请点击此处下载此表。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

此处描述的方法概述了从 FFPE-RNA 样品获取良好序列数据所需的主要步骤。使用这种方法需要考虑的要点是：（1）通过最小化样品处理和冷冻和解冻周期，确保提取后尽可能保存RNA。单独的 QC 等号是非常有帮助的。（2）使用最适合给定样本集的质量控制指标。RIN 值和 DV₂₀₀通常对降级样本没有用处，DV₁₀₀可能是评估给定样本集中质量的首选指标。（3）对于更退化的样品，最好使用高样本输入。输入量越高，最终库中的重复性越好，重复性越低，从而提高了数据质量。由于 FFPE-RNA 样品中并非所有 RNA 都可用，因此对酶过程具有高降解性和折射性，因此与新鲜冷冻 RNA 相比，这些效应在 FFPE-RNA 中更为明显。（4）使用随机引注反向转录步骤，而不是使用寡聚 dT 或特定序列作为引物。除非一组特定探针能够涵盖所有感兴趣的笔录的任意序列，否则随机引物是一种安全赌注，以确保将最大数量的笔录（或其片段）转换为 cDNA。因此，总RNA库制备方法比依赖多A尾部存在的mRNA方法对降解样品更有用。（5）通过定量实时PCR（qPCR）精确量化库，对于避免序列器性能不足或过载具有重要意义。（6）评估RNA的潜在污染，作为标准测序后RNA-Seq QC协议的一部分。由于储存条件和样品制备程序，FFPE样品中常见的细菌污染和基因组DNA污染很常见。受外来物种污染的样品可能会根据污染程度进行废物测序。此外，内部污染可能由不完全的rRNA消耗产生，导致高达百分比的读取映射到rRNA。DNase消化过程中的低效基因组DNA去除可能导致笔录的误正表达检测或笔录的误写。在库制备过程中引入的适配器污染对于RNA片段非常短的高度降解RNA也是一个常见问题。污染会影响基因和笔录分析的准确性，并导致错误发现。因此，在样品或库准备步骤中准确识别污染源并尽可能清除污染，或在数据处理步骤期间过滤污染读数非常重要。（7）预处理和后校准质量控制对于检测质量差和低mRNA含量样品具有重要意义。这些样本应从进一步分析中消除。基因表达数据来自基因计数低、覆盖率低的样本，应谨慎使用。（8）最好包括生物复制，以测量样品的方差和相关性，以确保数据的可重复性。

FFPE样本是大量疾病的宝贵资源。从这些样本中获取可靠序列信息的能力将有助于许多旨在了解各种紊乱、抗药性和易感性背后的分子机制的研究。虽然从这些样本中提取的RNA质量经常不理想造成的限制确实阻碍了这种努力，但此处描述的步骤在一定程度上有助于缓解这些限制，使我们能够充分利用FFPE-RNA来获得可靠的基因表达信息。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

这项工作由国家癌症研究所（NCI）、国家卫生研究院（NIH）资助。莱多斯生物医学研究公司是弗雷德里克国家癌症研究实验室的运营和技术支持承包商，该实验室由NIH全额资助。几位作者（YZ、MM、KT、YL、JS、BT）隶属于莱多斯生物医学研究公司，但所有作者都全部由国家癌症研究所资助，包括作者的工资和研究材料。莱多斯生物医学研究公司没有为作者提供工资（YZ，MM，KT，YL，JS，BT）或研究材料，也没有在研究设计、数据收集、分析、决定出版或编写手稿方面扮演任何角色。

Acknowledgments

我们感谢Danielle Carrick博士（国家癌症研究所癌症控制和人口科学司）的持续帮助，特别是为发起这项研究、向我们提供样本以及数据分析过程中的有益建议。我们衷心感谢弗雷德里克国家癌症研究实验室CCR测序基金的所有成员在样品制备和测序方面给予的帮助，特别是布伦达·霍在样品QC、奥克萨纳德语图书馆QC、塔蒂亚娜·斯米尔诺娃（Tatyana Smirnova）操作测序器方面给予的帮助。我们还要感谢测序设施生物信息学集团的沈蔡伟和阿什利·沃尔顿帮助数据分析和RNA-seq管道实施。我们还感谢 CCBR 和 NCBR 在 RNaseq 分析管道和最佳实践开发方面提供的援助。

Materials

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871