Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

基于纠错 DNA 和 RNA 测序的稀有事件检测方法

Published: August 3, 2018 doi: 10.3791/57509
* These authors contributed equally

Summary

下一代测序 (0.5–2.0%) 是基因组特征的有力工具, 受平台高错误率的限制。我们描述了我们的错误纠正排序方法, 使我们能够避免的误差率和检测突变的变异等位基因分数罕见的0.0001。

Abstract

传统的下一代测序技术在过去十年中已经允许了巨大的基因组特征。具体来说, 它已经被用来分析恶性肿瘤中克隆突变的频谱。虽然比传统的方法更有效率, 但由于0.5–2.0% 的高错误率, subclonal 在鉴别稀有克隆和基因突变方面进行了斗争。因此, 标准的 VAF 有一个检测的限制, 突变是 > 0.02 变异的等位基因分数 ()。尽管在没有已知疾病的患者中这种罕见突变的临床意义仍不清楚, 但白血病治疗的患者在流式细胞术 < 0.0001 残留疾病时有明显的改善效果。为了减轻 artefactual 的这一背景, 开发了许多方法。在这里, 我们描述了错误校正的 DNA 和 RNA 测序 (ECS) 的方法, 它包括用 16 bp 随机索引对单个分子进行误差校正和 8 bp 患者特定的复用指数的标记。我们的方法可以检测和跟踪变异等位基因的克隆突变 (VAFs) 两级的数量低于 0.0001 VAF 的检测极限。

Introduction

随着年龄的推移, 暴露于诱变和细胞分裂过程中的随机误差导致了基因组躯体畸变的积累, 这构成了恶性转化、神经发育疾病、儿科的基本发病机制。疾病和正常衰老1,2。躯体突变与疾病驱动电位是重要的诊断和预后标志物的早期检测和风险管理3,4,5。为了更好地理解生理 clonogenesis, 这将告诉临床和研究决定, 准确的量化和鉴定这些突变是至关重要的。下一代测序法目前用于研究异质 DNA 样品中的克隆突变;然而, 由于测序平台6780.5–2.0% 的固有误差率, VAF 仅限于识别 > 0.02 变异等位基因分数的突变。因此, 跟踪诊断和 prognostically 在较低 VAF 的重要体细胞变体不能使用标准的。

近年来, 为了规避891011的误差率, 开发了各种方法。这些方法利用分子标记, 使测序后的纠错。序列库中的每个分子或基因组片段都被标记为特定于该分子的随机唯一的分子标识符 (UMI)。UMIs 是通过一系列随机核苷酸 (8–16 N) 的排列来构造的。第二个特定于示例的条码也集成到工作流中, 使多路复用多个样本进入相同的产品排序运行。在分子标记库上进行 PCR 放大, 随后将库发送到序列。在图书馆准备过程中, 预计在 PCR 扩增和测序8中随机引入基因组片段的误差。要删除随机排序错误, 原始排序读取按 UMI 分组。由于引入的随机性质, 在同一个基因组位置上, 由于 UMI 的随机性, 在所有读取中都不会出现序列中的工件, 而真正的变体将在所有共享相同 UMI 的读取中忠实地放大和排序。工件被 bioinformatically 删除。在这里, 我们描述了在实验室中优化的三种错误校正测序 (ECS) 方法, 用于鉴定单核苷酸变体 (SNVs) 和小的插入-删除 (Indels), 并用于 RNA, 以促进定量的基因表达低于错误阈值。

第一种方法描述了利用研究人员设计的基因特异引物寻找稀有体细胞事件的方法。在图书馆准备之前, 研究人员应该设计引物来瞄准感兴趣的片段。我们使用了 web 应用程序 Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/)。Amplicons 200–250 bp 是一种理想的聚合酶链反应 (PCR), 因为这些将, 一旦 UMIs 被纳入, 产生重叠配对端读取与 150 bp 配对端读取。最理想的底漆设计条件是: 最小底漆尺寸 = 19;最佳底漆尺寸 = 25;最大底漆尺寸 = 30;最小 Tm = 64 °c;最佳 Tm = 70 °c;最大 Tm = 74 °c;最大 Tm 差 = 5 °c;最小 GC 内容 = 45;最大 GC 内容 = 80;返回的数字 = 20;最大 3 ' 末端稳定 = 100。

在方法2中, 我们描述了一种将 DNA 协议与 Illumina 化学相结合的方法, 用于对克隆 SNVs 和小 Indels 进行调查, 其稀有的 0.0001 VAF 使用包括数以百计的 amplicons 的商业上可用的基因板。我们使用了 TruSight 髓系测序板 (Illumina) 进行实验, 并设计了一个扩大的小组, 包括其他基因的儿童髓系疾病的兴趣。这些面板没有提供独特的分子标识符 (UMIs), 这将有助于纠错, 所以我们已经添加了我们自己的适配器策略这些面板。ECS 应与其他任何专门用于丰富与不同疾病相关基因的面板工作。在 DNA 分离和随后的定量从组织或样品的兴趣, 建议有至少 500 ng 每标本的股票 DNA。我们通常使用250的 DNA 来制作一个单测序库, 以便在下游读取重复数据消除和 VAF 计算时捕获尽可能多的独特的基因组片段。可选的复制序列库可以用其余250的 DNA 进行。我们总是在每个样本上制作两个复制库, 我们只考虑在两个复制中单独检测到的事件是真正的正数。我们还实施了一个基因组位置特定的二项式误差模型, 以提高变量调用4,13的准确性。

最后, 我们描述了一种方法, 将 ECS 与 rna 测序相结合, 利用现成的 QIAseq 靶向 rna 板 (Qiagen) 进行转录量化。重复数据消除和纠错所需的 UMIs 已被纳入套件中, 研究人员可以根据制造商的建议制作库。Bioinformatically, 研究人员可以遵循的管道概述的 DNA, 将在协议部分详细解释。

Protocol

1. 针对 DNA 的靶向误差校正测序

  1. PCR 扩增的基因组片段的兴趣。
    1. 使用高保真 DNA 聚合酶放大 amplicons (材料表, 项目 1)。在热循环仪中, 用以下条件放大 PCR 反应: 三十年代在98°c;18–40周期十年代在98°c, 三十年代在66°c, 并且三十年代在72°c;2分钟在72°c;保持在4摄氏度。
    2. 用顺磁珠 (材料表, 项目 2) 纯化 PCR 产物。根据制造商的协议, 在 1: 1.8 比值 (PCR 反应体积: 珠体积) 中加入 pcr 反应。洗脱与20µL 的 ddH2O。
    3. 量化 dna 浓度 (材料表, 项目 3) 以确定 dna 的最终浓度。
    4. 在2% 琼脂糖凝胶 (材料表, 项目 4) 上运行一个整除的 DNA 来确认 amplicons 的大小。
      注意: 或者, 研究人员可以选择对 PCR 产品进行 Bioanalyzer 分析, 以确定扩增的基因组片段的大小以及产品的浓度。
  2. 顺序适配器退火
    1. 获得 i7 适配器 (材料表, 项目 5)。在为后续步骤提供它们时使用它们。
    2. 购买 16N i5 适配器商业与以下寡聚序列 (材料表项目 6): AATGATACGGCGACCACCGAGATCTACAC (N1:25252525) (N1) (N1) (N1) (N1) (N1) (N1) (N1) (N1) (N1) (N1) (N1) (N1) N1
      注意: 16N i5 适配器替换标准 i5 适配器, 它们是带有16个随机核苷酸串的适配器, 以促进 ECS。
    3. 制作 16N i5 适配器工作解决方案:40 µL 100 µM 16N i5 适配器库存, 10 µL 的 TE 缓冲器, 10 µL 500 µM NaCl 溶液。
    4. 整除7.5 µL 的 i5 工作解决方案, 在步骤1.2.3 成单独的 PCR 井。
    5. 将5µL 的样品专用 i7 适配器添加到相应的井中。
    6. 孵育在95°c 为5分钟然后冷却由1°c 每三十年代到4°c 在热循环仪。
    7. 保持在4摄氏度。
  3. 图书馆的尾修 & 大尾砂
    注: 与适配器退火并行, 可以在1.1 步的 PCR amplicons 上进行端修复和大尾矿。完成这些步骤后, 将退火的适配器从步骤1.2 结扎到末端修复和大尾 PCR amplicons。继适配器结扎后, ECS 库结构已完成。
    1. 开始与最多1µg 的起始 DNA (最小值 200 ng)
    2. 在 amplicons (材料表, 项目 7) 上执行最终修复和大尾。
      1. 添加3.0 µL 的端准备酶组合和6.5 µL 的末端修复缓冲器。
      2. 孵育混合30分钟在20°c, 然后30分钟在65°c 和举行在4°c。
    3. 对退火的适配器 (材料表, 项目 8) 进行结扎。
      1. 从步骤2、15µL 的钝/TA 连接酶 Mastermix 和1µL 的结扎增强剂中添加2.5 µL 的退火适配器。
      2. 孵育混合15分钟在20°c, 然后15分钟在37°c。
    4. 用磁性珠子清理库 (材料表项目 2): 在修改后的1中添加 pcr 反应: 0.75 比值 (pcr 反应体积: 磁珠容积):
      1. 将62.6 µL 的磁珠溶液注入83.5 µL 的 PCR 产物中, 从步骤1.2.7。
      2. 将混合物转移到1.5 毫升低结合管。
      3. 彻底混合, 吹打至少10次。
      4. 让混合物在室温下站立5分钟。
      5. 把管子放到磁性支架上。在室温下孵化2分钟或直到上清。
      6. 移除上清。
      7. 用200µL 70% 乙醇清洗珠子。
      8. 孵化三十年代. 去除乙醇。
      9. 重复乙醇洗涤步骤一次。
      10. 空气干燥的珠子。
      11. 洗脱与20µL 的 ddH2O。
        注: 这种对磁珠比的 PCR 反应将优先去除小于 200 bp 的 DNA 片段。
  4. 液滴数字 PCR 定量
    注意: 精确的突变量化要求严格遵守每个库中加载到排序器上的分子数。为了实现这一目标, 使用 QX200 液滴数字 pcr (ddPCR) 平台对每个单位体积的单个库的分子数量进行量化, 定量 pcr 是一种替代选择。在 ddPCR 分析之后, 读数将指定每个库每µL 的分子数。
    1. 稀释的 ECS 库 1:1, 000 通过增量稀释的因素10在 PCR 条管。
    2. 准备以下 mastermix 为 ddPCR 在1.5 毫升管:10 µL PCR 混合 (材料表, 项目 9), 0.2 µL P5 底漆, 0.2 µL 的 P7 底漆, 5 µL 的 ECS 清洁产品从步骤 1.4.1, 4.5 µL 2 O.
    3. 整除20µL 的 mastermix 到每个样品, 并确保有倍数8。
      1. 整除70µL 的水滴生成油 (材料表, 项目 10) 到每个油井。用橡皮垫圈盖上卡带。
    4. 使用液滴发生器 (材料表, 项目 11) 制作水滴。
    5. 使用多通道吸管, 将步进1.4.4 中生成的水滴加载到 PCR 盘中, 以确保样品的吹打在5秒的时间内慢慢完成, 以避免剪切 DNA。
    6. 使用以下条件在热循环仪中放大40循环的水滴中的信号: 5 分钟95°c;40周期三十年代在95°c, 1 分钟在63°c;5分钟在4°c, 5 分钟在90°c;然后保持在摄氏4摄氏度。
    7. 准备 ddPCR 模板滴读机 (材料表, 项目 11)。确保绝对量化参数的规范和使用QX200 ddPCR Eva 绿色 Supermix.
    8. 一旦 ddPCR 分析完成, 确保在所有样本中设置相同的分裂阈值。
    9. 利用 QX200 滴阅读器中的浓度读数, 整除适当的体积, 将所需的分子数引入到随后的步骤中。
  5. 序列库的 PCR 扩增
    1. 从步骤1.4.9 中为所需的分子数准备以下 mastermix:25 µL 的 Q5 mastermix (材料表, 项目 1), 2.5 µL P5 底漆 (10 µM), 2.5 µL 的 P7 底漆 (10 µM), X µL 的 DNA, 20-X µL ddH2O。
    2. 使用以下条件在热循环仪中从步骤1.5.1 放大库: 三十年代在98°c;20周期十年代在98°c, 三十年代在63°c, 三十年代在72°c;2分钟在72°c;然后保持在摄氏4摄氏度。
    3. 用磁性珠子 (材料表, 项目 2) 清理库: 在修改后的1中添加 pcr 反应: 0.75 比值 (pcr 反应体积: 磁珠容积)。
      1. 吸管37.5 µL 磁珠溶液进入50µL PCR 产品从步骤1.5.2。
      2. 将混合物转移到1.5 毫升低结合管。
      3. 彻底混合, 吹打至少10次。
      4. 让混合物在室温下站立5分钟。
      5. 把管子放到磁性支架上。在室温下孵化2分钟或直到上清。
      6. 移除上清。
      7. 用200µL 70% 乙醇清洗珠子。
      8. 孵化三十年代. 去除乙醇。
      9. 重复乙醇洗涤步骤一次。
      10. 空气干燥的珠子。
      11. 洗脱与20µL 的 ddH2O。
    4. 在2% 琼脂糖凝胶上运行整除的 DNA 来确认 amplicons 的大小。
    5. 量化 DNA 浓度 (材料表, 项目 3) 以确定独立的 ECS 库的浓度。
    6. 以摩尔的金额池库。
      注: 例如, 研究人员可以在一个摩尔组4中汇集八个库, 400万个起始分子用于测序, 该平台可输出多达4亿个读数。保守地, 建议使用平均十原始读数为差错改正每个分子。这将占去3.6亿读 (400万个分子 * 8 个图书馆 * 10 读为差错改正)。有400万个独特的分子每个图书馆, 研究人员可以期望得到一个理论上的平均共识读覆盖7042x 每扩增子 (4 million/568 amplicons 从基因小组)。
    7. 量化 DNA 浓度 (材料表, 项目 3), 以确定汇集的 ECS 图书馆的浓度。
    8. 将汇集的 ECS 库提交大约 4 nM。
    9. 向 Illumina 排序平台 (MiSeq、HiSeq 或 NextSeq) 提供以下排序设置: 2x144 配对端读取、8循环索引1和16循环索引2。

2. 基因小组以错误改正的脱氧核糖核酸测序

  1. 基因组寡核苷酸的杂交研究
    注意: 在此步骤中, 您将使用修改后的 Illumina TruSight 或 TruSeq 协议构造排序库, 以合并 UMIs (材料表, 项目 17)。
    1. 杂交寡核苷酸根据制造商的协议在基因组片段上。使用250的 DNA (或任何所需的起始材料量)。
    2. 按照制造商的协议删除未绑定寡核苷酸。
    3. 按照制造商的协议执行扩展结扎。
      注意: 对制造商协议的修改从下面开始。
  2. 通过 PCR 技术将 i5 和 i7 适配器合并
    1. 通过将以下试剂吹打到适当体积尺寸的管中制备 PCR mastermix: 37.5 µL Q5 mastermix (材料表, 项目 1), 6 µL 10 µM 16N i5 适配器 (在方法1、步骤1.2.2 中详细说明)、µL 适配器 6 i7 (使用不同的 i7用于多路复用的单独采样的适配器), 以及从步骤2.1.3 中带珠的22µL 的扩展结扎解。
      注意: Q5 Mastermix 取代了 Illumina 提供的聚合酶 Mastermix。Q5 聚合酶放大的基因片段高保真度和较少引入的错误。
    2. 使用以下参数在热循环仪上运行 PCR 程序: 三十年代在98°c, 第4-6 周期十年代在98°c, 三十年代在66°c, 三十年代在72°c;2分钟在72摄氏度, 然后保持在4摄氏度。
      注意: 周期数取决于面板大小。根据我们的经验, 4 周期 pcr 是足够的, 如果基因组有大约1500不同对基因特异寡核苷酸, 而一个小组与500–600对寡核苷酸需要6周期 pcr。
    3. 用磁珠清除 pcr 反应 (材料表, 项目 2): 添加 pcr 反应的磁性珠在改进的 1 pcr 反应: 0.75 磁珠比:
      1. 将56.25 µL 的磁珠溶液注入75µL 的 PCR 产物中, 从步骤2.2.2。
      2. 将混合物转移到1.5 毫升低结合管。
      3. 彻底混合, 吹打至少10次。
      4. 让混合物在室温下站立5分钟。
      5. 把管子放到磁性支架上。在室温下孵化2分钟或直到上清。
      6. 移除上清。
      7. 用200µL 70% 乙醇清洗珠子。
      8. 孵化三十年代. 去除乙醇。
      9. 重复乙醇洗涤步骤一次。
      10. 空气干燥的珠子。
      11. 洗脱与20µL 的 ddH2O。
  3. 使用 QX200 ddPCR 平台量化库。
    1. 在方法1中执行步骤1.4。
      注: 400万分子被规范化每个样品库4在代表性结果 (图 2) 为了获得一个理论平均值7042唯一索引的分子 (400万除以568基因特定寡核苷酸)。
  4. 放大和规范化库的排序。
    1. 使用以下 mastermix 放大所需的分子数量, 最终 PCR 共计50µL:25 µL Q5 mastermix, 2 µL P5 底漆 (1 µM), 2 µL P7 底漆 (1 µM) 和21µL 的 DNA 分子。
    2. 使用以下参数在热循环仪上运行 PCR 程序: 三十年代在98°c;16周期十年代在98°c, 三十年代在66°c, 三十年代在72°c;2分钟在72°c;然后保持在摄氏4摄氏度。
    3. 使用磁性珠子清理测序库 (材料表, 项目 2): 在改进的 1 pcr 反应中加入 pcr 反应: 0.75 磁珠比:
      1. 吸管37.5 µL 磁珠溶液进入50µL PCR 产品从步骤2.4.2。
      2. 将混合物转移到1.5 毫升低结合管。
      3. 彻底混合, 吹打至少10次。
      4. 让混合物在室温下站立5分钟。
      5. 把管子放到磁性支架上。在室温下孵化2分钟或直到上清。
      6. 移除上清。
      7. 用200µL 70% 乙醇清洗珠子。
      8. 孵化三十年代. 去除乙醇。
      9. 重复乙醇洗涤步骤一次。
      10. 空气干燥的珠子。
      11. 洗脱与20µL 的 ddH2O。
    4. 在2% 琼脂糖凝胶上运行一个整除的洗脱 DNA (~ 3 µL) 来确认 amplicons 的大小。
    5. 量化 DNA 浓度 (材料表, 项目 3) 以确定独立的 ECS 库的浓度。
    6. 以摩尔的金额池库。请参阅方法1步1.5.6。还讨论了有关池的更多详细信息。
    7. 将汇集的 ECS 库提交大约 4 nM。
    8. 向 Illumina 排序平台 (MiSeq、HiSeq 或 NextSeq) 提供以下排序设置: 2x144 配对端读取、8循环索引1和16循环索引2。
  5. 生物信息学处理与分析
    1. 使用 i7 适配器序列 bioinformatically 使用自定义脚本, 从排序器中获取示例 demultiplexed 读取, 或执行解复用的原始序列读取到不同的示例中。
    2. 修剪掉每 demultiplexed 的前30核苷酸, 从基因组中去除寡核苷酸序列。
    3. 将共享相同 UMIs 的读取对齐以形成读家庭。
      注意: 研究人员可以使用 UMI 软件 (如 MAGERI13 ) 来提取读出的家庭。在本实验中, UMI 序列中不允许使用汉明距离来增加方法的特异性。
    4. 使用以下推荐参数执行重复数据消除和纠错。
      1. 在同一读取系列中使用≥5读对。建议至少三个读对。
      2. 比较每个位置上的核苷酸在同一读取的家庭的所有读取, 并产生一个共识核苷酸, 如果有至少90% 的一致性在读取的特定核苷酸。如果核苷酸位置的协议少于 90%, 请拨打 N。
      3. 放弃协商一致的阅读, 其中有 > 10% 的协商一致核苷酸总数被称为 N。
    5. 使用研究员的首选光刻 (如 Bowtie2 和 BWA) 将所有保留的协商一致阅读本地 hg19 或 hg38 人类参考基因组。
    6. 进程对齐读取与 Mpileup 使用参数-BQ0 –d 10兆删除覆盖率阈值, 以确保适当的堆积输出, 而不考虑 VAF。
    7. 用少于1000x 的协商一致阅读覆盖率筛选出位置。
      注: 研究人员任意确定每个核苷酸位置的最小覆盖率, 建议对下游分析至少有500x 的一致阅读覆盖率。
    8. 使用二项分布从步骤2.5.7 中的保留数据中调用单核苷酸变体 (SNPs), 并具有以下参数。二项式统计将基于基因组位置特定误差模型。每个基因组的位置在总结出该特定位置的所有样本的错误率后独立建模。下面的示例:
      在给定基因组位置的核苷酸剖面概率, p
      ∑变种 RF2 ∑总 RFs
      = 26/255505
      = 0.000101759
      24变种 RFs 的二项概率35911总 RFs, P(x ≥ x) 在样品 K
      = 1 二项式 (24, 35911, 0.000101759)
      = 2.26485E-13
      注意: 对于每个基因组位置, 将有三可能的突变变化 (> T, > C, > G), 每一个将被表示为背景工件。保留 Bonferroni 校正后与背景显著不同的躯体事件。在表 1所示的示例中, 所执行的测试数为 11, 因此需要一个 Bonferroni 更正的p值≤0.00454545 (0.05/11) 来调用事件的统计意义。
    9. 体细胞事件需要在两个相同标本的复制中存在;否则, 将其视为误报。

Table 1
表 1: 示例演示了构造位置特定二项式误差模型的方法。

3. RNA 的错误校正排序

  1. 除了对 DNA 水平的突变进行评估外, 还要将 ECS 与各种靶向 rna 测序板集成, 以检测 rna 水平上的稀有或低丰度转录。通过将 ECS 与现成的 Qiagen RNA 测序板结合在一起, 我们展示了数字定量的基因表达的转录, 只有十拷贝, 而不需要规范化的管家基因。错误纠正所需的 UMIs 已集成到面板中。
    1. 执行总 RNA 提取 (材料表, 项目 20)。
    2. 根据制造商的协议 (材料表, 项目 19) 执行 ECS-RNA 库的准备工作。
    3. 根据步骤 2.5, 执行生物信息学管道. 1–2.5. 6。在上一节中概述的方法2。在步2.5.6 以后, 排列的一致的共识的数量在每个基因代表基因的表达水平, 不用基因长度规范化的需要。

Representative Results

针对 DNA 的靶向纠错测序, 我们在商业基因组 dna 中进行了原理实验, 稀释突变患者 dna 的证明。患者在 GATA1 (chrX:48650264, C > G) 有一个突变, 原 VAF 为0.19。我们在图 1中演示了在单核苷酸变体中, ECS 的数量为1:10,000 级。

Figure 1
图 1: 稀释系列的 GATA1 SNV 表明, ECS 是定量的水平为 1:10,000请单击此处查看此图的较大版本.

我们还表明, DNA 可靠地检测反复基因的罕见克隆突变在成人急性髓细胞白血病 (AML) 的健康老年人个人4。在护士健康研究中, 我们从20健康的人那里获得了巴菲涂层样本, 大约相隔10年。我们在这些样本上应用了 DNA 小组协议。在这个实验中, 我们适应了 Illumina TruSight 髓系测序板, 包括 568 amplicons (关于 https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html 基因列表的更多信息) 和序列化80个图书馆从20个人 (2 汇集在不同的时间点, 2 复制每个人每时间点) 使用 Illumina NextSeq 平台, 产生平均4770万配对结束读和平均340万错误改正了每库4的协商一致序列。每个图书馆的平均核苷酸覆盖率大致 6,000x (3.4 成千上万除以 568)。对于每个示例, 我们使用不来自同一示例的顺序库构造了位置特定的错误配置文件。我们发现109种克隆体细胞突变存在于至少一个收集时间点的复制中。这些突变的 VAF 范围从0.0003–0.1451。我们选择了21突变与已知的宇宙表示法, 并验证了所有21突变在一个或两个收集时间点使用 ddPCR (n = 34,图 2, 适应于年轻人 20164)。

Figure 2
图 2: 通过 ddPCR 与高度和谐的 VAFs 验证了由 ECS 识别的突变.(n=34, 从年轻et 等20164)。请单击此处查看此图的较大版本.

关于使用 ECS-RNA 协议纠正错误的表达水平, 我们使用 QIAseq 化学来定制一个基因组, 它由已知与各种癌症相关的416种基因组成 (适应于 QIAseq 人类癌症转录面板), 我们放大了给定基因的最常表达的外显子 (补充材料中的基因列表 1)。我们使用 Illumina MiSeq 平台对库进行了排序, 每个库平均读取830万个读数, 我们设法捕获了平均41.7万个错误修正的一致序列。我们发现, 在复制 (数据点 n = 300,图 3) 之间, 低丰度转录 (< 1000 转录计数在50的总 RNA) 的表达水平是高度可重复的。ddPCR 的验证 (六种不同表达程度的基因) 表明, 基因的表达水平已正确捕获的 ECS 协议, 而不需要规范化。

Figure 3
图 3: 顶部, 在同一样本的复制之间的转录计数的相关性 (n = 300).底部, 由 ddPCR 确定的成绩单计数被验证了 (n = 6)。请单击此处查看此图的较大版本.

Discussion

在这里, 我们展示了一套错误纠正排序协议, 可以很容易地实施, 以研究突变与低 VAFs 在不同的疾病。最重要的因素是在测序前将 UMIs 与每个分子结合在一起, 以便对原始读数进行纠错。这里描述的方法允许研究人员将定制的 UMIs 纳入商业上可用的基因板和自行设计的基因特异寡核苷酸。

由于测序误差率, 标准的 VAF 协议排除了对2% 以下的突变的检测, 这限制了在检测稀有变种的研究中应用了。通过规避标准的..。例如, 当这些突变第一次出现时, 发现致病性突变 (因此有低 VAF) 是必要的, 以通知早期干预的疾病14,15。在白血病研究中, 对微量残留疾病 (残留白血病细胞后处理) 的检测告知风险分层, 可用于以二进制流量细胞评估无法的方式通知治疗方案。此外, 该方法还适用于检测循环肿瘤核酸, 通过对实体肿瘤患者的存在/缺席以及某些突变的变化负担进行评估, 评估其转移电位, 即主要肿瘤16

表 1所示, 使用基于二项分布的位置特定错误模型来调用变体的能力在很大程度上取决于已排序库的数量以及用于生成错误模型的排序深度。误差模型的鲁棒性随着样品数量的增加和测序深度的提高而增大。建议至少使用10个已测序的样本, 平均每样误差校正的读覆盖率为每个样本的 3000x, 以便为每个样本生成错误配置文件。位置特定的方法与 MAGERI 类似, 但是, 不是使用所有六种不同的替代类型 (> C/t > g, > g/t > c, > t/t > a, c > a/克 > t 的总错误率, c > g/g > c, C > T/克 > A)13, 我们在每个位置独立地建模每个替换。例如, 给定基因组位置的 C > T 的错误率不同于另一个位置。我们的方法还考虑了排序批处理效果, 因为在一个排序运行中观察到的基替换速率可能与另一个运行不同。因此, 对所有替换类型的每个位置建模非常重要, 特别是当从不同的排序运行中抽取样本来构建模型时。

在设计一个 ECS 实验时, 一个重要的考虑因素是所需的检测阈值。研究的美在于, 它们可以很容易地按感兴趣的基因/目标、检测阈值 (由测序深度决定) 和被查询的个体数量来进行缩放。例如, 如果研究人员有兴趣在两个 amplicons 中发现罕见的突变, 检测阈值为 0.0001, 他们可以在一个单一的测序运行中最多75个样本, 使用 MiSeq V2 化学, 输出多达1500万读 (2 amplicons * 1万分子 * 10 读取纠错 * 75 样本 = 1500万测序读数)。研究人员可以改变测序的分子数量或单个测序运行中的汇集样本数量来调整检测阈值。在我们的研究中, 我们的目的是发现突变与检测阈值 0.0001 VAF (1:10,000) 使用 Illumina 基因组。我们经常使用250的起始 DNA 来确保捕获足够的分子以达到上述检测阈值。如果所需的检测限制为 > 0.001 VAF, 研究人员可以选择从较低数量的 DNA 开始 (建议 50 ng)。

随着 UMIs 追加到 i5 索引, 排序设置必须相应地加以修正。例如, 我们使用了 16 N UMIs, 排序设置是2x144 配对的结束读取, 8 周期的索引1和16周期的索引 2, 而不是通常8周期的索引2。索引2周期的增加通过分配给读取的循环的总次数减少来补偿。如果研究人员选择使用 12N UMIs1017, 则应将设置更改为索引2的12个周期。

这种基于 UMI 的排序方法被优化以纠正排序错误。在处理 PCR jackpotting 方面, 它仍然是一个不理想的问题, 这是所有基于放大的方法的一个课题。我们使用 ddPCR 进行了一系列后测序和生物信息学验证, 我们很难检测到任何误报, 因为 PCR jackpotting。尽管如此, 建议研究人员使用高保真聚合酶进行实验, 以确保低放大误差。

Disclosures

作者没有什么可透露的。

Acknowledgments

我们感谢儿童肿瘤学小组 AAML1531 研究的参与者和护士的健康研究, 以病人样本的形式作出贡献。这项工作由国立卫生研究院 (UM1 CA186107、RO1 CA49449 和 RO1 CA149445)、华盛顿大学儿童发现研究所和圣路易斯儿童医院 (MC-II-2015-461) 和 Eli?马修斯白血病基金会资助。

Materials

Name Company Catalog Number Comments
Q5 High Fidelity Hot Start Master Mix New England BioLabs M0492S
Agencourt AMPure XP Beckman Coulter A63880
Qubit dsDNA HS Assay Kit Thermo Fisher Scientific Q32854
SYBR Safe DNA Gel Stain Thermo Fisher Scientific S33102
Truseq Custom Amplicon Index Kit Illumina FC-130-1003
UMI i5 adapter sequences Integrated DNA Technologies -
NEBNext Ultra End Repair/dA-Tailing Module New England BioLabs E7442S
NEBNext Ultra II Ligation Module New England BioLabs E7595S
QX200 ddPCR EvaGreen Supermix Bio-Rad 1864034
QX200 Droplet Generation Oil for EvaGreen Bio-Rad 1864005
QX200 Droplet Digital PCR System Bio-Rad 1864001
ddPCR 96-Well Plates Bio-Rad 12001925
DG8 Cartridges for QX200/QX100 Droplet Generator Bio-Rad 1864008
DG8 Gaskets for QX200/QX100 Droplet Generator Bio-Rad 1863009
Bioanalyzer Agilent Genomics G2939BA
TapeStation Agilent Genomics G2991AA
TruSight Myeloid Sequencing Panel Illumina FC-130-1010
Bowtie 2 Johns Hopkins University -
Customized QIAseq Targeted RNA Panel Qiagen -
Rneasy Plus Mini Kit (50) Qiagen 74134

DOWNLOAD MATERIALS LIST

References

  1. Hoang, M. L., et al. Genome-wide quantification of rare somatic mutations in normal tissues using massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 113, 9846-9851 (2016).
  2. O'Roak, B. J., et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature. 485, 246-250 (2012).
  3. Young, A. L., et al. Quantifying ultra-rare pre-leukemic clones via targeted error-corrected sequencing. Leukemia. 29 (7), 1608-1611 (2015).
  4. Young, A. L., Challen, G. A., Birmann, B. M., Druley, T. E. Clonal hematopoiesis harbouring AML-associated mutations is ubiquitous in healthy adults. NatureCommunications. 7, 12484 (2016).
  5. Patel, J. P., et al. Prognostic relevance of integrated genetic profiling in acute myeloid leukemia. New England Journal of Medicine. 366, 1079-1089 (2012).
  6. Shendure, J., Ji, H. Next-generation DNA sequencing. Nature Biotechnology. 26 (10), 1135-1145 (2008).
  7. Kohlmann, A., et al. Monitoring of residual disease by next-generation deep-sequencing of RUNX1 mutations can identify acute myeloid leukemia patients with resistant disease. Leukemia. 28, 129-137 (2014).
  8. Luthra, R., et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring. Haematologica. 99, 465-473 (2014).
  9. Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. Detection and quantification of rare mutations with massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 108 (23), 9530-9535 (2011).
  10. Schmitt, M., et al. Detection of ultra-rare mutations by next-generation sequencing. Proceedings of the National Academy of Sciences USA. 109 (36), 14508-14513 (2012).
  11. Vander Heiden, J. A., et al. pRESTO: a toolkit for processing high-throughput sequencing raw reads of lymphocyte receptor repertoires. Bioinformatics. 30 (13), 1930-1932 (2014).
  12. Newman, A. M., et al. Integrated digital error suppression for improved detection of circulating tumor DNA. NatureBiotechnology. 34, 547-555 (2016).
  13. Shugay, M., et al. MAGERI: Computational pipeline for molecular-barcoded targeted resequencing. PLOSComputationalBiology. 13 (5), e1005480 (2017).
  14. Wong, T. N., et al. Role of TP53 mutations in the origin and evolution of therapy-related acute myeloid leukaemia. Nature. 518, 552-555 (2014).
  15. Krimmel, J. D., et al. Ultra-deep sequencing detects ovarian cancer cells in peritoneal fluid and reveals somatic TP53 mutations in noncancerous tissues. Proceedings of the National Academy of Sciences USA. 113 (21), 6005-6010 (2016).
  16. Phallen, J., et al. Direct detection of early-stage cancers using circulating tumor DNA. ScienceTranslationalMedicine. 9, eaan2415 (2017).
  17. Egorov, E. S., et al. Quantitative profiling of immune repertoires for minor lymphocyte counts using unique molecular identifiers. The Journal of Immunology. 194 (12), 6155-6163 (2015).

Tags

遗传学 问题 138 罕见的事件检测 错误纠正排序 生物信息学 基因组学 早期发现 分子标记
基于纠错 DNA 和 RNA 测序的稀有事件检测方法
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wong, W. H., Tong, R. S., Young, A.More

Wong, W. H., Tong, R. S., Young, A. L., Druley, T. E. Rare Event Detection Using Error-corrected DNA and RNA Sequencing. J. Vis. Exp. (138), e57509, doi:10.3791/57509 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter