Summary
我们之前在纳米孔测序平台上验证了基于安普利子全基因组Usutu病毒(USUV)测序的协议。在这里,我们更详细地描述了使用的方法,并确定纳米孔R10流动单元的误差率。
Abstract
全基因组测序可用于描述和追踪病毒爆发。基于纳米孔的全基因组测序方案已经描述了几种不同的病毒。这些方法采用一种基于合成体重叠的方法,可用于靶向特定病毒或一组基因相关的病毒。除了确认病毒的存在外,测序还可用于基因组流行病学研究,跟踪病毒并揭示病毒的起源、储存和传播方式。对于此类应用程序,了解与所用平台关联的错误率可能产生的影响至关重要。临床和公共卫生环境中的常规应用要求记录协议中的每一个重要变化。此前,通过直接比较光明网测序,验证了纳米孔测序平台上全基因组Usutu病毒测序的协议(R9.4流细胞)。在这里,我们用R10流单元和Illumina测序的比较为例,描述了用于确定所需读取覆盖率的方法。
Introduction
第三代序列技术的迅速发展使我们能够在病毒爆发期间向接近实时测序的方向前进。这种及时提供遗传信息有助于确定病毒病原体的起源和演变。然而,下一代测序领域的黄金标准仍然是第二代测序仪。这些技术依赖于特定且耗时的技术,如乳液 PCR 或克隆桥扩增期间的克隆放大。第三代测序仪更便宜,手持,并附带简化的图书馆准备方法。特别是序列设备体积小,购买价格低,使其成为可部署、可现场排序的有趣候选对象。例如,在塞拉利昂埃博拉病毒爆发期间,以及巴西正在进行的阿尔博病毒疫情调查11、2、32期间,3可以看到这种情况。但是,报告的高错误率4可能会限制可以使用纳米孔测序的应用。
纳米孔测序正在迅速发展。新产品定期在市场上上市。例如,例如一维平方套件,能够测序DNA分子的两股,从而提高被叫碱5的精度,以及R10流动细胞的发展,该细胞测量孔6中两个不同实例的电流变化。此外,改进的生物信息工具,如改进基调用将提高基调用7的精度。最常用的基呼叫者之一(例如 Albacore)在 9个月期间已更新至少 12 次。最近,制造商还发布了一款名为触发器的新型基底调用,这是在默认的纳米孔软件8中实现的。所有这些改进共同将导致更精确的序列,并降低纳米孔定序器的误差率。
乌苏图病毒(USUV)是一种蚊子传播的病毒,其家族是Flaviviridae,其阳性RNA基因组约为11,000个核苷酸。USUV主要影响大灰猫头鹰和黑鸟9,9,10,虽然其他鸟类也容易受到USUV感染11。最近,USUV也在啮齿动物和精明动物中被发现,尽管它们在病毒传播中的潜在作用仍不得而知。在人类中,无症状感染在献血者13、14、15、1614,15,16中被描述为无症状感染,而USUV感染也报告与脑炎或脑炎17、18,18有关。13在荷兰,USUV于2016年首次在野生鸟类中被发现10只,2018年首次发现无症状的献血者14只。自首次发现USUV以来,在随后几年中报告了疫情,目前正在进行监测,包括全基因组测序,以监测一种阿尔博病毒在以前幼稚的人群中出现和传播。
与其他病毒,如埃博拉病毒,寨卡病毒和黄热病病毒33,19,20,19,我们开发了一个底漆设置序列全长20USUV21。这种基于聚合酶链反应(PCR)的方法允许从高度宿主污染的样品类型(如样品中的脑样本)中回收全长USUV基因组,其Ct值约为32。与基因组测序相比,基于安培的测序方法具有更高的灵敏度和更高的特异性。使用基于安培的方法的局限性是,序列应相似,以便设计适合所有菌株的底漆,并且引物是根据我们目前对病毒多样性的知识设计的。
鉴于第三代测序的不断发展和改进,需要定期评估测序仪的误差率。在这里,我们描述了一种使用USUV直接评估纳米孔对光明照测序性能的方法。此方法应用于使用最新的 R10 流单元生成的序列,并且使用最新版本的触发器基调用执行基调用。
Protocol
注:要使用的软件工具列表:usearch v11.0.667;肌肉 v3.8.1551;波雷肖 0.2.4;切适应 2.5;迷你地图2 2.16-r922;桑工具1.9;修剪学 0.39;bbmap 38.33;黑桃 v3.13.1;kma-1.2.8
1. 引素设计
- 从从公共或私人数据收集中下载或检索一组相关的参考全基因组序列开始。例如,从NCBI数据库22检索所有全长USUV基因组(taxid64286)。USUV编码了大约11,000个核苷酸的基因组,因此只能检索序列长度为8,000-12,000核苷酸的序列。使用以下搜索条目执行此操作:
-滑行64286[生物:无用]和8000[SLEN]:12000[SLEN]。- 单击"发送到 |完整记录 |文件;使用格式 = FASTA 并创建文件。
- 要缩小参考序列集,请从数据集中删除具有 99% 以上核苷酸标识的重复序列或序列。使用 usearch23中的群集快速选项执行此操作。在命令行上输入:
- usearch -cluster_fast All_USUV.fasta -id 0.99 - All_USUV_dedup.fasta 的质质 - 要生成引素,序列需要对齐。这是使用MUSCLE24完成的。在命令行上输入:
-肌肉 -All_USUV_dedup.fasta -出All_USUV_dedup_aligned.fasta -log log_muscle.txt
注: 必须手动检查对齐方式以检查是否有差异。如果需要,可以手动校正这些,并且可以根据大多数全基因组序列的长度修剪端。 - Primal 用于对引物进行草稿选择,可用于全长斜体测序19。将对齐方式上传到原始网站(http://primal.zibraproject.org/),并选择首选的放大器长度和不同放大器之间的重叠长度。转到primal.zibraproject.org,填写方案名称,上传对齐的 fasta 文件,选择放大长度、重叠大小并生成方案。
- 对齐完整的完整 USUV 序列集(不是缩小或重复复制集)。在命令行上输入:
-肌肉 - All_USUV.fasta -出 All_USUV_aligned.fasta -log log_muscle.txt
注: 根据完全对齐(不要使用重复数据消除对齐),手动更正错误,并最多包括 5 个退行性底漆位置。<
2. 多路复用 PCR
- 使用设计的引底漆和纳米孔和 Illumina 测序执行多路 PCR。USUV的多路PCR执行之前描述的19,21。19,
- 使用触发器版本 3.0.6.6_9999d81 执行基调用。
3. 数据分析,从纳米孔数据生成共识序列
- 在单个纳米孔测序运行中,可以多路复用多个样本。执行序列运行后,对纳米孔数据进行多用化。为此,请使用 Porechop25。为防止污染并提高准确性,请使用require_two_barcodes标志。在命令行上输入:
-波雷乔普 -i Run_USUV.fastq -o Run_USUV_demultiplex - require_two_barcodes - 消除多路复用后,使用 cutadapt26删除引底器序列(在文件Primers_Usutu.fasta两个方向中指示)此外,去除长度小于75核苷酸的序列。引物必须去除,因为它们可以在共识序列中引入人为偏置。在命令行上输入:
-切适应 -b 文件:Primers_USUV.fasta -o BC01_trimmed.fastq BC01.fastq -m 75 - 可使用 minimap227将去倍复形序列读取映射到不同参考菌株面板上,并使用 samtools28生成共识序列。请按照下面的示例显示基于引用的对齐过程和一个样本的一致序列生成:BC01。在命令行上输入:
-迷你地图2 -ax 地图 Random_Refs_USUV.fasta BC01_trimmed.fastq > BC01.bam
- samtools 排序 BC01.bam > BC01_sorted.bam
- bcftools mpileup -Ou -f Random_Refs_USUV.fasta BC01_sorted.bam = bcftools 呼叫 -mv-Oz-o BC01.vcf.gz
- bcftools 指数 BC01.vcf.gz
-猫Random_Refs_USUV.fasta + bcftools共识 BC01.vcf.gz > BC01_consensus.fasta - 对于基于引用的对齐,必须使用密切相关的参考序列。因此,使用生成的共识序列执行 BlastN 搜索,以识别最近的参考应变。之后,使用最接近的参考应变重复基于参考的对齐方式(步骤 3.3 和 3.4)。在命令行上输入:
-迷你地图2 -ax 地图 Ref_USUV_BC01.fasta BC01_trimmed.fastq > BC01_ref.bam
- BC01_ref.bam > BC01_sorted_ref.bam 的 samtools 排序
- bcftools mpileup -Ou -f Ref_USUV_BC01.fasta BC01_sorted_ref.bam = bcftools 呼叫 -mv-Oz-o BC01_ref.vcf.gz
- bcftools 指数 BC01_ref.vcf.gz
-猫Ref_USUV_BC01.fasta = bcftools 共识BC01_ref.vcf.gz > BC01_ref_consensus.fasta
4. 分析光明会数据
- 排序后,这些序列会自动除以多路复用。读取可以使用修剪29进行质量控制。对于成端 Illumina 序列,请使用常用的截止中位数 PHRED 分数 33 和最小读取长度为 75 以获得准确、高质量的读取。在命令行上输入:
-修剪 PE -phred33 9_S9_L001_R1_001.fastq.gz 9_S9_L001_R2_001.fastq.gz 9_1P.fastq 9_1U.fastq 9_2P.fastq 9_2U.fastq.fastq 领导:3 跟踪:3 滑动:3:15 MINLEN:75 - 删除底漆(在文件Primers_Usutu.fasta两个方向中指示),因为它们可以使用切口26引入人工偏置。此外,使用以下命令删除长度短于 75 核苷酸的序列。在命令行上输入:
-切适应 -b o 9_1P_trimmed.fastq -p 9_2P_trimmed.fastq 9_1P.fastq 9_2P.fastq -m 75 - 在de novo组装之前,序列读取可以规范化,在整个基因组中均匀覆盖。这一点至关重要,因为像 SPAdes 这样的新装配体在组装序列读取时会考虑读取覆盖率。使用 BBMap 包 30 中的 BBNorm 将读取规范化为50的读取覆盖率。在命令行上输入:
- bbmap/bbnorm.sh 目标=50 in_9_1P_trimmed.fastq in2=9_2P_trimmed.fastq out_Sample9_FW_norm.fastq out2_Sample9_RE_norm.fastq - 规范化读取使用 SPAdes31进行重新组装。使用所有不同 kmers(21、33、55、77、99 和 127)的装配体使用默认设置。在命令行上输入:
- spades.py -k 21,33,55,77,99,127 -o 样品9 -1 样品9.qc.fq -2 样品9.qc.r.fq - 使用迷你地图2和Geneious、生物编辑或Ugene等程序,根据获得的协商一致序列映射QC读取,以整理对齐。请务必检查连续的开始和结束。
- 使用 minimap2 将 QC 读取与获得的协商一致排序对齐。
- 导入 Geneiis/生物编辑/UGene 中的对齐方式。
- 手动检查,纠正和整理,特别是基因组的开始和结束。
5. 使用光明素数据作为黄金标准,确定所需的读取覆盖率,以补偿纳米孔测序中的误差曲线
- 选择序列读取映射到一个安培,在这种情况下,安培 26。随后,使用迷你地图2映射针对此放大器的纳米孔读数。使用 Samtools 仅选择读取映射到 amplicon 26,并将 bam 文件转换为 fastq。在命令行上输入:
-迷你地图2 -ax 地图 -m 150 安布里隆26.fasta BC01_trimmed.fastq > BC01.bam
- samtools 视图 -b -F 4 BC01.bam > BC01_mapped.bam
- samtools bam2fq BC01_mapped.bam = seqtk seq - -> BC01_mapped.fastq - 随机选择实例 200 序列的子集读取一千次。例如,将其更改为 10 将导致随机选择 10 个序列读取的子集一千次。该脚本作为补充文件 1提供。在命令行上输入:
-巨蛇Random_selection.py - 所有随机选择的序列读取都与安普利翁 26 对齐。使用 KMA32映射序列读取并立即生成共识序列。使用优化的设置进行纳米孔测序,由 -bcNano 标志指示。在命令行上输入:
- kma 指数 -i 安普利翁26.fasta
-用于random_sample*中的文件;执行
-示例 ID_$$$file.fastq]
- kma -i ${样品 ID}.fastq -o ${样品 ID} -t_db 安普利康26.fasta -mem_mode -mp 5 -mrs 0.0-bcNano
-完成 - 使用以下方式检查命令行上生成的共识序列:
-猫 +.fsa > All_genomes.fsa
-迷你地图2 -ax 地图安普利翁26.fasta All_genomes.fsa > All_genomes.bam
- All_genomes.bam > All_genomes_sorted.bam 的 samtools 排序
-萨姆工具统计All_genomes_sorted.bam > 统计.txt- 错误率显示在 sa.txt 中,标题为错误率#mismatches /基映射。使用以下命令在屏幕上显示它:
- grep _SN 统计.txt = 切割 -f 2- - 每个周期的 #Indels 标题下显示 indels 的数量。使用以下命令在屏幕上显示它:
- grep _IC 统计.txt = 切割 -f 2-
- 错误率显示在 sa.txt 中,标题为错误率#mismatches /基映射。使用以下命令在屏幕上显示它:
Representative Results
最近,一个新版本的流单元版本(R10)被释放,并提供了改进基调用器用于转换电子电流信号到DNA序列(所谓的触发器基调用)。因此,我们从一只USUV阳性猫头鹰的脑组织中重新测序了USUV,该猫头鹰以前在R9.4流动细胞和Illumina Miseq仪器21上进行了测序。在这里,我们描述了通过直接比较Illumina测序来确定可靠共识所需的读取覆盖率的方法。
将较新的流单元与基调用器触发器结合使用,我们发现 40 倍的读取覆盖率与 Illumina 测序结果相同。读取覆盖率为 30x 会导致 0.0002% 的错误率,对应于每 585,000 个核苷酸序列中的一个错误,而读取覆盖率为 20x 会导致每 63,529 个核苷酸序列中出现一个错误。读取覆盖率为 10 倍,每测序 3,312 个核苷酸,则会导致一个错误,这意味着每个全SUV基因组的三个核苷酸被称为错误。读取覆盖率超过 30 倍时,未观察到内德尔。读取覆盖率为 20x,检测出一个置地位置,而读取覆盖率为 10 倍,导致 29 个位置的 indels。表 1显示了使用不同读取覆盖率截止的误差率概述。
覆盖 | 错误迭代 1 | 错误率迭代 1 | 因德尔斯: | 错误迭代 2 | 错误率迭代 2 | 因德尔斯: | 错误迭代 3 | 错误率迭代 3 | 因德尔斯: |
10€ | 100 | 0.0274% | 4 | 116 | 0.0297% | 18 | 110 | 0.0282% | 7 |
20° | 4 | 0.0010% | 0 | 6 | 0.0015% | 1 | 7 | 0.0018% | 0 |
30 倍 | 2 | 0.0005% | 0 | 0 | 0.0000% | 0 | 0 | 0.0000% | 0 |
40 倍 | 0 | 0.0000% | 0 | 0 | 0.0000% | 0 | 0 | 0.0000% | 0 |
50° | 0 | 0.0000% | 0 | 0 | 0.0000% | 0 | 0 | 0.0000% | 0 |
表1:纳米孔测序误差率概述。每个迭代表示一千个随机样本。
补充文件 1:随机选择。请点击此处查看此文件(右键单击以下载)。
Discussion
纳米孔测序是不断发展的,因此需要一种方法来监测误差率。在这里,我们描述了一个工作流来监视纳米孔定序器的误差率。这在释放新流单元或释放基调用的新版本后非常有用。但是,这对于想要设置和验证自己的排序协议的用户也很有用。
不同的软件和对齐工具可以产生不同的结果33。在本手稿中,我们旨在使用常用且具有明确文档的免费软件包。在某些情况下,可能会优先考虑商业工具,这些工具通常具有更用户友好的界面,但必须付费。将来,此方法可以应用于同一个示例,以防序列技术或基调用软件进行重大修改,在每次更新基调用方或 flowcell 后,应优先执行,但考虑到当前开发的速度,这只能在重大更新后完成。
测序误差率的降低使得对多路复用的样本数量增加。因此,纳米孔测序越来越接近于取代传统的实时PCR进行诊断检测,流感病毒诊断已经是这种情况。此外,误差率的降低提高了该技术测序的可用性,例如确定小变型和高通量无偏基因组测序。
协议中的一个关键步骤是需要提供紧密、可靠的参考序列。引素基于目前关于病毒多样性的知识,可能需要偶尔更新一次。设置基于安培的测序方法的另一个关键点是基底器浓度的平衡,以获得安培深度的平衡。这样,在序列运行时可以多路复用更多样本,并显著降低成本。
Disclosures
作者没有什么可透露的。
Acknowledgments
这项工作得到了欧洲联盟地平线2020研究和创新方案根据第643476号赠款协议(COMPARE)提供的资金。
Materials
Name | Company | Catalog Number | Comments |
Agencourt AMPure XP beads | Beckman Coulter | A63881 | |
dNTPs | Qiagen | 201900 | |
FLO-MIN106 R10 flowcell | Nanopore | R10 flowcell | |
KAPA Hyperplus libarary preparation kit | Roche | 7962436001 | |
Library Loading Bead Kit | Nanopore | EXP-LLB001 | |
Ligation Sequencing Kit 1D | Nanopore | SQK-LSK109 | |
Native Barcoding Kit 1D 1-12 | Nanopore | EXP-NBD103 | |
Native Barcoding Kit 1D 13-24 | Nanopore | EXP-NBD104 | |
NEB Blunt/TA Ligase Master Mix | NEB | M0367S | |
NEB Next Quick Ligation Module | NEB | E6056 | |
NEB Next Ultra II End Repair / dA-Tailing Module | NEB | E7546S | |
Protoscript II Reverse Transcriptase | NEB | M0368X | |
Q5 High-Fidelity polymerase | NEB | M0491 | |
Qubit dsDNA HS Assay kit | Thermo Fisher | Q32851 | |
Random Primers | Promega | C1181 | |
RNAsin Ribonuclease Inhibitor | Promega | N2111 |
References
- Faria, N. R., et al. Establishment and cryptic transmission of Zika virus in Brazil and the Americas. Nature. 546 (7658), 406-410 (2017).
- Bonaldo, M. C., et al. Genome analysis of yellow fever virus of the ongoing outbreak in Brazil reveals polymorphisms. Memórias do Instituto Oswaldo Cruz. 112 (6), 447-451 (2017).
- Faria, N. R., et al. Genomic and epidemiological monitoring of yellow fever virus transmission potential. bioRxiv. , 299842 (2018).
- Magi, A., Giusti, B., Tattini, L. Characterization of MinION nanopore data for resequencing analyses. Briefings in Bioinformatics. 18 (6), bbw077 (2016).
- Rang, F. J., Kloosterman, W. P., de Ridder, J. From squiggle to basepair: computational approaches for improving nanopore sequencing read accuracy. Genome Biology. 19 (1), 90 (2018).
- Nanopore Store, R10 flow cells. , https://store.nanoporetech.com/flowcells/spoton-flow-cell-mk-i-r10.html (2019).
- Wick, R. R., Judd, L. M., Holt, K. E. Performance of neural network basecalling tools for Oxford Nanopore sequencing. Genome Biology. 20 (1), 129 (2019).
- GitHub - nanoporetech/flappie: Flip-flop basecaller for Oxford Nanopore reads. , https://github.com/nanoporetech/flappie (2019).
- Lühken, R., et al. Distribution of Usutu Virus in Germany and Its Effect on Breeding Bird Populations. Emerging Infectious Diseases. 23 (12), 1994-2001 (2017).
- Cadar, D., et al. Widespread activity of multiple lineages of Usutu virus, Western Europe, 2016. Eurosurveillance. 22 (4), (2017).
- Becker, N., et al. Epizootic emergence of Usutu virus in wild and captive birds in Germany. PLoS ONE. 7 (2), (2012).
- Diagne, M., et al. Usutu Virus Isolated from Rodents in Senegal. Viruses. 11 (2), 181 (2019).
- Bakonyi, T., et al. Usutu virus infections among blood donors, Austria, July and August 2017 – Raising awareness for diagnostic challenges. Eurosurveillance. 22 (41), (2017).
- Zaaijer, H. L., Slot, E., Molier, M., Reusken, C. B. E. M., Koppelman, M. H. G. M. Usutu virus infection in Dutch blood donors. Transfusion. , trf.15444 (2019).
- Cadar, D., et al. Blood donor screening for West Nile virus (WNV) revealed acute Usutu virus (USUV) infection, Germany, September 2016. Eurosurveillance. 22 (14), 30501 (2017).
- Pierro, A., et al. Detection of specific antibodies against West Nile and Usutu viruses in healthy blood donors in northern Italy, 2010–2011. Clinical Microbiology and Infection. 19 (10), E451-E453 (2013).
- Pecorari, M., et al. First human case of Usutu virus neuroinvasive infection, Italy, August-September 2009. Euro surveillance: bulletin européen sur les maladies transmissibles = European Communicable Disease Bulletin. 14 (50), (2009).
- Simonin, Y., et al. Human Usutu Virus Infection with Atypical Neurologic Presentation, Montpellier, France, 2016. Emerging Infectious Diseases. 24 (5), 875-878 (2018).
- Quick, J., et al. Multiplex PCR method for MinION and Illumina sequencing of Zika and other virus genomes directly from clinical samples. Nature Protocols. 12 (6), 1261-1276 (2017).
- Quick, J., et al. Real-time, portable genome sequencing for Ebola surveillance. Nature. 530 (7589), 228-232 (2016).
- Oude Munnink, B. B., et al. Towards high quality real-time whole genome sequencing during outbreaks using Usutu virus as example. Infection, Genetics and Evolution. 73, 49-54 (2019).
- Benson, D. A., Karsch-Mizrachi, I., Lipman, D. J., Ostell, J., Sayers, E. W.
GenBank. Nucleic Acids Research. 38 (Database issue), D46-D51 (2010). - Edgar, R. C. Search and clustering orders of magnitude faster than BLAST. Bioinformatics. 26 (19), 2460-2461 (2010).
- Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
- GitHub - rrwick/Porechop: adapter trimmer for Oxford Nanopore reads. , https://github.com/rrwick/porechop (2018).
- Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
- Li, H. Minimap2: pairwise alignment for nucleotide sequences. Bioinformatics. 34 (18), 3094-3100 (2018).
- Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
- Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics (Oxford, England). 30 (15), 2114-2120 (2014).
- BBMap download | SourceForge.net. , https://sourceforge.net/projects/bbmap/ (2019).
- Bankevich, A., et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of Computational Biology. 19 (5), 455-477 (2012).
- Clausen, P. T. L. C., Aarestrup, F. M., Lund, O. Rapid and precise alignment of raw reads against redundant databases with KMA. BMC Bioinformatics. 19 (1), 307 (2018).
- Brinkmann, A., et al. Proficiency Testing of Virus Diagnostics Based on Bioinformatics Analysis of Simulated In Silico High-Throughput Sequencing Data Sets. Journal of Clinical Microbiology. 57 (8), (2019).