Summary

Scoperta di romanzo sequenza genomica sottrattiva

Published: January 25, 2019
doi:

Summary

Lo scopo del presente protocollo è quello di utilizzare una combinazione di computazionale e panca ricerca per trovare nuove sequenze che non possono essere facilmente separate da una sequenza co-purificante, che può essere conosciuta solo parzialmente.

Abstract

Sottrattiva genomica può essere utilizzato in qualsiasi ricerca dove l’obiettivo è quello di identificare la sequenza di un gene, la proteina o la regione generale che è incorporato in un contesto più ampio di genomico. Genomica sottrattivo consente un ricercatore isolare una sequenza di destinazione di interesse (T) mediante sequenziamento completo e sottrazione di elementi genetici conosciuti (riferimento, R). Il metodo può essere utilizzato per identificare nuove sequenze quali mitocondri, cloroplasti, virus, o germinale limitato di cromosomi ed è particolarmente utile quando T non può essere facilmente isolato da R. cominciando con i dati di genomici completi (R + T), il metodo utilizza base locale allineamento Cerca strumento (BLAST) contro una sequenza di riferimento, o sequenze, per rimuovere le sequenze note corrispondenti (R), lasciando dietro il bersaglio (T). Per la sottrazione funzionare al meglio, R dovrebbe essere una brutta copia relativamente completa che manca T. Dal sequenze restanti dopo sottrazione sono testati attraverso quantitative Polymerase Chain Reaction (qPCR), R non deve necessariamente essere completo per il metodo di lavoro. Qui ci colleghiamo passi computazionali con procedura sperimentale in un ciclo che può essere ripetuto se necessario, in sequenza rimozione più sequenze di riferimento e la rifinitura la ricerca di T. Il vantaggio della genomica sottrattiva è che una sequenza completamente nuovi target può essere identificata anche nei casi in cui la purificazione fisica è difficile, impossibile o costoso. Uno svantaggio del metodo è trovare un riferimento adatto per sottrazione e ottenere T-positivo e negativo di campioni per le prove di qPCR. Descriviamo la nostra implementazione del metodo nell’identificazione del primo gene sul cromosoma germline-limitata di zebra finch. In tal caso filtraggio computazionali coinvolti tre riferimenti (R), rimossi in sequenza su tre cicli: montaggio genomica incompleta, raw dati genomici e dati di trascrittomica.

Introduction

Lo scopo di questo metodo consiste nell’identificare un’obiettivo novello (T) sequenza genomic, DNA o RNA, da un contesto genomico, o un riferimento (R) (Figura 1). Il metodo è più utile se la destinazione non può essere fisicamente separata, o che sarebbe stato costoso farlo. Solo alcuni organismi hanno perfettamente finito genomi per sottrazione, quindi un’innovazione chiave del nostro metodo è la combinazione di calcolo e metodi di panca in un ciclo che permette ai ricercatori di isolare sequenze bersaglio quando il riferimento è imperfetto, o un progetto genoma da un organismo non-modello. Alla fine di un ciclo, qPCR test viene utilizzato per determinare se è necessario più di sottrazione. Una sequenza di convalidato candidato T mostrerà statisticamente maggiore rilevamento in noti campioni di T-positivi di qPCR.

Incarnazioni del metodo sono state implementate nella scoperta di nuovi bersagli farmacologici batterica che non dispongono di host omologhi1,2,3,4 e identificazione di nuovi virus da host infetti 5,6. Oltre alla identificazione di T, il metodo può migliorare r: recentemente abbiamo utilizzato il metodo per identificare 936 geni mancanti dal genoma di riferimento zebra finch e un nuovo gene da una sola linea germinale del cromosoma (T)7. La genomica sottrattiva è particolarmente preziosa quando T rischia di essere estremamente divergenti da sequenze conosciute o quando l’identità di T è ampiamente definito, come la zebra finch germline-limitata del cromosoma7.

Non richiedendo identificazione positiva di T in anticipo, un vantaggio chiave della genomica sottrattiva è che è imparziale. In uno studio recente, Readhead et al ha esaminato la relazione tra il morbo di Alzheimer e virale abbondanza nelle quattro regioni del cervello. Per identificazione virale, Readhead et al ha creato un database di 515 virus8, limitando gravemente l’agenti virali che poteva identificare i loro studio. Sottrattiva genomica potrebbe sono stati utilizzati per confrontare i sani e genomi di morbo di Alzheimer al fine di isolare possibili nuovi virus associati alla malattia, indipendentemente dalla loro somiglianza con gli agenti infettivi noti. Mentre ci sono 263 noto virus umani-targeting, è stato stimato che circa 1,67 milioni da scoprire specie virale esistono, con 631.000-827.000 di loro che hanno un potenziale di infettare gli esseri umani9.

Isolamento di nuovi virus è un’area in cui sottrattiva genomica è particolarmente efficace, ma alcuni studi potrebbero non essere necessario tale metodo rigoroso. Ad esempio, studi identificazione nuovi virus hanno usato imparziale high throughput sequenziamento, seguita da trascrizione d’inversione e BLASTx per sequenze virali5 o arricchimento degli acidi nucleici virali per estrarre e invertire trascrivono sequenze virali 6. mentre questi studi impiegato sequenziamento de novo e assemblaggio, sottrazione non è stato utilizzato perché le sequenze bersaglio sono stati positivamente identificate attraverso BLAST. Se i virus erano completamente nuovi e non correlati (o lontanamente correlate) ad altri virus, genomica sottrattiva sarebbe stato una tecnica utile. Il vantaggio della genomica sottrattiva è che si possono ottenere sequenze che sono completamente nuove. Se è noto il genoma dell’organismo, possono essere sottratti fuori di lasciare eventuali sequenze virali. Ad esempio, nel nostro studio pubblicato abbiamo isolato una romanzo sequenza virale da zebra finch attraverso sottrattiva genomica, anche se non era nostro intento originale7.

Sottrattiva genomica si è dimostrata utile per l’identificazione di bersagli di vaccino batterico, motivati dall’aumento drammatico nella resistenza agli antibiotici1,2,3,4. Per ridurre al minimo il rischio di reazione autoimmune, ricercatori ha ristretto i potenziali bersagli di vaccino sottraendo qualsiasi proteine che sono omologhi nell’ospite umano. Uno studio particolare, guardando la pseudotuberculosi del corinebatterio, eseguita la sottrazione dei genoma ospite vertebrato da diversi genomi batterici per garantire che gli obiettivi della droga possibile non inciderebbe proteine nei padroni di casa che conduce agli effetti collaterali 1. il flusso di lavoro di base di questi studi è quello di scaricare il proteoma batterico, determinare le proteine vitali, rimuovere le proteine ridondanti, utilizzare BLASTp per isolare le proteine essenziali e BLASTp contro host proteoma per rimuovere eventuali proteine con gli omologhi host 1 , 2 , 3 , 4. In tal caso, genomica sottrattiva assicura che i vaccini sviluppati non avrà alcun effetto fuori bersaglio in host1,2,3,4.

Abbiamo usato sottrattiva genomica per identificare il primo gene di proteina-codificazione su un limitato di germline cromosoma (GRC) (in questo caso, T), che si trova in germlines ma non somatica tessuto di entrambi i sessi10. Prima di questo studio, le informazioni solo genomiche che è state conosciute circa il GRC è stato una regione ripetitiva11. De novo montaggio è stato eseguito su RNA sequenziato dai tessuti dell’ovaia e teste (R + T) da adulti zebra fringuelli. L’eliminazione computazionale delle sequenze è stata eseguita utilizzando pubblicati somatica (muscolo) genome sequence (R1)12, suo crudo (Sanger) leggere dati (R2) e un somatico (cervello) trascrittoma (R3)13. L’uso sequenza di tre riferimenti è stato guidato dalla qPCR test passaggio 5 di ciascun ciclo (Figura 2A), mostrando che altre opzioni di filtro è stato richiesto. Il gene α-SNAP scoperto è stato confermato mediante qPCR da DNA e RNA e clonazione e sequenziamento. Vi mostriamo nel nostro esempio che questo metodo è flessibile: non è dipenda su corrispondenti acidi nucleici (DNA vs RNA) e quello sottrazione può essere eseguita con riferimenti (R) che sono costituiti da assembly o crude letture.

Protocol

1. sequenza di avvio assemblare de novo Nota: Qualsiasi dati di sequenza di generazione (NGS) possono essere utilizzati, purché un assembly può essere prodotto da tali dati. Dati di input adatti includono Illumina, PacBio, o Oxford Nanopore legge assemblata in un file fasta. Per concretezza, questa sezione descrive un assembly basati su Illumina Transcrittomica specifico allo studio zebra finch abbiamo effettuato7; tuttavia essere consapevoli che le specifiche …

Representative Results

Dopo l’esecuzione di BLAST, il file di output avrà un elenco di sequenze dalla query che corrisponda al database. Dopo la sottrazione di Python, un numero di sequenze non corrispondenti sarà ottenuto e testato da qPCR. I risultati di questo e prossimi passi, sono discussi di seguito. Risultato negativo. Ci sono due possibili risultati negativi che possono essere visto dopo BLAST per la sequenza di riferimento….

Discussion

Mentre sottrattiva genomica è potente, non si tratta di un approccio cookie cutter, che richiedono personalizzazione in diversi passaggi chiave e un’attenta selezione di sequenze di riferimento e campioni di prova. Se l’assembly di query è di scarsa qualità, passaggi di filtraggio potrebbe isolare solo artefatti di assemblaggio. Pertanto, è importante convalidare accuratamente l’Assemblea de novo utilizzando un protocollo di convalida appropriata al progetto specifico. Per RNA-seq, linee sono fornite sul sit…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Gli autori riconoscono Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha per la loro assistenza con il progetto di genomica di zebra finch in varie fasi. Riconosciamo anche Evgeny Bijsk per computing cluster sistema amministrazione e NIH grant 1K22CA184297 (per J.R.B.) e 042767 NS NIH (a C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

Riferimenti

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Citazione di questo articolo
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video