Summary

Romanen sekvens oppdagelsen av subtraktiv Genomics

Published: January 25, 2019
doi:

Summary

Formålet med denne protokollen er å bruke en kombinasjon av beregningsorientert og benk forskning for å finne romanen sekvenser som ikke kan lett skilles fra en co rensing rekkefølge, som kan være bare delvis kjent.

Abstract

Subtraktiv genomics kan brukes i noen forskning der målet er å identifisere sekvensen av genet, protein eller generelle regionen som er innebygd i en større genomisk sammenheng. Subtraktiv genomics kan forsker isolere en mål sekvens av interesse (T) av omfattende sekvensering og trekke ut kjent genetisk elementene (referanse, R). Metoden kan brukes til å identifisere romanen sekvenser som mitokondrier, chloroplasts, virus eller germline begrenset kromosomer, og er spesielt nyttig når T ikke kan være lett isolert fra R. begynner med omfattende genomic data (R + T), metoden bruker grunnleggende lokale justering Søk verktøyet (BLAST) mot en referanse sekvens eller sekvenser, fjerne den samsvarende kjente sekvenser (R), etterlater målet (T). Subtraksjon å fungere best, bør R være et relativt komplett utkast som mangler T. Siden sekvenser igjen etter subtraksjon er testet gjennom kvantitative polymerasekjedereaksjons (qPCR), trenger R ikke å være komplett for metoden arbeide. Her koble vi beregningsorientert trinn med eksperimentelle skritt inn i en syklus som kan være iterated nødvendig sekvensielt fjerne flere referanse sekvenser og raffinering Søk etter T. Fordelen med subtraktiv genomics er at en helt ny målet sekvens kan identifiseres selv i tilfeller der fysisk rensing er vanskelig, umulig eller dyrt. En ulempe metoden er å finne en passende referanse for subtraksjon og få T-positive og negative prøver for qPCR testing. Vi beskriver implementeringen av metoden i identifikasjon av første genet fra germline-begrenset kromosomet av zebra finch. I så fall beregningsorientert filtrering involvert tre referanser (R), sekvensielt fjernet over tre sykluser: en ufullstendig genomisk montering, rå genomic data og transcriptomic data.

Introduction

Formålet med denne metoden er å identifisere en roman mål (T) genomisk sekvens, DNA eller RNA, fra genomisk sammenheng eller referanse (R) (figur 1). Metoden er mest nyttig hvis målet ikke kan deles fysisk, eller det ville være kostbart å gjøre dette. Bare noen organismer er helt ferdig genomer for subtraksjon, så en nøkkel innovasjon av vår metode er kombinasjonen av beregningsorientert og benk metoder i en syklus aktivere forskere isolere målet sekvenser når referansen er ufullkommen, eller en kladd genomet fra en ikke-modellen organisme. På slutten av en syklus, qPCR tester til å avgjøre om mer subtraksjon er nødvendig. En godkjent kandidat T sekvens viser statistisk større oppdagelsen i kjente T-positive eksempler av qPCR.

Inkarnasjoner av metoden som er implementert i oppdagelsen av nye bakteriell narkotika mål som ikke har vert, homologs,1,,2,,3,,4 og identifikasjon av romanen virus fra infiserte verter 5,6. I tillegg til identifikasjon av T, kan metoden forbedre R: vi nylig brukte metoden for å identifisere 936 nyrekreft fra zebra finch referanse genomet og en ny genetisk fra en germline bare kromosom (T)7. Subtraktiv genomics er spesielt verdifull når T er trolig bli svært avvikende fra kjente sekvenser eller når identiteten til T er bredt definert, som zebra finch germline begrenset kromosom7.

Ikke kreves positiv identifikasjon av T på forhånd, er en viktig fordel med subtraktiv genomics at det er saklig. I en fersk studie undersøkte Readhead et al. forholdet mellom Alzheimers og viral overflod i fire områder av hjernen. Viral identifikasjon, Readhead et al. opprettet en database 515 virus8, sterkt begrense viral agenter som deres studie kunne identifisere. Subtraktiv genomics kunne blitt brukt til å sammenligne den sunne og Alzheimers genomer for å isolere mulig romanen virus knyttet til sykdommen, uansett deres likhet med kjente smittestoffer. Mens det er 263 menneskelige målretting virus, er det anslått at ca 1,67 millioner uoppdagede viral arter finnes, med 631,000-827,000 av dem har et potensial til å infisere mennesker9.

Isolering av romanen virus er et område der subtraktiv genomics er spesielt effektive, men noen studier ikke trenger slik strenge metode. For eksempel transkribere studier identifiserende romanen virus har brukt upartiske høy gjennomstrømming sekvensering etterfulgt av omvendt transkripsjon og BLASTx for viral sekvenser5 eller berikende av viral nukleinsyrer å trekke ut og reversere viral sekvenser 6. mens disse studiene ansatt de novo sekvensering og montering, subtraksjon ikke ble brukt fordi målet sekvenser ble positivt identifisert gjennom BLAST. Hvis virusene var helt ny og ikke relatert (eller fjernt beslektede) til andre virus, subtraktiv genomics ville ha vært en nyttig teknikk. Fordelen med subtraktiv genomics er at sekvenser som er helt nye kan hentes. Hvis den organismes genom er kjent, kan det trekkes ut for å forlate noen viral sekvenser. For eksempel i våre publisert studie isolerte vi en roman viral sekvens fra zebra finch gjennom subtraktiv genomics, men det ikke var våre opprinnelige hensikt7.

Subtraktiv genomics har også vist seg nyttig ved identifikasjon av bakteriell vaksine mål, motivert av den dramatiske økningen i antibiotikaresistens1,2,3,4. For å minimere risikoen for autoimmun reaksjon, forskere snevret ned potensielle vaksine målene ved å trekke noen proteiner som har homologs i menneskelig verten. En bestemt studie, etter Corynebacterium pseudotuberculosis, utført subtraksjon av virveldyr vert genomer fra flere bakteriell genomer slik at mulige narkotika mål ikke vil påvirke proteiner i vertene fører til bivirkninger 1. grunnleggende arbeidsflyten for disse studiene er å laste ned den bakterielle proteom, finne viktige proteiner, fjerne overflødig proteiner, bruke BLASTp å isolere den essensielle proteiner og BLASTp mot vert proteom fjerner eventuelle proteiner med verten homologs 1 , 2 , 3 , 4. I dette tilfellet subtraktiv genomics sikre at vaksiner utviklet ikke vil ha noen off-målet effekter i vert1,2,3,4.

Vi brukte subtraktiv genomics å identifisere første protein-koding genet på en germline-begrenset kromosom (GRC) (i dette tilfellet, T), som finnes i germlines men ikke somatiske vev av begge kvinners10. Før denne studien var bare genomisk informasjon som var kjent om GRC en repeterende regionen11. De novo samlingen ble utført på RNA sekvensielt fra eggstokken og teste vev (R + T) fra voksen zebra finches. Beregningsorientert eliminering av sekvenser ble utført publiserte somatiske (muskel) genomet sekvens (R1)12, sin rå (Sanger) lese data (R2) og en somatiske (hjernen) transcriptome (R3)13. Sekvensiell bruk av tre referanser ble drevet av qPCR testing på trinn 5 hver syklus (figur 2A), viser at ekstra filtrering var nødvendig. Oppdaget α-SNAPPER genet ble bekreftet gjennom qPCR DNA og RNA, kloning og sekvenser. Vi viser i vårt eksempel at denne metoden er fleksibel: det er ikke avhengig av matchende nucleic syrer (DNA vs RNA) og subtraksjon som kan utføres med referanser (R) som består av samlinger eller lese rådata.

Protocol

1. de novo montere starter sekvens Merk: Neste generasjon sekvens (NGS) data kan brukes, så lenge en samling kan bli produsert fra disse dataene. Egnet inndataene inneholder Illumina, PacBio, eller Oxford Nanopore leser montert i fasta fil. Concreteness, denne delen beskriver en Illumina-baserte transcriptomic samling gjelder zebra finch studien vi utført7; men vær oppmerksom på at detaljene vil variere etter prosjekt. For vårt eksempel prosjekt, rådata var…

Representative Results

Etter running BLAST, vil utdatafilen ha en liste over sekvenser fra spørringen som samsvarer med databasen. Etter Python subtraksjon, vil en rekke ikke-samsvarende sekvenser være innhentet, og testet av qPCR. Resultatene av dette, og neste er omtalt nedenfor. Negative resultatet. Det er to mulige negative konsekvenser som kan sees etter BLAST referanse-sekvensen. Det kan være noen BLAST resultater, betyr at d…

Discussion

Mens subtraktiv genomics er kraftig, er det ikke en cookie-cutter tilnærming, krever tilpasning på flere viktige trinn, og forsiktig utvalg av referanse sekvenser og test prøver. Hvis spørringssamlingen er av dårlig kvalitet, kan filtrering trinn bare isolere montering gjenstander. Derfor er det viktig å validere grundig de novo samlingen med en aktuell validering-protokollen til det bestemte prosjektet. For RNA-seq, er retningslinjene gitt på Trinity nettsted18 og DNA, et verktøy…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Forfatterne bekrefter Michelle Biederman, Alyssa Pedersen og Colin J. Saldanha for deres hjelp med zebra finch genomics prosjektet på ulike stadier. Vi erkjenner også Evgeny Bisk for databehandling klynge systemadministrasjon og NIH grant 1K22CA184297 (til J.R.B.) og NIH NS 042767 (til C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video