Summary

Romanserie upptäckten av subtraktiv genomik

Published: January 25, 2019
doi:

Summary

Syftet med detta protokoll är att använda en kombination av computational och bänk forskning för att hitta nya sekvenser som inte kan lätt separeras från en co renande sekvens, som kan vara endast delvis kända.

Abstract

Subtraktiv genomik kan användas i någon forskning där målet är att identifiera sekvensen i en gen, protein eller allmänna region som är inbäddad i ett större genomisk sammanhang. Subtraktiv genomik gör det möjligt för forskare att isolera en target sekvens av intresse (T) genom omfattande sekvensering och subtrahera ut kända genetiska element (referens, R). Metoden kan användas för att identifiera nya sekvenser såsom mitokondrier, kloroplaster, virus eller könsceller begränsad kromosomer, och är särskilt användbart när T inte kan enkelt isoleras från R. börjar med omfattande genomisk data (R + T), metoden använder grundläggande lokala Alignment Search Tool (BLAST) mot en referens sekvens eller sekvenser, ta bort matchande kända sekvenser (R), lämnar bakom målet (T). För subtraktion fungerar bäst, bör R vara ett relativt komplett utkast som saknar T. Sedan sekvenser kvar efter subtraktion testas genom kvantitativa Polymerase Chain Reaction (qPCR), behöver R inte vara komplett för metoden att arbeta. Här länkar vi computational steg med experimentella kliver in i en cykel som kan vara upprepade behövs, sekventiellt ta bort flera referens sekvenser och förfina sökningen efter T. Fördelen med subtraktiv genomik är att en helt ny mål-sekvens kan identifieras även i fall där fysisk rening är svårt, omöjligt eller dyrt. En nackdel med metoden är att hitta en lämplig referens för subtraktion och erhålla T-positiva och negativa kontrollprover qPCR. Vi beskriver våra genomförandet av metoden i identifiering av den första genen från könsceller-begränsad kromosomen av zebra Fink. I så fall computational filtrering inblandade tre referenser (R), sekventiellt bort över tre cykler: en ofullständig genomisk församling, genomisk rådata och transcriptomic data.

Introduction

Syftet med denna metod är att identifiera en roman mål (T) genomiska sekvensen, antingen DNA eller RNA, från en genomisk sammanhang eller referens (R) (figur 1). Metoden är mest användbar om målet inte kan separeras fysiskt, eller om det skulle vara dyrt att göra så. Endast några organismer har perfekt klar genomen för subtraktion, så en viktig innovation i vår metod är kombinationen av computational och bänk metoder i en cykel som gör det möjligt för forskare att isolera mål sekvenser när referensen är ofullkomlig, eller ett utkast genomet från en icke-modell organism. I slutet av en cykel används qPCR tester för att avgöra om mer subtraktion behövs. En validerad kandidat T sekvens visar statistiskt större upptäckt i kända T-positiva prover av qPCR.

Inkarnationer av metoden har genomförts i upptäckten av nya bakteriell målmolekyler som inte har host homologs1,2,3,4 och identifiering av nya virus från infekterade värdar 5,6. Förutom identifiering av T, kan metoden förbättra R: vi nyligen använde metoden för att identifiera 936 saknade gener från zebra Fink referens genomet och en ny gen från en endast könsceller-kromosom (T)7. Subtraktiv genomik är särskilt värdefullt när T kommer sannolikt att vara extremt avvikande från kända sekvenser eller när T identitet är i stort sett odefinierad, liksom den zebra Fink könsceller-begränsad kromosom7.

Genom att inte kräva positiv identifiering av T i förväg, är en viktig fördel av subtraktiv genomik att det är opartisk. I en färsk studie undersökte Readhead et al. förhållandet mellan Alzheimers sjukdom och viral överflöd i fyra regioner i hjärnan. För viral identifiering, Readhead et al. skapat en databas med 515 virus8, starkt begränsa viral agenter som deras studie kunde identifiera. Subtraktiv genomik kunde ha använts till jämföra den friska och Alzheimers genomen för att isolera möjliga nya virus som förknippas med sjukdomen, oavsett deras likhet med kända smittämnen. Medan det finns 263 kända mänskliga-targeting virus, har det uppskattats att omkring 1,67 miljoner oupptäckta viral arter finns, med 631,000-827,000 av dem har en potential att infektera människor9.

Isolering av romanen virus är ett område där subtraktiv genomik är särskilt effektiv, men vissa studier kan inte behöva sådan stränga metod. Exempelvis transkribera studier identifiera nya virus har använt opartisk hög genomströmning sekvensering följt av omvänd Transkription och BLASTx för viral sekvenser5 eller berikande av viral nukleinsyra till extraktet och omvänd viral sekvenser 6. dessa studier anställd de novo sekvensering och montering, subtraktion användes inte eftersom målet sekvenser identifierades positivt genom BLAST. Om virus var helt ny och inte relaterade (eller avlägset besläktade) till andra virus, subtraktiv genomik skulle ha varit en användbar teknik. Fördelen med subtraktiv genomik är att sekvenser som är helt ny kan erhållas. Om organismens arvsmassa är känd, kan det dras ut för att lämna någon viral sekvenser. Till exempel i våra publicerade studien isolerat vi en viral romanserie från zebra Fink genom subtraktiv genomik, om det inte var vår ursprungliga avsikt7.

Subtraktiv genomik har också visat sig användbart vid identifiering av bakteriella vaccin mål, motiveras av den dramatiska ökningen antibiotikaresistens1,2,3,4. För att minimera risken för autoimmun reaktion, forskare minskat ner de potentiella vaccin mål genom att subtrahera några proteiner som har homologs i den mänskliga värden. En särskild studie, Corynebacterium pseudotuberculosis, utförs subtraktion av vertebrate värd genomen från flera bakteriella genomer att säkerställa att möjliga läkemedelsmål inte skulle påverka proteiner i filen hosts som leder till biverkningar 1. grundläggande arbetsflödet av dessa studier är att hämta det bakteriella proteomet, avgöra viktiga proteiner, ta bort överflödiga proteiner, använda BLASTp att isolera de viktiga proteinerna och BLASTp mot värd proteomet att ta bort några proteiner med värd homologs 1 , 2 , 3 , 4. I det här fallet subtraktiv genomik säkerställa att vaccinerna utvecklas inte har någon off-target effekter värd1,2,3,4.

Vi brukade subtraktiv genomik identifiera första protein-kodning genen på en könsceller-begränsad kromosom (GRC) (i detta fall, T), som finns i germlines men inte somatisk vävnad av båda könen10. Innan denna studie var den bara genomisk information som var känt om GRC en upprepande region11. De novo montering utfördes på RNA sekvenserade från äggstocken och teste vävnader (T + R) från vuxen zebra finkar. Computational eliminering av sekvenser utfördes med hjälp av publicerade somatiska (muskel) genome sequence (R1)12, dess raw (Sanger) läsa data (R2) och en somatisk (hjärnan) transkriptom (R3)13. Sekventiell användning av tre referenser drevs av den qPCR testning på steg 5 av varje cykel (figur 2A), visar att ytterligare filtrering krävdes. Den upptäckta α-SNAP-genen bekräftades genom qPCR från DNA och RNA, och kloning och sekvensering. Vi visar i vårt exempel att metoden är flexibel: det är inte beroende av matchande nukleinsyror (DNA vs RNA) och det subtraktion kan utföras med referenser (R) som består av församlingar eller raw-läsningar.

Protocol

1. de novo montera start sekvens Obs: Nästa generations sekvens (NGS) data kan användas, så länge en församling kan produceras från dessa data. Lämpliga indata innehåller Illumina, PacBio, eller Oxford Nanopore läser monterade in en fasta fil. För konkretion, det här avsnittet beskrivs en Illumina-baserade transcriptomic församling specifika för zebra Fink studien vi utfört7; dock vara medveten om att detaljerna varierar beroende på projektet. För…

Representative Results

Efter löpande BLAST, kommer att utdatafilen ha en lista med sekvenser från frågan som matchar databasen. Efter Python subtraktion, kommer ett antal meddelandet sekvenser vara erhållits, och testats av qPCR. Resultat av detta och nästa steg, diskuteras nedan. Negativt resultat. Det finns två möjliga negativa resultat som kan ses efter BLAST till sekvensen referens. Det kan finnas utan BLAST resultat, vilke…

Discussion

Även subtraktiv genomik är kraftfull, är det inte ett kakmått tillvägagångssätt, som kräver anpassning på flera viktiga steg, och noggrant urval av referens sekvenser och prover. Om den fråga församlingen är av dålig kvalitet, kan filtrering steg bara isolera församlingen artefakter. Det är därför viktigt att noggrant verifiera de novo församlingen med en lämplig validering protokollet till det specifika projektet. För RNA-seq anges riktlinjer Trinity webbplats18 och D…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Författarna erkänner Michelle Biedermans, Alyssa Pedersen och Colin J. Saldanha för deras hjälp med zebra Fink genomik projektets olika skeden. Vi erkänner också Evgeny Bisk för computing cluster systemadministration och NIH grant 1K22CA184297 (till J.R.B.) och NIH NS 042767 (till C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video