Formålet med denne protokollen er å bruke en kombinasjon av beregningsorientert og benk forskning for å finne romanen sekvenser som ikke kan lett skilles fra en co rensing rekkefølge, som kan være bare delvis kjent.
Subtraktiv genomics kan brukes i noen forskning der målet er å identifisere sekvensen av genet, protein eller generelle regionen som er innebygd i en større genomisk sammenheng. Subtraktiv genomics kan forsker isolere en mål sekvens av interesse (T) av omfattende sekvensering og trekke ut kjent genetisk elementene (referanse, R). Metoden kan brukes til å identifisere romanen sekvenser som mitokondrier, chloroplasts, virus eller germline begrenset kromosomer, og er spesielt nyttig når T ikke kan være lett isolert fra R. begynner med omfattende genomic data (R + T), metoden bruker grunnleggende lokale justering Søk verktøyet (BLAST) mot en referanse sekvens eller sekvenser, fjerne den samsvarende kjente sekvenser (R), etterlater målet (T). Subtraksjon å fungere best, bør R være et relativt komplett utkast som mangler T. Siden sekvenser igjen etter subtraksjon er testet gjennom kvantitative polymerasekjedereaksjons (qPCR), trenger R ikke å være komplett for metoden arbeide. Her koble vi beregningsorientert trinn med eksperimentelle skritt inn i en syklus som kan være iterated nødvendig sekvensielt fjerne flere referanse sekvenser og raffinering Søk etter T. Fordelen med subtraktiv genomics er at en helt ny målet sekvens kan identifiseres selv i tilfeller der fysisk rensing er vanskelig, umulig eller dyrt. En ulempe metoden er å finne en passende referanse for subtraksjon og få T-positive og negative prøver for qPCR testing. Vi beskriver implementeringen av metoden i identifikasjon av første genet fra germline-begrenset kromosomet av zebra finch. I så fall beregningsorientert filtrering involvert tre referanser (R), sekvensielt fjernet over tre sykluser: en ufullstendig genomisk montering, rå genomic data og transcriptomic data.
Formålet med denne metoden er å identifisere en roman mål (T) genomisk sekvens, DNA eller RNA, fra genomisk sammenheng eller referanse (R) (figur 1). Metoden er mest nyttig hvis målet ikke kan deles fysisk, eller det ville være kostbart å gjøre dette. Bare noen organismer er helt ferdig genomer for subtraksjon, så en nøkkel innovasjon av vår metode er kombinasjonen av beregningsorientert og benk metoder i en syklus aktivere forskere isolere målet sekvenser når referansen er ufullkommen, eller en kladd genomet fra en ikke-modellen organisme. På slutten av en syklus, qPCR tester til å avgjøre om mer subtraksjon er nødvendig. En godkjent kandidat T sekvens viser statistisk større oppdagelsen i kjente T-positive eksempler av qPCR.
Inkarnasjoner av metoden som er implementert i oppdagelsen av nye bakteriell narkotika mål som ikke har vert, homologs,1,,2,,3,,4 og identifikasjon av romanen virus fra infiserte verter 5,6. I tillegg til identifikasjon av T, kan metoden forbedre R: vi nylig brukte metoden for å identifisere 936 nyrekreft fra zebra finch referanse genomet og en ny genetisk fra en germline bare kromosom (T)7. Subtraktiv genomics er spesielt verdifull når T er trolig bli svært avvikende fra kjente sekvenser eller når identiteten til T er bredt definert, som zebra finch germline begrenset kromosom7.
Ikke kreves positiv identifikasjon av T på forhånd, er en viktig fordel med subtraktiv genomics at det er saklig. I en fersk studie undersøkte Readhead et al. forholdet mellom Alzheimers og viral overflod i fire områder av hjernen. Viral identifikasjon, Readhead et al. opprettet en database 515 virus8, sterkt begrense viral agenter som deres studie kunne identifisere. Subtraktiv genomics kunne blitt brukt til å sammenligne den sunne og Alzheimers genomer for å isolere mulig romanen virus knyttet til sykdommen, uansett deres likhet med kjente smittestoffer. Mens det er 263 menneskelige målretting virus, er det anslått at ca 1,67 millioner uoppdagede viral arter finnes, med 631,000-827,000 av dem har et potensial til å infisere mennesker9.
Isolering av romanen virus er et område der subtraktiv genomics er spesielt effektive, men noen studier ikke trenger slik strenge metode. For eksempel transkribere studier identifiserende romanen virus har brukt upartiske høy gjennomstrømming sekvensering etterfulgt av omvendt transkripsjon og BLASTx for viral sekvenser5 eller berikende av viral nukleinsyrer å trekke ut og reversere viral sekvenser 6. mens disse studiene ansatt de novo sekvensering og montering, subtraksjon ikke ble brukt fordi målet sekvenser ble positivt identifisert gjennom BLAST. Hvis virusene var helt ny og ikke relatert (eller fjernt beslektede) til andre virus, subtraktiv genomics ville ha vært en nyttig teknikk. Fordelen med subtraktiv genomics er at sekvenser som er helt nye kan hentes. Hvis den organismes genom er kjent, kan det trekkes ut for å forlate noen viral sekvenser. For eksempel i våre publisert studie isolerte vi en roman viral sekvens fra zebra finch gjennom subtraktiv genomics, men det ikke var våre opprinnelige hensikt7.
Subtraktiv genomics har også vist seg nyttig ved identifikasjon av bakteriell vaksine mål, motivert av den dramatiske økningen i antibiotikaresistens1,2,3,4. For å minimere risikoen for autoimmun reaksjon, forskere snevret ned potensielle vaksine målene ved å trekke noen proteiner som har homologs i menneskelig verten. En bestemt studie, etter Corynebacterium pseudotuberculosis, utført subtraksjon av virveldyr vert genomer fra flere bakteriell genomer slik at mulige narkotika mål ikke vil påvirke proteiner i vertene fører til bivirkninger 1. grunnleggende arbeidsflyten for disse studiene er å laste ned den bakterielle proteom, finne viktige proteiner, fjerne overflødig proteiner, bruke BLASTp å isolere den essensielle proteiner og BLASTp mot vert proteom fjerner eventuelle proteiner med verten homologs 1 , 2 , 3 , 4. I dette tilfellet subtraktiv genomics sikre at vaksiner utviklet ikke vil ha noen off-målet effekter i vert1,2,3,4.
Vi brukte subtraktiv genomics å identifisere første protein-koding genet på en germline-begrenset kromosom (GRC) (i dette tilfellet, T), som finnes i germlines men ikke somatiske vev av begge kvinners10. Før denne studien var bare genomisk informasjon som var kjent om GRC en repeterende regionen11. De novo samlingen ble utført på RNA sekvensielt fra eggstokken og teste vev (R + T) fra voksen zebra finches. Beregningsorientert eliminering av sekvenser ble utført publiserte somatiske (muskel) genomet sekvens (R1)12, sin rå (Sanger) lese data (R2) og en somatiske (hjernen) transcriptome (R3)13. Sekvensiell bruk av tre referanser ble drevet av qPCR testing på trinn 5 hver syklus (figur 2A), viser at ekstra filtrering var nødvendig. Oppdaget α-SNAPPER genet ble bekreftet gjennom qPCR DNA og RNA, kloning og sekvenser. Vi viser i vårt eksempel at denne metoden er fleksibel: det er ikke avhengig av matchende nucleic syrer (DNA vs RNA) og subtraksjon som kan utføres med referanser (R) som består av samlinger eller lese rådata.
Mens subtraktiv genomics er kraftig, er det ikke en cookie-cutter tilnærming, krever tilpasning på flere viktige trinn, og forsiktig utvalg av referanse sekvenser og test prøver. Hvis spørringssamlingen er av dårlig kvalitet, kan filtrering trinn bare isolere montering gjenstander. Derfor er det viktig å validere grundig de novo samlingen med en aktuell validering-protokollen til det bestemte prosjektet. For RNA-seq, er retningslinjene gitt på Trinity nettsted18 og DNA, et verktøy…
The authors have nothing to disclose.
Forfatterne bekrefter Michelle Biederman, Alyssa Pedersen og Colin J. Saldanha for deres hjelp med zebra finch genomics prosjektet på ulike stadier. Vi erkjenner også Evgeny Bisk for databehandling klynge systemadministrasjon og NIH grant 1K22CA184297 (til J.R.B.) og NIH NS 042767 (til C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |