Syftet med detta protokoll är att använda en kombination av computational och bänk forskning för att hitta nya sekvenser som inte kan lätt separeras från en co renande sekvens, som kan vara endast delvis kända.
Subtraktiv genomik kan användas i någon forskning där målet är att identifiera sekvensen i en gen, protein eller allmänna region som är inbäddad i ett större genomisk sammanhang. Subtraktiv genomik gör det möjligt för forskare att isolera en target sekvens av intresse (T) genom omfattande sekvensering och subtrahera ut kända genetiska element (referens, R). Metoden kan användas för att identifiera nya sekvenser såsom mitokondrier, kloroplaster, virus eller könsceller begränsad kromosomer, och är särskilt användbart när T inte kan enkelt isoleras från R. börjar med omfattande genomisk data (R + T), metoden använder grundläggande lokala Alignment Search Tool (BLAST) mot en referens sekvens eller sekvenser, ta bort matchande kända sekvenser (R), lämnar bakom målet (T). För subtraktion fungerar bäst, bör R vara ett relativt komplett utkast som saknar T. Sedan sekvenser kvar efter subtraktion testas genom kvantitativa Polymerase Chain Reaction (qPCR), behöver R inte vara komplett för metoden att arbeta. Här länkar vi computational steg med experimentella kliver in i en cykel som kan vara upprepade behövs, sekventiellt ta bort flera referens sekvenser och förfina sökningen efter T. Fördelen med subtraktiv genomik är att en helt ny mål-sekvens kan identifieras även i fall där fysisk rening är svårt, omöjligt eller dyrt. En nackdel med metoden är att hitta en lämplig referens för subtraktion och erhålla T-positiva och negativa kontrollprover qPCR. Vi beskriver våra genomförandet av metoden i identifiering av den första genen från könsceller-begränsad kromosomen av zebra Fink. I så fall computational filtrering inblandade tre referenser (R), sekventiellt bort över tre cykler: en ofullständig genomisk församling, genomisk rådata och transcriptomic data.
Syftet med denna metod är att identifiera en roman mål (T) genomiska sekvensen, antingen DNA eller RNA, från en genomisk sammanhang eller referens (R) (figur 1). Metoden är mest användbar om målet inte kan separeras fysiskt, eller om det skulle vara dyrt att göra så. Endast några organismer har perfekt klar genomen för subtraktion, så en viktig innovation i vår metod är kombinationen av computational och bänk metoder i en cykel som gör det möjligt för forskare att isolera mål sekvenser när referensen är ofullkomlig, eller ett utkast genomet från en icke-modell organism. I slutet av en cykel används qPCR tester för att avgöra om mer subtraktion behövs. En validerad kandidat T sekvens visar statistiskt större upptäckt i kända T-positiva prover av qPCR.
Inkarnationer av metoden har genomförts i upptäckten av nya bakteriell målmolekyler som inte har host homologs1,2,3,4 och identifiering av nya virus från infekterade värdar 5,6. Förutom identifiering av T, kan metoden förbättra R: vi nyligen använde metoden för att identifiera 936 saknade gener från zebra Fink referens genomet och en ny gen från en endast könsceller-kromosom (T)7. Subtraktiv genomik är särskilt värdefullt när T kommer sannolikt att vara extremt avvikande från kända sekvenser eller när T identitet är i stort sett odefinierad, liksom den zebra Fink könsceller-begränsad kromosom7.
Genom att inte kräva positiv identifiering av T i förväg, är en viktig fördel av subtraktiv genomik att det är opartisk. I en färsk studie undersökte Readhead et al. förhållandet mellan Alzheimers sjukdom och viral överflöd i fyra regioner i hjärnan. För viral identifiering, Readhead et al. skapat en databas med 515 virus8, starkt begränsa viral agenter som deras studie kunde identifiera. Subtraktiv genomik kunde ha använts till jämföra den friska och Alzheimers genomen för att isolera möjliga nya virus som förknippas med sjukdomen, oavsett deras likhet med kända smittämnen. Medan det finns 263 kända mänskliga-targeting virus, har det uppskattats att omkring 1,67 miljoner oupptäckta viral arter finns, med 631,000-827,000 av dem har en potential att infektera människor9.
Isolering av romanen virus är ett område där subtraktiv genomik är särskilt effektiv, men vissa studier kan inte behöva sådan stränga metod. Exempelvis transkribera studier identifiera nya virus har använt opartisk hög genomströmning sekvensering följt av omvänd Transkription och BLASTx för viral sekvenser5 eller berikande av viral nukleinsyra till extraktet och omvänd viral sekvenser 6. dessa studier anställd de novo sekvensering och montering, subtraktion användes inte eftersom målet sekvenser identifierades positivt genom BLAST. Om virus var helt ny och inte relaterade (eller avlägset besläktade) till andra virus, subtraktiv genomik skulle ha varit en användbar teknik. Fördelen med subtraktiv genomik är att sekvenser som är helt ny kan erhållas. Om organismens arvsmassa är känd, kan det dras ut för att lämna någon viral sekvenser. Till exempel i våra publicerade studien isolerat vi en viral romanserie från zebra Fink genom subtraktiv genomik, om det inte var vår ursprungliga avsikt7.
Subtraktiv genomik har också visat sig användbart vid identifiering av bakteriella vaccin mål, motiveras av den dramatiska ökningen antibiotikaresistens1,2,3,4. För att minimera risken för autoimmun reaktion, forskare minskat ner de potentiella vaccin mål genom att subtrahera några proteiner som har homologs i den mänskliga värden. En särskild studie, Corynebacterium pseudotuberculosis, utförs subtraktion av vertebrate värd genomen från flera bakteriella genomer att säkerställa att möjliga läkemedelsmål inte skulle påverka proteiner i filen hosts som leder till biverkningar 1. grundläggande arbetsflödet av dessa studier är att hämta det bakteriella proteomet, avgöra viktiga proteiner, ta bort överflödiga proteiner, använda BLASTp att isolera de viktiga proteinerna och BLASTp mot värd proteomet att ta bort några proteiner med värd homologs 1 , 2 , 3 , 4. I det här fallet subtraktiv genomik säkerställa att vaccinerna utvecklas inte har någon off-target effekter värd1,2,3,4.
Vi brukade subtraktiv genomik identifiera första protein-kodning genen på en könsceller-begränsad kromosom (GRC) (i detta fall, T), som finns i germlines men inte somatisk vävnad av båda könen10. Innan denna studie var den bara genomisk information som var känt om GRC en upprepande region11. De novo montering utfördes på RNA sekvenserade från äggstocken och teste vävnader (T + R) från vuxen zebra finkar. Computational eliminering av sekvenser utfördes med hjälp av publicerade somatiska (muskel) genome sequence (R1)12, dess raw (Sanger) läsa data (R2) och en somatisk (hjärnan) transkriptom (R3)13. Sekventiell användning av tre referenser drevs av den qPCR testning på steg 5 av varje cykel (figur 2A), visar att ytterligare filtrering krävdes. Den upptäckta α-SNAP-genen bekräftades genom qPCR från DNA och RNA, och kloning och sekvensering. Vi visar i vårt exempel att metoden är flexibel: det är inte beroende av matchande nukleinsyror (DNA vs RNA) och det subtraktion kan utföras med referenser (R) som består av församlingar eller raw-läsningar.
Även subtraktiv genomik är kraftfull, är det inte ett kakmått tillvägagångssätt, som kräver anpassning på flera viktiga steg, och noggrant urval av referens sekvenser och prover. Om den fråga församlingen är av dålig kvalitet, kan filtrering steg bara isolera församlingen artefakter. Det är därför viktigt att noggrant verifiera de novo församlingen med en lämplig validering protokollet till det specifika projektet. För RNA-seq anges riktlinjer Trinity webbplats18 och D…
The authors have nothing to disclose.
Författarna erkänner Michelle Biedermans, Alyssa Pedersen och Colin J. Saldanha för deras hjälp med zebra Fink genomik projektets olika skeden. Vi erkänner också Evgeny Bisk för computing cluster systemadministration och NIH grant 1K22CA184297 (till J.R.B.) och NIH NS 042767 (till C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |