Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Romanserie upptäckten av subtraktiv genomik

Published: January 25, 2019 doi: 10.3791/58877

Summary

Syftet med detta protokoll är att använda en kombination av computational och bänk forskning för att hitta nya sekvenser som inte kan lätt separeras från en co renande sekvens, som kan vara endast delvis kända.

Abstract

Subtraktiv genomik kan användas i någon forskning där målet är att identifiera sekvensen i en gen, protein eller allmänna region som är inbäddad i ett större genomisk sammanhang. Subtraktiv genomik gör det möjligt för forskare att isolera en target sekvens av intresse (T) genom omfattande sekvensering och subtrahera ut kända genetiska element (referens, R). Metoden kan användas för att identifiera nya sekvenser såsom mitokondrier, kloroplaster, virus eller könsceller begränsad kromosomer, och är särskilt användbart när T inte kan enkelt isoleras från R. börjar med omfattande genomisk data (R + T), metoden använder grundläggande lokala Alignment Search Tool (BLAST) mot en referens sekvens eller sekvenser, ta bort matchande kända sekvenser (R), lämnar bakom målet (T). För subtraktion fungerar bäst, bör R vara ett relativt komplett utkast som saknar T. Sedan sekvenser kvar efter subtraktion testas genom kvantitativa Polymerase Chain Reaction (qPCR), behöver R inte vara komplett för metoden att arbeta. Här länkar vi computational steg med experimentella kliver in i en cykel som kan vara upprepade behövs, sekventiellt ta bort flera referens sekvenser och förfina sökningen efter T. Fördelen med subtraktiv genomik är att en helt ny mål-sekvens kan identifieras även i fall där fysisk rening är svårt, omöjligt eller dyrt. En nackdel med metoden är att hitta en lämplig referens för subtraktion och erhålla T-positiva och negativa kontrollprover qPCR. Vi beskriver våra genomförandet av metoden i identifiering av den första genen från könsceller-begränsad kromosomen av zebra Fink. I så fall computational filtrering inblandade tre referenser (R), sekventiellt bort över tre cykler: en ofullständig genomisk församling, genomisk rådata och transcriptomic data.

Introduction

Syftet med denna metod är att identifiera en roman mål (T) genomiska sekvensen, antingen DNA eller RNA, från en genomisk sammanhang eller referens (R) (figur 1). Metoden är mest användbar om målet inte kan separeras fysiskt, eller om det skulle vara dyrt att göra så. Endast några organismer har perfekt klar genomen för subtraktion, så en viktig innovation i vår metod är kombinationen av computational och bänk metoder i en cykel som gör det möjligt för forskare att isolera mål sekvenser när referensen är ofullkomlig, eller ett utkast genomet från en icke-modell organism. I slutet av en cykel används qPCR tester för att avgöra om mer subtraktion behövs. En validerad kandidat T sekvens visar statistiskt större upptäckt i kända T-positiva prover av qPCR.

Inkarnationer av metoden har genomförts i upptäckten av nya bakteriell målmolekyler som inte har host homologs1,2,3,4 och identifiering av nya virus från infekterade värdar 5,6. Förutom identifiering av T, kan metoden förbättra R: vi nyligen använde metoden för att identifiera 936 saknade gener från zebra Fink referens genomet och en ny gen från en endast könsceller-kromosom (T)7. Subtraktiv genomik är särskilt värdefullt när T kommer sannolikt att vara extremt avvikande från kända sekvenser eller när T identitet är i stort sett odefinierad, liksom den zebra Fink könsceller-begränsad kromosom7.

Genom att inte kräva positiv identifiering av T i förväg, är en viktig fördel av subtraktiv genomik att det är opartisk. I en färsk studie undersökte Readhead et al. förhållandet mellan Alzheimers sjukdom och viral överflöd i fyra regioner i hjärnan. För viral identifiering, Readhead et al. skapat en databas med 515 virus8, starkt begränsa viral agenter som deras studie kunde identifiera. Subtraktiv genomik kunde ha använts till jämföra den friska och Alzheimers genomen för att isolera möjliga nya virus som förknippas med sjukdomen, oavsett deras likhet med kända smittämnen. Medan det finns 263 kända mänskliga-targeting virus, har det uppskattats att omkring 1,67 miljoner oupptäckta viral arter finns, med 631,000-827,000 av dem har en potential att infektera människor9.

Isolering av romanen virus är ett område där subtraktiv genomik är särskilt effektiv, men vissa studier kan inte behöva sådan stränga metod. Exempelvis transkribera studier identifiera nya virus har använt opartisk hög genomströmning sekvensering följt av omvänd Transkription och BLASTx för viral sekvenser5 eller berikande av viral nukleinsyra till extraktet och omvänd viral sekvenser 6. dessa studier anställd de novo sekvensering och montering, subtraktion användes inte eftersom målet sekvenser identifierades positivt genom BLAST. Om virus var helt ny och inte relaterade (eller avlägset besläktade) till andra virus, subtraktiv genomik skulle ha varit en användbar teknik. Fördelen med subtraktiv genomik är att sekvenser som är helt ny kan erhållas. Om organismens arvsmassa är känd, kan det dras ut för att lämna någon viral sekvenser. Till exempel i våra publicerade studien isolerat vi en viral romanserie från zebra Fink genom subtraktiv genomik, om det inte var vår ursprungliga avsikt7.

Subtraktiv genomik har också visat sig användbart vid identifiering av bakteriella vaccin mål, motiveras av den dramatiska ökningen antibiotikaresistens1,2,3,4. För att minimera risken för autoimmun reaktion, forskare minskat ner de potentiella vaccin mål genom att subtrahera några proteiner som har homologs i den mänskliga värden. En särskild studie, Corynebacterium pseudotuberculosis, utförs subtraktion av vertebrate värd genomen från flera bakteriella genomer att säkerställa att möjliga läkemedelsmål inte skulle påverka proteiner i filen hosts som leder till biverkningar 1. grundläggande arbetsflödet av dessa studier är att hämta det bakteriella proteomet, avgöra viktiga proteiner, ta bort överflödiga proteiner, använda BLASTp att isolera de viktiga proteinerna och BLASTp mot värd proteomet att ta bort några proteiner med värd homologs 1 , 2 , 3 , 4. I det här fallet subtraktiv genomik säkerställa att vaccinerna utvecklas inte har någon off-target effekter värd1,2,3,4.

Vi brukade subtraktiv genomik identifiera första protein-kodning genen på en könsceller-begränsad kromosom (GRC) (i detta fall, T), som finns i germlines men inte somatisk vävnad av båda könen10. Innan denna studie var den bara genomisk information som var känt om GRC en upprepande region11. De novo montering utfördes på RNA sekvenserade från äggstocken och teste vävnader (T + R) från vuxen zebra finkar. Computational eliminering av sekvenser utfördes med hjälp av publicerade somatiska (muskel) genome sequence (R1)12, dess raw (Sanger) läsa data (R2) och en somatisk (hjärnan) transkriptom (R3)13. Sekventiell användning av tre referenser drevs av den qPCR testning på steg 5 av varje cykel (figur 2A), visar att ytterligare filtrering krävdes. Den upptäckta α-SNAP-genen bekräftades genom qPCR från DNA och RNA, och kloning och sekvensering. Vi visar i vårt exempel att metoden är flexibel: det är inte beroende av matchande nukleinsyror (DNA vs RNA) och det subtraktion kan utföras med referenser (R) som består av församlingar eller raw-läsningar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de novo montera start sekvens

Obs: Nästa generations sekvens (NGS) data kan användas, så länge en församling kan produceras från dessa data. Lämpliga indata innehåller Illumina, PacBio, eller Oxford Nanopore läser monterade in en fasta fil. För konkretion, det här avsnittet beskrivs en Illumina-baserade transcriptomic församling specifika för zebra Fink studien vi utfört7; dock vara medveten om att detaljerna varierar beroende på projektet. För vårt exempel projekt, rådata härleddes från en MiSeq och ungefärligt 10 miljon Parade läsningar erhölls från varje prov.

  1. Använda Trimmomatic 0,3214 ta bort Illumina adaptrar och låg kvalitet baser. Ange följande på kommandoraden:
    java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 ledande: 3 avslutande: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Använda päron15 v. 0.9.6 för att skapa högkvalitativa sammanslagna läsningar från trimmomatic utgång ihopkopplade läsningar, som standardparametrar. Ange följande på kommandoraden:
    päron -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Användning reptil v. 1.116 fel-korrigera läser produceras genom päron. Följ de stegvisa protokoll som beskrivs i17.
  4. Använda Trinity v. 2.4.018 i standardläge för att montera den korrigera sekvenser. För strand-specifika bibliotek, Använd parametern - SS_lib_type. Utdata är en fasta fil (your_assembly.fasta). Ange följande på kommandoraden:
    Trinity--seqType fq--SS_lib_type FR – max_memory 10G – utgång Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq till vänster – höger quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10
    Obs: Utdata kommer att placeras i en ny katalog, Trinity_output, och församlingen heter 'Trinity.fasta' som kan döpas som Your_assembly.fasta om så önskas. Se webbplatsen Trinity för mer information: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. spränga församlingen mot sekvensen referens

Obs: Använd detta steg när referensen är en församling eller lång läser som Sanger; om det består av rå Illumina läser, se steg 3 nedan för kartläggning läsningar i frågan. Alla BLAST steg slutfördes med version 2.2.29+ om kommandon bör arbeta på någon nyligen BLAST-version.

  1. Göra en BLAST databas av sekvensen referens (nucleotide_reference.fasta) på kommandoraden. Skriv in i kommandoraden följande:
    makeblastdb - dbtype kärnk-i nucleotide_reference.fasta-ut nucleotide_reference.db
  2. BLAST-match query församlingen (som genereras i steg 1) databasen. För att få en output-fil, Använd [-ut BLAST_results.txt] och generera tabellform utdata (krävs för efterföljande behandlingssteg med Python skript), använda [-outfmt 6]. Dessa alternativ kan kombineras i valfri ordning, så ett exempel slutföra kommandot är [blastn-fråga your_assembly.fasta - db nucleotide_reference.db-ut BLAST_results.txt - outfmt 6]. Om en e-värde inställningen önskas, Använd alternativet - evalue med ett lämpligt antal, till exempel [-evalue 1e-6]. Vara medveten om men som subtraktiv cykeln effektivt inverterar den evalue inställning i som beskrivs i diskussionen.
  3. För ökad stringens, använda proteinsekvenser från församlingen som BLAST frågan med översatta nukleotid BLAST (tBLASTn), som utför 6-vägs översättning av databasen (nukleotid). Den här metoden rekommenderas för de flesta icke-modellsystem, undvika problemet med ofullständig protein anteckningar.
    1. Säkerställa rätt genetiska kod är markerad för organismen är studerade, med hjälp av alternativet - db_gencode. Att få proteinsekvenser för frågan, köra kommandot TransDecoder.LongOrfs (från TransDecoder paketet v. 3.0.1) för att identifiera öppna den längsta läsning ramar från monterade fråga sekvenser. Kommandot är [TransDecoder.LongOrfs -t your_assembly.fasta]; resultatet kommer att placeras i katalog som heter 'transcripts.transdecoder_dir' och kommer att innehålla en fil med namnet longest_orfs.pep som innehåller de längsta förväntade proteinsekvenser från varje sekvens i your_assembly.fasta.
    2. För att använda tBLASTn, kör kommandot [tblastn-fråga longest_orfs.pep - db nucleotide_reference.db-ut BLAST_results.txt - outfmt 6]. Om ett högkvalitativt protein referens finns, använda protein-protein matchning med BLASTp i stället för tBLASTn.
    3. Göra en BLAST databas av protein hänvisningen [makeblastdb - dbtype prot-i protein_reference.fasta-ut protein_reference.db] och sedan [blastp-fråga longest_orfs.pep - db protein_reference.db-ut BLAST_results.txt - outfmt 6]. Se till att spara resultaten som en fil för nedströms behandling och använda tabellformat (outfmt 6) för att säkerställa Python skript kan tolka dem korrekt.

3. karta läser på församlingen

Obs: Denna metod kan användas om referens datamängden består av rå genomisk läsningar, i stället för monterade sekvenser eller Sanger sekvenser, i vilka fall användning BLAST (steg 2.1).

  1. Använda BWA-MEM v. 0.7.1219 eller bowtie220, karta de nedladdade raw-läsningar (raw_reads.fastq) på den fråga församlingen. Utdata blir .sam format. Kommandon är följande: först index församlingen: [bwa index your_assembly.fasta], och sedan mappa läser [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Obs det ' >' symbol här inte är en större-än-tecken, istället det instruerar utdata till gå in den filen mapped.sam).

4. Använd Python skript för att ta bort alla matchande sekvenser

Obs: Medföljer skript arbete Python 2.7.

  1. Följ steg 2 Använd subtraktiv Python-skript med hjälp av kommandot [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Innan du kör skriptet, se till att spränga utdatafilen i format 6 (tabellform). Skriptet kommer ut en fil med icke-matchande sekvenser i fasta format med namnet your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta och även den matchande sekvenser för records, som your_assembly.fasta_matching_sequences_BLAST_ Results.txt.fasta. den icke-matchande fil kommer att vara det viktigaste, som en källa till potentiella T sekvenser för testning och ytterligare cykler av subtraktiv genomik.
  2. Efter steg 3, kör den Python skript removeUnmapped.py att ta som ingång .sam från steg 3.1, och identifierar namnen på fråga sekvenser utan någon matchande läsningar och sparar dem till en ny textfil. Använda kommandot [./removeUnmapped.py mapped.sam] och utdata blir mapped.sam_contigs_with_no_reads.txt. (Programmet kommer att generera en nedbantad sam-fil med alla omappade läser bort; denna fil kan ignoreras för tillämpningen av detta protokoll men kan vara användbart för andra analyser).
  3. Eftersom utdata från föregående steg är en lista över sekvensen namn i en text arkivera alarmerat mapped.sam_contigs_with_no_reads.txt, extrahera en fasta fil med dessa sekvenser: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Utdata blir en fil som heter mapped.sam_contigs_with_no_reads.txt.fasta.

5. design Primers för sekvensen som förblir

Obs: på denna punkt finns en fasta fil som innehåller kandidat T sekvenser. Detta avsnitt beskriver qPCR att experimentellt testa om de kommer från T eller från tidigare okända regioner i R. Om subtraktionen i steg 4 bort alla sekvenser, sedan antingen den första monteringen misslyckades att inkludera T eller subtraktionen kan ha varit alltför stränga.

  1. Använd Geneious21 för att fastställa optimala primer sekvenser manuellt.
    1. Markera en kandidat sekvens av 21-28 bp för Forward primer. Undvika körningar av 4 eller fler av någon bas. Försök att rikta en region med en ganska enhetlig kombination av alla basepairs. En enda G eller C i slutet 3' är fördelaktigt, hjälper till att förankra primer.
    2. Klicka på fliken statistik på höger sida av skärmen för att visa att sekvensens uppskattade smälttemperatur (Tm) som regionen kandidat markeras. Ser för att få en smälttemperatur mellan 55-60 ° C, samtidigt som man undviker repetitioner och långa serier av G/C.
    3. Följ steg 5.1.1. 5.1.2 att välja omvänd primer, ligger 150-250 baspar 3' framåt grundfärgens och. Medan de primer längderna inte behöver matcha, bör förutspådde Tm vara så nära som möjligt till Tm framåt grundfärgens. Se till att återföra komplement sekvensen (om att högerklicka i Geneious medan sekvensen är markerat är det ett menyalternativ).
  2. Använda funktionen Primer Design , som finns i verktygsfältet längst upp i fönstret sekvens.
    1. Klicka på knappen Primer Design . Infoga regionen att förstärka under Målregionen.
    2. Under fliken Egenskaper , infoga önskad storlek, smälttemperatur (Tm) och % GC (se punkt 5.1.1.).
    3. Klicka på OK så primers som genereras. Beställa primers via en anpassad oligo-tjänst.
  3. Validera grundfärger med kontroll DNA (kodning både T och R) för att optimera Tm och förlängning tid. Använd vanlig Taq och gelelektrofores för att se bandstorlek, men optimering kan också utföras med qPCR efter metoderna i steg 6.
    1. Gör 10 X utspädningar av både framåt och bakåt primers så att primers har en koncentration av 10 μM.
    2. Använd en PCR-mix av 0,5 μL av dNTP, 0,5 μL av forward primer, 0,5 μL av reverse primer, 0.1 μl av Taq polymeras, 2 μL av mallen, 0,75 μL av magnesium, 2,5 μl buffert och 18,15 μL av vatten så att det finns 25 μl per mall med en koncentration av 5 ng / ΜL.
    3. Testa primers på olika smälttemperaturer i PCR-programmet. Optimal prestanda är oftast observerade smälta temperaturer strax under den förutspådda Tm av primers, men vanligtvis inte över 60 ° C. Testa också för optimal extension tider med hjälp av denna guide: 1 min per 1000 bp (således oftast 10-30 sekunder beroende på amplikon längd).
    4. Utföra slutpunkt gelelektrofores för att bekräfta att primers förstärker den förvänta sekvensen. Kör 25 μL av qPCR produkten blandas med 5 μL av 6 X glycerol dye på en 2% TAE agarosgel på 200 V i 20 min.

6. qPCR validering av återstående sekvensen

Obs: Detta steg kräver primers validerade och PCR-villkor som fastställts i steg 5.

  1. Kör varje mall i tre exemplar med följande mix; 12.5 μl av PowerSYBR Green master mix, 0,5 μL av forward primer med en koncentration av 10 μM, 0,5 μL av reverse primer med en koncentration av 10 μM, 10,5 μL av vatten och 1 μL av DNA-templat (vid en koncentration på 2 ng/μl) , så att varje innehåller väl 25 μL av totala volymen.
  2. Kör en qPCR programmet informerade av validerade temperaturen och förlängning tid från steg 4. Vi konstruerade och validerade alla primers för att vara kompatibel med en två-stegs cykel, 95 ° C i 10 min inledande smälta, då 40 cykler av 95 ° C i 30 s och 60 ° C i 1 min. Dock ett tre-stegs (melt-glödga-utöka) program kan vara mer optimalt för primers och bör anpassas vid behov. Vi rekommenderar att slutliga denatureringen kurvorna genereras minst första gången primers är anställda inom qPCR att validera förstärkning av en enda DNA-produkt.
  3. Åtgärd qPCR/SYBR Green signaler i förhållande till aktin (eller någon annan lämplig 'R'-kontroll) av Ct. för alla fall beräkna medelvärde och standardavvikelse 2-(genen Ct - β-aktin Ct).
  4. (Valfritt) Utföra slutpunkt gelelektrofores för att bekräfta korrekt produkt Storleksidentifiering av qPCR. Här kör 25 μL av qPCR produkten blandas med 5 μL av 6 x glycerol färgämne på en 2% TAE agarosgel på 200 V i 20 min.

7. Upprepa med en ny hänvisning till Pare ner Data.

Obs: Om steg 6 valideras de identifiera sekvenserna från T, avsluta cykeln här (figur 2A). En mängd olika överväganden kan dock motivera en fortsättning av cykeln, exempelvis om många R sekvenser kvar i filen eller om ingen av sekvenserna som kandidat T validerades av qPCR i steg 6.

  1. Skaffa en ny referens. Detta steg gör en ny iteration av cykel och kan inkludera genomisk rådata, RNA-seq rådata eller andra sammansatta datauppsättningar. Värdefulla resurser för referensdata inkluderar genomet databasen vid National Center för bioteknik Information (https://www.ncbi.nlm.nih.gov/genome) vilka butiker samlade genomen nås via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), och den gen uttryck Omnibus (https://www.ncbi.nlm.nih.gov/geo/) där rå nästa generations sekvensen läser lagras. Genome projekt kan ge deras råsekvensdata genom andra projekt-associerade webbplatser och databaser.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Efter löpande BLAST, kommer att utdatafilen ha en lista med sekvenser från frågan som matchar databasen. Efter Python subtraktion, kommer ett antal meddelandet sekvenser vara erhållits, och testats av qPCR. Resultat av detta och nästa steg, diskuteras nedan.

Negativt resultat. Det finns två möjliga negativa resultat som kan ses efter BLAST till sekvensen referens. Det kan finnas utan BLAST resultat, vilket innebär att den totala sekvensen inte har någon liknande sekvenser till referens. Detta kan vara fel i att välja rätt referens sekvensen för provet sekvenseras. En annan möjlighet är att det finns inga unika sekvenser i Start församling (allt dras bort), därför inga gener finns för sekvensen av intresse. Kontrollera där hänvisningen kom från och att det inte är samma vävnad som den fråga församlingen.

Efter computational filtrering, qPCR kan ge ett negativt resultat, för exempel, se figur 3A, 3B, C där det fanns ingen skillnad i upptäckt över fågel vävnader. Paneler A genom C är representativa gener från olika subtraktion cykler, som motiverade ytterligare subtraktiv cykel iterationer och utveckling av metoden (figur 2A, 2B).

Realitetresultat. Ett positivt resultat--identifiering av en sann mål sekvens--bekräftas när genomisk DNA qPCR visar statistiskt större upptäckt i vävnaden / sampelstorlek av intresse i förhållande till referensränta (figur 3D). Subtraktiv projektet inleddes i detta fall med sekvensering RNA från könsceller vävnad av manliga och kvinnliga vuxen zebra Fink, få 10 miljoner Läs par från varje kön. För korthetens, kommer vi att beskriva bearbetning av äggstocken sekvensen endast, som erhölls 167,929 avskrifter av de novo församling. Metoden subtraktiv genomik (BLASTn) användes för att eliminera alla sekvenser som matchade de publicera somatiska genomet12, som lämnade 5.060 avskrifter motsvarande 598 unika proteiner, vilket indikerar att många av avskrifter kodande. Den Sanger raw-läsningar används för att generera församlingen användes sedan för nästa nivå av subtraktion av tBLASTn, ger 78 proteiner. En sista subtraktion utfördes med hjälp av RNA-seq raw läser från den auditiva lobule13, som lämnade åtta proteiner. När dessa proteiner drevs via NCBI nr BLAST, var sex av proteinerna viral, en var en upprepad region i fåglar, och sist var en α-kick som är könsceller begränsad7 (bild 2B). Under denna process identifierades 935 somatiska gener som inte tidigare ingick i hela genomet kommentaren; flera visade enhetliga qPCR förstärkning över vävnader (figur 3A, 3B, 3 C). Α-SNAP genen validerades att könsceller begränsas med hjälp av qPCR, eftersom det var utarmat på somatisk vävnad i förhållande till testiklarna DNA där det var närvarande vid nivåer motsvarar aktin (figur 3D).

Vad kan gå fel. Det största problemet som måste övervinnas när användande den här metod är att säkerställa att korrekt referens sekvensen används. Den bästa referens sekvensen kapslar, i vid bemärkelse, genomisk komplexiteten som är inbäddad i sekvensen av intresse (T). Detta kan innebära att sekvenser i olika former; transkriptom, montering, rådata eller data från flera studier behöver användas som referenser (figur 1). I zebra Fink-studien utvecklat vi primers från RNA-sekvensering data; primers fungerade dock inte alltid på grund av introner mellan eller inom primer bindningsställen i DNA. Vi testade varje primer som fastställts av PCR av genomisk DNA från testiklarna DNA, som kodar både målet (T) och referens (R), vilket gör det till en lämplig positiv kontroll. Primer misslyckande i detta skede nödvändiggör konstruktion och provning av nya primers tills en lämplig uppsättning identifieras. Vanliga fallgropar av PCR-baserade metoder tillämpas: förstärkning villkor måste optimeras, förstärkning specificitet bekräftat genom tester och/eller kloning, och nr-mall kontroller måste inkluderas i alla experiment. Mer information om qPCR analyser, se22.

Figure 1
Figur 1 . Den subtraktiva strategin iterativt kan ta bort flera referenser (R) att återställa endast målet sekvensen av intresse (T) från totala genomisk data. Referens sekvenser av enskilda projekt kan inte överlappa varandra på just detta sätt och kan inkludera datamängder som inte anges på figuren. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2Visuella metoder. (A) subtraktiv cykel Schematisk. Cykeln kan vara upprepade så många gånger som behövs, varje gång utnyttja distinkta referens sekvenser, att få bästa resultat. (B) särskilda exempel på subtraktiv cykeln av steg som utförs i Biedermans o.a. 7, med steg numrerade som i A och med antalet sekvenser kvar på varje steg som visas. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3 . Exempeldata av qPCR resultat inklusive negativa och positiva resultat. (A) genomisk DNA qPCR av CHD8, ett negativt utfall. (B) genomisk DNA qPCR av DNMT1, ett negativt utfall. (C) molekylärbiologisk DNA qPCR av CHD7, ett negativt utfall. (D) genomisk DNA qPCR av NAPAG, bekräftar närvaro specifikt i testiklarna prover och utarmning från levern och äggstocken i förhållande till aktin, ett positivt resultat. Alla paneler visar medelvärde +/-standardavvikelsen för tre mätningar. Klicka här för att se en större version av denna siffra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Även subtraktiv genomik är kraftfull, är det inte ett kakmått tillvägagångssätt, som kräver anpassning på flera viktiga steg, och noggrant urval av referens sekvenser och prover. Om den fråga församlingen är av dålig kvalitet, kan filtrering steg bara isolera församlingen artefakter. Det är därför viktigt att noggrant verifiera de novo församlingen med en lämplig validering protokollet till det specifika projektet. För RNA-seq anges riktlinjer Trinity webbplats18 och DNA, ett verktyg som REAPR23 kan användas. Ett annat viktigt steg när du använder BLAST är urval av lämpliga e-värde, som kommer att avgöra om subtraktionen blir avslappnad eller stränga. En inversion sker dock i metoden: en strängare match vill referera till är faktiskt en mindre-stränga subtraktion, som icke-matchande sekvenser inte subtraheras. Ett större (mindre stränga) e-värde bör därför användas i BLAST för en strängare subtraktion. Det sista viktiga steget i protokollet är referens urval. För största effektivitet bör hänvisningen vara så fullständiga som möjligt. Det behöver dock inte vara perfekt eftersom qPCR tester bekräftar om återstående sekvenser är från T eller R, och om mer filtrering är nödvändig. Under genomförandet av protokollet, kan nya referenser användas för att ytterligare begränsa ner generna valideras. Vi noterar att ibland matchande metoden kan ändras: för det sista subtraktiva steget vi används algoritmen BWA mappa raw-läsningar på fråga sekvenser och används anpassade python skript för att identifiera fråga sekvenser med ingen matchning läser (figur 2B).

Begränsningar av denna metod inkluderar tillgänglighet för en referens sekvens. Till exempel Meyer et al. utvärderade mitokondriella genomet hos en ny Hominid; de använde mänskliga och Denisovan sonder för att fånga mitokondrie-DNA, som tillverkningsordernummer och mappas till en mänsklig referens24. I det här fallet fanns det ingen befintlig kärnkraft genomet referensdata som forskarna kunde ha subtraheras mot att erhålla mitokondriella genomet, vilket nödvändiggör Läs-mappning alternativ strategi24. Någon omfattande divergerade regioner i romanen mitokondrien i förhållande till människors mitokondrie referensen skulle förloras genom Läs-mappning. Subtraktiv genomik erbjuder en mindre-partisk inställning än Läs-mappning men är inte alltid tillämpliga beroende på forskningsfrågan, och i detta fall de låga nivåerna av forntida DNA uteslöt typ av sekvens täckning krävs för de novo församling ( steg 1 av subtraktiv genomik).

Fysisk rening ger en annan alternativ metod till subtraktiv genomik. Rening av DNA eller RNA används ofta i sekvensering hela kloroplast och mitokondriella genomet eftersom dessa organellar genomen är mycket mindre än nukleära genomen25,26,27,28. Mänskliga och andra mindre mitokondriella genomet kan isoleras för sekvensering genom förstärkning med två primer uppsättningar följt av rening25. Subtraktiv genomik kan dock vara till hjälp för fall mitokondriella genomet är ovanligt stora, primer bindande platser är avvikande eller resulterar inte i hela genomet. Ett exempel på detta är i ciliater, som har stora, divergerande, linjär mitokondriella genomet29. Mappning till en referens genomet är inte ett hållbart alternativ för ciliater på grund av hög divergens över arter och brist på homologs även över släkten30. Genom att använda subtraktiv genomik, kan ciliate mitokondriella genomet isoleras och analyseras samtidigt minimera potentialen för saknade segment av genomet. På samma sätt, medan en de novo församlingen metoden användes i Sitka spruce kloroplast genomet församling, gap-stängning inblandade jämförande läsa mappning mot vita granen, potentiellt införa partisk på dessa platser31.

Beroende på projektet, kan subtraktiv genomik erbjuda tid och kostnadsfördelar i förhållande till rening eller mappning metoder, samtidigt som den erbjuder mindre bias i identifieringsprocessen. I vissa situationer sekvensen mål inte kan enkelt isoleras eftersom det är helt okända, är avgörande för cellöverlevnad (mitokondrier), eller för stor för att separera med standard gelelektrofores. Storlek-baserade elektroforetiska rening är långsam och kräver betydande utgångsmaterial (som kan vara dyra) samtidigt som den optimerar villkor över flera försök. Puls-field gel electrophoresis (PFGE) möjliggör separation av DNA-fragment upp till 107 bp (10 Mb) men tar 2-3 dagar, stora mängder material och ibland specialutrustning som inte är kommersiellt tillgängliga32. I Biedermans et al.var den enda sekvens som var känd från könsceller-begränsad kromosomen en icke-kodande upprepa7. Eftersom denna kromosom är den största i fågeln, över 100 Mb längd10, skulle rening ha varit omöjligt; subtraktiv genomik var därför kunna göra vad andra metoder kunde inte. I den genomiska eran är det ofta billigare och snabbare att sekvensera nu, och filtrera efter dator senare. Att aktivera upptäckten av helt nya sekvenser, subtraktiv genomik använder tredjeparts en kombination av metoder att isolera roman sekvenser även utan en perfekt referens sekvens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har något att avslöja.

Acknowledgments

Författarna erkänner Michelle Biedermans, Alyssa Pedersen och Colin J. Saldanha för deras hjälp med zebra Fink genomik projektets olika skeden. Vi erkänner också Evgeny Bisk för computing cluster systemadministration och NIH grant 1K22CA184297 (till J.R.B.) och NIH NS 042767 (till C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Genetik fråga 143 genomisk subtraktion qPCR BLAST Python Läs kartläggning De novo församling Primer design
Romanserie upptäckten av subtraktiv genomik
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter