Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Romanen sekvens oppdagelsen av subtraktiv Genomics

Published: January 25, 2019 doi: 10.3791/58877

Summary

Formålet med denne protokollen er å bruke en kombinasjon av beregningsorientert og benk forskning for å finne romanen sekvenser som ikke kan lett skilles fra en co rensing rekkefølge, som kan være bare delvis kjent.

Abstract

Subtraktiv genomics kan brukes i noen forskning der målet er å identifisere sekvensen av genet, protein eller generelle regionen som er innebygd i en større genomisk sammenheng. Subtraktiv genomics kan forsker isolere en mål sekvens av interesse (T) av omfattende sekvensering og trekke ut kjent genetisk elementene (referanse, R). Metoden kan brukes til å identifisere romanen sekvenser som mitokondrier, chloroplasts, virus eller germline begrenset kromosomer, og er spesielt nyttig når T ikke kan være lett isolert fra R. begynner med omfattende genomic data (R + T), metoden bruker grunnleggende lokale justering Søk verktøyet (BLAST) mot en referanse sekvens eller sekvenser, fjerne den samsvarende kjente sekvenser (R), etterlater målet (T). Subtraksjon å fungere best, bør R være et relativt komplett utkast som mangler T. Siden sekvenser igjen etter subtraksjon er testet gjennom kvantitative polymerasekjedereaksjons (qPCR), trenger R ikke å være komplett for metoden arbeide. Her koble vi beregningsorientert trinn med eksperimentelle skritt inn i en syklus som kan være iterated nødvendig sekvensielt fjerne flere referanse sekvenser og raffinering Søk etter T. Fordelen med subtraktiv genomics er at en helt ny målet sekvens kan identifiseres selv i tilfeller der fysisk rensing er vanskelig, umulig eller dyrt. En ulempe metoden er å finne en passende referanse for subtraksjon og få T-positive og negative prøver for qPCR testing. Vi beskriver implementeringen av metoden i identifikasjon av første genet fra germline-begrenset kromosomet av zebra finch. I så fall beregningsorientert filtrering involvert tre referanser (R), sekvensielt fjernet over tre sykluser: en ufullstendig genomisk montering, rå genomic data og transcriptomic data.

Introduction

Formålet med denne metoden er å identifisere en roman mål (T) genomisk sekvens, DNA eller RNA, fra genomisk sammenheng eller referanse (R) (figur 1). Metoden er mest nyttig hvis målet ikke kan deles fysisk, eller det ville være kostbart å gjøre dette. Bare noen organismer er helt ferdig genomer for subtraksjon, så en nøkkel innovasjon av vår metode er kombinasjonen av beregningsorientert og benk metoder i en syklus aktivere forskere isolere målet sekvenser når referansen er ufullkommen, eller en kladd genomet fra en ikke-modellen organisme. På slutten av en syklus, qPCR tester til å avgjøre om mer subtraksjon er nødvendig. En godkjent kandidat T sekvens viser statistisk større oppdagelsen i kjente T-positive eksempler av qPCR.

Inkarnasjoner av metoden som er implementert i oppdagelsen av nye bakteriell narkotika mål som ikke har vert, homologs,1,,2,,3,,4 og identifikasjon av romanen virus fra infiserte verter 5,6. I tillegg til identifikasjon av T, kan metoden forbedre R: vi nylig brukte metoden for å identifisere 936 nyrekreft fra zebra finch referanse genomet og en ny genetisk fra en germline bare kromosom (T)7. Subtraktiv genomics er spesielt verdifull når T er trolig bli svært avvikende fra kjente sekvenser eller når identiteten til T er bredt definert, som zebra finch germline begrenset kromosom7.

Ikke kreves positiv identifikasjon av T på forhånd, er en viktig fordel med subtraktiv genomics at det er saklig. I en fersk studie undersøkte Readhead et al. forholdet mellom Alzheimers og viral overflod i fire områder av hjernen. Viral identifikasjon, Readhead et al. opprettet en database 515 virus8, sterkt begrense viral agenter som deres studie kunne identifisere. Subtraktiv genomics kunne blitt brukt til å sammenligne den sunne og Alzheimers genomer for å isolere mulig romanen virus knyttet til sykdommen, uansett deres likhet med kjente smittestoffer. Mens det er 263 menneskelige målretting virus, er det anslått at ca 1,67 millioner uoppdagede viral arter finnes, med 631,000-827,000 av dem har et potensial til å infisere mennesker9.

Isolering av romanen virus er et område der subtraktiv genomics er spesielt effektive, men noen studier ikke trenger slik strenge metode. For eksempel transkribere studier identifiserende romanen virus har brukt upartiske høy gjennomstrømming sekvensering etterfulgt av omvendt transkripsjon og BLASTx for viral sekvenser5 eller berikende av viral nukleinsyrer å trekke ut og reversere viral sekvenser 6. mens disse studiene ansatt de novo sekvensering og montering, subtraksjon ikke ble brukt fordi målet sekvenser ble positivt identifisert gjennom BLAST. Hvis virusene var helt ny og ikke relatert (eller fjernt beslektede) til andre virus, subtraktiv genomics ville ha vært en nyttig teknikk. Fordelen med subtraktiv genomics er at sekvenser som er helt nye kan hentes. Hvis den organismes genom er kjent, kan det trekkes ut for å forlate noen viral sekvenser. For eksempel i våre publisert studie isolerte vi en roman viral sekvens fra zebra finch gjennom subtraktiv genomics, men det ikke var våre opprinnelige hensikt7.

Subtraktiv genomics har også vist seg nyttig ved identifikasjon av bakteriell vaksine mål, motivert av den dramatiske økningen i antibiotikaresistens1,2,3,4. For å minimere risikoen for autoimmun reaksjon, forskere snevret ned potensielle vaksine målene ved å trekke noen proteiner som har homologs i menneskelig verten. En bestemt studie, etter Corynebacterium pseudotuberculosis, utført subtraksjon av virveldyr vert genomer fra flere bakteriell genomer slik at mulige narkotika mål ikke vil påvirke proteiner i vertene fører til bivirkninger 1. grunnleggende arbeidsflyten for disse studiene er å laste ned den bakterielle proteom, finne viktige proteiner, fjerne overflødig proteiner, bruke BLASTp å isolere den essensielle proteiner og BLASTp mot vert proteom fjerner eventuelle proteiner med verten homologs 1 , 2 , 3 , 4. I dette tilfellet subtraktiv genomics sikre at vaksiner utviklet ikke vil ha noen off-målet effekter i vert1,2,3,4.

Vi brukte subtraktiv genomics å identifisere første protein-koding genet på en germline-begrenset kromosom (GRC) (i dette tilfellet, T), som finnes i germlines men ikke somatiske vev av begge kvinners10. Før denne studien var bare genomisk informasjon som var kjent om GRC en repeterende regionen11. De novo samlingen ble utført på RNA sekvensielt fra eggstokken og teste vev (R + T) fra voksen zebra finches. Beregningsorientert eliminering av sekvenser ble utført publiserte somatiske (muskel) genomet sekvens (R1)12, sin rå (Sanger) lese data (R2) og en somatiske (hjernen) transcriptome (R3)13. Sekvensiell bruk av tre referanser ble drevet av qPCR testing på trinn 5 hver syklus (figur 2A), viser at ekstra filtrering var nødvendig. Oppdaget α-SNAPPER genet ble bekreftet gjennom qPCR DNA og RNA, kloning og sekvenser. Vi viser i vårt eksempel at denne metoden er fleksibel: det er ikke avhengig av matchende nucleic syrer (DNA vs RNA) og subtraksjon som kan utføres med referanser (R) som består av samlinger eller lese rådata.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de novo montere starter sekvens

Merk: Neste generasjon sekvens (NGS) data kan brukes, så lenge en samling kan bli produsert fra disse dataene. Egnet inndataene inneholder Illumina, PacBio, eller Oxford Nanopore leser montert i fasta fil. Concreteness, denne delen beskriver en Illumina-baserte transcriptomic samling gjelder zebra finch studien vi utført7; men vær oppmerksom på at detaljene vil variere etter prosjekt. For vårt eksempel prosjekt, rådata var avledet fra en MiSeq og ca 10 millioner sammenkoblede leser Hentet fra hvert utvalg.

  1. Bruk Trimmomatic 0,3214 å fjerne Illumina adaptere og lav kvalitet baser. Angi på kommandolinjen:
    Java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 ledende: 3 etterfølgende: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Bruke pære15 v. 0.9.6 lage høykvalitets flettede leser fra trimmomatic utdata sammen leser, bruker standardparametere. Angi på kommandolinjen:
    pære -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Bruk reptil v. 1.116 feil-korrigere lest produsert gjennom pære. Følg trinnvise protokollen beskrevet i17.
  4. Bruke Trinity v. 2.4.018 i standardmodus å montere den korrigerte sekvenser. For strand-spesifikk biblioteker, bruker du parameteren - SS_lib_type. Resultatet er en fasta fil (your_assembly.fasta). Angi på kommandolinjen:
    Trinity - seqType fq - SS_lib_type FR-max_memory 10G-utgang Trinity_output - forlot quality_and_adaptor_trimmed_forward_paired_reads.fq-rett quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10
    Merk: Utdataene plasseres i en ny katalog, Trinity_output, og forsamlingen navnet 'Trinity.fasta' som kan endres som Your_assembly.fasta hvis ønsket. Se Trinity nettsiden for mer informasjon: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. BLAST samlingen mot referanse sekvensen

Merk: Bruk dette trinnet når referansen er en samling eller lange lyder som Sanger; Hvis det er sammensatt av rå Illumina leser, se trinn 3 under for kartlegging leser i spørringen. Alle BLAST skritt ble fullført med versjon 2.2.29+ om kommandoene burde arbeide med en siste eksplosjon versjon.

  1. Foreta en BLAST database av referanse sekvensen (nucleotide_reference.fasta) på kommandolinjen. Angi i kommandolinjen følgende:
    makeblastdb - dbtype nucl-i nucleotide_reference.fasta-ut nucleotide_reference.db
  2. BLAST-match spørringssamlingen (generert i trinn 1) til referanse databasen. For å få en utdatafil, bruk [-ut BLAST_results.txt], og vil generere tabellform utgang (nødvendig for etterfølgende behandlingstrinnene med Python-skript), bruk [-outfmt 6]. Disse alternativene kan kombineres i rekkefølgen, så et eksempel fullføre kommandoen er [blastn-spørring your_assembly.fasta - db nucleotide_reference.db-ut BLAST_results.txt - outfmt 6]. Hvis en e-verdiinnstillingen er ønskelig, kan du bruke alternativet - evalue med et passende antall, for eksempel [-evalue 1e-6]. Vær klar over imidlertid som subtraktiv syklusen effektivt Inverterer evalue sette i som beskrevet i diskusjonen.
  3. Økt stringens, bruke protein sekvenser fra forsamlingen som BLAST med oversatt nukleotid BLAST (tBLASTn), som utfører 6-way oversettelse av (nukleotid) databasen. Denne metoden anbefales for de fleste ikke-modellen systemer, unngå problemet med ufullstendig protein merknader.
    1. Sikre riktig genetiske kode er valgt for organisme studerte, ved hjelp av alternativet - db_gencode. Å få protein sekvenser for spørringen, kjøre kommandoen TransDecoder.LongOrfs (fra TransDecoder pakken v. 3.0.1) for å identifisere åpne den lengste lesing rammer fra sammensatt spørring sekvenser. Kommandoen er [TransDecoder.LongOrfs -t your_assembly.fasta]; utdataene plasseres i katalogen kalt "transcripts.transdecoder_dir" og inneholder en fil kalt longest_orfs.pep som inneholder den lengste spådde protein sekvenser fra hvert rekkefølgen your_assembly.fasta.
    2. Hvis du bruker tBLASTn, kjører du kommandoen [tblastn-spørring longest_orfs.pep - db nucleotide_reference.db-ut BLAST_results.txt - outfmt 6]. Hvis en høykvalitets protein referanse er tilgjengelig, kan du bruke protein-protein samsvarer med BLASTp i stedet for tBLASTn.
    3. Gjøre en BLAST database av protein referansen [makeblastdb - dbtype prot-i protein_reference.fasta-ut protein_reference.db] og deretter [blastp-spørring longest_orfs.pep - db protein_reference.db-ut BLAST_results.txt - outfmt 6]. Sørg for å lagre resultatene som en fil for nedstrøms behandling, og bruk tabellform (outfmt 6) for å sikre Python-skript kan analysere dem riktig.

3. kartet leser til samlingen

Merk: Denne metoden kan brukes hvis referanse datasettet består av rå genomisk leser, i stedet for sammensatte sekvenser eller Sanger sekvenser, i hvilket tilfelle bruk BLAST (trinn 2.1).

  1. Bruke BWA-MEM v. 0.7.1219 eller bowtie220, tilordne den nedlastede rå lest (raw_reads.fastq) på spørringssamlingen. Utdataene blir Sam format. Kommandoer er som følger: første indeksere samlingen: [bwa indeks your_assembly.fasta], og deretter tilordne lest [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Merk den ' >' symbol her er ikke en større-enn signere; i stedet ber utgang til gå inn filen mapped.sam).

4. Bruk Python-skript for å fjerne alle samsvarende sekvenser

Merk: Gitt skript arbeid med Python 2.7.

  1. Etter trinn 2 Bruk subtraktiv Python-skript ved hjelp av kommandoen [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Før du kjører skriptet, sikre at BLAST utdatafilen i format 6 (tabellformet). Skriptet vil produksjonen en fil med ikke-samsvarende sekvenser i fasta format kalt your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta og også den tilsvarende sekvenser for poster, som your_assembly.fasta_matching_sequences_BLAST_ Results.txt.FASTA. det ikke-samsvarende filen blir det viktigste, som en kilde til potensielle T sekvenser for testing og ytterligere sykluser av subtraktiv genomics.
  2. Etter trinn 3 kjøre Python script removeUnmapped.py å ta inn Sam fra trinn 3.1, og identifiserer navnet på spørringen sekvenser uten noen samsvarende leser og lagrer dem i en ny tekstfil. Bruk kommandoen [./removeUnmapped.py mapped.sam], og resultatet blir mapped.sam_contigs_with_no_reads.txt. (Programmet vil generere en slimmed ned sam filen med alle ikke-tilordnede leser fjernet, filen kan ignoreres i forbindelse med denne protokollen, men kan være nyttig for andre analyser).
  3. Som utgangen av forrige trinn er en liste over sekvens navn i en tekstfil kalt mapped.sam_contigs_with_no_reads.txt, pakke ut en fasta fil med disse sekvensene: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Utdataene blir en fil kalt mapped.sam_contigs_with_no_reads.txt.fasta.

5. design primere for sekvensen som gjenstår

Merk: på dette punktet er det en fasta fil som inneholder kandidat T sekvenser. Denne delen beskriver qPCR eksperimentelt teste om de kommer fra T eller tidligere ukjente regioner av R. Hvis subtraksjon i trinn 4 fjernet alle sekvenser, deretter enten den første samlingen kan ikke inkludere T eller subtraksjon kan ha vært for strenge.

  1. Bruk Geneious21 for å bestemme optimale primer sekvenser manuelt.
    1. Merk en kandidat sekvens av 21-28 bp for fremover primer. Unngå kjører på 4 eller mer av base. Prøve å målrette en region med en nokså jevn kombinasjon av alle basepairs. En enkelt G eller C på 3 slutten er gunstig, hjelper til å forankre primer.
    2. Klikk på kategorien statistikk på høyre side av skjermen for å se den sekvensen anslått Smeltetemperaturen (Tm) som regionen kandidaten er uthevet. Ser for å få en Smeltetemperaturen 55-60 ° c, mens unngå gjentakelser og lange serier av G/C.
    3. Fremgangsmåten 5.1.1. og 5.1.2 velge omvendt primer, 150-250 base parene 3' av fremover primer. Mens primer lengder ikke trenger å matche, bør spådde Tm være så nær som mulig til Tm av fremover primer. Husk å snu supplement sekvensen (hvis høyreklikke i Geneious mens sekvensen utheves er det et menyalternativ).
  2. Bruk funksjonen Primer Design , som finnes i den øverste verktøylinjen i vinduet sekvens.
    1. Klikk på knappen Primer Design . Sett inn regionen for å forsterke under Målregion.
    2. Kategorien Egenskaper inn ønsket størrelse Smeltetemperaturen (Tm) og % GC (se trinn 5.1.1.).
    3. Klikk OK for å primere generert. Bestille primerne via en egendefinert oligo.
  3. Validere primere med kontroll DNA (koding både T- og R) for å optimalisere Tm og utvidelse. Bruk vanlige Taq og gel geleelektroforese for å se bandet størrelsen, men optimalisering kan også utføres med qPCR følgende metoder i trinn 6.
    1. 10 X fortynninger av både forover og bakover grunning slik at primerne har en konsentrasjon av 10 μM.
    2. Bruke en PCR blanding av 0,5 μL dNTP, 0,5 μL frem primer, 0,5 μL omvendt primer, 0.1 μL Taq utvalg, 2 μL mal, 0,75 μL magnesium, 2,5 μL buffer og 18.15 μL vann slik at det er 25 μL per mal med en konsentrasjon av 5 ng / ΜL.
    3. Test primerne på ulike smeltingen temperaturer i programmet PCR. Optimal ytelse er vanligvis observert smelte temperaturer under anslått Tm primerne, men vanligvis ikke over 60 ° C. Også test for optimal forlengelsen timene benytter denne guiden: 1 min per 1000 bp (dermed vanligvis 10-30 sekunder avhengig av amplicon lengde).
    4. Utføre end-point gel geleelektroforese for å bekrefte at primerne forsterke den forventede sekvensen. Kjør 25 μL qPCR produktet blandet med 5 μL 6 X glyserol fargestoff på en 2% TAE agarose gel på 200 V for 20 min.

6. qPCR valideringen av den gjenværende

Merk: Dette trinnet krever primere godkjent og PCR betingelser i trinn 5.

  1. Kjøre hver mal i tre eksemplarer med følgende blanding; 12.5 μL PowerSYBR Green master mix, 0,5 μL frem grunning med en konsentrasjon av 10 μM, 0,5 μL omvendt grunning med en konsentrasjon av 10 μM, 10,5 μL vann og 1 μL mal DNA (i en konsentrasjon av 2 ng/μL) , slik at hver også inneholder 25 μL totalvolum.
  2. Kjøre et qPCR program informert av den validerte temperatur og utvidelse fra trinn 4. Vi designet og validert alle primere for å være kompatibel med en to-trinns syklus, 95 ° C i 10 min første smelte, så 40 sykluser av 95 ° C for 30 s og 60 ° C i 1 minutt. Men en tre-trinns (smelte anneal-utvidelse) programmet kan være mer optimal for primerne og bør tilpasses om nødvendig. Vi anbefaler at siste denaturing kurver genereres minst første gang primerne er ansatt i qPCR å validere forsterkningen på DNA enkeltprodukt.
  3. Tiltak qPCR/SYBR Green signaler i forhold til utgangen (eller andre passende 'R' Kontroller) av Ct. For alle tilfeller beregne gjennomsnitt og standardavvik av 2-(Gen Ct - β-utgangen Ct).
  4. (Valgfritt) Utføre end-point gel geleelektroforese for å bekrefte riktig produkt størrelse gjenkjenning av qPCR. Her kjører 25 μL qPCR produktet blandet med 5 μL 6 x glyserol fargestoff på en 2% TAE agarose gel på 200 V for 20 min.

7. Gjenta med en ny referanse til Pare ned dataene.

Merk: Hvis trinn 6 validert identifiserte sekvenser fra T, avslutte gjennomgangssyklusen her (figur 2A). Men kan en rekke hensyn motivere en videreføring av syklusen, hvis for eksempel mange R sekvenser forblir i filen eller hvis ingen av kandidaten T sekvenser ble godkjent av qPCR i trinn 6.

  1. Få en ny referanse. Dette trinnet gjør en nye gjentakelse av syklusen og kan inkludere genomisk rådata, RNA-seq rådata eller andre samlet datasett. Verdifulle ressurser for referansedata inkluderer genomet databasen ved National Center for bioteknologi informasjon (https://www.ncbi.nlm.nih.gov/genome) hvilke butikker samlet genomer tilgjengelig via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), og Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) hvor rå neste generasjons sekvens leser lagres. Genomet prosjekter kan gi sine rå sekvens data gjennom andre prosjekt-tilknyttede webområder og databaser.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Etter running BLAST, vil utdatafilen ha en liste over sekvenser fra spørringen som samsvarer med databasen. Etter Python subtraksjon, vil en rekke ikke-samsvarende sekvenser være innhentet, og testet av qPCR. Resultatene av dette, og neste er omtalt nedenfor.

Negative resultatet. Det er to mulige negative konsekvenser som kan sees etter BLAST referanse-sekvensen. Det kan være noen BLAST resultater, betyr at den totale sekvensen ikke har noen lignende sekvenser til referansen. Dette kan være en feil i å velge riktig referanse sekvensen for prøven sekvensielt. En annen mulighet er at det er ingen unike sekvenser i samlingen starter (alt blir trukket bort), derfor ingen gener funnet for sekvensen av interesse. Sjekk hvor referansen kom fra og påse at det ikke er samme vev som spørringssamlingen.

Etter beregningsorientert filtrering, qPCR kan gi et negativt resultat, eksempler se Figur 3A, 3B, C der det var ingen forskjell i gjenkjenning over fuglen vev. Paneler A til C er representativt gener fra forskjellige subtraksjon sykluser, som motiverte ekstra subtraktiv syklus gjentakelser og utvikling av metoden (figur 2, 2B).

Positivt resultat. Et positivt resultat - identifikasjon av en ekte mål sequence - bekreftes når genomisk DNA qPCR viser statistisk større oppdagelsen i vevet / utvalgsstørrelsen av interesse i forhold til referansen (Figur 3D). Subtraktiv prosjektet startet i dette tilfellet med sekvensering RNA fra germline vev av mannlige og kvinnelige voksen zebra finch, få 10 millioner Les par fra hvert kjønn. For enkelhets, vil vi beskrive behandlingen av eggstokk sekvensen, der 167,929 transkripsjoner ble oppnådd ved de novo montering. Subtraktiv genomics metoden (BLASTn) ble brukt til å eliminere noen sekvenser som matchet den publiserte somatiske genom12, som igjen 5,060 utskrifter tilsvarende 598 unike proteiner, indikerer at mange av transkripsjoner var noncoding. Sanger lese rådata brukes til å generere samlingen ble deretter brukt til neste nivå av subtraksjon av tBLASTn, gir 78 proteiner. En siste subtraksjon ble utført ved hjelp av RNA-seq rå leser auditiv lobule13, som forlot åtte proteiner. Når disse proteinene ble kjørt gjennom NCBI nr BLAST, seks av proteiner var viral, var en repeterende region i fugler og sist var en α-SNAPPER som er germline begrenset7 (figur 2B). Under denne prosessen ble 935 somatiske gener som tidligere ikke var inkludert i hele genomet merknaden identifisert; flere viste uniform qPCR forsterkning over vev (Figur 3A, 3B, 3 C). Α-SNAPPER genet ble validert skal germline begrenset bruker qPCR, fordi det var oppbrukt i somatiske vev i forhold til testikkel DNA hvor det var tilstede på nivåer tilsvarende utgangen (Figur 3D).

Hva kan gå galt. Hovedproblemet som må overvinnes når benytter denne metoden er å sikre at riktig referanse sekvensen brukes. Den beste referanse sekvensen omslutter, i videste forstand, genomisk kompleksiteten som sekvensen av interesse (T) er innebygd. Dette kan bety at sekvenser i former; transcriptome, montering, rå data eller data fra flere studier må brukes som referanser (figur 1). I zebra finch studien utviklet vi primere fra RNA sekvensering data. imidlertid fungerer primerne ikke alltid av introns mellom eller primer bindende områder i DNA. Vi testet hver primer satt ved PCR av genomisk DNA fra testikkel DNA, som koder både målet (T) og referansen (R), noe som gjør det til en egnet positiv kontroll. Primer feil på dette stadiet nødvendiggjør design og testing av nye primere til et passende sett er funnet. Standard fallgrubene PCR-baserte metoder bruke: forsterkning betingelser må optimaliseres, forsterkning spesifisitet bekreftet av testing og/eller kloning, og ingen-mal må inkluderes i alle eksperimentene. For mer informasjon om qPCR analyser, kan du se22.

Figure 1
Figur 1 . Subtraktiv tilnærming iterativt kan fjerne flere referanser (R) for å gjenopprette bare målet sekvensen av interesse (T) fra genomic dataene. Referanse sekvenser av individuelle prosjekter kan ikke overlappe akkurat sånn, og kan inkludere datasett ikke vist på figuren. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2Visuelle metoder. (A) subtraktiv syklus skjematisk. Syklusen kan bli iterated så mange ganger som nødvendig, hver gang bruker forskjellige referanse sekvenser, å få de beste resultatene. (B) konkret eksempel på subtraktiv syklusen av trinnene utføres i Biederman et al. 7trinn nummerert som i A, og med antall sekvenser gjenværende ståltank vises. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3 . Eksempeldataene qPCR resultater inkludert negative og positive resultater. (A) genomic DNA qPCR av CHD8, et negativt resultat. (B) genomic DNA qPCR av DNMT1, et negativt resultat. (C) Genomic DNA qPCR av CHD7, et negativt resultat. (D) genomic DNA qPCR av NAPAG, bekrefter tilstedeværelse i testikkel prøver og uttømming leveren og eggstokk i forhold til utgangen, et positivt resultat. Alle paneler angir gjennomsnittlig +/-standardavvik av tre målinger. Klikk her for å se en større versjon av dette tallet.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Mens subtraktiv genomics er kraftig, er det ikke en cookie-cutter tilnærming, krever tilpasning på flere viktige trinn, og forsiktig utvalg av referanse sekvenser og test prøver. Hvis spørringssamlingen er av dårlig kvalitet, kan filtrering trinn bare isolere montering gjenstander. Derfor er det viktig å validere grundig de novo samlingen med en aktuell validering-protokollen til det bestemte prosjektet. For RNA-seq, er retningslinjene gitt på Trinity nettsted18 og DNA, et verktøy som REAPR23 kan brukes. En annen avgjørende skritt ved BLAST er utvalg riktig e-verdi, som avgjør om subtraksjon vil være avslappet eller strenge. Men en inversjon skjer i metoden: en strengere kamp referanse er faktisk en mindre strenge subtraksjon, som ikke-samsvarende sekvenser ikke er trukket. Derfor bør en større (mindre strenge) e-verdi brukes i VINDKAST for en strengere subtraksjon. Det siste viktig skrittet av protokollen er referanse utvalg. For størst effektivitet skal referansegruppen være så komplett som mulig; Det trenger imidlertid ikke å være perfekt fordi qPCR testing bekrefter om gjenværende sekvenser er T eller R, og om flere filtrering er nødvendig. Under gjennomføringen av protokollen, kan nye referanser brukes å innsnevre ned genene godkjennes. Vi oppmerksom på at noen ganger matchende metoden kan endre: for siste subtraktiv trinn vi brukt algoritmen BWA tilordne lese rådata på spørring-sekvenser, og brukt egendefinerte python skript for å identifisere spørringen sekvenser med Ingen samsvarende leser (figur 2B).

Begrensninger ved denne metoden inkluderer tilgjengeligheten av en referanse sekvens. For eksempel Meyer et al. evaluert mitokondrie genomet av en ny hominin; de brukte menneskelige og Denisovan sonder for å fange Mitokondrielt DNA, som ble sekvensert og tilordnet en menneskelig referanse24. I dette tilfellet var det ingen eksisterende kjernefysiske genomet referansedata som forskerne kunne ha trukket mot for å få mitokondrie genomet, nødvendiggjør lese-kartlegging alternativ strategi24. Ingen mye diverged områder av romanen mitokondrie i forhold til menneskelig mitokondrie referansen ville gå tapt av lese-kartlegging. Subtraktiv genomics tilbyr en mindre-partisk tilnærming enn lese-kartlegging, men er ikke alltid knyttet til problemstillingen, og i dette tilfellet de lave nivåene av gamle DNA utelukket slags sekvens dekning kreves for de novo montering ( Trinn 1 av subtraktiv genomics).

Fysisk rensing gir en alternativ metode å subtraktiv genomics. Rensing av DNA eller RNA brukes ofte i sekvensering hele chloroplast og mitokondrie genomer fordi disse organellar genomer er mye mindre enn kjernefysiske genomer25,26,27,28. Menneskelige og andre mindre mitokondrie genomer kan isoleres for sekvensering gjennom forsterkning med to primer sett etterfulgt av rensing25. Subtraktiv genomics kan imidlertid være nyttig i tilfeller der mitokondrie genomer er uvanlig, primer bindende nettstedene er divergerende eller vil ikke resultere i full genomet. Et eksempel på dette er ciliates, som har store, avvikende, lineær mitokondrie genomer29. Tilordning til en referanse genomet er ikke et levedyktig alternativ for ciliates på grunn av høy divergens arter og mangel på homologs selv over genuses30. Ved hjelp av subtraktiv genomics, kan ciliate mitokondrie genomet isolert og analyseres samtidig minimere potensialet av manglende deler av genomet. Tilsvarende mens en de novo montering tilnærming ble brukt i Sitka gran chloroplast genomet forsamlingen, lese gapet-avsluttende involvert komparative tilordning mot den hvite Gran, potensielt innføre skjevhet på disse nettstedene31.

Avhengig av prosjektet, kan subtraktiv genomics tilby tid og koste fordeler i forhold til rensing eller tilordning tilnærminger, samtidig som mindre bias i oppdagelsesprosessen. I noen situasjoner målet sekvensen kan ikke isoleres lett fordi det er helt ukjent, er viktig for celle overlevelse (mitokondrier), eller for stor til å skille ved standard gel geleelektroforese. Basert på størrelse electrophoretic rensing er langsom og krever betydelig utgangsmaterialet (som kan være dyrt) mens optimalisere vilkår over flere forsøk. Puls-feltet gel geleelektroforese (PFGE) muliggjør separasjon av DNA til 107 bp (10 Mb) men tar 2-3 dager, store mengder materiale, og noen ganger spesialisert utstyr som ikke er kommersielt tilgjengelige32. Biederman et al.var bare rekkefølgen som var kjent fra germline-begrenset kromosomet en noncoding gjenta7. Dette kromosomet er den største i fuglen, over 100 Mb lengde10, ville rensing ha vært umulig; subtraktiv genomics var derfor kunne gjøre hva andre metoder kan ikke. I genomisk tid er det ofte billigere og raskere sekvens nå, og filtrere etter datamaskinen senere. Aktivere oppdagelsen av helt ny sekvenser, benytter subtraktiv genomics en kombinasjon av metoder å isolere romanen sekvenser selv uten en perfekt referanse sekvens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Forfatterne bekrefter Michelle Biederman, Alyssa Pedersen og Colin J. Saldanha for deres hjelp med zebra finch genomics prosjektet på ulike stadier. Vi erkjenner også Evgeny Bisk for databehandling klynge systemadministrasjon og NIH grant 1K22CA184297 (til J.R.B.) og NIH NS 042767 (til C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Genetikk problemet 143 Genomic subtraksjon qPCR eksplosjon Python lese kartlegging De novo montering Primer design
Romanen sekvens oppdagelsen av subtraktiv Genomics
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter