Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Roman sekvens opdagelsen af subtraktiv genomforskning

Published: January 25, 2019 doi: 10.3791/58877

Summary

Formålet med denne protokol er at bruge en kombination af beregningsmæssige og bænk forskning for at finde roman sekvenser, der ikke kan adskilles let fra en co rensende sekvens, som muligvis er kun delvis kendt.

Abstract

Subtraktiv genomforskning kan bruges i enhver forskning, hvor målet er at identificere sekvensen af et gen, protein eller generelle region, der er integreret i en større genomisk sammenhæng. Subtraktive genomforskning giver mulighed for en forsker at isolere en target sekvens af interesse (T) ved omfattende sekvensering og fratrække kendte genetiske elementer (reference, R). Metoden kan bruges til at identificere roman sekvenser som mitokondrier, grønkorn, vira, eller kønscelleoverførsel begrænset kromosomer, og er især nyttig, når T ikke være let isoleret fra R. begynder med den omfattende genomisk data (R + T), metoden bruger grundlæggende lokale justering søgning værktøj (BLAST) mod en reference sekvens, eller sekvenser, for at fjerne de tilsvarende kendte sekvenser (R), efterlader mål (T). For subtraktion til at fungere bedst, bør R være en forholdsvis komplette udkast, som mangler T. Siden sekvenser tilbage efter subtraktion er testet gennem kvantitative Polymerase Chain Reaction (qPCR), behøver R ikke at være komplet metode til at arbejde. Her linker vi beregningsmæssige trin med eksperimentelle skridt ind i en cyklus, der kan være gentog efter behov, sekventielt at fjerne flere reference sekvenser og raffinering søgen efter T. Fordelen ved subtraktiv genomforskning er, at en helt roman target sekvens kan identificeres selv i tilfælde, hvor fysisk rensning er vanskeligt, umuligt eller dyrt. En ulempe ved metoden at finde en passende henvisning til subtraktion og opnå T-positive og negative prøver for qPCR test. Vi beskriver vores gennemførelse af metoden i identifikationen af de første gen fra den germline-begrænset kromosom af zebrafinke. I så fald beregningsmæssige filtrering involveret tre referencer (R), sekventielt fjernet over tre cyklusser: en ufuldstændig genomisk forsamling, genomisk rådata og transkriptom data.

Introduction

Formålet med denne metode er at identificere en roman mål (T) genomisk sekvens, enten DNA eller RNA, fra en genomisk kontekst eller en reference (R) (figur 1). Metoden er mest nyttigt, hvis målet ikke kan adskilles fysisk, eller det ville være dyrt at gøre. Kun et par organismer er helt færdig genomer for subtraktion, så en afgørende fornyelse af vores metode er den kombination af beregningsmæssige og bænk metoder i en cyklus, der gør det muligt for forskere at isolere target sekvenser, når henvisningen er ufuldstændig, eller et udkast til genom fra en ikke-model organisme. I slutningen af en cyklus bruges qPCR test til at afgøre, om mere subtraktion er nødvendig. En valideret kandidat T sekvens vil vise statistisk større afsløring i kendte T-positive prøver af qPCR.

Inkarnationer af metoden er blevet gennemført i opdagelsen af nye bakteriel stof mål, der ikke har vært homologs1,2,3,4 og identifikation af nye virus fra inficerede værter 5,6. Ud over identifikation af T, kan metoden, der forbedre R: vi for nylig brugte metoden til at identificere 936 mangler gener fra zebrafinke reference genom og et nyt gen fra en germline-only kromosom (T)7. Subtraktive genomforskning er særlig værdifuld når T forventes at være ekstremt divergerende fra kendte sekvenser, eller når identiteten af T er bredt udefineret, som i zebrafinke germline-begrænset kromosom7.

Ved ikke at kræve positiv identifikation af T på forhånd, er en afgørende fordel af subtraktiv genomforskning, at det er upartisk. I en nylig undersøgelse undersøgt Readhead et al. forholdet mellem Alzheimers sygdom og viral overflod i fire områder af hjernen. For viral identifikation, Readhead et al. oprettet en database over 515 virus8, alvorligt begrænser de virale agenter, som deres undersøgelse kunne identificere. Subtraktive genomforskning kunne have været brugt til at sammenligne den sunde og Alzheimers genomer for at isolere mulige roman virus forbundet med sygdommen, uanset deres lighed med kendte smitstoffer. Mens der er 263 kendte målretning af menneskelige virus, er det blevet anslået at ca 1,67 million uopdagede viral arter findes, med 631,000-827,000 af dem har et potentiale til at inficere mennesker9.

Isolering af nye virus er et område, hvor subtraktiv genomforskning er særligt effektive, men nogle undersøgelser kan ikke behøver sådan en stringent metode. For eksempel, transskribere undersøgelser at identificere nye vira har brugt upartiske høj overførselshastighed sekventering efterfulgt af reverse transkription og BLASTx for viral sekvenser5 eller berigelse af viral nukleinsyrer at udtrække og vende viral sekvenser 6. mens disse undersøgelser ansat de novo sekvensering og forsamling, subtraktion ikke blev brugt, fordi målet sekvenser var positivt identificeret gennem BLAST. Hvis virus var helt nye og ikke relaterede (eller fjernt beslægtede) til andre vira, subtraktiv genomforskning ville have været en nyttig teknik. Fordelen ved subtraktiv genomforskning er, at sekvenser, der er helt ny kan opnås. Hvis den organisme genom er kendt, kan det trækkes ud til at forlade enhver viral sekvenser. For eksempel, i vores offentliggjort undersøgelse isoleret vi en roman viral sekvens fra zebra finke gennem subtraktiv genomforskning, men det ikke var vores oprindelige hensigt7.

Subtraktive genomforskning har også vist sig nyttig i identifikation af bakterielle vaccine mål, motiveret af den dramatiske stigning i antibiotikaresistens1,2,3,4. For at minimere risikoen for autoimmun reaktion, indsnævret forskere de potentielle vaccine mål ved at fratrække alle proteiner, der har homologs i den menneskelig vært. En særlig undersøgelse, ser på Corynebacterium pseudotuberculosis, udført subtraktion af hvirveldyr vært genomer fra flere bakterielle genomer at sikre, at mulige drug mål ikke ville påvirke proteiner til hosts fører til bivirkninger 1. grundlæggende arbejdsflow af disse undersøgelser er at downloade det bakterielle proteomet, bestemme vigtige proteiner, fjerne overflødige proteiner, brug BLASTp til at isolere de væsentlige proteiner, og BLASTp mod vært proteomet for at fjerne enhver proteiner med vært homologs 1 , 2 , 3 , 4. I dette tilfælde subtraktiv genomforskning sikre, at vacciner udviklet ikke har nogen off-target effekter i vært1,2,3,4.

Vi brugte subtraktiv genomforskning til at identificere det første protein-kodning gen på en germline-begrænset kromosom (GRC) (i dette tilfælde, T), som findes i germlines men ikke somatiske væv af begge køn10. Før denne undersøgelse var de kun genomisk oplysninger, der blev kendt om GRC en gentagne region11. De novo Forsamling blev udført på RNA sekventeret fra æggestokken og teste væv (R + T) fra voksne zebrafinker. Den beregningsmæssige afskaffelse af sekvenser blev udført ved hjælp af offentliggjorte somatiske (muskel) genomet sekvens (R1)12, dets rå (Sanger) læse data (R2) og en somatisk (hjernen) transkriptom (R3)13. Sekventiel brugen af tre referencer var drevet af qPCR test på trin 5 for hver cyklus (figur 2A), viser, at yderligere filtrering var påkrævet. Opdaget α-SNAP genet blev bekræftet gennem qPCR fra DNA og RNA, og kloning og sekventering. Vi viser i vores eksempel, at denne metode er fleksibel: det er ikke afhængige af matchende nukleinsyrer (DNA vs RNA) og at subtraktion kan udføres med referencer (R), der består af forsamlinger eller rå læsninger.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de novo samle starter sekvens

Bemærk: Alle data, næste generations sekvens (NGS) kan bruges, så længe en assembly kan fremstilles af disse data. Passende input data omfatter Illumina, PacBio, eller Oxford Nanopore læser samlet i en fasta fil. For konkrethed, i dette afsnit beskrives en Illumina-baserede transkriptom forsamling specifikke for zebrafinke undersøgelse vi udført7; dog være opmærksom på, at detaljerne vil variere fra projekt. For vores eksempel projektet, rå data blev afledt fra en MiSeq og cirka 10 millioner parrede læsninger stammer fra hver prøve.

  1. Brug Trimmomatic 0,3214 til at fjerne Illumina adaptere og lav kvalitet baser. På kommandolinjen, skal du indtaste:
    Java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 førende: 3 afsluttende: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Bruge pære15 v. 0.9.6 for at skabe høj kvalitet flettede læsninger fra trimmomatic output parret læser, ved hjælp af standardparametre. På kommandolinjen, skal du indtaste:
    pære -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Brug krybdyr v. 1.116 fejl rette læser produceret gennem pære. Følg den trinvise protokollen beskrevet i17.
  4. Bruge Trinity v. 2.4.018 i standardtilstand til at samle de korrigerede sekvenser. Strand-specifikke biblioteker, bruge parameteren - SS_lib_type. Outputtet er en fasta fil (your_assembly.fasta). På kommandolinjen, skal du indtaste:
    Trinity--seqType fq--SS_lib_type FR-max_memory 10G – output Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq til venstre – højre quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10
    Bemærk: Output vil blive placeret i en ny mappe, Trinity_output, og forsamlingen vil blive kaldt 'Trinity.fasta', som kan omdøbes som Your_assembly.fasta, hvis det ønskes. Se Trinity hjemmeside for flere detaljer: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. BLAST forsamling mod Reference sekvens

Bemærk: Brug dette trin når henvisningen er en samling eller lang lyder som Sanger; Hvis det er sammensat af rå Illumina læser, se trin 3 nedenfor for kortlægning læsninger i forespørgslen. Alle BLAST trin blev afsluttet med version 2.2.29+ selvom kommandoerne bør arbejde på alle de seneste BLAST version.

  1. Gøre en BLAST database af reference sekvens (nucleotide_reference.fasta) på kommandolinjen. Indgå i den befale kø nedenstående:
    makeblastdb - dbtype nucl-i nucleotide_reference.fasta-ud nucleotide_reference.db
  2. BLAST-match forespørgsel Forsamling (genereret i trin 1) til referencedatabase. For at opnå en output-fil, bruger [-ud BLAST_results.txt] og til at generere tabelformat output (påkrævet for efterfølgende behandlingstrin med Python scripts), bruge [-outfmt 6]. Disse indstillinger kan kombineres i vilkårlig rækkefølge, så et eksempel komplet kommando er [blastn-forespørgsel your_assembly.fasta - db nucleotide_reference.db-ud BLAST_results.txt - outfmt 6]. Hvis en e-value indstilling af ønskes, skal du bruge indstillingen - evalue med et passende antal, for eksempel [-evalue 1e-6]. Være opmærksom på, dog, de subtraktive cyklus effektivt inverterer evalue indstilling som beskrevet i diskussionen.
  3. For øget strenghed, skal du bruge protein sekvenser fra forsamlingen som forespørgslen BLAST med oversatte nukleotid BLAST (tBLASTn), som udfører 6-vejs oversættelse af databasen (nukleotid). Denne metode anbefales til de fleste ikke-model systemer, undgå problemet med ufuldstændige protein anmærkninger.
    1. Sikre den korrekte genetiske kode er valgt for den organisme, der studerede, ved hjælp af indstillingen - db_gencode. For at få protein sekvenser for forespørgslen, skal du køre kommandoen TransDecoder.LongOrfs (fra TransDecoder pakken v. 3.0.1) for at identificere de længste åbne læserammer fra samlet forespørgsel sekvenser. Kommandoen er [TransDecoder.LongOrfs -t your_assembly.fasta]; output vil blive placeret i mappe kaldet 'transcripts.transdecoder_dir' og indeholder en fil kaldet longest_orfs.pep, der indeholder de længste forudsagte protein sekvenser fra hver sekvens i your_assembly.fasta.
    2. Hvis du vil bruge tBLASTn, skal du køre kommandoen [tblastn-forespørgsel longest_orfs.pep - db nucleotide_reference.db-ud BLAST_results.txt - outfmt 6]. Hvis en høj kvalitet protein reference er tilgængelig, skal du bruge protein-protein matchende med BLASTp snarere end tBLASTn.
    3. Gøre en BLAST database af protein reference [makeblastdb - dbtype prot-i protein_reference.fasta-ud protein_reference.db] og derefter [blastp-forespørgsel longest_orfs.pep - db protein_reference.db-ud BLAST_results.txt - outfmt 6]. Sørg for at gemme resultaterne som en fil til downstream forarbejdning, og bruge tabelform (outfmt 6) til at sikre Python scripts kan tolke dem korrekt.

3. kort læser på assemblyen

Bemærk: Denne metode kan bruges, hvis henvisningen datasæt består af rå genomisk læser i stedet for samlet sekvenser eller Sanger sekvenser, i hvilke tilfælde brug BLAST (trin 2.1).

  1. Ved hjælp af BWA-MEM v. 0.7.1219 eller bowtie220, kort de downloadede rå læsninger (raw_reads.fastq) på forespørgsel forsamling. Output vil blive .sam format. Kommandoer er som følger: først indeksere forsamlingen: [bwa index your_assembly.fasta], og derefter knytte læser [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Bemærk den ' >' symbol her er ikke en større-end-tegnet; i stedet det pålægger output til at gå ind i filen mapped.sam).

4. Brug Python Script til at fjerne ethvert tilsvarende sekvenser

NOTE: Forudsat scripts arbejde med Python 2.7.

  1. Efter trin 2, skal du bruge subtraktiv Python script ved hjælp af kommandoen [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Før du kører scriptet, sikre at BLAST outputfilen er i format 6 (tabelformat). Scriptet vil output en fil med ikke-matchende sekvenser i fasta format ved navn your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta og også den matchende sekvenser for poster, som your_assembly.fasta_matching_sequences_BLAST_ Results.txt.fasta. den ikke-matchende fil vil være det vigtigste, som en kilde til potentielle T sekvenser for test og yderligere cyklusser af subtraktiv genomforskning.
  2. Efter trin 3, Kør Python script removeUnmapped.py at tage som input .sam fra trin 3.1, og identificerer navnene på forespørgsel sekvenser uden nogen matchende læser og gemmer dem i en ny tekstfil. Brug kommandoen [./removeUnmapped.py mapped.sam] og output vil være mapped.sam_contigs_with_no_reads.txt. (Programmet vil generere en slanket sam fil med alle ikke-tilknyttede læser fjernet, denne fil kan ignoreres med henblik på denne protokol, men kan være nyttige for andre analyser).
  3. Som output i den foregående skridt er en liste over sekvens navne i en tekstfil kaldet mapped.sam_contigs_with_no_reads.txt, uddrag en fasta fil med disse sekvenser: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Produktionen vil være en fil kaldet mapped.sam_contigs_with_no_reads.txt.fasta.

5. design primere for den sekvens, der er tilbage

Bemærk: på dette tidspunkt der er en fasta fil indeholdende kandidat T sekvenser. Dette afsnit beskriver qPCR eksperimentelt teste, om de kommer fra T eller hidtil ukendte områder af R. Hvis subtraktion i trin 4 fjernet alle sekvenser, derefter enten den første forsamling undladt at medtage T, eller subtraktion kan have været alt for strenge.

  1. Bruge Geneious21 til at bestemme optimal primer sekvenser manuelt.
    1. Fremhæve en kandidat sekvens af 21-28 bp for den fremadrettede primer. Undgå løber af 4 eller flere af enhver base. Prøv at målrette mod en region med en forholdsvis ensartet kombination af alle basepairs. En enkelt G eller C i 3'-slutningen er gavnligt, at bidrage til at forankre primeren.
    2. Klik på fanen statistikker på højre side af skærmen for at se denne sekvens anslået smeltepunktet (Tm) som regionen kandidat er fremhævet. Ser for at opnå en smeltepunktet mellem 55-60 ° C, mens undgå gentagelser og langture af G/C.
    3. Følg trin 5.1.1. og 5.1.2 at vælge en omvendt primer, beliggende 150-250 basepar 3' af den fremskudte primer. Mens primer længder ikke behøver at matche, bør den forudsagte Tm så tæt som muligt på Tm fremad primer. Sørg for at vende supplement sekvensen (hvis at højreklikke i Geneious, mens sekvensen fremhæves det er et menupunkt).
  2. Brug funktionen Primer Design , som findes i værktøjslinjen øverst i vinduet sekvens.
    1. Klik på knappen Primer Design . Indsæt regionen til at forstærke under Målområde.
    2. Indsæt ønskede størrelse, smeltepunktet (Tm) og % GC (Se trin 5.1.1.) under fanen Egenskaber .
    3. Klik på OK for at få primere genereret. Bestil primere gennem en brugerdefineret oligo service.
  3. Validere primere med kontrol DNA (kodning både T og R) for at optimere Tm og udvidelse tid. Brug almindelig Taq og gelelektroforese for at se bandet størrelse, men optimering kan også udføres med qPCR efter metoderne i trin 6.
    1. Gøre 10 X fortyndinger af både forward og reverse primere, så primere har en koncentration på 10 μM.
    2. Bruge en PCR blanding af 0,5 μl af dNTP, 0,5 μl af fremad primer, 0,5 μl af reverse primer, 0,1 μL af Taq-polymerase, 2 μl af skabelon, 0,75 μL af magnesium, 2,5 μL af bufferen og 18.15 μl vand, så der er 25 μl pr. skabelon med en koncentration på 5 ng / ΜL.
    3. Teste primere ved forskellige temperaturer, smeltende i PCR-programmet. Optimal ydeevne er normalt observeret smelte temperaturer lidt under den forudsagte Tm primere, men normalt ikke over 60 ° C. Også teste for optimal forlængelse gange ved hjælp af denne guide: 1 min. pr. 1000 bp (således normalt 10-30 sekunder afhængigt af amplikon længde).
    4. Udføre end-point gelelektroforese for at bekræfte, at primere forstærke den forventede sekvens. Kør 25 μL af qPCR produktet blandet med 5 μl af 6 X glycerol farvestof på en 2% TAE agarosegel på 200 V i 20 min.

6. qPCR validering af de resterende sekvens

Bemærk: Dette trin kræver primere valideret og PCR betingelserne i trin 5.

  1. Kør hver skabelon i tre eksemplarer med følgende blanding; 12,5 μl af PowerSYBR Green master mix, 0,5 μl af fremad primer med en koncentration på 10 μM, 0,5 μl af reverse primer med en koncentration på 10 μM, 10.5 μl vand og 1 μL af DNA-template (ved en koncentration på 2 ng/μl) , således at hver godt indeholder 25 μL af samlede volumen.
  2. Køre en qPCR program informeret af validerede temperatur og udvidelse tid fra trin 4. Vi udviklet og valideret alle primere for at være forenelig med en to-trins cyklus, 95 ° C i 10 min indledende smelte, så 40 cykler på 95 ° C til 30 s og 60 ° C i 1 min. Dog, en tre-trins (smelte-bind-udvide) program kan være mere optimalt for primere og bør tilpasses, hvis det er nødvendigt. Vi anbefaler, at endelige denaturering kurver skal genereres mindst første gang primere er ansat i qPCR at validere amplifikation af et enkelt DNA produkt.
  3. Foranstaltning qPCR/SYBR Green signaler i forhold til aktin (eller enhver anden egnet 'R' kontrol) af Ct. For alle tilfælde beregne gennemsnit og standardafvigelse på 2-(gen Ct - β-actin Ct).
  4. (Valgfrit) Udføre end-point gelelektroforese for at bekræfte korrekte produkt størrelse påvisning af qPCR. Her, køre 25 μL af qPCR produktet blandet med 5 μl af 6 x glycerol farvestof på en 2% TAE agarosegel på 200 V i 20 min.

7. Gentag med en ny henvisning til Pare ned at Data.

Bemærk: Hvis trin 6 valideret de identificerede sekvenser fra T, end cyklussen her (fig. 2A). Men en lang række overvejelser kan motivere en fortsættelse af cyklussen, for eksempel hvis mange R sekvenser forbliver i filen eller hvis ingen af kandidat T sekvenserne blev valideret af qPCR i trin 6.

  1. Få en ny henvisning. Dette trin giver mulighed for en ny iteration af cyklus og kan omfatte genomisk rådata, RNA-seq rådata eller andre samlet datasæt. Værdifulde ressourcer for referencedata omfatter genom-databasen på det nationale Center for bioteknologi oplysninger (https://www.ncbi.nlm.nih.gov/genome) hvilke butikker samlet genomer tilgængeligt via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), og Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) hvor rå næste generations sekvens læser er gemt. Genom projekter kan give deres rå sekvens data gennem andre project-associerede hjemmesider og databaser.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Efter at have kørt BLAST, vil outputfil have en liste af sekvenser fra forespørgslen, der svarer til databasen. Efter Python subtraktion, vil en række opfylder sekvenser blive indhentet, og testet af qPCR. Resultaterne af dette, og næste skridt er diskuteret nedenfor.

Negative resultat. Der er to mulige negative resultater, der kan ses efter BLAST til reference sekvens. Der kan være nogen BLAST resultater, hvilket betyder, at den samlede sekvens ikke har nogen tilsvarende sekvenser til referencen. Dette kan være en fejl i at vælge den rigtige reference sekvens for prøven sekventeret. En anden mulighed er, at der er ingen entydige sekvenser i den begyndende samling (alt er trukket væk), derfor ingen gener er fundet for sekvensen af interesse. Check hvor henvisningen kom fra og sikre, at det ikke er det samme væv som forespørgslen forsamling.

Efter beregningsmæssige filtrering, qPCR kan give et negativt resultat, for eksempler Se figur 3A, 3 b, C , hvor der var ingen forskel i sporing på tværs af fugl væv. Paneler A gennem C er repræsentative gener fra forskellige subtraktion cyklusser, hvilket motiverede yderligere subtraktiv cyklus gentagelser og udviklingen af metoden (fig. 2, 2B).

Positive resultat. Et positivt resultat - identifikation af en ægte mål sequence--bekræftes når genomisk DNA qPCR viser statistisk større afsløring i væv / prøve af interesse i forhold til referencen (figur 3D). Subtraktive projektet startede i dette tilfælde med sekventering RNA fra germline væv af mandlige og kvindelige voksne zebrafinke, at opnå 10 millioner Læs par fra hvert køn. For kortheds skyld, vil vi beskrive behandlingen af æggestokken sekvensen kun, hvor 167,929 afskrifter blev opnået af de novo forsamling. Metoden subtraktiv genomforskning (BLASTn) blev brugt til at fjerne enhver sekvenser, der matchede de offentliggjorte somatiske genom12, som forlod 5,060 afskrifter svarende til 598 unikke proteiner, der angiver, at mange af afskrifter blev noncoding. Sanger rå læsninger bruges til at generere forsamlingen blev derefter brugt til det næste niveau af subtraktion af tBLASTn, giver 78 proteiner. En endelige subtraktion blev udført ved hjælp af RNA-seq rå læser fra den auditive lobule13, som forlod otte proteiner. Når disse proteiner var kører gennem NCBI nr BLAST, seks af proteinerne var viral, en var en gentagne region i fugle, og sidst var en α-SNAP, thats kønscelleoverførsel begrænset7 (figur 2B). Under denne proces, blev 935 somatiske gener, der tidligere ikke var medtaget i den samlede genom-annotering identificeret; flere viste ensartet qPCR forstærkning på tværs af væv (figur 3A, 3B, 3 C). Α-SNAP genet blev valideret for at være kønscelleoverførsel begrænses ved hjælp af qPCR, fordi det var udtømte i somatiske væv i forhold til testis DNA hvor det var til stede på et niveau svarende til aktin (figur 3D).

Hvad der kunne gå galt. Det største problem, der skal overvindes, når ved hjælp af denne metode er at sikre, at den korrekte reference sekvens bruges. Den bedste reference sekvens indkapsler i bredeste forstand, genomisk kompleksitet som sekvensen af interesse (T) er indlejret. Dette kan betyde, at sekvenser i forskellige former; transkriptom, forsamling, rå data eller data fra flere undersøgelser skal bruges som referencer (figur 1). I zebrafinke undersøgelse udviklet vi primere fra RNA sequencing data; men primere ikke altid arbejde på grund af tilstedeværelsen af introns mellem eller inden for primer bindingssteder i DNA. Vi har testet hver primer sat af PCR off genomisk DNA fra testiklerne DNA, der koder både mål (T) og reference (R), hvilket gør det til en passende positiv kontrol. Primer fiasko på nuværende tidspunkt kræver konstruktion og prøvning af nye primere, indtil et passende sæt er identificeret. Standard faldgruber af PCR-baserede metoder anvendes: forstærkning betingelser skal optimeres, forstærkning specificitet bekræftet af test og/eller kloning, og no-skabelon kontrol skal medtages i alle eksperimenter. For mere information om qPCR assays, se22.

Figure 1
Figur 1 . Den subtraktive metode kan iterativt fjerne flere referencer (R) at tilbagesøge samlede genomisk data kun målet sekvensen af interesse (T). Reference sekvenser af individuelle projekter kan ikke overlappe på netop denne måde og kan omfatte datasæt ikke angivet på figuren. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2Visuelle metoder. (A) subtraktiv cyklus skematisk. Cyklussen kan være gentog så mange gange som nødvendigt, hver gang udnytter forskellige reference sekvenser, at opnå de bedste resultater. B specifikke eksempel subtraktiv cyklus af trin udføres i Biederman et al. 7, med trin nummereret som i A, og med antallet af sekvenser resterende på hvert stadium vist. Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3 . Eksempeldata af qPCR resultater herunder negative og positive resultater. (A) genomisk DNA qPCR af CHD8, et negativt resultat. B genomisk DNA qPCR af DNMT1, et negativt resultat. (C) Genomis DNA qPCR af CHD7, et negativt resultat. (D) genomisk DNA qPCR af NAPAG, bekræfter tilstedeværelsen specifikt i testiklerne prøver og udtynding fra leveren og æggestokkene i forhold til aktin, et positivt resultat. Alle paneler viser gennemsnit +/-standardafvigelsen af tre målinger. Venligst klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Mens subtraktiv genomforskning er kraftfuld, er det ikke en cookie-cutter tilgang, der kræver tilpasning på flere vigtige skridt, og omhyggelig udvælgelse af reference sekvenser og prøveemner. Hvis forespørgslen forsamling er af dårlig kvalitet, kan filtrering trin kun isolere forsamling artefakter. Det er derfor vigtigt at grundigt validere de novo forsamlingen ved hjælp af en passende valideringsprotokollen til det konkrete projekt. For RNA-FF. findes retningslinjerne på Trinity hjemmeside18 og til DNA, et værktøj som REAPR23 kan bruges. En anden kritisk trin, når du bruger BLAST er udvælgelsen af egnede e-værdi, som vil afgøre, om subtraktion vil være afslappet eller strenge. Men en inversion forekommer i metoden: en strengere match til reference er faktisk en mindre strenge subtraktion, som ikke-matchende sekvenser ikke er fratrækkes. Derfor, en større (lempeligere) e-værdi bør anvendes i BLAST for en strengere subtraktion. Det sidste afgørende skridt i protokollen er reference udvalg. For størst effektivitet bør referencen være så komplet som muligt; Det behøver dog ikke at være perfekt, fordi qPCR test bekræfter om resterende sekvenser fra T eller F, og om flere filtrering er nødvendige. Under gennemførelsen af protokollen, kan nye referencer anvendes for at begrænse ned gener skal valideres. Vi bemærker, at nogle gange den tilsvarende metode kan ændre: for den sidste subtraktiv skridt vi anvendte algoritme BWA for at kortlægge rå læsninger på forespørgsel sekvenser, og anvendes brugerdefinerede python scripts for at identificere forespørgsel sekvenser med ingen matchende læser (figur 2B).

Begrænsninger af denne metode omfatter tilgængelighed af en reference sekvens. For eksempel, Meyer et al. evalueret mitokondrie genomet af en ny hominin; de brugte humane og Denisovan sonder for at fange mitokondrie-DNA, som blev sekventeret og knyttes til en menneskelig reference24. I dette tilfælde var der ingen eksisterende nukleare genom referencedata, der forskerne kunne have trækkes mod for at opnå den mitokondrielle genom, nødvendiggør Læs-mapping alternative strategi24. Nogen udstrakt grad diverged regioner i den roman mitochondriet i forhold til den menneskelige mitokondrie reference ville gå tabt ved Læs-kortlægning. Subtraktive genomforskning tilbyder en mindre-partisk tilgang end læse-mapping men anvendes ikke altid afhængigt af forskningsspørgsmål, og i dette tilfælde de lave niveauer af gamle DNA udelukket slags sekvens dækning kræves for de novo Forsamling ( trin 1 af subtraktiv genomforskning).

Fysisk rensning giver en anden alternative metode til subtraktiv genomforskning. Oprensning af DNA eller RNA bruges ofte i sekventering hele grønkorn og mitokondriel genomer, fordi disse organellar genomer er meget mindre end nuklear genomer25,26,27,28. Menneskelige og andre mindre mitokondrie genomer kan isoleres til sekvensering gennem forstærkning ved hjælp af to primer sæt efterfulgt af rensning25. Dog kan subtraktiv genomforskning være nyttige for tilfælde, hvor mitokondrie genomer er usædvanligt store, bindingssteder primer er divergerende eller ikke vil resultere i den fuld genom. Et eksempel herpå er i infusionsdyr, som har store, divergerende, lineære mitokondrie genomer29. Tilknytningen til en reference genom er ikke en farbar vej for infusionsdyr på grund af høje divergens på tværs af arter og mangel på homologs selv på tværs af genuses30. Ved hjælp af subtraktiv genomforskning, kan den randhårede mitokondrie genom isoleret og analyseres samtidig minimere potentialet i mangler segmenter af genomet. På samme måde, mens en de novo forsamling tilgang blev anvendt i Sitka spruce grønkorn genom forsamling, gap-afsluttende involveret sammenlignende læse kortlægning mod hvidgran, potentielt at indføre bias på disse websteder31.

Afhængigt af projektets kan subtraktiv genomforskning tilbyde tid og omkostningsfordele i forhold til rensning eller kortlægning tilgange, mens tilbyder mindre bias i søgningen. I nogle situationer, target sekvens kan ikke være let isolerede fordi det er helt ukendt, er afgørende for celle overlevelse (mitokondrierne), eller for stor til at adskille af standard gelelektroforese. Størrelse-baserede elektroforese rensning er langsom og kræver betydelige råvare, (som kan være dyrt) mens optimering betingelser over flere forsøg. Puls-field gelelektroforese (PFGE) giver mulighed for adskillelse af DNA fragmenter op til 107 bp (10 Mb) men tager 2-3 dage, store mængder af materiale, og nogle gange specialiseret udstyr, der ikke er kommercielt tilgængelige32. I Biederman et al.var den eneste sekvens, der var kendt fra den germline-begrænset kromosom en noncoding Gentag7. Da denne kromosom er den største i fuglen, over 100 Mb i længde10, ville rensning have været umuligt; subtraktive genomforskning var derfor i stand til at gøre hvad andre metoder kan ikke. Genomisk tidsalder er det ofte billigere og hurtigere at sekvens nu, og filtrere efter computer senere. Aktivering af opdagelsen af helt nye sekvenser, benytter subtraktiv genomforskning en kombination af metoder til at isolere roman sekvenser selv uden en perfekte reference sekvens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Forfatterne anerkender Michelle Biederman, Alyssa Pedersen og Colin J. Saldanha for deres hjælp med projektets zebrafinke genomforskning på forskellige stadier. Vi anerkender også Evgeny Bisk for computing klynge systemadministration og NIH grant 1K22CA184297 (til J.R.B.) og NIH NS 042767 (til C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Genetik spørgsmålet 143 genomisk subtraktion qPCR BLAST Python læse kortlægning De novo forsamling Primer design
Roman sekvens opdagelsen af subtraktiv genomforskning
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter