Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Nieuwe reeks ontdekking door subtractieve Genomics

Published: January 25, 2019 doi: 10.3791/58877

Summary

Het doel van dit protocol is met een combinatie van rekenkundige en onderzoek van de Bank te vinden van nieuwe sequenties die niet gemakkelijk kunnen worden gescheiden van een mede zuiverende sequentie, die slechts gedeeltelijk bekend kan zijn.

Abstract

Subtractieve genomics kan worden gebruikt in elk onderzoek waar het doel is om het identificeren van de sequentie van een gen, eiwit of algemene regio die is ingesloten in een bredere context van de genomic. Subtractieve genomics laat een onderzoeker een opeenvolging van de doelgroep van belang (T) isoleren door uitgebreide sequentie en af te trekken uit de bekende genetische elementen (referentie, R). De methode kan worden gebruikt voor het identificeren van nieuwe reeksen zoals mitochondriën, chloroplasten, virussen, of germline chromosomen beperkt, en is vooral handig als T niet kan worden eenvoudig geïsoleerd van R. beginnen met de uitgebreide genomic gegevens (R + T), de methode maakt gebruik van elementaire lokale Alignment Search Tool (BLAST) tegen een referentie-reeks, of sequenties, verwijderen van de overeenkomende bekende opeenvolgingen (R), weggaand achter het doel (T). Voor aftrekken te werken het beste, moet R een relatief volledige ontwerp dat T. ontbreekt Sinds sequenties overblijft nadat aftrekken worden getest door middel van kwantitatieve Polymerase Chain Reaction (qPCR), hoeft R niet te worden voltooid voor de methode om te werken. Hier koppelen we computationele stappen met experimentele stappen in een cyclus die herhaald kan worden, zo nodig, opeenvolgend verwijderen van meerdere referentie sequenties en verfijnen van het zoeken naar T. Het voordeel van subtractieve genomics is dat een volledig nieuwe target-reeks zelfs in gevallen waarin fysieke zuivering moeilijk, niet onmogelijk, of duur is kan worden geïdentificeerd. Een nadeel van de methode is het vinden van een geschikte referentiemiddelen voor aftrekken en het verkrijgen van T-positieve en negatieve monsters voor het testen van qPCR. Wij beschrijven onze implementatie van de methode in de identificatie van het eerste gen van het chromosoom germline-beperkte van Zebravink. In dat geval drie verwijzingen (R), opeenvolgend verwijderd gedurende drie cycli computationele filteren betrokken: een onvolledige genomic vergadering, ruwe genomische data en transcriptomic gegevens.

Introduction

Het doel van deze methode is om te identificeren een nieuwe doelstelling (T) genomic opeenvolging, hetzij DNA hetzij RNA, uit een genomic context of een verwijzing (R) (Figuur 1). De methode is vooral handig als het doel niet fysiek worden gescheiden, of het zou duur om dit te doen. Alleen een paar organismen hebben genomen voor aftrekken, perfect afgewerkt dus een belangrijke innovatie van onze methode is de combinatie van computationele en methoden van de Bank in een cyclus waardoor onderzoekers te isoleren doel sequenties wanneer de verwijzing onvolmaakt is, of een ontwerp genoom van een organisme niet-model. Aan het einde van een cyclus, wordt qPCR testen gebruikt om te bepalen of meer aftrekken nodig is. Een reeks gevalideerde kandidaat-T zal de bekende T-positieve monsters statistisch meer detectie vertonen door qPCR.

Incarnaties van de methode zijn doorgevoerd in de ontdekking van nieuwe bacteriële drug targets die geen host homologen1,2,3,4 en identificatie van nieuwe virussen geïnfecteerde hosts 5,6. Naast de identificatie van T, kan de methode verbeteren R: wij recent gebruikte de methode om 936 ontbrekende genen van het genoom van de verwijzing Zebravink en een nieuw gen van een alleen-germline chromosoom (T)7te identificeren. Subtractieve genomics is bijzonder waardevol wanneer T dreigt te worden zeer uiteenlopende vanaf de bekende opeenvolgingen of wanneer de identiteit van T is in grote lijnen gedefinieerd, zoals de Zebravink germline-beperkte chromosoom7.

Doordat er geen positieve identificatie van T vooraf, is een belangrijk voordeel van subtractieve genomics dat er onbevooroordeelde. In een recente studie onderzocht Readhead et al. de relatie tussen de ziekte van Alzheimer en virale overvloed in vier hersengebieden. Readhead et al. gemaakt voor virale identificatie, een database van 515 virussen8, ernstig beperken de virale agenten die hun studie kon identificeren. Subtractieve genomics kunnen zijn gebruikt om het gezond en Alzheimer genoom te vergelijken om te isoleren mogelijk roman virussen die zijn gekoppeld aan de ziekte, ongeacht hun gelijkenis met bekende infectieuze agentia. Hoewel er 263 bekende mens-targeting virussen, wordt er geschat dat ongeveer 1,67 miljoen onontdekte virale soorten bestaat, met 631,000-827,000 van hen hebben een potentieel te infecteren mensen9.

Isolatie van roman virussen is een terrein waarop subtractieve genomics is bijzonder effectief, maar sommige studies wellicht niet zo'n strenge methode. Bijvoorbeeld, transcriberen studies identificerende roman virussen hebt gebruikt onbevooroordeelde high-throughput sequencing gevolgd door omgekeerde transcriptie en BLASTx voor virale opeenvolgingen5 of verrijking van virale nucleïnezuren te halen en keren virale opeenvolgingen 6. Hoewel deze studies werkzaam DOVO Sequencen en vergadering, aftrekken werd niet gebruikt omdat de doelgroep sequenties werden positief geïdentificeerd door BLAST. Als de virussen zijn volledig nieuw en niet verwant (of zijdelings gerelateerde) aan andere virussen, subtractieve genomics zou zijn geweest een nuttige techniek. Het voordeel van subtractieve genomics is dat sequenties die volledig nieuw zijn kunnen worden verkregen. Als van het organisme genoom bekend is, kan het worden afgetrokken uit te verlaten een virale opeenvolgingen. Bijvoorbeeld, in onze gepubliceerde studie geïsoleerd we een nieuwe virale sequence Zebravink via subtractieve genomics, hoewel het was niet onze oorspronkelijke opzet7.

Subtractieve genomics is ook nuttig bij de identificatie van bacteriële vaccin doelen, ingegeven door de dramatische stijging van de antibiotica-resistentie1,,2,,3,4gebleken. Om het risico van auto-immune reactie, onderzoekers het doelwit van vaccin door af te trekken alle proteïnen die homologen in de menselijke gastheer hebben teruggebracht. Een bijzondere studie, Corynebacterium pseudotuberculosis, kijken uitgevoerd aftrekken van gewervelde gastheer genomen vanaf verschillende bacteriële genoom om ervoor te zorgen dat de mogelijke drug targets niet afbreuk zou doen aan eiwitten in de hosts die leiden tot bijwerkingen 1. de basishandelingen stroom van deze studies is het downloaden van de bacteriële Proteoom, bepalen van vitale eiwitten, verwijderen van redundante eiwitten, gebruik BLASTp om te isoleren de essentiële eiwitten en BLASTp tegen gastheer Proteoom te verwijderen van alle eiwitten met host homologen 1 , 2 , 3 , 4. In dit geval subtractieve genomics ervoor zorgen dat de vaccins ontwikkeld geen af-target effecten in de host1,2,3,4 hebben zal.

We gebruikten subtractieve genomica te identificeren van het eerste eiwit-codeert gen op een germline-beperkte chromosoom (GRC) (in dit geval, T), dat in germlines wordt gevonden maar niet somatische weefsel van beide vrouwen10. Voor deze studie was de alleen genomische informatie die was bekend over het GRC een repetitieve regio11. DOVO vergadering werd uitgevoerd op RNA sequenced van eierstok en teste weefsels (R + T) van volwassen zebra vinken. De computationele afschaffing van sequenties werd uitgevoerd met behulp van gepubliceerde somatische (spier) genoom reeks (R1)12, haar rauwe (Sanger) lezen gegevens (R2), en een somatische (hersenen) transcriptome (R3)13. De sequentiële gebruik van drie verwijzingen werd gedreven door de qPCR testen bij stap 5 van elke cyclus (Figuur 2A), waaruit blijkt dat aanvullende filteren vereist was. Het ontdekte α-SNAP-gen werd bevestigd door de qPCR van DNA en RNA, klonen en rangschikken. We laten zien in ons voorbeeld dat deze methode flexibel is: het is niet afhankelijk van de matching van nucleic zuren (DNA vs RNA) en dat aftrekken kan uitgevoerd worden met verwijzingen (R), die bestaan uit assemblages of ruwe leest.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DOVO monteren beginnen volgorde

Opmerking: Alle gegevens van Next-Generation reeks (NGS) kan worden gebruikt, zolang een vergadering kan worden geproduceerd uit die gegevens. Geschikte invoergegevens omvat Illumina, PacBio, of Oxford Nanopore geassembleerd in een fasta bestand leest. Voor concreet, hier beschreven een vergadering Illumina gebaseerde transcriptomic specifiek voor de Zebravink studie uitgevoerd we7; maar let erop dat de specifieke kenmerken per project variëren. Voor ons voorbeeld project, onbewerkte gegevens zijn afgeleid uit een MiSeq en ongeveer 10 miljoen gepaarde leest zijn verkregen van elk monster.

  1. Gebruik Trimmomatic 0.3214 Illumina adapters en lage kwaliteit grondslagen te verwijderen. Geef het volgende op de opdrachtregel:
    java-jar trimmomatic-0.32.jar-PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 toonaangevende: 3 TRAILING: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Gebruik PEAR15 v. 0.9.6 maken van kwalitatief hoogwaardige samengevoegde leest van trimmomatic uitgang gepaarde leest, met behulp van de standaardparameters. Geef het volgende op de opdrachtregel:
    peer -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Gebruik Reptile v. 1.116 van fout-correctie het luidt geproduceerd door middel van peer. Volg de stapsgewijze protocol beschreven in17.
  4. Gebruik van Trinity v. 2.4.018 in de standaardmodus te monteren de gecorrigeerde sequenties. Voor strand-specifieke Bibliotheken, gebruik de - SS_lib_type parameter. De output is een fasta bestand (your_assembly.fasta). Geef het volgende op de opdrachtregel:
    Trinity--seqType fq--SS_lib_type FR-max_memory 10G-uitgang Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq links-rechts quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10
    Opmerking: De output zal worden geplaatst in een nieuwe map, Trinity_output, en de vergadering zal worden met de naam 'Trinity.fasta' die kunnen worden hernoemd als Your_assembly.fasta indien gewenst. Zie de Trinity-website voor meer informatie: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. BLAST de vergadering tegen de volgorde van de verwijzing

Opmerking: Gebruik deze stap als de verwijzing een vergadering of lange is leest als Sanger; Als het is samengesteld uit ruwe Illumina leest, zie stap 3 hieronder voor het toewijzen van leest aan de query. Alle BLAST stappen werden uitgevoerd met versie 2.2.29+, hoewel de opdrachten zou moeten op alle recente BLAST-versie werken.

  1. Maak een database van de ONTPLOFFING van de referentie-sequentie (nucleotide_reference.fasta) op de opdrachtregel. Voer naar de opdrachtregel de volgende gegevens:
    makeblastdb - dbtype nucl-in nucleotide_reference.fasta-out nucleotide_reference.db
  2. BLAST-wedstrijd van de vergadering van de query (gegenereerd in stap 1) met de referentie-database. Voor het verkrijgen van een uitvoerbestand, gebruiken [-out BLAST_results.txt] en tabelvorm om output te genereren (vereist voor verdere verwerking stappen met Python scripts), gebruik [-outfmt 6]. Deze opties kunnen worden gecombineerd in een willekeurige volgorde, dus een voorbeeld van de volledige opdracht [blastn-your_assembly.fasta - db nucleotide_reference.db query-uit BLAST_results.txt - outfmt 6]. Als de instelling van een e-value gewenst is, gebruikt u de optie - evalue met een passend aantal, bijvoorbeeld [-evalue 1e-6]. Wees ervan bewust echter dat de subtractieve cyclus effectief keert u de evalue instellen zoals beschreven in de discussie.
  3. Voor grotere striktheid, proteïne sequenties van de vergadering als de query BLAST met vertaalde nucleotide BLAST (tBLASTn), die 6-weg vertaling van de (nucleotide)-database voert te gebruiken. Deze methode wordt aanbevolen voor de meeste niet-model-systemen, het vermijden van het probleem van de onvolledige eiwit aantekeningen.
    1. Controleer de juiste genetische code is geselecteerd voor het organisme studeerde, met behulp van de - db_gencode-optie. Voor het verkrijgen van proteïne sequenties voor de query, het commando TransDecoder.LongOrfs (van TransDecoder pakket v. 3.0.1) ter identificatie van de langste open lezing frames uit geassembleerde query sequenties. De opdracht is [TransDecoder.LongOrfs -t your_assembly.fasta]; de output zal worden geplaatst in de map met de naam 'transcripts.transdecoder_dir' en bevat een bestand met de naam longest_orfs.pep met de langste voorspelde proteïne sequenties van elke sequentie in your_assembly.fasta.
    2. Voor het gebruik van tBLASTn, voert u de opdracht [tblastn-longest_orfs.pep - db nucleotide_reference.db query-uit BLAST_results.txt - outfmt 6]. Als een hoge kwaliteit eiwit verwijzing beschikbaar is, gebruikt u eiwit-eiwitinteractie matching met BLASTp in plaats van tBLASTn.
    3. Een BLAST-database van de eiwit-verwijzing maken [makeblastdb - dbtype prot-in protein_reference.fasta-uit protein_reference.db] en vervolgens [blastp-longest_orfs.pep - db protein_reference.db query-uit BLAST_results.txt - outfmt 6]. Zorg ervoor dat u de resultaten opslaan als een bestand voor downstream processing en tabelvorm (outfmt 6) om ervoor te zorgen dat de Python scripts kunnen ontleden ze correct gebruiken.

3. kaart leest op de vergadering

Opmerking: Deze methode kan worden gebruikt als de dataset referentie uit rauw genomic leest, in plaats van samengestelde reeksen bestaat of Sanger sequenties, in welk geval gebruik BLAST (stap 2.1).

  1. Met behulp van de BWA-MEM v. 0.7.1219 of bowtie220, kaart van de gedownloade rauwe leest (raw_reads.fastq) op de vergadering van de query. De output zal worden .sam-formaat. Opdrachten zijn als volgt: eerst het indexeren van de vergadering: [bwa index your_assembly.fasta], en wijst u de leest [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Opmerking de ' >' symbool hier is niet een groter-dan teken; in plaats daarvan hij draagt de uitvoer om te gaan in het bestand mapped.sam).

4. gebruik Python Script te verwijderen alle sequenties Matching

Opmerking: Scripts werk voorzien van Python 2.7.

  1. Na stap 2, door de subtractieve Python script te gebruiken met de opdracht [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Voordat u het script uitvoert, ervoor zorgen dat het uitvoerbestand BLAST in formaat 6 (tabelvorm). Het script zal de uitgang van een bestand met niet-overeenkomende sequenties in fasta-indeling met de naam your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta en ook de bijpassende sequenties voor records, als your_assembly.fasta_matching_sequences_BLAST_ Results.txt.fasta. de niet-overeenkomende bestand zal worden de belangrijkste is, als een bron van potentiële T-reeksen voor het testen en verdere cycli van subtractieve genomica.
  2. Na stap 3, lopen de Python script removeUnmapped.py te nemen als input het .sam uit stap 3.1, en worden de namen van query opeenvolgingen zonder eventuele overeenkomende leest en slaat u ze in een nieuw tekstbestand. Gebruik de opdracht [./removeUnmapped.py mapped.sam] en de output zal worden mapped.sam_contigs_with_no_reads.txt. (Het programma genereert een afgeslankte sam-dossier met alle niet-toegewezen leest verwijderd; dit bestand voor de toepassing van dit protocol kan worden genegeerd maar nuttig kan zijn voor andere analyses).
  3. Als de uitvoer van de vorige stap een lijst met namen van de reeks in een tekstbestand genaamd mapped.sam_contigs_with_no_reads.txt is, pak een fasta bestand met deze sequenties: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. De output zal worden een bestand met de naam mapped.sam_contigs_with_no_reads.txt.fasta.

5. ontwerpen van inleidingen voor de reeks die blijft

Opmerking: op dit punt is er een bestand van de fasta met kandidaat-T-reeksen. Deze sectie beschrijft qPCR experimenteel testen of ze afkomstig van T of voorheen onbekende regio's van R. Als de aftrekken in stap 4 hebt verwijderd alle sequenties, vervolgens de eerste vergadering niet omvatten T of de aftrekken te streng kan zijn geweest.

  1. Geneious21 gebruiken om te bepalen van de optimale primer sequenties handmatig.
    1. Een kandidaat-opeenvolging van 21-28 bp voor de voorwaartse primer te benadrukken. Vermijd loopt van 4 of meer van een base. Proberen te richten op een gebied met een vrij uniforme combinatie van alle basepairs. Een enkele G of C aan de 3'-eind is gunstig, bij het verankeren van de primer.
    2. Klik op het tabblad Statistieken aan de rechterkant van het scherm te bekijken van die reeks geschat smelttemperatuur (Tm) als de kandidaat-regio is gemarkeerd. Kijken naar het verkrijgen van een smelttemperatuur tussen 55-60 ° C, terwijl het vermijden van herhalingen en lange runs van G/C.
    3. Stappen 5.1.1. en 5.1.2 om te kiezen van een omgekeerde primer, gelegen 150-250 basenparen 3' van de voorwaartse primer. Terwijl de primer lengtes niet hoeven overeen te, zijn de voorspelde Tm moet zo dicht mogelijk bij de Tm van de voorwaartse primer. Zorg ervoor dat u aanvulling de volgorde omkeren (als met de rechtermuisknop op in Geneious terwijl de volgorde is gemarkeerd is een menu-optie).
  2. Gebruik de functie Primer Design , die is gevonden in de bovenste werkbalk in het venster van de reeks.
    1. Klik op de knop Primer ontwerpen . Invoegen van de regio te versterken onder Target regio.
    2. Invoegen de gewenste grootte smelttemperatuur (Tm) en % GC (zie stap 5.1.1.) onder het tabblad kenmerken .
    3. Klik op OK om inleidingen gegenereerd. Bestel de inleidingen via een aangepaste oligo-service.
  3. Bevestig inleidingen met controle DNA (codering zowel T en R) om te optimaliseren Tm en uitbreiding tijd. Regelmatige Taq en gelelektroforese gebruiken om de grootte van de band zien, maar de optimalisatie kan ook worden uitgevoerd met qPCR na de methoden in stap 6.
    1. Maak 10 X verdunningen van zowel voorwaartse als terugwaartse inleidingen zodat de primers een concentratie van 10 μM hebben.
    2. Gebruik van een combinatie van de PCR van 0,5 μL van dNTP, 0,5 μL van voorwaartse primer, 0,5 μL van omgekeerde primer, 0.1 μL van polymerase Taq, 2 μL van de sjabloon, 0,75 μL van magnesium, 2.5 μL van buffer en 18.15 μL van water, zodat er 25 μL per sjabloon met een concentratie van 5 ng / ΜL.
    3. Test de inleidingen bij verschillende smeltende temperaturen in het PCR-programma. Optimale prestaties is meestal waargenomen smelt temperaturen iets minder dan de voorspelde Tm van de inleidingen, maar meestal niet boven 60 ° C. Ook testen voor optimale uitbreiding tijden gebruik van deze gids: 1 min. per 1000 bp (dus meestal 10-30 seconden afhankelijk van de lengte van de amplicon).
    4. Voer de Elektroforese van het gel van de eindpunt om te bevestigen dat de inleidingen de verwachte volgorde versterken. 25 μL van het product van de qPCR vermengd met 5 μL van 6 X glycerol kleurstof op een 2% TAE agarose gel bij 200 V voor 20 min lopen.

6. qPCR validatie van de resterende sequentie

Opmerking: Deze stap is vereist voor primers gevalideerd en PCR voorwaarden die zijn vastgesteld in stap 5.

  1. Uitvoeren van elke sjabloon in drievoud met de volgende mix; 12.5 μL van PowerSYBR Green master mix, 0,5 μL van voorwaartse primer met een concentratie van 10 μM, 0,5 μL van omgekeerde primer met een concentratie van 10 μM, 10.5 μL van water en 1 μL van sjabloon DNA (bij een concentratie van 2 ng/μl) , zodat elk goed 25 μL van totale volume bevat.
  2. Een programma van de qPCR op de hoogte door de gevalideerde temperatuur en tijd van de uitbreiding uit stap 4 uitvoert. We ontworpen en gevalideerd alle inleidingen zodat ze compatibel zijn met een tweetraps cyclus, 95 ° C gedurende 10 minuten eerste smelten, dan 40 cycli van 95 ° C gedurende 30 s en 60 ° C gedurende 1 minuut. Echter een drietraps (smelt-anneal-extend) programma mogelijk meer optimaal voor de inleidingen en moet worden aangepast, indien nodig. Het is raadzaam dat definitieve denatureren curven worden gegenereerd ten minste de eerste keer de inleidingen zijn werkzaam in qPCR voor het valideren van de versterking van een enkele DNA-product.
  3. Maatregel qPCR/SYBR groen signalen ten opzichte van actine (of een ander geschikt 'R'-besturingselement) by Ct. voor alle gevallen berekenen het gemiddelde en de standaarddeviatie van 2-(gene Ct - β-actine Ct).
  4. (Optioneel) De Elektroforese van het gel van de eindpunt om te bevestigen detectie van de grootte van de juiste product door qPCR uit te voeren. Hier, voer 25 μL van het product van de qPCR vermengd met 5 μL van 6 x glycerol kleurstof op een 2% TAE agarose gel bij 200 V voor 20 min.

7. Herhaal met een nieuwe verwijzing naar Pare beneden de gegevens.

Opmerking: Als stap 6 gevalideerd de geïdentificeerde sequenties van T, beëindigt de cyclus hier(Figuur 2). Echter, een aantal overwegingen kan motiveren een voortzetting van de cyclus, bijvoorbeeld als vele R sequenties blijven in het bestand of als geen van de kandidaat-T-sequenties zijn gevalideerd door qPCR in stap 6.

  1. Het verkrijgen van een nieuwe verwijzing. Deze stap maakt een nieuwe iteratie van de cyclus en eventueel rauwe genomic gegevens, ruwe RNA-seq gegevens of andere verzamelde datasets. Waardevolle middelen voor Linkgegevens omvatten de genoomdatabase aan het National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) welke winkels geassembleerd genoom toegankelijk via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), en de Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) waar rauwe volgende-generatie volgorde leest worden opgeslagen. Genoomprojecten kunnen hun ruwe sequencedata via andere project-geassocieerde websites en databases.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Na het uitvoeren van BLAST, zal de output bestand hebben een lijst van sequenties van de query die overeenkomen met de database. Na Python aftrekken, zal een aantal nonmatching sequenties worden verkregen en getest door qPCR. De resultaten van dit en de volgende stappen worden hieronder besproken.

Negatieve resultaat. Er zijn twee mogelijke negatieve resultaten die kunnen worden gezien na de explosie in de reeks van de referentie. Er kunnen geen BLAST resultaten, wat betekent dat de totale reeks niet elke soortgelijke sequenties aan de verwijzing hoeft. Dit kan een fout in het selecteren van de volgorde van de juiste verwijzing voor het monster sequenced zijn. Een andere mogelijkheid is dat er geen unieke sequenties in de eerste vergadering (alles is afgetrokken weg), dus geen genen zijn gevonden voor de opeenvolging van belang. Controleer waar de verwijzing vandaan en controleer dat het is niet het hetzelfde weefsel als de vergadering van de query.

Na de computationele filtratie, qPCR een negatief resultaat kan opleveren, voor voorbeelden Zie Figuur 3A, 3B, C waarin er was geen verschil in detectie over vogel weefsels. Panelen A t/m C zijn vertegenwoordiger genen uit verschillende aftrekken cycli, die gemotiveerd aanvullende subtractieve cyclus iteraties en de ontwikkeling van de methode (Figuur 2A, 2B).

Positief resultaat. Een positief resultaat--de identificatie van een reeks ware doel--is bevestigd als genomic DNA qPCR toont statistisch meer detectie in het weefsel / steekproef van belang ten opzichte van de verwijzing (Figuur 3D). Het subtractieve project startte in dit geval met de sequencing van RNA van germline weefsel van mannelijke en vrouwelijke volwassen Zebravink, verkrijgen van 10 miljoen Lees paren van elk geslacht. Voor beknoptheid beschrijven we de verwerking van de eierstok volgorde alleen, waarin 167,929 transcripties werden verkregen door DOVO vergadering. De subtractieve genomica-methode (BLASTn) werd gebruikt voor het elimineren van alle sequenties die overeenkomt met de gepubliceerde somatische genoom12, die 5,060 afschriften overeenkomt aan 598 unieke eiwitten, die aangeeft dat veel van de transcripten noncoding waren overgelaten. De Sanger rauwe leest gebruikt voor het genereren van de vergadering werden vervolgens gebruikt voor het volgende niveau van aftrekken door tBLASTn, opbrengst van 78 eiwitten. Een definitieve aftrekken werd uitgevoerd met behulp van RNA-seq rauwe leest van de auditieve lobule13, die links van de acht eiwitten. Wanneer deze eiwitten via NCBI nr BLAST waren, waren zes van de eiwitten virale, een was een repetitieve regio vogels en de laatste was een α-SNAP thats germline beperkt7 (Figuur 2B). Tijdens dit proces, werden 935 somatische genen die niet eerder in het hele genoom-annotatie opgenomen waren vastgesteld; verschillende toonde uniforme qPCR versterking over weefsels (Figuur 3A, 3 b, 3 C). Het α-SNAP-gen werd gevalideerd te germline beperkt met behulp van qPCR, omdat het was uitgeput in somatische weefsel ten opzichte van de testis DNA waar het niveau gelijk aan actine (Figuur 3D) aanwezig was.

Wat kan er misgaan. Het belangrijkste probleem dat moet worden overwonnen wanneer using zulks werkwijze ervoor te zorgen is dat de juiste referentie-reeks wordt gebruikt. De beste referentie volgorde ingekapseld in de breedste zin, de genomic complexiteit waarin de opeenvolging van belang (T) is ingesloten. Dit kan betekenen dat sequenties in verschillende vormen; transcriptome, vergadering, onbewerkte gegevens of gegevens uit meerdere studies moeten worden gebruikt als verwijzingen (Figuur 1). In de studie van de Zebravink ontwikkelden we inleidingen van RNA sequencing gegevens; de inleidingen deed werkt echter niet altijd te wijten aan de aanwezigheid van introns tussen of binnen de bandplaatsen primer in DNA. We testten elke primer ingesteld door PCR uit genomic DNA van testis DNA, die zowel het doel (T) en de verwijzing (R), waardoor het een geschikte positieve controle codeert. Primer falen in dit stadium vereist het ontwerp en het testen van nieuwe inleidingen tot een geschikte reeks wordt geïdentificeerd. Standaard valkuilen van PCR-gebaseerde methoden toepassen: versterking voorwaarden moeten worden geoptimaliseerd, versterking specificiteit bevestigd door te testen en/of klonen, en neen-template besturingselementen moeten worden opgenomen in alle experimenten. Zie voor meer informatie over het testen van qPCR,22.

Figure 1
Figuur 1 . De subtractieve aanpak kan iteratief meerdere verwijzingen (R) herstelt alleen de doelgroep opeenvolging van belang (T) uit totale genomic gegevens verwijderen. De referentie-sequenties van afzonderlijke projecten kunnen niet precies op deze manier overlappen en eventueel datasets niet aangegeven op de figuur. Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2Visuele methoden. (A) subtractieve cyclus schema. De cyclus kan zo vaak als nodig, telkens met behulp van duidelijke verwijzing sequenties, om de beste resultaten te verkrijgen worden herhaald. (B) specifiek voorbeeld van de subtractieve cyclus van stappen die zijn uitgevoerd in Biederman et al. 7, met stappen genummerd zoals A, en met het aantal sequenties resterende elk stadium komt te staan. Klik hier voor een grotere versie van dit cijfer.

Figure 3
Figuur 3 . In het volgende voorbeeldgegevens van resultaten van de qPCR met inbegrip van negatieve en positieve resultaten. (A) de genomic DNA qPCR van CHD8, een negatief resultaat. (B) genomic DNA qPCR van DNMT1, een negatief resultaat. (C) Genomic DNA qPCR van CHD7, een negatief resultaat. (D) genomic DNA qPCR van NAPAG, bevestiging van de aanwezigheid in de testis monsters en de uitputting van de lever en eierstokken ten opzichte van actine, een positief resultaat. Alle panelen geven gemiddeld +/-standaarddeviatie van drie metingen. Klik hier voor een grotere versie van dit cijfer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Subtractieve genomics is krachtig, maar het is niet een cookie-cutter aanpak, waarbij aanpassingen op verschillende belangrijke stappen, en zorgvuldige selectie van referentie sequenties en proefmonsters. Als de query-vergadering van slechte kwaliteit is, misschien filteren stappen alleen isoleren vergadering artefacten. Daarom is het belangrijk om grondig valideren de DOVO vergadering met behulp van een geschikte validatie-protocol aan het specifieke project. Voor RNA-seq, worden richtsnoeren verstrekt op de website van Trinity18 en voor DNA, een tool als REAPR23 kan worden gebruikt. Een andere belangrijke stap bij het gebruik van BLAST is selectie van de juiste e-waarde, die bepalen zal of de aftrekken ontspannen of strenge zullen. Echter een omkering treedt op in de methode: een strengere match om te verwijzen naar is eigenlijk een minder strenge aftrekken, zoals niet-overeenkomende sequenties zijn niet afgetrokken. Daarom is een grotere (minder strenge) e-waarde dient in BLAST voor een strengere aftrekken. De laatste belangrijke stap van het protocol is verwijzing selectie. Voor de grootste efficiëntie moet de verwijzing zo volledig mogelijk te zijn; echter, het hoeft niet perfect te zijn omdat het qPCR testen bevestigt of resterende sequenties van T of R, en of meer filters nodig is. Tijdens de uitvoering van het protocol, kunnen nieuwe referenties worden gebruikt voor verdere smalle beneden de genen worden gevalideerd. Wij stellen vast dat soms de overeenkomende methode kan veranderen: voor de laatste subtractieve stap wij gebruikt van het algoritme BWA toewijzen raw leest op de query sequenties en aangepaste python scripts om te identificeren query sequenties met geen overeenkomende leest (Figuur 2B).

Beperkingen van deze methode zijn onder andere de beschikbaarheid van een referentie-reeks. Bijvoorbeeld, Meyer et al. geëvalueerd van het mitochondriaal genoom van een nieuwe mensachtige; ze gebruikt de menselijke en Denisovan sondes te vangen van mitochondriaal DNA, die was sequenced en toegewezen aan een menselijke referentie-24. In dit geval waren er geen bestaande verwijzingsgegevens voor nucleair genoom dat de onderzoekers zou hebben afgetrokken tegen te verkrijgen van het mitochondriaal genoom, vergend de lezen-mapping alternatieve strategie24. Uitgebreid lidmaten regio's van de roman mitochondrion ten opzichte van de menselijke mitochondriale verwijzing zou worden verloren door lezen-toewijzing. Subtractieve genomics biedt een minder-bevooroordeelde benadering dan lezen-mapping maar niet altijd afhankelijk van de onderzoeksvraag geldt, en in dit geval de lage niveaus van oude DNA het soort reeks dekking vereist voor DOVO vergadering (uitgesloten stap 1 van subtractieve genomica).

Fysieke zuivering biedt een andere alternatieve methode om subtractieve genomica. Zuivering van DNA of RNA wordt vaak gebruikt in de hele chloroplast sequencing en mitochondriaal genoom omdat deze organellar genomen veel kleiner dan nucleair genoom25,26,27,28 zijn. Menselijke en andere kleinere mitochondriaal genoom kunnen worden geïsoleerd voor het rangschikken door versterking met behulp van twee sets van de primer gevolgd door zuivering25. Subtractieve genomics kan echter nuttig zijn voor gevallen waarin mitochondriaal genoom ongebruikelijk, de bandplaatsen primer zijn uiteenlopende of niet zal resulteren in het volledige genoom. Een voorbeeld hiervan is in categorieën, die grote, uiteenlopende hebben, lineaire mitochondriaal genoom29. Toewijzing aan het genoom van een verwijzing is niet een haalbare optie voor categorieën als gevolg van hoge divergentie in soorten en gebrek aan homologen zelfs over genuses30. Met behulp van subtractieve genomica, kan de Saw mitochondriaal genoom worden geïsoleerd en geanalyseerd terwijl het minimaliseren van het potentieel van ontbrekende segmenten van het genoom. Ook, terwijl een DOVO vergadering aanpak werd gebruikt in de vergadering van de Sitka spar chloroplast genoom, gap-sluiting betrokken vergelijkende Lees toewijzing tegen de witte spar, potentieel invoering van vooringenomenheid op deze sites31.

Afhankelijk van het project, kunnen de subtractieve genomica bieden tijd en kostenvoordelen ten opzichte van zuivering of toewijzing benaderingen, terwijl het aanbieden van minder vertekening in de discovery-proces. In sommige situaties kan de volgorde van het doel niet kan worden gemakkelijk geïsoleerd omdat het volledig onbekend, is essentieel voor de overleving van de cel (mitochondriën), of te groot om te scheiden door standaard gelelektroforese. Grootte gebaseerde elektroforetische zuivering is langzaam en vereist significante grondstof (die kan duur zijn) terwijl het optimaliseren van voorwaarden over meerdere pogingen. Puls-field gelelektroforese (PFGE) kan worden gescheiden van de fragmenten van DNA tot 107 bp (10 Mb) maar duurt 2-3 dagen, grote hoeveelheden materiaal, en soms gespecialiseerde apparatuur thats niet verkrijgbare32. In Biederman et al.was de enige reeks die bekend was van het chromosoom germline-beperkte een noncoding Herhaal7. Als dit chromosoom de grootste in de vogel, meer dan 100 Mb in lengte10 is, zou zuivering onmogelijk zijn geweest; Subtractieve genomics kon daarom te doen wat andere methoden niet konden. In de genomic era is het vaak goedkoper en sneller nu volgnummer, en filteren door computer later. Inschakelen van de ontdekking van volledig nieuwe sequenties, subtractieve genomics maakt gebruik van een combinatie van benaderingen te isoleren van de roman sequenties zelfs zonder een verwijzing van de perfecte reeks.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

De auteurs erkennen Michelle Biederman, Alyssa Pedersen en Colin J. Saldanha voor hun hulp bij de Zebravink genomics project in verschillende stadia. We erkennen ook Evgeny Bisk voor het berekenen van cluster Systeembeheer en NIH grant 1K22CA184297 (voor J.R.B.) en NIH NS 042767 (voor C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Kwestie 143 Genomic aftrekken genetica qPCR BLAST Python lezen toewijzen DOVO assemblage Primer ontwerp
Nieuwe reeks ontdekking door subtractieve Genomics
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter