Analyse av Transcriptomic

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy og David har dukket opp som populære verktøy som lar etterforskerne uten bioinformatikk trening for å analysere og tolke RNA-Seq data. Vi beskriver en protokoll for C. elegans forskere å utføre RNA-Seq eksperimenter, åpne og behandle datasettet ved hjelp av Galaxy og oppnå meningsfull biologisk informasjon fra gense listene ved hjelp av DAVID.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Neste generasjons sekvensering (NGS) teknologi har revolusjonert natur biologiske undersøkelser. Av disse har RNA-sekvensering (RNA-Seq) er et kraftig verktøy for gen-ekspresjon analyse og transcriptome kartlegging. Men håndtering av RNA-Seq datasett krever avansert beregningskompetanse og utgjør iboende utfordringer for biologi forskere. Denne flaskehalsen har blitt dempet av åpen tilgang Galaxy prosjekt som gjør at brukere uten bioinformatikk ferdigheter til å analysere RNA-Seq data, og Database for kommentering, visualisering, og integrert Discovery (David), en Gene ontologi (GO) begrep analyse pakke som hjelper utlede biologisk betydning fra store datasett. Men for førstegangsbrukere og bioinformatikk amatører, selvlærende og kjent med disse plattformene kan være tidkrevende og skremmende. Vi beskriver en enkel arbeidsflyt som vil hjelpe C. elegans forskere å isolere orm RNA, gjennomføre en RNA-Seq eksperimentog analysere data ved hjelp av Galaxy og David plattformer. Denne protokollen gir trinnvise instruksjoner for bruk av de forskjellige Galaxy modulene for å aksessere rå NGS data, kvalitetskontroller, oppstilling og differensial- genekspresjon analyse, veilede brukeren med parametre på hvert trinn for å generere et gen liste som kan bli screenet for anrikning av gen klasser eller biologiske prosesser som bruker DAVID. Samlet sett forventer vi at denne artikkelen vil gi informasjon til C. elegans forskere foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.

Introduction

Den første sekvensering av det menneskelige genom, utført ved hjelp av Fred Sanger er dideoksynukleotid-sekvensering metoden, tok 10 år, og kostet anslagsvis US $ 3000000000 1, 2. Men i litt over et tiår siden begynnelsen, Next-Generation Sequencing (NGS) teknologi har gjort det mulig å sekvensere hele det menneskelige genom i løpet av to uker, og for US $ 1000. Nye NGS instrumenter som gir stadig økende hastigheter på sekvensering-datainnsamling med utrolig effektivitet, sammen med skarpe reduksjoner i kostnader, revolusjonerer moderne biologi i utenkelige måter som genomsekvense prosjekter er raskt blitt vanlig. I tillegg har denne utviklingen galvanisert fremskritt på mange andre områder som for eksempel gen-ekspresjon analyse ved RNA-sekvensering (RNA-Seq), undersøkelse av genom epigenetiske modifikasjoner, DNA-protein-interaksjoner, og screening for mikrobiell diversitet i humane verter. NGS-baserte RNA-Seq særlig har gjort det mulig å identifisere og kartlegge transcriptomes grundig med nøyaktighet og følsomhet, og har erstattet mikromatriser som den foretrukne metode for ekspresjonsanalyse. Mens mikromatriser har blitt brukt i stor utstrekning, er det begrenset av dens avhengighet av eksisterende matriser med kjent genomisk informasjon og andre ulemper, så som tverr hybridisering og begrenset utvalg av uttrykk endringer som kan måles pålitelig. RNA-seq, på den annen side, kan brukes til å detektere både kjente og ukjente transkripter mens produserer lav bakgrunnsstøy på grunn av dets entydige DNA kartlegging natur. RNA-Seq, sammen med de mange genetiske verktøy som tilbys av modellorganismer som gjær, flue, mark, fisk og mus, har fungert som grunnlag for mange viktige siste biomedisinske funn. Men fortsatt store utfordringer som gjør NGS utilgjengelige til den større vitenskapelige samfunnet, inkludert begrensninger lagring, behandling, og mest av alt, m eaningful bioinformatikk analyse av store volumer av data sekvensering.

De raske fremskritt innen sekvense teknologier og eksponentiell data akkumulering har skapt et stort behov for beregnings plattformer som vil tillate forskere å få tilgang, analysere og forstå denne informasjonen. Tidlig systemer var sterkt avhengig av programmering kunnskap, mens genomlesere som NCBI som tillot ikke-programmerere for å få tilgang til og visualisere data tillot ikke sofistikerte analyser. Det web-baserte, åpen tilgang plattform, Galaxy ( https://galaxyproject.org/ ), har fylt dette tomrommet og vist seg å være en verdifull rørledning som gjør det mulig for forskere å behandle NGS data og utføre et spektrum av enkel-å-kompleks bioinformatikk analyser. Galaxy ble opprinnelig etablert og opprettholdes ved laboratorier av Anton Nekrutenko (Penn State University) og James Taylor (Johns Hopkins University)f "> 3. Galaxy tilbyr et bredt spekter av beregningsoppgaver slik at det er en 'ett sted' for utallige bioinformatikkdataene behov, inkludert alle trinnene som er involvert i en RNA-sekv studien. Itallows brukere å utføre databehandling, enten på sine servere eller lokalt på sine egne maskiner. Data- og arbeidsflyt kan reproduseres og deles. Online opplæring, hjelp delen, og en wiki-side ( https://wiki.galaxyproject.org/Support ) dedikert til Galaxy Prosjekt gi konsistent støtte. Men for førstegangsbrukere, særlig de uten bioinformatikk trening, rørledningen kan virke skremmende og prosessen med selvlærende og tilvenning kan være tidkrevende. Dessuten, det biologiske system som studeres, og detaljene i eksperimentet og metoder som brukes, innvirkning analytiske beslutninger på flere trinn, og disse kan være vanskelig å navigere uten instruksjon.

Den samlede RN A-Seq Galaxy arbeidsflyt består av data opplasting og kvalitetskontroll, fulgt av analyse ved anvendelse av Tuxedo Suite 4, 5, 6, 7, 8, 9, som er et kollektiv av forskjellige verktøy som er nødvendige for forskjellige stadier av RNA-Seq dataanalyse 10, 11, 12, 13, 14. En typisk RNA-Seq eksperiment består i den eksperimentelle del (prøvepreparering, mRNA isolert og cDNA-bibliotek fremstilling), NGS og bioinformatikkdataene analyse. En oversikt over disse seksjonene, og de trinn som er involvert i den Galaxy rørledningen, er vist i figur 1.

3fig1.jpg"/>
Figur 1: Oversikt over en RNA-Seq arbeidsflyt. Illustrasjon av de eksperimentelle og beregningstrinn som er involvert i en RNA-Seq eksperiment for å sammenligne gen-ekspresjons-profiler av to snekke-stammer (A og B, oransje og grønne linjer og piler, henholdsvis). De forskjellige moduler av Galaxy benyttes er vist i esker med det tilsvarende trinn i vår protokollen angitt i rødt. Utgangene av ulike operasjoner er skrevet i grått med filformater som vises i blått. Klikk her for å se en større versjon av dette tallet.

Det første verktøyet i Tuxedo Suite er en justering program kalt 'Tophat'. Det bryter ned den NGS inngang står i mindre fragmenter, og deretter kart dem til en referanse genom. Denne to-trinns prosessen sikrer at lyder som strekker seg over intron regioner hvis innretting ellers kan være disrupted eller savnet regnskapsføres og kartlagt. Dette øker deknings og letter identifikasjon av nye spleisesteder. Tophat utgang er rapportert som to filer, en seng fil (med informasjon om spleisesteder som omfatter genomisk plassering) og en BAM-fil (med kartlegging detaljer om hver leser). Det neste er at BAM filen justert mot en referanse genom å anslå overflod av enkelte vitnemål innenfor hver prøve med påfølgende verktøy i Tuxedo Suite kalt 'mansjettknapper'. Mansjettknapper funksjoner ved å skanne justerings å rapportere full lengde transkripsjon fragmenter eller 'transfrags' som spenner alle mulige spleisevarianter i inngangsdata for hver gen. Basert på dette, blir det generert en 'transcriptome' (sammenstilling av alle transkripter og generert for hvert gen for hvert gen) for hver prøve som blir sekvensert. Disse Mansjettknapper sammenstillinger er kollapset eller sammensmeltes sammen med gjenientere genom for å produsere en enkelt merknadsfil for nedstrømsdifferensialanalyse ved hjelp av den neste verktøy, 'Cuffmerge'. Til slutt, det 'Cuffdiff' verktøy måler differensial genekspresjon mellom prøvene ved å sammenligne TOPHAT utgangene fra hver av prøvene til den endelige Cuffmerge utgangsfilen (figur 1). Mansjettknapper bruker FPKM / RPKM (Fragmenter / Leser Per kilobaser av karakterutskrift per million kartlagt leser) verdier for å rapportere transkripsjon Forekomsten. Disse verdier gjenspeiler den normaliseringen av de rå NGS data for dybden (gjennomsnittlig antall leser fra en prøve som kan tilpasses til referanse genomet) og genet lengde (gener har forskjellig lengde, så tellinger må være normalisert til lengden av et gen for å sammenligne nivåene mellom gener). FPKM og RPKM er i det vesentlige den samme med RPKM som brukes for enkelt-end RNA-Seq der hver lese svarer til et enkelt fragment, mens blir FPKM benyttes forsammenkoblet ende RNA-Seq, som den gjør rede for det faktum at to leser kan tilsvare det samme fragment. Til syvende og resultatet av disse analysene er en liste av gener differensielt uttrykte mellom de betingelser og / eller stammene som ble prøvd.

Når en vellykket Galaxy løp er fullført og en 'gen listen' genereres, krever det neste logiske skrittet flere bioinformatikk analyser for å utlede menings kunnskap fra datasettene. Mange programvarepakker har kommet for å imøtekomme dette behovet, inkludert offentlig tilgjengelige web-baserte beregnings pakker som DAVID (Database for kommentering, visualisering og integrert funn) 15. DAVID muliggjør tilordning av biologisk betydning for store gen lister fra high-throughput-studier ved å sammenligne den opplastede genet listen til den integrerte biologiske kunnskapsbase og avsløre de biologiske merknader er forbundet med genet listen. Dette etterfølges av Enrichment Analysis, dvs. testene til Identify om noen biologisk prosess eller gen klasse er en overrepresentasjon i genet listen (e) i en statistisk signifikant måte. Det har blitt et populært valg på grunn av en kombinasjon av et bredt, helhetlig kunnskapsbase og sterke analytiske algoritmer som gjør forskerne å påvise biologiske temaer beriket innen genomikk-avledet 'gen lister' 10, 16. Ytterligere fordeler innbefatter dets evne til å behandle gen lister som er opprettet på en hvilken som helst sekvense plattform og en meget brukervennlig grensesnitt.

Nematoden Caenorhabditis elegans er en genetisk modell system, kjent for sine mange fordeler, slik som liten størrelse, transparent legeme, enkel spanteriss, enkel kultur og stor medgjørlighet for genetisk og molekylær disseksjon. Worms har en liten, enkel og godt annotert genomet som inneholder opptil 40% konserverte gener med kjente humane homologer 17. Faktisk, elegans C.var den første metazoan hvis genom ble fullstendig sekvensert 18, og en av de første art hvor RNA-Seq ble brukt til å kartlegge en organismes transcriptome 19, 20. Tidlig snekke Undersøkelsen innbefattet eksperimentering med ulike metoder for high-throughput RNA fangst, bibliotek forberedelse og sekvensering, så vel som bioinformatikkdataene rørledninger som bidro til å fremme teknologien 21, 22. I de senere årene har RNA-Seq-basert eksperimentering ormer blitt vanlig. Men, for tradisjonelle snekke biologer utfordringene ved beregnings analyse av RNA-Seq data forbli et stort hinder for større og bedre utnyttelse av teknikken.

I denne artikkelen beskriver vi en protokoll for bruk av Galaxy plattformen for å analysere high-throughput RNA-Seq data generert fra C. elegans. For mange første-gang og små-SCAle brukere, er det mest kostnadseffektive og grei måte å foreta en RNA-Seq eksperimentet er å isolere RNA i laboratoriet og bruke en kommersiell (eller in-house) NGS anlegg for utarbeidelse av sekvense cDNA bibliotek og NGS selv. Vi har derfor først detaljert trinnene involvert i isolasjon, kvantifisering og kvalitetsvurdering av C. elegans RNA-prøver for RNA-Seq. Deretter gir vi trinnvise instruksjoner for bruk Galaxy grensesnitt for analyser av de NGS data, som begynner med tester for post-sekvensering kvalitetskontroller, etterfulgt av innretting, montering, og differensial kvantifisering av genekspresjon. I tillegg har vi tatt med retninger for å granske genet listene som følge av Galaxy for biologiske berikelse studier med David. Som et siste trinn i arbeidsflyt, gir vi instruksjoner for å laste opp RNA-Seq data videre til offentlige servere, slik som den Sequence Les Archive (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) for å gjøre det fritt tilgjengelig for det vitenskapelige samfunn. Samlet sett forventer vi at denne artikkelen vil gi omfattende og tilstrekkelig informasjon til ormen biologer foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA Isolation

  1. Forebyggende tiltak
    1. Tørk av hele arbeidsflaten, instrumenter og pipetter ved hjelp av en kommersielt tilgjengelig RNase spray for å eliminere eventuelle RNaser til stede.
    2. Bruk hansker til alle tider, regelmessig endre dem med friske barn i løpet av de forskjellige trinnene i protokollen.
    3. Bruk kun filter tips og holder alle prøvene på is så mye som mulig for å unngå RNA degradering.
      MERK: For å oppnå best mulig data fra NGS plattformer, er det viktig å begynne med høy kvalitet RNA. RNA isolasjon og fremstillingsmetoder variere avhengig av prøve opprinnelse, metode for sekvensering og utprøver preferanse. Flere i handelen tilgjengelige analysesett kan brukes til dette formål, eller RNA kan også bli isolert ved anvendelse av et standard fenol-kloroform metode for RNA-ekstraksjon. Med enten metodikk, bør de forholdsregler som er nevnt ovenfor følges gjennom hele prosessen for å redusere forurensning og OBTain uberørte RNA-prøver.
  2. høsting Worms
    1. Synkron ormen befolkningen ved hypokloritt blekebehandling 23 for å få 1000-1500 alderstilpassede C. elegans voksne ormer per belastning.
    2. Vask ormer av platene ved hjelp av M9-bufferløsning og sentrifugering ved 325 xg i en bordsentrifuge i 30 sekunder. Aspirer ut M9 buffer som etterlater en pellet av ormer. Gjenta dette trinnet minst tre ganger for å fjerne bakterieoverføring.
    3. Til orm pellet, tilsett ~ 500 ul lyseringsbuffer (ved bruk av et kommersielt kit) eller Trizol (en mono-fasisk løsning av fenol og guanidinisotiocyanat, hvis fenol: kloroform-ekstraksjon som er beskrevet i 1.3.3 foretas) for å forstyrre orm vev , deaktivere RNaser og stabilisere nukleinsyrer.
      MERK: Protokollen kan stoppes med en gang ved flash-frysing prøvene i flytende nitrogen, fulgt av lagring ved -80 ° C.
  3. RNA Isolation
  4. Sonikat snekke prøvene ved 45% amplitude i sykluser på 20 sekunder. 'ON' og 40 s. 'AV' (8-12 sykluser per-stamme). Hold prøvene på is til alle tider.
    MERK: Kontroller at den sonikatorprobe er nedsenket i buffer og holdes på et konstant nivå gjennom. Unngå skumming av prøven og rengjør sonden grundig i mellom prøver. Sonikering sykluser, kan variere avhengig av typen av anvendt sonikator. Det anbefales at sonikering betingelser er først optimaliseres på en testprøve før et eksperiment.
  5. Ved anvendelse av et kommersielt tilgjengelig kit, fortsette med RNA Isolation i henhold til foreskrevne protokollen. For RNA-isolering ved anvendelse av en fenol-kloroform-metoden, å utføre de følgende trinn.
  6. Sentrifuger sonikerte prøver ved 16 000 xg i 10 min. ved 4 ° C.
  7. Overfør supernatanten til et 1,5 ml RNase-frie mikrofugerør og tilsett 100 ul kloroform (1/5 volum av RNA / DNA-isolering reagens).
    Forsiktighet: Kloroform er giftig. For å minimere eksponering og unngå innånding, jobber i en kjemisk hette ved håndtering av dette stoffet.
  8. Vortex prøvene grundig i 30 - 60 s. og la prøvene stå ved romtemperatur i 3 min.
  9. Sentrifuger ved 11750 x g i 15 min. ved 4 ° C. Overfør bare den øvre vandige lag til en ny RNase-frie mikrofugerør tar seg ikke til å aspirere den DNA-inneholdende hvit grensesnitt. Gjenta trinn 1.3.4 via 1.3.6.
  10. Tilsett 250 ul (70% av vandig fase eller 1/2 RNA / DNA-isolering reagens volum) av 2-propanol og snu røret for å blande. La rørene stå ved romtemperatur i 10 min eller la over natten ved -80 ° C.
  11. Sentrifuger prøvene ved 11 750 xg i 10 min. ved 4 ° C. Dekanter supernatanten meget forsiktig, etterlater noen få ul i bunnen av røret, slik at pelletsen ikke er forstyrret.
  12. Vask pelleten med 500 ul 75% etanol (laget ved hjelp av RNase-fritt vann) og spinne ned ved 16.000 xg i 5 minutter. ent 4 ° C.
  13. Fjern så mye supernatant som mulig uten å forstyrre pelleten. Lufttørke pelleten i en hette i noen minutter.
  14. Tilsett 30 ul RNase-fritt vann, og bidra til å oppløse den RNA-pellet ved oppvarming i 10 min. ved 60 ° C.
  15. Sjekk RNA kvalitet og kvantitet ved hjelp av en Bioanalyzer.
    MERK: Bioanalyzer genererer en R-IT I ntegrity N umber (RIN) som et mål på RNA kvalitet. En RIN på minst 8 er den anbefalte terskelen for RNA-Seq prøver (høyere er bedre). RNA kvantitet og kvalitet kan også bli kontrollert spektrofotometrisk men må også følges ved visuell vurdering av RNA integritet. For å gjøre dette ved å kjøre prøvene på en 1,2% agarosegel lenge nok til å oppnå passende atskillelse av 28s og 18s ribosomale RNA-bånd. Tilstedeværelsen av to distinkte bånd (1,75 kb til 18S rRNA og 3,5 kb for 28S rRNA i tilfelle av C. elegans) er en akseptabel grad av RNA kvalitet.
  16. Bruk ~ 100 ng / ul RNA til ship til leverandøren / NGS anlegg for utarbeidelse av sekvense biblioteker.
    MERK: RNA prøver bør sendes på tørris til sekvense tjenesteleverandøren. De fleste leverandører foreta en uavhengig RNA kvalitetskontrolltest før bibliotek preparatet.

2. RNA-Seq Data Analysis

  1. Nedlasting av Raw sekvenseringsdata
    1. Laste de sammenpressede rå fastq sekvenseringsdata som er kodet i den fastq.gz formatet fra NGS leverandøren ved hjelp av en "file transfer protocol" (FTP).

Figur 2
Figur 2: Oppsett av Galaxy brukergrensesnitt Panel og Nøkkel RNA-Seq funksjoner. Viktige egenskaper for siden er utvidet og uthevet. (A) fremhever Analyser data "funksjon på websiden spissen brukes til å aksessere (B) er fremdrift bar "som indikerer den plass på Galaxy serveren benyttes ved driften. (C) er 'Tools Section' som viser alle de verktøy som kan kjøres på Galaxy-grensesnittet. (D) viser 'NGS: RNA Analysis' verktøy seksjon anvendt for RNA-Seq analyse. (E) viser 'Historikk' panel som viser alle filer generert ved hjelp av Galaxy. (F) viser et eksempel på dialogboksen som åpnes når du klikker på en fil i History delen. Innenfor (F), fremhever den blå boksen ikoner som kan brukes til å vise, editthe attributter eller slette datasettet, fremhever den lilla boksen ikoner som kan brukes til 'rediger' datasettet koder eller merknader, og indikerer den røde boksen ikoner nedlasting av data, vise detaljer om oppgaven utføres eller kjør operasjon. Klikk her for å se en større versjon av dette tallet.

  1. Komme i gang med Galaxy
    MERK: Galaxy kan kjøres på en gratis offentlig server ved hjelp av en web-basert plattform som gir sky tilgang og gratis begrenset lagringsplass. Den kan også bli lastet ned og kjørt lokalt på brukerens maskin eller beregnings klynger som drives av institusjoner, men lokal behandling, kan bli begrenset av data-lagringsgrenser og begrensninger av brukermaskiner prosesseringskraft. Detaljer om nedlasting og installasjon kan nås på https://wiki.galaxyproject.org/Admin/GetGalaxy . I denne protokollen beskriver vi den web-baserte bruk av Galaxy rørledningen.
    1. Etter nedlasting og lagring av NGS data på brukerens maskin, tilgang Galaxy pålaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registrere en brukerkonto ved å klikke på 'User' i overskriften på siden, logg inn og begynne med å bli kjent med brukergrensesnittet panel.
      MERK: Det anbefales at første gang brukerne utnytte 'Start her' tutorial gitt på hjemmesiden for å bli kjent med de grunnleggende oppsett av Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Klikk på 'Analyser data' (figur 2A) i overskriften panelet for å få tilgang til 'Analyse Hjem View' som også er oppstartsskjermen på Galaxy.
      MERK: Overskriften huser også andre linker hvis detaljer kan sees ved å holde musepekeren over dem. Den øvre høyre hjørne av toppteksten har en fremdriftsindikator som overvåker plass utnyttes for de oppgaver (figur 2B).
    4. Cslikke på 'NGS: RNA Analyse oppgave i 'Verktøy Menu' på venstre side (figur 2C) for å få tilgang til alle verktøyene som er nødvendig for RNA-seq dataanalyse.
      MERK: Verktøy Menu 'katalogiserer alle virksomhetene Galaxy tilbyr. Denne menyen er delt basert på oppgaver og klikke på noen vil åpne opp en liste over alle de verktøyene som trengs for å utføre den oppgaven.
    5. Opprett ny analyse historie ved å klikke på tannhjulikonet øverst på 'Historikk' panelet på høyre side (figur 2E). Velg 'Opprett ny' alternativ fra lokalmenyen. Gi denne 'History' et passende navn for å identifisere analysen.
      MERK: 'Historien' panel viser alle filer lastet opp for analyse, samt alle utdatafiler som genereres ved å kjøre oppgaver på Galaxy. Ved å klikke på et filnavn i dette panelet åpner opp en dialogboks med detaljert informasjon om oppgaven utføresog en bit av datasettet (figur 2F). Ikoner i denne boksen gjør det mulig for brukeren å 'syn', 'redigere attributtene' eller 'slette' datasettet (figur 2F, markert med blått). I tillegg kan brukeren også 'Rediger' datasett koder eller merknader (figur 2F, uthevet i lilla), 'download' data, 'vis detaljer' av oppgaven, 'reprise' oppgaven eller 'visual' datasettet fra dette dialogboks (figur 2F, merket med rødt).
    6. Klikk på 'Last opp fil' -funksjonen under 'Hent data' i 'ToolsMenu' for å laste opp rå fastq filer.
      MERK: Når du klikker på denne eller andre verktøy åpner opp en kort beskrivelse av operasjonen, og selve testen, i midten 'Analyse Interface' panel. Dette panelet blonder sammen'Verktøy' fra venstre panel og 'Input Files' fra høyre 'History' panel (figur 2E). Her er innspill filer fra 'History' valgte og andre parametere definert til å kjøre en gitt oppgave. Den resulterende utgang datasett fra hver test lagres tilbake i 'History'. Følger med testen i "Analyse Interface" panel er forklaringer på alle tilgjengelige for å kjøre et gitt verktøy sammen med en detaljert liste over alle utdatafiler verktøyet genererer parametere.
    7. Etter at oppgaven åpner i 'Analyse Interface', klikk på 'Velg Lokal File' eller 'Velg FTP File' (raskere opplasting), naviger til mappen som inneholder sekvense filene og velg riktig datasettet for å bli lastet opp.
    8. La Galaxy til 'Auto-detect' den opplastede filen type (standardinnstilling). Velg "C. elEgans "i nedtrekksmenyen for genomet.
    9. Klikk på 'Start' for å starte dataopplasting. Når filen er lastet opp, vil det bli lagret i 'History' panel og kan nås fra der.
    10. Hvis produseres flere sekvensedatafiler for en enkelt prøve, kombinere dem ved hjelp av 'Slå sammen' verktøy. For å gjøre dette, åpner opp "Text Manipulasjon alternativet i 'Verktøy-menyen'.
    11. Klikk på 'Slå sammen' verktøy, velge filene som må kombineres fra drop-down boks i midten av 'Analyse interface' og klikk 'Kjør'.
      MERK: Output filer produsert ved hjelp av denne oppgaven er generert i fastq format. Kartleggingen har en grense på 16.000.000 sekvenser pr fastq fil og når denne grensen er nådd en ny fastq fil genereres for de gjenværende sekvensene. The '; Concatenate' verktøy er nødvendig i slike tilfeller å kombinere datasettene.
    12. Omdanne de opplastede fastq format til det nødvendige formatet for fastqsanger Galaxy RNA-Seq analyse ved hjelp av 'fastq groomer' verktøy finnes under 'NGS: QC og manipulasjon' -seksjonen (se supplerende fil).
    13. Velg riktig fastq datasettet under "Fil å Groom alternativet og kjøre verktøyet ved hjelp av standard parametere.
      MERK: Output filer produsert ved hjelp av denne oppgaven er generert i fastqsanger format.
  2. fastqsanger Data Quality-kontroll tester
    1. Sjekk kvaliteten på den opplastede fastqsanger leser ved hjelp av 'FastQC' verktøy under 'NGS: QC og manipulasjon' i Verktøy-menyen.
    2. Velg preparerte fastqsanger datafil fra rullegardinmenyen for 'Short lese data fra dagens bibliotek' og kjøre verktøyet ved hjelp av standard parametere.
      MERK: Vær spesielt oppmerksom på kvaliteten på leser og forekomst av adapter sekvenser. Adapterne er vanligvis fjernes som en del av post RNA-Seq databehandling av NGS-leverandører, men i noen tilfeller kan bli liggende igjen. For forklaring av kvalitetsstandarder gå til http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Sjekk med NGS leverandør og hvis adaptere er til stede, trimme dem ved hjelp av 'Clip' verktøy fra 'NGS: QC og manipulasjon' oppgave menyen.
      MERK: Output filer produsert ved hjelp av denne oppgaven blir generert i rå txt-format, samt i html som kan åpnes på hvilken som helst nettleser.
  3. Data Analysis med Tuxedo Suite
    1. Hat
      1. Last ned den nyeste versjonen av fasta og GTF (Gene Transfer Format) fra opp fil' som beskrevet ovenfor i 2.2.6.
      2. Åpne 'NGS: RNA-analyse' og klikk på 'Hat' verktøy for å kartlegge sekvense leser til den nedlastede referansen genom.
      3. Velg riktig svar fra rullegardinmenyen på spørsmålet "Er dette single-end eller parvise end data?
      4. Velg riktig fastq filen.
      5. Velg 'Bruk et genom fra historien' i neste rullegardinmenyen og velg referansen genom lastet ned i trinn 2.4.1.1.
      6. Velg 'Standard' for de andre parameterne og klikk 'Kjør'.
        MERK: Blant output filer produsert ved hjelp av denne oppgaven, er 'Akseptert Hits' filen som brukes for etterfølgende trinn.
    2. Mansjettknapper og Cuffmerge
      1. Velg 'Cufflinker verktøy i 'NGS: RNA Analyse' for å montere transkriptene, anslå deres overflod og test for differensiell ekspresjon.
      2. I den første rullegardinmenyen, velger de kartlagte 'Godkjent treff (BAM-format)' fil hentet fra Hat analyse.
      3. I den andre rullegardinmenyen, sett henvisning merknad til GTF fil lastet ned i trinn 2.4.1.1.
      4. Velg 'Ja' for 'Utfør skjevhet korreksjon alternativet og kjøre oppgaven med standardinnstillingene for alle andre parametere.
        MERK: Blant output filer produsert ved hjelp av denne oppgaven, er den 'Godkjente transkripsjoner' filen som brukes for etterfølgende trinn.
      5. Åpne 'Cuffmerge' verktøy i 'NGS: RNA Analyse' for å slå sammen de 'Sammensatte Transkripter' produsert for alle RNA-Seq prøver.
        MERK: Første boksen i verktøyselv fylles og lister alle mansjettknapper.
      6. Velg 'Assembled transkripsjoner' fil for alle stammer / vilkår som ble testet, inkludert biologiske replikater av samme stamme / tilstand (Se diskusjonen for biologiske replikat).
      7. Velg 'Ja' for 'Bruk Reference Kommentar' og velg GTF fil lastet ned i trinn 2.4.1.1.
      8. I det følgende boksen, igjen velger 'Ja' for 'Bruk Sequence Data' alternativet og velger hele genomet fasta fil lastet ned i trinn 2.4.1.1.
      9. Holde de andre parameterne som standard, klikk 'Kjør'.
        MERK: Cuffmerge genererer en enkelt GTF utdatafilen.
    3. Cuffdiff
      1. Til delen Cuffdiff "verktøy i 'NGS: RNA Analysis' -delen. I "Avskrifter-menyen, velg den sammenslåtte utdatafilen fra Cuffmerge.
      2. Merkelappforhold 1 og 2 med de to stammene / -betingelsesnavn.
        MERK: Cuffdiff kan utføre sammenligninger mellom mer enn to stammer eller forhold samt tidskurs eksperimenter. Bare bruk "Legg til nye forhold alternativet til å legge hver nye stammer / tilstand, etter behov.
      3. For hver stamme / tilstand, under 'Replikater' velge individuelle produksjonen filer fra Hat som tilsvarer de ulike biologiske replikater av at belastningen / tilstand 'Godkjent treff'. Hold 'cmd' -tasten, hvis du bruker en Macintosh-maskin, og 'ctrl' -tasten, hvis du bruker en PC, for å velge flere filer.
      4. La alle andre alternativer som standard parametere. Klikk 'Execute' for å kjøre oppgaven.
        MERK: Cuffdiff genererer mange utgang filer i et tabellformat som det endelige avlesning av RNA-Seq analyse. Disse inkluderer filer med FPKM sporing for karakterutskrifter, gener (kombinertFPKM verdier av transkripter som deler et gen identitet), primære transkripter og kodende sekvenser. Alle datafiler som er generert kan vises på en hvilken som helst regnearkprogram og inneholder liknende egenskaper som genet navn, locus, fold endring (i log2 skala) samt statistiske data på sammenligninger mellom stammer / tilstander, inkludert p-verdi og q-verdiene. Dataene i disse filene kan sorteres basert på statistisk signifikans av forskjeller eller fold forandring i genekspresjon (størrelsen og retningen av forandring, som i opp- eller ned-regulerte gener) og manipulert i henhold til brukernes krav. Dersom konvertering mellom ulike gen identifikatorer er nødvendig (for eksempel, Wormbase gen ID vs. kosmid-nummer), verktøy tilgjengelig på Biomart ( http://www.biomart.org/ ) kan anvendes.

3. Gene Ontologi (GO) Term Analyse ved hjelp av DAVID

  1. Tilgang DAVID fra nettsiden https: //david.ncifcrf.gov/. Klikk på 'Start Analysis' i overskriften på nettsiden. I Trinn 1, kopiere og lime listen av gener som oppnås fra Galaxy inn i rute A. I 'Trinn 2', velger 'Wormbase Gene-ID' som identifikator for det innførte gener.
    MERK: DAVID gjenkjenner de offentlige tilgjengelige merknadskategorier, slik at andre genet identifikatorer (for eksempel Entrez gen ID eller gen symbol) kan også benyttes.
  2. I 'Trinn 3', velg 'Gene List' (gener som skal analyseres) under 'er Type', og klikk deretter på 'Send List' ikonet.
    MERK: 'Analyse Wizard', vil åpne opp for å liste opp alle hyperkoblet DAVID verktøy som kan kjøres på den opplastede genet listen (figur 3). Klikk på disse linkene for å få tilgang til relevante tilsvarende moduler som per brukerens behov. For å identifisere de verktøyene som passer for en gitt oppgave, klikk på "Hvilke DAVID verktøy å bruke? Koblingen på " ; Analyse Wizard' side. Klikk på "Start Analysis koblingen i overskriften for å gå tilbake til 'Analyse Wizard' hjemmeside på noe tidspunkt under analysen.

Figur 3
Figur 3: Oppbygning av DAVID Analyse Wizard webside og Eksempler på Operasjon utganger. Den "Analysis Wizard Internett-bruker-grensesnitt viser de verktøy som brukes til å analysere den overførte genet liste for anrikning på grunnlag av forskjellige parametere. Ved å klikke på disse verktøyene rapporterer de analyserte data på en ny nettside. Eksempler på tabell rapporter som genereres fra 'Gene Functional Classification', 'Funksjonell merknad Chart' og 'Funksjonell Kommentar Clustering' vises som innfellinger (piler).> Klikk her for å se en større versjon av dette tallet.

  1. Funksjonell merknad verktøyet 1: Funksjonell Kommentar Clustering
    1. Klikk på 'Functional Kommentar Clustering' modul for å gå til sammendraget siden. Beholde standardmerknads kategorier og klikk på 'Functional Stempler Clustering' for å generere klynger av lignende merknads vilkår rangert etter sin anriking poengsum.
    2. Klikk på hyper navnet på hvert begrep for å lese mer om det og 'RT' (beslektede begreper) for å vise andre lignende vilkår knyttet til den kategorien.
    3. Klikk på den lilla linjen for å liste opp gener assosiert med løpetid og den røde 'G' for å liste opp alle gener assosiert med alle vilkårene i en klynge.
    4. Klikk på den grønne ikonet for å se en to-dimensjonal visning av alle genene og vilkår i en klynge.
      MERK: De tre siste kolonnene liste analytiske og statistiske resultatene for hverbegrep. Resultatene for denne og alle andre analyser kan lastes ned i en TXT-format ved å klikke på 'Last ned fil' link.
  2. Funksjonell merknad verktøyet 2: Funksjonell Kommentar Chart
    1. Gå tilbake til sammendraget siden og klikk på 'Functional Stempler Chart' for å identifisere betydelig overrepresentert biologiske termer (f.eks transkripsjonsfaktor aktivitet eller kinase aktivitet) forbundet med genet listen.
    2. Klikk på sikt for å få mer detaljert informasjon og 'RT' (beslektede begreper) for å vise andre beslektede begreper.
    3. Klikk på den lilla linjen for å vise alle tilhørende genene til tilsvarende enkelte kategori.
      MERK: De to siste kolonnene liste de statistiske-tester resultater for hver kategori.
  3. Funksjonell merknad verktøyet 3: Funksjonell Kommentar Table
    1. Gå tilbake til sammendraget siden og klikk på "funksnal Stempler tabell for å vise en liste over alle kommentarer forbundet med gener på en liste uten noen statistiske beregninger.
      Merk: Dette verktøyet kan være nyttig for gen-av-genet analyse av en liste eller for å se på spesifikke, meget interessante gener.
  4. Gene Funksjonell klassifisering Tool
    1. Vende tilbake til 'Analysis Wizard' og trykk på 'Gene funksjonelle klassifisering' modul til å segregere inngangs genet listen til funksjonelt beslektede grupper av gener rangert i henhold til deres 'Enrichment Score', et mål på samlet anrikning av genet gruppen i listen.
    2. Klikk på sikt for å få mer detaljert informasjon og 'RG' for å avsløre funksjonelt beslektede gener av genet gruppen
    3. Klikk på den røde 'T' (term rapporter) å liste forbundet biologi og det grønne ikonet for å se en to-dimensjonal visning av alle genene og vilkår.
  5. Gene-navnbatch Viewer
    1. Gå tilbake til 'Analyse Wizard' og klikk på 'Gene-navn Batch Viewer' oversette 'Wormbase Gene IDer' i sine tilsvarende genet navn. (WBGene00022855 = tcer-1).
    2. Klikk på genet navn for å få mer genet spesifikk informasjon.
    3. Klikk på 'RG' (relaterte gener) ved siden av hver-genet for å åpenbare gener som anslås å være funksjonelt relatert til genet av interesse.

4. Opplasting RAW data på NCBI Sequence Les Archive (SRA)

  1. Åpne SRA nettsiden på Logg deg på NCBI koblingen eller registrere en ny konto.
  2. Klikk på 'Bioproject'.
  3. Klikk på 'Submission' under "Bruke Bioproject overskriften på venstre side.
  4. Velg alternativet 'Ny Submission'. Oppdater detaljer om innsenderen. Fortsett gjennom de resterende syv kategoriene, Fylle i detaljene i forsøket og data lastes opp. Klikk 'Send' når du er ferdig.
    MERK: I den femte kategorien 'Biosample', la sporet for 'Biosample' tom.
  5. Oppdatere resultatsiden ved å klikke på 'Mine innleveringer koblingen. De innsendte data vil bli oppført med en tildelt innsending nummer, kort beskrivelse og opplastingsstatus.
  6. Klikk på 'Biosample' øverst på denne siden, i 'starte en ny innsending' boksen og skape en 'ny innlevering'. Levere separate innleveringer for hver prøve.
  7. Som i tilfellet med 'Bioproject' i 4.4, oppdatere detaljene i innsenderen og fortsette gjennom resten av fanene fylle i detaljene for hver kategori. Etter fullført gjennomgang og klikk 'Send'.
  8. Naviger til http: //www.ncbi.nlm.nih.gov / SRA å lage den endelige 'Sequence Les Archive (SRA)' underkastelse.
  9. Klikk på 'Logg inn SRA' under 'Komme i gang'.
  10. På neste side klikker du på "NCBI PDA-koblingen. En 'Oppdater Innstillinger' vil åpne opp. Fyll ut skjemaet og klikk 'Lagre innstillinger'.
  11. På siden som vises, klikker du på "Opprett ny Submission koblingen. Skriv inn et passende navn under 'Alias' og klikk 'Lagre'. En tabell med innlevering ID og andre detaljer vil bli opprettet.
  12. Klikk på 'Nytt eksperiment' og registrere minst en unik sekvensering bibliotek for hver 'BioSample'.
  13. Utpeke og knytte den tidligere opprettede 'BioProject' og 'BioSample' innsending IDer. En 'New Experiment' vil bli opprettet.
  14. Klikk på 'New Run' nederst på sidenetter at SRA Eksperimenter har blitt gjort og identifisere datafiler som må være knyttet til det.
  15. Beregn MD5 summen av hver datafil. For å gjøre dette på en MacIntosh terminal, naviger til Programmer / Verktøy / Terminal. I terminal, type under 'MD5' (uten anførselstegn) etterfulgt av et mellomrom. Dra og slipp filer som må lastes opp til terminalen fra finder og klikk 'Enter'.
  16. Terminalen vil returnere en alfanumerisk MD5 sum. Skriv inn dette som en del av innsendingsprosessen for filopplasting. Bruk brukernavn og passord gitt av systemet for å laste opp filer via FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I C. elegans, eliminering av kimlinje-stamceller (GSCs) strekker levetid, øker spenningsmotstandsdyktighet, og løfter kroppsfett 24, 28. Tap av GSCs, enten forårsaket av laser-ablasjon eller ved mutasjoner, slik som GLP-1, forårsaker levetid forlengelse gjennom aktivering av et nettverk av transkripsjonsfaktorer 29. En slik faktor, TCER-1, koder ormen homolog av human transkripsjon forlengelse og skjøting faktor, TCERG1 30. De følgende representative resultater illustrerer hvordan RNA-Seq ble anvendt for å identifisere gener hvis ekspresjon blir modulert av TCER-1 / TCERG1 følgende kimlinje tap i vår nylig publisert studie 31. De transcriptomes alder-matchet, dag 2 voksne av GLP-1 og tcer-1; GLP-1 mutanter ble sammenlignet. For hver stamme ble mRNA isolert fra to biologisk replikates (fire prøver fullstendig) ved å bruke den protokoll som er beskrevet i avsnitt 1. RNA-prøver ble sendt til en kommersiell leverandør som fremstilles av cDNA-biblioteker fra de fire prøvene og utføres 50 bp enkelt endesekvensering. Den rå NGS data ble lastet ned som beskrevet i kapittel 2.1.

Innlegg sekvenseringsdata evaluering

Tabell 1 er en samling av testresultater for å vurdere kvaliteten på rå sekvense leser. 'FASTQ' kvalitetssjekk Analysen angir antallet sekvenser lest med ingen 'dårlig kvalitet' leser sammen med 48-49% GC-innhold og en konstant sekvens lese lengde på 51 bp. Dette trinnet sjekker også sekvenseringsdata for mange andre funksjoner som Kmer innhold og er kollektivt består av 11 tester totalt. The C. elegans genomet er ~ 100 MBP. Basert på antallet av sekvense leser fra hver prøve som avbildes til genomet, g-enome dekning (siste kolonne) ble beregnet ved hjelp av Lander / Waterman ligning 'C = LN / G', karakterisert ved, K står for dekning, er G det haploide genom lengde, er L lese lengde og N er antallet leser. Vi brukte standardparametre for alle trinnene og oppnådd 48-49% GC-innhold i alle prøvene. Som man kan se, genom dekning var mellom 9x til 11x i prøvene.

Identifisering av TCER-1 / TCERG-1-regulerte gener ved differensiell genekspresjon Analyse på Galaxy

Gjennom fremgangsmåten beskrevet i avsnitt 2.2 til 2.4, ble det Galaxy rørledningen 3 benyttes for å oppnå en liste av gener differensielt uttrykte mellom GLP-1 og tcer-1, GLP-1-mutanter. Galaxy gjort oss i stand til å kombinere de NGS data fra de to replikater for hver stamme og utført differensialanalyse for å generere tabellfiler fremhever genomet brede uttrykket profile. Ved hjelp av en terskel av minst ett ganger endring i størrelse og P-verdi på minst 0,05, ble en liste over 835 gener som er differensielt uttrykte mellom de to stammene som genereres 31. Listen ble delt basert på hvorvidt ekspresjon av genene ble nedregulert i tcer-1, GLP-1-mutanter (359 UP gener hvis transkripsjon er trolig forbedret med TCER-1 / TCERG1) eller oppregulert (476 NED-gener hvis transkripsjon er sannsynligvis undertrykt av TCER-1 / TCERG1) sammenlignet med GLP-1 (figur 4).

Figur 4
Figur 4: Identifisering av TCER-1 / TCERG1-regulerte gener i kimlinje-mindre C. elegans mutanter ved bruk av RNA-Seq: Resultater av Galaxy (A) og DAVID (B) Analyser. (A) Differential gene expression analyse av RNA-Seq data som sammenlignerde transcriptomes av GLP-1 og tcer-1, GLP-1 ga en total på 835 gener, hvorav 359 ble identifisert som å være oppregulert ved TCER-1 / TCERG1 (OPP) og 476 som nedregulert ved TCER-1 / TCERG1 (NED). (B) Resultater av 'Functional Stempler Gruppering' analyse av gener som er identifisert som TCER-1 / TCERG1 mål ved bruk av DAVID. Prosentandel anrikning av biologiske fremgangsmåter for både de oppregulert (OPP) og nedregulert (ned) for hver av klassene TCER-1 / TCERG1 mål. Den grafiske vist her oppnås ved å plotte de anrikede genet grupper (X-aksen) og deres respektive prosent berikelse (Y-aksen) er oppnådd som resultatet av DAVID analyse. Figur modifisert fra Amrit et al. 31 og gjengitt med tillatelse. Klikk her for å se en større versjon av dette tallet.

For å få en oversikt over de genet klassene anriket på TCER-1 / TCERG1 mål, gjennomførte vi genet ontology (GO) sikt analyse ved hjelp av DAVID. Den TCER-1 / TCERG1-regulert OPP og NED-genet listene ble lastet opp uavhengig av hverandre på DAVID og analysert som beskrevet under punkt 3. Lite er kjent om genene og cellulære prosesser rettet av TCER-1 / TCERG1 tidligere 30, så har vi funnet DAVID analyse for å være spesielt avslørende og nyttig. Funksjonell analyse annotering av OPP-genene viste fem Annotering klynger med en anrikning poeng på> 1,3, høyest blant Cytokrom P450 enzym-kodende gener og xenobiotiske responsgener, etterfulgt av gener involvert i lipid modifikasjoner. Dette ble forsterket ved resultatene av Gene funksjonelle klassifisering analyse som identifiserte grupper tilskrevet med lignende molecular aktiviteter med betydelig berikelse skårer. Ved hjelp av regnearket, ble de identifiserte gruppene plottet mot deres respektive berikelse score (figur 4). Vår tidligere data antydet at TCER-1 / TCERG1 fungert med den konserverte levetid transkripsjonsfaktor, DAF-16 / FOXO3A, for å fremme lang av GSC-mindre voksne 30. DAF-16 / FOXO3A, i sin tur, har vært implisert i modulering av lipid-metabolisme i nyere studier 27, 32, 33. Basert på denne bevis, og identifisering av lipid-metabolisme gener og trasé som potensielle TCER-1 / TCERG1 mål i DAVID analyser, fokuserte vi på fettstoffskiftet gener som er identifisert i den RNA-Seq studie for detalj mekanistiske undersøkelser. Etter denne bly, og gjennom påfølgende molekylær genetisk, biokjemiske og funksjonelle eksperimentering, demonstrerte vi at TCER-1 / TCERG1 sammen med DAF-16 / FOXO3A koordinert enhanced både lipid katabolske og anabolske prosesser som reaksjon på germline tap 31. Tilsvarende funksjonelle annotering Gruppering av den DOWN TCER-1 / TCERG1 mål identifisert av merknads klynger anriket for cytoskjelett funksjoner, positiv regulering av vekst, reproduksjon og aldring (figur 4). Disse observasjoner, og våre støtter eksperimentelle bevis foreslår at ved kimlinje tap, TCER-1 / TCERG1 undertrykker også vekst og reproduksjon fysiologi i somatiske celler, så vel som ekspresjon av anti-levetid gener 31.

Prøve Totalt Sekvenser Lengde % GC Total Leser (Galaxy) Kartlagt Leser (Galaxy) Genome Dekning
GLP-1 4000000 51 49 20700539 ~ 16000000 11x
GLP-1; tcer-1 4000000 51 49 18055444 ~ 13000000 9x
GLP-1 4000000 51 48 18947463 ~ 14000000 10x
GLP-1; tcer-1 4000000 51 48 13829643 ~ 10000000 7x

Tabell 1: RNA-Seq Eksempel på Detaljer. Utarbeidelse av rådata attributter evaluert etter sekvensering for å bekrefte suksess for sekvense løp. Sekvensering av data fra den representativt forsøk består av to biologiske tilstander, en kontrollstamme (GLP-1 (tcer-1, GLP-1) med to biologiske replikater for hver sekvens. 'FastQC' kvalitetssjekk Analysen angir antallet sekvenser les med ingen "dårlig kvalitet" leser 48 år - 49% GC-innhold og en konstant sekvens lese lengde på 51bp. Modifisert og gjengitt med tillatelse fra Amrit et al. 31.

Supplerende Fil: Command kjede i korte trekk for verktøyene kjøre på Galaxy rørledning for RNA-Seq dataanalyse. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Betydningen av Galaxy Sequencing Platform i moderne biologi

Galaxy-prosjektet har blitt instrumental i å hjelpe biologer uten bioinformatikk trening for å behandle og analysere high-throughput sekvensering av data på en rask og effektiv måte. Betraktet som en Herculean oppgave, denne allment tilgjengelige plattformen har gjort kjøre komplekse bioinformatikkdataene algoritmer for å analysere data NGS en enkel, pålitelig og enkel prosess. Bortsett fra verts et bredt spekter av bioinformatikk, er nøkkelen til suksess for Galaxy også enkelhet av dens brukergrensesnitt som snører sammen de ulike aspekter av komplekset sekvensanalyse på en intuitiv og sømløs måte. På grunn av disse egenskaper, har Galaxy rørledningen ervervet brede bruken blant biologer, inklusive C. elegans forskere. I tillegg til å bli kjent brukeren med RNA-Seq Analyse rørledning, Galaxy bidrar også legge grunnlaget for grunnleggende biologer å gripebegrepet dataanalyse og forstå de verktøyene som er involvert. Denne kunnskapen klargjør at brukeren kanskje videre forfølge mer komplekse bioinformatikk plattformer som 'R' og 'Python'. Dessuten Galaxy, andre verktøy og pakker er kommersielt tilgjengelige og som open-source-løsninger, som kan anvendes for RNA-Seq analyse. De kommersielle alternativer er ofte frittstående programvarepakker som er brukervennlige, men kan bli dyrt for enkeltforskere som ikke bruker NGS ofte. Alternativt åpen kildekode plattformer som BioWadrobe 34 og ArrayExpressHTS 35 krever kjennskap til kommandolinjen og kjøre skript, som byr på betydelige utfordringer for ikke-bioinformatikere. Derfor Galaxy fortsatt et populært og uunnværlig ressurs.

Kritiske trinnene i protokollen

Uanstrengt fordelene med Galaxy og David tross, en vellykket RNA-Seq eksperiment fortsattavhengig fundamentalt på nøyaktig konstruksjon og utførelse av de eksperimentelle trinn. For eksempel, er det avgjørende å sikre genetisk homogenitet før sammenligning av to stammer av RNA-Seq, og for å bestemme om det finnes forskjeller i utviklings priser. Isolering av RNA fra alders-tilpassede stammer er kritisk i tillegg. På samme måte, for å ta hensyn til variasjon av genekspresjon i løpet av den samme stamme, er det viktig å kjøre to eller flere biologiske replikater 'av hver stamme. Dette betyr i hovedsak dyrking og høsting ormer fra de stammer som blir sekvensert i det minste twoindependent eksperimenter, selv om tre biologiske replikater er den anbefalte standard. Galaxy forener data fra flere biologiske replikater slik at de rapporterte gen-ekspresjons forskjeller mellom stammer er ikke bare en følge av 'i-prøve' variabilitet.

En kritisk utforming avgjørelse om bruk av single-end vs. parvise end sekvensering. Medenkelt-ende-sekvensering, er hvert fragment sekvensert i samme retning slik at prosessen er raskere, billigere og egner seg for transkripsjonen profilering. I parvise slutt sekvensering, når fragment blir sekvensert fra den ene ende til den annen, blir en andre runde av sekvensering ble gjenopptatt i den motsatte retning. Det gir mer detaljerte data og ytterligere informasjon av genomet posisjonering, så er mer egnet for de novo-genomet sammenstillingen, ny SNP identifikasjon og for å identifisere epigenetiske modifikasjoner, delesjoner, innskudd og inversjoner. På lignende måte, det totale antall leser og omfang av genomet dekning som kreves for tilfredsstillende differensial ekspresjonsundersøkelser er avhengig av konteksten. For små genomer, som bakterier og sopp, ~ 5 millioner leser er tilstrekkelig, mens i ormer og flyr ~ 10 millioner leser gi tilstrekkelig dekning. For organismer med store genomer som mus og mennesker, 15-25000000 leser er det nødvendige området. I tillegg til å lese tall og dekning, er det også important at det meste av NGS leser justeres til referanse genomet. En justering av <70% leser er en indikasjon på dårlige NGS eller tilstedeværelse av forurensninger. Samlet for C. elegans RNA-Seq studier, tre biologiske replikater sekvensert med 50 bp ensrettede sekvensering som resulterer i ~ 10-15 millioner leser og ~ 5-10X genomet dekning for hver prøve er et ideelt mål.

Til tross for den enkle å bruke Galaxy, er det noen punkter å huske på for å sikre en jevn og glitch-fri dataanalyse erfaring. Det er nødvendig for at brukeren skal ha en grunnleggende forståelse av formål og funksjon av de ulike verktøyene som brukes. Hver Galaxy verktøyet krever valg av parametere og forstå verktøyet vil hjelpe brukeren å optimalisere innstillinger basert på kravet om forsøket. GALAXY hjelpesider forklare hver parameter, og det anbefales at brukeren lese disse detaljene til å bestemme på testvariabler.

Genet liste oppnådd post RNA-Seq analyse er bare en liste av gener til det er utvunnet for biologisk relevant data ved hjelp av DAVID. Dette er en viktig oppgave som omdanner de enkelte genbaserte data til biologisk-prosess basert resultater. Utforsking av RNA-Seq gen listen ved hjelp av de forskjellige analyse DAVID gir er derfor en integrert og viktig del av protokollen.

Modifikasjoner, feilsøking og begrensninger

En vanlig feil med NGS dataanalyse er oppgaver eller tester som mislykkes, særlig på kvalitetskontrolltrinn. Av testene som FastQC kjører på en prøve, noen kunne komme opp som mislyktes. Men dette betyr ikke nødvendigvis at prøven ikke oppfyller fastq kvalitetsstandarder. Svikten kan ha en alternativ forklaring som bør utforskes nøye.

For eksempel, hvis 'Per basesekvensen innhold' testen mislykkes (noe som tyder på at det er en større enn 10% forskjell mellombaser i hvilken som helst stilling), kontrollerer fremgangsmåten for oligodT biblioteket preparatet. Tidligere arbeid har vist at Illumina NGS bibliotekene kan ha en tilbøyelighet for den 13. bunnen blir sekvensert for å ha en bias for visse baser som forårsaker at prøven feiler testen. På samme måte kan en svikt i 'Kmer innhold' test noen ganger skyldes det faktum at bibliotekene stammer fra tilfeldig priming vil nesten alltid vise Kmer skjevhet i starten på grunn av en ufullstendig utvalg av de tilfeldige primere. Derfor er det viktig å vurdere disse og andre hindringer i analysen rørledningen før bestemme skjebnen av forsøket.

En annen viktig funksjon som kan påvirke RNA-Seq dataanalyse er den raske og eksponensiell fremskritt som er oppstått i NGS metoder og analytisk programvare. Ideelt sett forventer man en identisk gen liste å resultere fra å analysere en prøve NGS data på to rørledninger eller to versjoner av det samme rørlinje. Imidlertid, mens stadig bedre algoritmer er å senke avvik i RNA-Seq analyse og fremstilling av gen-lister med større nøyaktighet, dette fører ofte til ulikheter. For eksempel, å analysere en prøve NGS data ved hjelp av en eldre vs. nyere versjon av den samme verktøysett kan betydelige forskjeller i genet lister. En beskjeden variant forventet, men brukerne må være klar over at store avvik kan være representative for svakheter i design eller ytelse av forsøket.

Samlet har Galaxy Prosjekt og David analyseverktøy endret måten NGS data kan bli brukt til å trekke biologisk relevant informasjon. Dette har åpnet helt nye nivåer av uavhengighet og etterforskning til det vitenskapelige miljøet, inkludert C. elegans forskere. For eksempel, er det å konstant redusere kostnadene ved sekvensering kombinert med bedre og raskere sekvenseringsteknologi å innlede en av transcriptomics på nivået av enkelt ormer,individuelle ormen vev og selv få velge ormen celler. Disse bestrebelser involvere dramatiske økninger i NGS data blir generert. Å holde tritt med den analytiske slutten av denne arbeidsflyten vil være en utfordring, men på grunn av sin allsidighet, er sannsynlig å være medvirkende i styrke ved overgangen fra hele organismen transcriptomics til RNA-Seq ved celle-nivå i C. elegans Galaxy. De resulterende fremskritt i kunnskap vil trolig gi ekstraordinære innsikt i grunnleggende biologi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ikke noe å avsløre.

Acknowledgments

Forfatterne ønsker å uttrykke sin takknemlighet til laboratorier, grupper og enkeltpersoner som har utviklet Galaxy og David, og dermed gjort NGS allment tilgjengelig for det vitenskapelige samfunn. Hjelp og råd gitt av kolleger ved University of Pittsburgh under bioinformatikk trening er anerkjent. Dette arbeidet ble støttet av en Ellison Medical Foundation New Scholar i Aging award (AG-NS-0879-12) og en bevilgning fra National Institutes of Health (R01AG051659) til AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics