Galaxy og David har dukket opp som populære verktøy som lar etterforskerne uten bioinformatikk trening for å analysere og tolke RNA-Seq data. Vi beskriver en protokoll for C. elegans forskere å utføre RNA-Seq eksperimenter, åpne og behandle datasettet ved hjelp av Galaxy og oppnå meningsfull biologisk informasjon fra gense listene ved hjelp av DAVID.
Neste generasjons sekvensering (NGS) teknologi har revolusjonert natur biologiske undersøkelser. Av disse har RNA-sekvensering (RNA-Seq) er et kraftig verktøy for gen-ekspresjon analyse og transcriptome kartlegging. Men håndtering av RNA-Seq datasett krever avansert beregningskompetanse og utgjør iboende utfordringer for biologi forskere. Denne flaskehalsen har blitt dempet av åpen tilgang Galaxy prosjekt som gjør at brukere uten bioinformatikk ferdigheter til å analysere RNA-Seq data, og Database for kommentering, visualisering, og integrert Discovery (David), en Gene ontologi (GO) begrep analyse pakke som hjelper utlede biologisk betydning fra store datasett. Men for førstegangsbrukere og bioinformatikk amatører, selvlærende og kjent med disse plattformene kan være tidkrevende og skremmende. Vi beskriver en enkel arbeidsflyt som vil hjelpe C. elegans forskere å isolere orm RNA, gjennomføre en RNA-Seq eksperimentog analysere data ved hjelp av Galaxy og David plattformer. Denne protokollen gir trinnvise instruksjoner for bruk av de forskjellige Galaxy modulene for å aksessere rå NGS data, kvalitetskontroller, oppstilling og differensial- genekspresjon analyse, veilede brukeren med parametre på hvert trinn for å generere et gen liste som kan bli screenet for anrikning av gen klasser eller biologiske prosesser som bruker DAVID. Samlet sett forventer vi at denne artikkelen vil gi informasjon til C. elegans forskere foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.
Den første sekvensering av det menneskelige genom, utført ved hjelp av Fred Sanger er dideoksynukleotid-sekvensering metoden, tok 10 år, og kostet anslagsvis US $ 3000000000 1, 2. Men i litt over et tiår siden begynnelsen, Next-Generation Sequencing (NGS) teknologi har gjort det mulig å sekvensere hele det menneskelige genom i løpet av to uker, og for US $ 1000. Nye NGS instrumenter som gir stadig økende hastigheter på sekvensering-datainnsamling med utrolig effektivitet, sammen med skarpe reduksjoner i kostnader, revolusjonerer moderne biologi i utenkelige måter som genomsekvense prosjekter er raskt blitt vanlig. I tillegg har denne utviklingen galvanisert fremskritt på mange andre områder som for eksempel gen-ekspresjon analyse ved RNA-sekvensering (RNA-Seq), undersøkelse av genom epigenetiske modifikasjoner, DNA-protein-interaksjoner, og screening for mikrobiell diversitet i humane verter. NGS-baserte RNA-Seq særlig har gjort det mulig å identifisere og kartlegge transcriptomes grundig med nøyaktighet og følsomhet, og har erstattet mikromatriser som den foretrukne metode for ekspresjonsanalyse. Mens mikromatriser har blitt brukt i stor utstrekning, er det begrenset av dens avhengighet av eksisterende matriser med kjent genomisk informasjon og andre ulemper, så som tverr hybridisering og begrenset utvalg av uttrykk endringer som kan måles pålitelig. RNA-seq, på den annen side, kan brukes til å detektere både kjente og ukjente transkripter mens produserer lav bakgrunnsstøy på grunn av dets entydige DNA kartlegging natur. RNA-Seq, sammen med de mange genetiske verktøy som tilbys av modellorganismer som gjær, flue, mark, fisk og mus, har fungert som grunnlag for mange viktige siste biomedisinske funn. Men fortsatt store utfordringer som gjør NGS utilgjengelige til den større vitenskapelige samfunnet, inkludert begrensninger lagring, behandling, og mest av alt, m eaningful bioinformatikk analyse av store volumer av data sekvensering.
De raske fremskritt innen sekvense teknologier og eksponentiell data akkumulering har skapt et stort behov for beregnings plattformer som vil tillate forskere å få tilgang, analysere og forstå denne informasjonen. Tidlig systemer var sterkt avhengig av programmering kunnskap, mens genomlesere som NCBI som tillot ikke-programmerere for å få tilgang til og visualisere data tillot ikke sofistikerte analyser. Det web-baserte, åpen tilgang plattform, Galaxy ( https://galaxyproject.org/ ), har fylt dette tomrommet og vist seg å være en verdifull rørledning som gjør det mulig for forskere å behandle NGS data og utføre et spektrum av enkel-å-kompleks bioinformatikk analyser. Galaxy ble opprinnelig etablert og opprettholdes ved laboratorier av Anton Nekrutenko (Penn State University) og James Taylor (Johns Hopkins University)f "> 3. Galaxy tilbyr et bredt spekter av beregningsoppgaver slik at det er en 'ett sted' for utallige bioinformatikkdataene behov, inkludert alle trinnene som er involvert i en RNA-sekv studien. Itallows brukere å utføre databehandling, enten på sine servere eller lokalt på sine egne maskiner. Data- og arbeidsflyt kan reproduseres og deles. Online opplæring, hjelp delen, og en wiki-side ( https://wiki.galaxyproject.org/Support ) dedikert til Galaxy Prosjekt gi konsistent støtte. Men for førstegangsbrukere, særlig de uten bioinformatikk trening, rørledningen kan virke skremmende og prosessen med selvlærende og tilvenning kan være tidkrevende. Dessuten, det biologiske system som studeres, og detaljene i eksperimentet og metoder som brukes, innvirkning analytiske beslutninger på flere trinn, og disse kan være vanskelig å navigere uten instruksjon.
Den samlede RN A-Seq Galaxy arbeidsflyt består av data opplasting og kvalitetskontroll, fulgt av analyse ved anvendelse av Tuxedo Suite 4, 5, 6, 7, 8, 9, som er et kollektiv av forskjellige verktøy som er nødvendige for forskjellige stadier av RNA-Seq dataanalyse 10, 11, 12, 13, 14. En typisk RNA-Seq eksperiment består i den eksperimentelle del (prøvepreparering, mRNA isolert og cDNA-bibliotek fremstilling), NGS og bioinformatikkdataene analyse. En oversikt over disse seksjonene, og de trinn som er involvert i den Galaxy rørledningen, er vist i figur 1.
3fig1.jpg"/>
Figur 1: Oversikt over en RNA-Seq arbeidsflyt. Illustrasjon av de eksperimentelle og beregningstrinn som er involvert i en RNA-Seq eksperiment for å sammenligne gen-ekspresjons-profiler av to snekke-stammer (A og B, oransje og grønne linjer og piler, henholdsvis). De forskjellige moduler av Galaxy benyttes er vist i esker med det tilsvarende trinn i vår protokollen angitt i rødt. Utgangene av ulike operasjoner er skrevet i grått med filformater som vises i blått. Klikk her for å se en større versjon av dette tallet.
Det første verktøyet i Tuxedo Suite er en justering program kalt 'Tophat'. Det bryter ned den NGS inngang står i mindre fragmenter, og deretter kart dem til en referanse genom. Denne to-trinns prosessen sikrer at lyder som strekker seg over intron regioner hvis innretting ellers kan være disrupted eller savnet regnskapsføres og kartlagt. Dette øker deknings og letter identifikasjon av nye spleisesteder. Tophat utgang er rapportert som to filer, en seng fil (med informasjon om spleisesteder som omfatter genomisk plassering) og en BAM-fil (med kartlegging detaljer om hver leser). Det neste er at BAM filen justert mot en referanse genom å anslå overflod av enkelte vitnemål innenfor hver prøve med påfølgende verktøy i Tuxedo Suite kalt 'mansjettknapper'. Mansjettknapper funksjoner ved å skanne justerings å rapportere full lengde transkripsjon fragmenter eller 'transfrags' som spenner alle mulige spleisevarianter i inngangsdata for hver gen. Basert på dette, blir det generert en 'transcriptome' (sammenstilling av alle transkripter og generert for hvert gen for hvert gen) for hver prøve som blir sekvensert. Disse Mansjettknapper sammenstillinger er kollapset eller sammensmeltes sammen med gjenientere genom for å produsere en enkelt merknadsfil for nedstrømsdifferensialanalyse ved hjelp av den neste verktøy, 'Cuffmerge'. Til slutt, det 'Cuffdiff' verktøy måler differensial genekspresjon mellom prøvene ved å sammenligne TOPHAT utgangene fra hver av prøvene til den endelige Cuffmerge utgangsfilen (figur 1). Mansjettknapper bruker FPKM / RPKM (Fragmenter / Leser Per kilobaser av karakterutskrift per million kartlagt leser) verdier for å rapportere transkripsjon Forekomsten. Disse verdier gjenspeiler den normaliseringen av de rå NGS data for dybden (gjennomsnittlig antall leser fra en prøve som kan tilpasses til referanse genomet) og genet lengde (gener har forskjellig lengde, så tellinger må være normalisert til lengden av et gen for å sammenligne nivåene mellom gener). FPKM og RPKM er i det vesentlige den samme med RPKM som brukes for enkelt-end RNA-Seq der hver lese svarer til et enkelt fragment, mens blir FPKM benyttes forsammenkoblet ende RNA-Seq, som den gjør rede for det faktum at to leser kan tilsvare det samme fragment. Til syvende og resultatet av disse analysene er en liste av gener differensielt uttrykte mellom de betingelser og / eller stammene som ble prøvd.
Når en vellykket Galaxy løp er fullført og en 'gen listen' genereres, krever det neste logiske skrittet flere bioinformatikk analyser for å utlede menings kunnskap fra datasettene. Mange programvarepakker har kommet for å imøtekomme dette behovet, inkludert offentlig tilgjengelige web-baserte beregnings pakker som DAVID (Database for kommentering, visualisering og integrert funn) 15. DAVID muliggjør tilordning av biologisk betydning for store gen lister fra high-throughput-studier ved å sammenligne den opplastede genet listen til den integrerte biologiske kunnskapsbase og avsløre de biologiske merknader er forbundet med genet listen. Dette etterfølges av Enrichment Analysis, dvs. testene til Identify om noen biologisk prosess eller gen klasse er en overrepresentasjon i genet listen (e) i en statistisk signifikant måte. Det har blitt et populært valg på grunn av en kombinasjon av et bredt, helhetlig kunnskapsbase og sterke analytiske algoritmer som gjør forskerne å påvise biologiske temaer beriket innen genomikk-avledet 'gen lister' 10, 16. Ytterligere fordeler innbefatter dets evne til å behandle gen lister som er opprettet på en hvilken som helst sekvense plattform og en meget brukervennlig grensesnitt.
Nematoden Caenorhabditis elegans er en genetisk modell system, kjent for sine mange fordeler, slik som liten størrelse, transparent legeme, enkel spanteriss, enkel kultur og stor medgjørlighet for genetisk og molekylær disseksjon. Worms har en liten, enkel og godt annotert genomet som inneholder opptil 40% konserverte gener med kjente humane homologer 17. Faktisk, elegans C.var den første metazoan hvis genom ble fullstendig sekvensert 18, og en av de første art hvor RNA-Seq ble brukt til å kartlegge en organismes transcriptome 19, 20. Tidlig snekke Undersøkelsen innbefattet eksperimentering med ulike metoder for high-throughput RNA fangst, bibliotek forberedelse og sekvensering, så vel som bioinformatikkdataene rørledninger som bidro til å fremme teknologien 21, 22. I de senere årene har RNA-Seq-basert eksperimentering ormer blitt vanlig. Men, for tradisjonelle snekke biologer utfordringene ved beregnings analyse av RNA-Seq data forbli et stort hinder for større og bedre utnyttelse av teknikken.
I denne artikkelen beskriver vi en protokoll for bruk av Galaxy plattformen for å analysere high-throughput RNA-Seq data generert fra C. elegans. For mange første-gang og små-SCAle brukere, er det mest kostnadseffektive og grei måte å foreta en RNA-Seq eksperimentet er å isolere RNA i laboratoriet og bruke en kommersiell (eller in-house) NGS anlegg for utarbeidelse av sekvense cDNA bibliotek og NGS selv. Vi har derfor først detaljert trinnene involvert i isolasjon, kvantifisering og kvalitetsvurdering av C. elegans RNA-prøver for RNA-Seq. Deretter gir vi trinnvise instruksjoner for bruk Galaxy grensesnitt for analyser av de NGS data, som begynner med tester for post-sekvensering kvalitetskontroller, etterfulgt av innretting, montering, og differensial kvantifisering av genekspresjon. I tillegg har vi tatt med retninger for å granske genet listene som følge av Galaxy for biologiske berikelse studier med David. Som et siste trinn i arbeidsflyt, gir vi instruksjoner for å laste opp RNA-Seq data videre til offentlige servere, slik som den Sequence Les Archive (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) for å gjøre det fritt tilgjengelig for det vitenskapelige samfunn. Samlet sett forventer vi at denne artikkelen vil gi omfattende og tilstrekkelig informasjon til ormen biologer foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.
Betydningen av Galaxy Sequencing Platform i moderne biologi
Galaxy-prosjektet har blitt instrumental i å hjelpe biologer uten bioinformatikk trening for å behandle og analysere high-throughput sekvensering av data på en rask og effektiv måte. Betraktet som en Herculean oppgave, denne allment tilgjengelige plattformen har gjort kjøre komplekse bioinformatikkdataene algoritmer for å analysere data NGS en enkel, pålitelig og enkel prosess. Bortsett fra verts et bredt spekter av bioinformati…
The authors have nothing to disclose.
Forfatterne ønsker å uttrykke sin takknemlighet til laboratorier, grupper og enkeltpersoner som har utviklet Galaxy og David, og dermed gjort NGS allment tilgjengelig for det vitenskapelige samfunn. Hjelp og råd gitt av kolleger ved University of Pittsburgh under bioinformatikk trening er anerkjent. Dette arbeidet ble støttet av en Ellison Medical Foundation New Scholar i Aging award (AG-NS-0879-12) og en bevilgning fra National Institutes of Health (R01AG051659) til AG.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |