Transkriptom Analyse af

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy og David er dukket op som populære værktøjer, der giver efterforskerne uden bioinformatik uddannelse til at analysere og fortolke RNA-Seq data. Vi beskriver en protokol for C. elegans forskere at udføre RNA-Seq eksperimenter, adgang og behandle datasæt ved hjælp Galaxy og opnå meningsfulde biologiske oplysninger fra genet lister ved hjælp DAVID.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Næste generation sequencing (NGS) teknologier har revolutioneret karakteren af ​​biologisk undersøgelse. Heraf har RNA sekventering (RNA-Seq) vist sig som et kraftfuldt værktøj til gen-ekspression analyse og transkriptom kortlægning. Men håndtering RNA-Seq datasæt kræver sofistikeret beregningsmæssige ekspertise, og udgør iboende udfordringer for biologi forskere. Denne flaskehals er blevet afbødet af den åbne adgang Galaxy projekt, der gør det muligt for brugere uden bioinformatik færdigheder til at analysere RNA-Seq data, og Database til Annotation, Visualisering, og integreret Discovery (DAVID), en Gene ontologi (GO) sigt analyse pakke, der hjælper udlede biologisk betydning fra store datasæt. Men for første gang brugere og bioinformatik amatører, selv-læring og fortrolighed med disse platforme kan være tidskrævende og skræmmende. Vi beskriver en enkel arbejdsgang, der vil hjælpe C. elegans forskere at isolere orm-RNA, foretage en RNA-Seq eksperimentog analysere data ved hjælp af Galaxy og David platforme. Denne protokol giver trinvise instruktioner til anvendelse af de forskellige Galaxy moduler for adgang rå NGS data, kvalitet-troller, tilpasning og differentiel genekspression analyse, vejlede brugeren med parametre ved hvert trin til at generere et gen liste, der kan screenes for berigelse af genklasser eller biologiske processer ved hjælp DAVID. Samlet set forventer vi, at denne artikel vil give oplysninger til C. elegans forskere foretager RNA-Seq eksperimenter for første gang samt hyppige brugere, der kører et lille antal prøver.

Introduction

Den første sekventering af det humane genom, udført under anvendelse Fred Sangers dideoxynukleotid-sekventering metode, tog 10 år, og koster en anslået milliarder $ 3 1, 2. Men i lidt over et årti siden sin fremkomst næste generations sekventering (NGS) teknologi har gjort det muligt at sekventere hele det menneskelige genom inden for to uger og for US $ 1.000. Nye NGS instrumenter, der tillader stadigt stigende hastigheder på indsamling sekventering-data med utrolig effektivitet, sammen med skarpe reduktioner i omkostninger, revolutionerer moderne biologi i utænkelige måder som genom sekventering projekter er hurtigt ved at blive hverdagskost. Desuden har disse udviklinger galvaniseret fremskridt på mange andre områder såsom gen-ekspression analyse gennem RNA-sekventering (RNA-Seq), undersøgelse af genom-dækkende epigenetiske modifikationer, DNA-protein-interaktioner, og screening for mikrobiel mangfoldighed i humane værter. NGS-baserede RNA-Seq især har gjort det muligt at identificere og kort transcriptomes omfattende med nøjagtighed og følsomhed, og har erstattet microarray teknologi som den foretrukne metode til ekspression profilering. Mens microarray-teknologi er blevet anvendt i vid udstrækning, er det begrænset af dens afhængighed af allerede eksisterende arrays med kendt genomisk information, og andre ulemper såsom krydshybridisering og begrænset udvalg af ekspressionssystemer ændringer, kan måles pålideligt. RNA-seq, på den anden side, kan anvendes til at detektere både kendte og ukendte transkripter samtidig producere lav baggrundsstøj på grund af sin utvetydige DNA mapping natur. RNA-Seq, sammen med de mange genetiske værktøjer, der tilbydes af modelorganismer såsom gær, fluer, orme, fisk og mus, har tjent som grundlag for mange vigtige seneste biomedicinske opdagelser. Men fortsat store udfordringer, der gør NGS utilgængelige for resten videnskabelige samfund, herunder begrænsninger af opbevaring, behandling, og mest af alt, m eaningful bioinformatik analyse af store mængder sekventeringsdata.

De hurtige fremskridt inden for sekventering teknologier og eksponentiel data ophobning har skabt et stort behov for beregningsmæssige platforme, der vil give forskerne adgang, analysere og forstå disse oplysninger. Tidlige systemer var stærkt afhængige af edb-programmering viden, hvorimod, genom-browsere såsom NCBI der tillod ikke-programmører at få adgang til og visualisere data ikke tillod avancerede analyser. Den webbaserede frit tilgængelige platform, Galaxy ( https://galaxyproject.org/ ), har fyldt dette tomrum og vist sig at være en værdifuld pipeline der gør det muligt for forskerne at behandle NGS data og udføre et spektrum af enkle at komplekse bioinformatik analyser. Galaxy blev oprindeligt etableret, og vedligeholdes ved laboratorier Anton Nekrutenko (Penn State University) og James Taylor (Johns Hopkins University)f "> 3. Galaxy tilbyder en bred vifte af beregningsmæssige opgaver gør det til en 'one-stop-shop' for utallige bioinformatik behov, herunder alle de involverede i en RNA-Seq studie trin. Itallows brugerne til at udføre databehandling enten på sine servere eller lokalt på deres egne maskiner. data og arbejdsgange kan reproduceres og deles. Online tutorials, hjælp sektion, og en wiki-side ( https://wiki.galaxyproject.org/Support ) dedikeret til Galaxy projektet give konsistente støtte. dog for første gang brugere, især dem uden bioinformatik uddannelse, rørledningen kan forekomme skræmmende og processen med selv-læring og kendskab kan være tidskrævende. Hertil kommer, det biologiske system studerede, og detaljerne i eksperimentet og metoder, effekt de analytiske beslutninger på flere trin, og disse kan være svært at navigere uden instruktion.

Den Samlet RN A-Seq Galaxy Workflow består af data upload og kvalitetskontrol efterfulgt af analyse ved anvendelse af Tuxedo Suite 4, 5, 6, 7, 8, 9, som er en kollektiv af forskellige værktøjer, der kræves til forskellige stadier af RNA-Seq dataanalyse 10, 11, 12, 13, 14. En typisk RNA-Seq eksperiment består af den eksperimentelle del (prøveforberedelse mRNA isolation og cDNA-bibliotek forberedelse), NGS og bioinformatik dataanalyse. En oversigt over disse sektioner, og de trin, der indgår i Galaxy rørledningen, er vist i figur 1.

3fig1.jpg"/>
Figur 1: Oversigt over en RNA-Seq arbejdsgang. Illustration af de eksperimentelle og beregningsmæssige trin involveret i en RNA-Seq eksperiment for at sammenligne gen-udtryk profiler af to ormen stammer (A og B, orange og grøn linjer og pile, henholdsvis). De forskellige moduler af Galaxy anvendt er vist i kasser med det tilsvarende trin i vores protokol er angivet med rødt. Udgangene på forskellige operationer er skrevet i grå med formater fil vist i blåt. Klik her for at se en større version af dette tal.

Det første værktøj i Tuxedo Suite er en tilpasning program kaldet 'Tophat'. Det nedbryder NGS input læser til mindre fragmenter og derefter afbilder dem til en reference-genom. Denne to-trins proces sikrer, at læser spænder intronregioner hvis tilpasningen ellers kan være disrupted eller ubesvarede behandles regnskabsmæssigt og kortlagt. Dette øger dækning og letter identifikation af nye splejsesamlinger. Tophat udgang er rapporteret som to filer, en seng fil (med oplysninger om splejsesamlinger der omfatter genomisk placering) og en BAM-fil (med kortlægning oplysninger om hver at læse). Dernæst BAM-filen justeret mod en reference-genom at estimere den overflod af individuelle udskrifter i hver prøve ved hjælp af den efterfølgende redskab i Tuxedo Suite kaldet 'Manchetknapper'. Manchetknapper funktioner ved at scanne justeringen at rapportere fuld længde transcript fragmenter eller 'transfrags', der spænder alle de mulige splejsede varianter i input data for hvert gen. Baseret på dette, det genererer en 'transkriptom' (samling af alle transkripter dannet pr gen for hvert gen) for hver prøve blev sekventeret. Disse Manchetknapper samlinger derefter kollapsede eller fusioneret sammen langs med referencen genomet til frembringelse af en enkelt annotationsfil til nedstrøms differentialanalyse hjælp det næste værktøj, 'Cuffmerge'. Endelig 'Cuffdiff' værktøj forskellen foranstaltninger genekspression mellem prøver ved sammenligning af TOPHAT udgangene på hver af prøverne til den endelige Cuffmerge outputfil (figur 1). Manchetknapper bruger FPKM / RPKM (Fragmenter / Læser Per kilobase af udskrift pr Million kortlagt læser) værdier til at rapportere transcript forekomster. Disse værdier afspejler en normalisering af de rå NGS data for dybde (gennemsnitligt antal læser fra en prøve, som tilslutter til referencen genom) og gen-længde (gener har forskellige længder, så tællinger skal normaliseret for længden af ​​et gen for at sammenligne niveauer mellem gener). FPKM og RPKM væsentlige er de samme med RPKM anvendes til enkelt-end RNA-Seq hvor hver read svarer til et enkelt fragment, hvorimod, er FPKM anvendes tilparret-end RNA-Seq, som den tegner sig for det faktum, at to læser kan svare til det samme fragment. I sidste ende er resultatet af disse analyser er en liste af gener udtrykkes differentielt mellem forholdene og / eller stammer testet.

Når en succesfuld Galaxy løb er afsluttet, og en 'gen-liste' genereres, det næste logiske skridt kræver flere bioinformatik analyser at udlede meningsfuld viden fra datasættene. Mange softwarepakker er opstået for at tage højde for dette behov, herunder offentligt tilgængelige web-baserede beregningsmæssige pakker såsom DAVID (databasen for anmærkning, Visualisering og integreret opdagelse) 15. DAVID letter tildele biologisk betydning til store gen-lister fra high-throughput studier ved at sammenligne den uploadede gen liste til den integrerede biologiske vidensbase og afdække biologiske anmærkninger forbundet med genet listen. Dette efterfølges af berigelse Analyse, dvs. test til IDEntify om nogen biologisk proces eller gen klasse er overrepræsenteret i genet liste (r) i en statistisk signifikant måde. Det er blevet et populært valg på grund af en kombination af et bredt, integreret viden-base og kraftfulde analytiske algoritmer, der gør det muligt for forskerne at opdage biologiske temaer beriget inden genomforskning-afledte 'gen-lister' 10, 16. Yderligere fordele omfatter dens evne til at behandle gen lister oprettet på sekventering platform og en meget brugervenlig grænseflade.

Nematoden Caenorhabditis elegans er en genetisk modelsystem, kendt for sine mange fordele, såsom lille størrelse, gennemsigtigt legeme, enkel krop plan, let kultur og store modtagelighed for genetisk og molekylær dissektion. Orme har en lille, enkelt og godt kommenteret genom, der omfatter op til 40% bevarede gener med kendte humane homologer 17. Ja, C. elegansvar den første metazoan hvis genom blev sekventeret fuldstændigt 18, og en af de første arter, hvor RNA-Seq blev anvendt til at kortlægge en organismes transkriptom 19, 20. Tidlig orm undersøgelser omfattede eksperimenter med forskellige metoder til high-throughput-RNA-opsamling, bibliotek forberedelse og sekventering samt bioinformatik rørledninger, der bidrog til udviklingen af den teknologi 21, 22. I de senere år har RNA-Seq-baserede eksperimenter i orme blevet hverdagskost. Men, til de traditionelle orm biologer de udfordringer, som beregningsmæssige analyse af RNA-Seq data forbliver en væsentlig hindring for større og bedre udnyttelse af teknikken.

I denne artikel beskriver vi en protokol for anvendelse Galaxy platform til at analysere high-throughput RNA-Seq data genereret fra C. elegans. For mange første gang og små-scale brugere, er det mest omkostningseffektive og enkel måde at foretage en RNA-Seq eksperiment er at isolere RNA i laboratoriet og udnytte en kommerciel (eller in-house) NGS facilitet til fremstilling af sekventering af cDNA-biblioteker og NGS selv. Vi har derfor først detaljeret de trin, der er involveret i isolering, kvantificering og kvalitetsvurdering af C. elegans RNA-prøver for RNA-Seq. Dernæst giver vi trin-for-trin vejledning i brug af Galaxy interface for analyser af NGS data, der begynder med test for post-sekventering af kvalitet-troller efterfulgt af justering, montage og differentiel kvantificering af genekspression. Derudover har vi inkluderet retninger for at undersøge de gen-lister som følge af Galaxy til biologiske berigelse undersøgelser ved hjælp af DAVID. Som et sidste trin i arbejdsgangen, giver vi anvisninger for at uploade RNA-Seq data videre til offentlige servere såsom Sequence Læs Arkiv (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) for at gøre det frit tilgængeligt for det videnskabelige samfund. Samlet set forventer vi, at denne artikel vil give omfattende og tilstrækkelige oplysninger til at ormen biologer foretager RNA-Seq eksperimenter for første gang samt hyppige brugere, der kører et lille antal prøver.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA-isolering

  1. forholdsregler
    1. Tør hele arbejdsflade, instrumenter og pipetter under anvendelse af et kommercielt tilgængeligt RNase spray for at eliminere eventuelle RNaser stede.
    2. Brug handsker på alle tidspunkter, regelmæssigt skiftende dem med friske dem i de forskellige trin i protokollen.
    3. Brug kun filter tips og holde alle prøver på is så meget som muligt for at undgå RNA-nedbrydning.
      BEMÆRK: For at opnå den bedste data fra NGS platforme, er det vigtigt at begynde med høj kvalitet RNA. RNA isolation og fremstillingsmetoder varierer afhængigt af prøven oprindelse, fremgangsmåde til sekventering og investigator præference. Flere kommercielt tilgængelige kits kan anvendes til dette formål eller RNA kan også isoleres ved anvendelse af en standard phenol-chloroform fremgangsmåde til RNA-ekstraktion. Med begge metoder, bør følges de forholdsregler, der er anført ovenfor, gennem hele processen for at minimere forurening og OBTain uberørt RNA-prøver.
  2. Høst Worms
    1. Synkronisere ormen befolkningen med hypochlorit blegning behandling 23 til opnåelse 1.000-1.500 aldersmatchede C. elegans voksne orme pr stamme.
    2. Vask ormene off plader ved anvendelse af M9 pufferopløsning og centrifugering ved 325 xg på en bordcentrifuge i 30 sekunder. Aspirer ud M9 buffer efterlader en pellet af orme. Gentag dette trin mindst tre gange for at fjerne bakteriel fremførsel.
    3. Til ormen pellet, tilføje ~ 500 pi lysisbuffer (hvis anvendelse af et kommercielt kit) eller Trizol (en mono-fasisk opløsning af phenol og guanidinisothiocyanat; hvis phenol: chloroformekstraktion beskrevet i 1.3.3 gennemføres) for at forstyrre ormen væv , deaktivere RNaser og stabilisere nukleinsyrer.
      BEMÆRK: Protokollen kan sættes på pause her ved flash frysning prøverne i flydende nitrogen efterfulgt af opbevaring ved -80 ° C.
  3. RNA Isolation
  4. Ultralydsprodukt worm prøver ved 45% amplitude i cyklusser på 20 s. 'ON' og 40 sek. OFF (8-12 cykler pr stamme). Hold prøver på is på alle tidspunkter.
    BEMÆRK: Sørg for at sonikatorproben er nedsænket i bufferen og holdes ved et konstant niveau. Undgå skumning af prøven og rengør sonden grundigt i-mellem prøverne. Sonikeringscyklusser kan variere afhængigt af typen af ​​sonikatoren anvendes. Det anbefales, at sonikering betingelser først optimeres på en prøve før start et eksperiment.
  5. Hvis anvendelse af et kommercielt tilgængeligt kit, Fortsæt med RNA-isolering som pr den foreskrevne protokol. Til RNA isolation under anvendelse af en phenol-chloroform-metoden, udføre følgende trin.
  6. Centrifuge sonikeret prøver ved 16.000 xg i 10 min. ved 4 ° C
  7. Overfør supernatanten til et 1,5 ml RNase-fri mikrofugerør, og der tilsættes 100 pi chloroform (1/5 volumen af RNA / DNA-isolering reagens).
    Advarsel: Chloroform er giftig. At minimere eksponering og undgå indånding, arbejder i en kemisk hætte ved håndtering af dette stof.
  8. Vortex prøverne grundigt i 30 - 60 s. og lad prøverne henstå ved stuetemperatur i 3 minutter.
  9. Centrifuger ved 11.750 xg i 15 minutter. ved 4 ° C. Overføre kun det øverste vandige lag til en ny RNase-frit mikrofugerør pas på ikke at aspirere DNA-holdigt hvid interface. Gentag trin 1.3.4 gennem 1.3.6.
  10. Tilsæt 250 pi (70% af vandig fase eller 1/2 RNA / DNA-isolering reagensvolumen) 2-propanol og vend røret for at blande. Lad rørene stå ved stuetemperatur i 10 minutter eller forlade natten over ved -80 ° C.
  11. Centrifugér prøver ved 11.750 xg i 10 min. ved 4 ° C. Supernatanten dekanteres meget omhyggeligt, efterlader et par pi på bunden af ​​røret, således at pelleten ikke forstyrres.
  12. Vask pellet med 500 pi 75% ethanol (fremstillet ved anvendelse af RNase-frit vand) og spin ned ved 16.000 xg i 5 min. -ent 4 ° C.
  13. Fjern så meget supernatant som muligt uden at forstyrre bundfaldet. Lufttørre pelleten i et stinkskab i et par minutter.
  14. Tilsæt 30 pi RNase-frit vand og hjælpe med at opløse RNA-pelleten ved opvarmning i 10 minutter. ved 60 ° C.
  15. Check RNA kvalitet og kvantitet ved hjælp af en Bioanalyzer.
    BEMÆRK: Bioanalyzer genererer en R NA I ntegrity N umbra (RIN) som et mål for RNA kvalitet. En RIN på mindst 8 er den anbefalede tærskel for RNA-Seq prøver (højere er bedre). RNA-mængde og kvalitet kan også kontrolleres spektrofotometrisk men bør også følges ved visuel vurdering af RNA integritet. For at gøre dette, køre prøverne på en 1,2% agarosegel længe nok til at opnå passende adskillelse af ribosomale 28S og 18S RNA-bånd. Tilstedeværelsen af to distinkte bånd (1,75 kb for 18s rRNA og 3,5 kb for 28S rRNA i tilfælde af C. elegans) er et acceptabelt mål for RNA kvalitet.
  16. Brug ~ 100 ng / pl RNA til ship til sælgeren / NGS facilitet til fremstilling af sekventering af biblioteker.
    BEMÆRK: RNA-prøver skal sendes på tøris til sekventering tjenesteudbyder. De fleste udbydere foretage en uafhængig RNA kvalitetskontrol test før biblioteket forberedelse.

2. RNA-Seq Dataanalyse

  1. Download af Raw Sekventering data
    1. Download komprimerede rå fastq sekventering, kodet i det fastq.gz format fra NGS udbyder ved hjælp af en "filoverførselsprotokol" (ftp).

figur 2
Figur 2: Opstilling af Galaxy brugergrænseflade Panel og Key RNA-Seq funktioner. Nøglefunktioner i den side er udvidet og fremhævet. (A) fremhæver funktionen 'Analysere data' på websiden headeren bruges til adgang (B) er den Progress bar ", som angiver plads på Galaxy server anvendes af operationen. (C) er 'Værktøjer afsnit', der viser alle de værktøjer, der kan køre på Galaxy-interface. (D) viser de 'NGS: RNA Analysis' værktøj sektion anvendes til RNA-Seq analyse. (E) viser 'Historie' panel, der viser alle de filer genereret ved hjælp af Galaxy. (F) viser et eksempel på den dialogboks, der åbner op, når du klikker på en fil i historie sektionen. Inden for (F), den blå boks fremhæver ikoner, der kan bruges til at se, editthe attributter eller slette datasættet, det violette felt fremhæver ikoner, der kan bruges til at 'rediger' datasættet tags eller kommentering, og, det røde felt angiver ikoner at hente data, se oplysninger om opgaven udføres eller gentag operationen. Klik her for at se en større version af dette tal.

  1. Kom godt i gang med Galaxy
    BEMÆRK: Galaxy kan køres på en gratis offentlig server ved hjælp af en web-baseret platform giver sky og gratis begrænset lagerplads. Det kan også downloades og køres lokalt på brugerens maskine eller beregningsmæssige klynger hosted af institutioner, men lokal forarbejdning, kan blive begrænset af data-storage grænser og processorkraft begrænsninger af brugernes maskiner. Nærmere oplysninger om download og installation kan tilgås på https://wiki.galaxyproject.org/Admin/GetGalaxy . I denne protokol beskriver vi den webbaserede brug af Galaxy rørledningen.
    1. Efter at have downloadet og lagring af NGS data på brugerens maskine, adgang Galaxy pålaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registrer en brugerkonto ved at klikke på 'User' i overskriften på siden, log ind og begynde med at få kendskab til brugergrænsefladen panelet.
      BEMÆRK: Det anbefales, at første gang brugere udnytter den 'Start her' tutorial findes på hjemmesiden for at blive fortrolig med den grundlæggende opsætning af Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Klik på 'analysere data' (figur 2A) i header panel for at få adgang til 'Analyse Hjem View', som også er startskærmen på Galaxy.
      BEMÆRK: Overskriften rummer også andre links, hvis detaljer kan ses ved at holde musemarkøren over dem. Det øverste højre hjørne af header har en statuslinje der overvåger plads udnyttes til opgaverne (Figur 2B).
    4. Cslikke på 'NGS: RNA-analyse' opgave i 'Værktøjer Menu' på venstre panel (Figur 2C) for at få adgang til alle de værktøjer, der er nødvendige for RNA-seq dataanalyse.
      BEMÆRK: 'Værktøjer Menu' kataloger alle de operationer, at Galaxy tilbyder. Denne menu er opdelt på grundlag af opgaver og klikke på nogen vil åbne en liste over alle de værktøjer, der er nødvendige for at udføre denne opgave.
    5. Opret ny analyse historie ved at klikke på ikonet gear øverst på 'History' panel til højre (figur 2E). Vælg 'Opret ny' fra pop-up-menuen. Giv denne 'historie' et passende navn for at identificere analysen.
      BEMÆRK: 'Historien' panel viser alle de filer, der uploades til analyse samt alle output-filer, der er genereret ved at køre opgaver på Galaxy. Hvis du klikker på et filnavn i dette panel åbner en dialogboks med detaljerede oplysninger om opgaven udføresog et uddrag af datasættet (figur 2F). Ikoner i denne boks gør det muligt for brugeren at 'se', 'redigere attributterne' eller 'slet' datasættet (figur 2F, fremhævet med blåt). Derudover kan brugeren også 'Edit' datasæt tags eller annotation (figur 2F, fremhævet i lilla), 'download' de data, 'se detaljer' af opgaven, 'gentagelse' opgaven eller endda 'visualisere' datasættet fra dette kasse dialog (Figur 2F, markeret med rødt).
    6. Klik på 'Upload fil' funktionen under 'Get data' i 'ToolsMenu' for at uploade rå fastq filer.
      BEMÆRK: Hvis du klikker på dette eller andre værktøj åbner op for en kort beskrivelse af operationen, og testen selv, i midten 'Analyse interface' panel. Dette panel snørebånd sammen'Funktioner' fra panelet til venstre og den 'Input Files' fra højre 'Historie' panel (Figur 2E). Her er input filer fra 'Historie' er valgt og andre parametre defineret til at køre en given opgave. Den resulterende output datasæt fra alle test er gemt tilbage i 'History'. Inkluderet med testen i "Analyse Interface" panel er forklaringer på alle de parametre, til rådighed for at køre en given værktøj sammen med en detaljeret liste over alle de output-filer værktøjet genererer.
    7. Efter opgaven åbner i 'Analyse interface', klik på 'Vælg lokal fil' eller 'Vælg FTP File' (hurtigere upload), navigere til den mappe, der indeholder sekventering filer og vælg den relevante datasæt, der skal uploades.
    8. Tillad Galaxy til 'Auto-detect' den uploadede fil type (standardindstilling). Vælg 'C. elEgans 'i rullemenuen for genomet.
    9. Klik på 'Start' for at starte upload af data. Når filen er uploadet, vil det blive gemt i 'History' panel og kan tilgås derfra.
    10. Hvis flere sekventering datafiler er produceret til en enkelt prøve, kombinere dem ved hjælp af 'Concatenate' værktøj. For at gøre dette, åbne op for 'Tekst Manipulation' muligheden i 'Værktøjer Menu'.
    11. Klik på 'Concatenate' værktøj, vælge de filer, der skal kombineres fra drop-down boks i midten af 'Analyse grænseflade', og klik på 'Udfør'.
      BEMÆRK: Output filer produceret ved hjælp af denne opgave er genereret i fastq format. Kortlægningen Programmet har en grænse på 16.000.000 sekvenser pr fastq fil, og når denne grænse er nået en ny fastq fil er genereret for de resterende sekvenser. den "; Der er behov Concatenate' værktøj i sådanne tilfælde at kombinere datasæt.
    12. Konverter de uploadede fastq format filer til den ønskede fastqsanger format til Galaxy-RNA-Seq analyse ved at bruge 'fastq groomer' værktøj findes under 'NGS: QC og manipulation' sektion (se supplerende fil).
    13. Vælg den relevante fastq datasættet under 'Filer til Groom' muligheden og køre værktøjet ved hjælp standardparametre.
      BEMÆRK: Output filer produceret ved hjælp af denne opgave er genereret i fastqsanger format.
  2. Tests fastqsanger Data Quality-Control
    1. Kontroller kvaliteten af den uploadede fastqsanger læser ved hjælp af 'FastQC' værktøj placeret under 'NGS: QC og manipulation' i menuen 'Funktioner'.
    2. Vælg den præparerede fastqsanger datafilen fra rullemenuen for 'Short læse data fra den aktuelle bibliotek' og køre værktøjet ved hjælp standardparametre.
      BEMÆRK: Vær særlig opmærksom på kvaliteten af ​​den læser og tilstedeværelsen af ​​eventuelle adaptorsekvenser. Adaptere fjernes sædvanligvis som en del af stolpen RNA-Seq databehandling af NGS udbydere, men i nogle tilfælde kan blive ladt tilbage. Til forklaring af kvalitetsstandarder gå til http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Check med NGS udbyderen og hvis adaptere er til stede, trim dem ved hjælp af 'Clip' værktøj fra 'NGS: QC og manipulation' opgave menuen.
      BEMÆRK: Output filer produceret ved hjælp af denne opgave er genereret i den rå txt-format samt i HTML, der kan åbnes på enhver webbrowser.
  3. Dataanalyse med Tuxedo Suite
    1. Høj hat
      1. Download den nyeste version af fasta og GTF (Gene Transfer Format) filer fra Upload fil' som beskrevet ovenfor i 2.2.6.
      2. Åbn 'NGS: RNA-analyse' sektionen og klik på 'TopHat' redskab til at kortlægge sekventering læser til den downloadede henvisning genom.
      3. Vælg den relevante svar fra rullemenuen på spørgsmålet 'Er det enkelt-ende eller parret ende data?'
      4. Vælg den relevante fastq fil.
      5. Vælg 'Brug et genom fra historien' i den næste rullemenu og vælg henvisning genom hentede i trin 2.4.1.1.
      6. Vælg 'Standard' for de andre parametre, og klik på 'Udfør'.
        BEMÆRK: Blandt de output-filer fremstillet ved hjælp af denne opgave, er 'Accepterede Hits' fil, der bruges til efterfølgende trin.
    2. Manchetknapper og Cuffmerge
      1. Vælg 'Cufflinks' værktøj i 'NGS: RNA-analyse' afsnit for at samle udskrifter, vurderer deres overflod og test for forskellen udtryk.
      2. I den første rullemenu, vælge de kortlagte 'Accepterede hits (BAM format)' fil opnået fra TopHat analyse.
      3. I den anden rullemenu, sæt henvisning anmærkning til GTF fil hentede i trin 2.4.1.1.
      4. Vælg 'Ja' til 'Perform skævhed korrektion' muligheden og køre opgaven ved hjælp af standardindstillingerne for alle andre parametre.
        BEMÆRK: Blandt de output-filer fremstillet ved hjælp af denne opgave, er det 'Accepteret Udskrifter' fil, der bruges til efterfølgende trin.
      5. Åben 'Cuffmerge' værktøj i de NGS: RNA Analysis 'at fusionere de 'Assembled Transskripter' fremstillet for alle RNA-Seq prøver.
        BEMÆRK: Første kasse i værktøjet selvstændige udfylder og lister alle de Manchetknapper.
      6. Vælg 'Samlet Udskrifter' fil for alle stammer / testede betingelser, herunder biologiske replikater af den samme stamme / tilstand (se diskussion af biologiske gentagelser).
      7. Vælg 'Yes' for 'Brug reference Annotation' og vælg GTF fil hentede i trin 2.4.1.1.
      8. I det følgende Marker igen 'Ja' til 'brug Sequence Data' indstilling og vælge hele genomet fasta fil hentede i trin 2.4.1.1.
      9. Holde de øvrige parametre som standard, skal du klikke på 'Udfør'.
        BEMÆRK: Cuffmerge genererer en enkelt GTF output fil.
    3. Cuffdiff
      1. Navigere til 'Cuffdiff' redskab i de NGS: RNA Analysis "sektionen. I 'Udskrifter' i menuen, skal du vælge den fusionerede output fil fra Cuffmerge.
      2. Etiketbetingelser 1 og 2 med de to stammer / tilstand navne.
        BEMÆRK: Cuffdiff kan udføre sammenligninger mellem mere end to stammer eller tilstande samt tidsforløbet eksperimenter. Du skal blot bruge 'Tilføj nye betingelser' mulighed for at tilføje hver ny stammer / tilstand, efter behov.
      3. For hver stamme / tilstand, under 'Replikater' vælge persons Accepterede Hits 'uddatafiler fra TopHat der svarer til de forskellige biologiske gentagelser af denne stamme / tilstand. Hold 'cmd' nøgle, hvis du bruger en Macintosh-computer, og 'ctrl' nøgle, hvis du bruger en pc, for at vælge flere filer.
      4. Lad alle andre indstillinger som standard parametre. Klik på 'Udfør' for at køre opgaven.
        BEMÆRK: Cuffdiff genererer mange output-filer i et tabelformat som den endelige udlæsning af RNA-Seq analyse. Disse omfatter filer med FPKM sporing til transkripter, gener (kombineredeFPKM værdier af transkripter deler et gen identitet), primære transkripter og kodende sekvenser. Alle datafiler genereret kan ses på enhver regnearksprogram og indeholder lignende egenskaber, såsom gen navn, locus, fold-ændring (i log2 skala) samt statistiske data om sammenligninger mellem stammer / betingelser, herunder p-værdi og q-værdier. Dataene i disse filer kan sorteres baseret på statistiske signifikans af forskelle eller fold ændring i genekspression (størrelsen og retningen af ​​forandring, som i op- eller ned-regulerede gener) og manipuleres som pr brugernes behov. Hvis der er behov konvertering mellem forskellige gen identifikatorer (f.eks Wormbase gen ID vs. cosmid nummer), værktøjer på Biomart ( http://www.biomart.org/ ) kan anvendes.

3. Gene Ontology (GO) Term Analyse under anvendelse DAVID

  1. Adgang DAVID fra hjemmesiden https: //david.ncifcrf.gov/. Klik på 'Start Analyse' i overskriften på websiden. I 'Trin 1', kopiere og indsætte listen over gener hidrørende fra Galaxy i boksen A. I 'Trin 2', vælg 'Wormbase Gene id' som identifikator for input gener.
    BEMÆRK: DAVID genkender mest offentligt tilgængelige annotation kategorier, så kan også anvendes andre gen identifikatorer (såsom Entrez gen ID eller gen symbol).
  2. I 'Trin 3', vælg 'Gene List' (gener, der skal analyseres) under 'List Type' og derefter klikke på 'Send List' ikon.
    BEMÆRK: 'Analyse Wizard', vil åbne op for at liste alle de hyperlinks DAVID værktøjer, der kan køre på den uploadede gen listen (figur 3). Klik på disse links for at få adgang relevante tilsvarende moduler som pr brugerens krav. For at identificere de værktøjer, der passer til en given opgave, skal du klikke på 'Hvilke DAVID værktøjer til at bruge? 'Linket på' ; Analyse Wizard' side. Klik på 'Start Analysis' linket i overskriften for at vende tilbage til 'Analyse Wizard' hjemmeside på noget tidspunkt i løbet af analysen.

figur 3
Figur 3: Opstilling af DAVID Analyse Wizard webside og Eksempler på Operation Udgange. Den 'Analyse Wizard' web brugerflade viser de værktøjer, der anvendes til at analysere uploadet gen liste for berigelse baseret på forskellige parametre. Hvis du klikker på disse værktøjer rapporterer de analyserede data i en ny webside. Eksempler på de pladeformede rapporter, der genereres fra 'Gene Funktionel klassificering', 'Functional Annotation Chart' og 'Functional Annotation Clustering' er vist som inlays (pile).> Klik her for at se en større version af dette tal.

  1. Funktionel annotation værktøj 1: Funktionel Annotation Clustering
    1. Klik på 'Funktionel Annotation Clustering' modul for at gå til oversigtsside. Hold standard annotation kategorier og klik på 'Funktionel Annotation Clustering' til generering klynger af lignende annotation vilkår klassificeret efter deres berigelse score.
    2. Klik på hyperlink navnet på hver valgperiode at læse detaljer om det og 'RT' (relateret vilkår) til listen andre lignende udtryk relateret til den kategori.
    3. Klik på den lilla bar til listen generne forbundet med en løbetid og den røde 'G' for at liste alle de gener, der er forbundet med alle de vilkår inden for en klynge.
    4. Klik på det grønne ikon for at se en todimensional visning af alle gener og vilkår i en klynge.
      BEMÆRK: De sidste tre kolonner liste de analytiske og statistiske resultater for hversemester. Resultaterne for dette og alle andre analyser kan downloades i en .txt-format ved at klikke på 'Download fil' linket.
  2. Funktionel annotation værktøj 2: Funktionel Annotation Chart
    1. Retur til oversigtsside og klik på 'Funktionel Annotation Chart' for at identificere betydeligt overrepræsenteret biologiske vilkår (f.eks transskriptionsfaktoraktivitet eller kinase aktivitet) forbundet med genet listen.
    2. Klik på sigt navn for at få mere detaljerede oplysninger og 'RT' (relateret vilkår) til liste andre relaterede termer.
    3. Klik på den lilla bar for at liste alle tilknyttede gener af tilsvarende individuelle kategori.
      BEMÆRK: De sidste to kolonner liste over de statistiske-test resultater for hver kategori.
  3. Funktionel annotation værktøj 3: Funktionel Annotation Tabel
    1. Retur til oversigtsside og klik på 'Funktional Annotation Tabel 'for at se en liste over alle de anmærkninger, der er forbundet med de gener på en liste uden nogen statistiske beregninger.
      BEMÆRK: Dette værktøj kan være nyttigt for gen-for-gen-analyse af en liste eller til at se på specifikke og meget interessante gener.
  4. Gene Funktionel klassifikation Værktøj
    1. Vend tilbage til 'Analyse Wizard' og klik på 'Gene Funktionel klassifikation' modul at adskille input gen listen i funktionelt relaterede grupper af gener klassificeret som pr deres 'Berigelse Score', et mål for den samlede berigelse af genet gruppe på listen.
    2. Klik på sigt navn for at få mere detaljerede oplysninger og 'RG' for at afsløre funktionelt relaterede gener af genet gruppe
    3. Klik på den røde 'T' (sigt rapporter) til listen associeret biologi og det grønne ikon for at se en todimensional visning af alle gener og vilkår.
  5. Gene-navnBatch Viewer
    1. Vend tilbage til 'Analyse Wizard' og klik på 'Gene-navn Batch Viewer' til at oversætte 'Wormbase Gene id'er' i deres tilsvarende gen navne. (WBGene00022855 = tCER-1).
    2. Klik på gen-navn for at få flere gen-specifikke oplysninger.
    3. Klikke på 'RG' (beslægtede gener) linket ved siden af hvert gen til at afsløre gener forudsagt at være funktionelt beslægtede til genet af interesse.

4. Upload RAW data på NCBI Sequence Læs Arkiv (SRA)

  1. Få adgang til SRA webside på Log på NCBI' linket eller opret en ny konto.
  2. Klik på 'Bioproject'.
  3. Klik på 'Submission' under 'Brug Bioproject' overskrift til venstre.
  4. Vælg indstillingen 'Ny Submission'. Opdater oplysninger om indsenderen. Fortsæt gennem de resterende syv faner, Udfylde detaljerne i eksperimentet og data uploades. Klik på 'Send' når afsluttet.
    BEMÆRK: I den femte fanen 'bioprøve', forlader slot til 'bioprøve' tom.
  5. Opdater den resulterende side ved at klikke på 'Mine partnere' link. De indsendte data vil blive opført med en tildelt indsendelse nummer, kort beskrivelse og upload status.
  6. Klik på 'bioprøve' øverst på denne side, i 'starte et nyt anbringende' boksen og skabe en 'ny indsendelse'. Indsend separate indsendelser for hver prøve.
  7. Som det er tilfældet med 'Bioproject' i 4.4, opdatere detaljerne i indsenderen og fortsætte gennem resten af fanerne fylde i detaljerne for hver fane. Når du er færdig gennemgang og klik på 'Send'.
  8. Naviger til http: //www.ncbi.nlm.nih.gov / SRA til at skabe den endelige 'Sequence Læs Arkiv (SRA)' underkastelse.
  9. Klik på 'Login til SRA' under 'Kom godt i gang'.
  10. På næste side skal du klikke på 'NCBI PDA' linket. En linket 'Opdater Preferences' vil åbne op. Udfyld formularen, og klik på 'Gem indstillinger'.
  11. På den side, klik på 'Opret ny Submission' linket. Indtast et passende navn under 'Alias' og klik 'Gem'. En tabel med indsendelse id og andre detaljer vil blive oprettet.
  12. Klik på 'Ny Experiment' og registrere mindst et unikt sekventering bibliotek for hver 'bioprøve'.
  13. Udpeg og forbinde den tidligere oprettede 'Bioproject' og 'biologisk prøve' indsendelse ID'er. En 'Ny Experiment' blive oprettet.
  14. Klik på 'Ny Run' nederst på sidenefter SRA Experiment er blevet gjort, og identificere de datafiler, der skal være knyttet til det.
  15. Beregn MD5 sum af hver datafil. For at gøre dette på en MacIntosh terminal, navigere til Programmer / Hjælpeprogrammer / Terminal. I terminal, indtast 'md5' (uden anførselstegn) efterfulgt af et mellemrum. Træk og slip de filer, der skal uploades til terminalen fra Finder, og klik på 'Enter'.
  16. Terminal vil returnere en alfanumerisk MD5 sum. Indtast dette som en del af manuskriptet proces til fil upload. Brug det brugernavn og den adgangskode, som systemet til at uploade filer ved hjælp af FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I C. elegans, eliminering af de kimcellelinje stamceller (GSCS) strækker levetid, øger stress elasticitet og hæver kropsfedt 24, 28. Tab af GSCS, enten som følge af laser-ablation eller ved mutationer, såsom GLP-1, forårsager levetidsforlængelse via aktivering af et netværk af transskriptionsfaktorerne 29. En af disse faktorer, TcEr-1, koder for ormen homolog af den humane transkription forlængelse og splejsning faktor, TCERG1 30. De følgende repræsentative resultater illustrerer, hvordan RNA-Seq blev anvendt til at identificere gener, hvis ekspression moduleres af TcEr-1 / TCERG1 følgende kimcellelinje tab i vores nyligt offentliggjort undersøgelse 31. De transcriptomes af aldersmatchede, dag 2 voksne af GLP-1 og tCER-1; GLP-1-mutanter blev sammenlignet. For hver stamme, blev mRNA isoleret fra to biologiske replikates (fire prøver helt) under anvendelse af protokollen beskrevet i afsnit 1. RNA-prøver blev sendt til en kommerciel udbyder, der fremstilles cDNA-biblioteker fra de fire prøver og udført 50 bp enkelt ende sekventering. Den rå NGS data hentet som beskrevet i afsnit 2.1.

evaluering post sekventering data

Tabel 1 er en samling af testresultater til at vurdere kvaliteten af rå sekventering læser. 'FASTQ' kvalitetskontrol analyse fremhæver antal sekvenser læses uden 'dårlig kvalitet' læser sammen med 48-49% GC-indhold og en konstant sekvens læst længde på 51 bp. Dette trin kontrollerer også sekventeringsdataene for mange andre funktioner såsom Kmer indhold og er kollektivt består af 11 prøver i alt. C. elegans genomet er ~ 100 Mbp. Baseret på antallet af sekventering læser fra hver prøve, der kortlægges til genomet, den genome dækning (sidste kolonne) blev estimeret ved anvendelse af Lander / Waterman ligning 'C = LN / G', hvor, C står for dækning, G er den haploide genom længde, L er den læste længde og N er antallet af læser. Vi brugte standardparametre for alle trin og opnåede 48 - 49% GC-indhold i alle prøverne. Som det kan ses, genom dækning var mellem 9x til 11x i prøverne.

Identifikation af TcEr-1 / TCERG-1-regulerede gener ved differentiel genekspressionsanalyse om Galaxy

Gennem trinene beskrevet i afsnit 2.2 til 2.4, blev Galaxy rørledningen 3 anvendes til at opnå en liste af gener udtrykkes differentielt mellem GLP-1 og tCER-1; GLP-1-mutanter. Galaxy muligt for os at kombinere NGS data fra de to replikater for hver stamme og udførte forskellen analyse til at generere tabelform filer fremhæve genomet brede udtryk PRofile. Under anvendelse af en tærskel på mindst en fold ændring i størrelsesorden og P-værdi på mindst 0,05, blev en liste over 835 gener, der udtrykkes forskelligt mellem de to stammer genereres 31. Listen blev delt baseret på, om ekspression af generne blev nedreguleret i tCER-1; GLP-1-mutanter (359 UP gener, hvis transkription sandsynligvis forbedres ved TcEr-1 / TCERG1) eller opreguleres (476 DOWN gener, hvis transkription er sandsynligvis undertrykt af tcEr-1 / TCERG1) sammenlignet med GLP-1 (figur 4).

figur 4
Figur 4: Identifikation af TcEr-1 / TCERG1-regulerede gener i Kimcellelinje-mindre C. elegans Mutanter anvendelse af RNA-Seq: Resultater af Galaxy (A) og DAVID (B) Analyser. (A) Differentiel genekspressionsanalyse af RNA-Seq data sammenligningde transcriptomes af GLP-1 og tCER-1; GLP-1 gav i alt 835 gener, hvoraf 359 blev identificeret som værende opreguleret af TcEr-1 / TCERG1 (UP) og 476 som nedreguleres af TcEr-1 / TCERG1 (NED). (B) Resultater af 'Functional Annotation Gruppering' analyse af generne identificeret som TcEr-1 / TCERG1 mål med anvendelse DAVID. Procentdel berigelse af biologiske processer for både opreguleret (UP) og nedreguleret (DOWN) Klasser af TcEr-1 / TCERG1 mål. Den her viste grafiske fås ved at afsætte de berigede gen grupper (X-akse) og deres respektive procent berigelse (Y-akse) opnået som produktion af DAVID analyse. Figur modificeret fra Amrit et al. 31 og gengivet med tilladelse. Klik her for at se en større version af dette tal.

Til opnåelse af et overblik over de genklasser beriget med TcEr-1 / TCERG1 mål udførte vi gen ontologi (GO) sigt analyse under anvendelse DAVID. TcEr-1 / TCERG1-reguleret op og ned gen lister blev uploadet uafhængigt onto DAVID og analyseret som beskrevet i afsnit 3. Man vidste om generne og cellulære processer er omfattet af TcEr-1 / TCERG1 tidligere 30, så vi fundet DAVID analyse til at være særligt afslørende og hjælpsomme. Funktionel Annotation analyse af OP-generne afslørede fem Anmærkningsredskaber Klynger med en Berigelse score> 1,3, den højeste herunder cytochrom P450 enzym-kodende gener og miljøfremmede responsgener, efterfulgt af gener impliceret i lipid modifikationer. Dette blev forstærket af resultaterne af Gene Funktionel klassificering analyse, der identificerede grupper tilskrevet med lignende molecular aktiviteter med betydelige berigelse scoringer. Anvendelse regneark, blev de identificerede grupper plottet mod deres respektive berigelse scorer (Figur 4). Vores tidligere data antydede, at TcEr-1 / TCERG1 fungerede med den konserverede levetiden transskriptionsfaktoren, DAF-16 / FOXO3A, at fremme levetiden af GSR-færre voksne 30. DAF-16 / FOXO3A, til gengæld har været impliceret i modulering af lipidmetabolisme i de seneste undersøgelser 27, 32, 33. På den baggrund, og identificering af lipid-metaboliske gener og veje som potentielle TcEr-1 / TCERG1 mål på DAVID analyser fokuserede vi på fedtstofskiftet gener identificeret i den RNA-Seq undersøgelse for detaljerede mekanistiske undersøgelser. Efter denne bly, og gennem efterfølgende molekylære genetiske, biokemiske og funktionelle eksperimenter demonstrerede vi, at TcEr-1 / TCERG1 sammen med DAF-16 / FOXO3A koordineret enhanced både lipid kataboliske og anaboliske processer som reaktion på kimcellelinje tab 31. Tilsvarende Funktionel Annotation Gruppering af NED TcEr-1 / TCERG1 targets identificeret Anmærkningsredskaber Clusters beriget for cytoskelet funktioner, positiv regulering af vækst, reproduktion og aldring (figur 4). Disse observationer og vores supplerende eksperimentelle beviser antyder, at ved kimcellelinje tab, TcEr-1 / TCERG1 undertrykker også vækst og reproduktiv fysiologi i somatiske celler såvel som ekspressionen af anti-levetid gener 31.

Prøve Total Sekvenser Længde % GC Total Læser (Galaxy) Kortlagt Læser (Galaxy) genom Dækning
GLP-1 4000000 51 49 20700539 ~ 16.000.000 11x
GLP-1; tCER-1 4000000 51 49 18055444 ~ 13.000.000 9x
GLP-1 4000000 51 48 18947463 ~ 14 millioner 10x
GLP-1; tCER-1 4000000 51 48 13829643 ~ 10.000.000 7x

Tabel 1: RNA-Seq Sample Detaljer. Udarbejdelse af rå data attributter evalueret efter sekventering for at bekræfte succes sekventering løb. Sekventering data fra repræsentativt eksperiment består af to biologiske tilstande, en kontrolstamme (GLP-1 (tCER-1; GLP-1) med to biologiske replikater sekventeret for hver. 'FastQC' kvalitetskontrol analyse fremhæver antal sekvenser læses med nogen "dårlig kvalitet" læser 48 - 49% GC-indhold og en konstant sekvens læst længde 51 bp. Modificeret og gengivet med tilladelse fra Amrit et al. 31.

Supplerende Fil: Kommando kæde i korte træk for værktøjerne køre på Galaxy pipeline for RNA-Seq dataanalyse. Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Betydningen af ​​Galaxy Sequencing Platform i moderne biologi

Galaxy projektet er blevet medvirkende til at hjælpe biologer uden bioinformatik uddannelse til at behandle og analysere high-throughput sekventering data på en hurtig og effektiv måde. Engang blev betragtet som en kæmpe opgave, dette offentligt tilgængelige platform har gjort kører komplekse bioinformatik algoritmer til at analysere NGS data en enkel, pålidelig og nem proces. Bortset fra vært for en bred vifte af bioinformatik værktøjer, nøglen til succes for Galaxy er også enkelheden i sin brugergrænseflade, der snørebånd sammen de forskellige aspekter af komplekse sekventering analyse på en intuitiv og problemfri måde. På grund af disse funktioner, har Galaxy rørledning erhvervet bred anvendelse blandt biologer, herunder C. elegans forskere. Ud over at vænne brugeren med RNA-Seq Analyse rørledning, Galaxy hjælper også lægge fundamentet for grundlæggende biologer at forståbegrebet dataanalyse og forstå de involverede værktøjer. Denne viden primtal brugeren til måske videreføre mere komplekse bioinformatiske platforme såsom 'R' og 'Python'. Udover Galaxy, andre værktøjer og pakker er tilgængelige kommercielt og som open source-løsninger, som kan anvendes til RNA-Seq analyse. De kommercielle muligheder er ofte stand-alone-software pakker, der er brugervenlig, men kan være dyrt for individuelle forskere, der ikke bruger NGS ofte. Alternativt open source platforme såsom BioWadrobe 34 og ArrayExpressHTS 35 kræver praktisk kendskab kommandolinjen og køre scripts, som udgør betydelige udfordringer for ikke-bioinformatikere. Derfor Galaxy er stadig en populær og uundværlig ressource.

Kritiske trin i protokollen

De ubesværet fordele Galaxy og DAVID trods, en vellykket RNA-Seq eksperiment stadigbygger fundamentalt på omhyggelig projektering og udførelse af det eksperimentelle trin. For eksempel er det afgørende at sikre genetisk homogenitet før sammenligne to stammer ved RNA-Seq, og at bestemme, om der er forskelle i udviklingsmæssige satser. Isolering af RNA fra aldersmatchede stammer er kritisk samt. Ligeledes for at tage højde for variabiliteten af ​​genekspression i den samme stamme, er det vigtigt at køre to eller flere 'biologiske replikater' af hver stamme. Dette indebærer, dyrkning og høst orme fra stammerne er sekventeret i mindst twoindependent eksperimenter, selvom tre biologiske replikater er den anbefalede standard. Galaxy forener data fra flere biologiske replikater, således at de rapporterede gen-ekspression forskelle mellem stammerne er ikke blot et resultat af 'inden-prøve' variabilitet.

En kritisk design beslutning handler om brugen af single-end vs parret ende sekventering. Medsingle-endesekventering er hver fragment sekventeret én retning så processen er hurtigere, billigere og velegnet til transskriptionsprofilering. I parret-ende sekventering når fragmentet sekventeret fra den ene ende til den anden, er en anden runde af sekventering genoptaget i den modsatte retning. Det giver mere dybdegående data og yderligere positionsinformation af genomet, så er mere egnet til de novo genom samling, ny SNP identifikation og til at identificere epigenetiske modifikationer, deletioner, insertioner og inversioner. Tilsvarende det samlede antal læser og omfanget af genom krævede dækning tilstrækkelige differentielle ekspressionsundersøgelser er kontekst afhængig. For små genomer, såsom bakterier og svampe, ~ 5 millioner læser er tilstrækkelig, mens der i orme og fluer ~ 10 millioner læser tilvejebringe tilstrækkelig dækning. For organismer med store genomer, såsom mus og mennesker 15-25 mio læser er det påkrævede område. Hertil kommer, at den læste nummer og dækning, er det også important at det meste af NGS læser tilpasse til referencen genomet. En opstilling af <70% læser er indikativ for dårlige NGS eller tilstedeværelsen af ​​forurenende stoffer. Samlet, for C. elegans RNA-Seq undersøgelser, tre biologiske replikater sekventeret med 50 bp ensrettet sekventering resulterer i ~ 10-15.000.000 læser og ~ 5-10X genom dækning for hver prøve er en ideel mål.

På trods af den lette at bruge Galaxy, er der et par punkter at huske, for at sikre en smidig og glitch-fri dataanalyse oplevelse. Det er nødvendigt for brugeren at have en grundlæggende forståelse af formålet med og funktionen af ​​de forskellige værktøjer, der anvendes. Hver Galaxy værktøj kræver valg af parametre og forstå værktøj vil hjælpe brugeren optimere indstillinger baseret på kravet om eksperimentet. Galaxy hjælpesider forklare hver parameter, og det anbefales, at brugeren granske disse oplysninger til at træffe beslutning om test variabler.

Genet liste opnåede post RNA-Seq analyse er blot en liste over gener, indtil det er udvundet af biologisk relevante data ved hjælp af DAVID. Dette er en afgørende øvelse, der konverterer individuelle genbaserede data i biologisk-proces baseret resultater. Udforske RNA-Seq gen liste ved hjælp af de forskellige analyser DAVID tilbyder derfor en integreret og vigtig del af protokollen.

Ændringer, fejlfinding og begrænsninger

En almindelig fejl med NGS dataanalyse er opgaver eller test, der ikke, især ved kvalitetskontrol etaper. Af de test, der FastQC kører på en prøve, kunne et par kommet op som mislykkedes. Men det betyder ikke nødvendigvis ensbetydende med prøven ikke opfylder fastq kvalitetsstandarder. Den fejl kan have en alternativ forklaring, der bør undersøges nøje.

For eksempel, hvis den 'Per basesekvensen indhold' testen mislykkes (hvilket antyder, at der er en større end 10% forskel mellembaser i enhver position), markerer den fremgangsmåde til fremstilling oligodT biblioteket. Tidligere arbejde har vist, at Illumina NGS biblioteker kan have en tilbøjelighed til det 13. basen er sekventeret for at have en bias for visse baser forårsager prøven til fejle testen. Tilsvarende kan en fejl i 'Kmer indhold' test undertiden tilskrives det faktum, at biblioteker afledt fra vilkårlig priming næsten altid vil vise Kmer forspænding i begyndelsen på grund af en ufuldstændig prøvetagning af de tilfældige primere. Derfor er det vigtigt at overveje disse og andre hindringer i analysen rørledningen før bestemme skæbnen for eksperimentet.

Et andet vigtigt træk, som kan påvirke RNA-Seq dataanalyse er den hurtige og eksponentielle fremskridt der finder sted i NGS metoder og analytisk software. Ideelt, man forventer en identisk gen liste at stamme fra analyse af en prøve NGS data på to rørledninger eller to versioner af den samme rørlinje. Men mens konstant forbedring algoritmer sænke afvigelser i RNA-Seq analyse og producerer gen lister af større nøjagtighed, dette ofte fører til skævheder. For eksempel analysere en prøve NGS data ved hjælp af en ældre vs. nyere version af samme værktøjssæt kan producere væsentligt forskellige gen lister. En beskeden variation forventes men brugerne skal være klar over, at store afvigelser kan være reflekterende af svagheder i design eller ydeevne af forsøget.

Tilsammen har de Galaxy Project og David analyseværktøjer ændret den måde NGS data kan udnyttes til at udtrække biologisk relevant information. Det har åbnet helt nye niveauer af uafhængighed og efterforskning til det videnskabelige samfund, herunder C. elegans forskere. For eksempel er det konstant at reducere omkostningerne ved sekventering kombineret med bedre og hurtigere sekventering teknologi få gang i en æra af transcriptomics på niveau med enkelte orme,individuelle orm væv og endda få udvalgte orm celler. Disse bestræbelser inddrage dramatiske stigninger i NGS data, der genereres. Holde med den analytiske slutningen af denne arbejdsgang bliver en udfordring, men på grund af dens alsidighed, Galaxy sandsynligvis vil være medvirkende til bemyndigelse af overgangen fra hele organismen transcriptomics til RNA-Seq på enkeltcelleniveau i C. elegans. De resulterende fremskridt inden for viden vil sandsynligvis give ekstraordinære indsigt i grundlæggende biologi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Forfatterne vil gerne udtrykke deres taknemmelighed til de laboratorier, grupper og enkeltpersoner, der har udviklet Galaxy og David, og dermed gjort NGS bredt tilgængelige for det videnskabelige samfund. Hjælp og rådgivning fra kolleger ved University of Pittsburgh i løbet af vores bioinformatik uddannelse anerkendes. Dette arbejde blev støttet af en Ellison Medical Foundation Ny Scholar i Aging award (AG-NS-0879-12) og en bevilling fra National Institutes of Health (R01AG051659) til AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics