Transcriptomic Analys av

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy och David har dykt upp som populära verktyg som gör att utredarna utan bioinformatik utbildning för att analysera och tolka RNA-Seq data. Vi beskriver ett protokoll för C. elegans forskare att utföra RNA-Seq experiment, tillgång och bearbeta dataset med användning Galaxy och erhålla meningsfull biologisk information från genen listor med DAVID.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Nästa generations sekvensering (NGS) teknik har revolutionerat naturen av biologisk undersökning. Av dessa har RNA Sequencing (RNA-Seq) framträtt som ett kraftfullt verktyg för gen-uttrycksanalys och transkriptom kartläggning. Men hantering RNA-Seq dataset kräver sofistikerad beräknings kompetens och innebär inneboende utmaningar för biologiforskare. Denna flaskhals har mild av open access Galaxy projekt som gör det möjligt för användare utan bioinformatik färdigheter för att analysera RNA-Seq data och databasen för Annotation, visualisering och integrerade Discovery (David), en Gene ontologi (GO) term analys svit som hjälper härleda biologiska betydelsen av stora datamängder. För förstagångsanvändare och bioinformatik amatörer, självlärande och förtrogenhet med dessa plattformar kan vara tidskrävande och skrämmande. Vi beskriver en enkel arbetsflöde som hjälper C. elegans forskare att isolera masken RNA, genomföra en RNA-Seq experimentoch analysera data med hjälp av Galaxy och DAVID plattformar. Detta protokoll erbjuder stegvis instruktioner för användning av de olika Galaxy moduler för åtkomst rå NGS data, kontroller kvalitetskontroll, justering och differentiell genexpression analys, styrning av användaren med parametrar vid varje steg för att generera en gen lista som kan screenas för anrikning av gen klasser eller biologiska processer som använder DAVID. Sammantaget räknar vi med att den här artikeln kommer att ge information till C. elegans forskare utför RNA-Seq experiment för första gången samt frekventa användare som kör ett litet antal prover.

Introduction

Den första sekvenseringen av det mänskliga genomet, genomförs med hjälp av Fred Sangers dideoxinukleotid-sekvenseringsmetod, tog 10 år och kosta uppskattningsvis US $ 3 miljarder 1, 2. I drygt ett decennium sedan starten, nästa generations sekvensering (NGS) teknik har gjort det möjligt att sekvensera hela det humana genomet inom två veckor och för US $ 1000. Nya NGS instrument som tillåter ständigt ökande hastigheter för insamling sekvense-data med otrolig effektivitet, tillsammans med kraftiga minskningar i kostnad, håller på att revolutionera modern biologi i ofattbara sätt som genomsekvenseringsprojekt snabbt allt vanligare. Dessutom har dessa utvecklingar galvaniserad framsteg på många andra områden, såsom gen-expressionsanalys genom RNA-sekvensering (RNA-Seq), studiet av genomet hela epigenetiska modifieringar, DNA-proteininteraktioner, och screening för den mikrobiella mångfalden i humana värdar. NGS-baserade RNA-Seq i synnerhet har gjort det möjligt att identifiera och kart transcriptomes omfattande med noggrannhet och känslighet och har ersatt microarray teknik som metoden för uttrycksprofilering. Medan microarray teknik har använts i stor utsträckning, är den begränsad genom sitt beroende av redan existerande arrayer med känd genomisk information och andra nackdelar såsom korshybridisering och begränsat utbud av expressions förändringar som kan mätas på ett tillförlitligt. RNA-seq, å andra sidan, kan användas för att detektera både kända och okända transkript samtidigt som det producerar lågt bakgrundsbrus på grund av dess entydiga DNA-kartläggning natur. RNA-Seq, tillsammans med de många genetiska verktyg som erbjuds av modellorganismer, såsom jäst, flugor, maskar, fiskar och möss har varit grunden för många viktiga nya biomedicinska upptäckter. Men stora utmaningar kvarstår som gör NGS otillgängliga för bredare vetenskapliga samfundet, inklusive begränsningar av lagring, bearbetning och mest av allt, m eaningful bioinformatik analys av stora volymer av sekvenseringsdata.

Den snabba framsteg inom sekvenseringsteknologier och exponentiell uppgifter ansamling har skapat ett stort behov av beräkningsplattformar som gör att forskarna att få tillgång till, analysera och förstå denna information. Tidiga system var kraftigt beroende av datorprogrammering kunskap, medan genom webbläsare som NCBI som tillät icke-programmerare att komma åt och visualisera data inte tillåter avancerade analyser. Den webbaserade öppen åtkomst plattform, Galaxy ( https://galaxyproject.org/ ) har fyllt detta tomrum och visat sig vara en värdefull pipeline som gör det möjligt för forskare att bearbeta NGS data och utföra ett spektrum av lätt komplex bioinformatik analyser. Galaxy ursprungligen etablerades och upprätthålls genom laboratorier Anton Nekrutenko (Penn State University) och James Taylor (Johns Hopkins University)f "> 3. Galaxy erbjuder ett brett utbud av beräkningsuppgifter gör det till en 'one-stop shop' för otaliga bioinformatik behov, inklusive alla de olika stegen i en RNA-Seq studie. Itallows användare att utföra databehandling antingen på sina servrar eller lokalt på sina egna maskiner. Data och arbetsflöden kan reproduceras och delas. Online tutorials, hjälpavsnittet och en wiki-sida ( https://wiki.galaxyproject.org/Support ) ägnas åt Galaxy Project ger konsekvent stöd. dock för förstagångsanvändare, särskilt de utan bioinformatik utbildning, ledningen kan visas skrämmande och processen för självstudier och förtrogenhet kan vara tidskrävande. Dessutom studerade det biologiska systemet, och detaljerna i experimentet och metoder som används, slag de analytiska beslut på flera steg, och dessa kan vara svårt att navigera utan instruktion.

Den övergripande RN A-Seq Galaxy Workflow består av data uppladdning och kvalitetskontrollen, följt av analys med användning av Smoking Suite 4, 5, 6, 7, 8, 9, som är en kollektiv av olika verktyg som krävs för olika steg av RNA-Seq dataanalys 10, 11, 12, 13, 14. En typisk RNA-Seq experiment består av den experimentella delen (provberedning, mRNA-isolering och cDNA-bibliotek beredning), NGS och analysen bioinformatik data. En översikt över dessa sektioner och de steg som ingår i Galaxy pipeline, visas i figur 1.

3fig1.jpg"/>
Figur 1: Översikt av en RNA-Seq Workflow. Illustration av de experimentella och beräkningssteg som är involverade i en RNA-Seq experiment för att jämföra de gen-uttrycksprofiler av två snäck stammar (A och B, orange och grönt linjer och pilar, respektive). De olika modulerna i Galaxy utnyttjas visas i rutor med motsvarande steg i våra protokoll markerade med rött. Utgångarna av olika verksamheter är skrivna i grått med filformat som visas i blått. Klicka här för att se en större version av denna siffra.

Det första verktyget i Tuxedo Suite är en anpassning program som kallas 'Tophat'. Det bryter ner NGS ingången läser i mindre fragment och sedan kartor dem till en referens genom. Denna tvåstegsprocess säkerställer som läser spänner intron regioner vars inriktning kan annars vara disrupted eller missat redovisas och kartläggas. Detta ökar täckning och underlättar identifiering av nya splitsningsförbindelser. Tophat utgång redovisas som två filer, en säng fil (med information om skarv korsningar som innehåller genomisk plats) och en BAM-fil (med kartläggning information om varje läst). Nästa, är BAM fil inriktad mot en referens genomet för att uppskatta överflöd av individuella transkript inom varje prov med användning av efterföljande verktyget i Smoking Suite kallas 'Manschettknapp'. Manschettknappar funktioner genom att skanna uppriktningen att rapportera fullängdstranskriptfragment eller 'transfrags' som sträcker sig över alla möjliga splitsningsvarianter i indata för varje gen. Baserat på detta, alstrar den en 'transkriptom' (sammansättning av alla transkript genereras per gen för varje gen) för varje prov som sekvensbestämts. Dessa Manschettknappar aggregat är sedan kollapsat eller slås ihop tillsammans med reference genomet för att producera en enda annotering fil för nedströms differentialanalys med användning av nästa verktyg, 'Cuffmerge'. Slutligen, den 'Cuffdiff' verktyget åtgärder differentiell genexpression mellan proven genom att jämföra tophat utsignalerna från vart och ett av proven till den slutliga Cuffmerge utmatningsfilen (Figur 1). Manschettknappar använder FPKM / RPKM (Fragment / Läser Per kilo av avskrift per miljon mappade läsningar) värden att rapportera avskrift bestånd. Dessa värden återspeglar en normalisering av rå NGS data för djup (genomsnittligt antal läser från ett prov som ansluter till referens genomet) och gen längd (gener har olika längd, så räknas måste normaliseras med avseende på längden av en gen för att jämföra nivåer mellan gener). FPKM och RPKM är väsentligen desamma med RPKM används för enkel end RNA-Seq där varje läsning motsvarar ett enda fragment, medan, är FPKM används förparade-end-RNA-Seq, eftersom den svarar för det faktum att två läsningar kan motsvara samma fragment. Slutligen, är resultatet av dessa analyser en lista av gener differentiellt uttryckta mellan de villkor och / eller stammar som testats.

När en lyckad Galaxy körning är avslutad och en 'gen lista' genereras kräver nästa logiska steg fler bioinformatik analyser för att härleda meningsfull kunskap från datamängder. Många programvarupaket har uppstått för att tillgodose detta behov, inklusive offentligt tillgängliga webbaserade beräknings paket som David (databasen för Annotation, visualisering och integrerad discovery) 15. DAVID underlättar tilldela biologisk mening till stora gen listor från hög genomströmning studier genom att jämföra gen listan till den integrerade biologiska kunskapsbas upp och avslöjar de biologiska anteckningar i samband med genen listan. Detta följs av anrikningsanalys, dvs tester till identify om någon biologisk process eller gen klass är överrepresenterad i genen listan (er) i en statistiskt signifikant sätt. Det har blivit ett populärt val på grund av en kombination av en bred, integrerad kunskapsbas och kraftfulla analytiska algoritmer som gör det möjligt för forskare att upptäcka biologiska teman berikade inom genomik härrör 'gen listor' 10, 16. Ytterligare fördelar är dess förmåga att bearbeta gen listor som har skapats på sekvense plattform och en mycket användarvänligt gränssnitt.

Nematoden Caenorhabditis elegans är en genetisk modellsystem, känt för sina många fördelar såsom liten storlek, genomskinlig kropp, enkel kropp plan, enkel kultur och stor mottaglighet för genetisk och molekylär dissekering. Maskar har en liten, enkel och väl kommenterad genomet som inkluderar upp till 40% konserverade gener med kända humana homologer 17. Indeed, C. elegansvar den första metazoan vars genom sekvenserades fullständigt 18, och en av de första arter där RNA-Seq användes för att kartlägga en organisms transkriptom 19, 20. Tidig snäck studier involverade experimenterande med olika förfaranden för high-throughput-RNA capture, bibliotek beredning och sekvensering samt bioinformatik rörledningar som bidrog till utvecklingen av tekniken 21, 22. Under de senaste åren har RNA-Seq-baserade experiment i maskar blivit vardagsmat. Men för traditionella snäck biologer de utmaningar som beräknings analys av RNA-Seq uppgifter är fortfarande ett stort hinder för ökad och bättre utnyttjande av teknik.

I denna artikel beskriver vi ett protokoll för att använda Galaxy plattform för att analysera hög kapacitet RNA-Seq data som genereras från C. elegans. För många första gången och små scaLe användarna är mest kostnadseffektivt och enkelt sätt att göra en RNA-Seq experiment för att isolera RNA i labbet och använda en kommersiell (eller in-house) NGS anläggning för framställning av sekvense cDNA bibliotek och NGS själv. Därför har vi första detaljerade de olika stegen i isolering, kvantifiering och kvalitetsbedömning av C. elegans RNA-prover för RNA-Seq. Nästa tillhandahåller vi steg-för-steg-instruktioner för användning av Galaxy gränssnitt för analyser av NGS uppgifter, som börjar med test för post-sekvensekvalitetskontroller följt av justering, montering, och differentiell kvantifiering av genuttryck. Dessutom har vi tagit med riktningar för att granskar genen listor som följer av Galaxy för biologiska anrikningsstudier med användning DAVID. Som ett sista steg i arbetsflödet ger vi instruktioner för att ladda upp RNA-Seq data till publika servrar såsom sekvensen Läs Archive (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) för att göra det fritt tillgängliga för forskarsamhället. Sammantaget räknar vi med att denna artikel kommer att ge omfattande och tillräcklig information för att masken biologer som utför RNA-Seq experiment för första gången samt frekventa användare som kör ett litet antal prover.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA-isolering

  1. Säkerhetsåtgärder
    1. Torka hela arbetsyta, instrument och pipetter med användning av en kommersiellt tillgänglig RNas spray för att eliminera eventuella RNaser närvarande.
    2. Använd handskar vid alla tillfällen, regelbundet ändra dem med nya celler under de olika stegen i protokollet.
    3. Använd endast filterspetsar och hålla alla prover på is så mycket som möjligt för att undvika RNA nedbrytning.
      OBS: För att få den bästa data från NGS plattformar, är det viktigt att börja med hög kvalitet RNA. RNA-isolering och beredningsmetoder variera beroende på provets ursprung, metod för sekvensering och utredare preferens. Flera kommersiellt tillgängliga kit kan användas för detta ändamål eller RNA kan också isoleras med användning av en standard-fenol-kloroform-metoden för RNA-extraktion. Med antingen metodik bör de försiktighetsåtgärder som anges ovan följas genom hela processen för att minimera kontaminering och OBTain orörda RNA-prover.
  2. skörd Worms
    1. Synkronisera masken populationen genom hypoklorit blekningsbehandling 23 för att erhålla 1000-1500 åldersmatchade C. elegans vuxna maskar per stam.
    2. Tvätta maskar bort plattor med användning av M9-buffertlösning och centrifugera vid 325 X g i en bordscentrifug under 30 s. Aspirera ut M9 buffert lämnar efter sig en pellet av maskar. Upprepa detta steg minst tre gånger för att eliminera bakteriell överföring.
    3. Till snäck pelleten, tillsätt ~ 500 mikroliter av lysbuffert (om användning av ett kommersiellt kit) eller Trizol (en mono-phasic lösning av fenol och guanidinisotiocyanat, om fenol: kloroform-extraktion som beskrivits i 1.3.3 genomförs) för att störa snäck vävnader , avaktivera RNaser och stabilisera nukleinsyror.
      OBS: Protokollet kan pausas här genom flash frysa proverna i flytande kväve följt av förvaring vid -80 ° C.
  3. RNA-isolering
  4. Sonikera snäck proverna vid 45% amplitud i cykler om 20 s. 'PÅ' och 40 s. 'AV' (8-12 cykler per stam). Håll prover på is hela tiden.
    OBS: Se till att ultraljudssonden är nedsänkt i buffert och hålls på en konstant nivå under hela. Undvik skumbildning av provet och rengör sonden ordentligt in mellan proven. Sonication cykler kan variera beroende på vilken typ av sonikator används. Det rekommenderas att sonication villkor först optimeras på ett prov innan ett experiment.
  5. Om användning av ett kommersiellt tillgängligt kit, vidare med RNA-isolering enligt den föreskrivna protokollet. För RNA-isolering med användning av en fenol-kloroform-metoden, utföra följande steg.
  6. Centrifug sonikerades prover vid 16.000 xg under 10 min. vid 4 ° C.
  7. Överför supernatanten till ett 1,5 ml RNas-fri mikrofugrör och tillsätt 100 | il kloroform (1/5: e volymen av RNA / DNA-isoleringsreagens).
    Varning: Kloroform är giftigt. För att minimera exponeringen och undvika inandning arbetar i en kemisk huva vid hantering av detta ämne.
  8. Vortex proverna noggrant i 30 - 60 s. och låta proven stå vid rumstemperatur under 3 min.
  9. Centrifugera vid 11.750 xg under 15 min. vid 4 ° C. Överföra endast det översta vattenskiktet till ett nytt RNas-fri mikrofugrör till att inte aspirera DNA-innehållande vitt gränssnitt. Upprepa steg 1.3.4 till 1.3.6.
  10. Tillsätt 250 ul (70% av vattenfasen eller halv-RNA / DNA-isoleringsreagens volym) av 2-propanol och invertera röret för att blanda. Låt rören stå vid rumstemperatur under 10 min eller lämna över natten vid -80 ° C.
  11. Centrifugera proverna vid 11.750 xg under 10 min. vid 4 ° C. Dekantera supernatanten mycket försiktigt och lämnar efter sig ett fåtal mikroliter i botten av röret så att pelleten inte störs.
  12. Tvätta pelleten med 500 mikroliter av 75% etanol (gjord med användning av RNas-fritt vatten) och centrifugera ner vid 16 tusen xg under 5 min. ent 4 ° C.
  13. Ta bort så mycket supernatant som möjligt utan att störa pelleten. Lufttorka pelleten i en huva för några minuter.
  14. Tillsätt 30 mikroliter av RNas-fritt vatten och hjälpa upplösa RNA-pelleten genom upphettning under 10 min. vid 60 ° C.
  15. Kontrollera RNA kvalitet och kvantitet med hjälp av en Bioanalyzer.
    OBS: Bioanalyzer genererar en R NA I ntegrity N umbra (RIN) som ett mått på RNA kvalitet. En RIN av minst 8 är den rekommenderade tröskelvärdet för RNA-Seq prover (högre är bättre). kan också kontrolleras RNA kvantitet och kvalitet spektrofotometriskt men bör också följas genom visuell bedömning av RNA integritet. För att göra detta, köra proverna på en 1,2% agarosgel tillräckligt länge för att erhålla lämplig separation av 28s och 18s ribosomala RNA-banden. Närvaron av två distinkta band (1,75 kb för 18S rRNA och 3,5 kb för 28S rRNA i fallet med C. elegans) är en godtagbar mått på RNA kvalitet.
  16. Användning ~ 100 ng / | il RNA till ship till säljaren / NGS anläggning för framställning av sekvense bibliotek.
    OBS: RNA-prover ska transporteras på torris till sekvensleverantör. De flesta leverantörer genomföra en oberoende RNA kvalitetskontroll test innan biblioteket förberedelse.

2. RNA-Seq Data Analysis

  1. Nedladdning av Raw Sequencing Data
    1. Ladda de komprimerade rå fastq sekvenseringsdata kodade i fastq.gz format från NGS leverantören med hjälp av en "filöverföringsprotokoll" (ftp).

figur 2
Figur 2: Layout av Galaxy användargränssnitt panelen och Key RNA-Seq funktioner. Viktiga funktioner på sidan utvidgas och markeras. (A) belyser 'Analysera uppgifter' funktion i webbsidan huvud som används för att åtkomst (B) är den 'Progress bar' som anger det utrymme på Galaxy servern utnyttjas av operationen. (C) är 'Verktyg avsnitt' som listar alla de verktyg som kan köras på Galaxy-gränssnittet. (D) visar de 'NGS: RNA-analys' verktygssektionen som används för RNA-Seq analys. (E) skildrar 'History' panel som listar alla filer som genereras med hjälp av Galaxy. (F) visar ett exempel på dialogrutan som öppnar upp när man klickar på en fil i avsnittet Historik. Inom (F), belyser den blå rutan ikoner som kan användas för att visa, editthe attribut eller radera datamängden, belyser den lila rutan ikoner som kan användas för att 'redigera' de datamängds taggar eller annotering, och indikerar den röda rutan ikoner att ladda ner data, visa information om uppgiften utförs eller köra operationen. Klicka här för att se en större version av denna siffra.

  1. Komma igång med Galaxy
    OBS: Galaxy kan köras på en gratis allmän server med hjälp av en webbaserad plattform som ger moln och gratis begränsad lagring. Det kan också laddas ner och köras lokalt på användarens dator eller beräkningskluster värd institutioner men lokala behandling, kan begränsas av datalagringsgränser och processorkraft begränsningar av användarnas datorer. Detaljer om nedladdning och installation kan nås på https://wiki.galaxyproject.org/Admin/GetGalaxy . I detta protokoll beskriver vi den webbaserade användning av Galaxy pipeline.
    1. Efter nedladdning och lagring av NGS data på användarens dator, tillgång till Galaxy pålaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registrera ett användarkonto genom att klicka på 'User' i huvudet på sidan, logga in och börja med att bekanta sig med användargränssnittet panelen.
      OBS: Det rekommenderas att förstagångsanvändare utnyttjar 'Börja här' handledning som finns på hemsidan för att få bekanta sig med den grundläggande uppbyggnaden av Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Klicka på 'Analysera data' (figur 2A) i rubrikpanelen för att komma åt 'Analysis Home View' som också är startskärmen på Galaxy.
      OBS: Rubriken finns också andra länkar, vars detaljer kan ses genom att hålla muspekaren över dem. Det övre högra hörnet av samlingsröret har en förloppsindikator som övervakar utrymmet utnyttjas för de uppgifter (Figur 2B).
    4. Cslicka på 'NGS: RNA-analys' uppgift i 'Verktyg Menu' på den vänstra panelen (figur 2C) för att få tillgång till alla de verktyg som krävs för RNA-seq dataanalys.
      OBS: "Verktyg-menyn kataloger alla verksamheter som Galaxy erbjuder. Denna meny är uppdelad baserat på uppgifter och klicka på någon kommer att öppna upp en lista med alla de verktyg som behövs för att utföra denna uppgift.
    5. Skapa ny analys historia genom att klicka på kugghjulet högst upp på 'History' panelen till höger (Figur 2E). Välj 'Skapa ny' alternativ från popupmenyn. Ge denna 'History' ett passande namn för att identifiera analysen.
      OBS: 'History' panel visar alla uppladdade filer för analys samt alla utdatafiler som genereras genom att köra uppgifter på Galaxy. Genom att klicka på ett filnamn i denna panel öppnar en dialogruta med detaljerad information om uppgiften utförsoch ett utdrag av datasetet (Figur 2F). Ikoner i denna ruta möjliggöra för användaren att 'visa', 'redigera attributen' eller 'ta bort' datasetet (fig 2F, markerad med blått). Dessutom kan användaren också 'redigera' datamängds taggar eller annotering (Figur 2F, markerad i lila), 'download' data, 'visa detaljer' av uppgiften, 'repris' uppgiften eller ens 'visualisera' datamängden från denna dialogrutan (Figur 2F, markerade i rött).
    6. Klicka på Upload File "funktionen under 'Hämta data' i 'ToolsMenu' för att ladda upp rå fastq filer.
      OBS: Genom att klicka på denna eller någon annan verktyg öppnar upp en kort beskrivning av verksamheten, och testet själv i mitten 'Analysis Interface' panel. Denna panel skosnören ihop'Verktyg' från den vänstra panelen och den 'indatafiler' från höger 'History' panel (Figur 2E). Här är indatafiler från 'Historia' utvalda och andra parametrar definieras för att köra en given uppgift. Den resulterande utsignalen dataset från varje test sparas tillbaka i 'History'. Ingår i testet i "Analysis Interface" panel är förklaringar till alla parametrar som är tillgängliga för att köra ett visst verktyg tillsammans med en detaljerad lista över alla utdatafiler verktyget genererar.
    7. Efter uppgiften öppnas i 'Analysis Interface', klicka på 'Välj Lokal fil' eller 'Välj FTP File' (snabbare uppladdning), navigera till den mapp som innehåller sekvensfilerna och välj lämpligt dataset som ska laddas upp.
    8. Låt Galaxy till 'Auto-detect' den uppladdade filtyp (standardinställning). Välj "C. elEgans "i rullgardinsmenyn för genomet.
    9. Klicka på 'Start' för att initiera dataöverföring. När filen är uppladdad, kommer den att sparas i 'History' panel och kan nås därifrån.
    10. Om flera sekvense datafiler produceras för ett enda prov, kombinera dem med hjälp av 'Concatenate' verktyg. För att göra detta, öppna 'Text Manipulation' alternativet i 'Verktyg-menyn'.
    11. Klicka på 'Concatenate' verktyg, välj filer som ska kombineras i listrutan i mitten av 'Analysis gränssnitt' och klicka på 'Kör'.
      OBS: Utgång filer som produceras med hjälp av denna uppgift genereras i fastq format. Kartläggningen Programmet har en gräns på 16.000.000 sekvenser per fastq fil och när denna gräns är nådd en ny fastq fil skapas för de återstående sekvenserna. den "; Concatenate' verktyget behövs i sådana fall för att kombinera datamängder.
    12. Konvertera uppladdade fastq-filer till önskat fastqsanger format för Galaxy RNA-Seq analys genom att använda 'fastq groomer' verktyg finns under "NGS: QC och manipulation avsnittet (se kompletterande fil).
    13. Välj lämplig fastq dataset under "File till Groom alternativet och kör verktyget med standardparametrar.
      OBS: Utgång filer som produceras med hjälp av denna uppgift genereras i fastqsanger format.
  2. fastqsanger Data Quality-kontrolltester
    1. Kontrollera kvaliteten på den uppladdade fastqsanger läser med hjälp av 'FastQC' verktyg som finns under 'NGS: QC och manipulation' i menyn 'Verktyg'.
    2. Välj preparerade fastqsanger datafil från rullgardinsmenyn för "Short läsa data från den aktuella biblioteket' och köra verktyget med standardparametrar.
      OBS: Var särskilt uppmärksam på kvaliteten på läser och förekomst av adaptersekvenser. Adaptrar avlägsnas vanligtvis som en del av stolpen RNA-Seq databehandling av NGS leverantörer, men i vissa fall kan vara kvar. För förklaring av kvalitetsnormer går till http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Kontrollera med NGS leverantören och om adaptrar är närvarande, trimma dem med 'Klipp' verktyg från 'NGS: QC och manipulation' uppgift menyn.
      OBS: Utgång filer som produceras med hjälp av denna uppgift genereras i rå txt format samt i html som kan öppnas på vilken webbläsare som helst.
  3. Data Analysis med Tuxedo Suite
    1. TopHat
      1. Ladda ner den senaste versionen av FASTA och gtf (Gene Transfer Format) filer från Ladda upp fil' såsom beskrivits ovan i 2.2.6.
      2. Öppna "NGS: RNA Analysis avsnittet och klicka på 'TopHat' verktyg för att kartlägga sekvense läser den nedladdade referens genomet.
      3. Välj lämpligt svar från rullgardinsmenyn på frågan 'Är denna enda slut eller parade end data?'
      4. Välj lämplig fastq filen.
      5. Välj 'Använd ett genom från historien' i nästa rullgardinsmenyn och välj referens genom hämtade i steg 2.4.1.1.
      6. Välj 'Default' för de andra parametrarna och klicka på 'Kör'.
        OBS: Bland utgångs filer som produceras med hjälp av denna uppgift är Godkända Hits "fil som används för efterföljande steg.
    2. Manschettknappar och Cuffmerge
      1. Välj 'Cufflänkar verktyg i 'NGS: RNA Analysis' sektionen för att montera utskrifter, uppskatta deras överflöd och test för differentiellt uttryck.
      2. I den första rullgardinsmenyn väljer mappade Godkända hits (BAM-format) "fil som erhållits från TopHat analys.
      3. I den andra rullgardinsmenyn, ange referens anteckning till GTF filen hämtade i steg 2.4.1.1.
      4. Välj 'Ja' för "Utför partiskhet korrigering alternativet och kör uppgiften med standardinställningarna för alla andra parametrar.
        OBS: Bland utgångs filer som produceras med hjälp av denna uppgift är Godkända Avskrifter "fil som används för efterföljande steg.
      5. Öppna 'Cuffmerge' verktyg i 'NGS: RNA Analysis' att slå samman 'Monterade Avskrifter' framställd för alla RNA-Seq prov.
        OBS: Den första rutan i verktygssjälv fylls och listor alla Manschettknapp.
      6. Välj 'Assembled Avskrifter' fil för alla stammar / förhållanden som testats, inklusive biologiska replikat av samma stam / skick (se diskussion om biologiska replikat).
      7. Välj 'Ja' för 'Använd Reference Annotation' och välj GTF filen hämtade i steg 2.4.1.1.
      8. I följande ruta, återigen välja 'Ja' för "användning Sequence Data alternativet och välj hela genomet FASTA fil hämtade i steg 2.4.1.1.
      9. Att hålla de andra parametrarna som standard, klicka på 'Kör'.
        OBS: Cuffmerge genererar en enda GTF utdatafil.
    3. Cuffdiff
      1. Gå till 'Cuffdiff' verktyg i "NGS: RNA Analysis avsnittet. I 'Avskrifter' menyn, välj den sammanslagna utdatafilen från Cuffmerge.
      2. Märkavillkoren 1 och 2 med de två stammarna / tillståndsnamn.
        OBS! Cuffdiff kan utföra jämförelser mellan fler än två stammar eller villkor samt tidskurs experiment. Använd bara 'Lägg till nya villkor' möjlighet att lägga till varje ny stammar / skick, om det behövs.
      3. För varje stam / skick, under 'Replikat' select individs Accepterade Hits 'utdatafiler från TopHat som motsvarar de olika biologiska replikat av denna stam / skick. Håll ned 'cmd' nyckel, om du använder en Macintosh-dator och "ctrl-tangenten, om du använder en dator för att välja flera filer.
      4. Låt alla andra alternativ som standardparametrar. Klicka på 'Kör' för att köra uppgiften.
        OBS: Cuffdiff genererar många utdatafiler i tabellformat som den slutliga avläsningen av RNA-Seq analys. Dessa inkluderar filer med FPKM spårning för avskrifter, gener (kombineradeFPKM värden av transkript som delar en gen identitet), primära transkript och kodande sekvenser. Alla datafiler som genereras kan visas på någon kalkylprogram och innehåller liknande attribut såsom gen namn, locus, faldig förändring (i log2 skala) samt statistiska uppgifter om jämförelser mellan stammar / förhållanden, inklusive p-värde och q-värden. Data i dessa filer kan sorteras baserat på statistisk signifikans av skillnader eller faldig förändring i genuttryck (storlek och riktning av förändringar, som i upp- eller ned- reglerade gener) och manipuleras enligt användarnas krav. Vid behov av omvandling mellan olika genprodukter identifierare (t.ex. Wormbase gen ID vs. kosmid nummer), verktyg som finns på Biomart ( http://www.biomart.org/ ) kan utnyttjas.

3. Gene Ontology (GO) Term Analys användande DAVID

  1. Åtkomst DAVID från webbplatsen hTTP: //david.ncifcrf.gov/. Klicka på 'Starta Analysis' i huvudet på webbsidan. I 'Steg 1', kopiera och klistra in listan av gener erhållna från Galaxy in i box A. i 'Steg 2', välj 'Wormbase Gene-ID' som identifierare för ingångs generna.
    OBS: DAVID känner igen de flesta allmänt tillgängliga kategorier antecknings, så andra genprodukter identifierare (såsom Entrez gen ID eller gen symbol) kan också användas.
  2. I 'Steg 3', välj 'Gene List' (gener som skall analyseras) under 'Förteckning Type' och klicka sedan på 'Skicka List' ikon.
    OBS: 'Analysis Wizard', kommer att öppna upp för att lista alla hyperlänkade DAVID verktyg som kan köras på genen listan upp (Figur 3). Klicka på dessa länkar för att få tillgång till relevanta motsvarande moduler som per användarens krav. För att identifiera de verktyg som är lämpliga för en given uppgift, klicka på "Vilka DAVID verktyg att använda? 'Länken på' ; Sidanalys Wizard'. Klicka på "Starta Analysis länken i rubriken för att återgå till 'Analysis Wizard' hemsida när som helst under analysen.

figur 3
Figur 3: Layout av DAVID Analys Wizard webbsida och Exempel på Operation Utgångar. Den 'Analysis Wizard' web användargränssnitt listar de verktyg som används för att analysera uppladdade gen lista för anrikning baserat på olika parametrar. Genom att klicka på dessa verktyg rapporterar de analyserade data i en ny webbsida. Exempel på de skivformade rapporter som genereras från 'Gene Funktionell klassificering', 'Functional Notering tabell' och 'Funktionell Notering Clustering' visas som sätter in (pilar).> Klicka här för att se en större version av denna siffra.

  1. Funktionell Tillägg Tool 1: Functional Annotation Clustering
    1. Klicka på 'Functional Annotation Clustering' modul för att gå till sammanfattningssidan. Håll standardantecknings kategorierna och klicka på 'Functional Annotation Clustering' för att skapa kluster av liknande anteckning termer efter sin anrikning poäng.
    2. Klicka på hyperlänkad namnet på varje term för att läsa information om det och 'RT' (relaterade termer) att lista liknande termer relaterade till kategorin.
    3. Klicka på den lila fältet för att lista de gener som är associerade med en löptid och den röda 'G' för att lista alla de gener som är förknippade med alla termer inom ett kluster.
    4. Klicka på den gröna symbolen för att se en tvådimensionell bild av alla gener och villkor i ett kluster.
      OBS: De tre sista kolumnerna listar de analytiska och statistiska resultat för varjetermin. Resultaten för denna och alla andra analyser kan laddas ner i en .txt-format genom att klicka på 'Hämta fil' länken.
  2. Funktionell Tillägg verktyg 2: Functional Annotation Diagram
    1. Återgå till sammanfattningssidan och klicka på "Functional Annotation diagrammets att identifiera väsentligen överrepresenterade biologiska termer (t.ex. transkriptionsfaktor aktivitet eller kinasaktivitet) i samband med genen listan.
    2. Klicka på sikt namn för att få mer detaljerad information och 'RT' (relaterade termer) att lista andra relaterade termer.
    3. Klicka på den lila bar att lista alla tillhörande gener av motsvarande enskild kategori.
      OBS: De två sista kolumnerna listar de statistiska-test resultat för varje kategori.
  3. Funktionell Tillägg verktyg 3: funktionell Notering Tabell
    1. Återgå till sammanfattningssidan och klicka på "Functional Annotation Table "för att se en lista över alla anteckningar i samband med generna på en lista utan några statistiska beräkningar.
      OBS: Detta verktyg kan vara användbart för gen-för-gen-analys av en lista eller för att titta på specifika, högintressanta gener.
  4. Gene Functional Classification Tool
    1. Återgå till 'Analys Wizard' och klicka på 'Gene Functional Classification' modul att segregera ingångs genen lista till funktionellt besläktade grupper av gener rang enligt deras 'Enrichment Score', ett mått på den totala anrikning av genen gruppen i listan.
    2. Klicka på sikt namn för att få mer detaljerad information och 'RG' att avslöja funktionellt besläktade gener av genen gruppen
    3. Klicka på den röda 'T' (sikt rapporter) att lista förknippas biologi och den gröna symbolen för att se en tvådimensionell bild av alla gener och villkor.
  5. Gene-namebatch Viewer
    1. Återgå till 'Analysis Wizard' och klicka på 'Gene-namn Batch Viewer' översätta 'Wormbase Gene ID' i sina motsvarande gen namn. (WBGene00022855 = tCER-1).
    2. Klicka på gen namn för att få mer gen specifik information.
    3. Klicka på 'RG' (relaterade gener) på länken bredvid varje gen att avslöja gener förväntas vara funktionellt relaterad till genen av intresse.

4. Uppladdning RAW Data på NCBI Sequence Läs Archive (SRA)

  1. Gå till Vägverkets hemsida på Logga in på NCBI länken eller registrera ett nytt konto.
  2. Klicka på 'Bioproject'.
  3. Klicka på 'Submission' under 'Använda Bioproject' rubrik till vänster.
  4. Välj alternativet 'New Submission'. Uppdatera uppgifter om inlämnare. Fortsätta genom de återstående sju flikarna, Fylla i detaljerna i experimentet, och data som laddas upp. Klicka på 'Skicka' när den är klar.
    OBS: I den femte fliken biologiskt prov ", lämna facket för 'biologiskt prov' tom.
  5. Uppdatera den resulterande sidan genom att klicka på 'Mina bidrag' länken. De inlämnade uppgifterna kommer att listas med ett tilldelat inlämningsnummer, kort beskrivning och uppladdningsstatus.
  6. Klicka på 'biologiskt prov' högst upp på sidan, i 'starta en ny inlämning' box och skapa en 'ny underkastelse'. Skicka separata inlagor för varje prov.
  7. Liksom i fallet med 'Bioproject' i 4.4, uppdatera uppgifter om avsändaren och fortsätter genom resten av flikarna fylla i detaljerna i varje flik. När de är färdiga granskning och klicka på 'Skicka'.
  8. Navigera till http: //www.ncbi.nlm.nih.gov / sra att skapa den slutliga "Sequence Läs Archive (SRA) underkastelse.
  9. Klicka på 'Logga in till Vägverket' under 'Komma igång'.
  10. På nästa sida klicka på "NCBI PDA länken. En länk 'Uppdatering' kommer att öppna upp. Fyll i formuläret och klicka på 'Spara inställningar'.
  11. På den sida, klicka på "Skapa ny Submission länken. Ange ett passande namn under 'Alias' och klicka på 'Spara'. En tabell med inlämnandet ID och andra detaljer kommer att skapas.
  12. Klicka på 'Nytt experiment' och registrera åtminstone en unik sekvense bibliotek för varje 'biologiskt prov'.
  13. Utse och länka den tidigare skapade 'Bioproject' och 'biologiskt prov' underkastelse ID. En 'Nytt experiment' kommer att skapas.
  14. Klicka på 'New Run' längst ned på sidanefter Vägverkets Experiment har gjorts och identifiera de datafiler som måste kopplas till den.
  15. Beräkna MD5 summan av varje datafil. För att göra detta på en Macintosh terminal, gå till Program / Verktygsprogram / Terminal. I terminal, typ i 'md5' (utan citattecken), följt av ett mellanslag. Dra och släpp filerna som behöver laddas upp till terminalen från Finder och klicka på 'Enter'.
  16. Terminal kommer att återvända en alfanumerisk MD5 summa. Ange detta som en del av inlämnande processen för filöverföring. Använd det användarnamn och lösenord som tillhandahålls av systemet för att ladda upp filer via FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I C. elegans, eliminering av de nedärvda stamceller (GSCs) sträcker livslängd, förbättrar spänningsmotståndskraft, och upphöjer kroppsfett 24, 28. Förlust av GSCs, antingen till följd av laser ablations- eller genom mutationer, såsom GLP-1, orsakar livslängd förlängning genom aktivering av ett nätverk av transkriptionsfaktorer 29. En sådan faktor, TcEr-1, kodar snäckhomologen av den humana transkriptionsförlängning och skarvning faktor, TCERG1 30. Följande representativa resultat visar hur RNA-Seq användes för att identifiera gener vars uttryck moduleras av tCER-1 / TCERG1 efter könsceller förlust i vår nyligen publicerad studie 31. De transcriptomes av åldersmatchade, dag 2 vuxna av GLP-1 och tCER-1; GLP-1 mutanter jämfördes. För varje stam, isolerades mRNA från två biologiska replikates (fyra prover helt) med användning av det protokoll som beskrivs i avsnitt 1. RNA-prover sändes till en kommersiell tjänsteleverantör som ställdes cDNA-bibliotek från de fyra proven och utförde 50 bp enda änden sekvensering. Rå NGS data har laddats ned såsom beskrivs i avsnitt 2,1.

Post sekvensdata utvärdering

Tabell 1 är en sammanställning av testresultat för att bedöma kvaliteten på råsekvense läsningar. 'FASTQ' kvalitetskontroll analys belyser antalet sekvenser läses utan någon 'dålig kvalitet' läser tillsammans med 48-49% GC-innehåll och en konstant sekvens läses längd 51 bp. Detta steg kontrollerar också data sekvense för många andra funktioner såsom Kmer innehåll och är kollektivt består av 11 tester totalt. Den C. elegans genomet är ~ 100 Mbp. Baserat på antalet sekvense läser från varje prov som avbildas till genomet, den genome täckning (sista kolumnen) uppskattades med användning av Lander / Waterman ekvation 'C = LN / G', där, C står för täckning, är G den haploida genomet längd, L är den lästa längden och N är antalet läsningar. Vi använde standardparametrar för alla steg och fick 48-49% GC-innehåll i alla prover. Som kan ses genom täckning var mellan 9x till 11x i proverna.

Identifiering av TcEr-1 / TCERG-1-reglerade gener genom differentiell Gene Expression Analys på Galaxy

Genom de steg som beskrivs i sektioner 2,2 till 2,4, var Galaxy rörledningen 3 användes för att erhålla en lista av gener differentiellt uttryckta mellan glp-1 och tCER-1; glp-1-mutanter. Galaxy det möjligt för oss att kombinera NGS data från två replikat för varje stam och utförde differentialanalys för att generera tabellfiler belyser genomet breda uttrycket profile. Med användning av ett tröskelvärde på minst en-faldig förändring i storlek och P-värde av minst 0,05, var en lista av 835 gener som var differentiellt uttryckta mellan de två stammarna genererade 31. Listan delades baserat på huruvida expression av generna var nedreglerade i tCER-1; GLP-1-mutanter (359 UP gener vars transkription är sannolikt förbättras genom TcEr-1 / TCERG1) eller upp-regleras (476 DOWN gener vars transkription är sannolikt trycks av tcEr-1 / TCERG1) jämfört med GLP-1 (Figur 4).

figur 4
Figur 4: Identifiering av TcEr-1 / TCERG1-reglerade gener i embryolinje-mindre C. elegans Mutanter som använder RNA-Seq: Resultat från Galaxy (A) och David (B) Analyser. (A) Differential genuttryck analys av RNA-Seq data som jämförelsede transcriptomes av GLP-1 och tCER-1; glp-1 gav totalt 835 gener, varav 359 identifierades som varande uppregleras av TcEr-1 / TCERG1 (UP) och 476 som nedregleras av TcEr-1 / TCERG1 (NED). (B) Resultat av 'Funktionell Notering Clustering' analys av gener som identifieras som TcEr-1 / TCERG1 mål med användning DAVID. Procentuell anrikning biologiska processer för både uppreglerat (UP) och nedregleras (ner) Klasser av tCER-1 / TCERG1 mål. Den grafiska visas här erhålls genom att plotta de anrikade gense grupperna (X-axel) och deras respektive procent anrikning (Y-axeln) som erhållits som utsignalen från DAVID analys. Figur modifierad från Amrit et al. 31 och återges med tillstånd. Klicka här för att se en större version av denna siffra.

Att få en överblick av genen klasser anrikade på TcEr-1 / TCERG1 mål, utförde vi genen ontologi (GO) sikt-analys med användning DAVID. Den TcEr-1 / TCERG1 reglerad UPP och NED gen listor laddades upp självständigt på DAVID och analyserades såsom beskrivs i avsnitt 3. Lite var känt om generna och cellulära processer riktade vid TcEr-1 / TCERG1 tidigare 30, så fann vi DAVID analys vara särskilt avslöjande och hjälpsam. Funktionell Notering analys av UP-gener avslöjade fem antecknings Kluster med en anrikning Betyg av> 1,3, den högsta inklusive cytokrom P450 enzym-kodande gener och xenobiotiska svarsgener, följt av gener inblandade i lipid modifieringar. Detta förstärktes av resultaten av Gene Funktionell klassificering analys som identifierade grupper skrivas med liknande molecular aktiviteter med betydande poäng anrikning. Med användning av kalkylarket, var de identifierade grupperna plottas mot deras respektive anrikningsresultat (Figur 4). Vår tidigare data antydde att TcEr-1 / TCERG1 fungerat med den konserverade livslängd transkriptionsfaktorn, DAF-16 / FOXO3A, för att främja livslängden för GSC-mindre vuxna 30. DAF-16 / FOXO3A, i sin tur, har varit inblandad i modulering av lipidmetabolismen i färska studier 27, 32, 33. Baserat på detta bevis och identifiering av lipid-metabola gener och vägar som potentiella tCER-1 / TCERG1 mål i DAVID analyser har vi fokuserat på fettomsättningen gener som identifierades i RNA-Seq studie för detaljerade mekanistiska studier. Efter denna ledning, och genom efterföljande molekylära genetiska, biokemiska, och funktionella experiment visade vi att TcEr-1 / TCERG1 tillsammans med DAF-16 / FOXO3A koordinerat enhanced både lipid kataboliska och anaboliska processer som svar på embryolinjeförlust 31. På liknande sätt, Funktionella Notering Kluster av DOWN TcEr-1 / TCERG1 mål identifierade antecknings Kluster berikade för cytoskelettala funktioner, positiv reglering av tillväxt, reproduktion och åldrande (Figur 4). Dessa observationer, och våra stödjande experimentella bevis föreslår att vid germline förlust, TcEr-1 / TCERG1 undertrycker också tillväxt och reproduktiv fysiologi i somatiska celler såväl som uttrycket av anti-livslängd gener 31.

Prov Totalt Sekvenser Längd % GC Totalt Läser (Galaxy) Mappas Läser (Galaxy) Genome Täckning
glp-1 4000000 51 49 20700539 ~ 16 miljoner 11x
glp-1; tCER-1 4000000 51 49 18055444 ~ 13 miljoner 9x
glp-1 4000000 51 48 18947463 ~ 14 miljoner 10x
glp-1; tCER-1 4000000 51 48 13829643 ~ 10 miljoner 7x

Tabell 1: RNA-Seq Sample Detaljer. Sammanställning av rådata attribut utvärderas efter sekvensering för att bekräfta framgång sekvense sikt. Sekvense data från representativa experiment består av två biologiska förhållanden, en kontrollstam (glp-1 (tCER-1; glp-1) med två biologiska replikat sekvense för varje. 'FastQC' kvalitetskontroll analys belyser antalet sekvenser läsa utan "dålig kvalitet" läser, 48-49% GC innehåll och en konstant sekvens läsa längd 51bp. Modifierade och återges med tillstånd från Amrit et al. 31.

Kompletterande fil: befäls i korthet för verktygen körs på Galaxy pipeline för RNA-Seq dataanalys. Klicka här för att ladda ner filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Betydelsen av Galaxy Sequencing Platform i modern biologi

Galaxy Project har blivit avgörande för att hjälpa biologer utan bioinformatik utbildning för att bearbeta och analysera hög genomströmning sekvense data på ett snabbt och effektivt sätt. När anses en svår uppgift, detta offentligt tillgängliga plattform har gjort kör komplexa bioinformatik algoritmer för att analysera NGS uppgifter en enkel, tillförlitlig och enkel process. Bortsett från värd ett brett utbud av bioinformatiska verktyg, är nyckeln till framgång för Galaxy också enkelheten i dess användargränssnitt som skosnören samman de olika aspekterna av komplexa sekvenseringsanalys på ett intuitivt och sömlöst sätt. På grund av dessa egenskaper har Galaxy pipeline förvärvat bred användning bland biologer, inklusive C. elegans forskare. Förutom att bekanta användaren med RNA-Seq analys pipeline, Galaxy hjälper också lägga grunden för grundläggande biologer att förståbegreppet dataanalys och förstå de verktyg som är involverade. Denna kunskap primtal användaren till kanske vidare med mer komplexa bioinformatik plattformar som 'R' och 'Python'. Förutom Galaxy, andra verktyg och paket finns tillgängliga kommersiellt och som öppen källkod lösningar, som kan användas för RNA-Seq analys. De kommersiella alternativ är ofta fristående programvarupaket som är användarvänliga, men kan bli dyrt för enskilda forskare som inte använder NGS ofta. Alternativt, öppen källkod plattformar som BioWadrobe 34 och ArrayExpressHTS 35 kräver kunskap om kommandoraden och köra skript, vilket innebär stora utmaningar för icke-bioinformatiker. Därför förblir Galaxy en populär och oumbärlig resurs.

Kritiska steg inom det protokoll

De ansträngning fördelarna med Galaxy och David Trots en framgångsrik RNA-Seq experiment fortfarandeförlitar sig fundamentalt på noggrann utformning och genomförande av den experimentella steg. Till exempel är det viktigt att se till att den genetiska homogenitet innan man jämför två stammar av RNA-Seq och för att avgöra om det finns skillnader i utvecklings priser. Isolera RNA från åldersmatchade stammar är kritisk också. På liknande sätt, att ta hänsyn till variationer i genuttryck inom samma stam, är det viktigt att köra två eller fler 'biologiska replikat' av varje stam. Detta innebär i huvudsak att odla och skörda maskar från stammarna som sekvens i åtminstone twoindependent experiment, även om tre biologiska replikat är den rekommenderade standarden. Galaxy förenar data från multipla biologiska replikat så att de rapporterade gen-expressionsskillnader mellan stammar är inte helt enkelt en följd av 'inom-prov' variabilitet.

En kritisk beslut design handlar om användningen av en enda end kontra parade end sekvensering. Medsingle-end-sekvensering, är varje fragment sekvenseras enkelriktat så att processen är snabbare, billigare och lämpad för transkriptionell profilering. I parade-end sekvensering, när väl fragmentet sekvenseras från den ena änden till den andra, är en andra omgång av sekvensering återupptogs i den motsatta riktningen. Det ger mer djupgående data och ytterligare positioneringsinformation av genomet, så är mer lämpad för de novo-genomet aggregat, nya SNP identifiering och för att identifiera epigenetiska modifieringar, deletioner, insättningar och inversioner. På liknande sätt, läser det totala antalet och omfattningen av genomet täckning som krävs för adekvata differentialexpressionsstudier är sammanhangsberoende. För små genomen, såsom bakterier och svampar, ~ 5.000.000 läser är tillräckligt, medan i maskar och flyger ~ 10 miljoner läser ger tillräcklig täckning. För organismer med stora genomen som möss och människor, 15-25.000.000 läser är det erfordrade området. Förutom att det lästa numret och täckning, är det också important att det mesta av NGS läser linje med referens genomet. En inriktning av <70% läser indikerar dåliga NGS eller förekomsten av föroreningar. Totalt sett för C. elegans RNA-Seq studier, tre biologiska replikat sekvenserades med 50 bp ensriktad sekvense vilket resulterar i ~ 10-15.000.000 läser och ~ 5-10x genomet täckning för varje prov är ett idealiskt mål.

Trots enkelheten i att använda Galaxy, finns det några punkter att komma ihåg för att säkerställa en smidig och störningsfri dataanalys erfarenhet. Det är nödvändigt för användaren att ha en grundläggande förståelse av syftet och funktionen hos de olika verktyg som används. Varje Galaxy verktyget kräver val av parametrar och förstå verktyg hjälper användaren att optimera inställningarna baserat på kravet på experimentet. Galaxy hjälpsidor förklara varje parameter och det rekommenderas att användaren granska dessa uppgifter för att besluta om testvariabler.

Den gen lista erhållna pOST RNA-Seq analys är bara en lista av gener tills den bryts för biologiskt relevanta data med hjälp DAVID. Detta är en avgörande övning som omvandlar enskilda genbaserade data till biologisk-process baserade resultat. Utforska RNA-Seq gen listan med hjälp av olika analyser DAVID ger är därför en integrerad och viktig del av protokollet.

Modifikationer, felsökning och begränsningar

En vanlig glitch med NGS dataanalys är uppgifter eller tester som misslyckas, särskilt vid kvalitetskontrollsteg. Av de tester som FastQC körs på ett prov, kan ett fåtal kommit upp som misslyckats. Men detta inte oundvikligen att innebära provet inte uppfyller fastq kvalitetskrav. Felet kan ha en alternativ förklaring som bör undersökas noggrant.

Till exempel, om den 'Per bassekvensen innehåll' testet misslyckas (vilket tyder på att det finns en skillnad som är större än 10% mellanbaser i någon position), ta metoden för oligo-dT-biblioteket preparatet. Tidigare arbete har visat att Illumina NGS bibliotek kan ha en benägenhet för den 13: e basen är sekvenseras för att ha en bias för vissa baser orsakar provet misslyckas testet. På liknande sätt kan ett fel hos den 'Kmer innehåll' test ibland tillskrivas det faktum att bibliotek härledda från slumpmässig priming kommer nästan alltid att visa Kmer förspänning i början på grund av en ofullständig sampling av de slumpmässiga primers. Därför är det viktigt att tänka dessa och andra hinder på gång analys innan man kan avgöra ödet för experimentet.

En annan viktig funktion som kan påverka RNA-Seq dataanalys är den snabba och exponentiella framsteg som sker i NGS metoder och analytisk mjukvara. Idealt, förväntar man en identisk gen lista resultera från analys av ett prov NGS data på två rörledningar eller två versioner av samma rörlinje. Men medan ständigt förbättra algoritmer sänker avvikelser i RNA-Seq analys och producera gen förteckningar över större noggrannhet leder detta ofta till skillnader. Till exempel, analys av ett prov NGS data med hjälp av en äldre vs. nyare version av samma verktygsuppsättning kan ge signifikant olika genprodukter listor. En blygsam variation förväntas men användarna måste vara medvetna om att stora skillnader kan vara reflekterande svagheter i utformningen eller utförandet av experimentet.

Tillsammans har Galaxy Project och David analysverktyg förändrat sättet NGS data kan utnyttjas för att extrahera biologiskt relevant information. Detta har öppnat helt nya nivåer av självständighet och utredning till det vetenskapliga samfundet, inklusive C. elegans forskare. Till exempel är den ständigt minska kostnaderna för sekvense i kombination med bättre och snabbare sekvenseringsteknologi inledde en era av transkriptomik i nivå med enskilda maskar,individuella snäck vävnader och även fåtal utvalda maskceller. Dessa strävanden involverar dramatiska ökningar i NGS data som genereras. Hålla upp med den analytiska slutet av detta arbetsflödet blir en utmaning, men på grund av dess mångsidighet, kommer sannolikt att vara ett medel för att ge en övergång från hela organismen transkriptomik till RNA-Seq på enkelcellnivå i C. elegans Galaxy. De resulterande framsteg inom kunskap är sannolikt att ge extraordinära insikter grundläggande biologi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har ingenting att lämna ut.

Acknowledgments

Författarna vill uttrycka sin tacksamhet till laboratorier, grupper och individer som har utvecklat Galaxy och David, och därmed gjort NGS lättillgänglig för det vetenskapliga samfundet. Hjälp och råd från kollegor vid University of Pittsburgh under våra bioinformatik utbildning erkänns. Detta arbete stöddes av en Ellison Medical Foundation New Scholar i åldrande award (AG-NS-0879-12) och ett bidrag från National Institutes of Health (R01AG051659) till AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics