Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Transcriptoom analyse Published: April 8, 2017 doi: 10.3791/55473

Summary

Galaxy en David hebben zich ontwikkeld tot populaire tools die het mogelijk maken de onderzoekers zonder bioinformatica training te analyseren en RNA-Seq gegevens te interpreteren. We beschrijven een protocol voor C. elegans onderzoekers RNA-Seq experimenten toegang voeren en verwerken dataset behulp Galaxy en zinvolle biologische informatie uit het gen lijsten met behulp DAVID verkrijgen.

Abstract

Next generation sequencing (NGS) technologieën hebben de aard van de biologische onderzoek een revolutie. Daarvan heeft Sequencing RNA (RNA-Seq) naar voren gekomen als een krachtig hulpmiddel voor genexpressie analyse en transcriptoom mapping. Echter, de behandeling van RNA-Seq datasets vereist geavanceerde computational expertise en stelt inherente uitdagingen voor de biologie onderzoekers. Dit knelpunt is getemperd door het open access Galaxy project dat gebruikers in staat stelt zonder bioinformatica vaardigheden om RNA-Seq gegevens te analyseren, en de database voor annotatie, visualisatie, en Integrated Discovery (DAVID), een Gene Ontology (GO) term analyse suite dat helpt ontlenen biologische betekenis van grote datasets. Echter, voor de eerste keer gebruikers en amateurs bioinformatica, self-learning en kennismaking met deze platforms kan tijdrovend en ontmoedigend zijn. We beschrijven een eenvoudige workflow die u zullen helpen C. elegans onderzoekers worm RNA te isoleren, voeren een RNA-Seq experimenten analyseren van de gegevens met behulp Galaxy en DAVID platforms. Dit protocol geeft stapsgewijze instructies voor het gebruik van verschillende Galaxy modules voor toegang ruwe NGS data, kwaliteitscontroles, uitlijning en differentiële genexpressie-analyse, die de gebruiker de parameters bij elke stap een gen lijst die kunnen worden gescreend op verrijking van genereren genklassen of biologische processen waarbij DAVID. Over het algemeen verwachten we dat dit artikel informatie zal verstrekken aan C. elegans onderzoekers onderneming RNA-Seq-experimenten voor het eerst als frequente gebruikers die een klein aantal monsters.

Introduction

De eerste sequentiebepaling van het menselijk genoom, uitgevoerd met behulp van Fred Sanger dideoxynucleotide-sequencing methode, duurde 10 jaar en kostte naar schatting 3 miljard US $ 1, 2. Echter, in iets meer dan een decennium sinds haar oprichting, Next-Generation Sequencing (NGS) technologie heeft het mogelijk gemaakt om het gehele menselijke genoom binnen twee weken en voor US $ 1.000. New NGS instrumenten die het mogelijk maken steeds grotere snelheid van verzamelen sequencing-data met een ongelooflijke efficiëntie, samen met scherpe verlaging van de kosten, zijn een revolutie in de moderne biologie in onvoorstelbare manieren genoom sequencing projecten snel worden steeds gemeengoed. Bovendien hebben deze ontwikkelingen vooruitgang op vele andere terreinen zoals genexpressie analyse met behulp van RNA-Sequencing (RNA-Seq), studie van genoom-brede epigenetische modificaties, DNA-eiwit interacties verzinkt en screening op microbiële diversiteit in menselijke gastheren. NGS-gebaseerde RNA-Seq name heeft het mogelijk gemaakt om de kaart transcriptomes identificeren en volledig nauwkeurig en gevoelig en heeft microarray technologie vervangen de voorkeursmethode voor expressieprofilering. Terwijl microarray technologie uitgebreid gebruikt, wordt beperkt door de afhankelijkheid van reeds bestaande arrays met bekende genomische informatie en andere nadelen zoals kruishybridisatie en beperkte aantal veranderingen expressie die betrouwbaar kan worden bepaald. RNA-seq, anderzijds, kan worden gebruikt om zowel bekende als onbekende transcripten, terwijl er lage achtergrondruis vanwege de eenduidige DNA mapping natuur. RNA-Seq, samen met de vele genetische instrumenten aangeboden door model organismen zoals gist, vliegen, wormen, vissen en muizen, heeft gediend als de basis voor een groot aantal belangrijke recente biomedische ontdekkingen. Echter, resteren nog aanzienlijke uitdagingen die NGS ontoegankelijk voor de bredere wetenschappelijke gemeenschap, met inbegrip van beperkingen van de opslag, verwerking, en vooral, m eaningful bioinformatica analyse van grote hoeveelheden sequencing data.

De snelle vooruitgang in sequencing technologieën en exponentiële data accumulatie hebt gemaakt een grote behoefte aan computational platforms waarmee onderzoekers om toegang te krijgen, te analyseren en te begrijpen van deze informatie. Vroege systemen waren sterk afhankelijk van computer kennis van programmeren, terwijl genoom browsers zoals NCBI die manier konden niet-programmeurs om toegang te krijgen en te visualiseren data heeft verfijnde analyses niet toe. De web-based, open-access platform, Galaxy ( https://galaxyproject.org/ ), die leemte en bewezen een waardevolle pijpleiding die onderzoekers NGS gegevens te verwerken en het uitvoeren van een spectrum van maakt zijn eenvoudig te complex bioinformatica analyses. Galaxy werd in eerste instantie opgericht, en wordt onderhouden door de laboratoria van Anton Nekrutenko (Penn State University) en James Taylor (Johns Hopkins University)f "> 3. Galaxy biedt een breed scala van rekentaken waardoor het een 'one-stop-shop' voor talloze bioinformatica behoeften, met inbegrip van alle deelnemers aan een RNA-Seq studie stappen. Itallows gebruikers gegevens verwerking uit te voeren, hetzij op haar servers of lokaal op hun eigen machines. de gegevens en workflows kunnen worden gereproduceerd en gedeeld. Online tutorials, help-sectie en een wiki-pagina ( https://wiki.galaxyproject.org/Support ) gewijd aan de Galaxy Project consistente ondersteuning. echter, voor de eerste keer gebruikers, met name degenen die geen bio-informatica opleiding, de pijpleiding kan ontmoedigend verschijnen en het proces van zelf-leren en vertrouwd kan tijdrovend zijn. Bovendien is het biologische systeem bestudeerd en bijzonderheden van het experiment en de gebruikte methoden, invloed de analytische beslissingen op verschillende stappen, en deze kunnen moeilijk te navigeren zonder instructie.

De Overall RN A-Seq Galaxy workflow bestaat uit uploaden van gegevens en kwaliteitscontrole gevolgd door analyse met behulp van Smoking Suite 4, 5, 6, 7, 8, 9, die een collectief van diverse werktuigen voor verschillende stadia van RNA-Seq gegevensanalyse 10, 11, 12, 13, 14. Een typische RNA-Seq experiment bestaat uit het experimentele gedeelte (monsterbereiding, mRNA isolatie en cDNA-bibliotheek voorbereiding), NGS en bioinformatica gegevensanalyse. Een overzicht van deze secties, en de stappen die betrokken zijn bij de Galaxy pijpleiding, worden getoond in Figuur 1.

3fig1.jpg"/>
Figuur 1: Overzicht van een RNA-Seq workflow. Afbeelding van de experimentele en computationele stappen van een RNA-Seq experiment om het gen-expressieprofielen van twee worm stammen (A en B, oranje en groen lijnen en pijlen respectievelijk) vergelijken. De verschillende modules van Galaxy gebruikt worden in dozen met de desbetreffende stap in ons protocol rood aangegeven. De uitgangen van verschillende bewerkingen zijn geschreven in grijs met de bestandsformaten in blauw. Klik hier om een grotere versie van deze afbeelding te bekijken.

De eerste tool in de Tuxedo Suite is een alignment programma genaamd 'Tophat'. Het breekt NGS ingang leest in kleinere fragmenten en mapping van een referentie genoom. Dit tweestapsproces zorgt leest overspannende introngebieden waarvan de uitlijning anders disrupted of gemiste worden verantwoord en in kaart gebracht. Dit verhoogt dekking en vergemakkelijkt de identificatie van nieuwe splice junctions. Tophat uitvoer wordt geregistreerd als twee bestanden, een bestand BED (informatie over splitsingsplaatsen die genomische locatie bevatten) en BAM bestand (met mapping gegevens van elke lees). Vervolgens wordt het bestand BAM gericht tegen een genoom verwijzing naar de veelheid afzonderlijke transcripten schatten binnen elk monster in de eerstvolgende gereedschap in de Smoking Suite genaamd 'Manchetknopen'. Manchetknopen functies door het scannen van de uitlijning volledige lengte transcriptfragmenten of 'transfrags' dat alle mogelijke splice varianten van de invoergegevens voor elk gen overspannen melden. Op basis hiervan, genereert een 'transcriptoom' (assemblage van alle transcripten gegenereerd per gen voor elk gen) voor elk monster dat wordt gesequenced. Deze manchetknopen samenstellen worden vervolgens ingestort of samengevoegd, samen met de referentie genoom één annotatiebestand voor downstream differentiële analyse met behulp van de volgende gereedschap 'Cuffmerge' te produceren. Tenslotte de 'Cuffdiff' hulpmiddel maatregelen differentiële genexpressie tussen de monsters door vergelijking van de TopHat uitgangssignalen van elk van de monsters aan de uiteindelijke Cuffmerge uitvoerbestand (figuur 1). Manchetknopen gebruikt FPKM / RPKM (Fragments / Leest Per kilobase van transcript per miljoen toegewezen leest) waarden transcript abundanties melden. Deze waarden weerspiegelen de normalisering van de ruwe NGS gegevens diepte (gemiddeld aantal gelezen uit een monster die zijn afgestemd op de referentie-genoom) en gen lengte (genen verschillende lengten, zodat tellingen moeten worden genormaliseerd voor lengte van een gen niveaus vergelijken tussen genen). FPKM en RPKM in wezen hetzelfde met RPKM gebruikt voor één-end RNA-Seq waar elke lees- overeenkomt met een enkel fragment, dat wordt gebruikt voor FPKMgepaarde-end RNA-Seq, zoals verklaart het feit dat twee leest kan overeenkomen met hetzelfde fragment. Uiteindelijk is het resultaat van deze analyse is een lijst van genen die differentieel tot expressie van de voorwaarden en / of stammen getest.

Zodra een succesvolle Galaxy run is voltooid en een 'gene list' wordt opgewekt, de volgende logische stap vereist meer bioinformatica analyses om betekenisvolle kennis af te leiden uit de datasets. Veel softwarepakketten zijn ontstaan om tegemoet te komen aan deze behoefte, met inbegrip van openbaar beschikbare web-based computational pakketten zoals DAVID (de Database voor annotatie, visualisatie en geïntegreerde discovery) 15. DAVID vergemakkelijkt toekennen biologische betekenis van grote gen lijsten van high-throughput onderzoek door het vergelijken van het gen lijst geüpload naar de geïntegreerde biologische kennisbank en waaruit de biologische aantekeningen in verband met de lijst gen. Daarna volgt Enrichment Analysis, dwz tests identify eventueel biologisch proces of gen klasse oververtegenwoordigd in de lijst (en) gen op een statistisch significante wijze. Het is uitgegroeid tot een populaire keuze als gevolg van een combinatie van een brede, geïntegreerde kennis-base en krachtige analytische algoritmen die onderzoekers in staat stellen om de biologische thema verrijkt binnen detecteren genomics-afgeleid 'gene lijsten' 10, 16. Bijkomende voordelen zijn onder meer de mogelijkheid om gen lijsten gemaakt op de elke sequencing platform en een zeer gebruiksvriendelijke interface te verwerken.

De nematode Caenorhabditis elegans is een genetisch modelsysteem, bekend om zijn vele voordelen zoals kleine grootte, absorberende stof eenvoudig lichaamsplan, gemak van cultuur en grote ontvankelijkheid voor genetische en moleculaire dissectie. Wormen een kleine, eenvoudige en goed geannoteerde genoom die tot bevat tot 40% geconserveerde genen met bekende humane homologen 17. Inderdaad, C. eleganswas de eerste metazoan waarvan het genoom werd volledig gesequenced 18 en een van de eerste soort waarbij RNA-Seq werd gebruikt om een organisme transcriptoom 19, 20 in kaart. Vroege worm studies werden uitgevoerd bij het experimenteren met verschillende methoden voor high-throughput RNA capture, bibliotheek voorbereiding en sequencing, evenals bioinformatica pijpleidingen die hebben bijgedragen aan de vooruitgang van de technologie 21, 22. In de afgelopen jaren is RNA-Seq-gebaseerde experimenten in wormen gemeengoed geworden. Maar, voor de traditionele worm biologen de uitdagingen van geautomatiseerde analyse van RNA-Seq data blijft een grote belemmering voor een grotere en betere benutting van de techniek.

In dit artikel beschrijven we een protocol voor het gebruik van Galaxy platform high-throughput RNA-Seq data gegenereerd uit C. elegans analyseren. Voor veel first-time en kleine scale gebruikers, de meest kosten-efficiënte en eenvoudige manier om een ​​RNA-Seq experiment ondernemen is om RNA te isoleren in het lab en gebruik maken van een commerciële (of in-house) NGS faciliteit voor de bereiding van sequencing cDNA bibliotheken en het NGS zelf. Vandaar dat we eerst de stappen van isolatie gedetailleerde, kwantificering en kwaliteitsbeoordeling van C. elegans RNA monsters voor RNA-Seq. Vervolgens geven we stap voor stap instructies voor gebruik van de Galaxy interface voor analyses van de NGS gegevens, te beginnen met testen voor post-sequencing kwaliteitscontroles gevolgd door uitlijning, assemblage en differentiële kwantificering van genexpressie. Daarnaast hebben we opgenomen een routebeschrijving naar het gen lijsten die voortvloeien uit Galaxy voor biologische verrijking studies met behulp van DAVID onderzoeken. Als laatste stap in de workflow, bieden we instructies voor het uploaden RNA-Seq gegevens over de openbare servers, zoals de Sequence Lees Archive (SRA) op NCBI ( http: // www.ncbi.nlm.nih.gov/sra) om deze vrij toegankelijk zijn voor de wetenschappelijke gemeenschap. Over het algemeen verwachten we dat dit artikel uitgebreide en voldoende informatie zal verstrekken aan worm biologen onderneming RNA-Seq-experimenten voor het eerst als frequente gebruikers die een klein aantal monsters.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA Isolation

  1. Voorzorgsmaatregelen
    1. Wrijf het werkoppervlak, instrumenten en pipetten met een commercieel verkrijgbare RNase spuiten geven RNasen vernietigen;.
    2. Draag handschoenen te allen tijde, ze regelmatig te veranderen door nieuwe tijdens de verschillende stappen van het protocol.
    3. Gebruik alleen filter tips en houden alle monsters op het ijs zo veel mogelijk om RNA degradatie te voorkomen.
      LET OP: Met het oog op de beste gegevens van NGS platforms te verkrijgen, is het essentieel om te beginnen met een hoge kwaliteit RNA. RNA-isolatie en bereidingsmethoden variabel monster oorsprong Werkwijze sequencing en onderzoeker voorkeur. Verscheidene in de handel verkrijgbare kits kunnen worden gebruikt voor dit doel of RNA kan geïsoleerd worden met een standaard fenol-chloroform werkwijze voor RNA-extractie. Bij beide methoden, moet de hierboven genoemde voorzorgsmaatregelen tijdens het gehele proces te volgen om verontreiniging en OBT minimaliserenain ongerepte RNA monsters.
  2. Oogsten Worms
    1. Synchroniseer de worm bevolking door hypochlorietbleken behandeling 23 tot en met 1000-1500 leeftijd gematchte C. elegans volwassen wormen per stam te verkrijgen.
    2. Was de wormen uit platen gebruikt M9 buffer en centrifugeren bij 325 x g op een tafelcentrifuge gedurende 30 s. Zuig de M9 buffer achterlating van een pellet van wormen. Herhaal deze stap ten minste drie keer om bacteriële overdracht te elimineren.
    3. De worm pellet, voeg ~ 500 ul lysisbuffer (bij gebruik van een commerciële kit) of Trizol (een mono-fasische oplossing van fenol en guanidine isothiocyanaat of fenol: chloroform extractie 1.3.3 beschreven plaatsvindt) worm weefsels verstoren , deactiveren en RNasen stabiliseren nucleïnezuren.
      Opmerking: Het protocol kan hier worden onderbroken door flash bevriezen van de monsters in vloeibare stikstof gevolgd door opslag bij -80 ° C.
  3. RNA Isolation
  4. Ultrasone trillingen worm monsters bij 45% amplitude in cycli van 20 s. 'ON' en 40 s. 'UIT' (8-12 cycli per stam). Houd monsters op ijs te allen tijde.
    OPMERKING: Controleer of de sonicator sonde wordt ondergedompeld in de buffer en op een constant niveau gedurende gehouden. Vermijd schuimvorming van het monster en de probe grondig reinigen tussenliggende monsters. Sonicatie cycli kan variëren afhankelijk van het gebruikte type sonicator. Aanbevolen wordt sonicatie omstandigheden eerst worden geoptimaliseerd op een testmonster voordat een experiment.
  5. Bij gebruik van een commercieel verkrijgbare kit, verder met RNA isolatie volgens het voorgeschreven protocol. Voor RNA isolatie onder toepassing van een fenol- chloroform methode de volgende stappen.
  6. Centrifugeer gesoniceerd monsters bij 16.000 xg gedurende 10 min. bij 4 ° C
  7. Transfer supernatans in een 1,5 ml RNase-vrij microfugebuis en voeg 100 ul chloroform (1/5 volume van RNA / DNA-isolatie reagens).
    Voorzichtigheid: Chloroform is giftig. Om de blootstelling te minimaliseren en inademen te voorkomen, werken in een chemische kap bij het hanteren van deze stof.
  8. Vortex de monsters grondig 30-60 s. en laat de monsters op kamertemperatuur gedurende 3 min.
  9. Centrifugeren bij 11.750 xg gedurende 15 min. bij 4 ° C. Transfer alleen de bovenste waterige laag naar een nieuwe RNase-vrije microfugebuis verzorgen het DNA met een wit-interface niet te zuigen. Herhaal de stappen 1.3.4 tot 1.3.6.
  10. Voeg 250 ul (70% waterige fase of 1/2 RNA / DNA-isolatie reagens volume) van 2-propanol en keer de buis te mengen. Laat buizen staan ​​bij kamertemperatuur gedurende 10 minuten of een nacht laten staan ​​bij -80 ° C.
  11. Centrifugeer monsters bij 11.750 xg gedurende 10 min. bij 4 ° C. Decanteer het supernatant voorzichtig, met achterlating van een paar ui op de bodem van de buis zodanig dat de pellet niet verstoord.
  12. Was pellet met 500 pl 75% ethanol (gemaakt met RNase-vrij water) en spin neer bij 16.000 xg gedurende 5 minuten. eent 4 ° C.
  13. Verwijder zoveel supernatant mogelijk zonder de pellet te verstoren. Air droog de pellet in een kap voor een paar minuten.
  14. Voeg 30 ul RNase-vrij water en helpen bij het oplossen van de RNA pellet door gedurende 10 min. bij 60 ° C.
  15. Controleer RNA kwaliteit en kwantiteit met behulp van een bioanalyzer.
    OPMERKING: Bioanalyzer genereert een R NVT I ntegrity ummer (RIN) als maat voor RNA kwaliteit. Een RIN van ten minste 8 de aanbevolen drempel voor RNA-Seq monsters (hoger is beter). RNA kwantiteit en kwaliteit kan ook spectrofotometrisch worden gecontroleerd, maar moet ook worden gevolgd door een visuele beoordeling van RNA-integriteit. Hiervoor draaien de monsters op een 1,2% agarosegel lang genoeg om geschikte scheiding van de 28s en 18s ribosomaal RNA banden te verkrijgen. De aanwezigheid van twee afzonderlijke banden (1,75 kb voor 18s rRNA en 3,5 kb voor 28s rRNA bij C. elegans) is een gangbare norm RNA kwaliteit.
  16. Gebruik -100 ng / pl RNA ship om de verkoper / NGS faciliteit voor de bereiding van sequencing bibliotheken.
    OPMERKING: RNA-monsters dienen te worden verscheept op droog ijs om de sequencing service provider. De meeste providers voeren een onafhankelijke RNA kwaliteitscontrole test voor bibliotheek voorbereiding.

2. RNA-Seq Data Analysis

  1. Download van Raw Sequencing gegevens
    1. Download de gecomprimeerde ruwe fastq sequencing data gecodeerd in de fastq.gz formaat van het NGS provider met behulp van een "file transfer protocol" (FTP).

Figuur 2
Figuur 2: Lay-out van de Galaxy User Interface Panel en Key RNA-Seq Functions. Belangrijkste kenmerken van de pagina zijn uitgebreid en gemarkeerd. (A) wijst op de functie 'Analyse data' in de webpagina header gebruikt om toegang (B) de voortgangsbalk dat de ruimte op de Galaxy server gebruikt door de bewerking aangeeft. (C) is de 'Extra Section' dat alle tools die kan worden uitgevoerd op de Galaxy-interface bevat. (D) toont het 'NGS: RNA Analysis' gereedschapssectie gebruikt voor RNA-Seq-analyse. (E) toont de 'History' panel dat alle bestanden gegenereerd met behulp van Galaxy lijsten. (F) toont een voorbeeld van het dialoogvenster dat opent bij het klikken op een bestand in de sectie Geschiedenis. Binnen (F), het blauwe vak benadrukt pictogrammen die kunnen worden gebruikt voor het bekijken, editthe attributen of te verwijderen van de dataset, het paarse vak benadrukt pictogrammen die kunnen worden gebruikt voor het 'bewerken' van de dataset labels of annotatie, en de rode doos aangeeft pictogrammen om de gegevens te downloaden, bekijken de details van de uitgevoerde taak of voer de bewerking. Klik hier om een grotere versie van deze afbeelding te bekijken.

  1. Aan de slag met Galaxy
    LET OP: Galaxy kan worden uitgevoerd op een gratis openbare server met behulp van een web-based platform verschaffen van toegang cloud en gratis beperkte opslagcapaciteit. Het kan ook worden gedownload en uitgevoerd worden lokaal op de computer van de gebruiker of computationele clusters georganiseerd door instellingen, maar de lokale verwerking, kan worden beperkt door grenzen data-opslag en rekenkracht beperkingen van de gebruiker machines. Details over het downloaden en de installatie kan worden geraadpleegd op https://wiki.galaxyproject.org/Admin/GetGalaxy . In dit protocol beschrijven we de web-based gebruik van de Galaxy pijplijn.
    1. Na het downloaden en opslaan van de NGS gegevens op de computer van de gebruiker, de toegang Galaxy bijlaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registreer een gebruikersaccount door te klikken op 'Gebruiker' in de kop van de pagina, login en beginnen met kennismaking met de user interface panel.
      LET OP: Het wordt aanbevolen dat de eerste keer gebruikers gebruik maken van de 'Start hier' handleiding die op de home page te krijgen vertrouwd gemaakt met de basis set-up van de Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Klik op 'Analyseren Data' (Figuur 2A) in de header paneel om toegang te krijgen tot de 'Analyse Home Bekijk' die ook het opstartscherm op Galaxy.
      OPMERKING: De koptekst herbergt ook andere schakels waarvan de gegevens kan worden gezien door de muisaanwijzer over hen. De rechter bovenhoek van het kopstuk een voortgangsbalk die ruimte benut voor de taken (figuur 2B) bewaakt.
    4. Clikken op 'NGS: RNA Analysis' opdracht op 'Extra menu' links (Afbeelding 2C) om alles aanwezig is voor RNA-seq data-analyse.
      OPMERKING: De 'Extra-menu' catalogiseert alle operaties die Galaxy biedt. Dit menu wordt verdeeld op basis van taken en te klikken op een opent een overzicht van alle tools die nodig zijn om die taak te volbrengen.
    5. Maak een nieuwe analyse van de geschiedenis door te klikken op het tandwielpictogram aan de bovenkant van de 'History' panel aan de rechterkant (figuur 2E). Kies 'Nieuw' optie in het pop-up menu. Geef deze 'History' een geschikte naam voor de analyse te identificeren.
      OPMERKING: De 'History' paneel toont alle bestanden die zijn geüpload voor analyse evenals alle de output bestanden die worden gegenereerd door het uitvoeren van taken op Galaxy. Door te klikken op een bestandsnaam in dit paneel opent een dialoogvenster met gedetailleerde informatie over de taak uitgevoerden een fragment van de dataset (Figuur 2F). Iconen in dit vak kan de gebruiker 'view', 'de kenmerken bewerken' of 'verwijderen' de dataset (figuur 2F, in het blauw). Daarnaast kan de gebruiker ook 'edit' dataset-tags of annotatie (figuur 2F, paars gemarkeerd), 'download' van de gegevens, 'Details' van de taak, 'herhaling' de taak of zelfs 'zichtbaar' de dataset van deze dialoogvenster (figuur 2F, rood gemarkeerd).
    6. Klik op de functie 'Bestand uploaden' onder 'Get Data' in het 'menu Tools' ruwe fastq bestanden te uploaden.
      OPMERKING: als u op deze of enig ander gereedschap opent een korte beschrijving van de werking en de test zelf, in het paneel midden 'Analyse Interface'. Dit paneel veters samen de'Extra' in het linkerdeel en in het 'Input Files' van panel de juiste 'History' (figuur 2E). Hier, input-bestanden van 'History' worden geselecteerd en andere parameters gedefinieerd om een bepaalde taak uit te voeren. De resulterende uitgang dataset van elke test wordt opgeslagen terug in de 'History'. Inbegrepen bij de test in het Analysis Interface 'panel' zijn verklaringen voor alle beschikbare voor het uitvoeren van een bepaald instrument samen met een gedetailleerde lijst van alle de output bestanden genereert het hulpprogramma parameters.
    7. Na de taak wordt geopend in de 'Analysis Interface', klikt u op 'Kies Local File' of 'Kies FTP File' (sneller upload), navigeer naar de map met de sequencing bestanden en selecteert u de juiste dataset te uploaden.
    8. Laat Galaxy aan 'Auto-detect' het geüploade bestand type (standaardinstelling). Selecteer 'C. elEgans 'in het pull-down menu voor het genoom.
    9. Klik op 'Start' om het uploaden van gegevens te starten. Zodra het bestand is geüpload, wordt deze opgeslagen in het bedieningspaneel van de 'geschiedenis' en is toegankelijk vanaf daar.
    10. Als er meerdere sequencing gegevensbestanden worden geproduceerd voor een enkel monster, combineer ze met behulp van de 'Concatenate' tool. Om dit te doen, het openstellen van de optie 'Tekstmanipulatie' in het 'Extra-menu'.
    11. Klik op de 'Concatenate' tool, kiest u de bestanden die moeten worden gecombineerd uit de drop-down box in het midden van 'Analyse-interface' en klik op 'Uitvoeren'.
      OPMERKING: Output bestanden geproduceerd met behulp van deze taak worden gegenereerd in de fastq formaat. Het mapping programma heeft een limiet van 16.000.000 sequenties per fastq bestand en wanneer die limiet bereikt een nieuwe fastq wordt gegenereerd voor de resterende sequenties. de '; Concatenate gereedschap' nodig is in dergelijke gevallen de datasets te combineren.
    12. Zet de geüploade fastq-bestanden om de benodigde fastqsanger formaat voor Galaxy RNA-Seq-analyse met behulp van de 'fastq groomer' gereedschap vinden onder de 'NGS: QC en manipulatie' sectie (zie aanvullende bestand).
    13. Kies de juiste fastq dataset onder het 'File om Groom' optie en voer het gereedschap met behulp van standaard parameters.
      OPMERKING: Output bestanden geproduceerd met behulp van deze taak worden gegenereerd in de fastqsanger formaat.
  2. fastqsanger Data Quality-Control Tests
    1. Controleer de kwaliteit van de geüploade fastqsanger leest met behulp van de 'FastQC' gereedschap onder 'NGS: QC en manipulatie' in het menu 'Extra'.
    2. Kies het geprepareerde fastqsanger databestand uit het dropdown menu voor 'Short data lezen van het huidige bibliotheek' en voer het gereedschap met behulp van standaard parameters.
      OPMERKING: Besteed speciale aandacht aan de kwaliteit van de leest en de aanwezigheid van adapter sequenties. Adapters worden gewoonlijk verwijderd als onderdeel van de post-RNA Seq gegevensverwerking door NGS aanbieders maar in sommige gevallen kan achterblijven. Voor uitleg van de kwaliteitsnormen naar http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Neem contact op met de NGS provider en als adapters aanwezig zijn, knip ze met behulp van de 'Clip' gereedschap uit de 'NGS: QC en manipulatie' taak menu.
      OPMERKING: Output bestanden geproduceerd met behulp van deze taak worden gegenereerd in het ruwe txt-formaat en in html die kan worden geopend op elke webbrowser.
  3. Data-analyse met Tuxedo Suite
    1. Hoge hoed
      1. Download de laatste versie van FASTA en gtf (Gene Transfer Format) bestanden van Upload bestand', zoals hierboven beschreven in 2.2.6.
      2. Open het 'NGS: RNA Analysis' sectie en klik op de 'TopHat' instrument om in kaart de sequencing leest de gedownloade referentie-genoom.
      3. Kies het juiste antwoord uit het dropdown-menu op de vraag 'Is dit single-end of gepaarde-end data?'
      4. Kies de juiste fastq bestand.
      5. Selecteer 'Gebruik een genoom uit de geschiedenis' in het volgende dropdown menu en kies verwijzing genoom gedownload in stap 2.4.1.1.
      6. Selecteer 'Standaard' voor de andere parameters in en klik op 'Uitvoeren'.
        OPMERKING: Onder de output bestanden geproduceerd met behulp van deze taak, wordt het dossier van de 'Accepted Hits' wordt gebruikt voor de volgende stappen.
    2. Manchetknopen en Cuffmerge
      1. Selecteer de 'manchetgereedschap in de 'verbindingen NGS: artikel RNA analyse om de transcripten monteren schatten hun overvloed en testen van differentiële expressie.
      2. In het eerste dropdown-menu, kies het in kaart gebracht 'Accepted treffers (BAM-formaat)' bestand verkregen uit TopHat analyse.
      3. In het tweede dropdown-menu, ingesteld verwijzingsannotatie naar de GTF bestand gedownload in stap 2.4.1.1.
      4. Kies 'Ja' voor de optie 'Perform vooroordeel correctie' en voer de taak met de standaardinstellingen voor alle andere parameters.
        OPMERKING: Onder de output bestanden geproduceerd met behulp van deze taak, wordt het bestand 'Accepted Afschriften' gebruikt voor de volgende stappen.
      5. Open 'Cuffmerge' gereedschap in de "NGS: RNA-analyse om de 'gemonteerd Transcripten' geproduceerd van alle RNA-monsters Seq samenvoegen.
        OPMERKING: De eerste box in de functie zelf-vult en worden alle manchetknopen.
      6. Selecteer de 'Gemonteerd Afschriften' bestand voor alle stammen / geteste omstandigheden, met inbegrip van biologische herhalingen van dezelfde stam / conditie (Zie de bespreking voor de biologische herhalingen).
      7. Kies 'Ja' voor 'Use verwijzingsannotatie' en kies de GTF bestand gedownload in stap 2.4.1.1.
      8. In het volgende venster, selecteer opnieuw 'Ja' voor de optie 'Use Sequence Data' en kies het hele genoom FASTA bestand gedownload in stap 2.4.1.1.
      9. Het houden van de andere parameters als standaard, klik op 'Uitvoeren'.
        OPMERKING: Cuffmerge genereert een enkel gtf output file.
    3. Cuffdiff
      1. Navigeer naar de 'Cuffdiff' gereedschap in de 'NGS: RNA Analysis' sectie. In het menu 'Afschriften', selecteert u de samengevoegde output file van Cuffmerge.
      2. Etiketvoorwaarden 1 en 2 met de twee stammen / conditie namen.
        OPMERKING: Cuffdiff kunnen vergelijkingen uitvoeren tussen meer dan twee stammen of omstandigheden, alsmede tijdsverloop experimenten. Gewoon gebruik maken van de optie 'Add nieuwe voorwaarden' aan elke nieuwe stammen / voorwaarde toe te voegen, als dat nodig is.
      3. Voor elke stam / conditie onder 'Replicaten' select individu Accepted Hits 'output bestanden TopHat die overeenkomen met de verschillende biologische replicaten van die stam / conditie. Houd de key 'cmd', bij gebruik van een Macintosh-computer, en key 'ctrl', bij gebruik van een pc, om meerdere bestanden te selecteren.
      4. Laat alle andere opties als standaard parameters. Klik op 'Uitvoeren' om de taak uit te voeren.
        OPMERKING: Cuffdiff wekt talrijke outputdossiers in tabel formaat als de laatste uitlezing van de RNA-Seq-analyse. Deze omvatten bestanden met FPKM bijhouden voor transcripten, genen (gecombineerdeFPKM waarden van transcripten delen van een gen identiteit), primaire transcripten en coderende sequenties. Alle gegevensbestanden gegenereerd kunnen worden bekeken op een spreadsheetprogramma en bevat soortgelijke eigenschappen als genen naam, locus, voudige verandering (in log2-schaal) en statistische gegevens over vergelijkingen tussen stammen / aandoeningen, waaronder p-waarde en q waarden. De gegevens in deze bestanden kunnen worden gesorteerd op basis van statistische significantie van verschillen of voudige verandering in genexpressie (grootte en richting van de verandering, zoals in op- of down- gereguleerde genen) en gemanipuleerd volgens de wensen van de gebruiker. Indien omzetting tussen verschillende gen identifiers nodig (bijv Wormbase gen versus cosmide ID-nummer), hulpmiddelen op Biomart ( http://www.biomart.org/ ) kan worden gebruikt.

3. Gene Ontology (GO) Term analyse met behulp DAVID

  1. Toegang DAVID van de website hTTP's: //david.ncifcrf.gov/. Klik op 'Start Analysis' in de header van de webpagina. In 'Stap 1', de lijst van genen verkregen uit Galaxy in vak A. kopiëren en plakken in 'Stap 2' select 'Wormbase Gene ID' als identificator voor het invoeren genen.
    OPMERKING: DAVID herkent de meeste publiek beschikbaar annotatie categorieën, zodat andere gen identifiers (zoals Entrez gen ID of gen symbool) kan ook worden gebruikt.
  2. In 'Stap 3', kies 'Gene List' (genen te analyseren) onder 'List Type' en klik vervolgens op de 'Submit List' icoon.
    OPMERKING: 'Analyse Wizard', zal openstellen voor een lijst van alle hyperlink DAVID instrumenten die kunnen worden uitgevoerd op de geüploade gen lijst (Figuur 3). Klik op deze links om toegang te krijgen tot relevante bijbehorende modules per eis van de gebruiker. Om het gereedschap geschikt is voor een bepaalde taak te identificeren, klikt u op 'Welke DAVID hulpmiddelen te gebruiken? 'Link op de' ; Analyse Wizard' pagina. Klik op de link 'Start Analysis' in de header terug te keren naar het huis van de 'Analyse Wizard' pagina op enig moment tijdens de analyse.

figuur 3
Figuur 3: Opbouw van de DAVID Analysis Wizard webpagina en voorbeelden van operatie uitgangen. De 'Analyse Wizard' web user-interface bevat de instrumenten die worden gebruikt om geüploade gen lijst voor verrijking op basis van verschillende parameters te analyseren. Door te klikken op deze tools meldt de geanalyseerde gegevens in een nieuwe webpagina. Voorbeelden van de tabelvorm rapporten gegenereerd op basis van 'Gene Functional Classification', 'functionele annotatie Grafiek' en 'functionele annotatie Clustering' worden getoond als inzetstukken (pijlen).> Klik hier om een ​​grotere versie van deze afbeelding te bekijken.

  1. Functionele annotatie Tool 1: functionele annotatie Clustering
    1. Klik op 'functionele annotatie Clustering' module om naar de overzichtspagina. Houd de standaard annotatie categorieën en klik op 'functionele annotatie Clustering' om clusters van soortgelijke annotatie termen gerangschikt volgens hun verrijking score te genereren.
    2. Klik op de hyperlink naam van elke term om details over het en 'RT' (gerelateerde termen) met andere soortgelijke termen in verband met de categorie lijst te lezen.
    3. Klik op de paarse balk om een ​​lijst van de genen die geassocieerd zijn met een looptijd en de rode 'G' om een ​​lijst van alle genen geassocieerd met alle voorwaarden binnen een cluster.
    4. Klik op het groene pictogram om een ​​tweedimensionale weergave van alle genen en termen in een cluster te zien.
      LET OP: De laatste drie kolommen een lijst van de analytische en statistische resultaten voor elketermijn. De resultaten voor deze en alle andere analyses kunnen in een .txt-formaat gedownload worden door te klikken op de link 'Download File'.
  2. Functionele annotatie Tool 2: functionele annotatie Grafiek
    1. Terug naar de overzichtspagina en klik op 'functionele annotatie Grafiek' aanzienlijk oververtegenwoordigd biologische termen (bijv transcriptiefactor activiteit of kinase activiteit) in verband met de lijst gen te identificeren.
    2. Klik op de naam term om meer gedetailleerde informatie en 'RT' (gerelateerde termen) naar de lijst van andere verwante termen te krijgen.
    3. Klik op de paarse balk om een ​​lijst van alle bijbehorende genen van bijbehorende individuele categorie.
      Opmerking: De laatste twee kolommen een lijst van de resultaten van de statistische tests' voor elke categorie.
  3. Functionele annotatie Tool 3: functionele annotatie Table
    1. Terug naar de overzichtspagina en klik op 'Functional Annotatie Table 'voor een overzicht van alle annotaties in verband met de genen op een lijst zonder enige statistische berekeningen zien.
      LET OP: Deze tool kan nuttig zijn voor gen-voor-gen analyse van een lijst zijn, of om te kijken naar specifieke, zeer interessante genen.
  4. Gene Functional Classification Tool
    1. Terug naar 'Analyse Wizard' en klik op 'Gene Functional Classification' module aan de ingang gen lijst in functioneel verwante groepen genen gerangschikt volgens hun 'Enrichment score', een maatstaf voor de algehele verrijking van het gen groep in de lijst te scheiden.
    2. Klik op de naam term om meer gedetailleerde informatie en 'RG' krijgen om functioneel verwante genen van het gen groep onthullen
    3. Klik op de rode 'T' (term rapporten) naar de lijst bijbehorende biologie en de groene pictogram om een ​​tweedimensionale weergave van alle genen en de voorwaarden te zien.
  5. Gene-naambatch Viewer
    1. Terug naar 'Analyse Wizard' en klik op 'Gene-naam Batch Viewer' naar 'Wormbase Gene IDs' vertalen naar hun overeenkomstige gen namen. (WBGene00022855 = tCER-1).
    2. Klik op de naam gen om meer gen-specifieke informatie te verkrijgen.
    3. Klik op de 'RG' (verwante genen) link naast elk gen om genen te onthullen voorspeld functioneel gerelateerd aan het gen van belang te zijn.

4. uploaden RAW data op de NCBI Sequence Lees Archive (SRA)

  1. Toegang tot de SRA webpagina op Meld u aan bij koppeling NCBI' of registreer een nieuw account.
  2. Klik op 'Bioproject'.
  3. Klik op 'Submission' onder de 'Gebruik Bioproject' kop aan de linkerkant.
  4. Selecteer de optie 'Nieuwe Submission'. Bijwerken van de indiener. Ga door de overige zeven tabsEn vult de gegevens van het experiment en data worden geladen. Klik op 'Verzenden' als ze klaar zijn.
    LET OP: In het vijfde tabblad 'biologisch monster', laat de sleuf voor 'biologisch monster' leeg.
  5. Vernieuw de pagina die door te klikken op de link 'Mijn sollicitaties'. De verstrekte gegevens zullen worden genoteerd met een toegewezen indieningsnummer, een korte beschrijving en de status uploaden.
  6. Klik op 'biomonster' aan de bovenkant van deze pagina in het vak 'start een nieuwe inzending' en een 'nieuwe inzending'. Submit aparte inzendingen voor elk monster.
  7. Zoals in het geval met 'Bioproject' in 4.4, het actualiseren van de gegevens van de indiener en verder door de rest van de tabs het invullen van de details van elk tabblad. Zodra dit is afgerond beoordeling en klik op 'Verzenden'.
  8. Ga naar http: //www.ncbi.nlm.nih.gov / SRA naar de finale 'Sequence lezen Archive (SRA)' onderwerping te creëren.
  9. Klik op 'Log in op SRA' onder 'Aan de slag'.
  10. Op de volgende pagina klikt u op de link 'NCBI PDA'. Een link 'Voorkeuren bijwerken' wordt geopend. Vul het formulier in en klik op 'Voorkeuren opslaan'.
  11. Op de pagina die verschijnt, klik op de 'Create New Submission' link. Voer een passende naam onder 'Alias' en klik op 'Opslaan'. Een tabel met de indiening ID en andere details zullen worden gecreëerd.
  12. Klik op 'Nieuw experiment' en ten minste één unieke sequencing bibliotheek registreren voor elke 'biologisch monster'.
  13. Wijs en verbinden de eerder gemaakte 'Bioproject' en 'biologisch monster' onderwerping ID's. Een 'Nieuw experiment' wordt gecreëerd.
  14. Klik op 'New Run' aan de onderkant van de paginanadat de SRA Experiment is gemaakt en identificeren van de gegevensbestanden die moeten worden gekoppeld.
  15. Bereken de MD5 som van elke gegevensbestand. Om dit te doen op een MacIntosh terminal, gaat u naar Applications / Utilities / Terminal. In terminal, typ 'MD5' (zonder aanhalingstekens) gevolgd door een spatie. Sleep de bestanden die moeten in de terminal te worden geüpload van finder en klik op 'Enter'.
  16. Terminal zal een alfanumeriek MD5 terugkeren. Voer dit als onderdeel van de indiening proces voor het uploaden van bestanden. Gebruik de gebruikersnaam en het wachtwoord die door het systeem om bestanden via FTP te uploaden.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

In C. elegans, verwijdering van de kiemlijn stamcellen (GSC) verlengt levensduur verbetert stressbestendigheid en verheft lichaamsvet 24, 28. Verlies van GSC, hetzij veroorzaakt door laser-ablatie of door mutaties zoals glp-1, veroorzaakt levensduurverlenging door activering van een netwerk van transcriptiefactoren 29. Eén zo'n factor, tCER-1, codeert de worm homoloog van het humane transcriptie-verlengingsfactor en splicing factor, TCERG1 30. De volgende representatieve resultaten illustreren hoe RNA-Seq werd gebruikt om genen waarvan de expressie gemoduleerd door tCER-1 / TCERG1 volgende kiemlijn last in de recentelijk gepubliceerde studie 31 identificeren. De transcriptomes leeftijd-geëvenaard, dag 2 volwassenen van GLP-1 en tCER-1, GLP-1-mutanten werden vergeleken. Voor elke stam werd mRNA geïsoleerd uit twee biologische replicates (totaal vier monsters) gebruikmakend van de in deel 1 RNA monsters beschreven protocol werden naar een commerciële dienstverlener die cDNA-bibliotheken van de vier monsters bereid en uitgevoerd 50 bp één einde sequencing. De ruwe NGS data gedownload zoals beschreven in paragraaf 2.1.

Bericht sequencing data evaluatie

Tabel 1 is een compilatie van de testresultaten om de kwaliteit te beoordelen van rauwe sequencing leest. 'FASTQ' kwaliteitscontrole analyse wijst op het aantal sequenties gelezen zonder 'slechte' leest samen met 48-49% GC-gehalte en een constante sequentie lees lengte van 51 bp. Deze stap controleert ook de sequencing data voor vele andere functies, zoals Kmer inhoud en is collectief bestaat uit 11 testen in totaal. Het C. elegans genoom is ~ 100 Mbp. Gebaseerd op het aantal sequentiebepaling leest van elk monster dat toegewezen aan het genoom, de genome dekking (laatste kolom) werd geschat met de Lander / Waterman vergelijking C = LN / G ', waarbij C staat voor dekking, G het haploïde genoom lengte L de leeslengte en N het aantal gelezen. We gebruikten standaard parameters voor alle stappen en verkregen 48-49% GC-gehalte in alle monsters. Zoals blijkt, genoom bereik lag tussen 9x tot 11x in de monsters.

Identificatie van tCER-1 / TCERG-1-genen gereguleerd door differentiële genexpressie analyse over Galaxy

Door de stappen beschreven in de punten 2,2-2,4, de Galaxy leiding 3 werd gebruikt om een lijst van genen die differentieel tot expressie tussen GLP-1 en tCER-1 te verkrijgen, glp-1 mutanten. Galaxy stelde ons in staat om de NGS gegevens uit de twee herhalingen voor elke stam en uitgevoerd differentiële analyse in tabelvorm bestanden te genereren aandacht voor het genoom wijde expressie profile. Onder toepassing van een drempel van ten minste één voudige verandering in grootte en P-waarde van ten minste 0,05, een lijst van 835 genen die differentieel tot expressie gebracht tussen de twee stammen werd gegenereerd 31. De lijst is verdeeld op basis van of expressie van de genen neerwaarts gereguleerd in tCER-1, GLP-1 mutanten (359 UP genen waarvan de transcriptie wordt waarschijnlijk versterkt door tCER-1 / TCERG1) of opgereguleerd (476 DOWN genen waarvan de transcriptie waarschijnlijk wordt onderdrukt door tCER-1 / TCERG1) in vergelijking met gLP-1 (Figuur 4).

figuur 4
Figuur 4: Identificatie van tCER-1 / TCERG1-gereguleerde genen in de kiemlijn-less C. elegans mutanten met behulp van RNA-Seq: Resultaten Galaxy (A) en DAVID (B) analyses. (A) Differentiële genexpressie-analyse van RNA-Seq data vergelijkende transcriptoom van glp-1 en tCER-1, GLP-1 leverde een totaal van 835 genen waarvan 359 werden geïdentificeerd als zijnde opgereguleerd door tCER-1 / TCERG1 (UP) en 476 als neerwaarts gereguleerd door tCER-1 / TCERG1 (DOWN). (B) Resultaten van 'defunctie Clustering' analyse van genen geïdentificeerd als tCER-1 / TCERG1 doelen gebruikt DAVID. Percentage verrijking of Biological Werkwijzen voor zowel de opgereguleerd (UP) en omlaag-gereguleerd (DOWN) Klassen van tCER-1 / TCERG1 doelen. De hier getoonde grafiek wordt verkregen door de verrijkte gen groepen (X-as) en hun respectievelijke percentage verrijking (Y-as) verkregen als het uitgangssignaal van DAVID analyse. Figuur gemodificeerd van Amrit et al. 31 en gereproduceerd met toestemming. Klik hier om een grotere versie van deze afbeelding te bekijken.

Een overzicht van de genklassen verrijkt tCER-1 / TCERG1 doelen te verkrijgen, voerden we gen ontologie (GO) termijnanalyse behulp DAVID. De tCER-1 / TCERG1 gereguleerd UP en DOWN-gen lijsten werden onafhankelijk geüpload naar DAVID en zoals beschreven in hoofdstuk 3 weinig bekend over de genen en cellulaire processen doelwit van tCER-1 / TCERG1 vooraf 30 geanalyseerd, zodat we de DAVID analyse om bijzonder onthullend en behulpzaam. Functionele annotatie analyse van de UP genen onthulde vijf aantekeningen Clusters met Verrijking score van> 1,3, de hoogste waaronder cytochroom P450-enzym coderende genen en xenobiotische respons genen, gevolgd door genen die lipidemodificaties. Dit werd versterkt door de resultaten van de Gene Functional Classification analyse die aangewezen groepen toegekend met vergelijkbare molecular activiteiten met aanzienlijke verrijking scores. Gebruik spreadsheet, werden de geïdentificeerde groepen uitgezet tegen hun respectievelijke verrijking scores (figuur 4). Onze eerdere gegevens suggereerden dat tCER-1 / TCERG1 functioneerde de geconserveerde levensduur transcriptiefactor, DAF-16 / FOXO3A, om de levensduur van GSC-less volwassenen 30 bevorderen. DAF-16 / FOXO3A op zijn beurt is betrokken bij het moduleren van vetmetabolisme recente studies 27, 32, 33. Op basis van deze gegevens en de identificatie van lipide-metabolisme genen en routes als potentiële tCER-1 / TCERG1 doelen in de DAVID analyses hebben we ons gericht op het vetmetabolisme geïdentificeerde genen in het RNA-Seq studie voor gedetailleerde mechanistische studies. Na deze kabel, en via daaropvolgende moleculair genetische, biochemische en functionele experimenten hebben we aangetoond dat tCER-1 / TCERG1 samen met DAF-16 / FOXO3A gecoördineerd Enhanced zowel lipide katabole en anabole processen in reactie op kiemlijn verlies 31. Evenzo Functionele annotatie Clustering van de DOWN tCER-1 / TCERG1 doelwitten geïdentificeerd annotatie Clusters verrijkt cytoskelet functies positieve regulatie van de groei, reproductie en veroudering (figuur 4). Deze waarnemingen en ondersteunen onze experimentele bewijzen suggereren dat bij kiemlijn verlies tCER-1 / TCERG1 onderdrukt ook de groei en reproductieve fysiologie in somatische cellen en de expressie van anti- genen 31 levensduur.

Monster Totaal Sequences Lengte % GC Totaal Leest (Galaxy) Toegewezen Leest (Galaxy) Genome Coverage
glp-1 4000000 51 49 20700539 ~ 16.000.000 11x
glp-1; tCER-1 4000000 51 49 18055444 ~ 13.000.000 9x
glp-1 4000000 51 48 18947463 ~ 14.000.000 10x
glp-1; tCER-1 4000000 51 48 13829643 ~ 10.000.000 7x

Tabel 1: RNA-Seq Sample Details. Compilatie van ruwe data attributen geëvalueerd post-sequencing om het succes van de sequencing run te bevestigen. Sequentiegegevens van het representatief experiment uit twee biologische omstandigheden, een controlestam (glp-1 (tCER-1, GLP-1) met twee biologische replica gesequenced per. 'FastQC' kwaliteitscontrole analyse wijst op het aantal sequenties gelezen zonder "slechte kwaliteit" luidt, 48-49% GC-gehalte en een constante sequentie lees lengte van 51bp. Gemodificeerde en gereproduceerd met toestemming van Amrit et al. 31.

Aanvullende Bestand: Command-keten in het kort voor het gereedschap draaien op de Galaxy leiding voor RNA-Seq data-analyse. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Betekenis van de Galaxy Sequencing Platform in Modern Biology

De Galaxy Project is behulpzaam geweest bij het helpen van biologen zonder bioinformatica training te verwerken en te analyseren high-throughput sequencing data op een snelle en efficiënte manier te worden. Eens beschouwd als een enorme taak, dit openbaar beschikbare platform heeft gemaakt running complex bioinformatica algoritmes om NGS data analyseren van een eenvoudig, betrouwbaar en eenvoudig proces. Afgezien van het hosten van een breed scala van bio-informatica, de sleutel tot succes voor de Galaxy is ook de eenvoud van de gebruikersinterface die de verschillende aspecten van complexe sequencing analyse samen veters op een intuïtieve en naadloze manier. Door deze maatregelen, heeft de Galaxy pijpleiding breed gebruik verworven onder biologen, met inbegrip van C. elegans onderzoekers. Naast de gebruiker vertrouwd met de RNA-Seq-analyse pijplijn Galaxy helpt ook de basis voor eenvoudige biologen het grijpenconcept van de data-analyse en het begrijpen van de gereedschappen betrokken. Deze kennis priemgetallen de gebruiker in staat om meer complexe bioinformatica platforms zoals 'R' en 'Python' wellicht voort te zetten. Daarnaast Galaxy, andere gereedschappen en pakketten zijn commercieel verkrijgbaar en zo open-source oplossingen, die kunnen worden gebruikt voor RNA-Seq-analyse. De commerciële opties zijn vaak stand-alone software pakketten die gebruiksvriendelijk zijn, maar kan duur zijn voor individuele onderzoekers die niet NGS vaak gebruiken. Als alternatief open source platforms zoals BioWadrobe 34 en ArrayExpressHTS 35 vereisen kennis van de command line en het uitvoeren van scripts, die belangrijke uitdagingen voor niet-bio-informatici vormt. Vandaar Galaxy blijft een populaire en onmisbaar hulpmiddel.

Kritische stappen in het protocol

De moeiteloze voordelen van Galaxy en DAVID Ondanks een succesvolle RNA-Seq experiment nog steedsberust fundamenteel op een zorgvuldig ontwerp en de uitvoering van de experimentele stap. Bijvoorbeeld, is het essentieel om genetische homogeniteit voor het vergelijken van twee stammen door RNA-Seq, en te bepalen of er verschillen in ontwikkelings tarieven. Het isoleren van RNA uit dezelfde leeftijd stammen is van cruciaal belang als goed. Evenzo om rekening te houden variabiliteit van genexpressie in dezelfde stam, is het belangrijk om twee of meer 'biologische replica' van elke stam werking. Dit betekent in wezen groeien en oogsten van de wormen stammen worden gesequenced tenminste twoindependent experimenten, hoewel drie biologische repliceert de aanbevolen standaard. Galaxy verenigt de gegevens van meerdere biologische repliceert zodat de gerapporteerde genexpressie verschillen tussen de stammen niet alleen een gevolg van 'in-sample' variabiliteit.

Een belangrijke ontwerpbeslissing is het gebruik van single-end versus gepaarde-end sequencing. MetEenzijdige sequencing, wordt elk fragment gesequenced uni-directioneel zodat het proces sneller, goedkoper en geschikt voor transcriptieprofielbepaling. In gepaarde-end sequencing, wanneer het fragment wordt gesequentieerd van het ene uiteinde naar het andere, een tweede ronde van sequencing wordt in de tegengestelde richting weer. Het geeft meer data diepgaande en aanvullende positiegegevens van het genoom, dus meer geschikt voor de novo genoom assemblage, nieuwe SNP identificatie voor het identificeren en epigenetische veranderingen, deleties, inserties, en inversies. Ook het totale aantal leest en omvang van genoom dekking vereist voor adequate differentiële expressie studies contextgebonden is. Voor kleine genomen, zoals bacteriën en schimmels, ~ 5.000.000 leest is voldoende, terwijl in wormen en vliegt ~ 10 miljoen luidt adequate dekking. Voor organismen met grote genomen zoals muizen en mensen, 15-25000000 leest is het vereiste bereik. Bovendien, om de lees-nummer en dekking, het is ook important dat de meeste NGS leest passen aan het referentie genoom. Een positionering van <70% leest duidt op een slechte NGS of de aanwezigheid van verontreinigingen. Kortom, voor C. elegans RNA-Seq studies, drie biologische repliceert gesequenced met 50 bp unidirectionele sequencing resulteert in ~ 10-15.000.000 leest en ~ 5-10x genoom dekking voor elk monster ideaal doel.

Ondanks het gemak van het gebruik van Galaxy, er zijn een paar punten om te onthouden met het oog op een vlotte en foutloze data-analyse ervaring te garanderen. Het is noodzakelijk voor de gebruiker om een ​​basiskennis van het doel en de werking van de verschillende instrumenten die worden gebruikt te hebben. Elk Galaxy gereedschap vereist selectie van de parameters en het begrijpen van de tool helpt de gebruiker de instellingen optimaliseren op basis van de eis van het experiment. De Galaxy help pagina's leggen uit elke parameter en het wordt aanbevolen dat de gebruiker deze gegevens doorlezen om te beslissen over testen variabelen.

Het gen lijst verkregen post RNA-Seq-analyse slechts een lijst van genen totdat het gedolven biologisch relevante gegevens met DAVID. Dit is een cruciale oefening die individuele genen gebaseerde data omzet in biologische procesmatige resultaten. Verkennen van het RNA-Seq gen lijst met de verschillende analyses DAVID verschaft daarom een ​​integraal en belangrijk deel van het protocol.

Modificaties, probleemoplossing en beperkingen

Een gemeenschappelijke glitch met NGS data-analyse is taken of tests die falen, vooral bij de kwaliteitscontrole fasen. Van de tests die FastQC draait op een monster, kan een paar naar boven komen als mislukt. Dit betekent echter niet onvermijdelijk zo zijn dat het monster niet voldoet aan de fastq kwaliteitsnormen. Het falen zou een alternatieve verklaring die zorgvuldig moeten worden onderzocht te hebben.

Bijvoorbeeld, als de 'Per basesequentie content' mislukt (wat suggereert dat er een verschil van meer dan 10% tussenbasen in elke positie), controleer de wijze van oligodT bibliotheek preparaat. Eerder werk heeft aangetoond dat Illumina NGS bibliotheken neiging de 13e base moet worden gesequentieerd een voorkeur voor bepaalde basen waardoor het monster de test niet hebben. Ook een falen van de 'kmer content' test kan soms worden toegeschreven aan het feit dat bibliotheken afgeleid van willekeurige priming vrijwel altijd kmer voorspanning aan het begin zal vertonen als gevolg van een onvolledige bemonstering van de willekeurige primers. Daarom is het belangrijk om deze en andere belemmeringen in de analyse pipeline overwegen voordat het bepalen van het lot van het experiment.

Een andere belangrijke eigenschap die invloed RNA-Seq data-analyse is de snelle en exponentiële verbeteringen die plaatsvinden in NGS methoden en analyse software. Idealiter verwacht men een identiek gen lijst met resultaten van analyse van een monster NGS gegevens van twee pijpleidingen of twee versies van dezelfde buislijn. Hoewel steeds beter algoritmen verlagen aberraties in RNA-Seq-analyse en productie gen lijsten met grotere nauwkeurigheid, leidt dit vaak tot verschillen. Bijvoorbeeld, het analyseren van een monster NGS gegevens met behulp van een oudere versus nieuwere versie van dezelfde toolset kan significant verschillend gen lijsten te produceren. Een bescheiden variatie wordt verwacht, maar gebruikers moeten zich ervan bewust dat grote discrepanties een afspiegeling is van de zwakke punten in het ontwerp of de uitvoering van het experiment kunnen zijn.

Gezamenlijk hebben de Galaxy-project en DAVID analytische instrumenten de weg NGS gegevens kunnen worden aangewend om biologisch relevante informatie te extraheren getransformeerd. Dit heeft geheel nieuwe niveaus van onafhankelijkheid en onderzoek geopend om de wetenschappelijke gemeenschap, met inbegrip van C. elegans onderzoekers. Bijvoorbeeld, het voortdurend verlagen van de kosten van sequencing in combinatie met betere en snellere sequencing technologie inluiden in een tijdperk van transcriptomics op het niveau van enkele wormen,individuele worm weefsels en zelfs enkele uitgelezen worm cellen. Deze pogingen omvatten dramatische toename in NGS data worden gegenereerd. Bijhouden van de analytische einde van de workflow een uitdaging, maar vanwege zijn veelzijdigheid Galaxy waarschijnlijk instrumenteel in het machtigen de overgang van hele organisme transcriptomics RNA-Seq op enkele celniveau in C. elegans worden. De resulterende vooruitgang in kennis zijn waarschijnlijk buitengewone inzichten in de fundamentele biologie te bieden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

De auteurs willen graag hun dank betuigen aan de laboratoria, groepen en individuen die Galaxy en David hebben ontwikkeld, en dus maakte NGS breed toegankelijk voor de wetenschappelijke gemeenschap. De hulp en advies van collega's aan de Universiteit van Pittsburgh tijdens onze bioinformatica training wordt erkend. Dit werk werd ondersteund door een Ellison Geneeskundige Stichting New Scholar in Aging award (AG-NS-0879-12) en een subsidie ​​van de National Institutes of Health (R01AG051659) naar AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Tags

Genetics RNA sequentie RNA-Seq Transcriptomics genexpressie Galaxy Project Smoking Database voor annotatie visualisatie en geïntegreerde Discovery (DAVID), Next-Generation Sequencing (NGS) transcriptie Profiling Genomics
Transcriptoom analyse<em&gt; C</em&gt;.<em&gt; elegans</em&gt; RNA Sequencing gegevens via de Tuxedo Suite op de Galaxy Project
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Amrit, F. R. G., Ghazi, A.More

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter