Genetics

Udnyttelse af CyVerse Resources for Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Denne arbejdsgang gør det muligt for nybegyndere at udnytte avancerede beregningsmæssige ressourcer som cloud computing til at udføre parvis sammenlignende transcriptomics. Det tjener også som en primer for biologer til at udvikle datavidenskabers beregningsmæssige færdigheder, fx udførelse af bash-kommandoer, visualisering og styring af store datasæt. Alle kommandolinjekoder og yderligere forklaringer af hver kommando eller trin kan findes på wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Environment og Atmosphere platforme er forbundet sammen gennem CyVerse Data Store. Som sådan, når først de oprindelige rå sekventeringsdata er blevet uploadet, er der ikke længere behov for at overføre store datafiler over en internetforbindelse, hvilket minimerer mængden af tid, der er nødvendig for at foretage analyser. Denne protokol er designet til kun at analysere to eksperimentelle behandlinger eller betingelser. Differentiel genekspression analyse udføres thrDybe parvise sammenligninger, og vil ikke være egnet til at teste flere faktorer. Denne arbejdsgang er også designet til at være manuel snarere end automatiseret. Hvert trin skal udføres og undersøges af brugeren, hvilket giver en bedre forståelse af data og analytiske output og dermed bedre resultater for brugeren. Når denne protokol er afsluttet, giver denne protokol de novo- samlede transkriptomer til underordnede organismer uden organisering uden at skulle kortlægge til tidligere sammensatte referencemønstre (som normalt ikke er tilgængelige i underbevarede organismer). Disse de novo transkriptomer anvendes yderligere i parvis differentiel genekspression analyse for at undersøge gener, som adskiller sig fra to forsøgsbetingelser. Differentielt udtrykte gener bliver derefter funktionelt annoteret for at forstå, at de genetiske reaktionsorganismer har forsøgsbetingelser. I alt anvendes dataene fra denne protokol til at teste hypoteser om biologiske reaktioner hos underbevarede organismer.

Introduction

Homo sapiens og flere hovedmodel dyrearter som Drosophila melanogaster , Mus musculus og Danio rerio repræsenterer størstedelen af nuværende og tidligere funktionelle genomics arbejde. Den hastigt faldende pris for high-throughput-sekventeringsteknologi giver imidlertid muligheder for funktionel genomik i ikke-model ( aka "neglected" eller "underserved") dyreart ¹ . Dette er en vigtig overgang i genomik, idet ikke-modelorganismer ofte repræsenterer økonomisk relevante arter ( fx østers, rejer, krabber) og giver mulighed for at undersøge nye fænotyper og biologiske systemer uden for rammerne af dem, der findes i modelarter.

Selvom underbevarede organismer udgør en attraktiv mulighed for at undersøge unikke biologiske systemer, står de forskellige udfordringer over for forskere, især under bioinformatisk analyse. Nogle afSe udfordringer er medvirkende til at behandle store datasæt, mens andre er resultatet af manglen på genetiske ressourcer til rådighed for forskere, der arbejder i underordnede organismer, såsom et referencegenom, organisme-specifikke ontologier osv . Udfordringerne med nukleinsyreisolering og sekventering er ofte rutinemæssige i Sammenligning med dataanalysen, og som sådan viser bioinformatiske analyser generelt den mest undervurderede pris for sekventeringsprojekter ² . For eksempel kan en grundlæggende næste generations sekventerende bioinformatisk analyse bestå af følgende trin: kvalitetsfiltrering og trimning af rå sekventering læser, samling af korte læses i større sammenhængende stykker og annotering og / eller sammenligninger med andre systemer for at opnå biologisk forståelse. Selvom det er tilsyneladende simpelt, kræver dette arbejdsproces i specialkundskaber og beregningsmæssige ressourcer ud over en labbænkcomputer, hvilket gør det utilgængeligt for mange forskere at studere ikke-Modelorganismer.

Indige udfordringer kan være infrastruktur- eller vidensbaserede. En klassisk infrastrukturudfordring er adgang til passende beregningsmæssige ressourcer. For eksempel er samling og annotation afhængig af computationally-intensiv algoritmer, der kræver kraftige computere eller computerklynger, der har stor mængde RAM (256 GB-1 TB) og flere processorer / kerner til at køre. Desværre har mange forskere heller ikke adgang til sådanne databehandlingsressourcer eller har ikke den viden, der er nødvendig for at interagere med disse systemer. Andre forskere kan få adgang til højtydende computerklynger gennem deres universiteter eller institutioner, men adgangen til disse ressourcer kan være begrænset og nogle gange resulterer i gebyrer pr. Beregningstid, dvs. antallet af CPU-processorer multipliceret med antallet af realtidsklokke Timer "at disse processorer kører. Udnyttelse af et cyberinfrastruktur system finansieret af US National Science Foundation sUanset som CyVerse ^3, der giver fri adgang til beregningsressourcer for forskere, i USA og rundt om i verden, kan bidrage til at lette infrastrukturudfordringer, som det vil blive demonstreret her.

Et eksempel på en typisk videnbaseret udfordring er at forstå den software, der er nødvendig til komplette analyser. For effektivt at gennemføre et sekventeringsbaseret projekt skal forskere være bekendt med de utallige softwareværktøjer, der er udviklet til bioinformatiske analyser. At lære hver pakke er vanskelig i sig selv, men forværres af, at pakker løbende opgraderes, genudleveres, samles i nye arbejdsgange, og nogle gange bliver begrænset til brug under nye licenser. Derudover kræver sammenkædning af input og output af disse værktøjer undertiden omdannelse af datatyper til at gøre dem kompatible og tilføjer et andet værktøj til arbejdsgangen. Endelig er det også svært at vide, hvilken softwarepakke der erE best "til en analyse, og ofte identificering af den bedste software til særlige eksperimentelle forhold er et spørgsmål om subtile forskelle. I nogle tilfælde er nyttige anmeldelser af software tilgængelige, men på grund af den fortsatte udgivelse af nye opdateringer og softwaremuligheder er disse hurtigt gået forældet.

For forskere, der undersøger underordnede organismer, kommer disse medfødte udfordringer ud over de udfordringer, der er forbundet med at analysere data i en ny organisme. Disse underordnede organisme-specifikke udfordringer illustreres bedst under genannotering. For eksempel har underbevare organismer ofte ikke en nært beslægtet modelorganisme, der med rimelighed kan bruges til at identificere gen-ortologi og funktion ( fx marine hvirvelløse dyr og Drosophila ). Mange bioinformatiske værktøjer kræver også "træning" for at identificere strukturelle motiver, som kan bruges til at identificere genfunktionen. Men træningsdata er normalt kun tilgængelige for modEl-organismer og træning af skjulte Markov-modeller (HMM'er) ligger uden for biologernes område og endda mange bioinformatikere. Endelig kan selvom annoteringer udføres ved hjælp af data fra modelorganismer nogle gengenologier forbundet med modelorganismer ikke fornuftigt, når biologien og naturhistorien hos den underbeviste organisme overvejes ( fx overførsel af information fra Drosophila til rejer).

I lyset af disse udfordringer skal bioinformatiske ressourcer udvikles med forskere, der udfører de novo- analyser på underordnede organismer specifikt i tankerne. De næste mange års funktionelle genomiske sekventeringsprojekter vil bidrage til at lukke kløften mellem model og underserverede organismer ( https://genome10k.soe.ucsc.edu/ ), men der er mange værktøjer , der skal udvikles for at løse udfordringerne Overvejet ovenfor. CyVerse er dedikeret til at skabe økosystemer af iNteroperability ved at forbinde eksisterende cyberinfrastruktur og tredjeparts applikationer til at levere datastyring, bioinformatiske analyseværktøjer og datavisualiseringer til livforskere. Interoperabilitet hjælper med at lette overgangen mellem bioinformatiske applikationer og platforme ved at levere skalerbare databehandlingsressourcer og begrænse konverteringer af filformat og mængden af data, der overføres mellem platforme. CyVerse tilbyder flere platforme, herunder Discovery Environment (DE ⁴ , Atmosphere ⁵ og Data Store ^3. DE er webbaseret og har mange fælles bioinformatik analyseværktøjer konverteret til brugervenlige point-and-click-formater (kaldet "apps "), Og er den grafiske brugergrænseflade (GUI) til datalageret, hvor store datasæt ( dvs. rå sekventering læses, samles genomer) gemmes og styres. Atmosfære er en cloud computing service, der giver forskere øget fleksibilitet tilVed hjælp af Virtual Machine beregningsmæssige ressourcer, som har en bred vifte af bioinformatik værktøjer forudinstalleret. Begge disse platforme er knyttet til datalageret og kan bruges sammen til at skabe arbejdsgange som det her beskrevne. Denne rapport fokuserer på en de novo transkriptom samling og differentierede genekspression analyser arbejdsgange, og yderligere adresserer nogle bedste praksis i forbindelse med udvikling og gennemførelse af bioinformatiske analyser. En forklaring på CyVerse's bredere mission ( http://www.cyverse.org/about ) og detaljerede platformbeskrivelser ( http://www.cyverse.org/learning-center ) er offentligt tilgængelige. Alle analyser, der beskrives her, anvender Discovery Environment ⁴ (DE) og Atmosphere ⁵ og er præsenteret på en måde, der gør dem tilgængelige for forskere af alle beregningsniveauer. DE-arbejdsgange og AtmosphEre billeder kan henvises direkte ved hjælp af webadresser for at sikre langsigtet herkomst, genbrugelighed og reproducerbarhed.

Protocol

BEMÆRK: Den overordnede protokol er nummereret i overensstemmelse med mapper, der oprettes og navngives i trin 1.2 ( Figur 1 og 2 ). Denne protokol repræsenterer en standard sammenlignende de novo transkriptome analyse, og hvert trin beskrevet her er muligvis ikke nødvendigt for alle forskere. Denne workflow er dokumenteret grundigt på en companion tutorial wiki, som også indeholder alle yderligere filer og links til dokumenter af interesse 3 ^rd part udviklere for hver analyse pakke ( tabel 1 ). Links til dette materiale vil blive inkluderet i hele denne protokol for nem adgang til disse oplysninger. Bedste praksis er notater, der gives til brugere som forslag til den bedste måde at udføre opgaver på eller for brugerne at overveje, og vil blive formidlet gennem noter i protokollen. En mappe med eksempel dataindgang og analytisk output er offentligt tilgængelig for brugerne, og er organiseret som foreslået i protokollen ( de novo

1. Konfigurer projektet, Upload Raw Sequencing Læs og Vurder Læs ved hjælp af FastQC

Få adgang til atmosfære og Discovery Environment.
1. Anmod om en gratis CyVerse-konto ved at navigere til registreringssiden ( f.eks. Person@institution.edu).
2. Udfyld de krævede oplysninger og indsend.
3. Naviger til hovedwebsiden (http://www.cyverse.org/), og vælg "Log på" øverst på værktøjslinjen. Vælg "Cyverse Login" og log ind ved hjælp af dine CyVerse credentials.
4. Naviger til fanen Apps & Services, og anmode om adgang til atmosfære. Adgang til Discovery Environment gives automatisk.
Opsæt projektet og flyt data til datalageret.
1. Log ind på Discovery Environment (https://de.iplantcollaborative.org/de). Vælg fanen "Data" for at få vist en menu, der indeholder alle mapperne i datalageret. Opret en hovedprojektmappe, der huser alle de data, der er knyttet til projektet. Find værktøjslinjen øverst i datafeltet og vælg Fil | Ny mappe. Brug ikke mellemrum eller specialtegn i mappenavne eller input / output filnavne f.eks. "! @ # () [] {}:; $% ^ & *." Brug i stedet underskrifter eller bindestreger, dvs. "_" eller "-" hvor det er relevant.
2. Opret fem mapper i hovedprojektmappen for at organisere analyser ( Figur 1 ) Navngiv mapperne som følger uden kommaer eller citatmærker: "1_Raw_Sequence," "2_High_Quality_Sequence," "3_Assembly," "4_Differential_Expression," "5_Annotated_Assembly." Undermapper placeres i hver af disse hovedprojektmapper ( figur 2 ).

figur 1
Figur1: En generel oversigt over projektmappeorganisationen og De Novo Transcriptome Assembly og Analysis Workflow. Brugere vil uploade rå sekventering læser i hovedprojektmappen på datalageret, og placer derefter resultaterne fra hvert trin i separate mapper. Klik her for at se en større version af denne figur.

Figur 2
Figur 2: En detaljeret oversigt over De Novo Transcriptome Assembly og Analysis Workflow, der forekommer inden for CyVerse Cyberinfrastructure. Hele samlings- og analysearbejdet gennemføres i fem trin, der hver især får deres egen mappe (fed, nummererede mappeikoner). Hver af de fem nummererede workflow-trinmapper har undermapper indeholdende outputdata fra bioinformatiske analyser (mappeikoner). Indtastninger til analyse kommer fra en undermappe og flyttes derefter ind i en anden mappe gennem output fra et analyseprogram (rektangelbokse). De endelige data fra de første tre trin sammenlignes og fremstilles til offentliggørelse. I sidste ende giver denne ordning en hovedprojektmappe, der har trinvis analyse for samarbejdspartnere, og / eller manuskripter kan hurtigt forstå arbejdsgangen og gentage den ved hjælp af hver fil, hvis det er nødvendigt. Klik her for at se en større version af denne figur.

Upload rå FASTQ-sekvensfiler til mappen "1_Raw_Sequence" i en undermappe med titlen "A_Raw_Reads" ved hjælp af en af følgende tre metoder.
1. Brug Data Store-simpel uploadfunktion til at navigere til værktøjslinjen Datavindue ved at klikke på dataknappen i hoveddisplayet i DE og vælge Upload | Enkel upload fra skrivebordet. Vælg knappen GennemseAt navigere til de rå FASTQ-sekvenseringsfiler på den lokale computer. Denne metode er kun egnet til filer under 2 GB.
2. Vælg knappen Upload under bunden af skærmen for at indsende uploaden. En anmeldelse vil blive registreret øverst til højre for DE i klokkeikonet, at uploaden er indsendt. En anden meddelelse registreres, når uploaden er gennemført.
3. Du kan også bruge Cyberduck til at overføre større filer (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installer Cyberduck og kør derefter som et program på den lokale computers skrivebord.
4. Endelig skal du downloade iCommands og installere på den lokale computer efter instruktioner (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Vurdere uploadet, rå sekventering læses ved hjælp af FastQC appen i DE.
1. Vælg knappen "Apps" på hoveddisplayet for DE for at åbne et vindue, der indeholder alle de analyseapps, der er tilgængelige i DE.
2. Søg og åben winDow for FastQC værktøjet i søge værktøjslinjen øverst i vinduet. Åbn multifilversionen, hvis der er mere end én FASTQ-fil. Vælg Fil | Ny mappe for at oprette en mappe med navnet "B_FastQC_Raw_Reads" og vælg denne mappe som output-mappen.
3. Indlæse FASTQ læse filerne i værktøjsvinduet kaldet "Vælg input data" og vælg "Start analyse".
4. Åbn .html eller .pdf-filen for at se resultaterne, når analysen er afsluttet. FastQC kører flere analyser, som tester forskellige aspekter af de læste filer ( figur 3 ).

2. Trim og kvalitetsfilter Raw råder til udbytte af høj kvalitetssekvens

Bemærk: Brug enten Trimmomatic app eller Sickle app.

Søg efter den programmerbare Trimmomatic app i DE og åben den som før.
1. Upload mappen med rå FASTQ læse filer i afsnittet "Indstillinger".
2. Vælg, om seQuencing-filer er single- eller paired-end.
3. Brug standard kontrolfilen ved at vælge Browse-knappen og indsætte / iplant / home / shared / Trinity_transdecoder_trinotate_databases i boksen "Viewing:". Vælg filen ved navn Trimmomaticv0.33_control_file og start analysen. Filen kan downloades, indstillingerne redigeres og derefter uploades til den anden projektmappe for at oprette et brugerdefineret trimningsskript.
4. Valgfrit: Hvis FastQC-analysen identificerede adapter-sekvenser, skal du bruge ILLUMINACLIP-indstillingen til at trimme Illumina-adaptere. Vælg den relevante adapterfil i mappen / iplant / home / shared / Trinity_transdecoder_trinotate_databases som ovenfor.
Kvalitet trimning sekvens lyder ved hjælp af Sickle.
1. Søg og åben Sickle-appen i DE. Vælg den trimmet FASTQ læses som input læser, og omdøber output filer. Inkluder kvalitetsindstillinger i indstillingerne. Typiske indstillinger er kvalitetsformat: illumina, sanger, solexa; Kvalitet tGrænseværdi: 20; Minimum længde: 50.
2. Flyt al output til den trimmet og filtrerede mappe (2_High_Quality_Sequence).
Vurder den endelige læsning ved hjælp af FastQC og sammenlign med tidligere FastQC rapporter. Vælg .html-filen for at hente en webside af alle resultater. Vælg mappen for billedfiler (.png), der leveres i output, hvis det ikke kan ses.

3. De Novo Transcriptome Assembly ved hjælp af Trinity i atmosfæren

Åbn den nyeste version af Atmosphere-forekomsten ved at navigere til wiki-siden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Vælg linket for den nyeste version af Trinity og Trinotate-billedet. Alternativt kan du søge "Trinotate" i Atmosfæren billedsøgningsværktøjet (https://atmo.iplantcollaborative.org/application/images) for at hente alle versioner af Trinity og Trinotate-billederne.
1. Vælg "Log ind for at starte" knappen og derefter navngive atmosfæren instance.
2. Vælg en instansstørrelse på enten "medium3" (CPU: 4, Mem: 32GB) eller "big3" (CPU: 8, Mem: 64 GB). Start instansen, og vent på at den skal bygge. I nogle sjældne tilfælde undergår CyVerse vedligeholdelse at opdatere platforme. Eksisterende forekomster er tilgængelige under disse opdateringer, men det er muligvis ikke muligt at oprette nye forekomster. Besøg CyVerse Status-siden for at se den aktuelle tilstand på enhver platform (http://status.cyverse.org/).
Åbn forekomsten, når den er klar, ved at klikke på navnet og derefter vælge "Remote Desktop" nederst i menuen til højre. Tillad Java og VNC Viewer, hvis du bliver spurgt. Vælg "Connect" -knappen i vinduet VNC Viewer, og vælg derefter "Fortsæt".
1. Log ind for at åbne et separat vindue, der bliver den nye cloud computing-instans.
2. Flyt de trimmede og / eller filtrerede FASTQ-læsede filer til forekomsten ved hjælp af en af de tre metoder, der beskrives i trin 1.3.1 - 1.3.4. OsE internetbrowseren for at få adgang til DE og downloade filer lige som før på den lokale computer. Eller brug iCommands installeret på disse billeder for hurtigt at overføre store datasæt.
Running Trinity at samle høj kvalitet læses.
1. Opsæt analyse mappen i atmosfæren instansen. Brug scriptet tilgængeligt i DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller kopier og indsæt kommandoer fra wiki side (https://wiki.cyverse.org/wiki/x/dgGtAQ). Forklaringen af alle kommandoer findes på wikisiden.
2. Når analysemappen og Trinotat-databaserne er etableret, skal du køre Trinity-assembleren ved hjælp af kommandoer ovenfra. Der er flere outputfiler, men det vigtigste er den endelige monteringsfil med titlen "Trinity.fasta." Omdøb denne FASTA-fil til at være unik for organismen, og behandling af de samlede læsninger før du flytter den ind i Data Store (mappe 3_Assembly) for at minimere potentiel forvirring.
  BEMÆRK: Output tæller tabeller for differential genekspression analyse i en mappe (4_Differential_Expression).
Vurder samlingen ved hjælp af rnaQUAST ( Figur 4 ).
1. Flyt Trinity-uddatafilerne i mappen "3_Assembly" i DE og mærket mappen "A_Trinity_de_novo_assembly." Giv hvert transkriptom, der blev samlet en undermappe inde i mappen "A_Trinity_de_novo_assembly" med unikke navne, herunder det videnskabelige navn på organismer og behandlinger, der er forbundet med hver transkriptom. Opret en anden undermappe kaldet "B_rnaQUAST_Output" i mappen "3_Assembly".
2. Åbn appen med titlen "rnaQUAST 1.2.0 (denovo-baseret)" og navngiv analysen og vælg "B_rnaQUAST_Output" som output-mappen.
  1. Tilføj FASTA-filen (de) til de novo- samlingen til "Data Input" sektionen. Indtast et unikt navn til de novo i afsnittet "Data Output"
3. Vælg yderligere indstillinger i afsnittene "GenemarkS-T Gene Prediction", "BUSCO" og "Parameters".
  1. Vælg prokaryot i "GenemarkS-T Gene Prediction" sektionen, hvis organismen ikke er eukaryotisk.
  2. Kør BUSCO for at vælge browse-knappen og kopi stien iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data i boksen "Viewing:" og tryk på enter. Vælg den mest specifikke BUSCO-mappe, der er tilgængelig for organismen.
    BEMÆRK: BUSCO vurderer samlingen for kønsrelaterede kernegener, og uddata hvilken procentdel af kernegener der findes. Der er generelle mapper, f.eks. Eukaryote og mere specifikke linjer, fx arthropoda.
Søg efter "Transcript decoder" og kør Transdecoder på de novO Trinity assembly output FASTA fil i Discovery Environment.
Flyt output .pep-filen til mappen de novo assembly (3_Assembly) til brug i trin 5 Annotation.

4. Pairwise Differential Expression Brug DESeq2 i DE

Åbn DESeq2 appen i DE som tidligere beskrevet. Navngiv analysen og vælg outputmappen som 4_Differential_Expression.
I afsnittet "Inputs" skal du vælge tæller-tabelfilen fra Trinity Assembly Run og den kolonne, som Contig navne kan findes i den pågældende tabel.
Indtast kolonneoverskrifterne fra tællerdatabordfilen for at bestemme hvilke kolonner der sammenlignes. Inkluder kommaerne mellem hver af betingelserne. Indsæt ikke den første kolonneoverskrift, der indeholder contig navne.
For gentagelser gentages det samme navn ( fx Behandling1rep1, Behandling1rep2, Behandling1rep3 bliver Behandling1, Behandling1, Behandling1). I thE anden linje, angiv navnene på de to betingelser, der skal sammenlignes ( fx Behandling1, Behandling2). Match de kolonneoverskriftsnavne, der er angivet i første linje.
BEMÆRK: Disse kolonneoverskrifter skal være alfanumeriske og må ikke indeholde specialtegn.

5. Annotation ved hjælp af trinotat

Kør hver del af Trinotate i atmosfæren cloud computing instansen. Bemærk: Bash-kommandoer leveres i en txt-fil, der skal kopieres, indsættes og derefter ændres, før de køres på DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller på wikisiden (https://wiki.cyverse.org/ wiki / x / dgGtAQ). Hvis du annoterer flere samlinger, skal du annotere hver samling en ad gangen og derefter overføre komplette annotationsfiler tilbage til mappe "5_Annotation" hver med en unik mappe, der svarer til forsamlingsnavnet.
1. Kør bash-kommandoen for at søge Trinity-transkripter. Ændre antallet af tråde for at matche, hvor mange CPU'er der erPå forekomsten, dvs. medium har 4 CPU'er og store har 8 CPU'er. Se trin 3.1.2 for flere detaljer. Skift kommandoen Trinity.fasta for at matche montage FASTA filnavn.
  BEMÆRK: BLAST + søgninger kræver mest tid. Det kan være dage før det er færdigt. Cloud-computeraktiviteten kan kontrolleres i atmosfære uden at skulle hente VNC Viewer.
2. Kør bash-kommandoen for at søge Transdecoder-forudsagte proteiner. Som tidligere ændrer du trådens nummer og filnavn for at matche betingelserne i 5.2.1.
3. Kør bash kommandoen til HMMER og ændre antallet af tråde som ovenfor.
4. Kør bash-kommandoen til signalP og tmHMM, hvis det er nødvendigt. SignalP vil forudsige signalpeptider, og tmHMM forudsiger transmembranproteinmotiver.
Indlæser resultater i SQLite-databasen
1. Når alle ovenstående analyser er gennemført, skal du køre bash-kommandoen for at indlæse outputfiler i en endelig SQLite-annotationsdatabase. Fjern eventuelle kommandoerTil analyser, der ikke blev kørt.
2. Eksporter SQLite-databasen til en .xls-fil til visning i populære bordvisere.

Representative Results

Når projektorganisationsfilerne er oprettet ( Figur 1 og 2 ), er den første opgave i denne arbejdsgang at vurdere de rå sekvensfiler, og derefter rense dem ved trimning og kvalitetsfiltrering. FastQC vil generere læselig summarisk statistik over kvalitetsresultaterne og længden af sekvenser fra FASTQ-filformatet. FastQC-tallene sammenlignes derefter før og efter trimning for at vurdere, om den endelige læsning er høj kvalitet og derfor egnet til montering. "Per basesekvenskvalitet" viser den gennemsnitlige kvalitet af læsninger på tværs af hvert basepar af sekventering. Det er bedst at have en phred kvalitets score over 20-28 angivet med farverne på FastQC figurer. "Per sekvens kvalitets score" bestemmer, om kvalitetsfiltrering af læsninger kan være nødvendigt. Hvis for mange læsninger har en gennemsnitlig score under 20-25, kan det være nødvendigt at filtrere baseret på gennemsnits læsekvalitet. "Per basesekvensindhold" skal vise en jævn fordeling på tværs af alle fire nukleotidbaser. Hvis der er forskydning i nukleotidindholdet, er det muligt at trimme ender. "Ved basis GC-indholdet skal også være ens på tværs af alle positioner. Hvis der er en wobble, kan det være nødvendigt at trimme afsnittene som i 1.4.4.3." Per sekvens GC-indhold "skal være en normal fordeling. Adapter eller polymerasekædereaktion (PCR ) Produkter kan kontaminere i sekventeringsbiblioteket og skæve den normale fordeling. I dette tilfælde kan adapter trimning være nødvendigt. "Sekvenslængdefordeling" giver gennemsnitslængderne af alle læsninger. Læs mindre end 35-45 basepar er normalt filtreret ud. "Sequence duplication levels" viser, hvor mange gange en given læsesekvens ses i biblioteket. Meget duplikeret læsesekvens og tælling findes i afsnittet "Overrepræsenterede sekvenser". FastQC forsøger også at identificere, om duplikeret læsesEr adapter sekvens eller andre kendte sekvenser forbundet med sekventeringsplatforme. Et mærke af "No Hit" betyder, at sekvensen skal undersøges yderligere ved hjælp af NCBI BLAST ^{6 for} at afgøre, om det er en biologisk relevant sekvens, eller om den skal fjernes. DE har også flere versioner af BLAST til rådighed. DE BLASTn appen er tilgængelig på: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Når rå sekventering er blevet screenet for at producere højkvalitetslæsninger, skal læsningerne samles for at skabe sammenhængende sekvenser (contigs). Kort sagt oprettes samlinger ved at tilpasse alle de korte sekvenser læses for at finde lignende sekvenser. Områder med lignende sekvens større end en bestemt længde anses for at være SAMig sekvens, fordi sandsynligheden for en tilfældigt forekommende lignende sekvens af en bestemt længde er næsten nul. Trinity udsender logfiler, faste filer til hvert trin i samleprocessen. Den vigtigste udgang er dog den endelige monteringsfil, der indeholder contigs, som er mærket "Trinity.fasta" og findes i hovedmappen. Denne fil indeholder alle de samlede contigs, og i sig selv er det ikke praktisk talt "menneskeligt læseligt." Derfor kan rnaQUAST værktøjet bruges til at forstå samlingen i dybden. Værktøjet rnaQUAST udsender figurer, der gør det muligt for brugerne at sammenligne enheder til at bestemme, hvilke er mest komplette ( figur 4 ). Yderligere oplysninger om hver figur fra rnaQUAST findes på wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Hvis BUSCO ⁷ blev kørt, er speciel interesse den specificity.txt fil, der viser antallet af komplette og pArtiale BUSCO gener og antallet af GeneMarkS-T gen forudsigelser i en samling. BUSCO gener er et kureret sæt af gener, der er fælles for en gruppe af organismer. De kan bruges til at vurdere, hvor godt en samling er ved at indfange sæt gener, der forventes at være til stede i en hvilken som helst form for organisme, som er baseret på fylogenetiske klader. En selvstændig BUSCO-app er også tilgængelig i DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

Differentiel genekspression analyse identificerer transkripter, der har forskellige udtryk for udtryk på tværs af behandlinger fra simple tællinger pr. Samlet transkript tabeller. DESeq2 bruger en generaliseret lineær model (GLM) til at bestemme variation fra et normaliseret gennemsnit. Eksperimenter med replikater foretrækkes således at teknisk variation frOm sekventering kan normaliseres af DESeq2-algoritmen. DESeq2 DEG analyse giver tal og en .html rapport fil, der indeholder alle output tal og en beskrivelse. Alternativt kan EdgeR bruges i stedet for DESeq2, og den samme .html-rapport vil blive genereret med EdgeR-visualiseringer i stedet. Forskere kan ønske at køre både DESeq2 og EdgeR for at finde differentielt udtrykte gener identificeret af begge algoritmer for et givet eksperiment. Trinotate vil oprette en output .xls-fil, der kan åbnes i et regnearksprogram. DEG .txt-filerne og annotation .xls-filen kan analyseres og visualiseres i adskillige downstream-applikationer, der eksisterer uden for CyVerse-platformen.

Figur 3
Figur 3: FastQC-rapporter af rå sekventering læser, trimmet read og endelig trimmet og filtreret læsning. Systematisk sammenligning af sekventering læsesS efter hvert forbehandlingstrin. Højkvalitetslæsninger er nødvendige for at samle de novo transkriptomer. FastQC kan hjælpe forskere med at forstå den indledende kvalitet af deres sekventeringsdata og spore, hvor effektivt læsningerne er blevet forarbejdet. Resultater fra FastQC afhænger af organismerne, og prøverne sekventeres, men ensartethed over alle prøver, der skal sammenlignes nedstrøms, er det primære mål for forbehandlingens læsning. En vejledning video og dokumentation er tilgængelig fra forfattere og udviklere af FastQC. Klik her for at se en større version af denne figur.

Figur 4
Figur 4: RNAQUAST Rapporter af tre separate forsamlinger. RnaQUAST kan bruges til at sammenligne flere læseanordninger ved hjælp af samme samler eller flere a Ssemblers bruger den samme indledende læsning. RnaQUAST udnytter BUSCO til at generere summariske statistikker om samlinger baseret på kendte kernegener til stede i taksonomiske klader. Antallet af fejlparametre pr transkript og hvor mange transkripter svarer til kanoniske gener, matchet fraktion, giver indsigt i montagernes nøjagtighed. De sidste fire delplotter, der præsenteres her, giver sammenfattende statistikker over contig og isoformlængde og dækningen af forventede isoformer. NAx repræsenterer procentdelen (x) af contigs med en længde længere end længden (bp) på y-aksen. Samlet fraktion er det længste enkeltmonterede transkript divideret med dets længde. Dækningsfraktion er procentdelen af komplette samlede transkripter / isoformer som forventet af de centrale prokaryote eller eukaryote gener fra BUSCO. En beskrivelse af alle grafer genereret af rnaQUAST er tilgængelig ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Venligst klik her for at se en større version af denne figur.

App navn	CyVerse Platform	Dokumentation fra tredjepart	CyVerse Dokumentation	Anslået Runtime for Sample Data Set	Link til App
FastQC	DE	http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 min	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatisk v0.33	DE	https://github.com/timflutre/trimmomatic	https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0,33	30 min	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 9c2a30dc-028d- 11e6-A915-ab4311791e69
Segl	DE	https://github.com/najoshi/sickle	https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 min	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Atmosfære	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosfære + Image	En uge	https: //atmo.iplantcollaborative. org / ansøgning / billeder / 1261
	DE		https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 dage	https: // Wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, Atmosfære	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https: //pods.iplantcollaborative. org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + baseret% 29 + med + DE	30 min	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352
Transdecoder	DE	https://transdecoder.github.io	https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 timer	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	DE	https://bioconductor.org/packages/release/bioc/html/DESeq2.html	https: //pods.iplantcollaborative. org / wiki / sider /viewpage.action? PageID = 28115142	2-3 timer	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621
edger	DE	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 timer	https: //de.iplantcollaborative. org / de /? type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621
Trinotate	Atmosfære	https://trinotate.github.io/	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosfære + Image	En uge	https: //atmo.iplantcollaborative. org / ansøgning / billeder / 1261

Tabel 1: Analyseprogrammer, platforme, de er tilgængelige på, aNd Yderligere ressourcer til rådighed for arbejdsgangen i orden efter første udseende. Alle pakkeversioner er aktuelle fra april 2016.

Discussion

Der er fem kritiske trin i protokollen, der hver især opretter deres egen separate mappe inde i hovedprojektmappen ( figur 1 og 2 ). Alle de primære rå-sekventeringsdata er uskadelige: den skal uploades og opbevares i den første mappe mærket "1_Raw_Sequence" og ændres ikke på nogen måde. Data kan uploades på en af tre måder. DE-grænsefladen kan bruges til at uploade filer direkte. Dette er den nemmeste måde at uploade data på, men det vil også tage længst tid at overføre. Cyberduck har en grafisk grænseflade og giver brugerne mulighed for at trække og slippe filer for at overføre til DE. ICommands er et kommandolinjeværktøj, som kan bruges til at overføre data til og fra datalageret, lave mapper og administrere datasæt, og det er sandsynligvis den hurtigste måde at overføre datafiler på. Alle data i datalageret kan deles med andre brugere af CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + miljø), offentliggjort via en genereret webadresse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), eller kan være vært for offentligt og anonymt ( Ingen brugernavn påkrævet) tilgængelige fællesskabsdata (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Inde i denne mappe analyseres de rå sekvenser med FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) for at vurdere, hvordan man trimmer og filtrerer læsningerne for at generere højkvalitetslæsninger. Efter trimning og kvalitetsfiltrering er det nyttigt at sammenligne FastQC-udgangene for at bestemme, om læsekvaliteten er ændret for at bestemme, at den er blevet bedre uden at miste information ( figur 3 ). Bemærk at xQ-aksen i FastQC ikke er lineær, men snarere er indad for mange outputgrafer, hvilket kan føre til fejlfortolkning af resultater. De trimmede og filtrerede læsninger bruges derefter til at samle de novo transkriptomer ved hjælp af en atmosfære cloud computing instans. Det herSky computer bruger den lokale computerskærm, tastatur og mus, men har sin egen software (Trinity og Trinotate) og hardware installeret. Løbende programmer på cloudcomputer-forekomsten påvirker ikke den lokale computer på nogen måde. De novo samling og downstream annotation vil sandsynligvis være de to længste trin i denne workflow. Derfor afsluttes de på atmosfæren for at undgå almindelige lab-delte computerproblemer, der ville afbryde analysen som strømbrud, genstarte efter automatiske opdateringer i efterladte eller i tilfælde af sammenbrud forårsaget af andre brugere. Trinotat-annotation anvender BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ og PFAM ¹¹ . Den endelige udgave af annotationen er en SQLite database og en .xls fil. Udgangene kan bruges udenfor CyVerse i downstream analyse platforme som KEGG ¹² ^, ¹³ .

Denne arbejdsgangEr klar til brug i DE og Atmosphere. Dette eliminerer behovet for at bruge tid på at installere, konfigurere og fejlfinding hver analysepakke og alle afhængigheder, som hvert værktøj kræver. Dette strømlinjeformer forskernes analyser, minimerer spildt indsats og sænker adgangsbarrieren for mange forskere. Denne workflow samler specifikt enten single- eller paired-end fra Illumina-sekventeringsplatformen, men mange værktøjer findes i DE og Atmosphere til at håndtere andre former for sekventeringsteknologier. Værktøjer i denne workflow kan nemt erstattes med et tilsvarende alternativt værktøj til at håndtere enhver form for indgående sekventeringsteknologi. Dette gælder også for nye versioner af analyseværktøjer eller helt nye værktøjer.

Denne arbejdsgang er specielt designet til at samle, sammenligne og annotere kun nogle få transkriptomer ad gangen. Derfor kan brugerne finde tidskrævende at samle flere transkriptomer til komparativ population genetik. AnalyseRørledninger vil være tilgængelige for befolkningen genetik brugere i den nærmeste fremtid og linket til rørledningen kan findes på wiki siden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Differentielle genekspression analyse trin kan håndtere replikater, men det er en parvis sammenligning og vil ikke nøjagtigt vurdere flere faktorer ( fx betingelser, der varierer over tid, mere end to behandlinger). Automatiske arbejdsgange eksisterer for organismer med referencegener ( fx TRAPLINE ¹⁴ ). Selvom automatiserede arbejdsgange er det nemmeste at bruge til nybegyndere, kræver de novo forsamlinger vurdering og overvejelse for hvert trin, der er skitseret her. Derudover er brugerne forpligtet til at anvende automatiserede rørledninger, som de er konstrueret, og er derfor iboende ikke fleksible til at imødekomme brugerens skiftende krav.

Da den meste af denne protokol udføres via internettet, kan brugerne opleve problemer med deres browserindstillinger. For det første,Popup-blokkere kan holde vinduerne åbent overhovedet, eller kan holde vinduerne åbent, indtil CyVerse er tilladt i browseren. Atmosfære bruger VNC til at få adgang til fjernbetjeninger, men anden software kan bruges. Hele denne protokol blev udført i Firefox version 45.0.2 og skal fungere sammen med alle populære internetbrowsere, men nogle inkonsekvenser kan forekomme. Arbejdsstrømmen opdateres, da Trinity udgiver nye versioner (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De nyeste versioner og opdaterede oplysninger om workflow findes på wiki-vejledningssiden ( Tabel 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Brugere kan kontakte support direkte eller sende spørgsmål på Ask CyVerse (ask.cyverse.org/) for at fejle eventuelle problemer med workflow.

I DE findes der flere apps for at gennemføre hvert trin i denne protokol. For eksempel kan brugere ønsker at køre Scythe (https://github.com/najoshi/sickle) i stedet for Trimmomatic¹⁵ for læsning eller kørsel EdgeR ¹⁶ i stedet for DESeq ¹⁷ ^, ¹⁸ . Selv uden for dette manuskripts anvendelsesområde kan DE apps kopieres, redigeres og udgives af brugere (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) eller nye apps kan tilføjes af brugere (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Miljøet). Atmosfæren billeder kan også ændres og reimaged for at skabe nye eller ændrede workflows, der matcher brugernes behov mere specifikt (https://wiki.cyverse.org/wiki/x/TwHX). Dette arbejde tjener som en introduktion til at udnytte kommandolinjen til at flytte data og udføre analyser. Brugere kan overveje at udnytte mere avancerede kommandolinje ressourcer, såsom CyVerse Application Programming Interfaces (API'er) (http://www.cyverse.org/science-apis) eller at designe deres egne DE apps, som kræver videnOm, hvordan analyseværktøjet køres på kommandolinjen (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261