Genetics

Utnyttelse av CyVerse Resources for Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Denne arbeidsflyten tillater nybegynnelige forskere å utnytte avanserte beregningsmessige ressurser, for eksempel cloud computing, for å utføre parvis komparative transcriptomics. Det tjener også som grunnlag for biologer å utvikle datavitenskapsmessige beregningsevner, for eksempel å utføre bash-kommandoer, visualisering og styring av store datasett. Alle kommandolinjekoder og ytterligere forklaringer for hver kommando eller trinn kan bli funnet på wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Environment og Atmosphere plattformene er koblet sammen gjennom CyVerse Data Store. Som sådan, når først de opprinnelige råe sekvenseringsdataene er lastet opp, er det ikke lenger behov for å overføre store datafiler over en Internett-tilkobling, noe som minimerer mengden tid som trengs for å utføre analyser. Denne protokollen er laget for å analysere bare to eksperimentelle behandlinger eller forhold. Differensiell genekspresjonsanalyse utføres thrRaske parvise sammenligninger, og vil ikke være egnet til å teste flere faktorer. Denne arbeidsflyten er også utformet for å være manuell i stedet for automatisert. Hvert trinn må utføres og undersøkes av brukeren, noe som gir bedre forståelse av data og analytiske utganger, og dermed bedre resultater for brukeren. Når dette er fullført, vil denne protokollen gi de novo sammenføyde transkriptom (er) for underserved (ikke-modell) organismer uten at det må kartlegges til tidligere samle referansegener (som vanligvis ikke er tilgjengelige i underbevart organisme). Disse de novo transkriptomer benyttes videre i parvis differensiell genuttrykksanalyse for å undersøke gener som varierer mellom to eksperimentelle forhold. Differensielt uttrykte gener blir deretter funksjonelt annotert for å forstå at genetiske responsorganismer har til eksperimentelle forhold. I alt brukes dataene fra denne protokollen til å teste hypoteser om biologiske responser av underverdiorganismer.

Introduction

Homo sapiens og flere nøkkelmodell dyrearter som Drosophila melanogaster , Mus musculus og Danio rerio representerer flertallet av nåværende og tidligere funksjonelle genomics arbeid. Imidlertid gir den raskt avtagende kostnaden for høy-gjennomgående sekvenseringsteknologi muligheter for funksjonell genomikk i ikke-modell ( aka "neglisjert" eller "underverdig") dyreart ¹ . Dette er en viktig overgang i genomikk fordi ikke-organismeorganismer representerer ofte økonomisk relevante arter ( f.eks østers, reker, krabbe) og gir muligheter til å undersøke nye fenotyper og biologiske systemer utenfor omfanget av de som finnes i modellarter.

Selv om underserverte organismer gir en attraktiv mulighet til å undersøke unike biologiske systemer, møter flere utfordringer forskere spesielt under bioinformatisk analyse. Noen avSe utfordringer er medfødt i å behandle store datasett, mens andre skyldes mangelen på genetiske ressurser som er tilgjengelige for forskere som arbeider i underserverte organismer som et referansegenom, organisasjonspesifikke ontologier, etc. Utfordringene med nukleinsyreisolasjon og sekvensering er ofte rutinemessige i Sammenligning med dataanalysen, og som sådan viser bioinformatiske analyser generelt å være den mest undervurderte kostnaden for sekvenseringsprosjekter ² . For eksempel kan en grunnleggende neste generasjons sekvenserings bioinformatisk analyse bestå av følgende trinn: kvalitetsfiltrering og trimning av rå sekvensering leser, samling av korte leser i større sammenhengende stykker og annotering og / eller sammenligninger med andre systemer for å få biologisk forståelse. Selv om det er så enkelt, krever dette eksemplet arbeidsflyten spesialitetskunnskap og beregningsmessige ressurser utover omfanget av en lab-benk-datamaskin, og legger den utenfor rekkevidde av mange forskere som studerer ikke-Modellorganismer.

Innate utfordringer kan være infrastruktur- eller kunnskapsbasert. En klassisk infrastrukturutfordring er tilgang til passende beregningsmessige ressurser. For eksempel er montering og annotering avhengig av beregningsintensive algoritmer som krever kraftige datamaskiner eller dataklynger, som har stor mengde RAM (256 GB-1 TB) og flere prosessorer / kerner å kjøre. Dessverre har mange forskere heller ikke tilgang til slike databehandlingsressurser eller har ikke den kunnskapen som trengs for å samhandle med disse systemene. Andre forskere kan ha tilgang til høyytende databehandlingsklynger gjennom sine universiteter eller institusjoner, men tilgangen til disse ressursene kan være begrenset og noen ganger resulterer i kostnader per beregningstid, det vil si antall CPU-prosessorer multiplisert med antall sanntidsklokker Timer "som de prosessorene kjører. Utnyttelse av et cyberinfrastruktur-system finansiert av US National Science Foundation sUka som CyVerse ³ som gir fri tilgang til beregne ressurser for forskere, i USA og rundt om i verden, kan bidra til å lette infrastrukturutfordringer, slik det blir demonstrert her.

Et eksempel på en typisk kunnskapsbasert utfordring er å forstå programvaren som trengs for fullstendige analyser. For å effektivt gjennomføre et sekvenseringsbasert prosjekt, må forskere være kjent med de utallige programvareverktøyene som er utviklet for bioinformatiske analyser. Å lære hver pakke er vanskelig i sin egen rett, men forverres av at pakkene kontinuerlig oppgraderes, gjenleveres, settes sammen i nye arbeidsflyter, og noen ganger blir begrenset til bruk under nye lisenser. I tillegg krever kobling av inngangene og utgangene til disse verktøyene noen ganger omforming datatyper for å gjøre dem kompatible, og legge til et annet verktøy i arbeidsflyten. Endelig er det også vanskelig å vite hvilken programvarepakke det erE best "for en analyse, og ofte identifisering av den beste programvaren for spesielle eksperimentelle forhold er et spørsmål om subtile forskjeller. I noen tilfeller er nyttige anmeldelser av programvare tilgjengelig, men på grunn av fortsatt utgivelse av nye oppdateringer og programvarealternativer, går disse raskt ut av dato.

For forskere som undersøker underserverte organismer, kommer disse medfødte utfordringene i tillegg til utfordringene forbundet med å analysere data i en ny organisme. Disse underordnede organisme-spesifikke utfordringene illustreres best under genannotering. For eksempel har underserverte organismer ofte ikke en nært besluttet modellorganisme som med rimelighet kan brukes til å identifisere gen-ortologi og funksjon ( f.eks. Marine hvirvelløse dyr og Drosophila ). Mange bioinformatiske verktøy krever også "trening" for å identifisere strukturelle motiver, som kan brukes til å identifisere genfunksjon. Imidlertid er treningsdata vanligvis kun tilgjengelig for modEl-organismer, og trening av skjulte Markov-modeller (HMM) er utenfor biologer, og til og med mange bioinformatikere. Til slutt, selv om merknader kan utføres ved bruk av data fra modellorganismer, er det ikke noen mening om gen-ontologier assosiert med modellorganismer når biologien og naturhistorien til den undersjente organismen vurderes ( f.eks . Overføring av informasjon fra Drosophila til reker).

I lys av disse utfordringene må bioinformatiske ressurser utvikles med forskere som gjennomfører de novo- analyser på underordnede organismer spesielt i tankene. De neste årene av funksjonelle genomiske sekvenseringsprosjekter vil bidra til å lukke gapet mellom modell og underserverte organismer ( https://genome10k.soe.ucsc.edu/ ), men det er mange verktøy som må utvikles for å løse utfordringene Vurdert ovenfor. CyVerse er dedikert til å skape økosystemer av jegNteroperability ved å koble eksisterende cyberinfrastruktur og tredjeparts applikasjoner for å levere datastyring, bioinformatiske analyseværktøy og datavisualiseringer til livforskere. Interoperabilitet bidrar til å jevne overgangene mellom bioinformatiske applikasjoner og plattformer ved å gi skalerbare databehandlingsressurser, og begrense konverteringer av filformat og mengden data som overføres mellom plattformer. CyVerse tilbyr flere plattformer, inkludert Discovery Environment (DE ⁴ , Atmosphere ⁵ , og datalageret 3) .Den er nettbasert og har mange vanlige bioinformatikkanalytiske verktøy konvertert til brukervennlige punkt-og-klikk-formater (kalt "apps "), Og er det grafiske brukergrensesnittet (GUI) for datalageret hvor store datasett ( dvs. rå sekvensering leser, samle genene) lagres og administreres. Atmosfære er en cloud computing-tjeneste som gir forskere økt fleksibilitet forBruker virtuelle maskinberegningsressurser, som har et stort utvalg av bioinformatikkverktøy forhåndsinstallert. Begge disse plattformene er koblet til datalageret, og kan brukes sammen for å skape arbeidsflyter som det som er beskrevet her. Denne rapporten fokuserer på en de novo transkriptom montering og differensial genuttrykk analyse arbeidsflyter, og adresserer videre noen gode praksis knyttet til utvikling og gjennomføring av bioinformatiske analyser. En forklaring på CyVerse's bredere oppdrag ( http://www.cyverse.org/about ) og detaljerte plattformbeskrivelser ( http://www.cyverse.org/learning-center ) er offentlig tilgjengelig. Alle analysene beskrevet her bruker Discovery Environment ⁴ (DE) og Atmosphere ⁵ , og presenteres på en måte som gjør dem tilgjengelige for forskere av alle beregningsnivåer. DE arbeidsflyter og AtmosphBilder kan refereres direkte ved hjelp av nettadresser for å sikre langsiktig herkomst, gjenbrukbarhet og reproduserbarhet.

Protocol

MERK: Den overordnede protokollen er nummerert i henhold til mapper som vil bli opprettet og oppkalt i trinn 1.2 ( figur 1 og 2 ). Denne protokollen representerer en standard sammenlignende de novo transkriptome analyse, og hvert trinn som er detaljert her, er kanskje ikke nødvendig for alle forskere. Denne arbeidsflyten er dokumentert grundig på en veiledningspakke med wiki, som også inneholder alle tilleggsfiler og lenker til dokumenter av interesse for ^tredje part-utviklere for hver analysepakke ( tabell 1 ). Lenker til dette materialet vil bli inkludert i denne protokollen for enkel tilgang til denne informasjonen. Beste praksis er notater som tilbys til brukere som forslag til den beste måten å utføre oppgaver på eller for brukere å vurdere, og vil bli kommunisert gjennom notater i protokollen. En mappe med eksempelvis datainngang og analytisk utgang er offentlig tilgjengelig for brukere, og er organisert som foreslått i protokollen ( de novo

1. Konfigurer prosjektet, last opp Raw Sequencing, og vurder leser ved hjelp av FastQC

Få tilgang til atmosfære og discovery miljøet.
1. Be om en gratis CyVerse-konto ved å navigere til registreringssiden ( f.eks person@institution.edu).
2. Fyll inn den nødvendige informasjonen og send inn.
3. Naviger til hovedsiden (http://www.cyverse.org/), og velg "Logg inn" øverst på verktøylinjen. Velg "Cyverse Login" og logg inn med din CyVerse-legitimasjon.
4. Naviger til kategorien Apps og tjenester, og be om tilgang til atmosfære. Tilgang til Discovery Environment blir automatisk gitt.
Konfigurer prosjektet og flytt data til datalageret.
1. Logg inn i Discovery Environment (https://de.iplantcollaborative.org/de). Velg kategorien "Data" for å få fram en meny som inneholder alle mappene i datalageret. Opprett en hovedprosjektmappe som vil huse alle dataene som er knyttet til prosjektet. Finn verktøylinjen øverst i datafeltet og velg Arkiv | Ny mappe. Ikke bruk mellomrom eller spesialtegn i mappenavnene eller noen inn / ut filnavn, f.eks. "! @ # () [] {}:; $% ^ & *." I stedet bruker du underskrifter eller bindestreker, dvs. "_" eller "-" når det er aktuelt.
2. Opprett fem mapper i hovedprosjektmappen for å organisere analyser ( Figur 1 ) Navn mappene som følger uten komma eller anførselstegn: "1_Raw_Sequence," "2_High_Quality_Sequence," "3_Assembly," "4_Differential_Expression," "5_Annotated_Assembly." Undermapper blir plassert i hver av disse hovedprosjektmappene ( figur 2 ).

Figur 1
Figur1: En generell oversikt over Project Folder Organization og De Novo Transcriptome Assembly og Analysis Workflow. Brukere vil laste opp rå sekvensering, leser inn i hovedprosjektmappen på datalageret, og deretter plasserer resultatene fra hvert trinn til separate mapper. Vennligst klikk her for å se en større versjon av denne figuren.

Figur 2
Figur 2: En detaljert oversikt over De Novo Transcriptome Assembly og Analysis Workflow som forekommer innenfor CyVerse Cyberinfrastructure. Hele samlings- og analysearbeidet vil bli fullført i fem trinn, som hver får sin egen mappe (fet, nummerert mappeikoner). Hver av de fem nummererte arbeidsflyt-trinnmappene har undermapper som inneholder utdata fra bioinformatiske analyser (mappeikoner). Inngang for analyse kommer fra en undermappe og deretter flytte inn i en annen mappe gjennom utgangen av et analyseprogram (rektangulære bokser). De endelige dataene fra de tre første trinnene blir sammenlignet og forberedt for publisering. I siste instans gir denne ordningen en hovedprosjektmappe som har trinnvis analyse for samarbeidspartnere, og / eller manuskriptbehandlere kan raskt forstå arbeidsflyten og gjenta det ved å bruke hver fil om nødvendig. Vennligst klikk her for å se en større versjon av denne figuren.

Last opp raske FASTQ-sekvensfiler i mappen "1_Raw_Sequence" i en undermappe med tittelen "A_Raw_Reads" ved hjelp av en av følgende tre metoder.
1. Bruk Dataopplastingsfunksjonen for datalager til å navigere til verktøylinjen Datavindu ved å klikke på dataknappen i hoveddisplayet i DE, og velg Last opp | Enkel opplasting fra skrivebordet. Velg Bla gjennom-knappenFor å navigere til de raske FASTQ-sekvenseringsfilene på den lokale datamaskinen. Denne metoden er kun egnet for filer under 2 GB.
2. Velg Opplast-knappen nederst på skjermen for å sende inn opplastingen. Et varsel vil registrere seg øverst til høyre i DE i klokkeikonet som opplastingen er sendt inn. Et annet varsel vil registrere når opplastingen er fullført.
3. Alternativt kan du bruke Cyberduck til å overføre større filer (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installer Cyberduck og kjør som et program på den lokale datamaskinens skrivebord.
4. Til slutt, last ned iCommands og installer på den lokale datamaskinen i henhold til instruksjonene (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Vurdere opplastet, rå sekvensering leser ved hjelp av FastQC-appen i DE.
1. Velg "Apps" -knappen på hoveddisplayet for DE for å åpne et vindu som inneholder alle analysappene som er tilgjengelige i DE.
2. Søk og åpne seierenDow for FastQC-verktøyet i søkeverktøylinjen øverst i vinduet. Åpne multi-filversjonen hvis det er mer enn én FASTQ-fil. Velg Fil | Ny mappe for å lage en mappe med navnet "B_FastQC_Raw_Reads" og velg denne mappen som utdatamappe.
3. Legg inn FASTQ-lesfilene i verktøylinjen kalt "Velg inngangsdata" og velg "Start analyse".
4. Åpne .html eller .pdf-filen for å se resultatene når analysen er fullført. FastQC kjører flere analyser som tester forskjellige aspekter av lesefilene ( figur 3 ).

2. Trim og kvalitet Filter Raw leser for å gi høy kvalitetssekvens

Merk: Bruk enten Trimmomatic app eller Sickle app.

Søk etter den programmerbare Trimmomatic-appen i DE og åpne den som før.
1. Last opp mappen med rå FASTQ lese filer i "Innstillinger" delen.
2. Velg om seenQuencing-filer er single- eller paired-end.
3. Bruk standard kontrollfilen ved å velge Browse-knappen og lime inn / iplant / home / shared / Trinity_transdecoder_trinotate_databases i "Viewing:" -boksen. Velg filen Trimmomaticv0.33_control_file og start analysen. Filen kan lastes ned, innstillingene er redigert, og deretter lastet opp i den andre prosjektmappen for å lage et tilpasset trimmingsskript.
4. Valgfritt: Hvis FastQC-analysen identifiserte adapter-sekvenser, bruk ILLUMINACLIP-innstillingen til å trimme Illumina-adaptere. Velg riktig adapterfil i mappen / iplant / hjem / delt / Trinity_transdecoder_trinotate_databases som ovenfor.
Kvalitets trimingssekvensen leser med Sickle.
1. Søk og åpne Sickle-appen i DE. Velg trimmet FASTQ leser som input leser, og endre navn på utdatafiler. Inkluder kvalitetsinnstillinger i alternativene. Typiske innstillinger er Kvalitetsformat: illumina, sanger, solexa; Kvalitet tTerskel: 20; Minimum lengde: 50.
2. Flytt all utgang til trimmet og filtrert mappe (2_High_Quality_Sequence).
Vurder den endelige lesingen ved hjelp av FastQC og sammenlign med tidligere FastQC-rapporter. Velg .html-filen for å få opp en nettside for alle resultater. Velg mappen for bildefiler (.png) som er oppgitt i utgangen hvis den ikke kan vises.

3. De Novo Transcriptome Assembly ved hjelp av Trinity i atmosfæren

Åpne den nyeste versjonen av Atmosphere-forekomsten ved å navigere til wikisiden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Velg lenken for den nyeste versjonen av Trinity og Trinotate-bildet. Alternativt kan du søke "Trinotate" i Atmosphere Image Search Tool (https://atmo.iplantcollaborative.org/application/images) for å få opp alle versjoner av Trinity and Trinotate-bildene.
1. Velg "Logg inn for å starte" -knappen, og velg deretter Atmosfæren instance.
2. Velg en forekomststørrelse på enten "medium3" (CPU: 4, Mem: 32GB) eller "big3" (CPU: 8, Mem: 64 GB). Start forekomsten, og vent på at den skal bygge. I noen sjeldne tilfeller gjennomgår CyVerse vedlikehold for å oppdatere plattformer. Eksisterende forekomster er tilgjengelige under disse oppdateringene, men det kan ikke være mulig å opprette nye forekomster. Gå til CyVerse Status-siden for å se den nåværende tilstanden til en hvilken som helst plattform (http://status.cyverse.org/).
Åpne forekomsten når den er klar ved å klikke på navnet og deretter velge "Eksternt skrivebord" nederst på menyen til høyre. Tillat Java og VNC Viewer hvis du blir spurt. Velg "Koble" -knappen i VNC Viewer-vinduet, og velg deretter "Fortsett".
1. Logg inn for å åpne et eget vindu som vil være den nye cloud computing-forekomsten.
2. Flytt de trimmede og / eller filtrerte FASTQ-lesfilene til forekomsten ved å bruke en av de tre metodene som er beskrevet i trinn 1.3.1 - 1.3.4. OssE nettleseren for å få tilgang til DE og laste ned filer som tidligere på den lokale datamaskinen. Eller bruk iCommands installert på disse bildene for raskt å overføre store datasett.
Running Trinity å samle høy kvalitet leser.
1. Sett opp analysemappen på atmosfæren-forekomsten. Bruk skriptet tilgjengelig i DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller kopier og lim inn kommandoer fra wiki-siden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Forklaring på alle kommandoer finnes på wikisiden.
2. Når analysemappen og Trinotat-databasene er etablert, kjør Trinity Assembler ved hjelp av kommandoene ovenfor. Det er flere utdatafiler, men det viktigste er den endelige monteringsfilen "Trinity.fasta." Endre navn på denne FASTA-filen for å være unik for organismen, og behandling av den samlede lesingen før du flytter den inn i Data Store (mappe 3_Assembly) for å minimere potensiell forvirring.
  MERK: Output teller tabeller for differensiell genuttrykksanalyse i en mappe (4_Differential_Expression).
Vurder sammenstillingen med rnaQUAST ( Figur 4 ).
1. Flytt Trinity-utdatafilene i mappen "3_Assembly" i DE og merk mappen "A_Trinity_de_novo_assembly." Gi hvert transkriptom som ble samlet en undermappe inne i mappen "A_Trinity_de_novo_assembly" med unike navn, inkludert det vitenskapelige navnet på organismer og behandlinger assosiert med hvert transkriptom. Opprett en annen undermappe kalt "B_rnaQUAST_Output" i "3_Assembly-mappen."
2. Åpne appen med tittelen "rnaQUAST 1.2.0 (denovo-basert)" og navngi analysen og velg "B_rnaQUAST_Output" som utdatamappe.
  1. Legg til de novo forsamlingen FASTA fil (er) til "Data Input" -delen. I delen "Data Output" skriver du inn et unikt navn for de novo
3. Velg flere alternativer i avsnittene "GenemarkS-T Gene Prediction", "BUSCO" og "Parameters".
  1. Velg prokaryote i "GenemarkS-T Gene Prediction" -delen hvis organismen ikke er eukaryotisk.
  2. Kjør BUSCO for å velge blaeknappen og kopier banen iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data i boksen "Viewing:" og trykk enter. Velg den mest spesifikke BUSCO-mappen som er tilgjengelig for organismen.
    MERK: BUSCO vil vurdere samlingen for linjespesifikke kjernegener, og utdata hvilken prosentandel av kjernegener som er funnet. Det finnes generelle mapper, for eksempel eukaryote, og mer spesifikke linjer, f.eks. Arthropoda.
Søk etter "Transcript decoder" og kjør Transdecoder på de novO Trinity assembly output FASTA fil i Discovery Environment.
Flytt utdata .pep-filen til mappen de novo assembly (3_Assembly) for bruk i trinn 5-notat.

4. Pairwise Differential Expression Bruke DESeq2 i DE

Åpne DESeq2 appen i DE som beskrevet tidligere. Navngi analysen og velg utdatamappen som 4_Differential_Expression.
I delen "Inputs", velg talltabellfilen fra Trinity Assembly Run og kolonnen som Contig-navnene kan bli funnet i den telle tabellen.
Skriv inn kolonneoverskriftene fra telletabellfilen for å finne ut hvilke kolonner som sammenlignes. Ta med kommaene mellom hver av betingelsene. Ikke ta med den første kolonneoverskriften som inneholder contig-navnene.
For replikater, gjenta det samme navnet ( f.eks . Treatment1rep1, Treatment1rep2, Treatment1rep3 blir Behandling1, Behandling1, Behandling1). I thE andre linje, oppgi navnene på de to forholdene som skal sammenlignes ( f.eks . Behandling1, Behandling2). Match kolonneoverskriftnavnene som er oppgitt i første linje.
MERK: Disse kolonneoverskriftene må være alfanumeriske og kan ikke inneholde noen spesialtegn.

5. Anmerkning ved bruk av trinotat

Kjør hver del av Trinotate i atmosfæren cloud computing-forekomsten. Merk: Bash kommandoer leveres i en txt-fil som skal kopieres, limes og endres før de kjøres på DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller på wikisiden (https://wiki.cyverse.org/ wiki / x / dgGtAQ). Hvis du annoterer flere samlinger, annotere hver forsamling en om gangen, og overfør deretter fullførte annotasjonsfiler tilbake til mappe "5_Annotation" hver med en unik mappe som svarer til forsamlingsnavnet.
1. Kjør bash-kommandoen for å søke Trinity-transkripsjoner. Endre antall tråder for å matche hvor mange CPUer som erPå forekomsten, dvs. medium har 4 CPUer og stor har 8 CPUer. Se trinn 3.1.2 for flere detaljer. Endre kommandoen Trinity.fasta for å matche forsamlingen FASTA filnavn.
  MERK: BLAST + søk vil kreve mest tid. Det kan være dager før det fullføres. Cloud-aktivitetene kan kontrolleres i atmosfære uten å måtte ta opp VNC Viewer.
2. Kjør bash-kommandoen for å søke Transdecoder-spådde proteiner. Som tidligere, endre trådenummer og filnavn for å matche betingelsene i 5.2.1.
3. Kjør bash-kommandoen for HMMER og endre antall tråder som ovenfor.
4. Kjør bash-kommandoen for signalP og tmHMM hvis nødvendig. SignalP vil forutsi signalpeptider og tmHMM forutsier transmembranproteinmotiv.
Laster inn resultater i SQLite-databasen
1. Når alle de ovennevnte analysene er fullført, kjør bash-kommandoen for å laste utdata-filer inn i en endelig SQLite-annotasjonsdatabase. Fjern eventuelle kommandoerFor analyser som ikke ble kjørt.
2. Eksporter SQLite-databasen til en .xls-fil for visning i populære tabellvisere.

Representative Results

Når prosjektorganisasjonsfilene er opprettet ( Figur 1 og 2 ), er den første oppgaven i denne arbeidsflyten å vurdere de røde sekvenseringsfilene, og deretter rense dem ved trimning og kvalitetsfiltrering. FastQC vil generere menneskelig lesbar oppsummeringsstatistikk om kvalitetspoengene og lengden på sekvenser fra FASTQ filformatet. FastQC-tallene blir deretter sammenlignet før og etter trimning for å vurdere om de endelige lesene er av høy kvalitet og derfor egnet for montering. "Per basesekvenskvalitet" viser gjennomsnittskvaliteten av leser på tvers av hvert basepar av sekvensering. Det er best å ha en phred kvalitetspoeng over 20-28 angitt av fargene på FastQC-tallene. "Per sekvens kvalitetspoeng" bestemmer om kvalitetsfiltrering av lese kan være nødvendig. Hvis for mange leser har en gjennomsnittlig poengsum under 20-25, kan det være nødvendig å filtrere basert på gjennomsnittlig lesekvalitet. "Per basesekvensinnhold" bør vise en jevn fordeling over alle fire nukleotidbaser. Hvis det er bias i nukleotidinnholdet er vist, kan det være nødvendig å trimme ender. "Per basis GC-innholdet bør også være jevnt i alle posisjoner. Hvis det er en wobble, må lesene bli trimmet som i 1.4.4.3." Per sekvens GC-innhold "bør være en normal fordeling. Adapter eller polymerasekjedereaksjon (PCR ) Produkter kan forurense i sekvenseringsbiblioteket og skje den normale fordeling. I dette tilfellet kan adapter trimming være nødvendig. "Sekvenslengdefordeling" gir gjennomsnittlig lengde av alle leser. Leser mindre enn 35-45 basepar blir vanligvis filtrert ut. "Sekvens dupliseringsnivåer" viser hvor mange ganger en bestemt lese-sekvens er sett i biblioteket. Meget duplisert lese-sekvens og telle er gitt i delen "Overrepresented sequences". FastQC forsøker også å identifisere om dupliseringen leserEr adapter-sekvens eller andre kjente sekvenser assosiert med sekvenseringsplattformer. En etikett av "No Hit" betyr at sekvensen skal undersøkes videre ved hjelp av NCBI BLAST ^{6 for} å avgjøre om det er en biologisk relevant sekvens, eller om den skal fjernes. DE har også flere versjoner av BLAST tilgjengelig. DE BLASTn-appen er tilgjengelig på: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Etter at rå sekvensering har blitt vist for å produsere høy kvalitet, må lesene samles for å lage sammenhengende sekvenser (contigs). Kort sagt, samlinger er opprettet ved å tilpasse alle de korte sekvensene leser for å finne lignende sekvenser. Områder med lignende sekvens større enn en bestemt lengde anses å være SAMeg sekvens fordi sannsynligheten for en tilfeldig forekommende lignende sekvens av en viss lengde er nesten null. Trinity vil sende loggfiler, fastfiler for hvert trinn i monteringsprosessen. Den viktigste utdata er imidlertid den endelige monteringsfilen som inneholder contigs, som er merket "Trinity.fasta" og funnet i hovedmappen. Denne filen inneholder alle de samlede contigs, og i seg selv er det ikke praktisk talt "menneskelig lesbar". Derfor kan rnaQUAST-verktøyet brukes til å forstå samlingen i dybden. RnaQUAST-verktøyet vil utgjøre figurer som vil tillate brukere å sammenligne enheter for å bestemme hvilke som er mest komplette ( figur 4 ). Ytterligere informasjon om hver figur fra rnaQUAST finnes på wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Hvis BUSCO ⁷ ble kjørt, har spesiell interesse spesifisitet.txt-filen som viser antall komplette og pArtiale BUSCO-gener og antall GeneMarkS-T-genspådommer i en samling. BUSCO-gener er en kurert sett med gener som er felles for en gruppe organismer. De kan brukes til å vurdere hvor godt en samling er å fange sett av gener som forventes å være til stede i en hvilken som helst type organisme, som er basert på fylogenetiske klader. En frittstående BUSCO-app er også tilgjengelig i DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

Differensiell genekspresjonsanalyse identifiserer transkripsjoner som har forskjellige uttrykksmønster på tvers av behandlinger fra enkle teller per samlet transkripttabell. DESeq2 bruker en generalisert lineær modell (GLM) for å bestemme variasjon fra et normalisert gjennomsnitt. Eksperimenter med replikater foretrekkes slik at teknisk variasjon frOm sekvensering kan normaliseres av DESeq2-algoritmen. DESeq2 DEG-analyse gir tall og en .html-rapportfil som inneholder alle utgangstallene og en beskrivelse. Alternativt kan EdgeR brukes i stedet for DESeq2, og den samme .html-rapporten vil bli generert med EdgeR-visualiseringer i stedet. Forskere kan ønske å kjøre både DESeq2 og EdgeR for å finne differensielt uttrykte gener identifisert av begge algoritmer for et gitt eksperiment. Trinotate vil opprette en .xls-fil som kan åpnes i et regnearksprogram. DEG .txt-filene og annotasjonen .xls-filen kan analyseres og visualiseres i mange nedstrømsapplikasjoner som eksisterer utenfor CyVerse-plattformen.

Figur 3
Figur 3: FastQC-rapporter av rå sekvensering leser, trimmet leser, og endelig trimmet og filtrert leser. Systematisk sammenligning av sekvensering lesesS etter hvert forbehandlingstrinn. Høy kvalitet leser er nødvendig for å samle de novo transkriptomer. FastQC kan hjelpe forskere til å forstå den opprinnelige kvaliteten på deres sekvenseringsdata, og spore hvor effektivt lesingene har blitt forhåndsbehandlet. Resultater fra FastQC vil avhenge organismer og prøver blir sekventert, men likhet i alle prøver som skal sammenlignes nedstrøms er det primære målet med forbehandling. En opplæringsvideo og dokumentasjon er tilgjengelig fra forfattere og utviklere av FastQC. Vennligst klikk her for å se en større versjon av denne figuren.

Figur 4
Figur 4: RNAQUAST Rapporter av tre separate forsamlinger. RnaQUAST kan brukes til å sammenligne flere lesesamlinger med samme samler, eller flere a Ssemblers bruker samme innledende leser. RnaQUAST utnytter BUSCO til å generere sammendragsstatistikker om sammenstillinger basert på kjente kjernegener tilstede i taksonomiske klader. Antall mismatches per transkripsjon og hvor mange transkripsjoner matche til canonical gener, matchet brøkdel, gir innblikk i nøyaktighet av montører. De siste fire delplottene som presenteres her, gir sammendragsstatistikk over konjunktur og isoformlengde og dekning av forventede isoformer. NAx representerer prosentandelen (x) av contigs med en lengde lengre enn lengden (bp) på y-aksen. Samlet fraksjon er det lengste enkeltmonterte transkriptet dividert med lengden. Dekket brøkdel er prosentandelen av komplekse samlede transkripsjoner / isoformer som forventet av de kjerne-prokaryote eller eukaryote gener fra BUSCO. En beskrivelse av alle grafer generert av rnaQUAST er tilgjengelig ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Vennligst klikk her for å se en større versjon av denne figuren.

Appnavn	CyVerse Platform	Dokumentasjon fra tredjepart	CyVerse Dokumentasjon	Beregnet Runtime for Sample Data Set	Link til App
FastQC	DE	http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 min	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatisk v0.33	DE	https://github.com/timflutre/trimmomatic	https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0,33	30 min	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 9c2a30dc-028d- 11e6-A915-ab4311791e69
Sickle	DE	https://github.com/najoshi/sickle	https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 min	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Atmosfære	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + Bilde	1 uke	https: //atmo.iplantcollaborative. org / søknad / bilder / 1261
	DE		https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 dager	https: // Wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, atmosfære	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https: //pods.iplantcollaborative. org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + basert% 29 + ved hjelp + DE	30 min	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352
Transdecoder	DE	https://transdecoder.github.io	https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 timer	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	DE	https://bioconductor.org/packages/release/bioc/html/DESeq2.html	https: //pods.iplantcollaborative. org / wiki / sider /viewpage.action? pageid = 28115142	2-3 timer	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621
edger	DE	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 timer	https: //de.iplantcollaborative. org / de /? Type = apps og app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621
Trinotate	Atmosfære	https://trinotate.github.io/	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + Bilde	1 uke	https: //atmo.iplantcollaborative. org / søknad / bilder / 1261

Tabell 1: Analyseprogrammer, plattformer de er tilgjengelige på, aNd tilleggsressurser tilgjengelig for arbeidsflyten i rekkefølge etter første utseende. Alle pakkeversjoner er aktuelle fra april 2016.

Discussion

Det er fem kritiske trinn i protokollen som hver vil lage sin egen separate mappe inne i hovedprosjektmappen ( figur 1 og 2 ). Alle primære raw sequencing data er sakrosanct: den skal lastes opp og holdes i den første mappen merket "1_Raw_Sequence" og ikke endres på noen måte. Data kan lastes opp på en av tre måter. DE-grensesnittet kan brukes til å laste opp filer direkte. Dette er den enkleste måten å laste opp data, men vil også ta lengst tid å overføre. Cyberduck har et grafisk grensesnitt og lar brukerne dra og slippe filer for å overføre til DE. ICommands er et kommandolinjeverktøy som kan brukes til å overføre data til og fra datalageret, lage kataloger og administrere datasett, og er sannsynligvis den raskeste måten å overføre datafiler til. Alle data i Data Store kan deles med andre CyVerse-brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Miljø), offentliggjort via en generert nettadresse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), eller kan være vert for offentlig og anonymt ( Ingen brukernavn kreves) tilgjengelige samfunnsdata (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Innenfor denne mappen analyseres de røde sekvenslestene med FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) for å vurdere hvordan du trimmer og filtrerer lesene for å generere høy kvalitet. Etter trimming og kvalitetsfiltrering er det nyttig å sammenligne FastQC-utgangene for å avgjøre om lesekvaliteten er forandret for å fastslå at den har blitt bedre uten å miste informasjon ( figur 3 ). Legg merke til at x-aksen til FastQC ikke er lineær, men snarere er inned for mange utgangsgrafer, noe som kan føre til feilfortolkning av resultater. De trimmede og filtrerte lesene brukes da til å samle de novo transkriptomer ved hjelp av en atmosfære cloud computing instans. DetteSky computer bruker den lokale dataskjermen, tastaturet og musen, men har sin egen programvare (Trinity og Trinotate) og maskinvare installert. Kjører programmer på Cloud Computer-forekomsten påvirker ikke den lokale datamaskinen på noen måte. De novo samling og nedstrøms annotasjon vil mest sannsynlig være de to lengste trinnene i denne arbeidsflyten. Derfor er de ferdigstilt på Atmosfæren for å unngå vanlige lab-delte datamaskinproblemer som vil forstyrre analysen som strømbrudd, starter på nytt etter sentrale automatiske oppdateringer eller krasjer forårsaket av andre brukere. Trinotat-annotasjon bruker BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ og PFAM ¹¹ . Den endelige utgangen av annotasjonen er en SQLite-database og en .xls-fil. Utgangene kan brukes utenfor CyVerse i nedstrøms analyseplattformer som KEGG ¹² ^, ¹³ .

Denne arbeidsflytenEr klar til bruk i DE og Atmosphere. Dette eliminerer behovet for å bruke tid på å installere, konfigurere og feilsøke hver analysepakke og alle avhengighetene som hvert verktøy krever. Dette strømlinjeformer forskernes analyser, minimerer bortkastet innsats og senker inngangsbarrieren for mange forskere. Denne arbeidsflyten spesifiserer enten enkelt- eller paret-end, leser fra Illumina-sekvenseringsplattformen, men mange verktøy finnes i DE og Atmosphere for å håndtere andre typer sekvenseringsteknologier. Verktøy i denne arbeidsflyten kan enkelt erstattes med et tilsvarende alternativt verktøy for å håndtere alle typer innkommende sekvenseringsteknologi. Dette gjelder også for nye versjoner av analysverktøy eller helt nye verktøy.

Denne arbeidsflyten er spesielt utviklet for å samle, sammenligne og annotere bare noen få transkriptomer av gangen. Derfor kan brukere finne det tidkrevende å samle flere transkriptomer for komparativ populasjonsgenetikk. AnalyseRørledninger vil være tilgjengelige for befolkningsgenetikkbrukere i nær fremtid, og lenken til rørledningen kan bli funnet på wikisiden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Differensialgeneksjonsanalysestrinnet kan håndtere replikater, men det er en parvis sammenligning og vil ikke nøyaktig vurdere flere faktorer (for eksempel forhold som varierer over tid, mer enn to behandlinger). Automatiserte arbeidsflyter eksisterer for organismer med referansegenomene ( f.eks . TRAPLINE ¹⁴ ). Selv om automatiserte arbeidsflyter er enkleste å bruke for nybegynnere, krever de novo forsamlinger vurdering og vurdering for hvert trinn som er skissert her. I tillegg må brukerne bruke automatiserte rørledninger etter hvert som de er konstruert, og er derfor ikke fleksible for å imøtekomme de endrede kravene til brukerne.

Siden det meste av denne protokollen utføres over Internett, kan brukerne oppleve problemer med nettleserinnstillingene. For det første,Popup-blokkere kan holde vinduer fra å åpne i det hele tatt, eller kan holde vinduer fra å åpne til det gis tillatelse til CyVerse i nettleseren. Atmosfære bruker VNC for å få tilgang til eksterne stasjonære datamaskiner, men annen programvare kan brukes. Denne hele protokollen ble utført i Firefox versjon 45.0.2, og bør fungere sammen med alle populære nettlesere, men noen inkonsekvenser kan vises. Arbeidsflyten vil bli oppdatert ettersom Trinity utgiver nye versjoner (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De nyeste versjonene og oppdatert informasjon om arbeidsflyten finner du på wiki-veiledningssiden ( Tabell 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Brukere kan kontakte brukerstøtte direkte eller sende spørsmål på Ask CyVerse (ask.cyverse.org/) for å feilsøke eventuelle problemer med arbeidsflyten.

I DE finnes det flere programmer for å gjennomføre hvert trinn i denne protokollen. For eksempel kan brukere ønske å kjøre Scythe (https://github.com/najoshi/sickle) i stedet for Trimmomatic¹⁵ for å lese trimme eller kjøre EdgeR ¹⁶ i stedet for DESeq ¹⁷ ^, ¹⁸ . Selv utenfor dette manuskriptets omfang kan DE-programmer kopieres, redigeres og utgis av brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apper) eller nye apper kan legges til av brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Miljøet). Atmosfæren bilder kan også modifiseres og reimaged for å lage nye eller endrede arbeidsflyter som samsvarer brukerens behov mer spesifikt (https://wiki.cyverse.org/wiki/x/TwHX). Dette arbeidet tjener som en introduksjon til bruk av kommandolinjen for å flytte data og utføre analyser. Brukere kan vurdere å bruke mer avanserte kommandolinje ressurser som CyVerse applikasjonsprogrammeringsgrensesnitt (APIer) (http://www.cyverse.org/science-apis), eller å designe egne DE-programmer, som krever kunnskapOm hvordan analyseverktøyet kjøres på kommandolinjen (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261