This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Denne arbeidsflyten tillater nybegynnelige forskere å utnytte avanserte beregningsmessige ressurser, for eksempel cloud computing, for å utføre parvis komparative transcriptomics. Det tjener også som grunnlag for biologer å utvikle datavitenskapsmessige beregningsevner, for eksempel å utføre bash-kommandoer, visualisering og styring av store datasett. Alle kommandolinjekoder og ytterligere forklaringer for hver kommando eller trinn kan bli funnet på wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Environment og Atmosphere plattformene er koblet sammen gjennom CyVerse Data Store. Som sådan, når først de opprinnelige råe sekvenseringsdataene er lastet opp, er det ikke lenger behov for å overføre store datafiler over en Internett-tilkobling, noe som minimerer mengden tid som trengs for å utføre analyser. Denne protokollen er laget for å analysere bare to eksperimentelle behandlinger eller forhold. Differensiell genekspresjonsanalyse utføres thrRaske parvise sammenligninger, og vil ikke være egnet til å teste flere faktorer. Denne arbeidsflyten er også utformet for å være manuell i stedet for automatisert. Hvert trinn må utføres og undersøkes av brukeren, noe som gir bedre forståelse av data og analytiske utganger, og dermed bedre resultater for brukeren. Når dette er fullført, vil denne protokollen gi de novo sammenføyde transkriptom (er) for underserved (ikke-modell) organismer uten at det må kartlegges til tidligere samle referansegener (som vanligvis ikke er tilgjengelige i underbevart organisme). Disse de novo transkriptomer benyttes videre i parvis differensiell genuttrykksanalyse for å undersøke gener som varierer mellom to eksperimentelle forhold. Differensielt uttrykte gener blir deretter funksjonelt annotert for å forstå at genetiske responsorganismer har til eksperimentelle forhold. I alt brukes dataene fra denne protokollen til å teste hypoteser om biologiske responser av underverdiorganismer.
Homo sapiens og flere nøkkelmodell dyrearter som Drosophila melanogaster , Mus musculus og Danio rerio representerer flertallet av nåværende og tidligere funksjonelle genomics arbeid. Imidlertid gir den raskt avtagende kostnaden for høy-gjennomgående sekvenseringsteknologi muligheter for funksjonell genomikk i ikke-modell ( aka "neglisjert" eller "underverdig") dyreart 1 . Dette er en viktig overgang i genomikk fordi ikke-organismeorganismer representerer ofte økonomisk relevante arter ( f.eks østers, reker, krabbe) og gir muligheter til å undersøke nye fenotyper og biologiske systemer utenfor omfanget av de som finnes i modellarter.
Selv om underserverte organismer gir en attraktiv mulighet til å undersøke unike biologiske systemer, møter flere utfordringer forskere spesielt under bioinformatisk analyse. Noen avSe utfordringer er medfødt i å behandle store datasett, mens andre skyldes mangelen på genetiske ressurser som er tilgjengelige for forskere som arbeider i underserverte organismer som et referansegenom, organisasjonspesifikke ontologier, etc. Utfordringene med nukleinsyreisolasjon og sekvensering er ofte rutinemessige i Sammenligning med dataanalysen, og som sådan viser bioinformatiske analyser generelt å være den mest undervurderte kostnaden for sekvenseringsprosjekter 2 . For eksempel kan en grunnleggende neste generasjons sekvenserings bioinformatisk analyse bestå av følgende trinn: kvalitetsfiltrering og trimning av rå sekvensering leser, samling av korte leser i større sammenhengende stykker og annotering og / eller sammenligninger med andre systemer for å få biologisk forståelse. Selv om det er så enkelt, krever dette eksemplet arbeidsflyten spesialitetskunnskap og beregningsmessige ressurser utover omfanget av en lab-benk-datamaskin, og legger den utenfor rekkevidde av mange forskere som studerer ikke-Modellorganismer.
Innate utfordringer kan være infrastruktur- eller kunnskapsbasert. En klassisk infrastrukturutfordring er tilgang til passende beregningsmessige ressurser. For eksempel er montering og annotering avhengig av beregningsintensive algoritmer som krever kraftige datamaskiner eller dataklynger, som har stor mengde RAM (256 GB-1 TB) og flere prosessorer / kerner å kjøre. Dessverre har mange forskere heller ikke tilgang til slike databehandlingsressurser eller har ikke den kunnskapen som trengs for å samhandle med disse systemene. Andre forskere kan ha tilgang til høyytende databehandlingsklynger gjennom sine universiteter eller institusjoner, men tilgangen til disse ressursene kan være begrenset og noen ganger resulterer i kostnader per beregningstid, det vil si antall CPU-prosessorer multiplisert med antall sanntidsklokker Timer "som de prosessorene kjører. Utnyttelse av et cyberinfrastruktur-system finansiert av US National Science Foundation sUka som CyVerse 3 som gir fri tilgang til beregne ressurser for forskere, i USA og rundt om i verden, kan bidra til å lette infrastrukturutfordringer, slik det blir demonstrert her.
Et eksempel på en typisk kunnskapsbasert utfordring er å forstå programvaren som trengs for fullstendige analyser. For å effektivt gjennomføre et sekvenseringsbasert prosjekt, må forskere være kjent med de utallige programvareverktøyene som er utviklet for bioinformatiske analyser. Å lære hver pakke er vanskelig i sin egen rett, men forverres av at pakkene kontinuerlig oppgraderes, gjenleveres, settes sammen i nye arbeidsflyter, og noen ganger blir begrenset til bruk under nye lisenser. I tillegg krever kobling av inngangene og utgangene til disse verktøyene noen ganger omforming datatyper for å gjøre dem kompatible, og legge til et annet verktøy i arbeidsflyten. Endelig er det også vanskelig å vite hvilken programvarepakke det erE best "for en analyse, og ofte identifisering av den beste programvaren for spesielle eksperimentelle forhold er et spørsmål om subtile forskjeller. I noen tilfeller er nyttige anmeldelser av programvare tilgjengelig, men på grunn av fortsatt utgivelse av nye oppdateringer og programvarealternativer, går disse raskt ut av dato.
For forskere som undersøker underserverte organismer, kommer disse medfødte utfordringene i tillegg til utfordringene forbundet med å analysere data i en ny organisme. Disse underordnede organisme-spesifikke utfordringene illustreres best under genannotering. For eksempel har underserverte organismer ofte ikke en nært besluttet modellorganisme som med rimelighet kan brukes til å identifisere gen-ortologi og funksjon ( f.eks. Marine hvirvelløse dyr og Drosophila ). Mange bioinformatiske verktøy krever også "trening" for å identifisere strukturelle motiver, som kan brukes til å identifisere genfunksjon. Imidlertid er treningsdata vanligvis kun tilgjengelig for modEl-organismer, og trening av skjulte Markov-modeller (HMM) er utenfor biologer, og til og med mange bioinformatikere. Til slutt, selv om merknader kan utføres ved bruk av data fra modellorganismer, er det ikke noen mening om gen-ontologier assosiert med modellorganismer når biologien og naturhistorien til den undersjente organismen vurderes ( f.eks . Overføring av informasjon fra Drosophila til reker).
I lys av disse utfordringene må bioinformatiske ressurser utvikles med forskere som gjennomfører de novo- analyser på underordnede organismer spesielt i tankene. De neste årene av funksjonelle genomiske sekvenseringsprosjekter vil bidra til å lukke gapet mellom modell og underserverte organismer ( https://genome10k.soe.ucsc.edu/ ), men det er mange verktøy som må utvikles for å løse utfordringene Vurdert ovenfor. CyVerse er dedikert til å skape økosystemer av jegNteroperability ved å koble eksisterende cyberinfrastruktur og tredjeparts applikasjoner for å levere datastyring, bioinformatiske analyseværktøy og datavisualiseringer til livforskere. Interoperabilitet bidrar til å jevne overgangene mellom bioinformatiske applikasjoner og plattformer ved å gi skalerbare databehandlingsressurser, og begrense konverteringer av filformat og mengden data som overføres mellom plattformer. CyVerse tilbyr flere plattformer, inkludert Discovery Environment (DE 4 , Atmosphere 5 , og datalageret 3) .Den er nettbasert og har mange vanlige bioinformatikkanalytiske verktøy konvertert til brukervennlige punkt-og-klikk-formater (kalt "apps "), Og er det grafiske brukergrensesnittet (GUI) for datalageret hvor store datasett ( dvs. rå sekvensering leser, samle genene) lagres og administreres. Atmosfære er en cloud computing-tjeneste som gir forskere økt fleksibilitet forBruker virtuelle maskinberegningsressurser, som har et stort utvalg av bioinformatikkverktøy forhåndsinstallert. Begge disse plattformene er koblet til datalageret, og kan brukes sammen for å skape arbeidsflyter som det som er beskrevet her. Denne rapporten fokuserer på en de novo transkriptom montering og differensial genuttrykk analyse arbeidsflyter, og adresserer videre noen gode praksis knyttet til utvikling og gjennomføring av bioinformatiske analyser. En forklaring på CyVerse's bredere oppdrag ( http://www.cyverse.org/about ) og detaljerte plattformbeskrivelser ( http://www.cyverse.org/learning-center ) er offentlig tilgjengelig. Alle analysene beskrevet her bruker Discovery Environment 4 (DE) og Atmosphere 5 , og presenteres på en måte som gjør dem tilgjengelige for forskere av alle beregningsnivåer. DE arbeidsflyter og AtmosphBilder kan refereres direkte ved hjelp av nettadresser for å sikre langsiktig herkomst, gjenbrukbarhet og reproduserbarhet.
Det er fem kritiske trinn i protokollen som hver vil lage sin egen separate mappe inne i hovedprosjektmappen ( figur 1 og 2 ). Alle primære raw sequencing data er sakrosanct: den skal lastes opp og holdes i den første mappen merket "1_Raw_Sequence" og ikke endres på noen måte. Data kan lastes opp på en av tre måter. DE-grensesnittet kan brukes til å laste opp filer direkte. Dette er den enkleste måten å laste opp data, men vil også ta lengst tid å overføre. Cyberduck har et grafisk grensesnitt og lar brukerne dra og slippe filer for å overføre til DE. ICommands er et kommandolinjeverktøy som kan brukes til å overføre data til og fra datalageret, lage kataloger og administrere datasett, og er sannsynligvis den raskeste måten å overføre datafiler til. Alle data i Data Store kan deles med andre CyVerse-brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Miljø), offentliggjort via en generert nettadresse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), eller kan være vert for offentlig og anonymt ( Ingen brukernavn kreves) tilgjengelige samfunnsdata (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Innenfor denne mappen analyseres de røde sekvenslestene med FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) for å vurdere hvordan du trimmer og filtrerer lesene for å generere høy kvalitet. Etter trimming og kvalitetsfiltrering er det nyttig å sammenligne FastQC-utgangene for å avgjøre om lesekvaliteten er forandret for å fastslå at den har blitt bedre uten å miste informasjon ( figur 3 ). Legg merke til at x-aksen til FastQC ikke er lineær, men snarere er inned for mange utgangsgrafer, noe som kan føre til feilfortolkning av resultater. De trimmede og filtrerte lesene brukes da til å samle de novo transkriptomer ved hjelp av en atmosfære cloud computing instans. DetteSky computer bruker den lokale dataskjermen, tastaturet og musen, men har sin egen programvare (Trinity og Trinotate) og maskinvare installert. Kjører programmer på Cloud Computer-forekomsten påvirker ikke den lokale datamaskinen på noen måte. De novo samling og nedstrøms annotasjon vil mest sannsynlig være de to lengste trinnene i denne arbeidsflyten. Derfor er de ferdigstilt på Atmosfæren for å unngå vanlige lab-delte datamaskinproblemer som vil forstyrre analysen som strømbrudd, starter på nytt etter sentrale automatiske oppdateringer eller krasjer forårsaket av andre brukere. Trinotat-annotasjon bruker BLAST + 8 , HMMER 9 , tmHMM 10 og PFAM 11 . Den endelige utgangen av annotasjonen er en SQLite-database og en .xls-fil. Utgangene kan brukes utenfor CyVerse i nedstrøms analyseplattformer som KEGG 12 , 13 .
Denne arbeidsflytenEr klar til bruk i DE og Atmosphere. Dette eliminerer behovet for å bruke tid på å installere, konfigurere og feilsøke hver analysepakke og alle avhengighetene som hvert verktøy krever. Dette strømlinjeformer forskernes analyser, minimerer bortkastet innsats og senker inngangsbarrieren for mange forskere. Denne arbeidsflyten spesifiserer enten enkelt- eller paret-end, leser fra Illumina-sekvenseringsplattformen, men mange verktøy finnes i DE og Atmosphere for å håndtere andre typer sekvenseringsteknologier. Verktøy i denne arbeidsflyten kan enkelt erstattes med et tilsvarende alternativt verktøy for å håndtere alle typer innkommende sekvenseringsteknologi. Dette gjelder også for nye versjoner av analysverktøy eller helt nye verktøy.
Denne arbeidsflyten er spesielt utviklet for å samle, sammenligne og annotere bare noen få transkriptomer av gangen. Derfor kan brukere finne det tidkrevende å samle flere transkriptomer for komparativ populasjonsgenetikk. AnalyseRørledninger vil være tilgjengelige for befolkningsgenetikkbrukere i nær fremtid, og lenken til rørledningen kan bli funnet på wikisiden (https://wiki.cyverse.org/wiki/x/dgGtAQ). Differensialgeneksjonsanalysestrinnet kan håndtere replikater, men det er en parvis sammenligning og vil ikke nøyaktig vurdere flere faktorer (for eksempel forhold som varierer over tid, mer enn to behandlinger). Automatiserte arbeidsflyter eksisterer for organismer med referansegenomene ( f.eks . TRAPLINE 14 ). Selv om automatiserte arbeidsflyter er enkleste å bruke for nybegynnere, krever de novo forsamlinger vurdering og vurdering for hvert trinn som er skissert her. I tillegg må brukerne bruke automatiserte rørledninger etter hvert som de er konstruert, og er derfor ikke fleksible for å imøtekomme de endrede kravene til brukerne.
Siden det meste av denne protokollen utføres over Internett, kan brukerne oppleve problemer med nettleserinnstillingene. For det første,Popup-blokkere kan holde vinduer fra å åpne i det hele tatt, eller kan holde vinduer fra å åpne til det gis tillatelse til CyVerse i nettleseren. Atmosfære bruker VNC for å få tilgang til eksterne stasjonære datamaskiner, men annen programvare kan brukes. Denne hele protokollen ble utført i Firefox versjon 45.0.2, og bør fungere sammen med alle populære nettlesere, men noen inkonsekvenser kan vises. Arbeidsflyten vil bli oppdatert ettersom Trinity utgiver nye versjoner (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De nyeste versjonene og oppdatert informasjon om arbeidsflyten finner du på wiki-veiledningssiden ( Tabell 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Brukere kan kontakte brukerstøtte direkte eller sende spørsmål på Ask CyVerse (ask.cyverse.org/) for å feilsøke eventuelle problemer med arbeidsflyten.
I DE finnes det flere programmer for å gjennomføre hvert trinn i denne protokollen. For eksempel kan brukere ønske å kjøre Scythe (https://github.com/najoshi/sickle) i stedet for Trimmomatic15 for å lese trimme eller kjøre EdgeR 16 i stedet for DESeq 17 , 18 . Selv utenfor dette manuskriptets omfang kan DE-programmer kopieres, redigeres og utgis av brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apper) eller nye apper kan legges til av brukere (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Miljøet). Atmosfæren bilder kan også modifiseres og reimaged for å lage nye eller endrede arbeidsflyter som samsvarer brukerens behov mer spesifikt (https://wiki.cyverse.org/wiki/x/TwHX). Dette arbeidet tjener som en introduksjon til bruk av kommandolinjen for å flytte data og utføre analyser. Brukere kan vurdere å bruke mer avanserte kommandolinje ressurser som CyVerse applikasjonsprogrammeringsgrensesnitt (APIer) (http://www.cyverse.org/science-apis), eller å designe egne DE-programmer, som krever kunnskapOm hvordan analyseverktøyet kjøres på kommandolinjen (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |