This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Detta arbetsflöde gör att nybörjare kan utnyttja avancerade beräkningsresurser som cloud computing för att utföra parvisa jämförande transcriptomics. Det fungerar också som en primer för biologer att utveckla datavetenskapliga beräkningskunskaper, t.ex. att utföra bash-kommandon, visualisering och hantering av stora dataset. Alla kommandoradsnummer och ytterligare förklaringar för varje kommando eller steg finns på wikien ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Environment och Atmosphere-plattformar kopplas samman via CyVerse Data Store. Så snart som de första råa sekvenseringsdata har laddats upp finns det inget behov av att överföra stora datafiler via en Internetanslutning, vilket minskar den tid som krävs för att genomföra analyser. Detta protokoll är utformat för att analysera endast två experimentella behandlingar eller förhållanden. Differentiell genuttrycksanalys utförs thrOjämna parvisa jämförelser, och kommer inte att vara lämpliga för att testa flera faktorer. Detta arbetsflöde är också utformat för att vara manuellt snarare än automatiserat. Varje steg måste utföras och undersökas av användaren, vilket ger en bättre förståelse av data och analytiska utgångar och därmed bättre resultat för användaren. När detta är fullständigt kommer detta protokoll att ge de novo sammansatta transkriptom (arna) för underserverade organismer (utan modell) utan att behöva kartlägga till tidigare sammansatta referensgenomgångar (som vanligtvis inte är tillgängliga i underordnade organismer). Dessa de novo transkriptomerna används vidare i parvis differential-genuttrycksanalys för att undersöka gener som skiljer sig mellan två experimentella tillstånd. Differentiellt uttryckta gener är sedan funktionellt annoterade för att förstå de genetiska responsorganismerna måste försöksbetingelser. Totalt används de data som härleds från detta protokoll för att testa hypoteser om biologiska reaktioner hos underserverade organismer.
Homo sapiens och flera nyckelmodell djurarter som Drosophila melanogaster , Mus musculus och Danio rerio representerar majoriteten av nuvarande och tidigare funktionella genomics arbete. Den snabbt minskande kostnaden för högkvalitativ sekvenseringsteknik ger emellertid möjligheter till funktionell genomik i icke-modell ( aka "neglected" eller "underserved") djurart 1 . Detta är en viktig övergång i genomik eftersom icke-modellorganismer representerar ofta ekonomiskt relevanta arter ( t.ex. ostron, räkor, krabba) och erbjuder möjligheter att undersöka nya fenotyper och biologiska system utanför ramen för de som finns i modellarter.
Även om underserverade organismer utgör ett attraktivt tillfälle att undersöka unika biologiska system möter flera utmaningar forskare speciellt under bioinformatisk analys. Några avSe utmaningar är medfödda i att bearbeta stora dataset medan andra är resultatet av bristen på genetiska resurser tillgängliga för forskare som arbetar i underordnade organismer såsom ett referensgenom, organismerspecifika ontologier etc. Utmaningarna med nukleinsyraisolering och sekvensering är ofta rutinmässiga i Jämförelse med dataanalys, och som sådan visar bioinformatiska analyser i allmänhet att de är de mest underskattade kostnaderna för sekvenseringsprojekt 2 . Exempelvis kan en grundläggande nästa generations sekvensbestämd bioinformatisk analys bestå av följande steg: Kvalitetsfiltrering och trimning av rå sekvensering läser, sammansättning av kort läser in i större sammanhängande bitar och annotering och / eller jämförelser med andra system för att få biologisk förståelse. Medan det verkar enkelt, kräver det här exemplet arbetsflödet specialkunskap och beräkningsresurser utöver omfattningen av en labbänk-dator, vilket gör att den inte är tillgänglig för många forskare som studerar icke-Modellorganismer.
Inåtgående utmaningar kan vara infrastruktur- eller kunskapsbaserade. En klassisk infrastrukturutmaning är tillgång till lämpliga beräkningsresurser. Till exempel är montering och annotering beroende av beräkningsmässigt intensiva algoritmer som kräver kraftfulla datorer eller datorklyftor, med stor mängd RAM (256 GB-1 TB) och flera processorer / kärnor att köra. Tyvärr har många forskare inte heller tillgång till sådana datorresurser eller har inte den kunskap som behövs för att interagera med dessa system. Andra forskare kan ha tillgång till högpresterande datorklienter via sina universitet eller institutioner, men tillgången till dessa resurser kan vara begränsad och resulterar ibland i avgifter per beräknat timme, det vill säga antalet CPU-processorer multiplicerat med antalet realtidsklockor Timmar "som dessa processorer kör. Utnyttja ett cyberinfrastrukturesystem finansierat av US National Science Foundation sUj som CyVerse 3 som ger fri tillgång till beräkningsresurser för forskare, i USA och i hela världen, kan bidra till att lindra infrastrukturutmaningar, vilket kommer att demonstreras här.
Ett exempel på en typisk kunskapsbaserad utmaning är att förstå den programvara som behövs för fullständiga analyser. För att effektivt genomföra ett sekvenseringsbaserat projekt måste forskare känna till de myriader av programvaruverktyg som har utvecklats för bioinformatiska analyser. Att lära sig varje paket är svårt i sig, men förvärras av det faktum att paket kontinuerligt uppgraderas, återförsäljas, sätts ihop i nya arbetsflöden och ibland blir begränsade för användning under nya licenser. Dessutom behöver länkning av ingångar och utgångar från dessa verktyg ibland omvandla datatyper för att göra dem kompatibla och lägga till ett annat verktyg i arbetsflödet. Slutligen är det också svårt att veta vilket mjukvarupaket är detE bästa "för en analys, och ofta identifierar den bästa mjukvaran för speciella experimentella förhållanden en fråga om subtila skillnader. I vissa fall finns användbara recensioner av programvara, men på grund av att de nya uppdateringarna och programalternativen fortsätter att släppas, går de snabbt föråldrade.
För forskare som undersöker underserverade organismer kommer dessa medfödda utmaningar utöver de utmaningar som är förknippade med att analysera data i en ny organism. Dessa underserverade organismspecifika utmaningar illustreras bäst under genannotering. Exempelvis har underserverade organismer ofta inte en nära besläktad modellorganisme som rimligen kan användas för att identifiera gen-ortologi och funktion ( t.ex. marina ryggradslösa djur och Drosophila ). Många bioinformatiska verktyg kräver också "träning" för att identifiera strukturella motiv, som kan användas för att identifiera genfunktionen. Träningsdata är dock vanligtvis endast tillgängliga för modEl-organismer och träning dolda Markov-modeller (HMM) ligger utanför biologernas uppfattning, och till och med många bioinformatiker. Slutligen, även om annoteringar kan utföras med användning av data från modellorganismer, är vissa gen-ontologier associerade med modellorganismer inte meningsfulla när biologin och naturhistorien hos den underskattade organismen beaktas ( t.ex. överföring av information från Drosophila till räkor).
Mot bakgrund av dessa utmaningar måste bioinformatiska resurser utvecklas med forskare som utför de novo- analyser på underordna organismer specifikt i åtanke. De närmaste åren av funktionella genomics-sekvenseringsprojekt kommer att bidra till att stänga klyftan mellan modell och underserverade organismer ( https://genome10k.soe.ucsc.edu/ ), men det finns många verktyg som måste utvecklas för att hantera utmaningarna Övervägd ovan. CyVerse är dedikerad till att skapa ekosystem av iNteroperability genom att länka befintliga cyberinfrastruktur och tredjepartsprogram för att leverera datahantering, bioinformatiska analysverktyg och datavisualiseringar till livsforskare. Interoperabilitet bidrar till att överbrygga övergångarna mellan bioinformatiska applikationer och plattformar genom att tillhandahålla skalbara databehandlingsresurser och begränsa konverteringar av filformat och mängden data som överförs mellan plattformarna. CyVerse erbjuder flera plattformar, inklusive Discovery Environment (DE 4 , Atmosphere 5 och Data Store 3) . DE är webbaserat och har många vanliga bioinformatikanalysverktyg omvandlade till användarvänliga point-and-click-format (kallade "apps "), Och är det grafiska användargränssnittet (GUI) för datalagret där stora datasatser ( dvs. rak sekvensering läser, sammansatta genen) lagras och hanteras. Atmosfär är en cloud computing-tjänst som ger forskare ökad flexibilitet förMed hjälp av Virtual Machine beräkningsresurser, som har ett stort antal bioinformatikverktyg förinstallerade. Båda dessa plattformar är kopplade till datalagret och kan användas tillsammans för att skapa arbetsflöden som det som beskrivs här. Denna rapport fokuserar på en de novo transkriptom montering och differentiella genuttryck analys arbetsflöden, och vidare adresserar några bästa praxis i samband med utveckling och genomförande av bioinformatiska analyser. En förklaring till CyVerse: s bredare uppdrag ( http://www.cyverse.org/about ) och detaljerade plattformbeskrivningar ( http://www.cyverse.org/learning-center ) är allmänt tillgängliga. Alla analyser som beskrivs här använder Discovery Environment 4 (DE) och Atmosphere 5 , och presenteras på ett sätt som gör dem tillgängliga för forskare av alla beräkningsnivåer. DE arbetsflöden och AtmosphEre-bilder kan hänvisas direkt med URL-adresser för att säkerställa långsiktigt ursprung, återanvändbarhet och reproducerbarhet.
Det finns fem kritiska steg i protokollet som varje gång skapar en egen separat mapp inuti huvudprojektmappen ( figur 1 och 2 ). Alla primära råa sekvenseringsdata är sakrosana: den ska laddas upp och hållas i den första mappen märkt "1_Raw_Sequence" och ändras inte på något sätt. Data kan laddas upp på ett av tre sätt. DE-gränssnittet kan användas för att ladda upp filer direkt. Det här är det enklaste sättet att ladda upp data, men det tar också längst att överföra. Cyberduck har ett grafiskt gränssnitt och tillåter användare att dra och släppa filer för att överföra till DE. ICommands är ett kommandoradsverktyg som kan användas för att överföra data till och från datalagret, göra kataloger och hantera dataset och är sannolikt det snabbaste sättet att överföra datafiler. Alla data i datalagret kan delas med andra CyVerse-användare (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Miljö) publiceras via en genererad webbadress (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), eller kan vara värd som offentligt och anonymt ( Inget användarnamn krävs) tillgängliga gemenskapsdata (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Inne i den mappen analyseras de råa sekvensläsningarna med FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) för att bedöma hur man trimmer och filtrerar läsarna för att generera högkvalitativa läsningar. Efter trimning och kvalitetsfiltrering är det användbart att jämföra FastQC-utgångarna för att bestämma om läskvaliteten har ändrats för att fastställa att den har blivit bättre utan att förlora information ( figur 3 ). Observera att xQ-axeln för FastQC inte är linjär, utan snarare inderad för många utmatningsgrafer, vilket kan leda till feltolkning av resultat. De trimmade och filtrerade läsningarna används sedan för att montera de novo transkriptomerna med hjälp av en atmosfär cloud computing instans. DettaMolndatorn använder den lokala datorskärmen, tangentbordet och musen, men har sin egen programvara (Trinity and Trinotate) och hårdvara installerad. Köra program på molndatorns instans påverkar inte på något sätt den lokala datorn. De novo -sammansättningen och nedströmsannotationen kommer sannolikt att vara de två längsta spåren i detta arbetsflöde. Därför är de slutförda på Atmosfär för att undvika vanliga lab-delade datorproblem som skulle störa analysen som strömavbrott, startar om efter automatiska uppdateringar i slutet av natten eller kraschar orsakade av andra användare. Trinotatanotation använder BLAST + 8 , HMMER 9 , tmHMM 10 och PFAM 11 . Den slutliga produktionen av annotering är en SQLite-databas och en .xls-fil. Utgångarna kan användas utanför CyVerse i nedströmsanalysplattformar som KEGG 12 , 13 .
Detta arbetsflödeÄr redo att användas i DE och Atmosphere. Detta eliminerar behovet av att spendera tid att installera, konfigurera och felsöka varje analyspaket och alla beroenden som varje verktyg kräver. Detta effektiviserar forskarnas analyser, minimerar bortkastad ansträngning och sänker inträdesbarriären för många forskare. Detta arbetsflöde samlar specifikt antingen singel- eller parade-ände läser från Illumina-sekvenseringsplattformen, men många verktyg finns i DE och Atmosphere för att hantera andra typer av sekvenseringstekniker. Verktyg i detta arbetsflöde kan enkelt ersättas med ett motsvarande alternativt verktyg för att hantera vilken typ av inkommande sekvenseringsteknik som helst. Det gäller även nya versioner av analysverktyg eller helt nya verktyg.
Detta arbetsflöde är speciellt utformat för att montera, jämföra och annotera endast några transkriptomer åt gången. Därför kan användarna finna det tidskrävande att montera flera transkriptomer för jämförande populationsgenetik. AnalysRörledningar kommer att vara tillgängliga för befolkningsgenetikanvändare inom en snar framtid och länken till rörledningen finns på wikisidan (https://wiki.cyverse.org/wiki/x/dgGtAQ). Differentiella genuttrycksanalyssteget kan hantera replikat, men det är en parvis jämförelse och kommer inte att exakt utvärdera flera faktorer ( t.ex. förhållanden som varierar över tid, mer än två behandlingar). Automatiserade arbetsflöden finns för organismer med referensgenomgångar ( t.ex. TRAPLINE 14 ). Medan automatiserade arbetsflöden är enklaste att använda för nybörjare, kräver de novo- sammansättningar bedömning och överväganden för varje steg som beskrivs här. Dessutom måste användarna använda automatiserade rörledningar som de är konstruerade och är därför i sig inte flexibla för att möta användarnas förändrade krav.
Eftersom det mesta av detta protokoll utförs via Internet kan användarna få problem med sina webbläsarinställningar. För det första,Popup-blockerare kan hålla windows från att öppna alls eller kan hålla windows från att öppnas tills tillstånd ges till CyVerse i webbläsaren. Atmosfär använder VNC för åtkomst till fjärrskrivbord, men annan mjukvara kan användas. Hela protokollet utfördes i Firefox version 45.0.2 och bör fungera med alla populära webbläsare, men vissa inkonsekvenser kan uppstå. Arbetsflödet uppdateras när Trinity släpper ut nya versioner (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De senaste versionerna och aktuell information om arbetsflödet finns på wiki-handledningssidan ( Tabell 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Användare kan kontakta support direkt eller posta frågor på Ask CyVerse (ask.cyverse.org/) för att felsöka några problem med arbetsflödet.
I DE finns flera appar för att utföra varje steg i detta protokoll. Till exempel kan användare vilja springa Scythe (https://github.com/najoshi/sickle) istället för Trimmomatic15 för läsning eller körning EdgeR 16 istället för DESeq 17 , 18 . Även utanför det här manuskriptets omfattning kan DE-apparater kopieras, redigeras och släppas av användare (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) eller nya appar kan läggas till av användare (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Atmosfärsbilderna kan också modifieras och omformas för att skapa nya eller ändrade arbetsflöden som matchar användarnas behov mer specifikt (https://wiki.cyverse.org/wiki/x/TwHX). Detta arbete är en introduktion till att använda kommandoraden för att flytta data och genomföra analyser. Användare kan överväga att använda mer avancerade kommandoradsresurser som CyVerse applikationsprogrammeringsgränssnitt (APIs) (http://www.cyverse.org/scienceapis) eller att designa egna DE-appar, som kräver kunskapOm hur analysverktyget körs på kommandoraden (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |