Genetics

Använda CyVerse Resources för Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Detta arbetsflöde gör att nybörjare kan utnyttja avancerade beräkningsresurser som cloud computing för att utföra parvisa jämförande transcriptomics. Det fungerar också som en primer för biologer att utveckla datavetenskapliga beräkningskunskaper, t.ex. att utföra bash-kommandon, visualisering och hantering av stora dataset. Alla kommandoradsnummer och ytterligare förklaringar för varje kommando eller steg finns på wikien ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Environment och Atmosphere-plattformar kopplas samman via CyVerse Data Store. Så snart som de första råa sekvenseringsdata har laddats upp finns det inget behov av att överföra stora datafiler via en Internetanslutning, vilket minskar den tid som krävs för att genomföra analyser. Detta protokoll är utformat för att analysera endast två experimentella behandlingar eller förhållanden. Differentiell genuttrycksanalys utförs thrOjämna parvisa jämförelser, och kommer inte att vara lämpliga för att testa flera faktorer. Detta arbetsflöde är också utformat för att vara manuellt snarare än automatiserat. Varje steg måste utföras och undersökas av användaren, vilket ger en bättre förståelse av data och analytiska utgångar och därmed bättre resultat för användaren. När detta är fullständigt kommer detta protokoll att ge de novo sammansatta transkriptom (arna) för underserverade organismer (utan modell) utan att behöva kartlägga till tidigare sammansatta referensgenomgångar (som vanligtvis inte är tillgängliga i underordnade organismer). Dessa de novo transkriptomerna används vidare i parvis differential-genuttrycksanalys för att undersöka gener som skiljer sig mellan två experimentella tillstånd. Differentiellt uttryckta gener är sedan funktionellt annoterade för att förstå de genetiska responsorganismerna måste försöksbetingelser. Totalt används de data som härleds från detta protokoll för att testa hypoteser om biologiska reaktioner hos underserverade organismer.

Introduction

Homo sapiens och flera nyckelmodell djurarter som Drosophila melanogaster , Mus musculus och Danio rerio representerar majoriteten av nuvarande och tidigare funktionella genomics arbete. Den snabbt minskande kostnaden för högkvalitativ sekvenseringsteknik ger emellertid möjligheter till funktionell genomik i icke-modell ( aka "neglected" eller "underserved") djurart ¹ . Detta är en viktig övergång i genomik eftersom icke-modellorganismer representerar ofta ekonomiskt relevanta arter ( t.ex. ostron, räkor, krabba) och erbjuder möjligheter att undersöka nya fenotyper och biologiska system utanför ramen för de som finns i modellarter.

Även om underserverade organismer utgör ett attraktivt tillfälle att undersöka unika biologiska system möter flera utmaningar forskare speciellt under bioinformatisk analys. Några avSe utmaningar är medfödda i att bearbeta stora dataset medan andra är resultatet av bristen på genetiska resurser tillgängliga för forskare som arbetar i underordnade organismer såsom ett referensgenom, organismerspecifika ontologier etc. Utmaningarna med nukleinsyraisolering och sekvensering är ofta rutinmässiga i Jämförelse med dataanalys, och som sådan visar bioinformatiska analyser i allmänhet att de är de mest underskattade kostnaderna för sekvenseringsprojekt ² . Exempelvis kan en grundläggande nästa generations sekvensbestämd bioinformatisk analys bestå av följande steg: Kvalitetsfiltrering och trimning av rå sekvensering läser, sammansättning av kort läser in i större sammanhängande bitar och annotering och / eller jämförelser med andra system för att få biologisk förståelse. Medan det verkar enkelt, kräver det här exemplet arbetsflödet specialkunskap och beräkningsresurser utöver omfattningen av en labbänk-dator, vilket gör att den inte är tillgänglig för många forskare som studerar icke-Modellorganismer.

Inåtgående utmaningar kan vara infrastruktur- eller kunskapsbaserade. En klassisk infrastrukturutmaning är tillgång till lämpliga beräkningsresurser. Till exempel är montering och annotering beroende av beräkningsmässigt intensiva algoritmer som kräver kraftfulla datorer eller datorklyftor, med stor mängd RAM (256 GB-1 TB) och flera processorer / kärnor att köra. Tyvärr har många forskare inte heller tillgång till sådana datorresurser eller har inte den kunskap som behövs för att interagera med dessa system. Andra forskare kan ha tillgång till högpresterande datorklienter via sina universitet eller institutioner, men tillgången till dessa resurser kan vara begränsad och resulterar ibland i avgifter per beräknat timme, det vill säga antalet CPU-processorer multiplicerat med antalet realtidsklockor Timmar "som dessa processorer kör. Utnyttja ett cyberinfrastrukturesystem finansierat av US National Science Foundation sUj som CyVerse ³ som ger fri tillgång till beräkningsresurser för forskare, i USA och i hela världen, kan bidra till att lindra infrastrukturutmaningar, vilket kommer att demonstreras här.

Ett exempel på en typisk kunskapsbaserad utmaning är att förstå den programvara som behövs för fullständiga analyser. För att effektivt genomföra ett sekvenseringsbaserat projekt måste forskare känna till de myriader av programvaruverktyg som har utvecklats för bioinformatiska analyser. Att lära sig varje paket är svårt i sig, men förvärras av det faktum att paket kontinuerligt uppgraderas, återförsäljas, sätts ihop i nya arbetsflöden och ibland blir begränsade för användning under nya licenser. Dessutom behöver länkning av ingångar och utgångar från dessa verktyg ibland omvandla datatyper för att göra dem kompatibla och lägga till ett annat verktyg i arbetsflödet. Slutligen är det också svårt att veta vilket mjukvarupaket är detE bästa "för en analys, och ofta identifierar den bästa mjukvaran för speciella experimentella förhållanden en fråga om subtila skillnader. I vissa fall finns användbara recensioner av programvara, men på grund av att de nya uppdateringarna och programalternativen fortsätter att släppas, går de snabbt föråldrade.

För forskare som undersöker underserverade organismer kommer dessa medfödda utmaningar utöver de utmaningar som är förknippade med att analysera data i en ny organism. Dessa underserverade organismspecifika utmaningar illustreras bäst under genannotering. Exempelvis har underserverade organismer ofta inte en nära besläktad modellorganisme som rimligen kan användas för att identifiera gen-ortologi och funktion ( t.ex. marina ryggradslösa djur och Drosophila ). Många bioinformatiska verktyg kräver också "träning" för att identifiera strukturella motiv, som kan användas för att identifiera genfunktionen. Träningsdata är dock vanligtvis endast tillgängliga för modEl-organismer och träning dolda Markov-modeller (HMM) ligger utanför biologernas uppfattning, och till och med många bioinformatiker. Slutligen, även om annoteringar kan utföras med användning av data från modellorganismer, är vissa gen-ontologier associerade med modellorganismer inte meningsfulla när biologin och naturhistorien hos den underskattade organismen beaktas ( t.ex. överföring av information från Drosophila till räkor).

Mot bakgrund av dessa utmaningar måste bioinformatiska resurser utvecklas med forskare som utför de novo- analyser på underordna organismer specifikt i åtanke. De närmaste åren av funktionella genomics-sekvenseringsprojekt kommer att bidra till att stänga klyftan mellan modell och underserverade organismer ( https://genome10k.soe.ucsc.edu/ ), men det finns många verktyg som måste utvecklas för att hantera utmaningarna Övervägd ovan. CyVerse är dedikerad till att skapa ekosystem av iNteroperability genom att länka befintliga cyberinfrastruktur och tredjepartsprogram för att leverera datahantering, bioinformatiska analysverktyg och datavisualiseringar till livsforskare. Interoperabilitet bidrar till att överbrygga övergångarna mellan bioinformatiska applikationer och plattformar genom att tillhandahålla skalbara databehandlingsresurser och begränsa konverteringar av filformat och mängden data som överförs mellan plattformarna. CyVerse erbjuder flera plattformar, inklusive Discovery Environment (DE ⁴ , Atmosphere ⁵ och Data Store ³⁾ . DE är webbaserat och har många vanliga bioinformatikanalysverktyg omvandlade till användarvänliga point-and-click-format (kallade "apps "), Och är det grafiska användargränssnittet (GUI) för datalagret där stora datasatser ( dvs. rak sekvensering läser, sammansatta genen) lagras och hanteras. Atmosfär är en cloud computing-tjänst som ger forskare ökad flexibilitet förMed hjälp av Virtual Machine beräkningsresurser, som har ett stort antal bioinformatikverktyg förinstallerade. Båda dessa plattformar är kopplade till datalagret och kan användas tillsammans för att skapa arbetsflöden som det som beskrivs här. Denna rapport fokuserar på en de novo transkriptom montering och differentiella genuttryck analys arbetsflöden, och vidare adresserar några bästa praxis i samband med utveckling och genomförande av bioinformatiska analyser. En förklaring till CyVerse: s bredare uppdrag ( http://www.cyverse.org/about ) och detaljerade plattformbeskrivningar ( http://www.cyverse.org/learning-center ) är allmänt tillgängliga. Alla analyser som beskrivs här använder Discovery Environment ⁴ (DE) och Atmosphere ⁵ , och presenteras på ett sätt som gör dem tillgängliga för forskare av alla beräkningsnivåer. DE arbetsflöden och AtmosphEre-bilder kan hänvisas direkt med URL-adresser för att säkerställa långsiktigt ursprung, återanvändbarhet och reproducerbarhet.

Protocol

OBS! Det övergripande protokollet har numrerats i enlighet med mappar som kommer att skapas och namnges i steg 1.2 ( Figur 1 och 2 ). Detta protokoll representerar en standard jämförande de novo transkriptomanalys, och varje steg som beskrivs här kanske inte är nödvändigt för alla forskare. Det här arbetsflödet dokumenteras noggrant på en kompileringshandledning wiki, som också innehåller alla ytterligare filer och länkar till dokument av intresse 3: ^a part-utvecklare för varje analyspaket ( tabell 1 ). Länkar till detta material kommer att inkluderas i hela detta protokoll för enkel åtkomst till denna information. Bästa praxis är anteckningar som ges till användarna som förslag på det bästa sättet att utföra uppgifter eller för att användare ska överväga, och kommer att kommuniceras genom anteckningar i protokollet. En mapp med exempeldataingång och analysutgång är allmänt tillgänglig för användare och är organiserad som föreslagits i protokollet ( de novo

1. Ställ in projektet, ladda upp Raw Sequencing Läs och utvärdera läser med FastQC

Få tillgång till atmosfären och Discovery Environment.
1. Begär ett gratis CyVerse-konto genom att navigera till registreringssidan ( t.ex. person@institution.edu).
2. Fyll i nödvändig information och skicka in.
3. Navigera till huvudwebbsidan (http://www.cyverse.org/) och välj "Logga in" längst upp i verktygsfältet. Välj "Cyverse Login" och logga in med dina CyVerse-uppgifter.
4. Navigera till fliken Appar och tjänster och be om åtkomst till Atmosfär. Tillgång till Discovery Environment ges automatiskt.
Ställ in projektet och flytta data till datalagret.
1. Logga in på Discovery Environment (https://de.iplantcollaborative.org/de). Välj fliken "Data" för att få fram en meny som innehåller alla mappar i datalagret. Skapa en huvudprojektmapp som innehåller alla uppgifter som är kopplade till projektet. Hitta verktygsfältet högst upp i datafönstret och välj Arkiv | Ny mapp. Använd inte mellanslag eller specialtecken i mappnamnen eller några inmatnings- / utdatafiler, t.ex. "! @ # () [] {}:; $% ^ & *." Använd i stället underskrifter eller bindestreck, dvs "_" eller "-" där det är lämpligt.
2. Skapa fem mappar i huvudprojektmappen för att organisera analyser ( Figur 1 ) Namnge mapparna enligt följande utan kommatecken eller citattecken: "1_Raw_Sequence," "2_High_Quality_Sequence," "3_Assembly," "4_Differential_Expression," "5_Annotated_Assembly." Undermappar kommer att placeras i var och en av dessa huvudprojektmappar ( Figur 2 ).

Figur 1
Figur1: En generell översikt över projektmapporganisationen och De Novo Transcriptome Assembly and Analysis Workflow. Användare kommer att ladda upp rå sekvensering läser in i huvudprojektmappen i Data Store och sedan placera resultaten från varje steg i separata mappar. Vänligen klicka här för att se en större version av denna figur.

Figur 2
Figur 2: En detaljerad översikt över De Novo Transcriptome Assembly och Analysis Workflow som förekommer inom CyVerse Cyberinfrastructure. Hela sammanställning och analys arbetsflöde kommer att slutföras i fem steg som varje får sin egen mapp (fetstil, numrerade mappikoner). Var och en av de fem nummererade arbetsflödesstegmappen har undermappar som innehåller data från bioinformatiska analyser (mappikoner). Ingångar för analys kommer från en undermapp och flyttas sedan in i en annan mapp genom utgången av ett analysprogram (rektangulära lådor). Slutdata från de tre första stegen jämförs och bereds för publicering. I slutändan ger detta schema en huvudprojektmapp som har stegvis analys för samarbetare och / eller manuskriptrecensenter kan snabbt förstå arbetsflödet och upprepa det med varje fil om det behövs. Vänligen klicka här för att se en större version av denna figur.

Överför raka FASTQ-sekvensfiler till mappen "1_Raw_Sequence" i en undermapp med titeln "A_Raw_Reads" med någon av följande tre metoder.
1. Använd den enkla uppladdningsfunktionen för datalagret för att navigera till verktygsfältet Datafönster genom att klicka på dataknappen i huvuddatabasen DE och välj Ladda upp | Enkel uppladdning från skrivbordet. Välj bläddringsknappenFör att navigera till de råa FASTQ-sekvenseringsfilerna på den lokala datorn. Denna metod är endast lämplig för filer under 2 GB.
2. Välj knappen Ladda upp längst ned på skärmen för att skicka in uppladdningen. En anmälan registreras högst upp till höger i DE på ikonen för klockan som uppladdningen har skickats in. En annan anmälan registreras när uppladdningen är klar.
3. Alternativt använd Cyberduck för att överföra större filer (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installera Cyberduck och kör sedan som ett program på den lokala datorns skrivbord.
4. Slutligen ladda ner iCommands och installera på den lokala datorn enligt instruktionerna (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Bedöm uppladdad, rå sekvensering läser med FastQC-appen i DE.
1. Välj "Apps" -knappen på det huvudsakliga DE-skrivbordet för att öppna ett fönster som innehåller alla analysapps som finns tillgängliga i DE.
2. Sök och öppna vinstenDow för FastQC-verktyget i sökverktygsfältet högst upp i fönstret. Öppna multifilversionen om det finns mer än en FASTQ-fil. Välj Arkiv | Ny mapp för att skapa en mapp med namnet "B_FastQC_Raw_Reads" och välj den här mappen som utmatningsmapp.
3. Ladda FASTQ-läste filerna i verktygsfönstret som heter "Välj inmatningsdata" och välj "Starta analys".
4. Öppna .html eller .pdf-filen för att se resultaten när analysen är klar. FastQC kör flera analyser som testar olika aspekter av läsfilerna ( Figur 3 ).

2. Trim och kvalitet Filter Raw läser för att ge hög kvalitetssekvens

Obs! Använd antingen Trimmomatic app eller Sickle app.

Sök efter den programmerbara Trimmomatic appen i DE och öppna den som tidigare.
1. Ladda upp mappen med råa FASTQ-lästa filer i avsnittet "Inställningar".
2. Välj om seAvkodningsfiler är enkla eller parade.
3. Använd standardkontrollfilen genom att välja Bläddra-knappen och klistra in / iplant / hem / delad / Trinity_transdecoder_trinotate_databases i rutan "Viewing:". Välj filen Trimmomaticv0.33_control_file och starta analysen. Filen kan hämtas, inställningarna redigeras och sedan laddas upp i den andra projektmappen för att skapa ett anpassat trimningsskript.
4. Valfritt: Om FastQC-analysen identifierade adapter-sekvenser, använd ILLUMINACLIP-inställningen för att trimma Illumina-adaptrar. Välj lämplig adapterfil i mappen / iplant / hem / delad / Trinity_transdecoder_trinotate_databases som ovan.
Kvalitetsklippningssekvensen läser med Sickle.
1. Sök och öppna Sickle-appen i DE. Välj den trimmade FASTQ läser som ingång läser och byta namn på utdatafiler. Inkludera kvalitetsinställningar i alternativen. Typiska inställningar är Kvalitetsformat: illumina, sångare, solexa; Kvalitet tTröskelvärde: 20; Minsta längd: 50.
2. Flytta all utmatning till den trimmade och filtrerade mappen (2_High_Quality_Sequence).
Bedöm den slutliga läsningen med FastQC och jämföra med tidigare FastQC-rapporter. Välj .html-filen för att få fram en webbsida av alla resultat. Välj mappen för bildfiler (.png) som tillhandahålls i utmatningen om den inte kan visas.

3. De Novo Transcriptome Assembly använder Trinity i atmosfären

Öppna den senaste versionen av Atmosphere-förekomsten genom att navigera till wikisidan (https://wiki.cyverse.org/wiki/x/dgGtAQ). Välj länken för den senaste versionen av Trinity and Trinotate-bilden. Alternativt, sök "Trinotate" i Atmosphere Image Search Tool (https://atmo.iplantcollaborative.org/application/images) för att få fram alla versioner av Trinity and Trinotate-bilderna.
1. Välj "Logga in för att starta" -knappen och ange atmosfären instance.
2. Välj en instansstorlek på antingen "medium3" (CPU: 4, Mem: 32GB) eller "big3" (CPU: 8, Mem: 64 GB). Starta förekomsten och vänta på att den ska byggas. I vissa sällsynta fall genomgår CyVerse underhåll för att uppdatera plattformar. Existerande instanser finns tillgängliga under dessa uppdateringar, men det är inte möjligt att skapa nya instanser. Besök CyVerse Status-sidan för att se aktuellt tillstånd på vilken plattform som helst (http://status.cyverse.org/).
Öppna förekomsten när den är klar genom att klicka på namnet och sedan välja "Fjärrskrivbord" längst ner på menyn till höger. Tillåt Java och VNC Viewer om du blir frågad. Välj "Anslut" -knappen i VNC Viewer-fönstret och välj sedan "Fortsätt".
1. Logga in för att öppna ett separat fönster som blir den nya cloud computing-förekomsten.
2. Flytta de trimmade och / eller filtrerade FASTQ-läste filerna till instansen med hjälp av en av de tre metoder som beskrivs i steg 1.3.1 - 1.3.4. OssE Internet-webbläsaren för att komma åt DE och ladda ner filer precis som tidigare på den lokala datorn. Eller använd iCommands installerade på dessa bilder för att snabbt överföra stora dataset.
Running Trinity för att montera högkvalitativa läsningar.
1. Ställ in analysmappen på atmosfärsinstansen. Använd det tillgängliga skriptet i DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller kopiera och klistra in kommandon från wikisidan (https://wiki.cyverse.org/wiki/x/dgGtAQ). Förklaring av alla kommandon finns på wikisidan.
2. När analysmappen och Trinotat-databaserna har upprättats, kör Trinity Assembler med kommandona ovanifrån. Det finns flera utdatafiler, men det viktigaste är den slutliga monteringsfilen "Trinity.fasta". Byt namn på denna FASTA-fil för att vara unik för organismen och behandlingen av den samlade läsningen innan du flyttar den till datalagret (mapp 3_Assembly) för att minimera eventuell förvirring.
  OBS: Utgången räknar tabeller för differentiell genuttrycksanalys i en mapp (4_Differential_Expression).
Bedöm aggregatet med hjälp av rnaQUAST ( Figur 4 ).
1. Flytta Treenighetsutdatafilerna till mappen "3_Assembly" i DE och märka mappen "A_Trinity_de_novo_assembly." Ge varje transkriptom som sammansatt en undermapp inuti mappen "A_Trinity_de_novo_assembly" med unika namn inklusive det vetenskapliga namnet på organismer och behandlingar som är associerade med varje transkriptom. Skapa en annan undermapp som heter "B_rnaQUAST_Output" i mappen "3_Assembly".
2. Öppna appen med titeln "rnaQUAST 1.2.0 (denovo-baserad)" och namnge analysen och välj "B_rnaQUAST_Output" som utmatningsmapp.
  1. Lägg till FASTA-filen (de) för de novo -sammansättningen till "Data Input" -delen. I avsnittet "Data Output" skriver du ett unikt namn för de novo
3. Välj ytterligare alternativ i avsnittet "GenemarkS-T Gene Prediction", "BUSCO" och "Parameters".
  1. Välj prokaryot i avsnittet "GenemarkS-T Gene Prediction" om organismen inte är eukaryotisk.
  2. Kör BUSCO för att välja bläddringsknappen och kopiera sökvägen iplant / hem / delad / iplantcollaborative / example_data / BUSCO.sample.data i rutan "Viewing:" och tryck på enter. Välj den mest specifika BUSCO-mappen som är tillgänglig för organismen.
    OBS: BUSCO ska bedöma aggregatet för slitsspecifika kärngener och utdata vilken procentandel av kärngener som finns. Det finns allmänna mappar, t.ex. eukaryot, och mer specifika linjer, t.ex. arthropoda.
Sök efter "Transcript decoder" och kör Transdecoder på de novO Trinity assembly output FASTA fil i Discovery Environment.
Flytta utdata .pep-filen till mappen de novo assembly (3_Assembly) för användning i steg 5 Annotation.

4. Pairwise Differential Expression med DESeq2 i DE

Öppna DESeq2 appen i DE som beskrivits tidigare. Nämn analysen och välj utmatningsmappen som 4_Differential_Expression.
I avsnittet "Inputs" väljer du tabellräkningsfilen från Trinity Assembly Run och den kolumn som Kontignamnen finns i den räknatabellen.
Ange kolumnrubrikerna från tabelldatafilen för att bestämma vilka kolumner som ska jämföras. Inkludera kommatecken mellan var och en av villkoren. Ta inte med den första kolumnrubriken som innehåller kontendomen.
För replikat, upprepa samma namn ( t.ex. Behandling1rep1, Behandling1rep2, Behandling1rep3 blir Behandling1, Behandling1, Behandling1). I thE andra raden, ange namnen på de två villkoren som ska jämföras ( t.ex. Behandling1, Behandling2). Matcha kolumnrubriknamnen som anges i första raden.
OBS! Dessa kolumnrubriker måste vara alfanumeriska och kan inte innehålla några specialtecken.

5. Anteckning med hjälp av trinotat

Kör varje del av Trinotate i atmosfären cloud computing instans. Obs! Baskommandon finns i en txt-fil som ska kopieras, klistras och sedan ändras innan de körs på DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) eller på wikisidan (https://wiki.cyverse.org/ wiki / x / dgGtAQ). Om du antecknar flera sammansättningar antecknar du varje enhet en åt gången och överför sedan färdiga annoteringsfiler tillbaka till mapp "5_Annotation" var och en med en unik mapp som motsvarar monteringsnamnet.
1. Kör bash-kommandot för att söka Trinity-transkript. Ändra antalet trådar för att matcha hur många CPU: er som ärPå förekomsten, dvs medium har 4 processorer och stora har 8 processorer. Se steg 3.1.2 för mer information. Ändra kommandot Trinity.fasta för att matcha montering FASTA filnamn.
  OBS: BLAST + sökningar kräver mest tid. Det kan vara dagar innan det slutförts. Cloud-datorns aktivitet kan kontrolleras i Atmosphere utan att behöva ta fram VNC Viewer.
2. Kör bash-kommandot för att söka Transdecoder-predicted proteins. Ändra trådenummer och filnamn för att matcha villkoren i 5.2.1 som tidigare.
3. Kör bash-kommandot för HMMER och ändra antalet trådar som ovan.
4. Kör bash-kommandot för signalP och tmHMM vid behov. SignalP kommer att förutsäga signalpeptider och tmHMM förutsäger transmembranproteinmotiv.
Laddar resultat i SQLite-databasen
1. När alla ovanstående analyser är klara, kör bash-kommandot för att ladda utdatafiler till en slutlig SQLite-annotationsdatabas. Ta bort kommandonFör analyser som inte kördes.
2. Exportera SQLite-databasen till en .xls-fil för visning i populära bordsvisare.

Representative Results

När projektorganisationsfilerna har skapats ( Figur 1 och 2 ) är den första uppgiften i det här arbetsflödet att bedöma de råa sekvenseringsfilerna och sedan rengöra dem genom trimning och kvalitetsfiltrering. FastQC kommer att generera läsbar sammanfattningsstatistik om kvalitetsresultat och längd av sekvenser från FASTQ-filformatet. FastQC-figurerna jämförs sedan före och efter trimning för att bedöma om den slutliga läsningen är av hög kvalitet och därför lämplig för montering. "Per basföljdskvalitet" visar den genomsnittliga kvaliteten av läser över varje baspar av sekvensering. Det är bäst att ha ett phred kvalitetsresultat över 20-28 som indikeras av färgerna på FastQC-figurerna. "Kvalitetspoäng per sekvens" bestämmer huruvida kvalitetsfiltrering av läsningar kan vara nödvändigt. Om alltför många läser har en genomsnittlig poäng under 20-25 kan det vara nödvändigt att filtrera baserat på genomsnittlig läskvalitet. "Per bassekvensinnehåll" bör visa en jämn fördelning över alla fyra nukleotidbaser. Om det finns bias i nukleotidinnehållet visas, kan trimmarändar vara nödvändiga. "Per bas GC-innehåll bör också vara jämnt över alla positioner. Om det finns en vagga kan läsningarna behöva trimmas som i 1.4.4.3." GC-innehåll per sekvens "bör vara en normal fördelning. Adapter eller polymeraskedjereaktion (PCR ) Produkter kan kontaminera i sekvenseringsbiblioteket och skeva den normala fördelningen. I detta fall kan adapter trimning vara nödvändigt. "Sekvenslängdsfördelning" ger genomsnittslängderna för alla läsningar. Läser mindre än 35-45 baspar är vanligtvis filtrerade ut. "Sequence duplication levels" visar hur många gånger en given läs sekvens ses i biblioteket. Mycket duplicerad läsföljd och räkning finns i avsnittet "Överrepresenterade sekvenser". FastQC försöker också identifiera om duplicerad läsningÄr adderingssekvens eller andra kända sekvenser associerade med sekvenseringsplattformar. En etikett med "No Hit" betyder att sekvensen ska undersökas vidare med NCBI BLAST ^{6 för} att bestämma om det är en biologiskt relevant sekvens eller om den ska tas bort. DE har också flera versioner av BLAST tillgängliga. DE BLASTn-appen finns tillgänglig på: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Efter att obehandlad sekvensering har screenats för att producera högkvalitativa läsningar, måste läsningarna monteras för att skapa sammanhängande sekvenser (contigs). Kortfattat skapas församlingar genom att anpassa all den korta sekvensen som läser för att hitta liknande sekvenser. Områden med liknande sekvens som är större än en viss längd anses vara saMig sekvensen eftersom sannolikheten för en slumpmässigt förekommande liknande sekvens av en viss längd är nästan noll. Trinity kommer att utmata loggfiler, fasta filer för varje steg i monteringsprocessen. Den viktigaste utgången är dock den sista monteringsfilen som innehåller contigs, som är märkt "Trinity.fasta" och finns i huvudmappen. Den här filen innehåller alla de sammansatta kontigren, och i sig är det inte praktiskt taget "mänskligt läsbar". Därför kan rnaQUAST-verktyget användas för att förstå enheten i mer djup. RnaQUAST-verktyget kommer att mata ut siffror som gör det möjligt för användarna att jämföra enheter för att bestämma vilka som är mest kompletta ( Figur 4 ). Ytterligare information om varje figur från rnaQUAST finns på wikien ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Om BUSCO ⁷ kördes är speciellt intresse specificity.txt-filen som visar antalet kompletta och pArtial BUSCO-gener och antalet GenMarkS-T-genprognoser i en sammansättning. BUSCO-gener är en kuratiserad uppsättning gener som är gemensamma för en grupp av organismer. De kan användas för att bedöma hur väl en samling är att fånga uppsättningar av gener som förväntas vara närvarande i vilken typ av organism som helst, vilket är baserat på fylogenetiska klister. En fristående BUSCO-app finns också i DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

Differentiell genuttrycksanalys identifierar transkript som har olika uttrycksmönster över behandlingar från enkla räkningar per samlad transkripttabell. DESeq2 använder en generaliserad linjär modell (GLM) för att bestämma variationen från ett normaliserat medelvärde. Experiment med replikat föredras så att teknisk variation frOm sekvensering kan normaliseras av DESeq2-algoritmen. DESeq2 DEG-analys ger siffror och en .html-rapportfil som innehåller alla utdata och en beskrivning. Alternativt kan EdgeR användas istället för DESeq2, och samma .html-rapport kommer att genereras med EdgeR-visualiseringar istället. Forskare kanske vill springa både DESeq2 och EdgeR för att hitta differentiellt uttryckta gener identifierade av båda algoritmerna för ett visst experiment. Trinotate kommer att skapa en output .xls-fil som kan öppnas i något kalkylprogramsprogram. DEG.txt-filerna och annoteringen .xls-filen kan analyseras och visualiseras i många nedströms applikationer som existerar utanför CyVerse-plattformen.

Figur 3
Figur 3: FastQC-rapporter av ojämn sekvensering läser, trimmade läsningar och slutliga trimmade och filtrerade läsningar. Systematisk jämförelse av sekvenseringsläsningS efter varje förbehandlingssteg. Högkvalitativa läsningar är nödvändiga för att montera de novo transkriptomerna. FastQC kan hjälpa forskare att förstå initialkvaliteten av deras sekvenseringsdata och spåra hur effektivt läsningarna har förbehandlats. Resultaten från FastQC beror på organismerna och proverna sekvenseras, men likformighet över alla prover som jämförs nedströms är det primära målet för förbehandlingsläsning. En handledning video och dokumentation finns från författarna och utvecklarna av FastQC. Vänligen klicka här för att se en större version av denna figur.

Figur 4
Figur 4: RNAQUAST Rapporter av tre separata församlingar. RnaQUAST kan användas för att jämföra flera läsaggregat med samma montering eller flera a Ssemblers använder samma initiala läsningar. RnaQUAST utnyttjar BUSCO för att generera sammanfattande statistik om sammansättningar baserade på kända kärngener som finns i taxonomiska kläder. Antalet felmatchningar per transkript och hur många transkript matchar till kanoniska gener, matchad fraktion, ger insikt om monteringarnas noggrannhet. De sista fyra delproverna som presenteras här ger sammanfattande statistik över contig och isoformlängd och täckningen av förväntade isoformer. NAx representerar procenten (x) av contigs med en längd längre än längden (bp) på y-axeln. Sammansatt fraktion är det längsta singelmonterade transkriptet dividerat med dess längd. Omfattad fraktion är andelen av färdigmonterade transkript / isoformer som förväntat av de centrala prokaryota eller eukaryota generna från BUSCO. En beskrivning av alla grafer genererade av rnaQUAST är tillgänglig ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Vänligen klicka här för att se en större version av denna figur.

Appnamn	CyVerse Platform	Dokumentation från tredje part	CyVerse Dokumentation	Beräknad Runtime för Sample Data Set	Länk till App
FastQC	DE	http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 min	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatisk v0.33	DE	https://github.com/timflutre/trimmomatic	https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0,33	30 minuter	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69
Skära	DE	https://github.com/najoshi/sickle	https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 minuter	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
treenighet	Atmosfär	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + kopia	1 vecka	https: //atmo.iplantcollaborative. org / application / bilder / 1261
	DE		https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 dagar	https: // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, Atmosfär	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https: //pods.iplantcollaborative. org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + bygger% 29 + med + DE	30 minuter	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352
Transdecoder	DE	https://transdecoder.github.io	https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 timmar	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	DE	https://bioconductor.org/packages/release/bioc/html/DESeq2.html	https: //pods.iplantcollaborative. org / wiki / sidor /viewpage.action? pageid = 28115142	2-3 timmar	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621
Kantskärare	DE	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 timmar	https: //de.iplantcollaborative. org / de /? type = appar och app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621
Trinotate	Atmosfär	https://trinotate.github.io/	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphere + kopia	1 vecka	https: //atmo.iplantcollaborative. org / application / bilder / 1261

Tabell 1: Analysprogram, plattformar som de är tillgängliga på, aNd Ytterligare resurser tillgängliga för arbetsflödena i ordning efter första utseende. Alla paketversioner är aktuella från och med april 2016.

Discussion

Det finns fem kritiska steg i protokollet som varje gång skapar en egen separat mapp inuti huvudprojektmappen ( figur 1 och 2 ). Alla primära råa sekvenseringsdata är sakrosana: den ska laddas upp och hållas i den första mappen märkt "1_Raw_Sequence" och ändras inte på något sätt. Data kan laddas upp på ett av tre sätt. DE-gränssnittet kan användas för att ladda upp filer direkt. Det här är det enklaste sättet att ladda upp data, men det tar också längst att överföra. Cyberduck har ett grafiskt gränssnitt och tillåter användare att dra och släppa filer för att överföra till DE. ICommands är ett kommandoradsverktyg som kan användas för att överföra data till och från datalagret, göra kataloger och hantera dataset och är sannolikt det snabbaste sättet att överföra datafiler. Alla data i datalagret kan delas med andra CyVerse-användare (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Miljö) publiceras via en genererad webbadress (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), eller kan vara värd som offentligt och anonymt ( Inget användarnamn krävs) tillgängliga gemenskapsdata (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Inne i den mappen analyseras de råa sekvensläsningarna med FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) för att bedöma hur man trimmer och filtrerar läsarna för att generera högkvalitativa läsningar. Efter trimning och kvalitetsfiltrering är det användbart att jämföra FastQC-utgångarna för att bestämma om läskvaliteten har ändrats för att fastställa att den har blivit bättre utan att förlora information ( figur 3 ). Observera att xQ-axeln för FastQC inte är linjär, utan snarare inderad för många utmatningsgrafer, vilket kan leda till feltolkning av resultat. De trimmade och filtrerade läsningarna används sedan för att montera de novo transkriptomerna med hjälp av en atmosfär cloud computing instans. DettaMolndatorn använder den lokala datorskärmen, tangentbordet och musen, men har sin egen programvara (Trinity and Trinotate) och hårdvara installerad. Köra program på molndatorns instans påverkar inte på något sätt den lokala datorn. De novo -sammansättningen och nedströmsannotationen kommer sannolikt att vara de två längsta spåren i detta arbetsflöde. Därför är de slutförda på Atmosfär för att undvika vanliga lab-delade datorproblem som skulle störa analysen som strömavbrott, startar om efter automatiska uppdateringar i slutet av natten eller kraschar orsakade av andra användare. Trinotatanotation använder BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ och PFAM ¹¹ . Den slutliga produktionen av annotering är en SQLite-databas och en .xls-fil. Utgångarna kan användas utanför CyVerse i nedströmsanalysplattformar som KEGG ¹² ^, ¹³ .

Detta arbetsflödeÄr redo att användas i DE och Atmosphere. Detta eliminerar behovet av att spendera tid att installera, konfigurera och felsöka varje analyspaket och alla beroenden som varje verktyg kräver. Detta effektiviserar forskarnas analyser, minimerar bortkastad ansträngning och sänker inträdesbarriären för många forskare. Detta arbetsflöde samlar specifikt antingen singel- eller parade-ände läser från Illumina-sekvenseringsplattformen, men många verktyg finns i DE och Atmosphere för att hantera andra typer av sekvenseringstekniker. Verktyg i detta arbetsflöde kan enkelt ersättas med ett motsvarande alternativt verktyg för att hantera vilken typ av inkommande sekvenseringsteknik som helst. Det gäller även nya versioner av analysverktyg eller helt nya verktyg.

Detta arbetsflöde är speciellt utformat för att montera, jämföra och annotera endast några transkriptomer åt gången. Därför kan användarna finna det tidskrävande att montera flera transkriptomer för jämförande populationsgenetik. AnalysRörledningar kommer att vara tillgängliga för befolkningsgenetikanvändare inom en snar framtid och länken till rörledningen finns på wikisidan (https://wiki.cyverse.org/wiki/x/dgGtAQ). Differentiella genuttrycksanalyssteget kan hantera replikat, men det är en parvis jämförelse och kommer inte att exakt utvärdera flera faktorer ( t.ex. förhållanden som varierar över tid, mer än två behandlingar). Automatiserade arbetsflöden finns för organismer med referensgenomgångar ( t.ex. TRAPLINE ¹⁴ ). Medan automatiserade arbetsflöden är enklaste att använda för nybörjare, kräver de novo- sammansättningar bedömning och överväganden för varje steg som beskrivs här. Dessutom måste användarna använda automatiserade rörledningar som de är konstruerade och är därför i sig inte flexibla för att möta användarnas förändrade krav.

Eftersom det mesta av detta protokoll utförs via Internet kan användarna få problem med sina webbläsarinställningar. För det första,Popup-blockerare kan hålla windows från att öppna alls eller kan hålla windows från att öppnas tills tillstånd ges till CyVerse i webbläsaren. Atmosfär använder VNC för åtkomst till fjärrskrivbord, men annan mjukvara kan användas. Hela protokollet utfördes i Firefox version 45.0.2 och bör fungera med alla populära webbläsare, men vissa inkonsekvenser kan uppstå. Arbetsflödet uppdateras när Trinity släpper ut nya versioner (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De senaste versionerna och aktuell information om arbetsflödet finns på wiki-handledningssidan ( Tabell 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Användare kan kontakta support direkt eller posta frågor på Ask CyVerse (ask.cyverse.org/) för att felsöka några problem med arbetsflödet.

I DE finns flera appar för att utföra varje steg i detta protokoll. Till exempel kan användare vilja springa Scythe (https://github.com/najoshi/sickle) istället för Trimmomatic¹⁵ för läsning eller körning EdgeR ¹⁶ istället för DESeq ¹⁷ ^, ¹⁸ . Även utanför det här manuskriptets omfattning kan DE-apparater kopieras, redigeras och släppas av användare (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) eller nya appar kan läggas till av användare (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Atmosfärsbilderna kan också modifieras och omformas för att skapa nya eller ändrade arbetsflöden som matchar användarnas behov mer specifikt (https://wiki.cyverse.org/wiki/x/TwHX). Detta arbete är en introduktion till att använda kommandoraden för att flytta data och genomföra analyser. Användare kan överväga att använda mer avancerade kommandoradsresurser som CyVerse applikationsprogrammeringsgränssnitt (APIs) (http://www.cyverse.org/scienceapis) eller att designa egna DE-appar, som kräver kunskapOm hur analysverktyget körs på kommandoraden (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261