Biology

En bioinformatikpipeline för att undersöka molekylär evolution och genuttryck med RNA-seq

Published: May 28, 2021 doi: 10.3791/61633

¹Department of Developmental and Cell Biology, University of California, Irvine

Summary

Syftet med detta protokoll är att undersöka utvecklingen och uttrycket av kandidatgener med hjälp av RNA-sekvenseringsdata.

Abstract

Destillering och rapportering av stora datamängder, till exempel hela genom- eller transkriptomdata, är ofta en skrämmande uppgift. Ett sätt att bryta ner resultat är att fokusera på en eller flera genfamiljer som är viktiga för organismen och studien. I detta protokoll beskriver vi bioinformatiska steg för att generera en fylogeni och kvantifiera uttrycket av gener av intresse. Fylogenetiska träd kan ge insikt i hur gener utvecklas inom och mellan arter samt avslöja ortologi. Dessa resultat kan förbättras med hjälp av RNA-seq data för att jämföra uttrycket av dessa gener i olika individer eller vävnader. Studier av molekylär evolution och uttryck kan avslöja utvecklingssätt och bevarande av genfunktionen mellan arter. Karakteriseringen av en genfamilj kan fungera som en språngbräda för framtida studier och kan lyfta fram en viktig genfamilj i ett nytt genom eller transkriptompapper.

Introduction

Framsteg inom sekvenseringsteknik har underlättat sekvensering av genom och transkriptomer av icke-modellorganismer. Förutom den ökade genomförbarheten av sekvensering av DNA och RNA från många organismer, är ett överflöd av data offentligt tillgängligt för att studera gener av intresse. Syftet med detta protokoll är att tillhandahålla bioinformatiska steg för att undersöka den molekylära evolutionen och uttrycket av gener som kan spela en viktig roll i organismen av intresse.

Att undersöka utvecklingen av en gen- eller genfamilj kan ge insikt i utvecklingen av biologiska system. Medlemmar av en genfamilj bestäms vanligtvis genom att identifiera bevarade motiv eller homologa gensekvenser. Genfamiljens evolution undersöktes tidigare med hjälp av genom från avlägset besläktade modellorganismer¹. En begränsning av detta tillvägagångssätt är att det inte är klart hur dessa genfamiljer utvecklas i närbesläktade arter och rollen för olika miljöselektiva tryck. I detta protokoll inkluderar vi en sökning efter homologer i närbesläktade arter. Genom att generera en fylogeni på fylumnivå kan vi notera trender i genfamiljens utveckling som konserverade gener eller härstamning-specifika dubbleringar. På denna nivå kan vi också undersöka om gener är ortologer eller paraloger. Medan många homologer sannolikt fungerar på samma sätt som varandra, är det inte nödvändigtvis fallet². Att införliva fylogenetiska träd i dessa studier är viktigt för att avgöra om dessa homologa gener är ortoologer eller inte. I eukaryoter behåller många ortologer liknande funktioner i cellen, vilket framgår av däggdjursproteinernas förmåga att återställa funktionen hos jästortologer³. Det finns dock fall där en icke-ortologisk gen utför en karakteriserad funktion⁴.

Fylogenetiska träd börjar avgränsa relationer mellan gener och arter, men funktionen kan inte tilldelas enbart baserat på genetiska relationer. Genuttrycksstudier i kombination med funktionella anteckningar och anrikningsanalys ger starkt stöd för genfunktionen. Fall där genuttryck kan kvantifieras och jämföras mellan individer eller vävnadstyper kan vara mer talande för potentiell funktion. Följande protokoll följer metoder som används för att undersöka opsingener i Hydra vulgaris⁷, men de kan tillämpas på alla arter och alla genarter. Resultaten av sådana studier utgör en grund för ytterligare undersökning av genfunktion och gennätverk i icke-modellorganismer. Som ett exempel ger undersökningen av fylogeni av opsiner, som är proteiner som initierar fototransduktionskaskaden, sammanhang till utvecklingen av ögon och ljusdetektering⁸^,⁹^,¹⁰^,¹¹. I detta fall kan icke-modellorganismer, särskilt basala djurarter som cnidarians eller ctenophores, klargöra bevarande eller förändringar i fototransduktionskaskaden och synen över^{kladderna 12}^,¹³^,¹⁴. På samma sätt kommer bestämning av fylogeni, uttryck och nätverk av andra genfamiljer att informera oss om de molekylära mekanismerna bakom anpassningar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Detta protokoll följer UC Irvine riktlinjer för djurvård.

1. RNA-seq biblioteksförberedelse

Isolera RNA med följande metoder.
1. Samla in prover. Om RNA ska extraheras vid ett senare tillfälle, frys provet eller placera provet eller placera i RNA-lagringslösning¹⁵ (Materialförteckning).
2. Avliva och dissekera organismen för att separera vävnader av intresse.
3. Extrahera totalt RNA med hjälp av ett extraktionskit och rena RNA med hjälp av ett RNA-reningskit(Table of Materials)
  OBS: Det finns protokoll och kit som kan fungera bättre för olika arter och vävnadstyper¹⁶^,¹⁷. Vi har extraherat RNA från olika kroppsvävnader av en fjäril¹⁸ och en gelatinös Hydra¹⁹ (se diskussion).
4. Mät koncentrationen och kvaliteten på RNA för varje prov(materialförteckning). Använd prover med RNA-integritetsnummer (RIN) högre än 8, helst närmare 9^{20 för} att konstruera cDNA-bibliotek.
Konstruera cDNA-bibliotek och sekvens enligt följande.
1. Bygg cDNA-bibliotek enligt bibliotekets instruktionsbok (se diskussion).
2. Bestäm cDNA-koncentration och kvalitet (Materialförteckning).
3. Multiplexera biblioteken och sekvensera dem.

2. Komma åt ett datorkluster

OBS: RNA-seq-analys kräver manipulering av stora filer och görs bäst på ett datorkluster(Table of Materials).

Logga in på datorklusterkontot med kommandot ssh username@clusterlocation på ett programfönster (Mac) eller PuTTY (Windows).

3. Få RNA-seq-läsningar

Få RNA-seq-läsningar från sekvenseringsanläggningen eller, för data som genereras i en publikation, från datalagringsplatsen där den deponerades (3.2 eller 3.3).
Så här hämtar du data från databaser som ArrayExpress:
1. Sök på webbplatsen med anslutningsnumret.
2. Hitta länken för att hämta data, sedan vänsterklicka och välj Kopiera länk.
3. Skriv wget och välj Klistra in länk i terminalfönstret för att kopiera data till katalogen för analys.
Så här laddar du ned SRA-data (NCBI Short Read Archive) gör följande:
1. På terminal nedladdning SRA Toolkit v. 2.8.1 med wget.
  Om du hämtar och installerar program till datorklustret kan det krävas root-åtkomst kontaktar du datorklusteradministratören om installationen misslyckas.
2. Avsluta installationen av programmet genom att skriva tar -xvf $TARGZFILE.
3. Sök NCBI efter SRA-anslutningsnumret för de prover du vill ladda ner, det ska ha formatet SRRXXXXXX.
4. Hämta RNA-seq-data genom att skriva [sratoolkit-plats]/bin/prefetch SRRXXXXXXXX i terminalfönstret.
5. För parkopplade filer typ [sratoolkit plats]/bin/fastq-dump --split-files SRRXXXXXX för att få två fastq filer (SRRXXXXXX_1.FASTQ och SRRXXXXXX_2.FASTQ).
  OBS: För att göra en Trinity de novo-sammansättning använder du kommandot [sratoolkit plats]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRRXXXXXX

4. Trimadaptrar och lågkvalitativa avläsningar (tillval)

Installera eller ladda Trimmomatic²¹ v. 0.35 i datorklustret.
I katalogen där RNA-seq-datafilerna finns skriver du ett kommando som inkluderar platsen för den trimmomatiska jar-filen, indata-FASTQ-filerna, utdata-FASTQ-filer och valfria parametrar som läslängd och kvalitet.
OBS: Kommandot varierar beroende på den råa och önskade kvaliteten och längden på läsningarna. För Illumina 43 bp läser med Nextera primers, vi använde: java -jar /data/apps/trimmomatic/0.35/trimmomatic-0.35.jar PE $READ 1. FASTQ $READ 2. FASTQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ ILLUMINACLIP:adapters.fa:2:30:10 LEADING:20 TRAILING:20 SLIDINGWINDOW:4:17 MINLEN:30.

5. Skaffa referensenhet

Sök på google, EnsemblGenomes och NCBI Genomes and Nucleotide TSA (Transcriptome Shotgun Assembly) efter ett referensgenom eller monterad transkriptom för den art som är av intresse (figur 1).
OBS: Om ett referensgenom eller transkriptom inte är tillgängligt eller av låg kvalitet, fortsätt till steg 6 för att generera en de novo-enhet.
Om det finns ett referensgenom eller en monterad transkriptom, ladda ner det som en fast fil till där analysen kommer att utföras enligt stegen nedan.
1. Hitta länken för att ladda ner genomet, vänsterklicka och Kopiera länk.
2. Skriv wget och klistra in länkadressen i terminalfönstret. Om tillgängligt, kopiera också GTF-filen och protein FAST-filen för referensgenomet.

6. Generera en de novo-enhet (alternativ till steg 5)

Kombinera RNA-seq READ1- och READ2 fastq-filerna för alla prover genom att skriva katt *LÄS1. FASTQ > $all_READ1. FASTQ och katt *READ2. FASTQ > all_READ2. FASTQ på terminalfönstret.
Installera eller ladda Trinity²² v.2.8.5 i datorklustret.
Generera och montera genom att skriva på terminalen: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ --höger $all_READ2. FASTQ, det är jag.

7. Kartan läser till genomet (7.1) eller de novo transkriptom (7.2)

Kartan läser till referensgenomet med STAR²³ v. 2.6.0c och RSEM²⁴ v. 1.3.0.
1. Installera eller ladda STAR v. 2.6.0c. och RSEM v. 1.3.0 till datorklustret.
2. Indexera genomet genom att skriva rsem-prepare-reference --gtf $GENOME. GTF --star -p 16 $GENOME. FASTA $OUTPUT.
3. Mappa läser och beräkna uttryck för varje exempel genom att skriva rsem-calculate-uttryck -p 16 --star --paired-end $READ 1. FASTQ $READ 2. FASTQ $INDEX $OUTPUT.
4. Byt namn på resultatfilen till något beskrivande med mv RSEM.genes.results $sample.genes.results.
5. Generera en matris med alla antal genom att skriva rsem-generate-data-matrix *[genes/isoforms.results] > $OUTPUT.
Mappa RNA-seq till Trinity de novo-enheten med RSEM och bowtie.
1. Installera eller ladda Trinity²² v.2.8.5, Bowtie²⁵ v. 1.0.0 och RSEM v. 1.3.0.
2. Mappa läser och beräkna uttryck för varje exempel genom att skriva [trinity_location]/align_and_estimate_abundance.pl --prep-reference --$TRINITY. FASTA --seqType fq --vänster $READ 1. FASTQ --höger $READ 2. FASTQ --est_method RSEM --aln_method bowtie --trinity_mode --output_dir $OUTPUT.
3. Byt namn på resultatfilen till något beskrivande med mv RSEM.genes.results $sample.genes.results.
4. Generera en matris med alla antal genom att skriva [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[gener/isoformer].results

8. Identifiera gener av intresse

OBS: Följande steg kan göras med nukleotid eller protein FASTA filer men fungerar bäst och är mer okomplicerade med proteinsekvenser. BLAST-sökningar med protein till protein är mer benägna att ge resultat vid sökning mellan olika arter.

För ett referensgenom, använd proteinet FASTA fil från STEG 5.2.2 eller se Kompletterande material för att generera en anpassad genfunktion GTF.
För en de novo transkriptom, generera ett protein FASTA med TransDecoder.
1. Installera eller ladda TransDecoder v. 5.5.0 på datorkuppen.
2. Hitta den längsta öppna läsramen och förutspådde peptidsekvensen genom att skriva [Transdecoder location]/TransDecoder.LongOrfs -t $TRINITY. FASTA, DET ÄR EN FAST.
Sök NCBI Genbank efter homologer i närbesläktade arter.
1. Öppna ett webbläsarfönster och gå till https://www.ncbi.nlm.nih.gov/genbank/.
2. På sökfältet skriver du namnet på den gen av intresse och namnet på närbesläktade arter som har sekvenserats eller släktet eller fylumen. Till vänster om sökfältet väljer du protein och klickar sedan på sök.
3. Extrahera sekvenser genom att klicka på Skicka till och välj sedan Arkiv. Under Format väljer du FASTA och klickar sedan på Skapa fil.
4. Flytta FASTA-fil med homologgar till datorklustret genom att skriva scp $FASTA username@clusterlocation:/$DIR i ett lokalt terminalfönster eller använda FileZilla för att överföra filer till och från dator och kluster.
Sök efter kandidatgener med BLAST+²⁶.
1. Installera eller ladda BLAST+ v. 2.8.1 i datorklustret.
2. I datorklustret gör du en BLAST-databas från genomet eller transkriptomöversatte proteinet FASTA genom att skriva [BLAST+-plats]/makeblastdb -in $PEP. FASTA -dbtype prot -out $OUTPUT
3. BLAST de homologa gensekvenserna från NCBI till databasen över de arter som är av intresse genom att skriva [BLAST + plats]/blastp -db $DATABASE -query $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUT.
4. Visa utdatafilen med kommandot mer. Kopiera unika gen-ID:t från den intresseart som finns till en ny textfil.
5. Extrahera sekvenserna av kandidatgener genom att skriva perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?print:chomp;$i{$_}=1 if @ARGV' $gene_id.txt $PEP. FASTA > $OUTPUT.
Bekräfta genanteckning med ömsesidig BLAST.
1. I webbläsaren går du till https://blast.ncbi.nlm.nih.gov/Blast.cgi.
2. Välj tblastnoch klistra sedan in kandidatsekvenserna, välj databasen för icke-redundant proteinsekvens och klicka på BLAST.
Identifiera ytterligare gener genom att kommentera alla gener i genomet eller transkriptom med gen ontologi (GO) termer (se diskussion).
1. Överför proteinet FASTA till den lokala datorn.
2. Ladda ner och installera Blast2GO²⁷^,²⁸^,²⁹ v. 5.2 till den lokala datorn.
3. Öppna Blast2GO, klicka på Arkiv, gå till Ladda, gå till Läs in sekvenser, klicka på Ladda Fast Fil (fasta). Markera FAST-filen och klicka på Läs in.
4. Klicka på Blast, välj NCBI Blastoch klicka på Nästa. Redigera parametrar eller klicka på Nästa, redigera parametrar och klicka på Kör för att hitta den mest liknande genbeskrivningen.
5. Klicka på mappning och sedan på Kör för att söka i gen ontologi anteckningar för liknande proteiner.
6. Klicka sedan på interpro, välj EMBL-EBI InterProoch klicka på Nästa. Redigera parametrar eller klicka på Nästaoch klicka på Kör om du vill söka efter signaturer för kända genfamiljer och domäner.
7. Exportera anteckningarna genom att klicka på Arkiv , välj Exportera, klicka på Exportera tabell. Klicka påBläddra , namnge filen, klicka på Spara, klicka på Exportera.
8. Sök i anteckningstabellen efter GO-villkor för att identifiera ytterligare kandidatgener. Extrahera sekvenserna från FAST-filen (STEG 8.4.5)

9. Fylogenetiska träd

Ladda ner och installera MEGA³⁰ v. 7.0.26 till din lokala dator.
Öppna MEGA, klicka på Justera, klicka på Redigera/skapa justering, välj Skapa en ny justering klicka på OK, välj Protein.
När justeringsfönstret öppnas klickar du på Redigera, klickar på Infoga sekvenser från filen och väljer FASTA med proteinsekvenser av kandidatgener och troliga homologer.
Markera alla sekvenser. Hitta armsymbolen och hovra över den. Det borde stå Justera sekvenser med MUSCLE^{31-algoritmen.} Klicka på armsymbolen och klicka sedan på Justera protein för att justera sekvenserna. Redigera parametrar eller klicka på OK för att justera med standardparametrar.
Inspektera och gör eventuella manuella ändringar visuellt och spara och stäng justeringsfönstret.
I huvud-MEGA-fönstret klickar du på Modeller, klickar på Hitta bästa DNA / Protein-modeller (ML),väljer justeringsfilen och väljer motsvarande parametrar som: Analys: Modellval (ML), Träd att använda: Automatisk (grannsammanfogningsträd), Statistisk metod: Maximal sannolikhet, Substitutionstyp: Aminosyra, Gap / saknad databehandling: Använd alla platser, Grenplatsfilter: Ingen.
När den bästa modellen för data har bestämts går du till huvud-MEGA-fönstret. Klicka på Fylogeni och klicka på Contruct/Test Maximum Likelihood Tree och välj sedan justeringen om det behövs. Välj lämpliga parametrar för trädet: Statistisk metod: Maximal sannolikhet, Test av fylogeni: Bootstrap-metod med 100 replikat, substitutionstyp: aminosyra, modell: LG med Freqs. (+F), frekvenser mellan platser: gamma fördelad (G) med 5 diskreta gammakategorier, gap/saknad databehandling: använd alla platser, ML heuristisk metod: Närmaste grann-utbyte (NNI).

10. Visualisera genuttryck med TPM

För Trinity går du till katalogen där abundance_estimates_to_matrix.pl och en av utgångarna ska vara matris. TPM.not_cross_norm. Överför den här filen till den lokala datorn.
OBS: Se kompletterande material för korsprovsnormalisering.
För TPM:er från en genomanalys följer du stegen nedan.
1. Gå till installationsplatsen för RSEM i datorklustret. Kopiera rsem-generate-data-matrix genom att skriva scp rsem-generate-data-matrix rsem-generate-TPM-matrix. Använd nano för att redigera den nya filen och ändra "min $offsite = 4" från 4 till 5 för TPM, det ska nu läsa "min $offsite = 5".
Gå till katalogen där RSEM-utdatafilerna .genes.results är och använd nu rsem-generate-TPM-matrix *[genes/isoforms.results] > $OUTPUT att generera en TPM-matris. Överför resultat till en lokal dator.
Visualisera resultaten i ggplot2.
1. Ladda ner R v. 4.0.0 och RStudio v. 1.2.1335 till en lokal dator.
2. Öppna RStudio till höger på skärmen gå till fliken Paket och klicka på Installera. Skriv ggplot2 och klicka på installera.
3. I R-skriptfönstret läser du i TPM-tabellen genom att skriva data<-read.table("$tpm.txt",header = T)
4. För stapeldiagram som liknar figur 4 skriver du något som liknar: p<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), data=data, stat="identity")
  fill<-c("#d7191c","#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
  p<-p+scale_fill_manual(values=fill)
  p + tema(axis.text.x = element_text(vinkel = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Metoderna ovan sammanfattas i figur 1 och tillämpades på en datauppsättning Hydra vulgaris vävnader. H. vulgaris är ett sötvatten ryggradslösa djur som tillhör fylum cnidaria som också innehåller koraller, maneter och havsanemoner. H. vulgaris kan reproducera asexuellt genom att spira och de kan regenerera huvudet och foten när de är tudelade. I denna studie syftade vi till att undersöka utvecklingen och uttrycket av opsingener i Hydra⁷. Medan Hydra saknar ögon, uppvisar de ljusberoende beteende³². Opsin gener kodar proteiner som är viktiga i visionen för att upptäcka olika våglängder av ljus och börja fototransduktionskaskaden. Att undersöka den molekylära evolutionen och uttrycket av denna genfamilj hos en basal art kan ge insikt i utvecklingen av ögon och ljusdetektering hos djur.

Vi genererade en guidad montering med hjälp av referensgenomet Hydra^{2.0 33} och allmänt tillgängliga RNA-seq-data (GEO accession GSE127279) Figur 1. Detta steg tog ungefär 3 dagar. Även om vi inte genererade en de novo transkriptom i detta fall, kan en Trinity montering ta upp till 1 vecka att generera och varje bibliotek kan ta några timmar för läsmappning beroende på mapparen. Den sammanslagna Hydra-sammansättningen (~ 50 000 transkriptioner) kommenterades med Blast2GO som tog ca 1 veckas figur 1. Sekvenser för opsin-relaterade gener extraherades i en fast fil. Sekvenser för opsingener från andra arter extraherades också från NCBI GenBank. Vi använde opsiner från cnidarians Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, och Nematostella vectensis, och vi inkluderade också utgrupper Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster och Homo sapiens. Opsingener var justerade i MEGA7 Figur 2. Genom att titta på justeringen kunde vi identifiera Hydra opsinsiner som saknade en bevarad lysin aminosyra som var nödvändig för att binda en ljuskänslig molekyl. Efter visuell inspektion bestämde vi den bästa modellen genom att göra en modellvalsanalys. Vi genererade ett maximalt sannolikt träd med modellen LG + G + F med bootstrap värde på 100 Figur 3. För 149 opsingener var trädet klart på cirka 3 dagar. Fylogeni tyder på att opsin gener utvecklas av härstamning-specifika dupliceringar i cnidarians och potentiellt genom tandem duplicering i H. vulgaris⁷.

Vi utförde en differentialuttryck analys i edgeR och tittade på absolut uttryck av opsin gener. Vi antog att en eller flera opsiner skulle vara uppreglerade i huvudet (hypostome) och utförs par-wise jämförelser av hypostome kontra kroppen kolumn, spirande zon, fot och tentakler. Som ett exempel på en parvis jämförelse uttrycktes 1 774 transkriptioner differentiellt mellan hypostom och kroppskolonn. Vi bestämde generna som var uppreglerade över flera jämförelser och gjorde en funktionell berikning i Blast2GO Tabell 1. Gruppering av G-protein kopplade receptor verksamhet ingår opsin gener. Slutligen tittade vi på det absoluta uttrycket av opsingener i olika vävnader, under spirande och under regenerering genom att plotta deras TPM-värden med hjälp av ggplot figur 4. Med hjälp av de metoder som beskrivs här identifierade vi 2 opsin gener som inte grupperade med de andra opsinerna i fylogeni, hittade en opsin som uttrycktes nästan 200 gånger mer än andra, och vi hittade några opsin gener co-uttryckt med fototransduktion gener som kan användas för ljus detektion.

Bild 1: Arbetsflödesschema. Program som används för att analysera data på datorklustret är i blått, i magenta är de som vi använde på en lokal dator och i orange är ett webbaserat program. (1) Trimma RNA-seq-läsningar med trimmomatic v. 0,35. Om ett genom är tillgängligt men genmodeller saknas, generera en guidad sammansättning med STAR v. 2.6.0c och StringTie v. 1.3.4d. (Valfritt se kompletterande material) (2) Utan referensgenom, använd trimmade läsningar för att göra en de novo-enhet med Trinity v 2.8.5. (3) För att kvantifiera genuttryck med hjälp av ett referensgenom, kartläsningar med STAR och kvantifiera med RSEM v. 1.3.1. Extrahera TPM:er med RSEM och visualisera dem i RStudio. (4) Bowtie och RSEM kan användas för att kartlägga och kvantifiera läsningar mappade till en trinity-transkriptom. Ett Trinity-skript kan användas för att generera en TPM-matris för att visualisera antalet i RStudio. (5) Använd webbaserade NCBI BLAST och kommandoraden BLAST+ för att söka efter homologa sekvenser och bekräfta med ömsesidig BLAST. Kommentera gener ytterligare med Blast2GO. Använd MEGA för att justera gener och generera ett fylogenetiskt träd med den bästa passformsmodellen. Klicka här om du vill visa en större version av den här figuren.

Figur 2: Exempel på justerade gener. Ögonblicksbilden visar en del av Hydra opsin gener anpassade med hjälp av MUSKEL. Pilen anger platsen för ett retinalbindande bevarat lysin. Klicka här om du vill visa en större version av den här figuren.

Figur 3: Cnidarian opsin fylogenetiskt träd. Maximalt sannolikt träd genereras i MEGA7 med opsin sekvenser från Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster och Homo sapiens. Klicka här om du vill visa en större version av den här figuren.

Figur 4: Uttryck för Opsins gener i Hydra vulgaris. (A) Uttryck i transkript per miljon (TPM) av Hydra vulgaris opsin gener i kroppskolonnen, spirande zon, fot, hypostome och tentakler. (B) Uttryck av opsingener under olika stadier av Hydra spirande. (C) Uttryck av opsin gener av Hydra hypostom under olika tidpunkter för regenerering. Klicka här om du vill visa en större version av den här figuren.

GÅ ID	GO-namn	GO-kategori	Fdr
GÅ: 0004930	G-protein kopplade receptoraktivitet	MOLEKYLÄR FUNKTION	0.0000000000704
GÅ: 0007186	G-protein kopplade receptor signaleringsväg	BIOLOGISK PROCESS	0.00000000103
GÅ: 0016055	Wnt signalväg	BIOLOGISK PROCESS	0.0000358
GÅ: 0051260	protein homooligomerization	BIOLOGISK PROCESS	0.000376
GÅ: 0004222	metalloendopeptidas aktivitet	MOLEKYLÄR FUNKTION	0.000467
GÅ: 0008076	spänningsgrindat kaliumkanalkomplex	CELLULÄR KOMPONENT	0.000642
GÅ: 0005249	spänningsportad kaliumkanalaktivitet	MOLEKYLÄR FUNKTION	0.00213495
GÅ: 0007275	multicellulär organismutveckling	BIOLOGISK PROCESS	0.00565048
GÅ: 0006813	kaliumjontransport	BIOLOGISK PROCESS	0.01228182
GÅ: 0018108	peptidyltyrolsinfosforylering	BIOLOGISK PROCESS	0.02679662

Tabell 1: Funktionell berikning av gener som är uppreglerade i hypostomen

Kompletterande material. Klicka här för att ladda ner dessa material.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Syftet med detta protokoll är att ge en översikt över stegen för att karakterisera en genfamilj med hjälp av RNA-seq-data. Dessa metoder har visat sig fungera för en mängd olika arter och datamängder^4,^34,³⁵. Den pipeline som upprättats här har förenklats och bör vara tillräckligt enkel för att följas av en nybörjare inom bioinformatik. Protokollets betydelse är att det beskriver alla steg och nödvändiga program för att slutföra en publiceringsbar analys. Ett avgörande steg i protokollet är att ha korrekt monterade fulllängdsavskrifter, detta kommer från högkvalitativa genom eller transkriptomer. För att få rätt transkriptioner behöver man högkvalitativt RNA och/eller DNA och bra anteckningar som diskuteras nedan.

För RNA-seq biblioteksberedning inkluderar vi listsatser som fungerade för små kroppsdelar av Hydra¹⁹ och^{fjärilar 18} (Table of Materials). Vi noterar att för låg ingång RNA använde vi en modifierad protokollmetod³⁶. Metoder för RNA-extraktion har jämförts i flera provtyper inklusive^{jästceller 17,}neuroblastom^37,^{växter 38}, och insektslarver¹⁶ för att nämna några. Vi rekommenderar att läsaren skaffar ett protokoll som fungerar för deras intressearter, om det finns några, eller felsöker med hjälp av allmänt kommersiellt tillgängliga kit för att starta. För korrekt gen kvantifiering rekommenderar vi att du behandlar RNA-provet med DNase. Förekomsten av DNA kommer att påverka korrekt genk kvantifiering. Vi rekommenderar också att du använder ett cDNA-biblioteksförberedande kit som innehåller ett polyA-svansval för att välja för moget mRNA. Medan rRNA utarmning resulterar i mer läst djup, är andelen exon täckning mycket lägre än exon täckning av RNA med polyA + urval³⁹. Slutligen, när det är möjligt är det bäst att använda parat och strandat⁴⁰^,⁴¹. I protokollet ovan måste läsmappningskommandona ändras när du använder enkelslutsläsningar.

Som nämnts ovan är det viktigt att kunna identifiera gener av intresse och även att skilja mellan de senaste gendupliceringarna, alternativ skarvning och haplotyper i sekvensering. I vissa fall kan ett referensgenom hjälpa till genom att bestämma var gener och exoner finns i förhållande till varandra. En sak att notera är att om en transkriptom erhålls från en offentlig databas och inte är av hög kvalitet, kan det vara bäst att generera med Trinity⁴² och kombinera RNA-seq-bibliotek från vävnader av intresse. På samma sätt, om ett referensgenom inte har bra genmodeller, kan RNA-seq-bibliotek användas för att generera nya GTF med StringTie⁴³(se Kompletterande material). Dessutom, i fall där gener är ofullständiga och det finns tillgång till ett genom, kan gener redigeras manuellt med hjälp av homologsekvenser som sedan justeras till genomet med hjälp av tblastn. BLAST-utdata kan användas för att bestämma den faktiska sekvensen, som kan vara annorlunda än korrigeringen som görs med hjälp av homologer. Om det inte finns någon matchning, lämna sekvensen som ursprungligen var. När du kontrollerar utdata, var uppmärksam på genomkoordinaterna för att se till att den saknade exon verkligen är en del av genen.

Även om vi fokuserar på programvara och program som vi använde, finns det ändringar i detta protokoll på grund av många tillgängliga program som kan fungera bättre för olika datamängder. Som ett exempel visar vi kommandon för mappning av läsningar till transkriptomen med bowtie och RSEM, men Trinity har nu möjlighet för mycket snabbare aligners som kallisto⁴⁴ och lax⁴⁵. På samma sätt beskriver vi anteckningar med Blast2GO (nu OmicsBox) men det finns andra mappningsverktyg som kan hittas gratis och online. Några som vi har provat inkluderar: GO FEAT^46,eggNOG-mapper^47,⁴⁸, och en mycket snabb aligner PANNZER2⁴⁹. För att använda dessa webbaserade anteckningsverktyg laddar du helt enkelt upp peptiden FASTA och skickar in. Fristående versioner av PANNZER och eggNOG-mapper finns också tillgängliga för nedladdning till datorklustret. En annan modifiering är att vi använde MEGA och R på en lokal dator och använde online NCBI BLAST-verktyget för att göra ömsesidiga BLASTs men alla dessa program kan användas på datorklustret genom att ladda ner nödvändiga program och databaser. På samma sätt kan aligners kallisto och lax användas på en lokal dator så länge en användare har tillräckligt med RAM och lagring. FASTQ- och FASTA-filer tenderar dock att vara mycket stora och vi rekommenderar starkt att du använder ett datorkluster för enkelhet och hastighet. Dessutom, medan vi tillhandahåller instruktioner och länkar för att ladda ner program från sina utvecklare kan många av dem installeras från bioconda: https://anaconda.org/bioconda.

Ett vanligt problem när man gör bioinformatiska analyser är skalskript som misslyckas. Detta kan bero på en mängd olika skäl. Om en felfil skapas bör den här felfilen kontrolleras innan felsökningen. Några vanliga orsaker till ett fel är skrivfel, saknade nyckelparametrar och kompatibilitetsproblem mellan programvaruversioner. I det här protokollet innehåller vi parametrar för data, men programvarumanualer kan ge mer detaljerade riktlinjer för enskilda parametrar. I allmänhet är det bäst att använda de mest uppdaterade versionerna av programvara och att konsultera manualen som motsvarar den versionen.

Förbättringar av detta protokoll inkluderar att göra en transkriptome-wide differential uttryck analys och funktionella anrikning analys. Vi rekommenderar edgeR^{50 för} differentialuttrycksanalys ett paket som finns tillgängligt i Bioconductor. För funktionell anrikningsanalys har vi använt Blast2GO²⁹ och webbaserade DAVID^51,⁵². Vi rekommenderar också att du redigerar fylogenin ytterligare genom att extrahera den som en newick-fil och använda webbaserad iTOL⁵³. Dessutom, medan detta protokoll kommer att undersöka genernas molekylära evolution och uttrycksmönster, kan ytterligare experiment användas för att validera gen- eller proteinplatser och funktioner. mRNA uttryck kan bekräftas av RT-qPCR eller in situ hybridisering. Proteiner kan lokaliseras med hjälp av immunohistokemi. Beroende på arten kan knockoutexperiment användas för att bekräfta genfunktionen. Detta protokoll kan användas för en mängd olika mål, inklusive, som visas ovan, för att utforska en genfamilj som vanligtvis förknippas med fotoreception i en basal art⁷. En annan tillämpning av dessa metoder är att identifiera förändringar i en bevarad väg under olika selektiva tryck. Som ett exempel användes dessa metoder för att upptäcka variation i uttrycket av vision övergående receptor potentiella kanaler mellan dagliga fjärilar och nattliga^{malar 34}.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Vi tackar Adriana Briscoe, Gil Smith, Rabi Murad och Aline G. Rangel för råd och vägledning när vi införlivar några av dessa steg i vårt arbetsflöde. Vi är också tacksamma mot Katherine Williams, Elisabeth Rebboah och Natasha Picciani för kommentarerna till manuskriptet. Detta arbete stöddes delvis av ett George E. Hewitt Foundation for Medical research fellowship till A.M.M.

Materials

Name	Company	Catalog Number	Comments
Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Biology

En bioinformatikpipeline för att undersöka molekylär evolution och genuttryck med RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.