Waiting
Login-Verarbeitung ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Een bioinformaticapijplijn voor het onderzoeken van moleculaire evolutie en genexpressie met behulp van RNA-seq

Published: May 28, 2021 doi: 10.3791/61633

Summary

Het doel van dit protocol is om de evolutie en expressie van kandidaatgenen te onderzoeken met behulp van RNA-sequencinggegevens.

Abstract

Het distilleren en rapporteren van grote datasets, zoals hele genoom- of transcriptoomgegevens, is vaak een ontmoedigende taak. Een manier om resultaten op te splitsen is door je te concentreren op een of meer genfamilies die belangrijk zijn voor het organisme en de studie. In dit protocol schetsen we bioinformatische stappen om een fylogenie te genereren en de expressie van interessegenen te kwantificeren. Fylogenetische bomen kunnen inzicht geven in hoe genen zich ontwikkelen binnen en tussen soorten en orthologie onthullen. Deze resultaten kunnen worden verbeterd met behulp van RNA-seq-gegevens om de expressie van deze genen in verschillende individuen of weefsels te vergelijken. Studies van moleculaire evolutie en expressie kunnen modi van evolutie en behoud van genfunctie tussen soorten onthullen. De karakterisering van een genfamilie kan dienen als springplank voor toekomstige studies en kan een belangrijke genfamilie benadrukken in een nieuw genoom of transcriptoompapier.

Introduction

Vooruitgang in sequencingtechnologieën heeft de sequencing van genomen en transcriptomen van niet-modelorganismen vergemakkelijkt. Naast de toegenomen haalbaarheid van het sequentiëren van DNA en RNA van veel organismen, is een overvloed aan gegevens openbaar beschikbaar om genen van belang te bestuderen. Het doel van dit protocol is om bio-informatische stappen te bieden om de moleculaire evolutie en expressie van genen te onderzoeken die een belangrijke rol kunnen spelen in het organisme van belang.

Het onderzoeken van de evolutie van een gen of genenfamilie kan inzicht geven in de evolutie van biologische systemen. Leden van een genfamilie worden meestal bepaald door het identificeren van geconserveerde motieven of homologe gensequenties. Genfamilie-evolutie werd eerder onderzocht met behulp van genomen van verre verwante modelorganismen1. Een beperking van deze benadering is dat het niet duidelijk is hoe deze genfamilies evolueren in nauw verwante soorten en de rol van verschillende selectieve omgevingsdruk. In dit protocol nemen we een zoektocht op naar homologen bij nauw verwante soorten. Door een fylogenie op fylumniveau te genereren, kunnen we trends in de evolutie van genfamilies opmerken, zoals die van geconserveerde genen of afstammingsspecifieke duplicaties. Op dit niveau kunnen we ook onderzoeken of genen orthesen of paralogen zijn. Hoewel veel homologen waarschijnlijk op dezelfde manier met elkaar functioneren, is dat niet noodzakelijk het geval2. Het opnemen van fylogenetische bomen in deze studies is belangrijk om op te lossen of deze homologe genen orthesen zijn of niet. Bij eukaryoten behouden veel ortheologen vergelijkbare functies in de cel, zoals blijkt uit het vermogen van zoogdiereiwitten om de functie van gistortheologen te herstellen3. Er zijn echter gevallen waarin een niet-orthologisch gen een gekarakteriseerde functie vervult4.

Fylogenetische bomen beginnen relaties tussen genen en soorten af te bakenen, maar de functie kan niet alleen worden toegewezen op basis van genetische relaties. Genexpressiestudies in combinatie met functionele annotaties en verrijkingsanalyse bieden een sterke ondersteuning voor de genfunctie. Gevallen waarin genexpressie kan worden gekwantificeerd en vergeleken tussen individuen of weefseltypen kunnen meer vertellen over de potentiële functie. Het volgende protocol volgt methoden die worden gebruikt bij het onderzoeken van opsinegenen in Hydra vulgaris7, maar ze kunnen worden toegepast op elke soort en elke genfamilie. De resultaten van dergelijke studies vormen een basis voor verder onderzoek naar genfunctie en gennetwerken in niet-modelorganismen. Het onderzoek naar de fylogenie van opsines, eiwitten die de fototransductiecascade initiëren, geeft bijvoorbeeld context aan de evolutie van ogen en lichtdetectie8,9,10,11. In dit geval kunnen niet-modelorganismen, met name basale diersoorten zoals cnidarianen of ctenoforen, de instandhouding of veranderingen in de fototransductiecascade en het gezichtsvermogen over de clades12,13,14verduidelijken . Evenzo zal het bepalen van de fylogenie, expressie en netwerken van andere genfamilies ons informeren over de moleculaire mechanismen die ten grondslag liggen aan aanpassingen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Dit protocol volgt de richtlijnen voor dierverzorging van UC Irvine.

1. RNA-seq bibliotheekvoorbereiding

  1. Isoleer RNA op de volgende manieren.
    1. Verzamel monsters. Als RNA op een later tijdstip moet worden geëxtraheerd, moet het monster in de flits worden gevriesdroogd of in RNA-opslagoplossing worden gebracht15 (Tabel met materialen).
    2. Euthanaseer en ontleed het organisme om weefsels van belang te scheiden.
    3. Extraheer totaal RNA met behulp van een extractiekit en zuiver het RNA met behulp van een RNA-zuiveringskit (Tabel van materialen)
      OPMERKING: Er zijn protocollen en kits die beter kunnen werken voor verschillende soorten en weefseltypen16,17. We hebben RNA geëxtraheerd uit verschillende lichaamsweefsels van een vlinder18 en een gelatineachtige Hydra19 (zie discussie).
    4. Meet de concentratie en kwaliteit van het RNA van elk monster (Tabel van materialen). Gebruik samples met RNA-integriteitsnummers (RIN) hoger dan 8, idealiter dichter bij 920 om cDNA-bibliotheken te bouwen.
  2. Construeren cDNA-bibliotheek en -volgorde als volgt.
    1. Bouw cDNA-bibliotheken volgens de handleiding voor bibliotheekvoorbereiding (zie discussie).
    2. Bepaal de cDNA-concentratie en -kwaliteit (Tabel van materialen).
    3. Multiplex de bibliotheken en volg ze.

2. Toegang tot een computercluster

OPMERKING: RNA-seq-analyse vereist manipulatie van grote bestanden en kan het beste worden uitgevoerd op een computercluster (Tabel met materialen).

  1. Meld u aan bij het computerclusteraccount met behulp van de opdracht ssh username@clusterlocation op een terminal (Mac) of PuTTY (Windows) toepassingsvenster.

3. Verkrijg RNA-seq leest

  1. RNA-seq-leespunten verkrijgen van de sequencingfaciliteit of, voor gegevens die in een publicatie zijn gegenereerd, uit de gegevensopslagplaats waar deze is gedeponeerd (3.2 of 3.3).
  2. Ga als volgt te werk om gegevens te downloaden uit opslagplaatsen zoals ArrayExpress:
    1. Doorzoek de site met behulp van het toetredingsnummer.
    2. Zoek de koppeling om de gegevens te downloaden en klik met de linkermuisknop en selecteer Koppeling kopiëren.
    3. Typ in het terminalvenster de koppeling wget en selecteer Plakken om de gegevens naar de map te kopiëren voor analyse.
  3. Volg deze alternatieve stappen om NCBI Short Read Archive (SRA)-gegevens te downloaden:
    1. Download op de terminal SRA Toolkit v. 2.8.1 met wget.
      OPMERKING: Voor het downloaden en installeren van programma's naar het computercluster is mogelijk roottoegang vereist, neem contact op met de beheerder van het computercluster als de installatie mislukt.
    2. Voltooi de installatie van het programma door tar -xvf $TARGZFILE tetypen.
    3. Zoek NCBI naar het SRA-toetredingsnummer voor de monsters die u wilt downloaden, het moet de indeling SRRXXXXXX hebben.
    4. Verkrijg de RNA-seq-gegevens door [sratoolkitlocatie]/bin/prefetch SRRXXXXXX in het terminalvenster te typen.
    5. Voor paired-end bestanden type [sratoolkit locatie]/bin/fastq-dump --split-files SRRXXXXXX om twee fastq bestanden te krijgen (SRRXXXXXX_1.FASTQ en SRRXXXXXX_2.FASTQ).
      OPMERKING: Gebruik voor een Trinity de novo-assemblage de opdracht [sratoolkit-locatie]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRRXXXXXX

4. Trimadapters en leesbare leesten van lage kwaliteit (optioneel)

  1. Installeer of laad Trimmomatic21 v. 0.35 op het computercluster.
  2. Typ in de map waar de RNA-seq-gegevensbestanden zich bevinden een opdracht met de locatie van het trimmomatische jar-bestand, de INVOER FASTQ-bestanden, uitvoer FASTQ-bestanden en optionele parameters zoals leeslengte en kwaliteit.
    OPMERKING: De opdracht varieert door de onbewerkte en gewenste kwaliteit en lengte van de leess. Voor Illumina 43 bp leest met Nextera primers, gebruikten we: java -jar /data/apps/trimmomatic/0.35/trimmomatic-0.35.jar PE $READ 1. FASTQ $READ 2. FASTQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ ILLUMINACLIP:adapters.fa:2:30:10 LEIDEN:20 TRAILING:20 SLIDINGWINDOW:4:17 MINLEN:30.

5. Vraag referentieassemblage aan

  1. Zoek in Google, EnsemblGenomes en NCBI Genomes en Nucleotide TSA (Transcriptome Shotgun Assembly) naar een referentiegenoom of geassembleerd transcriptoom voor de soort van belang (Figuur 1).
    OPMERKING: Als een referentiegenoom of transcriptoom niet beschikbaar of van lage kwaliteit is, gaat u verder met STAP 6 om een de novo assemblage te genereren.
  2. Als er een referentiegenoom of geassembleerd transcriptoom bestaat, downloadt u het als een fasta-bestand naar waar de analyse zal worden uitgevoerd volgens de onderstaande stappen.
    1. Zoek de link om het genoom te downloaden, klik met de linkermuisknop en kopieer de koppeling.
    2. Typ in het terminalvenster wget en plak het koppelingsadres. Kopieer indien beschikbaar ook het GTF-bestand en het proteïne FASTA-bestand voor het referentiegenoom.

6. Genereer een de novo montage (alternatief voor stap 5)

  1. Combineer de RNA-seq READ1 en READ2 fastq bestanden voor alle samples door cat *READ1 te typen. FASTQ > $all_READ1. FASTQ en kat *READ2. FASTQ > all_READ2. FASTQ op het terminalvenster.
  2. Installeer of laad Trinity22 v.2.8.5 op het computercluster.
  3. Genereren en assembleren door op de terminal te typen: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ --rechts $all_READ2. FASTQ.

7. Kaart leest naar het genoom (7.1) of de novo transcriptoom (7.2)

  1. Kaart leest naar het referentiegenoom met BEHULP VAN STAR23 v. 2.6.0c en RSEM24 v. 1.3.0.
    1. Installeer of laad STAR v. 2.6.0c. en RSEM v. 1.3.0 aan het computercluster.
    2. Indexeer het genoom door rsem-prepare-reference --gtf $GENOME te typen. GTF --ster -p 16 $GENOME. FASTA $OUTPUT.
    3. Kaart leest en berekent expressie voor elk monster door rsem-calculate-expression -p 16 --star --paired-end $READ 1 te typen. FASTQ $READ 2. FASTQ $INDEX $OUTPUT.
    4. Wijzig de naam van het resultatenbestand in iets beschrijvend met behulp van mv RSEM.genes.results $sample.genes.results.
    5. Genereer een matrix van alle tellingen door rsem-generate-data-matrix *[genes/isoforms.results] > $OUTPUTte typen.
  2. Breng RNA-seq in kaart met de Trinity de novo assemblage met RSEM en bowtie.
    1. Trinity22 v.2.8.5, Bowtie25 v. 1.0.0 en RSEM v. 1.3.0 installeren of laden.
    2. Kaart leest en berekent expressie voor elk voorbeeld door [trinity_location]/align_and_estimate_abundance.pl --prep-reference --transcripts $TRINITY te typen. FASTA --seqType fq --links $READ 1. FASTQ --rechts $READ 2. FASTQ --est_method RSEM --aln_method strik --trinity_mode --output_dir $OUTPUT.
    3. Wijzig de naam van het resultatenbestand in iets beschrijvend met behulp van mv RSEM.genes.results $sample.genes.results.
    4. Genereer een matrix van alle tellingen door [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[genen/isovormen].resultaten

8. Identificeer genen van belang

OPMERKING: De volgende stappen kunnen worden uitgevoerd met nucleotide- of eiwit FASTA-bestanden, maar werken het beste en zijn eenvoudiger met eiwitsequenties. BLAST-zoekopdrachten met behulp van eiwitten naar eiwitten geven eerder resultaten bij het zoeken tussen verschillende soorten.

  1. Gebruik voor een referentiegenoom het eiwit FASTA-bestand uit STAP 5.2.2 of zie Aanvullende materialen om een aangepaste genfunctie GTF te genereren.
  2. Voor een de novo transcriptoom, genereer een eiwit FASTA met behulp van TransDecoder.
    1. Installeer of laad TransDecoder v. 5.5.0 op de computercluser.
    2. Zoek het langste open leesframe en voorspelde peptidesequentie door [Transdecoder-locatie]/TransDecoder.LongOrfs -t $TRINITY te typen. FASTA.
  3. Zoek in NCBI Genbank naar homologen bij nauw verwante soorten.
    1. Open een internetbrowservenster en ga naar https://www.ncbi.nlm.nih.gov/genbank/.
    2. Typ op de zoekbalk de naam van het betrokken gen en de naam van nauw verwante soorten die zijn gesequenced of geslacht of fylum. Selecteer aan de linkerkant van de zoekbalk eiwit en klik vervolgens op zoeken.
    3. Pak reeksen uit door op Verzenden naar te klikken en selecteer vervolgens Bestand. Selecteer FASTA onder Opmaak en klik vervolgens op Bestand maken.
    4. Verplaats FASTA-bestand met homologs naar het computercluster door scp$$FASTA username@clusterlocation:/$DIR in een lokaal terminalvenster te typen of FileZilla te gebruiken om bestanden van en naar computer en cluster over te zetten.
  4. Zoek naar kandidaatgenen met BLAST+26.
    1. Installeer of laad BLAST+ v. 2.8.1 op het computercluster.
    2. Maak op het computercluster een BLAST-database van het genoom of transcriptoom vertaalde eiwit FASTA door [BLAST+ locatie]/makeblastdb -in $PEP te typen. FASTA -dbtype prot -out $OUTPUT
    3. BLAST de homologe gensequenties van NCBI naar de database van de soorten van belang door [BLAST+ location]/blastp -db $DATABASE -query $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUTte typen .
    4. Bekijk het uitvoerbestand met de opdracht meer. Kopieer unieke gen-ID's van de interessesoort naar een nieuw tekstbestand.
    5. Extraheer de sequenties van kandidaatgenen door perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?print:chomp;$i{$_}=1 if @ARGV' $gene_id.txt $PEP te typen. FASTA > $OUTPUT.
  5. Bevestig genannotatie met behulp van wederkerige BLAST.
    1. Ga in de internetbrowser naar https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    2. Selecteer tblastn, plak vervolgens de kandidaatsequenties, selecteer de database niet-redundante eiwitsequentie en klik op BLAST.
  6. Identificeer extra genen door alle genen in het genoom of transcriptoom te annoteren met genontologie (GO) termen (zie discussie).
    1. Breng het eiwit FASTA over naar de lokale computer.
    2. Download en installeer Blast2GO27,28,29 v. 5.2 op de lokale computer.
    3. Open Blast2GO, klik op Bestand, ga naar Laden, ga naar Laad reeksen, klik op Fasta-bestand laden (fasta). Selecteer het FASTA-bestand en klik op Laden.
    4. Klik op Blast, kies NCBI Blasten klik op Volgende. Bewerk parameters of klik op Volgende, bewerk parameters en klik op Uitvoeren om de meest vergelijkbare genbeschrijving te vinden.
    5. Klik op toewijzing en klik vervolgens op Uitvoeren om genontologie-annotaties te zoeken naar vergelijkbare eiwitten.
    6. Klik vervolgens op interpro, selecteer EMBL-EBI InterProen klik op Volgende. Bewerk parameters of klik op Volgendeen klik op Uitvoeren om te zoeken naar handtekeningen van bekende genfamilies en domeinen.
    7. Exporteer de aantekeningen door op Bestandte klikken , selecteer Exporteren, klik op Tabel exporteren. Klik op Bladeren, geef het bestand een naam, klik op Opslaan, klik op Exporteren.
    8. Zoek in de annotatietabel naar go-termen om aanvullende kandidaatgenen te identificeren. De sequenties uit het FASTA-bestand extraheren (STAP 8.4.5)

9. Fylogenetische bomen

  1. Download en installeer MEGA30 v. 7.0.26 op uw lokale computer.
  2. Open MEGA, klik op Uitlijnen, klik op Uitlijning bewerken/bouwen, selecteer Een nieuwe uitlijning maken klik op OK, selecteer Eiwit.
  3. Wanneer het uitlijningsvenster wordt geopend, klikt u op Bewerken, klikt u op Reeksen invoegen uit bestand en selecteert u de FASTA met eiwitsequenties van kandidaatgenen en waarschijnlijke homologen.
  4. Selecteer alle reeksen. Zoek het armsymbool en beweeg er overheen. Er zou moeten staan Uitlijnen sequenties met behulp van MUSCLE31 algoritme. Klik op het armsymbool en klik vervolgens op Eiwit uitlijnen om de sequenties uit te lijnen. Bewerk parameters of klik op OK om uit te lijnen met standaardparameters.
  5. Inspecteer visueel en breng handmatige wijzigingen aan en sla het uitlijningsvenster op en sluit het.
  6. Klik in het hoofdvenster van MEGA op Modellen, klik op Beste DNA/Eiwitmodellen (ML)zoeken, selecteer het uitlijningsbestand en selecteer overeenkomstige parameters zoals: Analyse: Modelselectie (ML), Te gebruiken boom: Automatisch (buur-verbindende boom), Statistische methode: Maximale waarschijnlijkheid, Substitutietype: Aminozuur, Gap/ontbrekende gegevensbehandeling: Gebruik alle sites, Branch site filter: Geen.
  7. Zodra het beste model voor de gegevens is bepaald, gaat u naar het hoofdvenster MEGA. Klik op Phylogeny en klik op Contruct/Test Maximum Probability Tree en selecteer indien nodig de uitlijning. Selecteer de juiste parameters voor de boom: Statistische methode: Maximale waarschijnlijkheid, Test van Phylogeny: Bootstrap-methode met 100 replica's, substitutietype: aminozuur, model: LG met Freqs. (+F), tarieven tussen sites: gamma distributed (G) met 5 discrete gammacategorieën, gap/missing data treatment: gebruik alle sites, ML heuristische methode: Nearest-Neighbor-Interchange (NNI).

10. Visualiseer genexpressie met TPM

  1. Voor Trinity gaat u op het computercluster naar de map waar abundance_estimates_to_matrix.pl is uitgevoerd en moet een van de uitvoer matrix zijn. TPM.not_cross_norm. Breng dit bestand over naar uw lokale computer.
    OPMERKING: Zie Aanvullende materialen voor kruismonsternormalisatie.
  2. Volg voor TPMs uit een genoomanalyse de onderstaande stappen.
    1. Ga op het computercluster naar de RSEM-installatielocatie. Kopieer rsem-generate-data-matrix door scp rsem-generate-data-matrix rsem-generate-TPM-matrix tetypen. Gebruik nano om het nieuwe bestand te bewerken en "mijn $offsite = 4" te wijzigen van 4 naar 5 voor TPM, het zou nu "mijn $offsite = 5" moeten lezen.
  3. Ga naar de map waar de RSEM-uitvoerbestanden .genes.results zich bevinden en gebruik nu rsem-generate-TPM-matrix *[genes/isoforms.results] > $OUTPUT om een TPM-matrix te genereren. Resultaten overbrengen naar een lokale computer.
  4. Visualiseer de resultaten in ggplot2.
    1. Download R v. 4.0.0 en RStudio v. 1.2.1335 naar een lokale computer.
    2. Open RStudio aan de rechterkant van het scherm ga naar het tabblad Pakketten en klik op Installeren. Typ ggplot2 en klik op installeren.
    3. In het R-scriptvenster gelezen in de TPM-tabel door gegevens te typen<-read.table("$tpm.txt",header = T)
    4. Voor staafgrafieken vergelijkbaar met figuur 4 typt iets vergelijkbaars met: p<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), data=data, stat="identity")
      vul<-c("#d7191c","#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      p<-p+scale_fill_manual(waarden=invullen)
      p + thema(axis.text.x = element_text(hoek = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De bovenstaande methoden zijn samengevat in figuur 1 en werden toegepast op een dataset van Hydra vulgaris weefsels. H. vulgaris is een zoetwater ongewervelde die behoort tot de phylum Cnidaria die ook koralen, kwallen en zee-anemonen omvat. H. vulgaris kunnen zich aseksueel voortplanten door te ontluiken en ze kunnen hun hoofd en voet regenereren wanneer ze worden doorsneden. In deze studie wilden we de evolutie en expressie van opsinegenen in Hydra7onderzoeken. Terwijl Hydra ogen mist, vertonen ze lichtafhankelijk gedrag32. Opsin-genen coderen eiwitten die belangrijk zijn in het zicht om verschillende golflengten van licht te detecteren en de fototransductiecascade te beginnen. Het onderzoeken van de moleculaire evolutie en expressie van deze genfamilie in een basale soort kan inzicht geven in de evolutie van ogen en lichtdetectie bij dieren.

We hebben een begeleide assemblage gegenereerd met behulp van het Hydra2.0 33 referentiegenoom en openbaar beschikbare RNA-seq-gegevens (GEO-toetreding GSE127279) Figuur 1. Deze stap duurde ongeveer 3 dagen. Hoewel we in dit geval geen de novo transcriptoom hebben gegenereerd, kan het tot 1 week duren voordat een Trinity-assembly is gegenereerd en kan elke bibliotheek een paar uur duren om de kaart te lezen, afhankelijk van de mapper. De samengevoegde Hydra-assemblage (~ 50.000 transcripties) werd geannoteerd met Blast2GO, wat ongeveer 1 week figuur 1innam. Sequenties voor opsin-gerelateerde genen werden geëxtraheerd in een fasta-bestand. Sequenties voor opsinegenen van andere soorten werden ook geëxtraheerd uit NCBI GenBank. We gebruikten opsins van cnidarians Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, en Nematostella vectensis, en we namen ook outgroups Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster en Homo sapiens. Opsin genen werden uitgelijnd in MEGA7 Figuur 2. Door de uitlijning te bekijken, konden we Hydra opsins identificeren die een geconserveerd lysine-aminozuur misten dat nodig was om een lichtgevoelig molecuul te binden. Na visuele inspectie hebben we het beste model bepaald door een modelselectieanalyse uit te voeren. We hebben een boom met maximale waarschijnlijkheid gegenereerd met het model LG + G + F met bootstrap-waarde van 100 Figuur 3. Voor 149 opsingenen was de boom in ongeveer 3 dagen klaar. De fylogenie suggereert dat opsinegenen evolueren door afstammingsspecifieke duplicaties in cnidarianen en mogelijk door tandemduplicatie in H. vulgaris7.

We voerden een differentiële expressieanalyse uit in edgeR en keken naar absolute expressie van opsinegenen. We veronderstelden dat een of meer opsinen in het hoofd (hypostoom) zouden worden geherreguleerd en voerden paarsgewijs vergelijkingen uit van hypostoom versus de lichaamskolom, ontluikende zone, voet en tentakels. Als voorbeeld van een paarsgewijze vergelijking werden 1.774 transcripties verschillend uitgedrukt tussen het hypostoom en de lichaamskolom. We bepaalden de genen die werden geherreguleerd in meerdere vergelijkingen en deden een functionele verrijking in Blast2GO-tabel 1. Het groeperen van G-eiwit gekoppelde receptoractiviteit omvatte opsingenen. Ten slotte keken we naar de absolute expressie van opsinegenen in verschillende weefsels, tijdens ontluiken en tijdens regeneratie door hun TPM-waarden te plotten met behulp van ggplot Figuur 4. Met behulp van de hier beschreven methoden identificeerden we 2 opsinegenen die niet groeperen met de andere opsines in de fylogenie, vonden we één opsin die bijna 200 keer meer werd uitgedrukt dan andere, en we vonden een paar opsinegenen die samen met fototransductiegenen werden uitgedrukt die kunnen worden gebruikt voor lichtdetectie.

Figure 1
Figuur 1: Werkstroomschema. Programma's die worden gebruikt om gegevens op het computercluster te analyseren, zijn blauw, in magenta zijn die we op een lokale computer hebben gebruikt en in oranje is een webgebaseerd programma. (1) Trim RNA-seq leest met trimmomatische v. 0.35. Als er een genoom beschikbaar is, maar genmodellen ontbreken, genereert u een begeleide assemblage met STAR v. 2.6.0c en StringTie v. 1.3.4d. (Optioneel zie Aanvullende materialen) (2) Gebruik zonder referentiegenoom bijgesneden leesmachine om een de novo assemblage te maken met Trinity v 2.8.5. (3) Om genexpressie te kwantificeren met behulp van een referentiegenoom, leest de kaart met STAR en kwantificeert u met RSEM v. 1.3.1. Pak TMM's uit met RSEM en visualiseer ze in RStudio. (4) Bowtie en RSEM kunnen worden gebruikt om leeslezingen in kaart te brengen en te kwantificeren die zijn toegewezen aan een triniteitstranscriptoom. Een Trinity-script kan worden gebruikt om een TPM-matrix te genereren om tellingen in RStudio te visualiseren. (5) Gebruik webgebaseerde NCBI BLAST en opdrachtregel BLAST+ om te zoeken naar homologe sequenties en te bevestigen met behulp van wederkerige BLAST. Maak verder aantekeningen van genen met Blast2GO. Gebruik MEGA om genen uit te lijnen en een fylogenetische boom te genereren met behulp van het best passende model. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 2
Figuur 2: Voorbeeld van uitgelijnde genen. Snapshot toont een deel van Hydra opsin genen uitgelijnd met behulp van MUSCLE. De pijl geeft de locatie aan van een retinale binding geconserveerde lysine. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 3
Figuur 3: Cnidarian opsin fylogenetische boom. Boom met maximale waarschijnlijkheid gegenereerd in MEGA7 met behulp van opsin-sequenties van Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster en Homo sapiens. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 4
Figuur 4: Expressie van Opsin genen in Hydra vulgaris(A) Expressie in transcripties per miljoen (TPM) van Hydra vulgaris opsin genen in de lichaamskolom, ontluikende zone, voet, hypostoom en tentakels. (B) Expressie van opsinegenen tijdens verschillende stadia van Hydra ontluiken. (C) Expressie van opsinegenen van het Hydra hypostoom tijdens verschillende tijdspunten van regeneratie. Klik hier om een grotere versie van deze afbeelding te bekijken.

GO-ID GO-naam GO-categorie Fdr
GO:0004930 G-eiwit gekoppelde receptoractiviteit MOLECULAIRE FUNCTIE 0.0000000000704
GA:0007186 G-eiwit gekoppelde receptor signaleringsroute BIOLOGISCH PROCES 0.00000000103
GO:0016055 Wnt signaleringstraject BIOLOGISCH PROCES 0.0000358
GA:0051260 eiwit homooligomerisatie BIOLOGISCH PROCES 0.000376
GO:0004222 metalloendopeptidase activiteit MOLECULAIRE FUNCTIE 0.000467
GA:0008076 voltage-gated kaliumkanaal complex CELLULAIRE COMPONENT 0.000642
GA:0005249 spanningsge gated kaliumkanaal activiteit MOLECULAIRE FUNCTIE 0.00213495
GO:0007275 ontwikkeling van meercellige organismen BIOLOGISCH PROCES 0.00565048
GA:0006813 kaliumionentransport BIOLOGISCH PROCES 0.01228182
GA:0018108 peptidyl-tyrosine fosforylering BIOLOGISCH PROCES 0.02679662

Tabel 1: Functionele verrijking van genen geherreguleerd in het hypostoom

Aanvullende materialen. Klik hier om deze materialen te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Het doel van dit protocol is om een overzicht te geven van de stappen voor het karakteriseren van een genfamilie met behulp van RNA-seq-gegevens. Het is bewezen dat deze methoden werken voor verschillende soorten en datasets4,34,35. De hier opgerichte pijplijn is vereenvoudigd en moet gemakkelijk genoeg zijn om te worden gevolgd door een beginner in bioinformatica. Het belang van het protocol is dat het alle stappen en noodzakelijke programma's schetst om een publiceerbare analyse te voltooien. Een cruciale stap in het protocol is het correct samenstellen van volledige transcripties, dit komt van hoogwaardige genomen of transcriptooms. Om goede transcripties te verkrijgen, heeft men RNA en/of DNA van hoge kwaliteit en goede annotaties nodig die hieronder worden besproken.

Voor de voorbereiding van de RNA-seq-bibliotheek nemen we lijstkits op die werkten voor kleine lichaamsdelen van Hydra19 en vlinders18 (Tabel met materialen). We merken op dat we voor RNA met lage input een aangepaste protocolbenadering hebben gebruikt36. Methoden voor RNA-extractie zijn vergeleken in meerdere monstertypen, waaronder gistcellen17,neuroblastoom37,planten38en insectenlarven16 om er maar een paar te noemen. We raden de lezer aan een protocol te aanschaffen dat werkt voor hun soort van interesse, indien aanwezig, of problemen op te lossen met behulp van algemeen commercieel beschikbare kits om te beginnen. Voor een goede genkwantificering raden we aan het RNA-monster te behandelen met DNase. De aanwezigheid van DNA zal de juiste genkwantificering beïnvloeden. We raden ook aan om een cDNA-bibliotheekvoorbereidingskit te gebruiken die een polyA-staartselectie bevat om te selecteren voor volwassen mRNA. Hoewel rRNA-uitputting resulteert in meer leesdiepte, is het percentage exondekking veel lager dan de exondekking van RNA met polyA+ selectie39. Ten slotte is het, indien mogelijk, het beste om gekoppelde en gestrande40,41te gebruiken. In het bovenstaande protocol moeten de leestoewijzingsopdrachten worden gewijzigd bij het gebruik van single-end reads.

Zoals hierboven vermeld, is het belangrijk om genen van belang te kunnen identificeren en ook onderscheid te kunnen maken tussen recente genduplicaties, alternatieve scheids en haplotypes in sequencing. In sommige gevallen kan het hebben van een referentiegenoom helpen door te bepalen waar genen en exonen zich ten opzichte van elkaar bevinden. Een ding om op te merken is dat als een transcriptoom wordt verkregen uit een openbare database en niet van hoge kwaliteit is, het het beste kan zijn om te genereren met Trinity42 en RNA-seq-bibliotheken te combineren uit weefsels van belang. Evenzo, als een referentiegenoom geen goede genmodellen heeft, kunnen RNA-seq-bibliotheken worden gebruikt om nieuwe GTF's te genereren met StringTie43 (zie Aanvullend materiaal). Bovendien, in gevallen waarin genen onvolledig zijn en er toegang is tot een genoom, kunnen genen handmatig worden bewerkt met behulp van homologe sequenties en vervolgens worden uitgelijnd op het genoom met behulp van tblastn. De BLAST-uitgang kan worden gebruikt om de werkelijke volgorde te bepalen, die kan verschillen van de correctie die wordt uitgevoerd met behulp van homologen. Als er geen overeenkomst is, laat u de reeks zoals oorspronkelijk. Let bij het controleren van de output op de genoomcoördinaten om er zeker van te zijn dat de ontbrekende exon inderdaad deel uitmaakt van het gen.

Hoewel we ons richten op software en programma's die we hebben gebruikt, bestaan er wijzigingen in dit protocol vanwege de vele beschikbare programma's die mogelijk beter werken voor verschillende datasets. Als voorbeeld tonen we opdrachten voor het toewijzen van leeslezingen aan de transcriptoom met behulp van bowtie en RSEM, maar Trinity heeft nu de optie voor veel snellere aligners zoals kallisto44 en zalm45. Op dezelfde manier beschrijven we annotaties met Blast2GO (nu OmicsBox), maar er zijn andere mapper-tools die gratis en online te vinden zijn. Enkele die we hebben geprobeerd zijn: GO FEAT46, eggNOG-mapper47,48, en een zeer snelle aligner PANNZER249. Om deze webgebaseerde annotatietools te gebruiken, uploadt u eenvoudig het peptide FASTA en verzendt u. Zelfstandige versies van PANNZER en eggNOG-mapper zijn ook beschikbaar om te downloaden naar het computercluster. Een andere wijziging is dat we MEGA en R op een lokale computer gebruikten en de online NCBI BLAST-tool gebruikten om wederzijdse BLAST's uit te voeren, maar al deze programma's kunnen op het computercluster worden gebruikt door de benodigde programma's en databases te downloaden. Evenzo kunnen aligners kallisto en zalm op een lokale computer worden gebruikt, zolang een gebruiker voldoende RAM en opslag heeft. FASTQ- en FASTA-bestanden zijn echter meestal erg groot en we raden ten zeerste aan om een computercluster te gebruiken voor gemak en snelheid. Bovendien, terwijl we instructies en links bieden om programma's van hun ontwikkelaars te downloaden, kunnen veel van hen worden geïnstalleerd vanuit bioconda: https://anaconda.org/bioconda.

Een veel voorkomend probleem bij het uitvoeren van bioinformatische analyses is dat shell-scripts mislukken. Dit kan verschillende redenen hebben. Als er een foutbestand wordt gemaakt, moet dit foutbestand worden gecontroleerd voordat u problemen oplost. Enkele veelvoorkomende redenen voor een fout zijn typefouten, ontbrekende sleutelparameters en compatibiliteitsproblemen tussen softwareversies. In dit protocol nemen we parameters voor de gegevens op, maar softwarehandleidingen kunnen meer gedetailleerde richtlijnen bieden voor individuele parameters. Over het algemeen is het het beste om de meest recente versies van software te gebruiken en de handleiding te raadplegen die bij die versie overeenkomt.

Verbeteringen in dit protocol omvatten het uitvoeren van een transcriptoombrede differentiële expressieanalyse en functionele verrijkingsanalyse. We raden edgeR50 voor differentiële expressieanalyse een pakket aan dat beschikbaar is in Bioconductor. Voor functionele verrijkingsanalyse hebben we Blast2GO29 en webgebaseerde DAVID51,52gebruikt. We raden ook aan om de fylogenie verder te bewerken door het uit te pakken als een newick-bestand en webgebaseerde iTOL53 tegebruiken. Bovendien, terwijl dit protocol de moleculaire evolutie- en expressiepatronen van genen zal onderzoeken, kunnen aanvullende experimenten worden gebruikt om gen- of eiwitlocaties en -functies te valideren. mRNA-expressie kan worden bevestigd door RT-qPCR of in situ hybridisatie. Eiwitten kunnen worden gelokaliseerd met behulp van immunohistochie. Afhankelijk van de soort kunnen knock-out experimenten worden gebruikt om de genfunctie te bevestigen. Dit protocol kan worden gebruikt voor een verscheidenheid aan doelstellingen, waaronder, zoals hierboven getoond, om een genfamilie te verkennen die typisch wordt geassocieerd met fotoreceptie bij een basale soort7. Een andere toepassing van deze methoden is het identificeren van veranderingen in een geconserveerd traject onder verschillende selectieve druk. Als voorbeeld werden deze methoden gebruikt om variatie te ontdekken in de expressie van voorbijgaande receptorpotentaire kanalen tussen dagvlinders en nachtvlinders34.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets bekend te maken.

Acknowledgments

We danken Adriana Briscoe, Gil Smith, Rabi Murad en Aline G. Rangel voor advies en begeleiding bij het opnemen van enkele van deze stappen in onze workflow. We zijn ook Katherine Williams, Elisabeth Rebboah en Natasha Picciani dankbaar voor hun commentaar op het manuscript. Dit werk werd gedeeltelijk ondersteund door een George E. Hewitt Foundation for Medical research fellowship aan A.M.M.

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

Biologie bioinformatica genexpansie BLAST transcriptoom genoom MEGA
Een bioinformaticapijplijn voor het onderzoeken van moleculaire evolutie en genexpressie met behulp van RNA-seq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter