Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Eine Bioinformatik-Pipeline zur Untersuchung der molekularen Evolution und Genexpression mit RNA-seq

Published: May 28, 2021 doi: 10.3791/61633

Summary

Der Zweck dieses Protokolls ist es, die Evolution und Expression von Kandidatengenen anhand von RNA-Sequenzierungsdaten zu untersuchen.

Abstract

Das Destillieren und Melden großer Datensätze, wie z. B. das gesamte Genom oder Transkriptomdaten, ist oft eine entmutigende Aufgabe. Eine Möglichkeit, die Ergebnisse aufzuschlüsseln, besteht darin, sich auf eine oder mehrere Genfamilien zu konzentrieren, die für den Organismus und die Studie von Bedeutung sind. In diesem Protokoll skizzieren wir bioinformatische Schritte, um eine Phylogenie zu erzeugen und die Expression von Genen von Interesse zu quantifizieren. Phylogenetische Bäume können Aufschluss darüber geben, wie sich Gene innerhalb und zwischen Arten entwickeln, und die Orthologie offenbaren. Diese Ergebnisse können mit RNA-seq-Daten verbessert werden, um die Expression dieser Gene in verschiedenen Individuen oder Geweben zu vergleichen. Studien der molekularen Evolution und Expression können Modi der Evolution und Erhaltung der Genfunktion zwischen Arten aufdecken. Die Charakterisierung einer Genfamilie kann als Sprungbrett für zukünftige Studien dienen und eine wichtige Genfamilie in einem neuen Genom oder Transkriptom hervorheben.

Introduction

Fortschritte in sequenzierenden Technologien haben die Sequenzierung von Genomen und Transkriptomen von Nicht-Modellorganismen erleichtert. Neben der erhöhten Machbarkeit der Sequenzierung von DNA und RNA aus vielen Organismen ist eine Fülle von Daten öffentlich verfügbar, um Gene von Interesse zu untersuchen. Der Zweck dieses Protokolls ist es, bioinformatische Schritte zur Untersuchung der molekularen Evolution und Expression von Genen bereitzustellen, die eine wichtige Rolle im interessierender Organismus spielen können.

Die Untersuchung der Evolution eines Gens oder einer Genfamilie kann Einblicke in die Evolution biologischer Systeme geben. Mitglieder einer Genfamilie werden typischerweise durch die Identifizierung konservatorischer Motive oder homologe Gensequenzen bestimmt. Die Evolution der Genfamilie wurde bisher mit Genomen von entfernt verwandten Modellorganismen untersucht1. Eine Einschränkung dieses Ansatzes besteht darin, dass nicht klar ist, wie sich diese Genfamilien in eng verwandten Arten entwickeln und welche Rolle unterschiedliche Umweltselektive Belastungen spielen. In dieses Protokoll schließen wir eine Suche nach Homologen in eng verwandten Arten ein. Durch die Erzeugung einer Phylogenie auf Stammebene können wir Trends in der Evolution der Genfamilie wie konservierte Gene oder linienspezifische Duplikationen feststellen. Auf dieser Ebene können wir auch untersuchen, ob Gene Orthologe oder Paraloge sind. Während viele Homologe wahrscheinlich ähnlich zueinander funktionieren, ist dies nicht unbedingt der Fall2. Die Einbeziehung phylogenetischer Bäume in diese Studien ist wichtig, um festzustellen, ob diese homologen Gene Orthologe sind oder nicht. In Eukaryoten behalten viele Orthologe ähnliche Funktionen innerhalb der Zelle, wie die Fähigkeit von Säugetierproteinen zeigt, die Funktion von Hefeorthologenwiederherzustellen 3. Es gibt jedoch Fälle, in denen ein nicht-orthologes Gen eine charakterisierte Funktion4ausführt.

Phylogenetische Bäume beginnen, Beziehungen zwischen Genen und Arten abzugrenzen, aber die Funktion kann nicht allein auf der Grundlage genetischer Beziehungen zugeordnet werden. Genexpressionsstudien in Kombination mit funktionellen Annotationen und Anreicherungsanalysen bieten eine starke Unterstützung für die Genfunktion. Fälle, in denen die Genexpression quantifiziert und über Individuen oder Gewebetypen hinweg verglichen werden kann, können mehr über die potenzielle Funktion aussagekräftig sein. Das folgende Protokoll folgt Methoden, die bei der Untersuchung von Opsin-Genen in Hydra vulgaris7verwendet werden, aber sie können auf jede Spezies und jede Genfamilie angewendet werden. Die Ergebnisse solcher Studien bilden die Grundlage für die weitere Untersuchung der Genfunktion und Gennetzwerke in Nicht-Modellorganismen. Als Beispiel gibt die Untersuchung der Phylogenie von Opsinen, die Proteine sind, die die Phototransduktionskaskade initiieren, Kontext zur Evolution der Augen und der Lichtdetektion8,9,10,11. In diesem Fall können Nicht-Modellorganismen, insbesondere basale Tierarten wie Nesseltiere oder Ctenophore, die Erhaltung oder Veränderungen der Phototransduktionskaskade und des Sehvermögens über die Kladen12,13,14aufklären. In ähnlicher Weise wird uns die Bestimmung der Phylogenie, Expression und Netzwerke anderer Genfamilien über die molekularen Mechanismen informieren, die Anpassungen zugrunde liegen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Dieses Protokoll folgt den Tierpflegerichtlinien von UC Irvine.

1. RNA-seq-Bibliotheksvorbereitung

  1. Isolieren Sie RNA mit den folgenden Methoden.
    1. Sammeln Sie Proben. Soll RNA zu einem späteren Zeitpunkt extrahiert werden, die Probe flash einfrieren oder in RNA-Speicherlösung15 ( Materialtabelle )legen.
    2. Euthanisieren und sezieren Sie den Organismus, um Gewebe von Interesse zu trennen.
    3. Extrahieren Sie die Gesamt-RNA mit einem Extraktionskit und reinigen Sie die RNA mit einem RNA-Reinigungskit (Materialtabelle)
      HINWEIS: Es gibt Protokolle und Kits, die für verschiedene Arten und Gewebetypen besser funktionieren können16,17. Wir haben RNA aus verschiedenen Körpergeweben eines Schmetterlings18 und einer gallertartigen Hydra19 extrahiert (siehe Diskussion).
    4. Messen Sie die Konzentration und Qualität der RNA jeder Probe (Materialtabelle). Verwenden Sie Proben mit RNA-Integritätszahlen (RIN) von mehr als 8, idealerweise näher an 920, um cDNA-Bibliotheken zu erstellen.
  2. Erstellen Sie die cDNA-Bibliothek und -Sequenz wie folgt.
    1. Erstellen Sie cDNA-Bibliotheken gemäß der Bedienungsanleitung für die Bibliotheksvorbereitung (siehe Diskussion).
    2. Bestimmen Sie die cDNA-Konzentration und -Qualität (Materialtabelle).
    3. Multiplexen Sie die Bibliotheken und sequenzieren Sie sie.

2. Zugreifen auf einen Computercluster

HINWEIS: Die RNA-seq-Analyse erfordert die Manipulation großer Dateien und wird am besten auf einem Computercluster durchgeführt (Materialtabelle).

  1. Melden Sie sich beim Computerclusterkonto mit dem Befehl ssh username@clusterlocation in einem Terminal- (Mac) oder PuTTY-Anwendungsfenster (Windows) an.

3. Erhalten Sie RNA-seq-Lesevorgänge

  1. Erhalten Sie RNA-seq-Lesevorgänge von der Sequenzierungseinrichtung oder, bei Daten, die in einer Publikation generiert werden, von dem Datenrepositorium, in dem sie abgelegt wurden (3.2 oder 3.3).
  2. Gehen Sie wie folgt vor, um Daten aus Repositories wie ArrayExpress herunterzuladen:
    1. Durchsuchen Sie die Website mit der Zugangsnummer.
    2. Suchen Sie den Link zum Herunterladen der Daten, klicken Sie mit der linken Maustaste, und wählen Sie Link kopierenaus.
    3. Geben Sie im Terminalfenster wget ein, und wählen Sie Link einfügen aus, um die Daten zur Analyse in das Verzeichnis zu kopieren.
  3. Gehen Sie folgendermaßen vor, um NCBI Short Read Archive (SRA)-Daten herunterzuladen:
    1. Laden Sie auf dem Terminal SRA Toolkit v. 2.8.1 mit wget herunter.
      HINWEIS: Das Herunterladen und Installieren von Programmen auf dem Computercluster erfordert möglicherweise Root-Zugriff, wenden Sie sich an Ihren Computerclusteradministrator, wenn die Installation fehlschlägt.
    2. Beenden Sie die Installation des Programms, indem Sie tar -xvf $TARGZFILEeingeben.
    3. Suchen Sie NCBI nach der SRA-Beitrittsnummer für die Proben, die Sie herunterladen möchten, es sollte das Format SRRXXXXXX haben.
    4. Rufen Sie die RNA-seq-Daten ab, indem Sie [sratoolkit location]/bin/prefetch SRRXXXXXX im Terminalfenster eingeben.
    5. Für Paired-End-Dateien geben Sie [sratoolkit location]/bin/fastq-dump --split-files SRRXXXXXX ein, um zwei fastq-Dateien (SRRXXXXXX_1.FASTQ und SRRXXXXXX_2.FASTQ) zu erhalten.
      HINWEIS: Um eine Trinity de novo-Assembly zu erstellen, verwenden Sie den Befehl [sratoolkit location]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRRXXXXXX

4. Trimmadapter und Lesevorgänge von geringer Qualität (optional)

  1. Installieren oder laden Sie Trimmomatic21 v. 0.35 auf dem Rechencluster.
  2. Geben Sie in dem Verzeichnis, in dem sich die RNA-seq-Datendateien befinden, einen Befehl ein, der den Speicherort der trimmomatischen JAR-Datei, die FASTQ-Eingabedateien, die FASTQ-Ausgabedateien und optionale Parameter wie Leselänge und -qualität enthält.
    HINWEIS: Der Befehl variiert je nach roher und gewünschter Qualität und Länge der Lesevorgänge. Für Illumina 43 bp Lesevorgänge mit Nextera-Primern haben wir verwendet: java -jar /data/apps/trimmomatic/0.35/trimmomatic-0.35.jar PE $READ 1. FASTQ $READ 2. FASTQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ ILLUMINACLIP:adapters.fa:2:30:10 LEADING:20 TRAILING:20 SLIDINGWINDOW:4:17 MINLEN:30.

5. Referenzbaugruppe beziehen

  1. Durchsuchen Sie google, EnsemblGenome und NCBI Genomes and Nucleotide TSA (Transcriptome Shotgun Assembly) nach einem Referenzgenom oder einem zusammengesetzten Transkriptom für die interessierenden Arten (Abbildung 1).
    HINWEIS: Wenn ein Referenzgenom oder Transkriptom nicht verfügbar oder von geringer Qualität ist, fahren Sie mit SCHRITT 6 fort, um eine De-novo-Assemblierung zu erstellen.
  2. Wenn ein Referenzgenom oder ein zusammengesetztes Transkriptom vorhanden ist, laden Sie es als Fasta-Datei herunter, in die die Analyse gemäß den folgenden Schritten durchgeführt wird.
    1. Suchen Sie den Link, um das Genom herunterzuladen, klicken Sie mit der linken Maustaste und kopieren Sie den Link.
    2. Geben Sie im Terminalfenster wget ein und fügen Sie die Linkadresse ein. Falls verfügbar, kopieren Sie auch die GTF-Datei und die Protein-FASTA-Datei für das Referenzgenom.

6. Generieren Sie eine De-novo-Baugruppe (Alternative zu Schritt 5)

  1. Kombinieren Sie die RNA-seq READ1- und READ2 fastq-Dateien für alle Proben, indem Sie cat *READ1 eingeben. FASTQ > $all_READ1. FASTQ und Katze *READ2. FASTQ > all_READ2. FASTQ im Terminalfenster.
  2. Installieren oder laden Sie Trinity22 v.2.8.5 auf dem Computercluster.
  3. Generieren und assemblieren Sie durch Eingabe auf dem Terminal: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ --right $all_READ2. FASTQ.

7. Karte liest sich zum Genom (7.1) oder de novo Transkriptom (7.2)

  1. Die Karte liest das Referenzgenom mit STAR23 v. 2.6.0c und RSEM24 v. 1.3.0.
    1. Installieren oder laden Sie STAR v. 2.6.0c. und RSEM v. 1.3.0 an den Rechencluster.
    2. Indizieren Sie das Genom, indem Sie rsem-prepare-reference --gtf $GENOME eingeben. GTF --star -p 16 $GENOME. FASTA $OUTPUT.
    3. Map liest und berechnet den Ausdruck für jede Stichprobe, indem rsem-calculate-expression -p 16 --star --paired-end $READ 1 eingegeben wird. FASTQ $READ 2. FASTQ $INDEX $OUTPUT.
    4. Benennen Sie die Ergebnisdatei mit mv RSEM.genes.results $sample.genes.results in etwas Beschreibendes um.
    5. Generieren Sie eine Matrix aller Zählungen, indem Sie rsem-generate-data-matrix *[genes/isoforms.results] > $OUTPUTeingeben.
  2. Ordnen Sie RNA-seq mit RSEM und Bowtie der Trinity de novo-Assemblierung zu.
    1. Installieren oder laden Sie Trinity22 v.2.8.5, Bowtie25 v. 1.0.0 und RSEM v. 1.3.0.
    2. Map liest und berechnet ausdrucksbereit für jedes Beispiel, indem [trinity_location]/align_and_estimate_abundance.pl --prep-reference --transcripts $TRINITY. FASTA --seqType fq --left $READ 1. FASTQ --rechts $READ 2. FASTQ --est_method RSEM --aln_method Fliege --trinity_mode --output_dir $OUTPUT.
    3. Benennen Sie die Ergebnisdatei mit mv RSEM.genes.results $sample.genes.results in etwas Beschreibendes um.
    4. Generieren Sie eine Matrix aller Zählungen, indem Sie [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[genes/isoforms].results eingeben

8. Gene von Interesse identifizieren

HINWEIS: Die folgenden Schritte können mit Nukleotid- oder Protein-FASTA-Dateien durchgeführt werden, funktionieren jedoch am besten und sind mit Proteinsequenzen einfacher. BLAST-Suchen mit Protein zu Protein liefern eher Ergebnisse, wenn zwischen verschiedenen Arten gesucht wird.

  1. Für ein Referenzgenom verwenden Sie die Protein-FASTA-Datei aus STEP 5.2.2 oder siehe Ergänzende Materialien, um ein benutzerdefiniertes Genmerkmal GTF zu generieren.
  2. Für ein De-novo-Transkriptom erzeugen Sie ein Protein FASTA mit TransDecoder.
    1. Installieren oder laden Sie TransDecoder v. 5.5.0 auf dem Computer cluser.
    2. Suchen Sie den längsten offenen Leserahmen und die vorhergesagte Peptidsequenz, indem Sie [Transdecoder-Position]/TransDecoder.LongOrfs -t $TRINITY eingeben. FASTA.
  3. Suche NCBI Genbank nach Homologen in eng verwandten Arten.
    1. Öffnen Sie ein Internetbrowserfenster und gehen Sie zu https://www.ncbi.nlm.nih.gov/genbank/.
    2. Geben Sie in der Suchleiste den Namen des interessierenden Gens und den Namen eng verwandter Arten ein, die sequenziert wurden, oder Gattung oder Stamm. Wählen Sie links in der Suchleiste Protein aus und klicken Sie auf Suchen.
    3. Extrahieren Sie Sequenzen, indem Sie auf Senden an klicken und dann Datei auswählen. Wählen Sie unter Format die Option FASTA aus, und klicken Sie dann auf Datei erstellen.
    4. Verschieben Sie die FASTA-Datei der Homologe auf den Computercluster, indem Sie scp $FASTA username@clusterlocation:/$DIR in einem lokalen Terminalfenster eingeben oder FileZilla verwenden, um Dateien von und zu Computer und Cluster zu übertragen.
  4. Suche nach Kandidatengenen mit BLAST+26.
    1. Installieren oder laden Sie BLAST+ v. 2.8.1 auf dem Computercluster.
    2. Erstellen Sie auf dem Computercluster eine BLAST-Datenbank aus dem genom- oder transkriptomüberseten Protein FASTA, indem Sie [BLAST+ location]/makeblastdb -in $PEP eingeben. FASTA -dbtype prot -out $OUTPUT
    3. BLAST die homologen Gensequenzen von NCBI in die Datenbank der interessierenden Spezies, indem Sie [BLAST+ location]/blastp -db $DATABASE -query $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUTeingeben.
    4. Zeigen Sie die Ausgabedatei mit dem Befehl morean. Kopieren Sie eindeutige Gen-IDs von der interessierenden Spezies in eine neue Textdatei.
    5. Extrahieren Sie die Sequenzen der Kandidatengene, indem Sie perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?print:chomp;$i{$_}=1 if @ARGV' $gene_id.txt $PEP eingeben. FASTA > $OUTPUT.
  5. Bestätigen Sie die Genannotation mit reziprokem BLAST.
    1. Gehen Sie im Internetbrowser zu https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    2. Wählen Sie tblastn, fügen Sie dann die Kandidatensequenzen ein, wählen Sie die Datenbank für nicht redundante Proteinsequenzen aus und klicken Sie auf BLAST.
  6. Identifizieren Sie zusätzliche Gene, indem Sie alle Gene im Genom oder Transkriptom mit Gen-Ontologie-Begriffen (GO) kommentieren (siehe Diskussion).
    1. Übertragen Sie das Protein FASTA auf den lokalen Computer.
    2. Laden Sie Blast2GO27,28,29 v. 5.2 herunter und installieren Sie es auf dem lokalen Computer.
    3. Öffnen Sie Blast2GO, klicken Sie auf Datei, gehen Siezu Laden , gehen Sie zu Sequenzen laden, klicken Sie auf Fasta-Datei laden (fasta). Wählen Sie die FASTA-Datei aus und klicken Sie auf Laden.
    4. Klicken Sie auf Blast, wählen Sie NCBI Blastund klicken Sie auf Weiter. Parameter bearbeiten oder auf Weiterklicken, Parameter bearbeiten und auf Ausführen klicken, um die ähnlichste Genbeschreibung zu finden.
    5. Klicken Sie auf Mapping und dann auf Ausführen, um Gene Ontology-Anmerkungen nach ähnlichen Proteinen zu durchsuchen.
    6. Klicken Sie anschließend auf interpro, wählen Sie EMBL-EBI InterPround klicken Sie auf Weiter. Bearbeiten Sie Parameter, oder klicken Sie auf Weiterund dann auf Ausführen, um nach Signaturen bekannter Genfamilien und Domänen zu suchen.
    7. Exportieren Sie die Anmerkungen, indem Sie auf Dateiklicken , Exportierenauswählen , auf Tabelle exportierenklicken . Klicken Sie auf Durchsuchen, benennen Sie die Datei, klicken Sie auf Speichern, klicken Sie auf Exportieren.
    8. Durchsuchen Sie die Anmerkungstabelle nach INTERESSANTEN GO-Begriffen, um zusätzliche Kandidatengene zu identifizieren. Extrahieren Sie die Sequenzen aus der FASTA-Datei (STEP 8.4.5)

9. Phylogenetische Bäume

  1. Laden Sie MEGA30 v. 7.0.26 herunter und installieren Sie es auf Ihrem lokalen Computer.
  2. Öffnen Sie MEGA, klicken Sie auf Ausrichten, klicken Sie auf Ausrichtung bearbeiten/erstellen, wählen Sie Neue Ausrichtung erstellen, klicken Sie AUF OK, wählen Sie Protein.
  3. Wenn sich das Ausrichtungsfenster öffnet, klicken Sie auf Bearbeiten,klicken Sie auf Sequenzen aus Datei einfügen und wählen Sie die FASTA mit Proteinsequenzen von Kandidatengenen und wahrscheinlichen Homologen aus.
  4. Wählen Sie alle Sequenzen aus. Suchen Sie das Armsymbol und bewegen Sie den Mauszeiger darüber. Es sollte sagen, Align-Sequenzen mit dem MUSCLE31-Algorithmus. Klicken Sie auf das Armsymbol und dann auf Protein ausrichten, um die Sequenzen auszurichten. Bearbeiten Sie Parameter, oder klicken Sie auf OK, um sie mit standarden Parametern auszurichten.
  5. Überprüfen Sie visuell und nehmen Sie alle manuellen Änderungen vor, speichern Und schließen Sie das Ausrichtungsfenster.
  6. Klicken Sie im MEGA-Hauptfenster auf Modelle, klicken Sie auf Beste DNA/Protein-Modelle (ML) suchen, wählen Sie die Ausrichtungsdatei aus und wählen Sie entsprechende Parameter aus, wie zum Beispiel: Analyse: Modellauswahl (ML), zu verwendender Baum: Automatisch (Nachbar-Verbindender Baum), Statistische Methode: Maximale Wahrscheinlichkeit, Substitutionstyp: Aminosäure, Lücke / fehlende Datenbehandlung: Alle Standorte verwenden, Zweigstellenfilter: Keine.
  7. Sobald das beste Modell für die Daten bestimmt ist, gehen Sie zum MEGA-Hauptfenster. Klicken Sie auf Phylogenie, klicken Sie auf Struktur mit maximaler Wahrscheinlichkeit erstellen/testen, und wählen Sie dann ggf. die Ausrichtung aus. Wählen Sie die entsprechenden Parameter für den Baum: Statistische Methode: Maximale Wahrscheinlichkeit, Test der Phylogenie: Bootstrap-Methode mit 100 Replikaten, Substitutionstyp: Aminosäure, Modell: LG mit Freqs. (+F), Raten zwischen Standorten: Gamma verteilt (G) mit 5 diskreten Gammakategorien, Gap/Missing Data Treatment: use all sites, ML heuristische Methode: Nearest-Neighbor-Interchange (NNI).

10. Visualisieren Sie die Genexpression mit TPM

  1. Für Trinity gehen Sie auf dem Computercluster in das Verzeichnis, in dem abundance_estimates_to_matrix.pl ausgeführt wurde, und eine der Ausgaben sollte Matrix sein. TPM.not_cross_norm. Übertragen Sie diese Datei auf Ihren lokalen Computer.
    HINWEIS: Siehe Ergänzende Materialien für die Normalisierung von Kreuzproben.
  2. Für TPMs aus einer Genomanalyse führen Sie die folgenden Schritte aus.
    1. Wechseln Sie auf dem Computercluster zum RSEM-Installationsspeicherort. Kopieren Sie rsem-generate-data-matrix, indem Sie scp rsem-generate-data-matrix rsem-generate-TPM-matrix eingeben. Verwenden Sie nano, um die neue Datei zu bearbeiten und ändern Sie "my $offsite = 4" von 4 auf 5 für TPM, es sollte jetzt "my $offsite = 5" heißen.
  3. Gehen Sie zu dem Verzeichnis, in dem sich die RSEM-Ausgabedateien .genes.results befinden, und verwenden Sie nun rsem-generate-TPM-matrix *[genes/isoforms.results] > $OUTPUT, um eine TPM-Matrix zu generieren. Übertragen Sie die Ergebnisse auf einen lokalen Computer.
  4. Visualisieren Sie die Ergebnisse in ggplot2.
    1. Laden Sie R v. 4.0.0 und RStudio v. 1.2.1335 auf einen lokalen Computer herunter.
    2. Öffnen Sie RStudio auf der rechten Seite des Bildschirms, gehen Sie zur Registerkarte Pakete und klicken Sie auf Installieren. Geben Sie ggplot2 ein und klicken Sie auf Installieren.
    3. Lesen Sie im R-Skriptfenster die TPM-Tabelle durch Eingabe von data<-read.table("$tpm.txt",header = T)
    4. Geben Sie für Balkendiagramme ähnlich Abbildung 4 etwas Ähnliches ein: p<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), data=data, stat="identity")
      fill<-c("#d7191c","#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      p<-p+scale_fill_manual(werte=füllung)
      p + theme(axis.text.x = element_text(angle = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die oben genannten Methoden sind in Abbildung 1 zusammengefasst und wurden auf einen Datensatz von Hydra vulgaris Geweben angewendet. H. vulgaris ist ein wirbelloses Süßwasser, das zum Stamm Cnidaria gehört, zu dem auch Korallen, Quallen und Seeanämonen gehören. H. vulgaris kann sich asexuell vermehren, indem sie knospen und sie können ihren Kopf und Fuß regenerieren, wenn sie halbiert werden. In dieser Studie wollten wir die Evolution und Expression von Opsin-Genen in Hydra7untersuchen. Während Hydra keine Augen haben, zeigen sie lichtabhängiges Verhalten32. Opsin-Gene kodieren Proteine, die für das Sehen wichtig sind, um verschiedene Wellenlängen des Lichts zu erkennen und die Phototransduktionskaskade zu starten. Die Untersuchung der molekularen Evolution und Expression dieser Genfamilie in einer Basalart kann Einblicke in die Evolution der Augen und die Lichtdetektion bei Tieren geben.

Wir haben eine geführte Assemblierung unter Verwendung des Hydra 2.033-Referenzgenoms und öffentlich verfügbarer RNA-seq-Daten (GEO-Beitritt GSE127279) Abbildung 1erstellt. Dieser Schritt dauerte ca. 3 Tage. Obwohl wir in diesem Fall kein De-novo-Transkriptom generiert haben, kann die Generierung einer Trinity-Assembly bis zu 1 Woche dauern, und jede Bibliothek kann je nach Mapper einige Stunden für die Lesezuordnung in Anspruch nehmen. Die zusammengeführte Hydra-Baugruppe (~ 50.000 Transkripte) wurde mit Blast2GO kommentiert, was etwa 1 Woche dauerte Abbildung 1. Sequenzen für Opsin-verwandte Gene wurden in eine Fasta-Datei extrahiert. Sequenzen für Opsin-Gene anderer Spezies wurden ebenfalls aus NCBI GenBank extrahiert. Wir verwendeten Opsine von Nesseltieren Podocoryna carnea, Cladonema radiatum, Tripedelia cystophoraund Nematostella vectensis, und wir schlossen auch Outgroups Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster und Homo sapiensein . Opsin-Gene wurden in MEGA7 Abbildung 2ausgerichtet. Durch die Betrachtung der Ausrichtung konnten wir Hydra-Opsine identifizieren, denen eine konservierte Lysin-Aminosäure fehlte, die notwendig war, um ein lichtempfindliches Molekül zu binden. Nach der visuellen Inspektion haben wir das beste Modell durch eine Modellauswahlanalyse ermittelt. Wir haben einen Maximum-Likelihood-Baum mit dem Modell LG + G + F mit dem Bootstrap-Wert von 100 Abbildung 3generiert. Für 149 Opsin-Gene war der Baum in ca. 3 Tagen fertig. Die Phylogenie legt nahe, dass sich Opsin-Gene durch linienspezifische Duplikationen bei Nesseltieren und möglicherweise durch Tandemduplikation bei H. vulgaris7entwickeln.

Wir führten eine differentielle Expressionsanalyse in edgeR durch und untersuchten die absolute Expression von Opsin-Genen. Wir stellten die Hypothese auf, dass ein oder mehrere Opsine im Kopf hochreguliert werden würden (Hypostome) und führten paarweise Vergleiche von Hypostom mit körpersäule, Knospenzone, Fuß und Tentakeln durch. Als Beispiel für einen paarweisen Vergleich wurden 1.774 Transkripte zwischen Hypostom und Körpersäule differentiell exprimiert. Wir haben die Gene bestimmt, die über mehrere Vergleiche hochreguliert wurden, und eine funktionelle Anreicherung in Blast2GO Tabelle 1gemacht. Die Gruppierung der G-Protein-gekoppelten Rezeptoraktivität umfasste Opsin-Gene. Schließlich untersuchten wir die absolute Expression von Opsin-Genen in verschiedenen Geweben, während der Knospung und während der Regeneration, indem wir ihre TPM-Werte mit ggplot Abbildung 4 auftuchten. Mit den hier beschriebenen Methoden identifizierten wir 2 Opsin-Gene, die sich nicht mit den anderen Opsinen in der Phylogenie gruppierten, fanden ein Opsin, das fast 200-mal mehr exprimiert wurde als andere, und wir fanden einige Opsin-Gene, die mit Phototransduktionsgenen koexprimiert wurden, die für die Lichtdetektion verwendet werden können.

Figure 1
Abbildung 1: Workflow-Schaltplan. Programme, die zur Analyse von Daten auf dem Computercluster verwendet werden, sind blau, in Magenta sind diejenigen, die wir auf einem lokalen Computer verwendet haben, und in Orange ist ein webbasiertes Programm. (1) Trim RNA-seq liest mit trimmomatic v. 0.35. Wenn ein Genom verfügbar ist, aber Genmodelle fehlen, generieren Sie eine geführte Assemblierung mit STAR v. 2.6.0c und StringTie v. 1.3.4d. (Optional siehe Ergänzende Materialien) (2) Verwenden Sie ohne Referenzgenom getrimmte Lesevorgänge, um eine De-novo-Assemblierung mit Trinity v 2.8.5 zu erstellen. (3) Zur Quantifizierung der Genexpression mit einem Referenzgenom werden Kartenlesungen mit STAR und Quantifizierung mit RSEM v. 1.3.1. Extrahieren Sie TPMs mit RSEM und visualisieren Sie sie in RStudio. (4) Bowtie und RSEM können verwendet werden, um Lesevorgänge, die einem Trinitätstranskriptom zugeordnet sind, abzubilden und zu quantifizieren. Ein Trinity-Skript kann verwendet werden, um eine TPM-Matrix zu generieren, um die Anzahl in RStudio zu visualisieren. (5) Verwenden Sie webbasierte NCBI BLAST und Befehlszeile BLAST+, um nach homologen Sequenzen zu suchen und mit reziprokem BLAST zu bestätigen. Kommentieren Sie Gene weiter mit Blast2GO. Verwenden Sie MEGA, um Gene auszurichten und einen phylogenetischen Baum mit dem best-fit-Modell zu generieren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 2
Abbildung 2: Beispiel für ausgerichtete Gene. Schnappschuss zeigt einen Teil der Hydra-Opsin-Gene, die mit MUSCLE ausgerichtet sind. Der Pfeil zeigt die Position eines netzhautbindenden konservierten Lysins an. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 3
Abbildung 3: Nesseltier opsin phylogenetischer Baum. Maximum-Likelihood-Baum, der in MEGA7 unter Verwendung von Opsinsequenzen von Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster und Homo sapienserzeugt wird . Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 4
Abbildung 4: Expression von Opsin-Genen in Hydra vulgaris(A) Expression in Transkripten pro Million (TPM) von Hydra vulgaris opsin Genen in der Körpersäule, Knospenzone, Fuß, Hypostom und Tentakel. (B) Expression von Opsin-Genen in verschiedenen Stadien der Hydra-Knospung. (C) Expression von Opsin-Genen des Hydra-Hypostoms während verschiedener Zeitpunkte der Regeneration. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

GO-ID GO Name GO Kategorie Fdr
GO:0004930 G-Protein-gekoppelte Rezeptoraktivität MOLEKULARE FUNKTION 0.0000000000704
GO:0007186 G-Protein-gekoppelter Rezeptor-Signalweg BIOLOGISCHER PROZESS 0.00000000103
GO:0016055 Wnt-Signalweg BIOLOGISCHER PROZESS 0.0000358
GO:0051260 Protein-Homooligomerisierung BIOLOGISCHER PROZESS 0.000376
GO:0004222 Metalloendopeptidase-Aktivität MOLEKULARE FUNKTION 0.000467
GO:0008076 spannungsgesteuerter Kaliumkanalkomplex ZELLULÄRE KOMPONENTE 0.000642
GO:0005249 spannungsgesteuerte Kaliumkanalaktivität MOLEKULARE FUNKTION 0.00213495
GO:0007275 Entwicklung von mehrzelligen Organismen BIOLOGISCHER PROZESS 0.00565048
GO:0006813 Kalium-Ionen-Transport BIOLOGISCHER PROZESS 0.01228182
GO:0018108 Peptidyl-Tyrosin-Phosphorylierung BIOLOGISCHER PROZESS 0.02679662

Tabelle 1: Funktionelle Anreicherung von Genen, die im Hypostom hochreguliert sind

Ergänzende Materialien. Bitte klicken Sie hier, um diese Materialien herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Der Zweck dieses Protokolls besteht darin, einen Überblick über die Schritte zur Charakterisierung einer Genfamilie unter Verwendung von RNA-seq-Daten zu geben. Diese Methoden haben sich für eine Vielzahl von Arten und Datensätzen4,34,35bewährt. Die hier etablierte Pipeline wurde vereinfacht und sollte einfach genug sein, um von einem Anfänger in der Bioinformatik verfolgt zu werden. Die Bedeutung des Protokolls besteht darin, dass es alle Schritte und notwendigen Programme umreißt, um eine veröffentlichungsfähige Analyse durchzuführen. Ein entscheidender Schritt im Protokoll ist die richtige Zusammenstellung von Transkripten in voller Länge, dies stammt aus hochwertigen Genomen oder Transkriptomen. Um korrekte Transkripte zu erhalten, benötigt man qualitativ hochwertige RNA und / oder DNA und gute Anmerkungen, die unten besprochen werden.

Für die Vorbereitung der RNA-seq-Bibliothek enthalten wir Listenkits, die für kleine Körperteile von Hydra19 und Schmetterlingen18 (Materialtabelle ) funktionierten. Wir stellen fest, dass wir für Low-Input-RNA einen modifizierten Protokollansatz verwendet haben36. Methoden zur RNA-Extraktion wurden in mehreren Probentypen verglichen, darunter Hefezellen17, Neuroblastom37, Pflanzen38und Insektenlarven16, um nur einige zu nennen. Wir empfehlen dem Leser, ein Protokoll zu erwerben, das für seine interessierende Spezies funktioniert, falls vorhanden, oder Fehler mit allgemein erhältlichen Kits zu beginnen. Für eine korrekte Genquantifizierung empfehlen wir, die RNA-Probe mit DNase zu behandeln. Das Vorhandensein von DNA beeinflusst die korrekte Genquantifizierung. Wir empfehlen auch die Verwendung eines cDNA-Bibliotheksvorbereitungskits, das eine PolyA-Tail-Auswahl zur Auswahl für reife mRNA enthält. Während die rRNA-Depletion zu mehr Lesetiefe führt, ist der Prozentsatz der Exon-Abdeckung viel geringer als die Exon-Abdeckung von RNA mit PolyA+ Selektion39. Schließlich, wenn möglich, ist es am besten, gepaarte Und gestrandete40,41zu verwenden. Im obigen Protokoll müssen die Lesezuordnungsbefehle geändert werden, wenn Single-End-Lesevorgänge verwendet werden.

Wie oben erwähnt, ist es wichtig, Gene von Interesse identifizieren zu können und auch zwischen neueren Genduplikationen, alternativem Spleißen und Haplotypen bei der Sequenzierung zu unterscheiden. In einigen Fällen kann ein Referenzgenom helfen, indem bestimmt wird, wo sich Gene und Exons relativ zueinander befinden. Eine Sache zu beachten ist, dass, wenn ein Transkriptom aus einer öffentlichen Datenbank gewonnen wird und nicht von hoher Qualität ist, es am besten sein kann, mit Trinity42 zu generieren und RNA-seq-Bibliotheken aus Geweben von Interesse zu kombinieren. Wenn ein Referenzgenom keine guten Genmodelle hat, können RNA-seq-Bibliotheken verwendet werden, um neue GTFs mit StringTie43 zu generieren (siehe Ergänzende Materialien). Darüber hinaus können Gene in Fällen, in denen Gene unvollständig sind und Zugang zu einem Genom besteht, manuell mit Homolog-Sequenzen bearbeitet und dann mit Tblastn auf das Genom ausgerichtet werden. Der BLAST-Ausgang kann verwendet werden, um die tatsächliche Sequenz zu bestimmen, die sich von der Korrektur mit Homologs unterscheiden kann. Wenn keine Übereinstimmung vorhanden ist, lassen Sie die Sequenz so, wie sie ursprünglich war. Achten Sie bei der Überprüfung der Ausgabe auf die Genomkoordinaten, um sicherzustellen, dass das fehlende Exon tatsächlich Teil des Gens ist.

Obwohl wir uns auf Software und Programme konzentrieren, die wir verwendet haben, gibt es Änderungen an diesem Protokoll aufgrund vieler verfügbarer Programme, die für verschiedene Datensätze besser funktionieren könnten. Als Beispiel zeigen wir Befehle für die Zuordnung von Lesevorgängen zum Transkriptom mit Bowtie und RSEM, aber Trinity hat jetzt die Option für viel schnellere Aligner wie Kallisto44 und Salmon45. In ähnlicher Weise beschreiben wir Anmerkungen mit Blast2GO (jetzt OmicsBox), aber es gibt andere Mapper-Tools, die kostenlos und online gefunden werden können. Einige, die wir ausprobiert haben, sind: GO FEAT46, eggNOG-mapper47,48und ein sehr schneller Aligner PANNZER249. Um diese webbasierten Annotationswerkzeuge zu verwenden, laden Sie einfach das Peptid FASTA hoch und reichen Sie es ein. Standalone-Versionen von PANNZER und eggNOG-mapper können ebenfalls auf den Computercluster heruntergeladen werden. Eine weitere Änderung ist, dass wir MEGA und R auf einem lokalen Computer verwendet haben und das Online-NCBI BLAST-Tool verwendet haben, um gegenseitige BLASTs zu machen, aber alle diese Programme können auf dem Computercluster verwendet werden, indem die notwendigen Programme und Datenbanken heruntergeladen werden. Ebenso können aligner kallisto und salmon auf einem lokalen Computer verwendet werden, solange ein Benutzer über genügend RAM und Speicher verfügt. FASTQ- und FASTA-Dateien sind jedoch in der Regel sehr groß und wir empfehlen dringend, einen Computercluster für Einfachheit und Geschwindigkeit zu verwenden. Während wir Anweisungen und Links zum Herunterladen von Programmen von ihren Entwicklern zur Verfügung stellen, können viele von ihnen von bioconda installiert werden: https://anaconda.org/bioconda.

Ein häufiges Problem bei bioinformatischen Analysen ist das Versagen von Shell-Skripten. Dies kann verschiedene Gründe haben. Wenn eine Fehlerdatei erstellt wird, sollte diese Fehlerdatei vor der Fehlerbehebung überprüft werden. Einige häufige Gründe für einen Fehler sind Tippfehler, fehlende Schlüsselparameter und Kompatibilitätsprobleme zwischen Softwareversionen. In diesem Protokoll enthalten wir Parameter für die Daten, aber Softwarehandbücher können detailliertere Richtlinien für einzelne Parameter enthalten. Im Allgemeinen ist es am besten, die aktuellsten Softwareversionen zu verwenden und das Handbuch zu konsultieren, das dieser Version entspricht.

Zu den Verbesserungen dieses Protokolls gehören eine transkriptomweite differentielle Expressionsanalyse und eine funktionale Anreicherungsanalyse. Wir empfehlen edgeR50 für die Differentialexpressionsanalyse, ein Paket, das in Bioconductor erhältlich ist. Für die analyse der funktionalen Anreicherung haben wir Blast2GO29 und das webbasierte DAVID51,52verwendet. Wir empfehlen auch, die Phylogenie weiter zu bearbeiten, indem Sie sie als Newick-Datei extrahieren und webbasiertes iTOL53verwenden. Während dieses Protokoll die molekulare Evolution und Expressionsmuster von Genen untersuchen wird, können zusätzliche Experimente verwendet werden, um Gen- oder Proteinstandorte und -funktionen zu validieren. Die mRNA-Expression kann durch RT-qPCR oder In-situ-Hybridisierung bestätigt werden. Proteine können mit Hilfe der Immunhistochemie lokalisiert werden. Je nach Spezies können Knockout-Experimente verwendet werden, um die Genfunktion zu bestätigen. Dieses Protokoll kann für eine Vielzahl von Zielen verwendet werden, einschließlich, wie oben gezeigt, zur Erforschung einer Genfamilie, die typischerweise mit der Photorezeption in einer Basalart verbunden ist7. Eine weitere Anwendung dieser Methoden besteht darin, Veränderungen in einem konservierten Signalweg unter verschiedenen Selektionsdrücken zu identifizieren. Als Beispiel wurden diese Methoden verwendet, um Variationen in der Expression von transienten Rezeptorpotentialkanälen zwischen tagaktiven Schmetterlingen und nachtaktiven Motten zu entdecken34.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts preiszugeben.

Acknowledgments

Wir danken Adriana Briscoe, Gil Smith, Rabi Murad und Aline G. Rangel für Rat und Anleitung bei der Integration einiger dieser Schritte in unseren Workflow. Wir danken auch Katherine Williams, Elisabeth Rebboah und Natasha Picciani für Kommentare zum Manuskript. Diese Arbeit wurde teilweise durch ein Forschungsstipendium der George E. Hewitt Foundation for Medical an A.M.M unterstützt.

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

Biologie Heft 171 Bioinformatik Generweiterungen BLAST Transkriptom Genom MEGA
Eine Bioinformatik-Pipeline zur Untersuchung der molekularen Evolution und Genexpression mit RNA-seq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter