Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

De novo Identifizierung von aktiv übersetzten offenen Leserahmen mit Ribosom-Profiling-Daten

Published: February 18, 2022 doi: 10.3791/63366
* These authors contributed equally

Summary

Übersetzende Ribosomen dekodieren drei Nukleotide pro Codon in Peptide. Ihre Bewegung entlang der mRNA, die durch Ribosomenprofilierung erfasst wird, erzeugt die Fußabdrücke, die eine charakteristische Triplettperiodizität aufweisen. Dieses Protokoll beschreibt, wie RiboCode verwendet werden kann, um dieses herausragende Merkmal aus Ribosom-Profiling-Daten zu entschlüsseln, um aktiv übersetzte offene Leserahmen auf der Ebene des gesamten Transkriptoms zu identifizieren.

Abstract

Die Identifizierung von offenen Leserahmen (ORFs), insbesondere solcher, die für kleine Peptide kodieren und aktiv unter spezifischen physiologischen Kontexten übersetzt werden, ist entscheidend für umfassende Annotationen kontextabhängiger Translatomen. Ribosomenprofilierung, eine Technik zur Erkennung der Bindungsstellen und Dichten der Übersetzung von Ribosomen auf RNA, bietet eine Möglichkeit, schnell herauszufinden, wo die Translation auf genomweiter Ebene stattfindet. In der Bioinformatik ist es jedoch keine triviale Aufgabe, die übersetzenden ORFs für die Ribosomenprofilierung effizient und umfassend zu identifizieren. Hier wird ein einfach zu bedienendes Paket namens RiboCode beschrieben, das entwickelt wurde, um aktiv nach der Übersetzung von ORFs beliebiger Größe aus verzerrten und mehrdeutigen Signalen in Ribosomenprofilierungsdaten zu suchen. Am Beispiel unseres zuvor veröffentlichten Datensatzes bietet dieser Artikel Schritt-für-Schritt-Anleitungen für die gesamte RiboCode-Pipeline, von der Vorverarbeitung der Rohdaten bis zur Interpretation der endgültigen Ausgabeergebnisdateien. Darüber hinaus werden zur Bewertung der Translationsraten der annotierten ORFs Verfahren zur Visualisierung und Quantifizierung von Ribosomendichten auf jedem ORF detailliert beschrieben. Zusammenfassend ist der vorliegende Artikel eine nützliche und zeitgemäße Anleitung für die Forschungsbereiche Translation, kleine ORFs und Peptide.

Introduction

In jüngster Zeit hat eine wachsende Zahl von Studien eine weit verbreitete Produktion von Peptiden gezeigt, die aus ORFs kodierender Gene und den zuvor annotierten Genen als nicht kodierend übersetzt wurden, wie z.B. lange nicht-kodierende RNAs (lncRNAs) 1,2,3,4,5,6,7,8. Diese übersetzten ORFs werden von Zellen reguliert oder induziert, um auf Umweltveränderungen, Stress und Zelldifferenzierung zu reagieren1,8,9,10,11,12,13. Es hat sich gezeigt, dass die Übersetzungsprodukte einiger ORFs eine wichtige regulatorische Rolle in verschiedenen biologischen Prozessen in Entwicklung und Physiologie spielen. Zum Beispiel entdeckten Chng et al.14 ein Peptidhormon namens Elabela (Ela, auch bekannt als Apela/Ende/Toddler), das für die kardiovaskuläre Entwicklung entscheidend ist. Pauli et al. schlugen vor, dass Ela auch als Mitogen wirkt, das die Zellmigration im frühen Fischembryo fördert15. Magny et al. berichteten über zwei Mikropeptide von weniger als 30 Aminosäuren, die den Kalziumtransport regulieren und die regelmäßige Muskelkontraktion im Drosophila-Herzen beeinflussen10.

Es bleibt unklar, wie viele solcher Peptide vom Genom kodiert werden und ob sie biologisch relevant sind. Daher ist eine systematische Identifizierung dieser potenziell kodierenden ORFs sehr wünschenswert. Die direkte Bestimmung der Produkte dieser ORFs (d.h. Protein oder Peptid) mit traditionellen Ansätzen wie evolutionärer Konservierung16,17 und Massenspektrometrie18,19 ist jedoch eine Herausforderung, da die Detektionseffizienz beider Ansätze von der Länge, Häufigkeit und Aminosäurezusammensetzung der produzierten Proteine oder Peptide abhängt. Das Aufkommen der Ribosomenprofilierung, einer Technik zur Identifizierung der Ribosomenbelegung auf mRNAs bei Nukleotidauflösung, hat eine präzise Möglichkeit geschaffen, das Kodierungspotenzial verschiedener Transkripte zu bewerten3,20,21, unabhängig von ihrer Länge und Zusammensetzung. Ein wichtiges und häufig verwendetes Merkmal zur Identifizierung aktiv übersetzender ORFs mithilfe von Ribosomenprofiling ist die Drei-Nukleotid-Periodizität (3-nt) der Fußabdrücke des Ribosoms auf mRNA vom Startcodon bis zum Stopp-Codon. Ribosom-Profiling-Daten haben jedoch oft mehrere Probleme, einschließlich niedriger und spärlicher Sequenzierungswerte entlang von ORFs, hohem Sequenzierungsrauschen und ribosomalen RNA (rRNA) -Kontaminationen. Daher schwächen die verzerrten und mehrdeutigen Signale, die von solchen Daten erzeugt werden, die 3-nt-Periodizitätsmuster der Fußabdrücke der Ribosomen auf mRNA, was letztendlich die Identifizierung der hochkonfidenzierten übersetzten ORFs erschwert.

Ein Paket namens "RiboCode" adaptierte einen modifizierten Wilcoxon-Sign-Rank-Test und eine P-Wert-Integrationsstrategie, um zu untersuchen, ob der ORF signifikant mehr Ribosomen-geschützte In-Frame-Fragmente (RPFs) aufweist als Off-Frame-RPFs22. Es erwies sich als hocheffizient, empfindlich und genau für die De-novo-Annotation des Translatoms in simulierten und realen Ribosomenprofilierungsdaten. Hier beschreiben wir, wie Sie dieses Tool verwenden, um die potenziellen übersetzenden ORFs aus den rohen Ribosom-Profiling-Sequenzierungsdatensätzen zu erkennen, die von der vorherigen Studie23 generiert wurden. Diese Datensätze wurden verwendet, um die Funktion der EIF3-Untereinheit "E" (EIF3E) in der Translation zu untersuchen, indem die Ribosomenbelegungsprofile von MCF-10A-Zellen, die mit Kontrolle (si-Ctrl) transfiziert wurden, und EIF3E (si-eIF3e) kleininterferierenden RNAs (siRNAs) verglichen wurden. Durch die Anwendung von RiboCode auf diese Beispieldatensätze haben wir 5.633 neuartige ORFs entdeckt, die möglicherweise für kleine Peptide oder Proteine kodieren. Diese ORFs wurden basierend auf ihren Standorten relativ zu den kodierenden Regionen in verschiedene Typen eingeteilt, darunter Upstream-ORFs (uORFs), Downstream-ORFs (dORFs), überlappende ORFs, ORFs aus neuartigen proteinkodierenden Genen (neuartige PCGs) und ORFs aus neuartigen nichtproteinkodierenden Genen (neuartige NonPCGs). Die RPF-Lesedichten auf uORFs waren in EIF3E-defizienten Zellen im Vergleich zu Kontrollzellen signifikant erhöht, was zumindest teilweise durch die Anreicherung von aktiv übersetzenden Ribosomen verursacht werden könnte. Die lokalisierte Ribosom-Akkumulation in der Region vom 25. bis 75. Codon von EIF3E-defizienten Zellen deutete auf eine Blockade der Translationsdehnung im Frühstadium hin. Dieses Protokoll zeigt auch, wie die RPF-Dichte der gewünschten Region visualisiert werden kann, um die 3-nt-Periodizitätsmuster von Ribosomen-Fußabdrücken auf identifizierten ORFs zu untersuchen. Diese Analysen zeigen die mächtige Rolle von RiboCode bei der Identifizierung von übersetzenden ORFs und der Untersuchung der Regulierung der Übersetzung.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Einrichtung der Umgebung und Installation von RiboCode

  1. Öffnen Sie ein Linux-Terminalfenster und erstellen Sie eine conda-Umgebung:
    conda create -n RiboCode python=3.8
  2. Wechseln Sie in die erstellte Umgebung und installieren Sie RiboCode und Abhängigkeiten:
    conda aktiviert RiboCode
    conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Datenaufbereitung

  1. Holen Sie sich Genom-Referenzdateien.
    1. Für die Referenzsequenz gehen Sie zur Ensemble-Website unter https://www.ensembl.org/index.html, klicken Sie auf das obere Menü Download und das linke Menü FTP Download. Klicken Sie in der angezeigten Tabelle in der Spalte DNA (FASTA) und in der Zeile, in der Spezies Mensch ist, auf FASTA. Kopieren Sie auf der geöffneten Seite den Link von Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, laden Sie es dann herunter und entpacken Sie es im Terminal:
      wget -c \
      http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
      gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.FA.gz
    2. Klicken Sie für Referenzanmerkungen mit der rechten Maustaste auf GTF in der Spalte Gene setzt auf der zuletzt geöffneten Webseite. Kopieren Sie den Link von Homo_sapiens. GRCh38.104.gtf.gz und laden Sie es herunter mit:
      wget -c \
      http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
      gzip -d Homo_sapiens. GRCh38.104.gtf.gz

      HINWEIS: Es wird empfohlen, die GTF-Datei von der Ensemble-Website zu beziehen, da sie Genomannotationen enthält, die in einer dreistufigen Hierarchie organisiert sind, d.h. jedes Gen enthält Transkripte, die Exons und optionale Übersetzungen enthalten (z. B. Kodierungssequenzen [CDS], Übersetzungsstartseite, Übersetzungsendseite). Wenn die Anmerkungen eines Gens oder Transkripts fehlen, z. B. eine GTF-Datei, die von UCSC oder NCBI abgerufen wurde, verwenden Sie GTFupdate, um eine aktualisierte GTF mit vollständigen Anmerkungen zur Eltern-Kind-Hierarchie zu generieren: GTFupdate original.gtf > updated.gtf. Verwenden Sie für die Anmerkungsdatei im .gff-Format das AGAT-Toolkit24 oder ein anderes Tool, um in das .gtf-Format zu konvertieren.
  2. Holen Sie sich rRNA-Sequenzen.
    1. Öffnen Sie den UCSC Genome Browser unter https://genome.ucsc.edu und klicken Sie auf Tools | Tabellenbrowser in der Dropdown-Liste.
    2. Geben Sie auf der geöffneten Seite Säugetier für Klade, Mensch für Genom, Alle Tabellen für Gruppe, rmask für Tabelle und Genom für Region an. Klicken Sie für Filter auf Erstellen, um zu einer neuen Seite zu gelangen und repClass als Übereinstimmung mit rRNA festzulegen.
    3. Klicken Sie auf Senden, und legen Sie dann das Ausgabeformat auf Sequenz und Ausgabedateinamen als hg38_rRNA.fa fest. Klicken Sie abschließend auf Ausgabe | abrufen Holen Sie sich die Sequenz, um die rRNA-Sequenz abzurufen.
  3. Rufen Sie Ribosom-Profilerstellungs-Datasets aus dem Sequence Read Archive (SRA) ab.
    1. Laden Sie die Replikatproben der si-eIF3e-Behandlungsgruppe herunter und benennen Sie sie um:
      fastq-dump SRR9047190 SRR9047191 SRR9047192
      mv SRR9047190.fastq si-eIF3e-1.fastq
      mv SRR9047191.fastq si-eIF3e-2.fastq
      mv SRR9047192.fastq si-eIF3e-3.fastq
    2. Laden Sie die Replikatbeispiele der Kontrollgruppe herunter und benennen Sie sie um:
      fastq-dump SRR9047193 SRR9047194 SRR9047195
      mv SRR9047193.fastq si-Strg-1.fastq
      mv SRR9047194.fastq si-Strg-2.fastq
      mv SRR9047195.fastq si-Strg-3.fastq
      HINWEIS: Die SRA-Beitritts-IDs für diese Beispieldatensätze wurden von der Gene Expression Omnibus (GEO)-Website25 durch Suchen nach GSE131074 abgerufen.

3. Adapter trimmen und rRNA-Verunreinigungen entfernen

  1. (Optional) Entfernen Sie Adapter aus den Sequenzierungsdaten. Überspringen Sie diesen Schritt, wenn die Adaptersequenzen bereits beschnitten wurden, wie in diesem Fall. Andernfalls verwenden Sie cutadapt , um die Adapter von Lesevorgängen abzuschneiden.
    für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    tun
    cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
    -o ${i}_trimmed.fastq ${i}.fastq
    fertig
    HINWEIS: Die Adaptersequenz nach -a Parameter variiert je nach cDNA-Bibliotheksvorbereitung. Messwerte kürzer als 15 (gegeben durch -m) werden verworfen, da die Ribosomen-geschützten Fragmente normalerweise länger als diese Größe sind.
  2. Entfernen Sie die rRNA-Kontamination mit den folgenden Schritten:
    1. Index rRNA-Referenzsequenzen:
      Bowtie-build -f hg38_rRNA.fa hg38_rRNA
    2. Richten Sie die Lesevorgänge an der rRNA-Referenz aus, um die von rRNA stammenden Lesevorgänge auszuschließen:
      für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
      tun
      Fliege -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
      --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
      fertig
      -p gibt die Anzahl der Threads für die parallele Ausführung der Tasks an. In Anbetracht der relativ geringen Größe der RPF-Reads sollten andere Argumente (z. B. -n, -y, -a, -norc, --best, --strata und -l) angegeben werden, um sicherzustellen, dass die gemeldeten Alignments am besten sind. Weitere Informationen finden Sie auf der Bowtie-Website26.

4. Richten Sie die sauberen Lesevorgänge am Genom aus

  1. Erstellen Sie einen Genomindex.
    STAR_hg38_genome mkdir
    STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
  2. Richten Sie die sauberen Lesevorgänge (keine rRNA-Kontamination) an der erstellten Referenz aus.
    für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    tun
    STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes Alle
    fertig
    HINWEIS: Ein Nukleotid ohne Vorlage wird häufig am 5'-Ende jedes Lesevorgangs durch die umgekehrte Transkriptase27 hinzugefügt, die von STAR effizient abgeschnitten wird, da standardmäßig Soft-Clipping durchgeführt wird. Die Parameter für STAR sind im STAR-Handbuch28 beschrieben.
  3. Sortieren und indizieren Sie Ausrichtungsdateien.
    für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    tun
    samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
    -o ${i}. Aligned.toTranscriptome.out.sorted.bam \
    ${i}. Aligned.toTranscriptome.out.bam
    samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
    samtools index ${i}. Aligned.sortedByCoord.out.bam
    fertig

5. Größenauswahl der RPFs und Identifizierung ihrer P-Standorte

  1. Bereiten Sie die Transkriptanmerkungen vor.
    prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
    -f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
    HINWEIS: Dieser Befehl sammelt die erforderlichen Informationen von mRNA-Transkripten aus der GTF-Datei und extrahiert die Sequenzen für alle mRNA-Transkripte aus der FASTA-Datei (jedes Transkript wird zusammengestellt, indem die Exons gemäß den in der GTF-Datei definierten Strukturen zusammengeführt werden).
  2. Wählen Sie RPFs mit bestimmten Längen aus und identifizieren Sie ihre P-Site-Positionen.
    für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    tun
    metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
    -o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
    fertig
    HINWEIS: Mit diesem Befehl werden die aggregierten Profile des 5'-Endes der ausgerichteten Lesevorgänge jeder Länge um kommentierte Start- (oder Stopp-) Start- (oder Stopp-) Codons der Übersetzung herum dargestellt. Die leselängenabhängige P-Site kann manuell bestimmt werden, indem die Verteilungsdiagramme (z. B. Abbildung 1B) der Offsetabstände zwischen den 5'-Enden der Hauptlesevorgänge und dem Startcodon untersucht werden. RiboCode generiert auch eine Konfigurationsdatei für jedes Beispiel, in der die P-Site-Positionen von Lesevorgängen, die signifikante 3-nt-Periodizitätsmuster anzeigen, automatisch bestimmt werden. Die Parameter -f0_percent, -pv1 und -pv2 definieren den Anteilsschwellenwert und die p-Wert-Cutoffs für die Auswahl der RPF-Messwerte, die im Leserahmen angereichert sind. In diesem Beispiel werden die Nukleotide +12, +13 und +13 aus dem 5'-Ende der 29-, 30- und 31-nt-Lesevorgänge in jeder Konfigurationsdatei manuell definiert.
  3. Bearbeiten Sie die Konfigurationsdateien für jedes Beispiel und führen Sie sie zusammen.
    HINWEIS: Um einen Konsenssatz eindeutiger ORFs zu generieren und eine ausreichende Abdeckung der Lesevorgänge für die Durchführung nachfolgender Analysen sicherzustellen, werden die ausgewählten Lesevorgänge aller Stichproben im vorherigen Schritt zusammengeführt. Die in merged_config.txt Datei definierten Reads bestimmter Längen (Supplemental File 1) und deren P-Site-Informationen werden im nächsten Schritt zur Bewertung des Übersetzungspotenzials von ORFs verwendet.

6. De novo annotate Übersetzung von ORFs

  1. Führen Sie RiboCode aus.
    RiboCode -a RiboCode_annot -c merged_config.txt -l ja -g \
    -o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG

    Dabei lauten die wichtigen Parameter dieses Befehls wie folgt:
    -c, Konfigurationsdatei, die den Pfad der Eingabedateien und die Informationen der ausgewählten Lesevorgänge und ihrer P-Sites enthält.
    -l, für Transkripte mit mehreren Startcodons vor den Stopp-Codons, ob die längsten ORFs (die Region vom distalen Startcodon zum Stopp-Codon) zur Bewertung ihres Übersetzungspotenzials verwendet werden. Wenn auf no gesetzt, werden die Start-Codons automatisch bestimmt.
    -s, die kanonischen Startcodes, die zur Identifizierung von ORFs verwendet werden.
    -A, (optional) die nichtkanonischen Startkodons (z. B. CTG, GTG und TTG für den Menschen), die zur ORF-Identifizierung verwendet werden und sich in Mitochondrien oder Kernen anderer Spezies unterscheiden können29.
    -m, die Mindestlänge (d. h. Aminosäuren) von ORFs.
    -o, das Präfix des Ausgabedateinamens, das die Details der vorhergesagten ORFs enthält (Supplemental File 2).
    -g und -b geben die vorhergesagten ORFs im gtf - bzw. Bettformat aus.

7. (Optional) ORF-Quantifizierung und Statistik

  1. Zählen Sie RPF-Lesevorgänge in jedem ORF.
    für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    tun
    ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
    -r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
    -o ${i}_ORF.counts -s yes -c intersection-strict
    fertig
    HINWEIS: Um die potenziell akkumulierenden Ribosomen um den Anfang und das Ende von ORFs auszuschließen, wird die Anzahl der Lesevorgänge, die in den ersten 15 (spezifiziert durch - f) und den letzten 5 Codons (spezifisch durch -l) zugewiesen sind, nicht gezählt. Optional sind die Längen der gezählten RPFs auf den Bereich von 25 bis 35 nt (übliche Größen von RPFs) beschränkt.
  2. Berechnen Sie grundlegende Statistiken der erkannten ORFs mit RiboCode:
    Rscript RiboCode_utils. R
    HINWEIS: RiboCode_utils. R (Supplemental File 3) liefert eine Reihe von Statistiken für die RiboCode-Ausgabe, z. B. das Zählen der Anzahl der identifizierten ORFs, das Anzeigen der Verteilung der ORF-Längen und das Berechnen der normalisierten RPF-Dichten (d. h. RPKM, Lesevorgänge pro Kilobasis pro Million zugeordneter Lesevorgänge).

8. (Optional) Visualisierung der vorhergesagten ORFs

  1. Erhalten Sie die relativen Positionen der Start- und Stopp-Codons für den gewünschten ORF (z. B. ENSG00000100902_35292349_35292552_67) auf seinem Transkript von RiboCode_ORFs_result_collapsed.txt (Supplemental file 3). Zeichnen Sie dann die Dichte der RPF-Lesevorgänge im ORF auf:
    plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
    -s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
    Dabei geben -s und -e die Start- und Stoppposition der Übersetzung des Plottens von ORF an. --start-codon definiert das Startcodon des ORF, das im Abbildungstitel erscheinen wird. -o definiert das Präfix des Namens der Ausgabedatei.

9. (Optional) Metagenanalyse mit RiboMiner

HINWEIS: Führen Sie die Metagenanalyse durch, um den Einfluss des EIF3E-Knockdowns auf die Translation identifizierter annotierter ORFs zu bewerten, indem Sie die folgenden Schritte ausführen:

  1. Generieren Sie Transkriptanmerkungen für RiboMiner, das das längste Transkript für jedes Gen basierend auf der von RiboCode generierten Annotationsdatei extrahiert (Schritt 5.1).
    OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
    -g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
    -o longest.transcripts.info.txt -O all.transcripts.info.txt
  2. Bereiten Sie die Konfigurationsdatei für RiboMiner vor. Kopieren Sie die Konfigurationsdatei, die mit dem Metaplot-Befehl von RiboCode (Schritt 5.4) generiert wurde, und benennen Sie sie in "RiboMiner_config.txt" um. Ändern Sie es dann entsprechend dem Format, das in der Ergänzungsdatei 4 angezeigt wird.
  3. Metagenanalysen mit RiboMiner
    1. Verwenden Sie MetageneAnalysis, um ein aggregiertes und gemitteltes Profil der RPF-Dichten über Transkripte hinweg zu generieren.
      Metagenanalyse -f RiboMiner_config.txt -c longest.transcripts.info.txt \
      -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm ja \
      -y 100 --Typ UTR
      Dabei sind wichtige Parameter: --type, analysiert entweder CDS- oder UTR-Regionen; --Norm, ob die Lesedichte normalisiert wurde; -y, die Anzahl der für jedes Transkript verwendeten Codons; -U, Diagramm der RPF-Dichte entweder auf Codon-Ebene oder auf nt-Ebene; -u und -d, definieren den Bereich der Analysebereiche relativ zum Start von codon oder stop codon; -l, die Mindestlänge (d. h. die Anzahl der Codons) von CDS; -M, der Modus für die Filterung von Transkripten, entweder Zählungen oder RPKM; -n Mindestzählungen oder RPKM in CDS zur Analyse. -m Mindestanzahl oder RPKM von CDS in der normalisierten Region; -e, die Anzahl der aus der normalisierten Region ausgeschlossenen Codons.
    2. Generieren Sie eine Reihe von PDF-Dateien zum Vergleich der Ribosomenbelegungen auf mRNA in Kontrollzellen und eIF3-defizienten Zellen.
      PlotMetagenAnalysis -i MA_normed_dataframe.txt -o MA_normed \
      -g si-Strg,si-eIF3e -r si-Strg-1,si-Strg-2,si-Strg-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode Mittelwert
      HINWEIS: PlotMetageneAnalysis generiert den Satz von PDF-Dateien. Details zur Verwendung von MetageneAnalysis und PlotMetageneAnalysis finden Sie auf der RiboMiner Website30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die Beispiel-Ribosom-Profiling-Datensätze wurden in der GEO-Datenbank unter der Zugangsnummer GSE131074 hinterlegt. Alle Dateien und Codes, die in diesem Protokoll verwendet werden, sind unter Ergänzende Dateien 1-4 verfügbar. Durch die Anwendung von RiboCode auf eine Reihe von veröffentlichten Ribosom-Profiling-Datensätzen23 identifizierten wir die neuartigen ORFs, die aktiv in MCF-10A-Zellen übersetzt wurden, die mit Kontroll- und EIF3E-siRNAs behandelt wurden. Um die RPF-Lesevorgänge auszuwählen, die höchstwahrscheinlich durch die übersetzenden Ribosomen gebunden sind, wurden die Längen der Sequenzierungswerte untersucht und eine Metagenanalyse unter Verwendung der RPFs durchgeführt, die auf die bekannten Translationsgene abgebildet wurden. Die Häufigkeitsverteilung der Längen der Lesevorgänge zeigte, dass die meisten RPFs 25-35 nt waren (Abbildung 1A), was einer Nukleotidsequenz entspricht, die wie erwartet von den Ribosomen bedeckt ist. Die P-Site-Positionen für unterschiedliche Längen von RPFs wurden bestimmt, indem die Abstände von ihren 5'-Enden zu den annotierten Start- bzw. Stopp-Codons untersucht wurden (Abbildung 1B). Die RPF-Messwerte innerhalb von 28-32nt zeigten eine starke 3-nt-Periodizität, und ihre P-Stellen befanden sich am +12. nt (Supplemental file 1).

RiboCode sucht nach den Kandidaten-ORFs von einem kanonischen Startcodon (AUG) oder alternativen Start-Codons (optional, z.B. CUG und GUG) bis zum Next-Stop-Codon. Basierend auf den Mapping-Ergebnissen von RPFs innerhalb des definierten Bereichs bewertet RiboCode dann die 3-nt-Periodizität, indem es bewertet, ob die Anzahl der In-Frame-RPFs (dh ihre P-Sites, die dem ersten Nukleotid jedes Codons zugewiesen sind) größer ist als die Anzahl der Out-of-Frame-RPFs (dh ihre P-Sites, die dem zweiten oder dritten Nukleotid jedes Codons zugewiesen sind). Wir identifizierten 13.120 Gene, die möglicherweise ORFs mit p < 0,05 übersetzen, darunter 10.394 Gene (70,8%), die für annotierte ORFs kodieren, 168 (1,1%) Gene, die für dORFs kodieren, 509 (3,5%) Gene, die für uORFs kodieren, 939 (6,4%) Gene, die vor- oder nachgelagerte ORFs kodieren, überlappten sich mit bekannten annotierten ORFs (Overlapped), und 68 (0,5%) proteinkodierende Gene, die für neuartige ORFs kodieren, und 2.601 (17,7 %) zuvor als nicht-kodierende Gene für neuartige ORFs zugewiesen (Abbildung 2 und Supplemental file 3)

Der Vergleich der Größen verschiedener ORFs zeigte, dass uORFs und überlappende ORFs kürzer sind (195 bzw. 188 nt im Durchschnitt) als kommentierte ORFs (~1.771 nt). Derselbe Trend wurde auch für neuartige ORFs (670 bzw. 385 nt für neuartige PCGs bzw. neuartige Nicht-PCGs) und dORFs (~671 nt) beobachtet (Abbildung 3). Zusammen kodierten die von RiboCode identifizierten nichtkanonischen ORFs (unannotiert) tendenziell Peptide, die kleiner sind als die bekannten annotierten ORFs.

Für jeden ORF wurden relative RPF-Zählungen berechnet, um die Funktion von EIF3 in den Übersetzungsprozessen zu bewerten. Die Ergebnisse deuteten darauf hin, dass die Ribosomendichten von uORFs in EIF3E-defizienten Zellen signifikant höher waren als in Kontrollzellen (Abbildung 4). Da berichtet wurde, dass viele uORFs hemmende Wirkungen auf die Translation von nachgeschalteten kodierenden ORFs ausüben, untersuchten wir weiter, ob der EIF3E-Knockdown die globalen Dichten von RPFs nach den Start-Codons verändert (Abbildung 5). Die Metagenanalyse, bei der die Profile vieler ORFs ausgerichtet und dann gemittelt wurden, ergab, dass eine Masse von Ribosomen zwischen den Codons 25 und 75 hinter dem Startcodon zum Stillstand kam, was darauf hindeutet, dass die Translationsdehnung in EIF3E-defizienten Zellen früh blockiert werden könnte. Weitere Untersuchungen sind gerechtfertigt, um zu untersuchen, ob das Signal-Rausch-Verhältnis oder die Änderungen der Translationseffizienz von ORFs zum Anstieg der uORF-RPKM und zur Akkumulation von Ribosomen zwischen den Codons 25 bis 75 in Abwesenheit von EIF3E beitragen, d.h. ob die 1) geringere Kontamination (oder gute Bibliotheksqualität) oder 2) aktive Translation (oder Ribosomenpausierung) in den Proben ohne EIF3E zu mehr Lesevorgängen in uORFs und in der definierten Region zwischen Der 25. und 75. Codon.

Schließlich bietet RiboCode auch eine Visualisierung für die Dichten der P-Stellen von RPFs auf dem gewünschten ORF, was Benutzern helfen könnte, die 3-nt-Periodizitätsmuster und Dichten von RPFs zu untersuchen. Abbildung 6 zeigt beispielsweise die RPF-Dichten auf einem uORF von PSMA6 und einem dORF von SENP3-EIF4A1; Beide wurden durch veröffentlichte Proteomik-Daten23 validiert (Daten nicht gezeigt).

Figure 1
Abbildung 1: Bewertung der Sequenzierungslesevorgänge und der P-Site-Positionen. (A) Längenverteilung von Ribosomen-geschützten Fragmenten (RPFs) in EIF3E-defizienten Zellen in Replikat 1 (si-eIF3e-1); (B) Ableitung der P-Site-Position von RPFs von 29nt basierend auf ihren Dichten um die bekannten Start- (oben) und Stopp-Codons (unten). Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Figure 2
Abbildung 2: Prozentualer Anteil der Gene, die verschiedene Arten von ORFs beherbergen, die von RiboCode unter Verwendung aller Proben zusammen identifiziert wurden. Abkürzungen: ORF = offener Leserahmen; dORF = nachgelagerter ORF; PCG = proteinkodierendes Gen; NonPCG = nichtproteinkodierendes Gen; uORF = vorgelagerter ORF. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Figure 3
Abbildung 3: Längenverteilungen verschiedener ORF-Typen. Abkürzungen: ORF = offener Leserahmen; dORF = nachgelagerter ORF; PCG = proteinkodierendes Gen; NonPCG = nichtproteinkodierendes Gen; uORF = vorgelagerter ORF; nt = Nukleotid. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Figure 4
Abbildung 4: Vergleich der normalisierten Lesezahlen für verschiedene ORF-Typen zwischen Kontroll- und EIF3E-defizienten Zellen. p-Werte wurden durch den von Wilcoxon signierten Rangtest bestimmt. Abkürzung: ORF = Open Reading Frame; dORF = nachgelagerter ORF; PCG = proteinkodierendes Gen; NonPCG = nichtproteinkodierendes Gen; uORF = vorgelagerter ORF; RPKM = Lesevorgänge pro Kilobasis pro Million zugeordneter Lesevorgänge; siRNA = kleine störende RNA; si-Ctrl = Kontrolle siRNA; si-eIF3e = siRNA für EIF3E. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Figure 5
Abbildung 5: Metagenanalyse, die den Stillstand von Ribosomen am 25-75. Codon stromabwärts des Startcodons von annotierten ORFs zeigt. Abkürzung: ORF = Open Reading Frame; siRNA = kleine störende RNA; si-Ctrl = Kontrolle siRNA; si-eIF3e = siRNA für EIF3E; A. U., jede Einheit. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Figure 6
Abbildung 6: P-Site-Dichteprofile von Beispiel-ORFs, die für Mikropeptide kodieren. (A) P-Site-Dichten des vorhergesagten uORF und seine Position relativ zu annotiertem CDS auf dem Transkript ENST00000622405; (B) wie in A, aber für den vorhergesagten dORF auf dem Transkript ENST00000614237. Unteres Feld mit der vergrößerten Ansicht des vorhergesagten uORF (A) oder dORF (B). Roter Balken = In-Frame-Lesevorgänge; Grüne & blaue Balken = Off-Frame-Reads. Abkürzung: ORF = Open Reading Frame; dORF = nachgelagerter ORF; uORF = vorgelagerter ORF; CDS = Kodierungssequenzen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Ergänzende Informationen: Auswertung der Abhängigkeit zwischen zwei p-Werten und Erläuterung der RiboCode-Ergebnisse (uORF von ATF4 als Beispiel). Bitte klicken Sie hier, um diese Datei herunterzuladen.

Supplemental File 1: Die Konfigurationsdatei für RiboCode, die die ausgewählten Längen von RPFs und P-Site-Positionen definiert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 2: RiboCode-Ausgabedatei, die die Informationen der vorhergesagten ORFs enthält. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 3: R-Skriptdatei zum Ausführen grundlegender Statistiken der RiboCode-Ausgabe. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Supplemental File 4: Die Konfigurationsdatei (für RiboMiner), die aus Supplemental File 1 geändert wurde. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die Ribosomen-Profilierung bietet eine beispiellose Gelegenheit, die Wirkung der Ribosomen in Zellen auf Genomebene zu untersuchen. Die genaue Entschlüsselung der Informationen, die von den Ribosom-Profiling-Daten enthalten sind, könnte Aufschluss darüber geben, welche Regionen von Genen oder Transkripten aktiv übersetzt werden. Dieses Schritt-für-Schritt-Protokoll bietet Anleitungen zur Verwendung von RiboCode zur detaillierten Analyse von Ribosomenprofilierungsdaten, einschließlich Paketinstallation, Datenvorbereitung, Befehlsausführung, Ergebniserklärung und Datenvisualisierung. Die Analyseergebnisse von RiboCode zeigten, dass die Translation allgegenwärtig ist und auf unkommentierten ORFs von kodierenden Genen und vielen Transkripten auftritt, von denen zuvor angenommen wurde, dass sie nicht kodierend sind. Die nachgelagerten Analysen lieferten Hinweise darauf, dass sich die Ribosomen entlang der vorhergesagten ORFs in 3-Nukleotid-Schritten bewegen, wenn die Translation stattfindet; Es bleibt jedoch unklar, ob der Prozess der Translation oder die hergestellten Peptide irgendeine Funktion erfüllen. Nichtsdestotrotz können genaue Annotationen der Übersetzung von ORFs im Genom aufregende Möglichkeiten bieten, die Funktionen von zuvor nicht charakterisierten Transkripten zu identifizieren31.

Die Vorhersage des Codierungspotenzials für jeden ORFs unter Verwendung von Ribosomenprofilierungsdaten hängt stark von der 3-nt-Periodizität der P-Standortdichten auf jedem Codon vom Start bis zu den Stopp-Codons von ORFs ab. Daher erfordert es eine präzise Erkennung der P-Site-Positionen von Lesevorgängen unterschiedlicher Länge. Solche Informationen werden nicht direkt durch Ribosomen-Profiling-Daten bereitgestellt, sondern könnten aus den Abständen zwischen dem 5'-Ende von RPFs und annotierten Start- oder Stopp-Codons abgeleitet werden (Protokollschritt 5.3). Das Fehlen von Annotationen bekannter Start/Stopp-Codons in der GTF-Datei, z. B. für diese neu zusammengesetzten Genome, kann dazu führen, dass RiboCode die nachgelagerten Schritte nicht ausführen kann, es sei denn, die genauen P-Site-Positionen der Lesevorgänge werden auf andere Weise bestimmt. In den meisten Fällen sind die Größe von Ribosomen-gebundenen Fragmenten und ihre P-Site-Positionen konstant, z. B. 28-30 nt lang und bei +12 nt vom 5'-Ende der Lesevorgänge in menschlichen Zellen. RiboCode ermöglicht die Auswahl der Lesevorgänge in einem bestimmten Bereich, um P-Site-Positionen basierend auf der Erfahrung zu definieren. Sowohl die Länge der RPF-Messwerte als auch die Position ihrer P-Stellen können jedoch unterschiedlich sein, wenn die Umgebungsbedingungen (z. B. Stress oder Reiz) oder das experimentelle Verfahren (z. B. Nuklease, Puffer, Bibliotheksvorbereitung und Sequenzierung) geändert wurden. Daher empfehlen wir, die Metaplots (Protokollschritt 5.3) für jede Probe auszuführen, um die RPFs mit der höchsten Konfidenzität zu extrahieren (d. h. Lesevorgänge mit 3-nt-Periodizitätsmustern) und ihre P-Site-Positionen unter verschiedenen Bedingungen zu bestimmen. Obwohl diese Operationen automatisch mit der Metaplot-Funktion durchgeführt werden können, besteht oft nur eine Minderheit der Lesevorgänge, die ein nahezu perfektes Framing oder Phasing zeigen, die strengen Auswahlkriterien und den statistischen Test. Daher ist es immer noch notwendig, die bestimmten Parameter, insbesondere das "-f0_percent", zu lockern und dann die 3-nt-Periodizität der Lesevorgänge bei jeder Länge visuell zu überprüfen und die Konfigurationsdatei manuell zu bearbeiten, um entsprechend mehr Lesevorgänge einzuschließen, insbesondere wenn die Bibliotheksqualität schlecht ist (Protokollschritt 5.3).

RiboCode sucht nach den Kandidaten-ORFs von kanonischen oder nicht-kanonischen Start-Codons (NUGs) bis zum nächsten Stopp-Codon. Für die Transkripte mit mehreren Start-Codons vor den Stop-Codons werden die wahrscheinlichsten Start-Codons bestimmt, indem die 3-nt-Periodizität der RPF-Lesevorgänge bewertet wird, die zwischen zwei benachbarten Start-Codons abgebildet sind, oder einfach das Upstream-Startcodon ausgewählt wird, das mehr In-Frame- als Off-Frame-RPF-Lesevorgänge aufweist. Eine Einschränkung einer solchen Strategie besteht darin, dass die tatsächlichen Start-Codons falsch identifiziert werden können, wenn Reads, die auf die Start-Codon-Regionen ausgerichtet sind, spärlich sind oder fehlen. Glücklicherweise bieten neuere Strategien wie Global Translation Initiation Sequencing (GTI-seq)32 und Quantitative Translation Initiation Sequencing (QTI-seq)33 direktere Möglichkeiten zum Auffinden der Translation Initiation Sites. Für NUGs sind noch weitere Studien erforderlich, um ihre Validität als effiziente Start-Codons zu untersuchen.

Wir haben auch ein neues Update für RiboCode veröffentlicht, indem wir drei neue Funktionen hinzugefügt haben: 1) Es meldet die anderen potenziellen ORF-Typen, die nach ihren Standorten im Verhältnis zu den anderen Transkripten als dem längsten zugewiesen wurden; 2) Es bietet eine Option zum Anpassen kombinierter p-Werte, wenn die Tests von RPF-Lesevorgängen in den beiden Outframes nicht unabhängig sind (siehe ausführlichere Erläuterung unter Ergänzende Informationen); 3) Es führt eine p-Wert-Korrektur für mehrere Tests durch, wodurch ein strengeres Screening von übersetzenden ORFs ermöglicht wird.

Da RiboCode die aktiv übersetzenden ORFs identifiziert, indem es die 3-nt-Periodizität der RPF-Lesedichten auswertet, hat es bestimmte Einschränkungen für ORFs, die extrem kurz sind (z. B. weniger als 3 Codons). Spealman et al. verglichen die Leistung von RiboCode mit uORF-seqr und berichteten, dass keine uORFs kürzer als 60 nt von RiboCode in ihrem Datensatz vorhergesagt werden34. Wir argumentieren, dass der Parameter für die ORF-Größenauswahl (-m) in der vorherigen Version von RiboCode nicht richtig eingestellt ist. Wir haben den Standardwert dieses Arguments im aktualisierten RiboCode auf 5 geändert.

RiboCode meldet die identifizierten ORFs in zwei Dateien: "RiboCode_ORFs_result.txt", die alle ORFs enthalten, einschließlich redundanter ORFs aus verschiedenen Transkripten desselben Gens; "RiboCode_ORFs_result_collapsed.txt" (Supplemental File 2), das die überlappenden ORFs mit dem gleichen Stopp-Codon, aber unterschiedlichen Start-Codons integriert, d.h. derjenige, der den meisten Upstream-Start-Codon im selben Leserahmen beherbergt, wird beibehalten. In beiden Dateien werden die erkannten ORFs entweder in "neuartige" übersetzende ORFs oder andere verschiedene Typen entsprechend ihren relativen Positionen zu bekannten CDS klassifiziert (siehe eine detaillierte Erläuterung der ORF-Typen aus RiboCode paper22 oder auf der RiboCode-Website35). Wir haben gezeigt, wie die RiboCode-Ausgaben am Beispiel eines vorhergesagten uORF des Gens ATF4 interpretiert werden können (Supplemental Information). RiboCode zählt auch die Anzahl der Gene, die verschiedene Arten von ORFs enthalten, und stellt sie zusammen mit ihren Prozentsätzen auf (Abbildung 2).

Eine Studie berichtete, dass einige exprimierte, aber translational ruhende Gene aktiviert werden können, um bei oxidativem Stress in Peptide zu übersetzen12, was darauf hindeutet, dass es wahrscheinlich andere ORFs gibt, die möglicherweise nur in einer zustandsabhängigen Weise übersetzt werden. RiboCode kann für verschiedene experimentelle Bedingungen separat (z. B. si-Ctrl oder si-eIF3e) oder gemeinsam durchgeführt werden, wie in diesem Protokoll gezeigt (Schritte 5.4 und 6.1 ). Das Multiplexing mehrerer Samples in einem einzigen Durchlauf durch Definieren der Längen und P-Site-Positionen ausgewählter Lesevorgänge in "merged_config.txt" hat mehrere Vorteile gegenüber der Verarbeitung jeder Probe einzeln. Erstens reduziert es die in einer einzigen Stichprobe vorhandenen Verzerrungen; Zweitens spart es dem Programm Laufzeit; Schließlich liefert es genügend Daten, um die Statistiken durchzuführen. Somit funktioniert es theoretisch besser als der Single-Sample-Modus, insbesondere für die Samples mit geringer Sequenzierungsabdeckung und hohem Hintergrundrauschen. Die weitere Quantifizierung und der Vergleich der Anzahl der RPFs, die vorhergesagten ORFs zwischen verschiedenen Bedingungen zugeordnet sind (z. B. si-eIF3e vs. si-Ctrl), ermöglichen es uns, kontextabhängige ORFs zu entdecken oder die translationale Regulation der ORFs zu untersuchen.

Beachten Sie, dass aufgrund der Anhäufung von Ribosomen am Anfang und am Ende von ORFs, ein Phänomen, das als "Translationsrampe" bezeichnet wird, die RPFs, die in den ersten 15 Codons und den letzten 5 Codons zugewiesen sind, von der Lesezählung ausgeschlossen werden sollten, um die Analyse der differentiellen ORF-Translationsverzerrung zu den Unterschieden der Initiationsraten zu vermeiden3,5, 36. Diese Ergebnisse deuteten darauf hin, dass die Häufigkeit von uORFs-Typen in Zellen ohne EIF3 höher ist als in Kontrollzellen, was (oder zumindest teilweise) durch die erhöhten Spiegel aktiv übersetzender Ribosomen verursacht werden könnte. Die Meta-Analyse der RPF-Dichten um die Start-Codons deutete auch darauf hin, dass die frühe Translationsdehnung durch EIF3E reguliert wird. Beachten Sie, dass das einfache Zählen der RPF-Lesevorgänge in einem ORF für die Übersetzungsquantifizierung nicht genau ist, insbesondere wenn die Übersetzungsverlängerung stark blockiert ist.

Zusammenfassend zeigt dieses Protokoll, dass RiboCode leicht angewendet werden könnte, um neu übersetzte ORFs jeder Größe zu identifizieren, einschließlich derjenigen, die Mikropeptide kodieren. Es wäre ein wertvolles Werkzeug für die Forschungsgemeinschaft, verschiedene Arten von ORFs in verschiedenen physiologischen Kontexten oder experimentellen Bedingungen zu entdecken. Eine weitere Validierung der Protein- oder Peptidprodukte aus diesen ORFs wäre für die Entwicklung zukünftiger Anwendungen der Ribosomenprofilierung nützlich.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben keine Interessenkonflikte offenzulegen.

Acknowledgments

Die Autoren möchten die Unterstützung durch die Rechenressourcen der HPCC-Plattform der Xi'an Jiaotong University würdigen. Z.X. dankt dem Young Topnotch Talent Support Plan der Xi'an Jiaotong Universität.

Materials

Name Company Catalog Number Comments
A computer/server running Linux Any - -
Anaconda or Miniconda Anaconda - Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation - https://www.r-project.org/
Rstudio Rstudio - https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
  25. Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
  26. Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
  27. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  28. Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
  29. Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
  30. Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
  31. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  32. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  33. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  34. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  35. Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
  36. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Tags

Biologie Ausgabe 180 Ribosom-Profiling offener Leserahmen mRNA-Translation Mikropeptid uORF dORF
<em>De novo</em> Identifizierung von aktiv übersetzten offenen Leserahmen mit Ribosom-Profiling-Daten
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhu, Y., Li, F., Yang, X., Xiao, Z.More

Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter