Biology

De novo Identificazione di frame di lettura aperti tradotti attivamente con dati di profilazione dei ribosomi

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

La traduzione dei ribosomi decodifica tre nucleotidi per codone in peptidi. Il loro movimento lungo l'mRNA, catturato dalla profilazione dei ribosomi, produce le impronte che mostrano la periodicità caratteristica della tripletta. Questo protocollo descrive come utilizzare RiboCode per decifrare questa caratteristica prominente dai dati di profilazione dei ribosomi per identificare i frame di lettura aperti tradotti attivamente a livello di trascrittoma intero.

Abstract

L'identificazione di frame di lettura aperti (ORF), in particolare quelli che codificano piccoli peptidi e che vengono tradotti attivamente in specifici contesti fisiologici, è fondamentale per annotazioni complete di translatomi dipendenti dal contesto. La profilazione dei ribosomi, una tecnica per rilevare le posizioni di legame e le densità dei ribosomi di traduzione sull'RNA, offre una strada per scoprire rapidamente dove si sta verificando la traduzione su scala genomica. Tuttavia, non è un compito banale in bioinformatica identificare in modo efficiente e completo gli ORF di traduzione per la profilazione dei ribosomi. Qui è descritto un pacchetto facile da usare, chiamato RiboCode, progettato per cercare ORF di qualsiasi dimensione che traducono attivamente da segnali distorti e ambigui nei dati di profilazione dei ribosomi. Prendendo come esempio il nostro set di dati pubblicato in precedenza, questo articolo fornisce istruzioni dettagliate per l'intera pipeline RiboCode, dalla pre-elaborazione dei dati grezzi all'interpretazione dei file dei risultati di output finale. Inoltre, per valutare i tassi di traduzione degli ORF annotati, vengono descritte in dettaglio anche le procedure per la visualizzazione e la quantificazione delle densità dei ribosomi su ciascun ORF. In sintesi, il presente articolo è un'istruzione utile e tempestiva per i campi di ricerca relativi alla traduzione, ai piccoli ORF e ai peptidi.

Introduction

Recentemente, un numero crescente di studi ha rivelato una produzione diffusa di peptidi tradotti da ORF di geni codificanti e i geni precedentemente annotati come non codificanti, come gli RNA lunghi non codificanti (lncRNA)1,2,3,4,5,6,7,8. Questi ORF tradotti sono regolati o indotti dalle cellule a rispondere ai cambiamenti ambientali, allo stress e alla differenziazione cellulare1,8,9,10,11,12,13. I prodotti di traduzione di alcuni ORF hanno dimostrato di svolgere importanti ruoli regolatori in diversi processi biologici nello sviluppo e nella fisiologia. Ad esempio, Chng et ^{al.14 hanno} scoperto un ormone peptidico chiamato Elabela (Ela, noto anche come Apela / Ende / Toddler), che è fondamentale per lo sviluppo cardiovascolare. Pauli et al. hanno suggerito che Ela agisce anche come un mitogeno che promuove la migrazione cellulare nell'embrione di pesce ^precoce15. Magny et al. hanno riportato due micropeptidi di meno di 30 aminoacidi che regolano il trasporto del calcio e influenzano la contrazione muscolare regolare nel cuore di Drosophila10.

Non è chiaro quanti di questi peptidi siano codificati dal genoma e se siano biologicamente rilevanti. Pertanto, l'identificazione sistematica di questi ORF potenzialmente codificanti è altamente auspicabile. Tuttavia, determinare direttamente i prodotti di questi ORF (cioè proteine o peptidi) utilizzando approcci tradizionali come la conservazione ^{evolutiva16,17} e la spettrometria di ^massa18,19 è difficile perché l'efficienza di rilevamento di entrambi gli approcci dipende dalla lunghezza, dall'abbondanza e dalla composizione aminoacidica delle proteine o dei peptidi prodotti. L'avvento della profilazione dei ribosomi, una tecnica per identificare l'occupazione del ribosoma sugli mRNA a risoluzione nucleotidica, ha fornito un modo preciso per valutare il potenziale codificante di diversi trascritti3,20,21, indipendentemente dalla loro lunghezza e composizione. Una caratteristica importante e frequentemente utilizzata per identificare gli ORF che traducono attivamente utilizzando la profilazione del ribosoma è la periodicità a tre nucleotidi (3-nt) delle impronte del ribosoma sull'mRNA dal codone di partenza al codone di arresto. Tuttavia, i dati di profilazione dei ribosomi hanno spesso diversi problemi, tra cui letture di sequenziamento basse e sparse lungo orF, rumore di sequenziamento elevato e contaminazioni da RNA ribosomiale (rRNA). Pertanto, i segnali distorti e ambigui generati da tali dati indeboliscono i modelli di periodicità 3-nt delle impronte dei ribosomi sull'mRNA, il che alla fine rende difficile l'identificazione degli ORF tradotti ad alta confidenza.

Un pacchetto denominato "RiboCode" ha adattato un test Wilcoxon-signed-rank modificato e una strategia di integrazione del valore P per esaminare se l'ORF ha significativamente più frammenti protetti da ribosomi (RPF) in-frame rispetto agli RPF ^off-frame22. È stato dimostrato che è altamente efficiente, sensibile e accurato per l'annotazione de novo del translatome in dati di profilazione del ribosoma simulati e reali. Qui, descriviamo come utilizzare questo strumento per rilevare i potenziali ORF di traduzione dai set di dati di sequenziamento del profilo ribosomi grezzo generati dallo studio ^precedente23. Questi set di dati sono stati utilizzati per esplorare la funzione della subunità "E" (EIF3E) EIF3E (EIF3E) in traduzione confrontando i profili di occupazione dei ribosomi delle cellule MCF-10A trasfettate con RNA a piccola interferenza (siRNA) di controllo (si-Ctrl) e EIF3E (si-eIF3e). Applicando RiboCode a questi set di dati di esempio, abbiamo rilevato 5.633 nuovi ORF che potenzialmente codificano piccoli peptidi o proteine. Questi ORF sono stati classificati in vari tipi in base alle loro posizioni rispetto alle regioni codificanti, inclusi ORF upstream (uORF), ORF a valle (dORF), ORF sovrapposti, ORF da nuovi geni codificanti proteine (nuovi PCG) e ORF da nuovi geni non codificanti proteine (nuovi NonPCG). Le densità di lettura RPF sugli uORF sono state significativamente aumentate nelle cellule carenti di EIF3E rispetto alle cellule di controllo, il che potrebbe essere almeno parzialmente causato dall'arricchimento dei ribosomi che traducono attivamente. L'accumulo localizzato di ribosomi nella regione dal 25^° al 75^° codone di cellule carenti di EIF3E ha indicato un blocco dell'allungamento della traduzione nella fase iniziale. Questo protocollo mostra anche come visualizzare la densità RPF della regione desiderata per esaminare i modelli di periodicità 3-nt delle impronte di ribosomi su ORF identificati. Queste analisi dimostrano il potente ruolo di RiboCode nell'identificazione degli ORF di traduzione e nello studio della regolamentazione della traduzione.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configurazione dell'ambiente e installazione di RiboCode

Apri una finestra del terminale Linux e crea un ambiente conda:
conda create -n RiboCode python=3.8
Passare all'ambiente creato e installare RiboCode e le dipendenze:
conda attiva RiboCode
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt papillon star samtools

2. Preparazione dei dati

Ottieni i file di riferimento del genoma.
1. Per la sequenza di riferimento, visitare il sito Web ensemble all'https://www.ensembl.org/index.html, fare clic sul menu in alto Download e sul menu a sinistra Download FTP. Nella tabella presentata, fare clic su FASTA nella colonna DNA (FASTA) e nella riga in cui Species è Human. Nella pagina aperta, copia il link di Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, quindi scaricalo e decomprimilo nel terminale:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. Per l'annotazione di riferimento, fare clic con il pulsante destro del mouse su GTF nella colonna Set di geni nell'ultima pagina Web aperta. Copia il link di Homo_sapiens. GRCh38.104.gtf.gz e scaricarlo utilizzando:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  NOTA: Si consiglia di ottenere il file GTF dal sito Web ensemble in quanto contiene annotazioni del genoma organizzate in una gerarchia a tre livelli, ovvero ogni gene contiene trascrizioni che contengono esoni e traduzioni opzionali (ad esempio, sequenze di codifica [CDS], sito di partenza della traduzione, sito finale della traduzione). Quando mancano le annotazioni di un gene o di una trascrizione, ad esempio un file GTF ottenuto da UCSC o NCBI, utilizzare GTFupdate per generare un GTF aggiornato con annotazioni complete della gerarchia padre-figlio: GTFupdate original.gtf > updated.gtf. Per il file di annotazione nel formato .gff, utilizzare il toolkit ^AGAT24 o qualsiasi altro strumento per la conversione nel formato .gtf.
Ottieni sequenze di rRNA.
1. Aprire UCSC Genome Browser all https://genome.ucsc.edu e fare clic su Strumenti | Table Browser nell'elenco a discesa.
2. Nella pagina aperta, specificare Mammifero per clade, Umano per genoma, Tutte le tabelle per gruppo, rmask per tabella e Genoma per regione. Per filtrare, fate clic su Crea (Create ) per passare a una nuova pagina e impostare repClass in modo che corrisponda all'rRNA.
3. Fare clic su Invia e quindi impostare il formato di output su sequenza e nome file di output come hg38_rRNA.fa. Infine, fai clic su Ottieni output | Ottenere la sequenza per recuperare la sequenza rRNA.
Ottenere set di dati di profilazione dei ribosomi da Sequence Read Archive (SRA).
1. Scarica gli esempi di replica del gruppo di trattamento si-eIF3e e rinominali:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Scaricare gli esempi di replica del gruppo di controllo e rinominarli:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  NOTA: gli ID di adesione SRA per questi set di dati di esempio sono stati ottenuti dal sito Web Gene Expression Omnibus (GEO)²⁵ cercando GSE131074.

3. Tagliare gli adattatori e rimuovere la contaminazione da rRNA

(Facoltativo) Rimuovere gli adattatori dai dati di sequenziazione. Saltare questo passaggio se le sequenze dell'adattatore sono già state tagliate, come in questo caso. In caso contrario, utilizzare cutadapt per tagliare gli adattatori dalle letture.
per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fare
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
fatto
NOTA: la sequenza dell'adattatore dopo -a parametro varia a seconda della preparazione della libreria cDNA. Le letture più corte di 15 (date da -m) vengono scartate perché i frammenti protetti dai ribosomi sono solitamente più lunghi di questa dimensione.
Rimuovere la contaminazione da rRNA seguendo i seguenti passaggi:
1. Sequenze di riferimento dell'indice rRNA:
  bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Allineare le letture al riferimento all'rRNA per escludere le letture provenienti dall'rRNA:
  per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  fare
  papillon -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  fatto
  -p specifica il numero di thread per l'esecuzione parallela delle attività. Considerando le dimensioni relativamente piccole delle letture RPF, altri argomenti (ad esempio, -n, -y, -a, -norc, --best, --strata e -l) dovrebbero essere specificati per garantire che gli allineamenti riportati siano i migliori. Per maggiori dettagli, fare riferimento al sito web ^bowtie26.

4. Allineare le letture pulite al genoma

Creare un indice del genoma.
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Allineare le letture pulite (nessuna contaminazione da rRNA) al riferimento creato.
per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fare
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
fatto
NOTA: un nucleotide non templateizzato viene spesso aggiunto all'estremità 5' di ogni lettura dalla trascrittasi ^inversa27, che verrà tagliata in modo efficiente da STAR mentre esegue il soft-clipping per impostazione predefinita. I parametri per STAR sono descritti nel manuale ^STAR28.
Ordinare e indicizzare i file di allineamento.
per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fare
samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}. Aligned.sortedByCoord.out.bam
fatto

5. Selezione delle dimensioni degli RPF e identificazione dei loro siti P

Preparare le annotazioni della trascrizione.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
NOTA: questo comando raccoglie le informazioni richieste sui trascritti di mRNA dal file GTF ed estrae le sequenze per tutte le trascrizioni di mRNA dal file FASTA (ogni trascrizione viene assemblata unendo gli esoni secondo le strutture definite nel file GTF).
Seleziona RPF di lunghezze specifiche e identifica le loro posizioni P-site.
per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fare
metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0,35 -pv1 0,001 -pv2 0,001
fatto
NOTA: questo comando traccia i profili aggregati dell'estremità 5' delle letture allineate di ogni lunghezza attorno ai codoni di inizio (o arresto) della traslazione annotati. Il sito P dipendente dalla lunghezza di lettura può essere determinato manualmente esaminando i grafici di distribuzione (ad esempio, Figura 1B) delle distanze di offset tra le estremità 5' delle letture principali e il codone iniziale. RiboCode genera anche un file di configurazione per ogni campione, in cui vengono determinate automaticamente le posizioni P-site delle letture che visualizzano modelli di periodicità 3-nt significativi. I parametri -f0_percent, -pv1 e -pv2 definiscono la soglia di proporzione e i cutoff del valore p per la selezione delle letture RPF arricchite nel frame di lettura. In questo esempio, i nucleotidi +12, +13 e +13 dall'estremità 5' delle letture 29, 30 e 31 nt vengono definiti manualmente in ogni file di configurazione.
Modificare i file di configurazione per ogni esempio e unirli
NOTA: per generare un set di consenso di ORF univoci e garantire una copertura sufficiente delle letture per eseguire analisi successive, le letture selezionate di tutti i campioni nel passaggio precedente vengono unite. Le letture di lunghezze specifiche definite nel file merged_config.txt (file supplementare 1) e le relative informazioni sul sito P vengono utilizzate per valutare il potenziale di traduzione degli ORF nella fase successiva.

6. De novo annotate translating ORFs

Eseguire RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l yes -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Dove i parametri importanti di questo comando sono i seguenti:
-c, file di configurazione contenente il percorso dei file di input e le informazioni delle letture selezionate e dei loro siti P.
-l, per i trascritti con codoni di avvio multipli a monte dei codoni di arresto, se gli ORF più lunghi (la regione dal codone di inizio più distale al codone di arresto) vengono utilizzati per valutare il loro potenziale di traduzione. Se impostato su no, i codoni di partenza verranno determinati automaticamente.
-s, il codone o i codone di partenza canonici utilizzati per l'identificazione degli ORF.
-A, (facoltativamente) i codoni iniziali non oncologici (ad esempio, CTG, GTG e TTG per l'uomo) utilizzati per l'identificazione ORF, che possono differire nei mitocondri o nel nucleo di altre ^specie29.
-m, la lunghezza minima (cioè gli amminoacidi) degli ORF.
-o, il prefisso del nome del file di output contenente i dettagli degli ORF previsti (File supplementare 2).
-g e -b, emettono gli ORF previsti rispettivamente in formato gtf o letto .

7. (Facoltativo) Quantificazione e statistica ORF

Il conteggio RPF legge in ogni ORF.
per i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fare
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c intersection-strict
fatto
NOTA: Per escludere i potenziali ribosomi che si accumulano intorno all'inizio e alla fine degli ORF, il numero di letture allocate nei primi 15 (specificati da -f) e negli ultimi 5 codoni (specifici per -l) non vengono conteggiati. Facoltativamente, le lunghezze degli RPF conteggiati sono limitate all'intervallo da 25 a 35 nt (dimensioni comuni di RPF).
Calcola le statistiche di base degli ORF rilevati utilizzando RiboCode:
Rscript RiboCode_utils. R
NOTA: RiboCode_utils. R (Supplemental File 3) fornisce una serie di statistiche per l'output RiboCode, ad esempio, contando il numero di ORF identificati, visualizzando la distribuzione delle lunghezze ORF e calcolando le densità RPF normalizzate (cioè RPKM, letture per kilobase per milione di letture mappate).

8. (Opzionale) Visualizzazione degli ORF previsti

Ottenere le posizioni relative dei codoni di inizio e arresto per l'ORF desiderato (ad esempio, ENSG00000100902_35292349_35292552_67) sulla sua trascrizione da RiboCode_ORFs_result_collapsed.txt (file supplementare 3). Quindi, traccia la densità delle letture RPF nell'ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-codone ATG -o ENSG00000100902_35292349_35292552_67
Dove -s e - e specificano la posizione di inizio e di arresto della traslazione del plottaggio orf. --start-codon definisce il codone iniziale dell'ORF, che apparirà nel titolo della figura. -o definisce il prefisso del nome del file di output.

9. (Opzionale) Analisi del metagene con RiboMiner

NOTA: eseguire l'analisi del metagene per valutare l'influenza del knockdown EIF3E sulla traduzione di ORF annotati identificati, seguendo i passaggi seguenti:

Genera annotazioni di trascrizioni per RiboMiner, che estrae la trascrizione più lunga per ciascun gene in base al file di annotazione generato da RiboCode (passaggio 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Preparare il file di configurazione per RiboMiner. Copiare il file di configurazione generato dal comando metaplots di RiboCode (passaggio 5.4) e rinominarlo "RiboMiner_config.txt". Quindi, modificarlo in base al formato mostrato nel file supplementare 4.
Analisi dei metageni con RiboMiner
1. Utilizzare MetageneAnalysis per generare un profilo aggregato e mediato delle densità degli RPF tra le trascrizioni.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codone -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm yes \
  -y 100 --tipo UTR
  Dove i parametri importanti sono: --type, analizzando le regioni CDS o UTR ; --norm, se normalizzata la densità di lettura; -y, il numero di codoni utilizzati per ciascuna trascrizione; -U, densità RPF del grafico a livello di codone o a livello di nt ; -u e -d, definiscono l'intervallo di regioni di analisi relative al codone iniziale o al codone di arresto; -l, la lunghezza minima (cioè il numero di codoni) del CDS; -M, la modalità per il filtraggio delle trascrizioni, conteggi o RPKM; -n conteggi minimi o RPKM in CDS per l'analisi. -m conteggi minimi o RPKM di CDS nella regione normalizzata; -e, il numero di codoni esclusi dalla regione normalizzata.
2. Generare una serie di file pdf per confrontare le occupazioni di ribosomi su mRNA in celle di controllo e cellule carenti di eIF3.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
  NOTA: PlotMetageneAnalysis genera il set di file pdf. I dettagli sull'utilizzo di MetageneAnalysis e PlotMetageneAnalysis sono disponibili sul sito web di RiboMiner30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I set di dati di profilazione dei ribosomi di esempio sono stati depositati nel database GEO con il numero di adesione GSE131074. Tutti i file e i codici utilizzati in questo protocollo sono disponibili nei file supplementari 1-4. Applicando RiboCode a una serie di set di dati pubblicati sul profilo dei ^ribosomi23, abbiamo identificato i nuovi ORF tradotti attivamente in cellule MCF-10A trattate con siRNA di controllo ed EIF3E. Per selezionare le letture RPF che sono molto probabilmente legate dai ribosomi traslanti, sono state esaminate le lunghezze delle letture di sequenziamento ed è stata eseguita un'analisi del metagene utilizzando gli RPF mappati sui geni di traduzione noti. La distribuzione in frequenza delle lunghezze delle letture ha mostrato che la maggior parte degli RPF erano 25-35 nt (Figura 1A), corrispondenti a una sequenza nucleotidica coperta dai ribosomi come previsto. Le posizioni del sito P per diverse lunghezze di RPF sono state determinate esaminando le distanze dalle loro estremità 5' ai codoni di inizio e di arresto annotati, rispettivamente (Figura 1B). Le letture RPF entro 28-32nt mostravano una forte periodicità di 3-nt e i loro siti P erano al +12 ^° nt (file supplementare 1).

RiboCode cerca gli ORF candidati da un codone di avvio canonico (AUG) o codoni di avvio alternativi (facoltativi, ad esempio, CUG e GUG) al codone di arresto successivo. Quindi, sulla base dei risultati di mappatura degli RPF all'interno dell'intervallo definito, RiboCode valuta la periodicità 3-nt valutando se il numero di RPF in-frame (cioè i loro siti P allocati sul primo nucleotide di ciascun codone) è maggiore del numero di RPF fuori frame (cioè i loro siti P allocati sul secondo o terzo nucleotide di ciascun codone). Abbiamo identificato 13.120 geni potenzialmente traslanti ORF con p < 0,05, tra cui 10.394 geni (70,8%) che codificano ORF annotati, 168 (1,1%) geni che codificano dORF, 509 (3,5%) geni che codificano uORF, 939 (6,4%) geni che codificano a monte o a valle ORF sovrapposti a ORF annotati noti (Overlapped) e 68 (0,5%) geni codificanti proteine che codificano per nuovi ORF e 2.601 (17,7%) precedentemente assegnati come geni non codificanti che codificano nuovi ORF (Figura 2 e file supplementare 3)

Il confronto delle dimensioni di diversi ORF ha mostrato che gli ORRIF e gli ORF sovrapposti sono più brevi (195 e 188 nt in media, rispettivamente) rispetto agli ORF annotati (~ 1.771 nt). La stessa tendenza è stata osservata anche per i nuovi ORF (670 e 385 nt in media per i nuovi PCG e i nuovi nonPCGS, rispettivamente) e i dORF (~ 671 nt) (Figura 3). Insieme, quegli ORF non canonici (non annotati) identificati da RiboCode tendevano a codificare peptidi che sono più piccoli di quelli noti ORF annotati.

I conteggi RPF relativi sono stati calcolati per ciascun ORF per valutare la funzione di EIF3 nei processi di traduzione. I risultati hanno suggerito che le densità di ribosomi degli uORF erano significativamente più alte nelle cellule carenti di EIF3E rispetto alle cellule di controllo (Figura 4). Poiché è stato riferito che molti uORF esercitano effetti inibitori sulla traduzione di ORF codificanti a valle, la Corte ha ulteriormente esaminato se l'abbattimento dell'EIF3E alteri le densità globali dei RPF a valle dei codoni di partenza (Figura 5). L'analisi del metagene, in cui i profili di molti ORF sono stati allineati e poi mediati, ha rivelato che una massa di ribosomi si è bloccata tra i codoni 25 e 75 a valle del codone iniziale, suggerendo che l'allungamento della traduzione potrebbe essere bloccato all'inizio nelle cellule carenti di EIF3E. Ulteriori indagini sono necessarie per esaminare se il rapporto segnale-rumore o le variazioni dell'efficienza di traslazione degli ORF contribuiscano all'aumento di uORF RPKM e all'accumulo di ribosomi tra codoni da 25 a 75 in assenza di EIF3E, cioè se 1) minore contaminazione (o buona qualità della libreria) o 2) traduzione attiva (o pausa di ribosomi) nei campioni senza EIF3E provoca più letture negli uORF e nella regione definita tra il 25^° e il 75^° codone.

Infine, RiboCode fornisce anche la visualizzazione delle densità dei siti P degli RPF sull'ORF desiderato, che potrebbe aiutare gli utenti a esaminare i modelli di periodicità 3-nt e le densità degli RPF. Ad esempio, la Figura 6 presenta le densità RPF su un uORF di PSMA6 e un dORF di SENP3-EIF4A1; entrambi sono stati convalidati da dati di proteomica ^pubblicati23 (dati non mostrati).

Figura 1: Valutazione delle letture di sequenziamento e delle posizioni del sito P. (A) Distribuzione della lunghezza dei frammenti protetti dai ribosomi (RPF) in cellule carenti di EIF3E in replicate 1 (si-eIF3e-1); (B) Deduzione della posizione del sito P di RPF di 29nt in base alle loro densità intorno ai codoni di inizio e di arresto noti (in basso). Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Percentuali di geni che ospitano diversi tipi di ORF identificati da RiboCode utilizzando tutti i campioni insieme. Abbreviazioni: ORF = cornice di lettura aperta; dORF = ORF a valle; PCG = gene che codifica per proteine; NonPCG = gene non codificante proteine; uORF = ORF a monte. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Distribuzioni di lunghezza di diversi tipi di ORF. Abbreviazioni: ORF = cornice di lettura aperta; dORF = ORF a valle; PCG = gene che codifica per proteine; NonPCG = gene non codificante proteine; uORF = ORF a monte; nt = nucleotide. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Confronto dei conteggi di lettura normalizzati per diversi tipi di ORF tra cellule di controllo e cellule carenti di EIF3E. i valori p sono stati determinati dal test di rango firmato Wilcoxon. Abbreviazione: ORF = open reading frame; dORF = ORF a valle; PCG = gene che codifica per proteine; NonPCG = gene non codificante proteine; uORF = ORF a monte; RPKM = Letture per kilobase per milione di letture mappate; siRNA = RNA a piccola interferenza; si-Ctrl = siRNA di controllo; si-eIF3e = siRNA mirato a EIF3E. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5: Analisi del metagene che mostra lo stallo dei ribosomi al 25-75^° codone a valle del codone iniziale degli ORF annotati. Abbreviazione: ORF = open reading frame; siRNA = RNA a piccola interferenza; si-Ctrl = siRNA di controllo; si-eIF3e = siRNA mirato a EIF3E; A. U., qualsiasi unità. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 6: Profili di densità del sito P di ORF di esempio che codificano micropeptidi. (A) Densità del sito P dell'uORF previsto e sua posizione rispetto al CDS annotato sulla trascrizione ENST00000622405; (B) come in A , ma per il dORF previsto sulla trascrizione ENST00000614237. Pannello inferiore che mostra la vista ingrandita di uORF (A) o dORF (B) previsti. Barra rossa = letture nel frame; Barre verdi e blu = letture off-frame. Abbreviazione: ORF = open reading frame; dORF = ORF a valle; uORF = ORF a monte; CDS = sequenze di codifica. Fare clic qui per visualizzare una versione più grande di questa figura.

Informazioni supplementari: Valutazione della dipendenza tra due valori p e spiegazione dei risultati di RiboCode (uORF di ATF4 come esempio). Fare clic qui per scaricare questo file.

File supplementare 1: il file di configurazione per RiboCode che definisce le lunghezze selezionate di RPF e posizioni del sito P. Fare clic qui per scaricare questo file.

File supplementare 2: file di output RiboCode contenente le informazioni degli ORF previsti. Fare clic qui per scaricare questo file.

File supplementare 3: file di script R per l'esecuzione di statistiche di base dell'output RiboCode. Fare clic qui per scaricare questo file.

File supplementare 4: il file di configurazione (per RiboMiner) modificato dal file supplementare 1. Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La profilazione dei ribosomi offre un'opportunità senza precedenti per studiare l'azione dei ribosomi nelle cellule su scala genomica. Decifrare con precisione le informazioni trasportate dai dati di profilazione del ribosoma potrebbe fornire informazioni su quali regioni di geni o trascritti si traducono attivamente. Questo protocollo dettagliato fornisce indicazioni su come utilizzare RiboCode per analizzare i dati di profilazione dei ribosomi in dettaglio, tra cui l'installazione del pacchetto, la preparazione dei dati, l'esecuzione dei comandi, la spiegazione dei risultati e la visualizzazione dei dati. I risultati dell'analisi di RiboCode hanno indicato che la traduzione è pervasiva e si verifica su ORF non annotati di geni codificanti e molti trascritti precedentemente ritenuti non codificanti. Le analisi a valle hanno fornito la prova che i ribosomi si muovono lungo gli ORF previsti in fasi a 3 nucleotidi quando si verifica la traduzione; tuttavia, non è chiaro se il processo di traduzione o i peptidi prodotti svolgano una qualche funzione. Tuttavia, annotazioni accurate della traduzione di ORF sul genoma possono dare origine a interessanti opportunità per identificare le funzioni di trascrizioni precedentemente non ^{caratterizzate31}.

La previsione del potenziale di codifica per ciascun ORF utilizzando i dati di profilazione dei ribosomi si basa fortemente sulla periodicità 3-nt delle densità dei siti P su ciascun codone dall'inizio all'arresto dei codoni degli ORF. Pertanto, richiede un rilevamento preciso delle posizioni del sito P di letture di diverse lunghezze. Tali informazioni non sono fornite direttamente dai dati di profilazione dei ribosomi, ma potrebbero essere dedotte dalle distanze tra la fine 5' delle RPF e i codoni di inizio o arresto annotati (fase di protocollo 5.3). La mancanza di annotazioni di codoni start/stop noti nel file GTF, come per quei genomi appena assemblati, può far sì che RiboCode non riesca a eseguire i passaggi a valle a meno che le posizioni esatte del sito P delle letture non siano determinate con altri mezzi. Nella maggior parte dei casi, la dimensione dei frammenti legati ai ribosomi e le loro posizioni del sito P sono costanti, ad esempio, lunghe 28-30 nt e a +12 nt dalla fine 5' delle letture nelle cellule umane. RiboCode consente la selezione delle letture in un intervallo specifico per definire le posizioni del sito P in base all'esperienza. Tuttavia, entrambe le lunghezze delle letture RPF e la posizione dei loro siti P potrebbero essere diverse quando le condizioni ambientali (ad esempio, stress o stimolo) o la procedura sperimentale (ad esempio, nucleasi, tampone, preparazione della libreria e sequenziamento) sono state modificate. Pertanto, si consiglia di eseguire i metatragrammi (passaggio di protocollo 5.3) per ciascun campione per estrarre gli RPF più affidabili (ad esempio, letture che mostrano modelli di periodicità 3-nt) e determinare le posizioni del sito P in condizioni diverse. Sebbene queste operazioni possano essere eseguite automaticamente utilizzando la funzione metaplots , spesso solo una minoranza di letture che mostrano un inquadramento o un phasing quasi perfetti supera i rigorosi criteri di selezione e test statistici. Pertanto, è ancora necessario allentare alcuni parametri, in particolare il "-f0_percent", quindi ispezionare visivamente la periodicità 3-nt delle letture ad ogni lunghezza e modificare manualmente il file di configurazione per includere più letture di conseguenza, specialmente quando la qualità della libreria è scarsa (passaggio del protocollo 5.3).

RiboCode cerca gli ORF candidati dai codoni di avvio canonici o non canonici (NUG) al codone di arresto successivo. Per le trascrizioni con codoni di avvio multipli a monte dei codoni di arresto, i codoni di partenza più probabili sono determinati valutando la periodicità di 3-nt delle letture RPF mappate tra due codoni di inizio vicini o semplicemente scegliendo il codone di avvio a monte con più letture RPF in-frame rispetto a quelle off-frame. Un limite di tale strategia è che i codoni di partenza effettivi potrebbero essere erroneamente identificati se le letture allineate alle regioni del codone iniziale sono scarse o assenti. Fortunatamente, strategie recenti, come il sequenziamento globale dell'iniziazione della traduzione (GTI-seq)³² e il sequenziamento quantitativo dell'iniziazione della traduzione (QTI-seq)³³, forniscono modi più diretti per individuare i siti di iniziazione della traduzione. Per i NUG, sono ancora necessari ulteriori studi per indagare le loro validità come codoni di avvio efficienti.

Abbiamo anche rilasciato un nuovo aggiornamento per RiboCode aggiungendo tre nuove funzionalità: 1) riporta gli altri potenziali tipi di ORF assegnati in base alle loro posizioni rispetto alle trascrizioni diverse da quella più lunga; 2) fornisce un'opzione per regolare i valori p combinati se il test delle letture RPF nei due out-frame non è indipendente (vedere una spiegazione più dettagliata in Informazioni supplementari); 3) esegue la correzione del valore p per test multipli, consentendo lo screening degli ORF di traduzione in modo più rigoroso.

Poiché RiboCode identifica gli ORF che traducono attivamente valutando la periodicità 3-nt delle densità di lettura RPF, ha alcune limitazioni per quegli ORF che sono estremamente brevi (ad esempio, meno di 3 codoni). Spealman et al. hanno confrontato le prestazioni di RiboCode con uORF-seqr e hanno riferito che nessun uORF inferiore a 60 nt è previsto da RiboCode nel loro set di ^dati34. Sosteniamo che il parametro per la selezione della dimensione ORF (-m) nella versione precedente di RiboCode non è impostato correttamente. Abbiamo modificato il valore predefinito di questo argomento in 5 nel RiboCode aggiornato.

RiboCode riporta gli ORF identificati in due file: "RiboCode_ORFs_result.txt" contenente tutti gli ORF, compresi gli ORF ridondanti da diversi trascritti dello stesso gene; Verrà mantenuto il "RiboCode_ORFs_result_collapsed.txt" (File supplementare 2) che integra gli ORF sovrapposti con lo stesso codone di arresto ma diversi codoni di avvio, cioè quello che ospita il codone di avvio più a monte nello stesso frame di lettura. In entrambi i file, gli ORF rilevati sono classificati in ORF di traduzione "nuovi" o altri tipi diversi in base alle loro posizioni relative a CDS noti (vedere una spiegazione dettagliata dei tipi ORF da RiboCode ^paper22 o sul sito Web ^RiboCode35). Abbiamo illustrato come interpretare gli output di RiboCode utilizzando un uORF previsto del gene ATF4 come esempio (Informazioni supplementari). RiboCode conta anche il numero di geni contenenti diversi tipi di ORF e li traccia insieme alle loro percentuali (Figura 2).

Uno studio ha riportato che alcuni geni quiescenti espressi ma traslazionalmente possono essere attivati per tradursi in peptidi dopo stress ^ossidativo12, indicando che probabilmente ci sono altri ORF che potrebbero essere tradotti solo in modo dipendente dalla condizione. RiboCode può essere eseguito per diverse condizioni sperimentali separatamente (ad esempio, si-Ctrl o si-eIF3e) o congiuntamente, come dimostrato in questo protocollo (passaggi 5.4 e 6.1). Il multiplexing di più campioni in un'unica esecuzione definendo le lunghezze e le posizioni del sito P delle letture selezionate in "merged_config.txt" presenta diversi vantaggi rispetto all'elaborazione di ciascun campione singolarmente. In primo luogo, riduce i pregiudizi presenti in un singolo campione; in secondo luogo, consente di risparmiare tempo di esecuzione del programma; infine, fornisce dati sufficienti per effettuare le statistiche. Pertanto, teoricamente funziona meglio della modalità a campione singolo, specialmente per i campioni con bassa copertura di sequenziamento e alto rumore di fondo. Un'ulteriore quantificazione e confronto del numero di RPF assegnati agli ORF previsti tra diverse condizioni (ad esempio, si-eIF3e vs si-Ctrl) ci consente di scoprire ORF dipendenti dal contesto o esplorare la regolazione traslazionale degli ORF.

Si noti che a causa dell'accumulo di ribosomi all'inizio e alla fine degli ORF, un fenomeno chiamato "rampa di traduzione", gli RPF assegnati nei primi 15 codoni e negli ultimi 5 codoni dovrebbero essere esclusi dal conteggio delle letture per evitare l'analisi della distorsione differenziale della traduzione ORF alle differenze dei tassi di ^{iniziazione3,5}^,³⁶. Questi risultati hanno suggerito che l'abbondanza di tipi di uORF è più alta nelle cellule senza EIF3 rispetto alle cellule di controllo, il che potrebbe essere causato (o almeno parzialmente) dai livelli elevati di ribosomi che traducono attivamente. La meta-analisi delle densità di RPF intorno ai codoni iniziali ha anche suggerito che l'allungamento della traduzione precoce è regolato da EIF3E. Si noti che il semplice conteggio delle letture RPF in un ORF non è accurato per la quantificazione della traduzione, specialmente quando l'allungamento della traduzione è gravemente bloccato.

In sintesi, questo protocollo mostra che RiboCode potrebbe essere facilmente applicato per identificare nuovi ORF tradotti di qualsiasi dimensione, compresi quelli che codificano i micropeptidi. Sarebbe uno strumento prezioso per la comunità di ricerca per scoprire vari tipi di ORF in diversi contesti fisiologici o condizioni sperimentali. Un'ulteriore convalida dei prodotti proteici o peptidici di questi ORF sarebbe utile per lo sviluppo di future applicazioni della profilazione dei ribosomi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno conflitti di interesse da divulgare.

Acknowledgments

Gli autori vorrebbero riconoscere il supporto delle risorse computazionali fornite dalla piattaforma HPCC dell'Università di Xi'an Jiaotong. Z.X. ringrazia con gratitudine il Young Topnotch Talent Support Plan della Xi'an Jiaotong University.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identificazione di frame di lettura aperti tradotti attivamente con dati di profilazione dei ribosomi

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.