Biology

De novo Identificación de marcos de lectura abiertos traducidos activamente con datos de perfil de ribosomas

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

La traducción de ribosomas decodifica tres nucleótidos por codón en péptidos. Su movimiento a lo largo del ARNm, capturado por el perfil de ribosomas, produce las huellas que exhiben una periodicidad de triplete característica. Este protocolo describe cómo usar RiboCode para descifrar esta característica prominente a partir de los datos de perfiles de ribosomas para identificar marcos de lectura abiertos traducidos activamente a nivel de transcriptoma completo.

Abstract

La identificación de marcos de lectura abiertos (ORF), especialmente aquellos que codifican pequeños péptidos y se traducen activamente en contextos fisiológicos específicos, es fundamental para las anotaciones completas de los traducomas dependientes del contexto. El perfil de ribosomas, una técnica para detectar las ubicaciones de unión y las densidades de la traducción de ribosomas en el ARN, ofrece una vía para descubrir rápidamente dónde se produce la traducción a escala de todo el genoma. Sin embargo, no es una tarea trivial en bioinformática identificar de manera eficiente y exhaustiva los ORF de traducción para el perfil de ribosomas. Aquí se describe un paquete fácil de usar, llamado RiboCode, diseñado para buscar ORF de traducción activa de cualquier tamaño a partir de señales distorsionadas y ambiguas en datos de perfiles de ribosomas. Tomando nuestro conjunto de datos publicado anteriormente como ejemplo, este artículo proporciona instrucciones paso a paso para toda la canalización de RiboCode, desde el preprocesamiento de los datos sin procesar hasta la interpretación de los archivos de resultados de salida final. Además, para evaluar las tasas de traducción de los ORF anotados, también se describen en detalle los procedimientos para la visualización y cuantificación de las densidades de ribosomas en cada ORF. En resumen, el presente artículo es una instrucción útil y oportuna para los campos de investigación relacionados con la traducción, los ORF pequeños y los péptidos.

Introduction

Recientemente, un creciente cuerpo de estudios ha revelado una producción generalizada de péptidos traducidos de ORF de genes codificantes y los genes previamente anotados como no codificantes, como los ARN no codificantes largos (lncRNA)1,2,3,4,5,6,7,8. Estos ORF traducidos son regulados o inducidos por las células para responder a los cambios ambientales, el estrés y la diferenciación celular1,8,9,10,11,12,13. Se ha demostrado que los productos de traducción de algunos ORF desempeñan importantes funciones reguladoras en diversos procesos biológicos en desarrollo y fisiología. Por ejemplo, Chng et ^al.14 descubrieron una hormona peptídica llamada Elabela (Ela, también conocida como Apela/Ende/Toddler), que es crítica para el desarrollo cardiovascular. Pauli et al. sugirieron que Ela también actúa como un mitógeno que promueve la migración celular en el embrión de peces ^tempranos15. Magny et al. reportaron dos micropéptidos de menos de 30 aminoácidos que regulan el transporte de calcio y afectan la contracción muscular regular en el corazón de ^Drosophila10.

No está claro cuántos de estos péptidos están codificados por el genoma y si son biológicamente relevantes. Por lo tanto, la identificación sistemática de estos ORF potencialmente codificantes es muy deseable. Sin embargo, determinar directamente los productos de estos ORF (es decir, proteínas o péptidos) utilizando enfoques tradicionales como la conservación ^{evolutiva16,17} y la espectrometría de ^masas18,19 es un desafío porque la eficiencia de detección de ambos enfoques depende de la longitud, abundancia y composición de aminoácidos de las proteínas o péptidos producidos. El advenimiento del perfil de ribosomas, una técnica para identificar la ocupación del ribosoma en los ARNm a resolución de nucleótidos, ha proporcionado una forma precisa de evaluar el potencial de codificación de diferentes transcripciones3,20,21, independientemente de su longitud y composición. Una característica importante y de uso frecuente para identificar ORF que traducen activamente utilizando perfiles de ribosomas es la periodicidad de tres nucleótidos (3-nt) de las huellas del ribosoma en el ARNm desde el codón de inicio hasta el codón de parada. Sin embargo, los datos de perfiles de ribosomas a menudo tienen varios problemas, incluidas las lecturas de secuenciación bajas y escasas a lo largo de los ORF, el alto ruido de secuenciación y las contaminaciones de ARN ribosómico (ARNr). Por lo tanto, las señales distorsionadas y ambiguas generadas por dichos datos debilitan los patrones de periodicidad de 3-nt de las huellas de los ribosomas en el ARNm, lo que en última instancia dificulta la identificación de los ORF traducidos de alta confianza.

Un paquete llamado "RiboCode" adaptó una prueba modificada de rango firmado por Wilcoxon y una estrategia de integración de valor P para examinar si el ORF tiene significativamente más fragmentos protegidos por ribosomas (RPF) en el marco que los RPF fuera del ^marco22. Se demostró que es altamente eficiente, sensible y preciso para la anotación de novo del traducoma en datos de perfiles de ribosomas simulados y reales. Aquí, describimos cómo usar esta herramienta para detectar el potencial de traducción de ORFs de los conjuntos de datos de secuenciación de perfiles de ribosomas en bruto generados por el estudio ^anterior23. Estos conjuntos de datos se habían utilizado para explorar la función de la subunidad EIF3 "E" (EIF3E) en la traducción mediante la comparación de los perfiles de ocupación de ribosomas de células MCF-10A transfectadas con ARN de control (si-Ctrl) y EIF3E (si-eIF3e) de interferencia pequeña (siRNAs). Al aplicar RiboCode a estos conjuntos de datos de ejemplo, detectamos 5.633 nuevos ORF que potencialmente codifican pequeños péptidos o proteínas. Estos ORF se clasificaron en varios tipos en función de sus ubicaciones en relación con las regiones codificantes, incluidos los ORF aguas arriba (uORF), los ORF aguas abajo (dORF), los ORF superpuestos, los ORF de nuevos genes codificantes de proteínas (nuevos PCG) y los ORF de nuevos genes no codificantes de proteínas (nuevos nonPCG). Las densidades de lectura de FPR en los uORF aumentaron significativamente en las células deficientes en EIF3E en comparación con las células de control, lo que podría ser causado al menos parcialmente por el enriquecimiento de ribosomas que traducen activamente. La acumulación localizada de ribosomas en la región ^{del codón} ^{25 al} 75 de células deficientes en EIF3E indicó un bloqueo de la elongación de la traducción en la etapa temprana. Este protocolo también muestra cómo visualizar la densidad de RPF de la región deseada para examinar los patrones de periodicidad de 3 nt de huellas de ribosomas en ORF identificados. Estos análisis demuestran el poderoso papel de RiboCode en la identificación de ORF de traducción y el estudio de la regulación de la traducción.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configuración del entorno e instalación de RiboCode

Abra una ventana de terminal Linux y cree un entorno conda:
conda create -n RiboCode python=3.8
Cambie al entorno creado e instale RiboCode y dependencias:
conda activar RiboCode
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Preparación de datos

Obtener archivos de referencia del genoma.
1. Para la secuencia de referencia, vaya al sitio web de Ensemble en https://www.ensembl.org/index.html, haga clic en el menú superior Descargar y en el menú del lado izquierdo Descargar FTP. En la tabla presentada, haga clic en FASTA en la columna ADN (FASTA) y en la fila donde Especie es Humano. En la página abierta, copie el enlace de Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, luego descárguelo y descomprímalo en el terminal:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. Para obtener una anotación de referencia, haga clic con el botón secundario en GTF en la columna Conjuntos de genes de la última página web abierta. Copie el enlace de Homo_sapiens. GRCh38.104.gtf.gz y descárguelo usando:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  NOTA: Se recomienda obtener el archivo GTF del sitio web de Ensemble, ya que contiene anotaciones del genoma organizadas en una jerarquía de tres niveles, es decir, cada gen contiene transcripciones que contienen exones y traducciones opcionales (por ejemplo, secuencias de codificación [CDS], sitio de inicio de traducción, sitio de finalización de traducción). Cuando faltan las anotaciones de un gen o transcripción, por ejemplo, un archivo GTF obtenido de UCSC o NCBI, use GTFupdate para generar un GTF actualizado con anotaciones completas de jerarquía padre-hijo: GTFupdate original.gtf > updated.gtf. Para el archivo de anotación en formato .gff, utilice el kit de herramientas ^AGAT24 o cualquier otra herramienta para convertir al formato .gtf.
Obtener secuencias de ARNr.
1. Abra UCSC Genome Browser en https://genome.ucsc.edu y haga clic en Herramientas | Explorador de tablas en la lista desplegable.
2. En la página abierta, especifique Mamífero para clado, Humano para genoma, Todas las tablas para grupo, rmask para tabla y Genoma para región. Para el filtro, haga clic en Crear para ir a una nueva página y establecer repClass como coincide con rRNA.
3. Haga clic en Enviar y, a continuación, establezca el formato de salida en secuencia y nombre de archivo de salida como hg38_rRNA.fa. Finalmente, haga clic en Obtener | de salida Obtenga la secuencia para recuperar la secuencia de ARNr.
Obtenga conjuntos de datos de perfiles de ribosomas de Sequence Read Archive (SRA).
1. Descargue las muestras replicadas del grupo de tratamiento si-eIF3e y cámbieles el nombre:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Descargue los ejemplos replicados del grupo de control y cámbieles el nombre:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  NOTA: Los ID de acceso de SRA para estos conjuntos de datos de ejemplo se obtuvieron del sitio web de Gene Expression Omnibus (GEO)²⁵ mediante la búsqueda de GSE131074.

3. Recorte los adaptadores y elimine la contaminación por ARNr

(Opcional) Quite los adaptadores de los datos de secuenciación. Omita este paso si las secuencias del adaptador ya se han recortado, como en este caso. De lo contrario, use cutadapt para recortar los adaptadores de las lecturas.
for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
hacer
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
hecho
NOTA: La secuencia del adaptador después de -a parámetro variará dependiendo de la preparación de la biblioteca de CDNA. Las lecturas más cortas que 15 (dadas por -m) se descartan porque los fragmentos protegidos por ribosomas suelen ser más largos que este tamaño.
Elimine la contaminación por ARNr siguiendo estos pasos:
1. Secuencias de referencia de ARNr índice:
  bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Alinee las lecturas con la referencia de ARNr para descartar las lecturas que se originan en arNr:
  for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  hacer
  pajarita -n 0 -y -a --norc --mejor --estratos -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  hecho
  -p especifica el número de subprocesos para ejecutar paralelamente las tareas. Teniendo en cuenta el tamaño relativamente pequeño de las lecturas del FPR, se deben especificar otros argumentos (por ejemplo, -n, -y, -a, -norc, --best, --strata y -l) para garantizar que las alineaciones informadas sean las mejores. Para obtener más detalles, consulte el sitio web de ^Bowtie26.

4. Alinea las lecturas limpias con el genoma

Crear un índice del genoma.
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Alinee las lecturas limpias (sin contaminación por ARNr) con la referencia creada.
for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
hacer
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
hecho
NOTA: Con frecuencia, la transcriptasa ^inversa27 agrega con frecuencia un nucleótido sin plantilla al extremo de 5' de cada lectura, que star recortará de manera eficiente ya que realiza el recorte suave de forma predeterminada. Los parámetros de STAR se describen en el manual ^star28.
Ordenar e indexar archivos de alineación.
for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
hacer
samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Alineado.aTranscriptome.out.bam
índice samtools ${i}. Aligned.toTranscriptome.out.sorted.bam
índice samtools ${i}. Alineado.ordenadoPorCoord.out.bam
hecho

5. Selección del tamaño de los RPF e identificación de sus sitios P

Prepare las anotaciones de la transcripción.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
NOTA: Este comando recopila la información requerida de las transcripciones de ARNm del archivo GTF y extrae las secuencias de todas las transcripciones de ARNm del archivo FASTA (cada transcripción se ensambla fusionando los exones de acuerdo con las estructuras definidas en el archivo GTF).
Seleccione RPF de longitudes específicas e identifique sus posiciones de sitio P.
for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
hacer
metatramas -a RiboCode_annot -r ${i}. Alineado.aTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
hecho
NOTA: Este comando traza los perfiles agregados del extremo 5' de las lecturas alineadas de cada longitud alrededor de codones de inicio (o parada) de traducción anotados. El sitio P dependiente de la longitud de lectura se puede determinar manualmente examinando las gráficas de distribución (por ejemplo, la Figura 1B) de las distancias de desplazamiento entre los extremos 5' de las lecturas principales y el codón de inicio. RiboCode también genera un archivo de configuración para cada muestra, en el que se determinan automáticamente las posiciones P-site de las lecturas que muestran patrones de periodicidad significativos de 3 nt. Los parámetros -f0_percent, -pv1 y -pv2 definen el umbral de proporción y los puntos de corte del valor p para seleccionar las lecturas RPF enriquecidas en el marco de lectura. En este ejemplo, los nucleótidos +12, +13 y +13 del extremo 5' de las lecturas de 29, 30 y 31 nt se definen manualmente en cada archivo de configuración.
Edite los archivos de configuración de cada ejemplo y combínelos
NOTA: Para generar un conjunto de consenso de ORF únicos y garantizar una cobertura suficiente de lecturas para realizar análisis posteriores, se combinan las lecturas seleccionadas de todas las muestras en el paso anterior. Las lecturas de longitudes específicas definidas en merged_config.txt archivo (Archivo suplementario 1) y su información del sitio P se utilizan para evaluar el potencial de traducción de orfs en el siguiente paso.

6. Anotación de novo traduciendo ORFs

Ejecute RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l sí -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Donde los parámetros importantes de este comando son los siguientes:
-c, archivo de configuración que contiene la ruta de los archivos de entrada y la información de las lecturas seleccionadas y sus sitios P.
-l, para las transcripciones que tienen múltiples codones de inicio aguas arriba de los codones de parada, si los ORF más largos (la región desde el codón de inicio más distal hasta el codón de parada) se utilizan para evaluar su potencial de traducción. Si se establece en no, los codones iniciales se determinarán automáticamente.
-s, el codón(es) de inicio canónico(s) utilizado(s) para la identificación de ORFs.
-A, (opcionalmente) los codones de inicio no canónicos (por ejemplo, CTG, GTG y TTG para humanos) utilizados para la identificación de ORF, que pueden diferir en mitocondrias o núcleos de otras ^especies29.
-m, la longitud mínima (es decir, aminoácidos) de los ORF.
-o, el prefijo del nombre de archivo de salida que contiene los detalles de los ORF predichos (Archivo suplementario 2).
-g y -b, salida de los ORF predichos a gtf o formato de cama , respectivamente.

7. (Opcional) Cuantificación y estadísticas de ORF

Contar las lecturas de RPF en cada ORF.
for i en si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
hacer
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s sí -c intersección-estricta
hecho
NOTA: Para excluir los ribosomas potenciales acumulados alrededor del inicio y los extremos de los ORF, no se cuenta el número de lecturas asignadas en los primeros 15 (especificados por -f) y los últimos 5 codones (específicos por -l). Opcionalmente, las longitudes de los RPF contados se restringen al rango de 25 a 35 nt (tamaños comunes de RPF).
Calcule las estadísticas básicas de los ORF detectados utilizando RiboCode:
Rscript RiboCode_utils. R
NOTA: RiboCode_utils. R (Supplemental File 3) proporciona una serie de estadísticas para la salida de RiboCode, por ejemplo, contando el número de ORF identificados, viendo la distribución de longitudes de ORF y calculando las densidades de RPF normalizadas (es decir, RPKM, lecturas por kilobase por millón de lecturas mapeadas).

8. (Opcional) Visualización de los ORFs predichos

Obtenga las posiciones relativas de los codones de inicio y parada para el ORF deseado (por ejemplo, ENSG00000100902_35292349_35292552_67) en su transcripción de RiboCode_ORFs_result_collapsed.txt (Archivo suplementario 3). A continuación, trace la densidad de las lecturas de RPF en el ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
Donde -s y -e especifican la posición de inicio y parada de la traducción del trazado ORF. --start-codon define el codón de inicio del ORF, que aparecerá en el título de la figura. -o define el prefijo del nombre del archivo de salida.

9. (Opcional) Análisis metagénico con RiboMiner

NOTA: Realice el análisis metagénico para evaluar la influencia del derribo de EIF3E en la traducción de los ORF anotados identificados, siguiendo los pasos a continuación:

Generar anotaciones de transcripciones para RiboMiner, que extrae la transcripción más larga para cada gen en función del archivo de anotación generado por RiboCode (paso 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Prepare el archivo de configuración para RiboMiner. Copie el archivo de configuración generado por el comando metaplots de RiboCode (paso 5.4) y cámbiele el nombre "RiboMiner_config.txt". Luego, modifíquelo de acuerdo con el formato que se muestra en el archivo suplementario 4.
Análisis metagénicos con RiboMiner
1. Utilice MetageneAnalysis para generar un perfil agregado y promediado de las densidades de RPF en todas las transcripciones.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codón -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norma sí \
  -y 100 --tipo UTR
  Donde los parámetros importantes son: --type, analizando regiones CDS o UTR ; --norma, si se normaliza la densidad de lectura; -y, el número de codones utilizados para cada transcripción; -U, trazar la densidad de RPF ya sea a nivel de codón o a nivel de nt ; -u y -d, definen el rango de regiones de análisis en relación con el codón de inicio o el codón de parada; -l, la longitud mínima (es decir, el número de codones) del CDS; -M, el modo para el filtrado de transcripciones, ya sea recuentos o RPKM; -n recuentos mínimos o RPKM en CDS para análisis. -m recuentos mínimos o RPKM de CDS en la región normalizada; -e, el número de codones excluidos de la región normalizada.
2. Generar un conjunto de archivos pdf para comparar las ocupaciones de ribosomas en ARNm en células de control y células deficientes en eIF3.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
  NOTA: PlotMetageneAnalysis genera el conjunto de archivos pdf. Los detalles sobre el uso de MetageneAnalysis y PlotMetageneAnalysis están disponibles en el sitio web de RiboMiner30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Los conjuntos de datos de perfiles de ribosomas de ejemplo se depositaron en la base de datos GEO con el número de acceso GSE131074. Todos los archivos y códigos utilizados en este protocolo están disponibles en los archivos complementarios 1-4. Mediante la aplicación de RiboCode a un conjunto de conjuntos de datos de perfiles de ribosomas ^publicados23, identificamos los nuevos ORF traducidos activamente en células MCF-10A tratadas con siRNAs de control y EIF3E. Para seleccionar las lecturas de RPF que probablemente estén unidas por los ribosomas de traducción, se examinaron las longitudes de las lecturas de secuenciación y se realizó un análisis metagénico utilizando los RPF que mapearon los genes de traducción conocidos. La distribución de frecuencia de las longitudes de las lecturas mostró que la mayoría de los RPF eran de 25-35 nt (Figura 1A), correspondiente a una secuencia de nucleótidos cubierta por los ribosomas como se esperaba. Las ubicaciones del sitio P para diferentes longitudes de RPF se determinaron examinando las distancias desde sus extremos de 5' hasta los codones de inicio y parada anotados, respectivamente (Figura 1B). Las lecturas de RPF dentro de 28-32nt mostraron una fuerte periodicidad de 3-nt, y sus sitios P estaban en el +^12th nt (archivo suplementario 1).

RiboCode busca los ORF candidatos desde un codón de inicio canónico (AUG) o codones de inicio alternativos (opcional, por ejemplo, CUG y GUG) hasta el siguiente codón de parada. Luego, basándose en los resultados de mapeo de RPF dentro del rango definido, RiboCode evalúa la periodicidad de 3-nt evaluando si el número de RPF dentro del marco (es decir, sus sitios P asignados en el primer nucleótido de cada codón) es mayor que el número de RPF fuera de marco (es decir, sus sitios P asignados en el segundo o tercer nucleótido de cada codón). Identificamos 13.120 genes que potencialmente traducen ORF con p < 0,05, entre ellos 10.394 genes (70,8%) que codifican ORF anotados, 168 (1,1%) genes que codifican dORF, 509 (3,5%) genes que codifican uORFs, 939 (6,4%) genes que codifican ORF aguas arriba o aguas abajo superpuestos con ORF anotados conocidos (Overlapped), y 68 (0,5%) genes codificantes de proteínas que codifican nuevos ORFs, y 2.601 (17,7%) previamente asignados como genes no codificantes que codifican nuevos ORF (Figura 2 y archivo suplementario 3)

La comparación de los tamaños de los diferentes ORF mostró que los ORF y los ORF superpuestos son más cortos (195 y 188 nt en promedio, respectivamente) que los ORF anotados (~1,771 nt). La misma tendencia también se observó para los ORF nuevos (670 y 385 nt en promedio para los nuevos PCG y los nuevos no PCGS, respectivamente) y los dORF (~671 nt) (Figura 3). Juntos, los ORF no canónicos (no anotados) identificados por RiboCode tendían a codificar péptidos que son más pequeños que los ORF anotados conocidos.

Se calcularon los recuentos relativos de FPR para cada ORF a fin de evaluar la función del FEI3 en los procesos de traducción. Los resultados sugirieron que las densidades de ribosomas de los uORF fueron significativamente mayores en las células deficientes en EIF3E que en las células de control (Figura 4). Como se informó que muchos uORF ejercen efectos inhibitorios en la traducción de los ORF codificantes aguas abajo, examinamos más a fondo si el derribo de EIF3E altera las densidades globales de los RPF aguas abajo de los codones de inicio (Figura 5). El análisis metagénico, en el que se alinearon muchos perfiles de ORF y luego se promediaron, reveló que una masa de ribosomas se estancó entre los codones 25 y 75 aguas abajo del codón de inicio, lo que sugiere que el alargamiento de la traducción podría bloquearse temprano en las células deficientes en EIF3E. Se justifican más investigaciones para examinar si la relación señal-ruido o los cambios en la eficiencia de traducción de los ORF contribuyen al aumento de la RPKM de uORF y a la acumulación de ribosomas entre los codones 25 a 75 en ausencia de EIF3E, es decir, si la 1) menor contaminación (o buena calidad de la biblioteca) o 2) la traducción activa (o pausa de ribosomas) en las muestras sin EIF3E da como resultado más lecturas en uORF y en la región definida entre los ^codones ^{25 y} 75.

Finalmente, RiboCode también proporciona visualización de densidades de los sitios P de RPF en ORF deseados, lo que podría ayudar a los usuarios a examinar los patrones de periodicidad de 3 nt y las densidades de RPF. Por ejemplo, la Figura 6 presenta las densidades de FPR en un uORF de PSMA6 y un dORF de SENP3-EIF4A1; ambos fueron validados por datos proteómicos ^publicados23 (datos no mostrados).

Figura 1: Evaluación de las lecturas de secuenciación y las posiciones del sitio P. (A) Distribución de longitud de fragmentos protegidos por ribosomas (RPF) en células deficientes en EIF3E en la réplica 1 (si-eIF3e-1); (B) Inferir la posición del sitio P de los RPF de 29nt en función de sus densidades alrededor de los codones de inicio (arriba) y parada conocidos (abajo). Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Porcentajes de genes que albergan diferentes tipos de ORF identificados por RiboCode utilizando todas las muestras juntas. Abreviaturas: ORF = marco de lectura abierto; dORF = ORF aguas abajo; PCG = gen codificador de proteínas; NonPCG = gen no codificante de proteínas; uORF = ORF aguas arriba. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Distribuciones de longitud de diferentes tipos de ORF. Abreviaturas: ORF = marco de lectura abierto; dORF = ORF aguas abajo; PCG = gen codificador de proteínas; NonPCG = gen no codificante de proteínas; uORF = ORF ascendente; nt = nucleótido. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Comparación de los recuentos de lectura normalizados para diferentes tipos de ORF entre células de control y deficientes en EIF3E. los valores p se determinaron mediante la prueba de rango firmado de Wilcoxon. Abreviatura: ORF = marco de lectura abierto; dORF = ORF aguas abajo; PCG = gen codificador de proteínas; NonPCG = gen no codificante de proteínas; uORF = ORF ascendente; RPKM = Lecturas por kilobase por millón de lecturas mapeadas; siRNA = ARN de interferencia pequeña; si-Ctrl = siRNA de control; si-eIF3e = siRNA dirigido a EIF3E. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Análisis metagénico que muestra el estancamiento de los ribosomas en el codón 25-75 aguas abajo del codón de inicio de los ORF anotados. Abreviatura: ORF = marco de lectura abierto; siRNA = ARN de interferencia pequeña; si-Ctrl = siRNA de control; si-eIF3e = siRNA dirigido a EIF3E; A. U., cualquier unidad. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: Perfiles de densidad de sitios P de ORF de ejemplo que codifican micropéptidos. (A) Densidades de sitio p de uORF predicho y su posición en relación con CDS anotados en la transcripción ENST00000622405; (B) igual que en A pero para el dORF previsto en la transcripción ENST00000614237. Panel inferior que muestra la vista ampliada de uORF (A) o dORF (B) predichos. Barra roja = lecturas en el marco; Barras verdes y azules = lecturas fuera de marco. Abreviatura: ORF = marco de lectura abierto; dORF = ORF aguas abajo; uORF = ORF ascendente; CDS = secuencias de codificación. Haga clic aquí para ver una versión más grande de esta figura.

Información complementaria: Evaluación de la dependencia entre dos valores p y explicación de los resultados de RiboCode (uORF de ATF4 como ejemplo). Haga clic aquí para descargar este archivo.

Archivo suplementario 1: El archivo de configuración de RiboCode que define las longitudes seleccionadas de RPF y posiciones de sitio P. Haga clic aquí para descargar este archivo.

Archivo suplementario 2: archivo de salida riboCode que contiene la información de los ORF predichos. Haga clic aquí para descargar este archivo.

Archivo suplementario 3: Archivo de script R para realizar estadísticas básicas de la salida de RiboCode. Haga clic aquí para descargar este archivo.

Archivo suplementario 4: El archivo de configuración (para RiboMiner) modificado a partir del archivo complementario 1. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

El perfil de ribosomas ofrece una oportunidad sin precedentes para estudiar la acción de los ribosomas en las células a escala genómica. Descifrar con precisión la información transportada por los datos de perfiles de ribosomas podría proporcionar información sobre qué regiones de genes o transcripciones se están traduciendo activamente. Este protocolo paso a paso proporciona orientación sobre cómo usar RiboCode para analizar los datos de perfiles de ribosomas en detalle, incluida la instalación de paquetes, la preparación de datos, la ejecución de comandos, la explicación de resultados y la visualización de datos. Los resultados del análisis de RiboCode indicaron que la traducción es generalizada y ocurre en ORF no anotados de genes codificantes y muchas transcripciones que anteriormente se asumían como no codificantes. Los análisis posteriores proporcionaron evidencia de que los ribosomas se mueven a lo largo de los ORF predichos en pasos de 3 nucleótidos a medida que se produce la traducción; sin embargo, no está claro si el proceso de traducción o los péptidos producidos cumplen alguna función. Sin embargo, las anotaciones precisas de la traducción de ORFs en el genoma pueden dar lugar a oportunidades interesantes para identificar las funciones de transcripciones previamente no ^{caracterizadas31}.

La predicción del potencial de codificación para cada ORF utilizando datos de perfiles de ribosomas se basa en gran medida en la periodicidad de 3-nt de las densidades de los sitios P en cada codón desde el inicio hasta los codones de parada de los ORF. Por lo tanto, requiere una detección precisa de las ubicaciones del sitio P de lecturas de diferentes longitudes. Dicha información no es proporcionada directamente por los datos de perfil de ribosomas, pero podría inferirse a partir de las distancias entre el extremo 5' de los RPF y los codones de inicio o parada anotados (paso de protocolo 5.3). La falta de anotaciones de codones de inicio / parada conocidos en el archivo GTF, como para esos genomas recién ensamblados, puede hacer que RiboCode no ejecute los pasos posteriores a menos que las ubicaciones exactas del sitio P de las lecturas se determinen por otros medios. En la mayoría de los casos, el tamaño de los fragmentos unidos a ribosomas y sus ubicaciones en el sitio P son constantes, por ejemplo, 28-30 nt de largo y en el +12 nt desde el extremo de 5' de las lecturas en células humanas. RiboCode permite la selección de las lecturas en un rango específico para definir posiciones de sitio P en función de la experiencia. Sin embargo, tanto las longitudes de las lecturas de RPF como la posición de sus sitios P pueden ser diferentes cuando se han cambiado las condiciones ambientales (por ejemplo, estrés o estímulo) o el procedimiento experimental (por ejemplo, nucleasa, tampón, preparación de la biblioteca y secuenciación). Por lo tanto, recomendamos realizar las metatramas (paso de protocolo 5.3) para cada muestra para extraer los RPF de mayor confianza (es decir, lecturas que muestran patrones de periodicidad de 3 nt) y determinar sus posiciones en el sitio P en diferentes condiciones. Aunque estas operaciones se pueden realizar automáticamente utilizando la función metatramas , a menudo solo una minoría de las lecturas que muestran un encuadre o fase casi perfecto pasan los rigurosos criterios de selección y la prueba estadística. Por lo tanto, todavía es necesario aflojar ciertos parámetros, especialmente el "-f0_percent", y luego inspeccionar visualmente la periodicidad de 3 nt de las lecturas en cada longitud y editar manualmente el archivo de configuración para incluir más lecturas en consecuencia, especialmente cuando la calidad de la biblioteca es deficiente (paso de protocolo 5.3).

RiboCode busca los ORF candidatos desde codones de inicio canónicos o no canónicos (NUG) hasta el siguiente codón de parada. Para las transcripciones con múltiples codones de inicio aguas arriba de los codones de parada, los codones de inicio más probables se determinan evaluando la periodicidad de 3 nt de las lecturas de RPF mapeadas entre dos codones de inicio vecinos o simplemente eligiendo el codón de inicio aguas arriba que tiene más lecturas de RPF dentro del marco que fuera del marco. Una limitación de tal estrategia es que los codones iniciales reales podrían identificarse erróneamente si las lecturas alineadas con las regiones del codón inicial son escasas o ausentes. Afortunadamente, las estrategias recientes, como la secuenciación de iniciación de traducción global (GTI-seq)³² y la secuenciación de iniciación de traducción cuantitativa (QTI-seq)³³, proporcionan formas más directas de localizar los sitios de iniciación de traducción. Para los NUG, todavía se requieren más estudios para investigar sus validez como codones de inicio eficientes.

También lanzamos una nueva actualización para RiboCode agregando tres nuevas características: 1) informa los otros tipos potenciales de ORF asignados de acuerdo con sus ubicaciones en relación con las transcripciones que no sean la más larga; 2) proporciona una opción para ajustar los valores p combinados si las pruebas de las lecturas de RPF en los dos fotogramas salientes no son independientes (ver explicación más detallada en Información suplementaria); 3) realiza la corrección del valor p para múltiples pruebas, lo que permite la detección de ORF de traducción de manera más estricta.

Como RiboCode identifica los ORF que traducen activamente mediante la evaluación de la periodicidad de 3 nt de las densidades de lectura de RPF, tiene ciertas limitaciones para aquellos ORF que son extremadamente cortos (por ejemplo, menos de 3 codones). Spealman et al. compararon el rendimiento de RiboCode con uORF-seqr e informaron que RiboCode no predice uORFs inferiores a 60 nt en su ^dataset34. Argumentamos que el parámetro para la selección de tamaño ORF (-m) en la versión anterior de RiboCode no está configurado correctamente. Hemos cambiado el valor predeterminado de este argumento a 5 en el RiboCode actualizado.

RiboCode informa los ORF identificados en dos archivos: "RiboCode_ORFs_result.txt" que contiene todos los ORF, incluidos los ORF redundantes de diferentes transcripciones del mismo gen; Se conservará el "RiboCode_ORFs_result_collapsed.txt" (Archivo Suplementario 2) que integra los ORF superpuestos con el mismo codón de parada pero diferentes codones de inicio, es decir, el que alberga el codón de inicio más ascendente en el mismo marco de lectura. En ambos archivos, los ORF detectados se clasifican en ORFs "novedosos" u otros tipos diferentes según sus ubicaciones relativas a cds conocidos (ver una explicación detallada de los tipos de ORF de RiboCode ^paper22 o en el sitio web de ^RiboCode35). Ilustramos cómo interpretar las salidas de RiboCode utilizando un uORF predicho del gen ATF4 como ejemplo (Información suplementaria). RiboCode también cuenta el número de genes que contienen diferentes tipos de ORF y los traza junto con sus porcentajes (Figura 2).

Un estudio informó que algunos genes expresados pero en reposo traslacional pueden activarse para traducirse en péptidos tras el estrés ^oxidativo12, lo que indica que probablemente hay otros ORF que solo podrían traducirse de una manera dependiente de la condición. RiboCode se puede realizar para diferentes condiciones experimentales por separado (por ejemplo, si-Ctrl o si-eIF3e) o conjuntamente, como se demuestra en este protocolo (pasos 5.4 y 6.1). Multiplexar múltiples muestras en una sola ejecución definiendo las longitudes y posiciones del sitio P de las lecturas seleccionadas en "merged_config.txt" tiene varias ventajas sobre el procesamiento de cada muestra individualmente. En primer lugar, reduce los sesgos presentes en una sola muestra; segundo, ahorra tiempo de ejecución del programa; por último, proporciona datos suficientes para llevar a cabo las estadísticas. Por lo tanto, teóricamente funciona mejor que el modo de muestra única, especialmente para las muestras con baja cobertura de secuenciación y alto ruido de fondo. La cuantificación y comparación adicionales de los números de RPF asignados a los ORF predichos entre diferentes condiciones (por ejemplo, si-eIF3e vs. si-Ctrl) nos permiten descubrir ORF dependientes del contexto o explorar la regulación traslacional de los ORF.

Nótese que debido a la acumulación de ribosomas al principio y al final de los ORFs, un fenómeno llamado "rampa de traslación", los RPF asignados en los primeros 15 codones y los últimos 5 codones deben excluirse del conteo de lecturas para evitar el análisis del sesgo diferencial de la traducción de ORF a las diferencias de las tasas de ^{iniciación3,5}^,³⁶. Estos resultados sugirieron que la abundancia de tipos de uORFs es mayor en las células sin EIF3 que en las células de control, lo que podría ser causado (o al menos parcialmente) por los niveles elevados de ribosomas que se traducen activamente. El metanálisis de las densidades de FPR alrededor de los codones de inicio también sugirió que el alargamiento de la traducción temprana está regulado por EIF3E. Tenga en cuenta que simplemente contar las lecturas de RPF en un ORF no es preciso para la cuantificación de la traducción, especialmente cuando el alargamiento de la traducción está severamente bloqueado.

En resumen, este protocolo muestra que RiboCode podría aplicarse fácilmente para identificar nuevos ORF traducidos de cualquier tamaño, incluidos los que codifican micropéptidos. Sería una herramienta valiosa para que la comunidad investigadora descubra varios tipos de ORF en diferentes contextos fisiológicos o condiciones experimentales. Una mayor validación de los productos proteicos o peptídicos de estos ORF sería útil para el desarrollo de futuras aplicaciones de perfiles de ribosomas.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen conflictos de intereses que revelar.

Acknowledgments

Los autores desean agradecer el apoyo de los recursos computacionales proporcionados por la plataforma HPCC de la Universidad Xi'an Jiaotong. Z.X. agradece al Plan de Apoyo al Talento Joven de Primera Categoría de la Universidad Xi'an Jiaotong.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identificación de marcos de lectura abiertos traducidos activamente con datos de perfil de ribosomas

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.