Biology

De novo Identification de cadres de lecture ouverts activement traduits avec des données de profilage de ribosomes

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

La traduction des ribosomes décode trois nucléotides par codon en peptides. Leur mouvement le long de l’ARNm, capturé par profilage des ribosomes, produit les empreintes présentant une périodicité caractéristique du triplet. Ce protocole décrit comment utiliser RiboCode pour déchiffrer cette caractéristique importante à partir des données de profilage des ribosomes afin d’identifier les cadres de lecture ouverts activement traduits au niveau du transcriptome entier.

Abstract

L’identification des cadres de lecture ouverts (ORF), en particulier ceux codant de petits peptides et étant activement traduits dans des contextes physiologiques spécifiques, est essentielle pour des annotations complètes de translatomes dépendants du contexte. Le profilage des ribosomes, une technique permettant de détecter les emplacements de liaison et les densités de traduction des ribosomes sur l’ARN, offre un moyen de découvrir rapidement où la traduction se produit à l’échelle du génome. Cependant, ce n’est pas une tâche triviale en bioinformatique d’identifier efficacement et de manière exhaustive les ORF de traduction pour le profilage des ribosomes. Décrit ici est un paquet facile à utiliser, nommé RiboCode, conçu pour rechercher la traduction active d’ORF de toute taille à partir de signaux déformés et ambigus dans les données de profilage des ribosomes. En prenant notre jeu de données précédemment publié comme exemple, cet article fournit des instructions étape par étape pour l’ensemble du pipeline RiboCode, du prétraitement des données brutes à l’interprétation des fichiers de résultats de sortie finaux. En outre, pour évaluer les taux de traduction des ORF annotés, les procédures de visualisation et de quantification des densités de ribosomes sur chaque ORF sont également décrites en détail. En résumé, le présent article est une instruction utile et opportune pour les domaines de recherche liés à la traduction, aux petits ORF et aux peptides.

Introduction

Récemment, un nombre croissant d’études a révélé une production généralisée de peptides traduits à partir d’ORF de gènes codants et des gènes précédemment annotés comme non codants, tels que les ARN longs non codants (LNCRNA)1,2,3,4,5,6,7,8. Ces ORF traduits sont régulés ou induits par les cellules pour répondre aux changements environnementaux, au stress et à la différenciation cellulaire1,8,9,10,11,12,13. Il a été démontré que les produits de traduction de certains ORF jouent un rôle réglementaire important dans divers processus biologiques de développement et de physiologie. Par exemple, Chng et ^al.14 ont découvert une hormone peptidique nommée Elabela (Ela, également connue sous le nom d’Apela / Ende / Toddler), qui est essentielle au développement cardiovasculaire. Pauli et al. ont suggéré qu’Ela agit également comme un mitogène qui favorise la migration cellulaire dans l’embryon de poisson ^précoce15. Magny et al. ont rapporté deux micropeptides de moins de 30 acides aminés régulant le transport du calcium et affectant la contraction musculaire régulière dans le cœur de la ^drosophile10.

On ne sait toujours pas combien de ces peptides sont codés par le génome et s’ils sont biologiquement pertinents. Par conséquent, l’identification systématique de ces ORF potentiellement codants est hautement souhaitable. Cependant, il est difficile de déterminer directement les produits de ces ORF (c.-à-d. protéines ou peptides) à l’aide d’approches traditionnelles telles que la conservation ^{évolutive16,17} et la spectrométrie de ^masse18,19, car l’efficacité de détection des deux approches dépend de la longueur, de l’abondance et de la composition en acides aminés des protéines ou des peptides produits. L’avènement du profilage des ribosomes, une technique permettant d’identifier l’occupation des ribosomes sur les ARNm à résolution nucléotidique, a fourni un moyen précis d’évaluer le potentiel codant de différents transcripts3,20,21, indépendamment de leur longueur et de leur composition. Une caractéristique importante et fréquemment utilisée pour identifier la traduction active des ORF à l’aide du profilage des ribosomes est la périodicité à trois nucléotides (3-nt) des empreintes du ribosome sur l’ARNm, du codon de départ au codon d’arrêt. Cependant, les données de profilage des ribosomes présentent souvent plusieurs problèmes, notamment des lectures de séquençage faibles et clairsemées le long des ORF, un bruit de séquençage élevé et des contaminations par l’ARN ribosomique (ARNr). Ainsi, les signaux déformés et ambigus générés par de telles données affaiblissent les modèles de périodicité 3-nt des empreintes des ribosomes sur l’ARNm, ce qui rend finalement difficile l’identification des ORF traduits à haut degré de confiance.

Un package nommé « RiboCode » a adapté un test de rang signé Wilcoxon modifié et une stratégie d’intégration de la valeur P pour examiner si l’ORF a significativement plus de fragments protégés par ribosomes (RPF) dans le cadre que les RPF hors ^cadre22. Il a été démontré qu’il était très efficace, sensible et précis pour l’annotation de novo du translatome dans des données de profilage de ribosomes simulées et réelles. Ici, nous décrivons comment utiliser cet outil pour détecter les ORF de traduction potentiels à partir des ensembles de données de séquençage de profilage de ribosomes bruts générés par l’étude ^{précédente23}. Ces ensembles de données avaient été utilisés pour explorer la fonction de la sous-unité EIF3 « E » (EIF3E) en traduction en comparant les profils d’occupation des ribosomes des cellules MCF-10A transfectées avec des ARN témoins (si-Ctrl) et EIF3E (si-eIF3e) à faible interférence (siARN). En appliquant RiboCode à ces exemples d’ensembles de données, nous avons détecté 5 633 nouveaux ORF codant potentiellement de petits peptides ou protéines. Ces ORF ont été classés en différents types en fonction de leur emplacement par rapport aux régions codantes, y compris les ORF en amont (uORF), les ORF en aval (dORF), les ORF superposés, les ORF provenant de nouveaux gènes codant pour les protéines (nouveaux PCG) et les ORF de nouveaux gènes non codant pour les protéines (nouveaux nonCPC). Les densités de lecture du FPR sur les uORF ont été significativement augmentées dans les cellules déficientes en EIF3E par rapport aux cellules témoins, ce qui pourrait être au moins partiellement causé par l’enrichissement des ribosomes à traduction active. L’accumulation localisée de ribosomes dans la région du ^25e au ^75e codon de cellules déficientes en EIF3E indiquait un blocage de l’allongement de la traduction au stade précoce. Ce protocole montre également comment visualiser la densité RPF de la région souhaitée pour examiner les modèles de périodicité 3-nt des empreintes de ribosomes sur les ORF identifiés. Ces analyses démontrent le rôle puissant de RiboCode dans l’identification de la traduction des ORF et l’étude de la régulation de la traduction.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configuration de l’environnement et installation de RiboCode

Ouvrez une fenêtre de terminal Linux et créez un environnement conda :
conda create -n RiboCode python=3.8
Basculez vers l’environnement créé et installez RiboCode et les dépendances :
conda activer RiboCode
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt nœud papillon étoile samtools

2. Préparation des données

Obtenez des fichiers de référence du génome.
1. Pour la séquence de référence, rendez-vous sur le site Web d’Ensemble à https://www.ensembl.org/index.html, cliquez sur le menu supérieur Télécharger et sur le menu de gauche Téléchargement FTP. Dans le tableau présenté, cliquez sur FASTA dans la colonne ADN (FASTA) et la ligne où Species is Human. Dans la page ouverte, copiez le lien de Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, puis téléchargez-le et décompressez-le dans le terminal:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. Pour l’annotation de référence, cliquez avec le bouton droit sur GTF dans la colonne Ensembles de gènes de la dernière page Web ouverte. Copiez le lien de Homo_sapiens. GRCh38.104.gtf.gz et téléchargez-le en utilisant:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  REMARQUE: Il est recommandé d’obtenir le fichier GTF sur le site Web de l’Ensemble car il contient des annotations de génome organisées dans une hiérarchie à trois niveaux, c’est-à-dire que chaque gène contient des transcriptions contenant des exons et des traductions facultatives (par exemple, séquences codantes [CDS], site de début de traduction, site de fin de traduction). Lorsque les annotations d’un gène ou d’une transcription sont manquantes, par exemple un fichier GTF obtenu auprès de l’UCSC ou du NCBI, utilisez GTFupdate pour générer un GTF mis à jour avec des annotations complètes de hiérarchie parent-enfant : GTFupdate original.gtf > updated.gtf. Pour le fichier d’annotation au format .gff, utilisez la boîte à outils ^AGAT24 ou tout autre outil pour convertir au format .gtf.
Obtenez des séquences d’ARNr.
1. Ouvrez UCSC Genome Browser à https://genome.ucsc.edu et cliquez sur Outils | Navigateur de tableau dans la liste déroulante.
2. Sur la page ouverte, spécifiez Mammifère pour le clade, Humain pour le génome, Toutes les tables pour le groupe, rmask pour le tableau et génome pour la région. Pour filtrer, cliquez sur Créer pour accéder à une nouvelle page et définir repClass comme correspondant à l’ARNr.
3. Cliquez sur Envoyer , puis définissez le format de sortie sur séquence et nom de fichier de sortie comme hg38_rRNA.fa. Enfin, cliquez sur Obtenir la | de sortie Obtenir la séquence pour récupérer la séquence d’ARNr.
Obtenez des jeux de données de profilage de ribosomes à partir de Sequence Read Archive (SRA).
1. Téléchargez les échantillons répliqués du groupe de traitement si-eIF3e et renommez-les :
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Téléchargez les exemples répliqués du groupe témoin et renommez-les :
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  REMARQUE : Les ID d’accession SRA pour ces exemples d’ensembles de données ont été obtenus à partir du site Web Gene Expression Omnibus (GEO)²⁵ en recherchant GSE131074.

3. Coupez les adaptateurs et éliminez la contamination par l’ARNr

(Facultatif) Supprimez les adaptateurs des données de séquençage. Ignorez cette étape si les séquences de l’adaptateur ont déjà été découpées, comme dans ce cas. Sinon, utilisez cutadapt pour découper les adaptateurs des lectures.
pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
faire
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
fait
Remarque : La séquence de l’adaptateur après le paramètre -a varie en fonction de la préparation de la bibliothèque d’ADNc. Les lectures inférieures à 15 (données par -m) sont jetées car les fragments protégés par ribosomes sont généralement plus longs que cette taille.
Éliminez la contamination par l’ARNr en procédant comme suit :
1. Séquences de référence de l’ARNr d’index :
  bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Alignez les lectures sur la référence de l’ARNr pour exclure les lectures provenant de l’ARNr :
  pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  faire
  nœud papillon -n 0 -y -a --norc --best --strates -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  fait
  -p spécifie le nombre de threads pour l’exécution parallèle des tâches. Compte tenu de la taille relativement petite des lectures du FPR, d’autres arguments (p. ex., -n, -y, -a, -norc, --best, --strates et -l) doivent être spécifiés pour garantir que les alignements signalés sont les meilleurs. Pour plus de détails, consultez le site Web ^bowtie26.

4. Aligner les lectures propres sur le génome

Créez un index du génome.
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Alignez les lectures propres (pas de contamination par l’ARNr) sur la référence créée.
pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
faire
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
fait
REMARQUE: Un nucléotide sans modèle est fréquemment ajouté à l’extrémité 5' de chaque lecture par la transcriptase ^inverse27, qui sera efficacement coupée par STAR car elle effectue un écrêtage progressif par défaut. Les paramètres de STAR sont décrits dans le manuel ^STAR28.
Trier et indexer les fichiers d’alignement.
pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
faire
samtools trier -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}. Aligned.sortedByCoord.out.bam
fait

5. Sélection de la taille des RPF et identification de leurs sites P

Préparez les annotations de transcription.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
REMARQUE : Cette commande collecte les informations requises sur les transcriptions d’ARNm du fichier GTF et extrait les séquences de toutes les transcriptions d’ARNm du fichier FASTA (chaque transcription est assemblée en fusionnant les exons selon les structures définies dans le fichier GTF).
Sélectionnez des RPF de longueurs spécifiques et identifiez leurs positions sur le site P.
pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
faire
metaplots -a RiboCode_annot -r ${i}. Aligné.toTranscriptome.out.bam \
-o ${i} -f0_percent 0,35 -pv1 0,001 -pv2 0,001
fait
Remarque : Cette commande trace les profils agrégés de l’extrémité 5' des lectures alignées de chaque longueur autour des codons de début (ou d’arrêt) de traduction annotés. Le site P dépendant de la longueur de lecture peut être déterminé manuellement en examinant les diagrammes de distribution (par exemple, la figure 1B) des distances de décalage entre les extrémités 5' des lectures principales et le codon de départ. RiboCode génère également un fichier de configuration pour chaque échantillon, dans lequel les positions du site P des lectures affichant des modèles de périodicité significatifs de 3 nt sont automatiquement déterminées. Les paramètres -f0_percent, -pv1 et -pv2 définissent le seuil de proportion et les seuils de valeur p pour sélectionner les lectures RPF enrichies dans le cadre de lecture. Dans cet exemple, les nucléotides +12, +13 et +13 de l’extrémité 5' des lectures 29, 30 et 31 nt sont définis manuellement dans chaque fichier de configuration.
Modifier les fichiers de configuration de chaque exemple et les fusionner
REMARQUE : Pour générer un ensemble consensuel d’ORF uniques et assurer une couverture suffisante des lectures pour effectuer une analyse ultérieure, les lectures sélectionnées de tous les échantillons de l’étape précédente sont fusionnées. Les lectures des longueurs spécifiques définies dans merged_config.txt fichier (fichier supplémentaire 1) et leurs informations de site P sont utilisées pour évaluer le potentiel de traduction des ORF à l’étape suivante.

6. Annoter de novo la traduction des ORF

Exécutez RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l oui -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Où les paramètres importants de cette commande sont les suivants :
-c, fichier de configuration contenant le chemin des fichiers d’entrée et les informations des lectures sélectionnées et de leurs P-sites.
-l, pour les transcriptions ayant plusieurs codons de départ en amont des codons d’arrêt, si les ORF les plus longs (la région du codon de départ le plus distal au codon d’arrêt) sont utilisés pour évaluer leur potentiel de traduction. S’ils sont définis sur no, les codons de départ seront automatiquement déterminés.
-s, le(s) codon(s) de départ canonique(s) utilisé(s) pour l’identification des ORF.
-A, (éventuellement) les codons de départ non canoniques (par exemple, CTG, GTG et TTG pour l’homme) utilisés pour l’identification orf, qui peuvent différer dans les mitochondries ou le noyau d’autres ^espèces29.
-m, la longueur minimale (c.-à-d. acides aminés) des ORF.
-o, le préfixe du nom du fichier de sortie contenant les détails des ORF prédits (fichier supplémentaire 2).
-g et -b, produisent les ORF prédits au format gtf ou lit , respectivement.

7. Quantification et statistiques du BLR (facultatif)

Le nombre de FPR est lu dans chaque ORF.
pour i dans si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
faire
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c intersection-strict
fait
REMARQUE: Pour exclure les ribosomes qui s’accumulent potentiellement autour du début et de la fin des ORF, le nombre de lectures allouées dans les 15 premiers (spécifiés par -f) et les 5 derniers codons (spécifiques par -l) ne sont pas comptés. En option, les longueurs des RPF comptés sont limitées à la plage de 25 à 35 nt (tailles courantes des RPF).
Calculez les statistiques de base des ORF détectés à l’aide de RiboCode:
Rscript RiboCode_utils. R
REMARQUE : RiboCode_utils. R (fichier supplémentaire 3) fournit une série de statistiques pour la sortie RiboCode, par exemple, en comptant le nombre d’ORF identifiés, en visualisant la distribution des longueurs ORF et en calculant les densités RPF normalisées (c.-à-d. RPKM, lectures par kilobase par million de lectures cartographiées).

8. Visualisation (facultative) des ORF prévus

Obtenez les positions relatives des codons de départ et d’arrêt pour le BLR souhaité (p. ex., ENSG00000100902_35292349_35292552_67) sur sa transcription à partir de RiboCode_ORFs_result_collapsed.txt (dossier supplémentaire 3). Ensuite, tracez la densité des lectures RPF dans l’ORF :
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
Où -s et -e spécifient la position de début et d’arrêt de la traduction du traçage orf. --start-codon définit le codon de départ de l’ORF, qui apparaîtra dans le titre de la figure. -o définit le préfixe du nom du fichier de sortie.

9. Analyse (facultative) des métagènes à l’aide de RiboMiner

REMARQUE: Effectuer l’analyse des métagènes pour évaluer l’influence de l’élimination de l’EIF3E sur la traduction des ORF annotés identifiés, en suivant les étapes ci-dessous:

Générez des annotations de transcriptions pour RiboMiner, qui extrait la transcription la plus longue pour chaque gène en fonction du fichier d’annotation généré par RiboCode (étape 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Préparez le fichier de configuration pour RiboMiner. Copiez le fichier de configuration généré par la commande metaplots de RiboCode (étape 5.4) et renommez-le « RiboMiner_config.txt ». Ensuite, modifiez-le en fonction du format indiqué dans le fichier supplémentaire 4.
Analyses de métagènes à l’aide de RiboMiner
1. Utilisez MetageneAnalysis pour générer un profil agrégé et moyenné des densités de RPF entre les transcriptions.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norme oui \
  -y 100 --type UTR
  Où les paramètres importants sont: --type, en analysant les régions CDS ou UTR ; --norm, si la densité de lecture a été normalisée; -y, le nombre de codons utilisés pour chaque transcription ; -U, diagramme de densité RPF soit au niveau du codon , soit au niveau nt ; -u et -d, définissent la plage des régions d’analyse par rapport au codon de départ ou au codon d’arrêt ; -l, la longueur minimale (c.-à-d. le nombre de codons) du CDS; -M, le mode de filtrage des transcriptions, soit compte , soit RPKM ; -n nombre minimum ou RPKM dans le CDS pour analyse. -m nombre minimum ou RPKM de CDS dans la région normalisée; -e, le nombre de codons exclus de la région normalisée.
2. Générez un ensemble de fichiers PDF pour comparer les occupations de ribosomes sur l’ARNm dans les cellules témoins et les cellules déficientes en eIF3.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode moyenne
  REMARQUE : PlotMetageneAnalysis génère l’ensemble des fichiers pdf. Des détails sur l’utilisation de MetageneAnalysis et PlotMetageneAnalysis sont disponibles sur le site Web de RiboMiner30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les exemples d’ensembles de données de profilage de ribosomes ont été déposés dans la base de données GEO sous le numéro d’acquisition GSE131074. Tous les fichiers et codes utilisés dans ce protocole sont disponibles à partir des fichiers supplémentaires 1 à 4. En appliquant RiboCode à un ensemble de données publiées sur le profilage des ^ribosomes23, nous avons identifié les nouveaux ORF activement traduits dans les cellules MCF-10A traitées avec des siRNA témoins et EIF3E. Pour sélectionner les lectures RPF qui sont très probablement liées par les ribosomes de traduction, les longueurs des lectures de séquençage ont été examinées et une analyse métagénique a été effectuée à l’aide des RPF qui ont cartographié les gènes de traduction connus. La distribution de fréquence des longueurs des lectures a montré que la plupart des RPF étaient de 25 à 35 nt (Figure 1A), correspondant à une séquence nucléotidique couverte par les ribosomes comme prévu. Les emplacements des sites P pour différentes longueurs de RPF ont été déterminés en examinant les distances entre leurs extrémités de 5' et les codons de départ et d’arrêt annotés, respectivement (figure 1B). Les lectures du FPR dans les 28-32nt affichaient une forte périodicité de 3-nt, et leurs sites P étaient au +^12ème nt (fichier supplémentaire 1).

RiboCode recherche les ORF candidats à partir d’un codon de départ canonique (AUG) ou d’un codons de départ alternatifs (facultatifs, par exemple, CUG et GUG) jusqu’au codon d’arrêt suivant. Ensuite, sur la base des résultats de cartographie des RPF dans la plage définie, RiboCode évalue la périodicité 3-nt en évaluant si le nombre de RPF dans le cadre (c’est-à-dire leurs sites P attribués sur le premier nucléotide de chaque codon) est supérieur au nombre de RPF hors trame (c’est-à-dire leurs sites P alloués sur le deuxième ou le troisième nucléotide de chaque codon). Nous avons identifié 13 120 gènes traduisant potentiellement des ORF avec p < 0,05, parmi lesquels 10 394 gènes (70,8%) codant pour des ORF annotés, 168 (1,1%) des gènes codant pour des DRP, 509 (3,5%) des gènes codant pour des UOF, 939 (6,4%) des gènes codant en amont ou en aval des ORF coïncidant avec des ORF annotés connus (overlapped) et 68 (0,5%) des gènes codant pour des protéines codant de nouveaux ORF, et 2 601 (17,7%) précédemment attribués comme gènes non codants codant de nouveaux ORF (Figure 2 et fichier supplémentaire 3)

La comparaison des tailles de différents ORF a montré que les uORF et les ORF qui se chevauchent sont plus courts (195 et 188 nt en moyenne, respectivement) que les ORF annotés (~1 771 nt). La même tendance a également été observée pour les nouveaux ORF (670 et 385 nt en moyenne pour les nouveaux GPC et les nouveaux non-RPG, respectivement) et les DRP (~671 nt) (figure 3). Ensemble, les ORF non canoniques (non annotés) identifiés par RiboCode avaient tendance à coder des peptides plus petits que ceux des ORF annotés connus.

Des comptes relatifs de FPR ont été calculés pour chaque ORF afin d’évaluer la fonction de l’EIF3 dans les processus de traduction. Les résultats suggèrent que les densités de ribosomes des uORF étaient significativement plus élevées dans les cellules déficientes en EIF3E que dans les cellules témoins (Figure 4). Étant donné que de nombreux URP ont été signalés comme exerçant des effets inhibiteurs sur la traduction des ORF codants en aval, nous avons examiné plus en détail si la réduction de la base EIF3E modifie les densités globales des RPF en aval des codons de départ (figure 5). L’analyse des métagènes, dans laquelle de nombreux profils d’ORF ont été alignés puis moyennés, a révélé qu’une masse de ribosomes stagnait entre les codons 25 et 75 en aval du codon de départ, suggérant que l’allongement de la traduction pourrait être bloqué tôt dans les cellules déficientes en EIF3E. D’autres recherches sont nécessaires pour déterminer si le rapport signal/bruit ou les changements dans l’efficacité de translation des ORF contribuent à l’augmentation du RPKM uORF et à l’accumulation de ribosomes entre les codons 25 à 75 en l’absence d’EIF3E, c’est-à-dire si 1) moins de contamination (ou de bonne qualité de la bibliothèque) ou 2) la traduction active (ou la pause des ribosomes) dans les échantillons sans EIF3E entraîne plus de lectures dans les uORF et dans la région définie entre les ^25e et ^75e codons.

Enfin, RiboCode fournit également une visualisation des densités des sites P des RPF sur les ORF souhaités, ce qui pourrait aider les utilisateurs à examiner les modèles de périodicité 3-nt et les densités des RPF. Par exemple, la figure 6 présente les densités de FPR sur un UORF de PSMA6 et un dORF de SENP3-EIF4A1; les deux ont été validés par des données protéomiques ^publiées23 (données non présentées).

Figure 1: Évaluation des lectures de séquençage et des positions du site P. (A) Distribution de longueur des fragments protégés par ribosomes (RPF) dans les cellules déficientes en EIF3E dans le réplicat 1 (si-eIF3e-1); (B) Inférer la position du site P des RPF de 29nt en fonction de leurs densités autour des codons de départ (en haut) et d’arrêt connus (en bas). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Pourcentages de gènes hébergeant différents types d’ORF identifiés par RiboCode en utilisant tous les échantillons ensemble. Abréviations : ORF = cadre de lecture ouvert; dORF = ORF en aval; PCG = gène codant pour les protéines; NonPCG = gène codant pour les non-protéines; uORF = ORF en amont. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Distributions de longueur des différents types de BLR. Abréviations : ORF = cadre de lecture ouvert; dORF = ORF en aval; PCG = gène codant pour les protéines; NonPCG = gène codant pour les non-protéines; uORF = ORF en amont; nt = nucléotide. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Comparaison des comptes de lecture normalisés pour différents types de BLR entre les cellules témoins et les cellules déficientes en EIF3E. les valeurs de p ont été déterminées par le test de rang signé de Wilcoxon. Abréviation : ORF = cadre de lecture ouvert; dORF = ORF en aval; PCG = gène codant pour les protéines; NonPCG = gène codant pour les non-protéines; uORF = ORF en amont; RPKM = Lectures par kilobase par million de lectures mappées; siRNA = ARN peu interférent; si-Ctrl = siRNA de contrôle; si-eIF3e = siRNA ciblant EIF3E. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Analyse métagénique montrant le décrochage des ribosomes au 25-75e codon en aval du codon de départ des ORF annotés. Abréviation : ORF = cadre de lecture ouvert; siRNA = ARN peu interférent; si-Ctrl = siRNA de contrôle; si-eIF3e = siRNA ciblant EIF3E; A. U., n’importe quelle unité. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6 : Profils de densité du site P d’exemples d’ORF codant pour des micropeptides. (A) Densités du site P de l’uORF prédit et sa position par rapport au CDS annoté sur la transcription ENST00000622405 ; (B) identique à A mais pour le dORF prévu sur la transcription ENST00000614237. Panneau inférieur montrant la vue agrandie de l’uORF prédit (A) ou du dORF (B). Barre rouge = lectures dans l’image; Barres vertes et bleues = lectures hors cadre. Abréviation : ORF = cadre de lecture ouvert; dORF = ORF en aval; uORF = ORF en amont; CDS = séquences de codage. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Informations supplémentaires : Évaluation de la dépendance entre deux valeurs p et explication des résultats de RiboCode (uORF d’ATF4 à titre d’exemple). Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 1 : Fichier de configuration de RiboCode définissant les longueurs sélectionnées des RPF et des positions de site P. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 2 : Fichier de sortie RiboCode contenant les informations des ORF prédits. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 3: Fichier de script R pour effectuer des statistiques de base de la sortie RiboCode. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 4 : Fichier de configuration (pour RiboMiner) modifié à partir du fichier supplémentaire 1. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Le profilage des ribosomes offre une occasion sans précédent d’étudier l’action des ribosomes dans les cellules à l’échelle du génome. Déchiffrer précisément les informations véhiculées par les données de profilage des ribosomes pourrait donner un aperçu des régions de gènes ou de transcriptions qui se traduisent activement. Ce protocole étape par étape fournit des conseils sur la façon d’utiliser RiboCode pour analyser en détail les données de profilage des ribosomes, y compris l’installation du package, la préparation des données, l’exécution des commandes, l’explication des résultats et la visualisation des données. Les résultats d’analyse de RiboCode ont indiqué que la traduction est omniprésente et se produit sur des ORF non annotés de gènes codants et de nombreuses transcriptions précédemment supposées non codantes. Les analyses en aval ont fourni des preuves que les ribosomes se déplacent le long des ORF prédits par étapes de 3 nucléotides au fur et à mesure que la traduction se produit; cependant, il n’est pas clair si le processus de traduction ou les peptides produits remplissent une fonction. Néanmoins, des annotations précises de la traduction des ORF sur le génome peuvent donner lieu à des opportunités passionnantes d’identifier les fonctions de transcriptions auparavant non ^{caractérisées31}.

La prédiction du potentiel de codage pour chaque ORF à l’aide de données de profilage des ribosomes repose fortement sur la périodicité 3-nt des densités des sites P sur chaque codon du début aux codons d’arrêt des ORF. Par conséquent, cela nécessite une détection précise des emplacements du site P de lectures de différentes longueurs. Ces informations ne sont pas directement fournies par les données de profilage des ribosomes, mais peuvent être déduites des distances entre l’extrémité 5' des RPF et les codons de début ou d’arrêt annotés (étape 5.3 du protocole). L’absence d’annotations des codons de démarrage/arrêt connus dans le fichier GTF, comme pour les génomes nouvellement assemblés, peut empêcher RiboCode d’exécuter les étapes en aval à moins que les emplacements exacts des lectures sur le site P ne soient déterminés par d’autres moyens. Dans la plupart des cas, la taille des fragments liés aux ribosomes et leur emplacement sur le site P sont constants, par exemple, 28-30 nt de long et à +12 nt de l’extrémité 5' des lectures dans les cellules humaines. RiboCode permet la sélection des lectures dans une plage spécifique pour définir les positions du site P en fonction de l’expérience. Cependant, les deux longueurs de lectures du FPR et la position de leurs sites P peuvent être différentes lorsque les conditions environnementales (p. ex., stress ou stimulus) ou la procédure expérimentale (p. ex., nucléase, tampon, préparation de la bibliothèque et séquençage) ont été modifiées. Par conséquent, nous vous recommandons d’effectuer les métatracts (étape de protocole 5.3) pour chaque échantillon afin d’extraire les RPF les plus fiables (c’est-à-dire les lectures affichant des modèles de périodicité 3-nt) et de déterminer leurs positions sur le site P dans différentes conditions. Bien que ces opérations puissent être effectuées automatiquement à l’aide de la fonction métaplots , souvent seule une minorité de lectures montrant un cadrage ou un phasage presque parfait réussissent les critères de sélection rigoureux et le test statistique. Par conséquent, il est toujours nécessaire d’assouplir certains paramètres, en particulier le « -f0_percent », puis d’inspecter visuellement la périodicité 3-nt des lectures à chaque longueur et de modifier manuellement le fichier de configuration pour inclure plus de lectures en conséquence, en particulier lorsque la qualité de la bibliothèque est médiocre (étape de protocole 5.3).

RiboCode recherche les ORF candidats depuis les codons de départ canoniques ou non canoniques (NUG) jusqu’au codon stop suivant. Pour les transcriptions avec plusieurs codons de départ en amont des codons d’arrêt, les codons de départ les plus probables sont déterminés en évaluant la périodicité 3-nt des lectures RPF cartographiées entre deux codons de départ voisins ou simplement en choisissant le codon de départ en amont ayant plus de lectures RPF in-frame que hors trame. Une limite d’une telle stratégie est que les codons de départ réels peuvent être mal identifiés si les lectures alignées sur les régions de codon de départ sont rares ou absentes. Heureusement, les stratégies récentes, telles que le séquençage global d’initiation de traduction (GTI-seq)³² et le séquençage quantitatif d’initiation de traduction (QTI-seq)³³, offrent des moyens plus directs de localiser les sites d’initiation de traduction. Pour les NUG, d’autres études sont encore nécessaires pour étudier leurs validités en tant que codons de départ efficaces.

Nous avons également publié une nouvelle mise à jour pour RiboCode en ajoutant trois nouvelles fonctionnalités: 1) il signale les autres types potentiels de BLR attribués en fonction de leur emplacement par rapport aux transcriptions autres que la plus longue; 2) il offre une option pour ajuster les valeurs p combinées si les tests de lecture RPF dans les deux cadres externes ne sont pas indépendants (voir une explication plus détaillée dans Informations supplémentaires); 3) il effectue une correction de la valeur de p pour plusieurs tests, ce qui permet un filtrage plus rigoureux de la traduction des ORF.

Comme RiboCode identifie les ORF qui traduisent activement en évaluant la périodicité 3-nt des densités de lecture RPF, il a certaines limites pour les ORF qui sont extrêmement courts (par exemple, moins de 3 codons). Spealman et al. ont comparé les performances de RiboCode avec uORF-seqr et ont rapporté qu’aucun uORF inférieur à 60 nt n’est prédit par RiboCode dans leur ensemble de ^données34. Nous soutenons que le paramètre de sélection de la taille ORF (-m) dans la version précédente de RiboCode n’est pas correctement défini. Nous avons modifié la valeur par défaut de cet argument à 5 dans le RiboCode mis à jour.

RiboCode rapporte les ORF identifiés dans deux fichiers : « RiboCode_ORFs_result.txt » contenant tous les ORF, y compris les ORF redondants provenant de différentes transcriptions du même gène ; « RiboCode_ORFs_result_collapsed.txt » (fichier supplémentaire 2) intégrant les ORF qui se chevauchent avec le même codon d’arrêt mais des codons de départ différents, c’est-à-dire celui qui héberge le codon de démarrage le plus en amont dans le même cadre de lecture sera conservé. Dans les deux fichiers, les ORF détectés sont classés en ORF « nouveaux » traduisant ou en d’autres types différents en fonction de leur emplacement relatif par rapport aux CDS connus (voir une explication détaillée des types d’ORF dans RiboCode ^paper22 ou sur le site Web de ^RiboCode35). Nous avons illustré comment interpréter les sorties RiboCode en utilisant un uORF prédit du gène ATF4 à titre d’exemple (information supplémentaire). RiboCode compte également le nombre de gènes contenant différents types d’ORF et les trace avec leurs pourcentages (Figure 2).

Une étude a rapporté que certains gènes exprimés mais translationnellement quiescents peuvent être activés pour se traduire en peptides lors du stress ^oxydatif12, ce qui indique qu’il existe probablement d’autres ORF qui pourraient n’être traduits que de manière dépendante de la condition. RiboCode peut être effectué pour différentes conditions expérimentales séparément (par exemple, si-Ctrl ou si-eIF3e) ou conjointement, comme démontré dans ce protocole (étapes 5.4 et 6.1). Le multiplexage de plusieurs échantillons en une seule série en définissant les longueurs et les positions du site P des lectures sélectionnées dans « merged_config.txt » présente plusieurs avantages par rapport au traitement individuel de chaque échantillon. Premièrement, il réduit les biais présents dans un seul échantillon; deuxièmement, il économise le temps d’exécution du programme; enfin, il fournit suffisamment de données pour réaliser les statistiques. Ainsi, il fonctionne théoriquement mieux que le mode à échantillon unique, en particulier pour les échantillons avec une faible couverture de séquençage et un bruit de fond élevé. Une quantification et une comparaison plus poussées du nombre de RPF attribués aux ORF prédits entre différentes conditions (par exemple, si-eIF3e vs si-Ctrl) nous permettent de découvrir des ORF dépendant du contexte ou d’explorer la régulation translationnelle des ORF.

Notez qu’en raison de l’accumulation de ribosomes au début et à la fin des ORF, un phénomène appelé « rampe de translation », les RPF attribués dans les 15 premiers codon et les 5 derniers codons devraient être exclus du comptage des lectures pour éviter l’analyse du biais différentiel de conversion ORF aux différences de taux ^{d’initiation3,5}^,³⁶. Ces résultats suggèrent que l’abondance des types d’UORF est plus élevée dans les cellules sans EIF3 que dans les cellules témoins, ce qui pourrait être causé (ou au moins partiellement) par les niveaux élevés de ribosomes à traduction active. La méta-analyse des densités de FPR autour des codons de départ a également suggéré que l’allongement précoce de la traduction est régulé par EIF3E. Notez que le simple fait de compter les lectures RPF dans un ORF n’est pas précis pour la quantification de la traduction, en particulier lorsque l’allongement de la traduction est gravement bloqué.

En résumé, ce protocole montre que RiboCode pourrait être facilement appliqué pour identifier de nouveaux ORF traduits de toute taille, y compris ceux codant pour les micropeptides. Ce serait un outil précieux pour le milieu de la recherche de découvrir divers types de BLR dans différents contextes physiologiques ou conditions expérimentales. Une validation plus poussée des produits protéiques ou peptidiques de ces ORF serait utile pour le développement d’applications futures du profilage des ribosomes.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont aucun conflit d’intérêts à divulguer.

Acknowledgments

Les auteurs tiennent à souligner le soutien des ressources informatiques fournies par la plate-forme HPCC de l’Université Xi’an Jiaotong. Z.X. remercie chaleureusement le Young Topnotch Talent Support Plan de l’Université Xi’an Jiaotong.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identification de cadres de lecture ouverts activement traduits avec des données de profilage de ribosomes

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.