Biology

从头使用核糖体分析数据识别主动翻译的开放阅读框

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

翻译核糖体将每个密码子的三个核苷酸解码为肽。它们沿着mRNA的运动，通过核糖体分析捕获，产生表现出特征性三重态周期性的足迹。该协议描述了如何使用RiboCode从核糖体分析数据中破译这一突出特征，以识别全转录组水平上主动翻译的开放阅读框。

Abstract

识别开放阅读框（ORF），特别是那些编码小肽并在特定生理环境下被积极翻译的阅读框，对于上下文依赖性翻译组的全面注释至关重要。核糖体分析是一种检测RNA上翻译核糖体的结合位置和密度的技术，为快速发现全基因组范围内翻译发生的位置提供了一条途径。然而，在生物信息学中，高效、全面地鉴定用于核糖体分析的转化ORFs并非易事。这里描述的是一个易于使用的包，名为RiboCode，旨在从核糖体分析数据中的失真和模糊信号中搜索任何大小的ORF。本文以我们之前发布的数据集为例，提供了整个RiboCode管道的分步说明，从原始数据的预处理到最终输出结果文件的解释。此外，为了评估注释ORF的平移率，还详细描述了每个ORF上核糖体密度的可视化和定量程序。综上所述，本文是对翻译、小ORF和肽相关研究领域的有用和及时的指导。

Introduction

最近，越来越多的研究表明，从编码基因的ORF和先前注释的基因翻译的肽被广泛生产为非编码基因，例如长非编码RNA（lncRNA）¹^，²，³^，⁴^，⁵^，⁶^，⁷^，⁸。这些翻译的ORF由细胞调节或诱导，以响应环境变化，压力和细胞分化¹^，⁸^，⁹^，¹⁰^，¹¹^，¹²^，¹³。一些ORF的转化产物已被证明在发育和生理学中的各种生物过程中起着重要的调节作用。例如，Chng等人¹⁴发现了一种名为Elabela（Ela，也称为Apela / Ende / Toddler）的肽激素，它对心血管发育至关重要。Pauli等人认为Ela还充当有丝分裂原，促进早期鱼胚胎中的细胞迁移¹⁵。Magny等人报道了两种少于30个氨基酸的微肽调节钙转运并影响果蝇心脏的正常肌肉收缩¹⁰。

目前尚不清楚基因组编码了多少这样的肽，以及它们是否具有生物学相关性。因此，系统地识别这些潜在编码的ORF是非常可取的。然而，使用进化守恒^16，17和质谱¹⁸^，¹⁹等传统方法直接确定这些ORF（即蛋白质或肽）的产物具有挑战性^，因为这两种方法的检测效率都取决于所产生的蛋白质或肽的长度，丰度和氨基酸组成。核糖体分析是一种在核苷酸分辨率下鉴定mRNA上核糖体占用的技术，它的出现为评估不同转录本的编码潜力提供了一种精确的方法³^，²⁰^，²¹，无论它们的长度和组成如何。使用核糖体分析鉴定主动翻译ORF的一个重要且常用的特征是核糖体从起始密码子到停止密码子在mRNA上的足迹的三核苷酸（3-nt）周期性。然而，核糖体分析数据通常存在几个问题，包括沿ORF的低和稀疏测序读数，高测序噪声和核糖体RNA（rRNA）污染。因此，这些数据产生的扭曲和模糊信号削弱了核糖体在mRNA上足迹的3-nt周期模式，最终使得高置信翻译ORFs的鉴定变得困难。

一个名为“RiboCode”的软件包采用了改进的Wilcoxon签名秩测试和P值积分策略，以检查ORF是否比帧外RPF具有更多的帧内核糖体保护片段（RPM）²²。它被证明对于模拟和真实核糖体分析数据中翻译组的从头注释是高效，灵敏和准确的。在这里，我们描述了如何使用该工具从先前研究生成的原始核糖体分析测序数据集中检测潜在的转化^ORF23。这些数据集用于通过比较MCF-10A细胞的核糖体占用谱来探索EIF3亚基“E”（EIF3E）在翻译中的功能，这些细胞转染对照（si-Ctrl）和 EIF3E （si-eIF3e）小干扰RNA（siRNA）。通过将RiboCode应用于这些示例数据集，我们检测到5，633个可能编码小肽或蛋白质的新型ORF。这些ORF根据其相对于编码区域的位置分为各种类型，包括上游ORF（uORFs），下游ORF（dORFs），重叠ORF，来自新型蛋白质编码基因（新型PCG）的ORF以及来自新型非蛋白编码基因（新型NonPCGs）的ORF。与对照细胞相比，EIF3E缺陷细胞中uORFs上的RPF读数密度显着增加，这可能至少部分是由主动翻译核糖体的富集引起的。EIF3E缺陷细胞第25^~ 75^个密码子区域的局部核糖体积累表明早期翻译伸长受阻。该协议还展示了如何可视化所需区域的RPF密度，以检查已识别ORF上核糖体足迹的3-nt周期模式。这些分析证明了RiboCode在识别翻译ORF和研究翻译监管方面的强大作用。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 环境设置和 RiboCode 安装

打开一个 Linux 终端窗口并创建一个 conda 环境：
conda create -n RiboCode python=3.8
切换到创建的环境并安装 RiboCode 和依赖项：
康达激活核糖代码
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. 数据准备

获取基因组参考文件。
1. 有关参考序列，请转到位于 https://www.ensembl.org/index.html 的 Ensemble 网站，单击顶部菜单“下载”和左侧菜单“FTP 下载”。在显示的表中，单击“DNA（FASTA）”列中的“FASTA”和“物种为人类”行中的“FASTA”。在打开的页面中，复制Homo_sapiens的链接。GRCh38.dna.primary_assembly.fa.gz，然后在终端中下载并解压缩：
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens.GRCh38.dna.primary_assembly法.gz
2. 要进行参考注释，请右键单击上次打开的网页中“基因集”列中的 GTF。复制Homo_sapiens的链接。GRCh38.104.gtf.gz并下载：
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens.GRCh38.104.gtf.gz
  注意：建议从Ensemble网站获取GTF文件，因为它包含以三级层次结构组织的基因组注释，即每个基因都包含包含外显子和可选翻译（例如， 编码序列[CDS]，翻译开始位点，翻译结束位点）的转录本。当基因或转录本的注释丢失时，例如，从UCSC或NCBI获得的GTF文件，请使用 GTFupdate 生成具有完整父子层次结构注释的更新GTF： GTFupdate original.gtf> updated.gtf。对于 .gff 格式的注释文件，请使用 AGAT 工具包²⁴ 或任何其他工具转换为 .gtf 格式。
获取 rRNA 序列。
1. 在 https://genome.ucsc.edu 打开 UCSC 基因组浏览器，然后单击工具|下拉列表中的表浏览器 。
2. 在打开的页面上，指定 哺乳动物 为分支，人类为基因组， 所有表 为组， rmask 为表， 基因组 为区域。对于过滤器，单击“ 创建 ”转到新页面，并将 repClass 设置为 匹配 rRNA。
3. 单击“ 提交 ”，然后将输出格式设置为序列，并将文件名输出为 hg38_rRNA.fa。最后，单击“ 获取输出|获取序列 以检索rRNA序列。
从序列读取存档（SRA）获取核糖体分析数据集。
1. 下载si-eIF3e治疗组的复制样本并重命名：
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. 下载对照组的复制样本并重命名它们：
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  注：这些示例数据集的SRA加入ID是通过搜索GSE131074从Gene Expression Omnibus（GEO）网站²⁵ 获得的。

3. 修剪适配器并去除 rRNA 污染

（可选）从排序数据中删除适配器。如果适配器序列已被修剪，请跳过此步骤，如本例所示。否则，请使用 cutadapt 从读取中修剪适配器。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
做
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
做
注意： -a 参数之后的适配器序列将因 cDNA 文库制备情况而异。短于15的读数（由 -m给出）将被丢弃，因为受核糖体保护的片段通常长于此大小。
使用以下步骤去除 rRNA 污染：
1. rRNA参考序列索引：
  领结-f hg38_rRNA.fa hg38_rRNA
2. 将读数与 rRNA 引用对齐，以排除源自 rRNA 的读数：
  for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  做
  领结 -n 0 -y -a --norc --最佳 --地层 -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  做
  -p 指定用于并行运行任务的线程数。考虑到 RPF 读取的相对较小，应指定其他参数（例如，-n、-y、-a、-norc、--best、--strata 和 -l）以保证报告的对齐方式最佳。有关更多详细信息，请参阅Bowtie网站²⁶。

4. 将干净的读数与基因组对齐

创建基因组索引。
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens.GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens.GRCh38.104.gtf
将干净的读数（无rRNA污染）与创建的参考对齐。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
做
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}.--outSAMtype BAM SortbyCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
做
注意：逆转录酶²⁷经常将未模板化的核苷酸添加到每次读取的5'末端，STAR将在默认情况下执行软剪辑时有效地修剪掉。STAR 的参数在 STAR 手册²⁸ 中进行了描述。
对齐文件排序和索引。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
做
samtools sort -T ${i}.Aligned.toTranscriptome.out.sorted \
-o ${i}.Aligned.toTranscriptome.out.sorted.bam \
${i}.Aligned.toTranscriptome.out.bam
samtools index ${i}.Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}.Aligned.sortedByCoord.out.bam
做

5. RPF的大小选择及其P站点的识别

准备成绩单批注。
prepare_transcripts -g Homo_sapiens。GRCh38.104.gtf \
-f Homo_sapiens。GRCh38.dna.primary_assembly法 -o RiboCode_annot
注意：此命令从GTF文件收集mRNA转录本的所需信息，并从FASTA文件中提取所有mRNA转录本的序列（每个转录本都是根据GTF文件中定义的结构通过合并外显子来组装的）。
选择特定长度的 RPM 并标识其 P 站点位置。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
做
metaplots -a RiboCode_annot -r ${i}.Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
做
注意：此命令绘制每个长度的对齐读取的 5' 端的聚合配置文件，这些读数围绕带注释的平移开始（或停止）密码子。读取长度相关的P位点可以通过检查主读数5'端和起始密码子之间的偏移距离的分布图（例如， 图1B）手动确定。RiboCode还为每个样本生成一个配置文件，其中自动确定显示显着3-nt周期模式的读数的P位点位置。参数 -f0_percent、 -pv1 和 -pv2 定义了比例阈值和 p 值截止值，用于选择读取帧中丰富的 RPF 读数。在此示例中，每个配置文件中手动定义了来自 29、 30 和 31 nt 读取的 5' 端的 + 12、+ 13 和 + 13 核苷酸。
编辑每个示例的配置文件并合并它们
注意：为了生成一组唯一 ORF 的共识，并确保足够的读取覆盖率以执行后续分析，将合并上一步中所有样本的选定读取。 merged_config.txt文件 （补充文件 1）中定义的特定长度的读取及其 P 站点信息用于在下一步中评估 ORF 的转换潜力。

6 . 从头开始 注释翻译ORF

运行 RiboCode。
RiboCode -a RiboCode_annot -c merged_config.txt -l yes -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG，GTG，TTG
其中，此命令的重要参数如下：
-c，配置文件，包含输入文件的路径以及所选读取及其 P 站点的信息。
-l，对于在终止密码子上游具有多个起始密码子的转录本，是否使用最长的ORF（从最远端的起始密码子到停止密码子的区域）来评估其翻译潜力。如果设置为 no，将自动确定起始密码子。
-s，用于ORF识别的规范起始密码子。
-A，（可选）用于ORF鉴定的非规范起始密码子（例如，CTG，GTG和人类TTG），其线粒体或其他物种的细胞核可能不同²⁹。
-m，ORF的最小长度（即氨基酸）。
-o，包含预测 ORF 详细信息的输出文件名的前缀（补充文件 2）。
-g 和 -b 分别将预测的 ORF 输出为 gtf 或床格式。

7. （可选）ORF 定量和统计

计算每个 ORF 中读取的 RPF。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
做
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}.Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c intersection-strict
做
注意：为了排除ORF开始和结束周围潜在的累积核糖体，在前 15 个（由 -f指定）和最后 5 个密码子（由 -l特异性）中分配的读取次数不计算在内。（可选）计数的 RPM 的长度限制为 25 到 35 nt（RPF 的常见大小）范围。
使用RiboCode计算检测到的ORF的基本统计数据：
Rscript RiboCode_utils.R
注： RiboCode_utils。R （补充文件3）为RiboCode输出提供了一系列统计数据，例如，计算已识别ORF的数量，查看ORF长度的分布，并计算归一化的RPF密度（即RPKM，每千碱基每百万次映射读取的读取）。

8. （可选）预测 ORF 的可视化

从RiboCode_ORFs_result_collapsed.txt（补充文件3）获取所需ORF（例如，ENSG00000100902_35292349_35292552_67）的起始密码子和停止密码子的相对位置。然后，绘制ORF中RPF读数的密度：
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --起始密码子 ATG -o ENSG00000100902_35292349_35292552_67
其中 -s 和 -e 指定绘制 ORF 的平移开始和停止位置。 --start-codon 定义了 ORF 的起始密码子，它将出现在图标题中。 -o 定义输出文件名的前缀。

9. （可选）使用核糖矿工进行元基因分析

注意：执行元基因分析，以评估 EIF3E 敲低对已识别的注释ORF的翻译的影响，请按照以下步骤进行：

为RiboMiner生成转录本注释，该注释根据RiboCode生成的注释文件提取每个基因的最长转录本（步骤5.1）。
输出转录信息 -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens。GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
为 RiboMiner 准备配置文件。复制由 RiboCode 的 metaplots 命令生成的配置文件（步骤 5.4），并将其重命名为“RiboMiner_config.txt”。然后，根据 补充文件4中显示的格式对其进行修改。
使用核糖矿工进行元基因分析
1. 使用 MetageneAnalysis 生成 转录本中 RPF 密度的聚合和平均配置文件。
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U 密码子 -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --范数是 \
  -y 100 --型 UTR
  其中重要参数为： --type，分析 CDS 或 UTR 区域; --范数，是否归一化读取密度; -y，用于每个转录本的密码子数; -U，在 密码子 水平或 nt 水平上绘制RPF密度; -u 和 -d，定义相对于起始密码子或停止密码子的分析区域的范围;-l，CDS的最小长度（即密码子的数量）; -M，成绩单过滤模式，计数或 RPKM; -n 个最小计数或 CDS 中的 RPKM 用于分析。 -m 最小计数或归一化区域中 CDS 的 RPKM; -e，从归一化区域中排除的密码子数。
2. 生成一组pdf文件，用于比较对照细胞和eIF3缺陷细胞中mRNA上的核糖体占用率。
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl，si-eIF3e -r si-Ctrl-1，si-Ctrl-2，si-Ctrl-3__si-eIF3e-1，si-eIF3e-2，si-eIF3e-3 -u 100 -d 400 --mode mean
  注意： PlotMetageneAnalysis 生成一组 pdf 文件。有关 MetageneAnalysis 和 PlotMetageneAnalysis 使用的详细信息，请访问RiboMiner网站³⁰。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

将示例核糖体分析数据集存入GEO数据库，加入号为GSE131074。此协议中使用的所有文件和代码均可从补充文件 1-4 获得。通过将RiboCode应用于一组已发表的核糖体分析数据集²³，我们确定了在用对照和EIF3E siRNA处理的MCF-10A细胞中主动翻译的新型ORF。为了选择最有可能被翻译核糖体结合的RPF读数，检查了测序读数的长度，并使用映射在已知翻译基因上的RPF进行了元基因分析。读取长度的频率分布显示，大多数RPF为25-35 nt（图1A），对应于核糖体覆盖的核苷酸序列。通过分别检查从其5'端到注释的起始密码子和停止密码子的距离来确定不同长度RPF的P位点位置（图1B）。28-32nt内的RPF读数显示出强烈的3-nt周期性，其P位点位于+^12th nt（补充文件1）。

RiboCode从规范起始密码子（AUG）或替代起始密码子（可选，例如CUG和GUG）到下一个停止密码子中搜索候选ORF。然后，根据RPF在定义范围内的映射结果，RiboCode通过评估帧内RPF的数量（即它们分配给每个密码子的第一个核苷酸上的P位点）是否大于帧外RPF的数量（即它们分配给每个密码子的第二个或第三个核苷酸）的数量来评估3-nt周期性。我们鉴定了13，120个可能翻译p <0.05的ORF基因，其中10，394个基因（70.8%）编码注释ORF，168个（1.1%）基因编码dORFs，509个（3.5%）基因编码uORFs，939个（6.4%）编码上游或下游ORFs的基因与已知的注释ORFs重叠（重叠），68个（0.5%）蛋白质编码基因编码新型ORF，2，601个（17.7%）先前被指定为编码新型ORF的非编码基因（图2 和 补充文件3）

比较不同ORF的大小表明，uORFs和重叠的ORF比注释的ORF（约1，771 nt）短（平均分别为195和188 nt）。对于新型ORF（新型PCG和新型非PCGS平均分别为670和385 nt）和dORFs（~671 nt）也观察到了相同的趋势（图3）。总之，由RiboCode鉴定的那些非规范ORF（未注释）倾向于编码比那些已知的注释ORF小的肽。

计算每个ORF的相对RPF计数，以评估EIF3在翻译过程中的功能。结果表明，EIF3E缺陷细胞中uORFs的核糖体密度显着高于对照细胞（图4）。由于许多uORFs被报道对下游编码ORF的翻译产生抑制作用，我们进一步研究了 EIF3E 敲低是否改变了起始密码子下游RPF的全局密度（图5）。元遗传学分析，其中许多ORF的谱被对齐，然后平均，显示大量核糖体在起始密码子下游的密码子25和75之间停滞，这表明翻译伸长可能在EIF3E缺陷细胞的早期被阻断。有必要进行进一步的研究，以检查ORF的信噪比或翻译效率的变化是否有助于uORF RPKM的增加以及在没有EIF3E的情况下密码子25至75之间核糖体的积累，也就是说，1）污染较少（或良好的文库质量）或2）没有EIF3E的样品中的主动翻译（或核糖体暂停）是否导致uORFs和在uORFs和定义区域之间的更多读取第25^和第 75^个密码子。

最后，RiboCode还提供了所需ORF上RPF的P位点密度的可视化，这可以帮助用户检查RPF的3-nt周期模式和密度。例如，图6 显示了PSMA6的uORF和SENP3-EIF4A1的dORF上的RPF密度;两者都通过已发表的蛋白质组学数据²³ （数据未显示）进行了验证。

图1：测序读数和P位点位置的评估（A）复制1（si-eIF3e-1）中EIF3E缺陷细胞中核糖体保护片段（RPF）的长度分布;（B）根据RPF在已知起始密码子（顶部）和停止密码子（底部）周围的密度推断29nt的P位点位置。请点击此处查看此图的放大版本。

图2：RiboCode使用所有样本鉴定出的含有不同类型ORF的基因的百分比。缩写：ORF = 开放式阅读框;dORF = 下游 ORF;PCG = 蛋白质编码基因;非PCG =非蛋白编码基因;uORF = 上游 ORF。请点击此处查看此图的放大版本。

图 3：不同 ORF 类型的长度分布。 缩写：ORF = 开放式阅读框;dORF = 下游 ORF;PCG = 蛋白质编码基因;非PCG =非蛋白编码基因;uORF = 上游 ORF;nt = 核苷酸。请点击此处查看此图的放大版本。

图 4：对照组和 EIF3E 缺陷细胞之间不同 ORF 类型的归一化读取计数比较。 p 值通过 Wilcoxon 符号秩检验确定。缩写：ORF = 开放式阅读框;dORF = 下游 ORF;PCG = 蛋白质编码基因;非PCG =非蛋白编码基因;uORF = 上游 ORF;RPKM = 每千碱基每百万次映射读取的读取次数;siRNA = 小干扰RNA;si-Ctrl = 对照 siRNA;si-eIF3e = 靶向 EIF3E 的 siRNA。请点击此处查看此图的放大版本。

图5：元遗传学分析显示了核糖体在注释ORF的起始密码子下游^的第 25-75个密码子处的失速。缩写：ORF = 开放式阅读框;siRNA = 小干扰RNA;si-Ctrl = 对照 siRNA;si-eIF3e = 靶向 EIF3E 的 siRNA;A. 美国，任何单位。请点击此处查看此图的放大版本。

图6：编码微肽的示例ORF的P位点密度曲线（A）预测的uORF的P位点密度及其相对于转录本上注释的CDS的位置ENST00000622405;（B）与 A 中相同，但对于成绩单 ENST00000614237 上预测的 dORF。底部面板显示预测的 uORF （A）或 dORF （B）的放大视图。红色条 = 帧内读取;绿色和蓝色条 = 帧外读取。缩写：ORF = 开放式阅读框;dORF = 下游 ORF;uORF = 上游 ORF;CDS = 编码序列。请点击此处查看此图的放大版本。

补充信息：评估两个p值之间的依赖性并解释RiboCode结果（以ATF4的uORF为例）。请点击此处下载此文件。

补充文件 1：用于 RiboCode 的配置文件，用于定义 RPF 和 P 站点位置的选定长度。 请点击此处下载此文件。

补充文件2：包含预测ORF信息的RiboCode输出文件。请点击此处下载此文件。

补充文件3：R脚本文件，用于执行RiboCode输出的基本统计信息。请点击此处下载此文件。

补充文件 4：从补充文件 1 修改的配置文件（对于 RiboMiner）。请点击此处下载此文件。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

核糖体分析为在基因组尺度上研究核糖体在细胞中的作用提供了前所未有的机会。精确破译核糖体分析数据携带的信息可以深入了解基因或转录本的哪些区域正在积极翻译。此分步协议提供了有关如何使用 RiboCode 详细分析核糖体分析数据的指导，包括软件包安装、数据准备、命令执行、结果说明和数据可视化。RiboCode的分析结果表明，翻译是普遍存在的，并且发生在编码基因的未注释ORF和许多先前被认为是非编码的转录本上。下游分析提供了证据，证明核糖体在翻译发生时沿着预测的ORF在3-核苷酸步骤中移动;然而，目前尚不清楚翻译过程或产生的肽是否起任何作用。然而，在基因组上准确注释翻译ORF可以带来令人兴奋的机会来识别以前未表征的转录本的功能³¹。

使用核糖体分析数据预测每个ORF的编码潜力高度依赖于每个密码子从ORFs的开始到停止密码子上P位点密度的3-nt周期性。因此，它需要精确检测不同长度读数的P位点位置。这些信息不是由核糖体分析数据直接提供的，但可以从RPF的5'末端与注释的开始或停止密码子之间的距离推断（协议步骤5.3）。在GTF文件中缺少已知开始/停止密码子的注释，例如那些新组装的基因组，可能导致RiboCode无法执行下游步骤，除非通过其他方式确定读取的确切P位点位置。在大多数情况下，核糖体结合片段的大小及其P位点是恒定的，例如，28-30 nt长，距离人类细胞中读取的5'末端+12 nt。RiboCode允许选择特定范围内的读数，以根据经验定义P位。然而，当环境条件（例如， 应力或刺激）或实验程序（例如，核酸酶、缓冲液、文库制备和测序）发生变化时，RPF 读数的长度及其 P 位点的位置可能会有所不同。因此，我们建议对每个样本执行元图（协议步骤5.3），以提取最高置信度的RPF（即，显示3-nt周期模式的读数）并确定它们在不同条件下的P位点位置。虽然这些操作可以使用元图函数自动完成，但通常只有少数显示近乎完美的取景或阶段的读取通过严格的选择标准和统计测试。因此，仍然需要放宽某些参数，特别是“-f0_percent”，然后目视检查每个长度的3-nt读取周期，并手动编辑配置文件以相应地包含更多读取，特别是当库质量较差时（协议步骤5.3）。

RiboCode从规范或非规范起始密码子（NUGs）到下一个停止密码子搜索候选ORF。对于在终止密码子上游具有多个起始密码子的转录本，通过评估在两个相邻起始密码子之间映射的RPF读数的3-nt周期性，或者简单地选择上游起始密码子比帧外RPF读数具有更多的帧内密码子来确定。这种策略的一个局限性是，如果与起始密码子区域对齐的读数稀疏或不存在，则实际的起始密码子可能会被错误识别。幸运的是，最近的策略，如全球翻译起始测序（GTI-seq）³² 和定量翻译起始测序（QTI-seq）³³，为定位翻译起始位点提供了更直接的方法。对于NUG，仍然需要更多的研究来调查它们作为有效起始密码子的有效性。

我们还通过添加三个新功能为RiboCode发布了新的更新：1）它报告了根据其相对于除最长转录本以外的转录本的位置分配的其他潜在ORF类型;2）如果两个外框中的RPF读数测试不是独立的，它提供了一个调整组合p值的选项（请参阅 补充信息中的更详细说明）;3）它对多次测试执行p值校正，从而可以更严格地筛选翻译ORF。

由于RiboCode通过评估RPF读取密度的3-nt周期性来识别主动翻译的ORF，因此对于那些极短的ORF（例如，少于3个密码子）具有一定的局限性。Spealman等人比较了RiboCode与uORF-seqr的性能，并报告说RiboCode在他们的数据集中没有预测到短于60 nt的^uORF34。我们认为，以前版本的RiboCode中ORF大小选择（-m）的参数没有正确设置。在更新的 RiboCode 中，我们已将此参数的默认值更改为 5。

RiboCode在两个文件中报告了已鉴定的ORF：“RiboCode_ORFs_result.txt”，其中包含所有ORF，包括来自同一基因不同转录本的冗余ORF;“RiboCode_ORFs_result_collapsed.txt”（补充文件2）将重叠的ORF与相同的终止密码子集成在一起，但起始密码子不同，即在同一阅读框中包含最上游起始密码子的密码子将被保留。在这两个文件中，检测到的ORF根据其相对于已知CDS的相对位置被分类为翻译ORF的“新型”或其他不同类型的ORF（请参阅RiboCode ^paper22 或RiboCode网站³⁵中ORF类型的详细说明）。我们以基因ATF4的预测uORF为例，说明了如何解释RiboCode输出（补充信息）。RiboCode还计算了包含不同类型ORF的基因数量，并将它们与它们的百分比一起绘制出来（图2）。

一项研究报告称，一些表达但翻译静止的基因可以在氧化应激¹²下被激活以翻译成肽，这表明可能还有其他ORF可能仅以条件依赖性方式翻译。RiboCode可以单独（例如， si-Ctrl或si-eIF3e）或联合进行不同的实验条件，如本方案所示（步骤5.4和6.1）。通过在“merged_config.txt”中定义所选读数的长度和P位点位置，将多个样本多路复用到一次运行中，与单独处理每个样本相比，具有几个优点。首先，它减少了单个样品中存在的偏倚;其次，它节省了程序运行时间;最后，它提供了足够的数据来执行统计。因此，从理论上讲，它比单采样模式效果更好，特别是对于具有低测序覆盖率和高背景噪声的样品。进一步量化和比较不同条件（例如，si-eIF3e与si-Ctrl）之间分配给预测ORF的RPF数量，使我们能够发现上下文相关的ORF或探索ORF的平移调控。

请注意，由于核糖体在ORFs的开头和结尾的积累，这种现象称为“翻译斜坡”，在前15个密码子和最后5个密码子中分配的RPF应从读取计数中排除，以避免分析差异ORF翻译偏向于起始率的差异³^，⁵^，³⁶.这些结果表明，在没有EIF3的细胞中，uORFs类型的丰度高于对照细胞，这可能是由主动翻译核糖体水平升高（或至少部分）引起的。起始密码子周围RPF密度的荟萃分析也表明，早期翻译伸长率受EIF3E的调节。请注意，简单地计算ORF中的RPF读数对于翻译量化是不准确的，特别是当翻译伸长率受到严重阻碍时。

总之，该协议表明RiboCode可以很容易地应用于识别任何大小的新型翻译ORF，包括那些编码微肽的ORF。对于研究界来说，这将是一个有价值的工具，可以在不同的生理环境或实验条件下发现各种类型的ORF。进一步验证来自这些ORF的蛋白质或肽产物将有助于开发核糖体分析的未来应用。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有利益冲突需要披露。

Acknowledgments

作者要感谢西安交通大学HPCC平台提供的计算资源的支持。Z.X.衷心感谢西安交通大学青年顶尖人才支持计划。

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

从头使用核糖体分析数据识别主动翻译的开放阅读框

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.