Summary
リボソームを翻訳すると、コドンあたり3つのヌクレオチドがペプチドに解読される。リボソームプロファイリングによって捕捉されたmRNAに沿ったそれらの動きは、特徴的な三重項周期性を示すフットプリントを生成する。このプロトコルでは、RiboCodeを使用してリボソームプロファイリングデータからこの顕著な特徴を解読し、トランスクリプトーム全体でアクティブに翻訳されたオープンリーディングフレームを特定する方法について説明します。
Abstract
オープンリーディングフレーム(ORF)、特に小さなペプチドをコードし、特定の生理学的文脈の下で積極的に翻訳されるフレームの同定は、文脈依存性翻訳体の包括的な注釈付けにとって重要である。RNA上の翻訳リボソームの結合位置と密度を検出する技術であるリボソームプロファイリングは、翻訳がゲノムワイドスケールでどこで起こっているかを迅速に発見する手段を提供します。しかし、リボソームプロファイリングのために翻訳ORFを効率的かつ包括的に同定することは、バイオインフォマティクスにおいて些細な作業ではありません。ここでは、RiboCodeという名前の使いやすいパッケージで、リボソームプロファイリングデータ内の歪んだあいまいな信号から任意のサイズのORFを積極的に変換するように設計されています。この記事では、以前に公開したデータセットを例にとり、生データの前処理から最終的な出力結果ファイルの解釈まで、RiboCodeパイプライン全体について段階的な手順を説明します。さらに、注釈付きORFの翻訳速度を評価するための、各ORF上のリボソーム密度の可視化および定量化のための手順も詳細に説明される。要約すると、本稿は、翻訳、小型ORF、およびペプチドに関連する研究分野のための有用かつタイムリーな指示である。
Introduction
最近、ますます多くの研究により、コード遺伝子のORFおよび以前に注釈が付けられた遺伝子から翻訳されたペプチドが、長い非コードRNA(lncRNA)1、2、3、4、5、6、7、8などの非コードとして広く産生されることが明らかになりました。これらの翻訳ORFは、環境変化、ストレス、および細胞分化に応答するように細胞によって調節または誘導される1、8、9、10、11、12、13。いくつかのORFの翻訳産物は、発生および生理学における多様な生物学的プロセスにおいて重要な調節的役割を果たすことが実証されている。例えば、Chngら14は、心血管の発達に重要なエラベラ(Ela、Apela/Ende/Toddlerとしても知られている)という名前のペプチドホルモンを発見しました。Pauliらは、エラが初期魚の胚における細胞移動を促進するマイトジェンとしても作用することを示唆した15。Magnyらは、カルシウム輸送を調節し、ショウジョウバエの心臓における規則的な筋肉収縮に影響を及ぼす30アミノ酸未満の2つのマイクロペプチドを報告した10。
そのようなペプチドがゲノムによってコードされている数と、それらが生物学的に関連性があるかどうかは不明のままである。したがって、これらの潜在的にコードORFの系統的同定は非常に望ましい。しかしながら、進化的保存16,17および質量分析18,19などの伝統的なアプローチを用いて、これらのORFの産物(すなわち、タンパク質またはペプチド)を直接決定することは、両方のアプローチの検出効率が産生されたタンパク質またはペプチドの長さ、存在量、およびアミノ酸組成に依存するため、困難である。ヌクレオチド分解能でmRNA上のリボソーム占有率を同定する技術であるリボソームプロファイリングの出現は、その長さおよび組成に関係なく、異なる転写産物のコードポテンシャルを評価する正確な方法を提供しました3、20、21。リボソームプロファイリングを用いて能動的に翻訳するORFを同定するために重要かつ頻繁に使用される特徴は、開始コドンから終止コドンまでのmRNA上のリボソームのフットプリントの3ヌクレオチド(3-nt)周期性である。しかし、リボソームプロファイリングデータには、ORFに沿った低シーケンシングリードとスパースシーケンシングリード、高いシーケンシングノイズ、リボソームRNA(rRNA)汚染など、いくつかの問題があることがよくあります。したがって、このようなデータによって生成される歪んだ曖昧なシグナルは、mRNA上のリボソームのフットプリントの3-nt周期性パターンを弱め、最終的に高信頼の翻訳ORFの同定を困難にする。
「RiboCode」という名前のパッケージは、修正されたウィルコクソン符号化検定とP値統合戦略を適応させ、ORFがオフフレームRPFよりも有意に多くのインフレームリボソーム保護フラグメント(RPF)を有するかどうかを調べた22。これは、シミュレートされた実際のリボソームプロファイリングデータにおける翻訳体のde novo注釈に対して、非常に効率的で、敏感で、正確であることが実証された。ここでは、このツールを使用して、前の研究によって生成された生のリボソームプロファイリングシーケンシングデータセットから潜在的な翻訳ORFを検出する方法について説明します23。これらのデータセットは、コントロール(si-Ctrl)およびEIF3E(si-eIF3e)小干渉RNA(siRNA)を導入したMCF-10A細胞のリボソーム占有プロファイルを比較することによって、翻訳におけるEIF3サブユニット「E」(EIF3E)の機能を探索するために使用されていた。これらのサンプルデータセットにRiboCodeを適用することにより、小さなペプチドまたはタンパク質をコードする可能性のある5,633の新規ORFを検出しました。これらのORFは、上流ORF(uORF)、下流ORF(dORF)、重複ORF、新規タンパク質コード遺伝子由来のORF(新規PCG)、新規非タンパク質コード遺伝子由来のORF(新規NonPCG)など、コード領域に対する位置に基づいて様々なタイプに分類された。uORFのRPF読み取り密度は、対照細胞と比較してEIF3E欠損細胞において有意に増加し、これは少なくとも部分的には、能動的に翻訳されるリボソームの濃縮によって引き起こされる可能性がある。EIF3E欠損細胞のコドン25番目から75番目までの領域に局在するリボソーム蓄積は、初期段階における翻訳伸長の閉塞を示した。このプロトコルはまた、同定されたORF上のリボソームフットプリントの3-nt周期性パターンを調べるために、所望の領域のRPF密度を視覚化する方法も示している。これらの分析は、翻訳ORFを特定し、翻訳の規制を研究する上でのRiboCodeの強力な役割を示しています。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 環境設定とリボコードのインストール
- Linux 端末ウィンドウを開き、conda 環境を作成します。
conda create -n RiboCode python=3.8 - 作成した環境に切り替えて、RiboCode と依存関係をインストールします。
コンダはリボコードをアクティブにする
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools
2. データ準備
- ゲノム参照ファイルを取得します。
- 参照シーケンスについては、https://www.ensembl.org/index.html のアンサンブルWebサイトにアクセスし、トップメニューの[ダウンロード]と左側のメニュー[FTPダウンロード]をクリックします。提示された表で、列 DNA (FASTA) の FASTA と、種が人間である行の FASTA をクリックします。開いたページで、Homo_sapiensのリンクをコピーします。GRCh38.dna.primary_assembly.fa.gz、ターミナルでダウンロードして解凍します。
wget -c \
http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens。GRCh38.dna.primary_assembly.fa.gz - 参照注釈については、最後に開いた Web ページの [遺伝子セット] 列の GTF を右クリックします。Homo_sapiensのリンクをコピーします。GRCh38.104.gtf.gzを使用してダウンロードします。
wget -c \
http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
gzip -d Homo_sapiens。GRCh38.104.gtf.gz
注:GTFファイルは、3レベルの階層に編成されたゲノム注釈を含むため、アンサンブルのウェブサイトからGTFファイルを取得することをお勧めします、すなわち、各遺伝子にはエクソンとオプションの翻訳(例えば 、コード配列[CDS]、翻訳開始部位、翻訳終了部位)を含む転写産物が含まれています。UCSC または NCBI から取得した GTF ファイルなど、遺伝子または転写産物の注釈が欠落している場合は、 GTFupdate を使用して、完全な親子階層注釈 ( GTFupdate original.gtf > updated.gtf) を含む更新された GTF を生成します。.gff 形式のアノテーション・ファイルの場合は、AGAT ツールキット 24 またはその他のツールを使用して .gtf 形式に変換します。
- 参照シーケンスについては、https://www.ensembl.org/index.html のアンサンブルWebサイトにアクセスし、トップメニューの[ダウンロード]と左側のメニュー[FTPダウンロード]をクリックします。提示された表で、列 DNA (FASTA) の FASTA と、種が人間である行の FASTA をクリックします。開いたページで、Homo_sapiensのリンクをコピーします。GRCh38.dna.primary_assembly.fa.gz、ターミナルでダウンロードして解凍します。
- rRNA配列を取得します。
- UCSC Genome Browser を https://genome.ucsc.edu で開き、[ツール |] をクリックします。ドロップダウンリストのテーブルブラウザ。
- 開いたページで、クレードに 哺乳類 、ゲノムに ヒト 、グループに すべてのテーブル、テーブルに rmask 、領域に ゲノム を指定します。フィルターの場合は、[ 作成 ] をクリックして新しいページに移動し、 rRNA と一致するように repClass を設定します。
- [ 送信] をクリックし、出力形式を [シーケンス ] に設定し、ファイル名を hg38_rRNA.fa として出力します。最後に、[ 出力|の取得] をクリックします。rRNA配列を取得するには配列 を取得します。
- シーケンス読み取りアーカイブ(SRA)からリボソームプロファイリングデータセットを取得します。
- si-eIF3e治療群の複製サンプルをダウンロードし、名前を変更します。
ファスト Q ダンプ SRR9047190 SRR9047191 SRR9047192
mv SRR9047190.fastq si-eIF3e-1.fastq
mv SRR9047191.fastq si-eIF3e-2.fastq
mv SRR9047192.fastq si-eIF3e-3.fastq - 制御グループの複製サンプルをダウンロードし、名前を変更します。
ファスト Q ダンプ SRR9047193 SRR9047194 SRR9047195
mv SRR9047193.fastq si-Ctrl-1.fastq
mv SRR9047194.fastq si-Ctrl-2.fastq
mv SRR9047195.fastq si-Ctrl-3.fastq
注: これらのサンプル データセットの SRA アクセッション ID は、GSE131074 を検索して Gene Expression Omnibus (GEO) Webサイト25 から取得しました。
- si-eIF3e治療群の複製サンプルをダウンロードし、名前を変更します。
3. アダプターをトリムし、rRNA汚染を除去する
- (オプション)シーケンス・データからアダプターを取り外します。この場合のように、アダプター・シーケンスが既にトリミングされている場合は、このステップをスキップしてください。それ以外の場合は、 cutadaptを使用して 、読み取りからアダプタをトリミングします。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
完成です
注: -a パラメーターの後のアダプター配列は、cDNA ライブラリーの準備によって異なります。15 より短い読み取り ( -m で指定) は、リボソームで保護されたフラグメントが通常このサイズより長いため、破棄されます。 - 以下の手順でrRNA汚染を除去します。
- インデックスrRNA参照配列:
蝶ネクタイビルド-f hg38_rRNA.fa hg38_rRNA - 読み取りを rRNA 参照に合わせ、rRNA から発生した読み取りを除外します。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
蝶ネクタイ -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
--un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
完成です
-p は、タスクを並列に実行するためのスレッドの数を指定します。RPF 読み取りのサイズが比較的小さいことを考慮すると、報告されたアライメントが最適であることを保証するために、他の引数 (-n、-y、-a、-norc、--best、--strata、-l など) を指定する必要があります。詳細については、ボウタイのウェブサイト26を参照してください。
- インデックスrRNA参照配列:
4. クリーンな読み取り値をゲノムに合わせる
- ゲノムインデックスを作成します。
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens.GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens.GRCh38.104.gtf - クリーン読み取り(rRNA汚染なし)を作成した参照に合わせます。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}.--outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
完成です
注:テンプレート化されていないヌクレオチドは、逆転写酵素27によって各読み取りの5'末端に頻繁に追加され、デフォルトでソフトクリッピングを実行するため、STARによって効率的にトリミングされます。STAR のパラメータについては、STAR マニュアル 28 に説明があります。 - 並べ替えとインデックスの配置ファイル。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
samtools sort -T ${i}.Aligned.toTranscriptome.out.sorted \
-o ${i}.Aligned.toTranscriptome.out.sorted.bam \
${i}.Aligned.toTranscriptome.out.bam
samtools index ${i}.Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}.Aligned.sortedByCoord.out.bam
完成です
5. RPFのサイズ選択とそのPサイトの識別
- トランスクリプト注釈を準備します。
-g prepare_transcriptsをHomo_sapiensします。GRCh38.104.gtf \
-f Homo_sapiens。GRCh38.dna.primary_assembly.fa -o RiboCode_annot
注: このコマンドは、GTF ファイルから mRNA 転写産物の必要な情報を収集し、FASTA ファイルからすべての mRNA 転写産物の配列を抽出します (各転写産物は、GTF ファイルで定義された構造に従ってエクソンをマージすることによってアセンブルされます)。 - 特定の長さのRPFを選択し、そのPサイト位置を特定します。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
メタプロット -a RiboCode_annot -r ${i}.Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
完成です
注: このコマンドは、注釈付き翻訳開始 (または停止) コドンの周囲に、各長さの整列された読み取り値の 5' 末端の集約プロファイルをプロットします。リード長依存性P部位は、主要リードの5'末端と開始コドンとの間のオフセット距離の分布プロット(例えば、図1B)を調べることによって手動で決定することができる。RiboCodeはまた、サンプルごとに構成ファイルを生成し、そこでは、有意な3nt周期性パターンを示す読み取りのPサイト位置が自動的に決定される。パラメーター -f0_percent、-pv1、および -pv2 は、読み取りフレームで強化された RPF 読み取りを選択するための比率しきい値と p 値カットオフを定義します。この例では、29、30、および 31 nt 読み取りの 5' 末端からの +12、+13、および +13 ヌクレオチドは、各構成ファイルで手動で定義されています。 - 各サンプルの構成ファイルを編集し、それらをマージする
メモ: 固有のORFのコンセンサスセットを生成し、後続の分析を実行するのに十分な読み取りカバレッジを確保するために、前のステップで選択したすべてのサンプルの読み取り値がマージされます。 merged_config.txtファイル (補足ファイル1)で定義された特定の長さの読み取りとそのPサイト情報は、次のステップでORFの翻訳可能性を評価するために使用されます。
6. 翻訳 ORFに注釈を付ける
- リボコードを実行します。
RiboCode -a RiboCode_annot -c merged_config.txt -l yes -g \
-o RiboCode_ORFs_result -S ATG -M 5 -A CTG,GTG,TTG
ここで、このコマンドの重要なパラメーターは次のとおりです。
-c、入力ファイルのパス、選択した読み取りとそのPサイトの情報を含む設定ファイル。
−lは、終止コドンの上流に複数の開始コドンを有する転写産物について、最長のORF(最も遠位の開始コドンから終止コドンまでの領域)がそれらの翻訳可能性を評価するために使用されるか否か。 noに設定すると、開始コドンが自動的に決定される。
-sは、ORFの識別に使用される正準開始コドンである。
−Aは、(任意選択で)ORF同定のために使用される非正準開始コドン(例えば、ヒトのためのCTG、GTG、およびTTG)と、他の種のミトコンドリアまたは核において異なる可能性がある29。
-mは、ORFの最小長(すなわち、アミノ酸)である。
-o は、予測される ORF の詳細を含む出力ファイル名の接頭部です (補足ファイル 2)。
-gと-bは、予測ORFをそれぞれgtfまたはベッド形式に出力します。
7. (オプション) ORF の定量化と統計
- 各 ORF で RPF 読み取りをカウントします。
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
する
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}.Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c intersection-strict
完成です
注: ORF の開始と終了の周囲に蓄積する可能性のあるリボソームを除外するために、最初の 15 個 ( -f で指定) と最後の 5 個のコドン ( -l で特定) に割り当てられた読み取り数はカウントされません。オプションで、カウントされる RPF の長さは、 25 ~ 35 nt (RPF の一般的なサイズ) の範囲に制限されます。 - RiboCodeを使用して、検出されたORFの基本統計を計算します。
Rscript RiboCode_utils。R
注: RiboCode_utils。R (補足ファイル3)は、識別されたORFの数のカウント、ORFの長さの分布の表示、正規化されたRPF密度の計算(すなわち、RPKM、マップされた読み取り100万回あたりのキロベースあたりの読み取り)など、RiboCode出力に関する一連の統計を提供します。
8. (オプション) 予測ORFの可視化
- ENSG00000100902_35292349_35292552_67からその転写産物上の所望のORFの開始コドンおよび終止コドン(例えば、 RiboCode_ORFs_result_collapsed.txt )の相対位置を取得する(補足ファイル3)。次に、RPF読み取りの密度をORFにプロットします。
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --開始コドン ATG -o ENSG00000100902_35292349_35292552_67
ここで 、-s と -e は、プロット ORF の平行移動の開始位置と終了位置を指定します。 --start-codonは ORFの開始コドンを定義し、図のタイトルに現れる。 -o は、出力ファイル名の接頭部を定義します。
9. (オプション)リボマイナーを用いたメタジーン解析
注: 以下の手順に従って、メタジーン解析を実行して、同定された注釈付きORFの翻訳に対する EIF3E ノックダウンの影響を評価します。
- RiboMinerのトランスクリプトアノテーションを生成し、RiboCodeによって生成されたアノテーションファイルに基づいて各遺伝子の最も長いトランスクリプトを抽出します(ステップ5.1)。
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens。GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt - リボマイナーの構成ファイルを準備します。RiboCodeの metaplots コマンドで生成された設定ファイルをコピーし(ステップ5.4)、名前を「RiboMiner_config.txt」に変更します。次に、 補足ファイル 4 に示されている形式に従って変更します。
- リボマイナーを用いたメタジーン解析
- MetageneAnalysisを使用して、転写産物全体のRPFの密度の集計および平均プロファイルを生成します。
MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
-o MA_normed -U コドン -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm yes \
-y 100 --タイプ UTR
重要なパラメータがある場合: --type、 CDS または UTR 領域の分析。 --norm、読み取り密度を正規化したかどうか。 -y、各転写産物に用いたコドンの数; −U、 RPF密度をコドン レベルまたは nt レベルのいずれかでプロットする;− u および −dは、開始コドンまたは終止コドンに対する分析領域の範囲を定義する;−l、CDSの最小長(すなわち、コドンの数); -M は、トランスクリプトフィルタリングのモードであり、 カウント または RPKM のいずれかです。 分析 用の CDS の最小カウントまたは RPKM正規化された領域における CDS の -m 最小カウントまたは RPKM −eは、正規化領域から除外されたコドンの数である。 - 対照細胞とeIF3欠損細胞におけるmRNA上のリボソーム占有率を比較するための一連のpdfファイルを生成する。
PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
-g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
注: PlotMetageneAnalysis は、一連の pdf ファイルを生成します。MetageneAnalysisとPlotMetageneAnalysisの使用法に関する詳細は、RiboMinerのウェブサイト30で入手できます。
- MetageneAnalysisを使用して、転写産物全体のRPFの密度の集計および平均プロファイルを生成します。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
リボソームプロファイリングデータセットの例は、アクセッション番号GSE131074でGEOデータベースに寄託されました。このプロトコルで使用されるすべてのファイルとコードは、補足ファイル 1 ~ 4 から入手できます。リボソームプロファイリングデータセット23の公開セットにRiboCodeを適用することにより、コントロールおよびEIF3E siRNAで処理したMCF-10A細胞で能動的に翻訳された新規ORFを同定しました。翻訳リボソームによって結合される可能性が最も高いRPF読み取りを選択するために、シーケンシング読み取りの長さを調べ、既知の翻訳遺伝子上にマッピングされたRPFを使用してメタジーン解析を実施した。リードの長さの頻度分布は、ほとんどのRPFが25〜35nt(図1A)であり、予想通りリボソームによってカバーされるヌクレオチド配列に対応することを示した。異なる長さのRPFのPサイト位置は、それらの5'末端から注釈付き開始コドンおよび終止コドンまでの距離を調べることによって決定された(図1B)。RPFは28-32nt以内の読み取りで強い3-nt周期性を示し、Pサイトは+12nt(補足ファイル1)にあった。
RiboCodeは、正準開始コドン(AUG)または代替開始コドン(オプション、例えばCUGおよびGUG)から次の終止コドンまでの候補ORFを検索する。次に、定義された範囲内のRPFのマッピング結果に基づいて、RiboCodeは、インフレームRPFの数(すなわち、 各コドンの第1ヌクレオチドに割り当てられたそれらのPサイト)がアウトオブフレームRPFの数(すなわち、各コドンの第2または第3ヌクレオチドに割り当てられたそれらのPサイト)よりも大きいかどうかを評価することによって、3−nt周期性を評価する。p<が0.05のORFを翻訳する可能性のある13,120の遺伝子を同定し、そのうち10,394の遺伝子(70.8%)が注釈付きORFをコードする遺伝子、168(1.1%)のdORFをコードする遺伝子、509(3.5%)のuORFをコードする遺伝子、上流または下流のORFをコードする遺伝子の939(6.4%)が既知の注釈付きORFと重複(Overlapped)、および新規ORFをコードするタンパク質コード遺伝子が68(0.5%)、および新規ORFをコードする非コード遺伝子として以前に割り当てられた2,601(17.7%)が同定された(図2 および 補足ファイル3)
異なるORFのサイズを比較すると、uORFおよび重複ORFは、注釈付きORF(〜1,771nt)よりも短い(それぞれ平均195および188nt)ことが示された。同じ傾向は、新規ORF(新規PCGおよび新規非PCGSについてそれぞれ平均670および385nt)およびdORF(〜671nt)についても観察された(図3)。一緒に、RiboCodeによって同定されたそれらの非正規ORF(注釈なし)は、既知の注釈付きORFよりも小さいペプチドをコードする傾向があった。
翻訳の過程におけるEIF3の機能を評価するために、各ORFについて相対RPFカウントを計算した。その結果、uORFのリボソーム密度は、EIF3E欠損細胞では対照細胞よりも有意に高いことが示唆された(図4)。多くのuORFが下流のコードORFの翻訳に阻害効果を発揮することが報告されたので、我々はさらに、 EIF3E ノックダウンが開始コドンの下流のRPFsのグローバル密度を変化させるかどうかを調べた(図5)。多くのORFのプロファイルをアライメントしてから平均化したメタジーン解析では、開始コドンの下流のコドン25と75の間でリボソームの塊が失速していることが明らかになり、EIF3E欠損細胞では翻訳伸長が早期にブロックされる可能性が示唆された。EIF3Eがない場合の、ORFのシグナル対ノイズ比または翻訳効率の変化がuORF RPKMの増加およびコドン25〜75間のリボソームの蓄積に寄与するかどうか、すなわち、EIF3Eのないサンプル中の1)汚染が少ない(または良好なライブラリー品質)または2)アクティブな翻訳(またはリボソームの一時停止)がuORFおよび定義された領域におけるより多くの読み取りをもたらすかどうかを調べるために、さらなる調査が正当化される。第 25および第75コ ドン。
最後に、RiboCodeは、RPFの3nt周期性パターンと密度を調べるのに役立つ、所望のORF上のRPFのPサイトの密度の視覚化も提供する。たとえば、 図 6 は、 PSMA6 の uORF と SENP3-EIF4A1 の dORF の RPF 密度を示しています。両方とも、公開されたプロテオミクスデータ23 (データは示さず)によって検証された。
図1:シーケンシング読み取りおよびP部位位置の評価。 (A)複製1(si-eIF3e-1)におけるEIF3E欠損細胞におけるリボソーム保護断片(RPF)の長さ分布;(B)既知の開始コドン(上段)および終止コドン(下段)の周りのそれらの密度に基づいて29ntのRPFのPサイト位置を推測する。 この図の拡大版を表示するには、ここをクリックしてください。
図2:すべてのサンプルを一緒に使用してRiboCodeによって同定された異なるタイプのORFを保有する遺伝子の割合。 略語: ORF = オープンリーディングフレーム;dORF = ダウンストリーム ORF;PCG = タンパク質コード遺伝子;非PCG = 非タンパク質コード遺伝子;uORF = アップストリーム ORF. この図の拡大版を表示するには、ここをクリックしてください。
図3:異なるORFタイプの長さ分布 略語: ORF = オープンリーディングフレーム;dORF = ダウンストリーム ORF;PCG = タンパク質コード遺伝子;非PCG = 非タンパク質コード遺伝子;uORF = アップストリーム ORF;nt = ヌクレオチド。 この図の拡大版を表示するには、ここをクリックしてください。
図4:対照細胞とEIF3E欠損細胞との間の異なるORFタイプの正規化された読み取りカウントの比較 。 p値はウィルコクソン符号付き順位検定によって決定された。略語: ORF = オープンリーディングフレーム;dORF = ダウンストリーム ORF;PCG = タンパク質コード遺伝子;非PCG = 非タンパク質コード遺伝子;uORF = アップストリーム ORF;RPKM = マップされた読み取り 100 万回あたりのキロベースあたりの読み取り数。siRNA = 小さな干渉RNA;si-Ctrl = コントロールsiRNA;si-eIF3e = EIF3E を標的とする siRNA。 この図の拡大版を表示するには、ここをクリックしてください。
図5:注釈付きORFの開始コドンの下流の25〜75番目の コドンにおけるリボソームの失速を示すメタジーン解析。 略語: ORF = オープンリーディングフレーム;siRNA = 小さな干渉RNA;si-Ctrl = コントロールsiRNA;si-eIF3e = EIF3Eを標的とするsiRNA;A. U.、任意のユニット。 この図の拡大版を表示するには、ここをクリックしてください。
図6:マイクロペプチドをコードする例ORFのP部位密度プロファイル。 (A)転写産物ENST00000622405上の注釈付きCDSに対する予測uORFのP部位密度およびその位置;(b) A と同じであるが転写産物ENST00000614237上の予測されたdORFについても同様である。ボトムパネルは、予測されたuORF(A)またはdORF(B)の拡大図を示す。赤いバー = フレーム内読み取り。緑と青のバー = オフフレーム読み取り。略語: ORF = オープンリーディングフレーム;dORF = ダウンストリーム ORF;uORF = アップストリーム ORF;CDS = コード配列。 この図の拡大版を表示するには、ここをクリックしてください。
補足情報:2つのp値間の依存性の評価とリボコードの結果(例としてATF4のuORF)の説明。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 1: RPF と P サイト位置の選択された長さを定義する RiboCode の構成ファイル。 このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 2: 予測された ORF の情報を含む RiboCode 出力ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル3:リボコード出力の基本統計を行うためのRスクリプトファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 4: 補足ファイル 1 から変更された構成ファイル (RiboMiner 用)。このファイルをダウンロードするには、ここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
リボソームプロファイリングは、細胞におけるリボソームの作用をゲノムスケールで研究する前例のない機会を提供します。リボソームプロファイリングデータによって運ばれる情報を正確に解読することで、遺伝子または転写産物のどの領域が積極的に翻訳されているかについての洞察が得られる可能性があります。このステップバイステップのプロトコルは、パッケージのインストール、データ準備、コマンドの実行、結果の説明、データの視覚化など、RiboCodeを使用してリボソームプロファイリングデータを詳細に分析する方法に関するガイダンスを提供します。RiboCodeの解析結果は、翻訳が広範に行われ、コード遺伝子の注釈なしORFおよび以前は非コーディングであると考えられていた多くの転写産物で起こることを示した。下流の解析は、翻訳が起こるにつれて、リボソームが予測されたORFに沿って3ヌクレオチドステップで移動するという証拠を提供しました。しかし、翻訳の過程や産生されたペプチドが何らかの機能を果たすかどうかは不明である。それにもかかわらず、ゲノム上のORFを翻訳する正確な注釈は、これまで特徴付けられていなかった転写産物の機能を特定するエキサイティングな機会を生み出す可能性があります31。
リボソームプロファイリングデータを用いた各ORFのコードポテンシャルの予測は、ORFの開始コドンから終止コドンまでの各コドン上のPサイト密度の3-nt周期性に大きく依存する。したがって、異なる長さの読み取りのPサイト位置を正確に検出する必要があります。このような情報は、リボソームプロファイリングデータによって直接提供されるものではないが、RPFの5'末端と注釈付き開始コドンまたは終止コドンとの間の距離から推測することができる(プロトコルステップ5.3)。GTFファイル内に既知の開始/停止コドンの注釈(新しくアセンブルされたゲノムなど)がないと、読み取りの正確なPサイト位置が他の手段によって決定されない限り、RiboCodeが下流ステップを実行できない可能性があります。ほとんどの場合、リボソーム結合断片のサイズおよびそれらのP部位位置は一定であり、例えば、ヒト細胞における読み取りの5'末端から28〜30ntの長さおよび+12ntである。RiboCodeでは、経験に基づいてPサイトの位置を定義するために、特定の範囲の読み取りを選択できます。しかしながら、環境条件(例えば、ストレスまたは刺激)または実験手順(例えば、ヌクレアーゼ、緩衝液、ライブラリー調製、 およびシーケンシング)が変更された場合、RPF読み取りの長さおよびそれらのP部位の位置の両方が異なる可能性がある。したがって、各サンプルに対して メタプロット (プロトコルステップ5.3)を実行して、最も信頼性の高いRPF(つまり、3ntの周期性パターンを表示する読み取り)を抽出し、異なる条件でのPサイト位置を決定することをお勧めします。これらの操作は メタプロット 関数を使用して自動的に実行できますが、多くの場合、ほぼ完全なフレーミングまたはフェージングを示す読み取りのごく一部のみが、厳密な選択基準と統計テストに合格します。したがって、特定のパラメータ、特に "-f0_percent"を緩めてから、各長さの読み取りの3-nt周期性を視覚的に検査し、特にライブラリの品質が悪い場合は、それに応じてより多くの読み取りを含めるように設定ファイルを手動で編集する必要があります(プロトコルステップ5.3)。
RiboCodeは、正準または非正準の開始コドン(NUG)から次の終止コドンまでの候補ORFを検索します。終止コドンの上流に複数の開始コドンを有する転写産物について、最も可能性の高い開始コドンは、2つの隣接する開始コドン間にマッピングされたRPF読み取りの3−nt周期性を評価するか、または単にオフフレームRPF読み取りよりも多くのインフレームを有する上流開始コドンを選択することによって決定される。このような戦略の限界は、開始コドン領域に整列した読み取りがまばらであるか、または存在しない場合、実際の開始コドンが誤認される可能性があることである。幸いなことに、グローバル翻訳開始シーケンシング(GTI-seq)32 や定量的翻訳開始シーケンシング(QTI-seq)33などの最近の戦略は、翻訳開始部位を見つけるためのより直接的な方法を提供します。NUGsについては、効率的な開始コドンとしての妥当性を調査するために、より多くの研究が依然として必要とされている。
また、RiboCodeの新しいアップデートをリリースし、3つの新機能を追加しました:1)最も長いもの以外のトランスクリプトに関連する場所に応じて割り当てられた他の潜在的なORFタイプを報告します。2) 2 つのアウトフレームでの RPF 読み取りのテストが独立していない場合に、結合された p 値を調整するオプションを提供します ( 補足情報の詳細な説明を参照)。3)複数の検定に対してp値補正を行い、翻訳ORFをより厳密にスクリーニングすることができます。
RiboCodeは、RPF読み取り密度の3nt周期性を評価することによって、積極的に翻訳するORFを識別するため、極端に短いORFには一定の制限があります(例えば、3コドン未満)。Spealmanらは、RiboCodeのパフォーマンスをuORF-seqrと比較し、60nt未満のuORFはデータセットでRiboCodeによって予測されていないと報告した34。以前のバージョンのRiboCodeのORFサイズ選択(-m)のパラメータが正しく設定されていないと主張します。更新された RiboCode で、この引数のデフォルト値を 5 に変更しました。
RiboCodeは、同定されたORFを2つのファイルに報告する:同じ遺伝子の異なる転写産物からの冗長なORFを含むすべてのORFを含む「RiboCode_ORFs_result.txt」。「RiboCode_ORFs_result_collapsed.txt」(補足ファイル2)は、同じ終止コドンを有するが異なる開始コドンを有する重複ORFs、すなわち、同じリーディングフレーム内に最も上流の開始コドンを保有するものが保持されるであろう。どちらのファイルでも、検出されたORFは、既知のCDSとの相対位置に応じて、「新規」翻訳ORFまたは他の異なるタイプに分類されます(RiboCode論文22 またはRiboCodeウェブサイト35のORFタイプの詳細な説明を参照)。我々は、遺伝子ATF4の予測uORFを例に挙げてRiboCode出力を解釈する方法を示した(補足情報)。RiboCodeはまた、さまざまな種類のORFを含む遺伝子の数をカウントし、それらをそのパーセンテージとともにプロットします(図2)。
ある研究では、発現しているが翻訳的に静止している遺伝子の一部は、酸化ストレス時にペプチドに翻訳するために活性化され得ることが報告されており12、おそらく条件依存的にのみ翻訳される可能性のある他のORFが存在することを示している。RiboCodeは、このプロトコル(ステップ5.4および6.1)で実証されているように、異なる実験条件に対して別々に(例えば 、si−Ctrlまたはsi−eIF3e)または共同で行うことができる。「merged_config.txt」で選択した読み取りの長さとPサイト位置を定義することによって、複数のサンプルを1つの実行に多重化することは、各サンプルを個別に処理するよりもいくつかの利点があります。まず、単一サンプルに存在するバイアスを低減します。次に、プログラムの実行時間を節約します。最後に、統計を実行するのに十分なデータを提供します。したがって、理論的には、シングルサンプルモードよりも、特にシーケンシングカバレッジが低く、バックグラウンドノイズが高いサンプルに対して、より良好に動作します。異なる条件間で予測ORFに割り当てられたRPFの数(例えば、si-eIF3e対si-Ctrl)のさらなる定量化および比較により、コンテキスト依存ORFを発見したり、ORFの翻訳調節を探求したりすることができます。
ORFの開始と終了にリボソームが蓄積するため、「翻訳ランプ」と呼ばれる現象は、最初の15コドンと最後の5コドンに割り当てられたRPFを読み取りカウントから除外して、開始率の違いに偏る差動ORF翻訳の分析を避けるために、3,5、36。これらの結果は、uORFsタイプの豊富さが対照細胞よりもEIF3のない細胞で高く、これは能動的に翻訳されるリボソームのレベルの上昇によって(または少なくとも部分的に)引き起こされる可能性があることを示唆した。開始コドン周辺のRPF密度のメタアナリシスはまた、初期の翻訳伸長がEIF3Eによって調節されていることを示唆した。ORF内のRPF読み取りを単にカウントするだけでは、特に翻訳伸長がひどくブロックされている場合、翻訳定量には正確ではないことに注意してください。
要約すると、このプロトコルは、マイクロペプチドをコードするものを含む、あらゆるサイズの新規翻訳ORFを同定するためにRiboCodeを容易に適用できることを示している。研究コミュニティにとって、異なる生理学的文脈や実験条件でさまざまな種類のORFを発見することは貴重なツールとなるでしょう。これらのORFからのタンパク質またはペプチド産物のさらなる検証は、リボソームプロファイリングの将来の用途の開発に有用であろう。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは、開示する利益相反はありません。
Acknowledgments
著者らは、西安交通大学のHPCCプラットフォームによって提供される計算リソースからの支援に感謝したい。Z.X.は、西安交通大学のヤング・トップ・ノッチ・タレント・サポート・プランに感謝の意を表します。
Materials
Name | Company | Catalog Number | Comments |
A computer/server running Linux | Any | - | - |
Anaconda or Miniconda | Anaconda | - | Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html |
R | R Foundation | - | https://www.r-project.org/ |
Rstudio | Rstudio | - | https://www.rstudio.com/ |
References
- Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
- Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
- Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
- Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
- Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
- Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
- Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
- Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
- Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
- Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
- Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
- Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
- Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
- Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
- Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
- Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
- Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
- Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
- Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
- Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
- Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
- Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
- Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
- Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
- Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
- Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
- Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
- Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
- Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
- Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
- Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
- Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
- Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
- Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
- Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
- Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).