Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

데 노보 리보솜 프로파일링 데이터를 사용하여 능동적으로 번역된 오픈 리딩 프레임 식별

Published: February 18, 2022 doi: 10.3791/63366
* These authors contributed equally

Summary

리보솜을 번역하면 코돈 당 세 개의 뉴클레오티드를 펩티드로 해독합니다. 리보솜 프로파일링에 의해 포착된 mRNA를 따른 그들의 움직임은 특징적인 삼중항 주기성을 나타내는 발자국을 생성한다. 이 프로토콜은 RiboCode를 사용하여 리보솜 프로파일링 데이터에서 이 두드러진 기능을 해독하여 전체 전사체 수준에서 활발하게 번역된 열린 판독 프레임을 식별하는 방법을 설명합니다.

Abstract

개방 판독 프레임(ORF), 특히 작은 펩티드를 인코딩하고 특정 생리학적 맥락 하에서 활발히 번역되는 프레임의 확인은 문맥-의존적 경쇄의 포괄적인 주석에 매우 중요하다. 리보솜 프로파일링은 RNA에서 리보솜을 번역하는 결합 위치와 밀도를 검출하는 기술로, 게놈 전체 규모에서 번역이 일어나는 곳을 신속하게 발견할 수 있는 방법을 제공합니다. 그러나 생물 정보학에서 리보솜 프로파일 링을위한 번역 ORF를 효율적이고 포괄적으로 식별하는 것은 사소한 작업이 아닙니다. 여기에 설명된 RiboCode라는 사용하기 쉬운 패키지는 리보솜 프로파일링 데이터의 왜곡되고 모호한 신호로부터 모든 크기의 ORF를 능동적으로 번역하도록 설계되었습니다. 이전에 게시된 데이터 세트를 예로 들어 이 문서에서는 원시 데이터의 전처리부터 최종 출력 결과 파일의 해석에 이르기까지 전체 RiboCode 파이프라인에 대한 단계별 지침을 제공합니다. 또한, 주석이 달린 ORF의 번역률을 평가하기 위해, 각 ORF에 대한 리보솜 밀도의 시각화 및 정량화를 위한 절차도 상세히 설명된다. 요약하면, 본 기사는 번역, 작은 ORF 및 펩티드와 관련된 연구 분야에 유용하고시기 적절한 지침입니다.

Introduction

최근에, 연구의 증가는 긴 비 코딩 RNA (lncRNAs) 1,2,3,4,5,6,7,8과 같은 비 코딩 유전자와 이전에 주석이 달린 유전자의 ORFs에서 번역 된 펩티드의 광범위한 생산을 밝혀 냈습니다. 이들 번역된 ORF는 환경 변화, 스트레스 및 세포 분화에 반응하기 위해 세포에 의해 조절되거나 유도된다1,8,9,10,11,12,13. 일부 ORF의 번역 제품은 개발 및 생리학의 다양한 생물학적 과정에서 중요한 규제 역할을 수행하는 것으로 입증되었습니다. 예를 들어, Chng et al.14는 심혈관 발달에 중요한 Elabela (Ela, Apela / Ende / Toddler라고도 함)라는 펩티드 호르몬을 발견했습니다. Pauli et al.은 Ela가 초기 물고기 배아에서 세포 이동을 촉진하는 미토겐 역할을한다고 제안했습니다.15. Magny et al.은 칼슘 수송을 조절하고 초파리 심장의 규칙적인 근육 수축에 영향을 미치는 30 개 미만의 아미노산의 두 가지 마이크로 펩타이드를보고했습니다10.

얼마나 많은 그러한 펩티드가 게놈에 의해 암호화되는지, 그리고 그것들이 생물학적으로 관련이 있는지는 불분명하다. 따라서, 이러한 잠재적으로 코딩되는 ORF들의 체계적인 식별은 매우 바람직하다. 그러나, 진화적 보존16,17 및 질량 분광법18,19와 같은 전통적인 접근법을 사용하여 이들 ORFs(즉, 단백질 또는 펩티드)의 생성물을 직접 결정하는 것은 두 접근법의 검출 효율이 생산된 단백질 또는 펩티드 길이, 풍부도, 및 아미노산 조성에 의존하기 때문에 도전적이다. 뉴클레오티드 분해능에서 mRNAs에 대한 리보솜 점유를 확인하기 위한 기술인 리보솜 프로파일링의 출현은 그들의 길이와 조성에 관계없이 상이한 전사체3,20,21 코딩 잠재력을 평가하는 정확한 방법을 제공하였다. 리보솜 프로파일링을 사용하여 능동적으로 ORF를 번역하는 것을 확인하기 위해 중요하고 빈번하게 사용되는 특징은 시작 코돈에서 정지 코돈까지 mRNA에 대한 리보솜의 발자국의 3-뉴클레오티드(3-nt) 주기성이다. 그러나 리보솜 프로파일링 데이터에는 ORF를 따른 낮은 시퀀싱 및 희소 시퀀싱 판독, 높은 시퀀싱 노이즈 및 리보솜 RNA(rRNA) 오염 등 몇 가지 문제가 있는 경우가 많습니다. 따라서, 이러한 데이터에 의해 생성된 왜곡되고 모호한 신호는 mRNA에 대한 리보솜의 발자국의 3-nt 주기성 패턴을 약화시키고, 이는 궁극적으로 고신뢰도 번역된 ORF의 식별을 어렵게 만든다.

"RiboCode"라는 패키지는 수정된 Wilcoxon 서명 순위 테스트 및 P-값 통합 전략을 채택하여 ORF가 오프 프레임 RPFs22보다 훨씬 더 많은 프레임 내 리보솜 보호 단편(RPF)을 가지고 있는지 여부를 조사했습니다. 시뮬레이션된 실제 리보솜 프로파일링 데이터에서 트랜스라톰의 de novo 주석에 대해 매우 효율적이고 민감하며 정확한 것으로 입증되었습니다. 여기에서는 이 도구를 사용하여 이전 연구23에서 생성된 원시 리보솜 프로파일링 시퀀싱 데이터 세트에서 잠재적인 번역 ORF를 탐지하는 방법을 설명합니다. 이들 데이터세트는 대조군(si-Ctrl) 및 EIF3E(si-eIF3e) 소형 간섭 RNA(siRNAs)로 형질감염된 MCF-10A 세포의 리보솜 점유 프로파일을 비교함으로써 번역에서 EIF3 서브유닛 "E"( EIF3E )의 기능을 탐색하는데 사용되었다. 이러한 예제 데이터 세트에 RiboCode를 적용함으로써 잠재적으로 작은 펩티드 또는 단백질을 인코딩하는 5,633개의 새로운 ORF를 발견했습니다. 이들 ORF는 업스트림 ORF(uORF), 다운스트림 ORF(dORF), 중첩된 ORF, 신규한 단백질 코딩 유전자(신규한 PCGs)로부터의 ORF, 및 신규한 비단백질 코딩 유전자(신규한 NonPCGs)로부터의 ORF를 포함하는 코딩 영역에 대한 그들의 위치에 기초하여 다양한 유형으로 분류되었다. uORFs에 대한 RPF 판독 밀도는 대조군 세포에 비해 EIF3E 결핍 세포에서 유의하게 증가하였으며, 이는 적어도 부분적으로 능동적으로 번역하는 리보솜의 농축에 의해 야기될 수 있다. EIF3E 결핍 세포의 25번째 코돈으로부터 75번째 코돈까지의 영역에서의 국소화된 리보솜 축적은 초기 단계에서 번역 신장의 막힘을 나타내었다. 이 프로토콜은 또한 식별된 ORF에서 리보솜 발자국의 3-nt 주기성 패턴을 조사하기 위해 원하는 영역의 RPF 밀도를 시각화하는 방법을 보여줍니다. 이러한 분석은 ORF를 번역하고 번역 규정을 연구하는 RiboCode의 강력한 역할을 보여줍니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 환경 설정 및 리보코드 설치

  1. Linux 터미널 창을 열고 conda 환경을 만듭니다.
    conda create -n RiboCode python=3.8
  2. 생성 된 환경으로 전환하고 RiboCode 및 종속성을 설치하십시오.
    콘다 리보 코드 활성화
    conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. 데이터 준비

  1. 게놈 참조 파일을 가져옵니다.
    1. 참조 순서를 보려면 https://www.ensembl.org/index.html 의 앙상블 웹 사이트로 이동하여 상단 메뉴 다운로드 및 왼쪽 메뉴 FTP 다운로드를 클릭하십시오. 제시된 표에서 열 DNA(FASTA)종(Species)이 인간인 행에서 FASTA를 클릭합니다. 열린 페이지에서 Homo_sapiens의 링크를 복사합니다. GRCh38.dna.primary_assembly.fa.gz 다음 터미널에서 다운로드하여 압축을 풉니 다.
      wget -c \
      http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
      gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
    2. 참조 주석을 보려면 마지막으로 연 웹 페이지의 Gene 세트 열에서 GTF를 마우스 오른쪽 단추로 클릭합니다. Homo_sapiens의 링크를 복사합니다. GRCh38.104.gtf.gz를 사용하여 다운로드하고 다음을 사용하여 다운로드하십시오.
      wget -c \
      http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
      gzip -d Homo_sapiens. GRCh38.104.gtf.gz

      참고: 세 가지 계층 구조로 구성된 게놈 주석을 포함하므로 앙상블 웹 사이트에서 GTF 파일을 가져오는 것이 좋습니다. 즉, 각 유전자에는 엑손 및 선택적 번역(예: 코딩 시퀀스 [CDS], 번역 시작 사이트, 번역 종료 사이트)이 포함된 전사체가 포함되어 있습니다. 예를 들어, UCSC 또는 NCBI에서 얻은 GTF 파일과 같이 유전자 또는 전사체의 주석이 누락된 경우 GTFupdate를 사용하여 완전한 부모-자식 계층 구조 주석이 있는 업데이트된 GTF를 생성합니다: GTFupdate original.gtf > updated.gtf. .gff 형식의 주석 파일의 경우 AGAT 도구 kit24 또는 다른 도구를 사용하여 .gtf 형식으로 변환합니다.
  2. rRNA 서열을 가져옵니다.
    1. https://genome.ucsc.edu 에서 UCSC 게놈 브라우저를 열고 도구 |를 클릭하십시오. 드롭다운 목록의 테이블 브라우저입니다.
    2. 열린 페이지에서 클래드에 대한 포유 동물 , 게놈에 대한 인간 , 그룹에 대한 모든 테이블, 테이블에 대한 rmask 및 영역에 대한 게놈 을 지정합니다. 필터의 경우 만들기를 클릭하여 페이지로 이동하고 rRNA와 일치하는 repClass를 설정합니다.
    3. 제출을 클릭한 다음 출력 형식을 시퀀스로 설정하고 출력 파일 이름을 hg38_rRNA.fa로 설정합니다. 마지막으로 출력 가져 오기를 클릭합| rRNA 서열을 검색하기 위한 서열을 얻는다.
  3. SRA(시퀀스 읽기 아카이브)에서 리보솜 프로파일링 데이터 세트를 가져옵니다.
    1. si-eIF3e 치료 그룹의 복제 샘플을 다운로드하고 이름을 바꿉니다.
      패스트 q 덤프 SRR9047190 SRR9047191 SRR9047192
      mv SRR9047190.fastq si-eIF3e-1.fastq
      mv SRR9047191.fastq si-eIF3e-2.fastq
      mv SRR9047192.fastq si-eIF3e-3.fastq
    2. 대조군의 복제 샘플을 다운로드하고 이름을 바꿉니다.
      패스트 q 덤프 SRR9047193 SRR9047194 SRR9047195
      mv SRR9047193.fastq si-Ctrl-1.fastq
      mv SRR9047194.fastq si-Ctrl-2.fastq
      mv SRR9047195.fastq si-Ctrl-3.fastq
      참고: 이러한 예시 데이터세트에 대한 SRA 수탁 ID는 GSE131074를 검색하여 GEO(Gene Expression Omnibus) 웹사이트25 로부터 입수하였다.

3. 어댑터를 트림하고 rRNA 오염을 제거하십시오.

  1. (선택 사항) 시퀀싱 데이터에서 어댑터를 제거합니다. 이 경우와 같이 어댑터 시퀀스가 이미 트리밍된 경우 이 단계를 건너뜁니다. 그렇지 않으면 cutadapt를 사용하여 읽기에서 어댑터를 트리밍합니다.
    i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    하다
    cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
    -o ${i}_trimmed.fastq ${i}.fastq
    수행
    참고: -a 파라미터 이후의 어댑터 서열은 cDNA 라이브러리 준비에 따라 달라집니다. 15보다 짧은 판독값( -m으로 제공됨)은 리보솜으로 보호된 단편이 일반적으로 이 크기보다 길기 때문에 폐기됩니다.
  2. 다음 단계를 사용하여 rRNA 오염을 제거하십시오.
    1. 인덱스 rRNA 참조 서열:
      bowtie-build -f hg38_rRNA.fa hg38_rRNA
    2. rRNA에서 발생하는 판독을 배제하기 위해 판독을 rRNA 참조에 정렬합니다.
      i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
      하다
      bowtie -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
      --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
      수행
      -p는 작업을 병렬로 실행하기 위한 스레드 수를 지정합니다. RPF 판독의 비교적 작은 크기를 고려하여, 보고된 정렬이 최선임을 보장하기 위해 다른 인자(예를 들어, -n, -y, -a, -norc, --best, --strata 및 -l)가 지정되어야 한다. 자세한 내용은 Bowtie 웹 사이트26을 참조하십시오.

4. 깨끗한 읽기를 게놈에 정렬하십시오.

  1. 게놈 색인을 만듭니다.
    mkdir STAR_hg38_genome
    STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
  2. 깨끗한 판독(rRNA 오염 없음)을 생성된 참조에 정렬합니다.
    i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    하다
    STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
    수행
    참고: 템플릿되지 않은 뉴클레오타이드는 역전사효소27에 의해 판독된 각각의 5' 말단에 자주 추가되며, 이는 기본적으로 소프트 클리핑을 수행하기 때문에 STAR에 의해 효율적으로 트리밍될 것이다. STAR에 대한 파라미터는 STAR 매뉴얼28에 설명되어 있습니다.
  3. 정렬 및 인덱스 정렬 파일.
    i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    하다
    samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
    -o ${i}. Aligned.toTranscriptome.out.sorted.bam \
    ${i}. Aligned.toTranscriptome.out.bam
    samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
    samtools index ${i}. Aligned.sortedByCoord.out.bam
    수행

5. RPF의 크기 선택 및 P 사이트 식별

  1. 성적 증명서 주석을 준비합니다.
    prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
    -f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
    참고: 이 명령은 GTF 파일에서 mRNA 전사체의 필수 정보를 수집하고 FASTA 파일에서 모든 mRNA 전사체에 대한 서열을 추출합니다(각 전사체는 GTF 파일에 정의된 구조에 따라 엑손을 병합하여 조립됩니다).
  2. 특정 길이의 RPF를 선택하고 해당 P 사이트 위치를 식별합니다.
    i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    하다
    metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
    -o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
    수행
    참고: 이 명령은 주석이 달린 번역 시작(또는 중지) 코돈 주위에 각 길이의 정렬된 읽기의 5' 끝의 집계 프로파일을 플로팅합니다. 판독 길이-의존적 P-부위는 주요 판독들의 5' 말단과 시작 코돈 사이의 오프셋 거리의 분포 플롯들(예를 들어, 도 1B)을 조사함으로써 수동으로 결정될 수 있다. RiboCode는 또한 각 샘플에 대한 구성 파일을 생성하며, 여기서 중요한 3-nt 주기성 패턴을 표시하는 판독의 P 사이트 위치가 자동으로 결정됩니다. -f0_percent, -pv1 및 -pv2 매개 변수는 판독 프레임에서 보강된 RPF 읽기를 선택하기 위한 비율 임계값 및 p-값 컷오프를 정의합니다. 이 예에서, 29, 30 및 31 nt 판독의 5' 말단으로부터의 +12, +13, 및 +13 뉴클레오티드는 각각의 구성 파일에서 수동으로 정의된다.
  3. 각 샘플의 구성 파일을 편집하고 병합합니다.
    참고: 고유한 ORF의 합의 집합을 생성하고 후속 분석을 수행하기 위한 읽기의 충분한 범위를 보장하기 위해 이전 단계에서 모든 샘플의 선택된 읽기가 병합됩니다. merged_config.txt 파일 (보충 파일 1)에 정의된 특정 길이의 읽기와 해당 P-사이트 정보는 다음 단계에서 ORF의 번역 잠재력을 평가하는 데 사용됩니다.

6. De novo는 ORF를 번역하는 데 주석을 달았습니다.

  1. 리보코드를 실행합니다.
    리보 코드 -a RiboCode_annot -c merged_config.txt -l 예 -g \
    -O RiboCode_ORFs_result -S ATG -m 5 -A CTG, GTG, TTG

    이 명령의 중요한 매개 변수는 다음과 같습니다.
    -c, 입력 파일의 경로와 선택한 읽기 및 해당 P 사이트의 정보를 포함하는 구성 파일.
    -l, 정지 코돈의 상류에 다수의 시작 코돈을 갖는 전사체에 대해, 가장 긴 ORFs(가장 원위 시작 코돈으로부터 정지 코돈까지의 영역)가 그들의 번역 잠재력을 평가하기 위해 사용되는지 여부. no로 설정되면, 시작 코돈이 자동으로 결정될 것이다.
    -s, ORFs 식별에 사용되는 정준 개시 코돈(들).
    -A, ORF 식별을 위해 사용되는 비정준 개시 코돈 (예를 들어, 인간에 대한 CTG, GTG 및 TTG)은 (임의로) 미토콘드리아 또는 다른 종의 핵에서 상이할 수 있다29.
    -m, ORFs의 최소 길이 (즉, 아미노산).
    -o, 예측 ORF의 세부 정보를 포함하는 출력 파일 이름의 접두사입니다 (보충 파일 2).
    -g-b, 예측된 ORF를 각각 gtf 또는 베드 형식으로 출력한다.

7. (선택 사항) ORF 정량화 및 통계

  1. 각 ORF에서 RPF 읽기 횟수를 계산합니다.
    i의 경우 si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    하다
    ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
    -r ${i}. 정렬.정렬ByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
    -o ${i}_ORF.counts -s yes -c intersection-strict
    수행
    참고: ORF의 시작과 끝 주위에 잠재적인 누적 리보솜을 제외하기 위해, 처음 15 개( -f로 지정됨)와 마지막 5개의 코돈( -l로 특정)에 할당된 판독 횟수는 계산되지 않습니다. 선택적으로 카운트된 RPF의 길이는 25 ~ 35nt (RPF의 일반적인 크기) 범위로 제한됩니다.
  2. RiboCode를 사용하여 검출된 ORF의 기본 통계를 계산합니다.
    Rscript RiboCode_utils. R
    참고: RiboCode_utils. R (보충 파일 3)은 리보코드 출력에 대한 일련의 통계를 제공하며, 예를 들어, 식별된 ORF의 수를 세고, ORF 길이의 분포를 보고, 정규화된 RPF 밀도를 계산한다(즉, RPKM, 백만 개의 매핑된 판독 당 킬로베이스당 판독).

8. (선택 사항) 예측된 ORF의 시각화

  1. ENSG00000100902_35292349_35292552_67로부터 그의 전사체 상의 원하는 ORF (예를 들어, RiboCode_ORFs_result_collapsed.txt)에 대한 개시 및 정지 코돈 상대적 위치를 얻는다 (보충 파일 3). 그런 다음 ORF에서 RPF 읽기의 밀도를 플로팅합니다.
    plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
    -s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
    여기서 - s-e는 ORF를 플로팅하는 변환 시작 및 중지 위치를 지정합니다. --start-codon은 그림 제목에 나타날 ORF의 시작 코돈을 정의합니다. -o 는 출력 파일 이름의 접두사를 정의합니다.

9. (선택적) 리보마이너를 이용한 메타유전자 분석

참고: 아래 단계에 따라 EIF3E 녹다운이 확인된 주석이 달린 ORF의 번역에 미치는 영향을 평가하기 위해 메타유전자 분석을 수행하십시오.

  1. RiboCode에 의해 생성된 주석 파일을 기반으로 각 유전자에 대해 가장 긴 전사체를 추출하는 RiboMiner에 대한 전사체 주석을 생성합니다(단계 5.1).
    OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
    -g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot / transcripts_sequence.fa \
    -o longest.transcripts.info.txt -O all.transcripts.info.txt
  2. RiboMiner에 대한 구성 파일을 준비합니다. RiboCode의 메타플롯 명령으로 생성된 구성 파일을 복사하고(5.4단계) 이름을 "RiboMiner_config.txt"으로 바꿉니다. 그런 다음 보충 파일 4에 표시된 형식에 따라 수정하십시오.
  3. 리보마이너를 이용한 메타유전자 분석
    1. MetageneAnalysis를 사용하여 전사체 전체에서 RPF의 밀도에 대한 집계 및 평균 프로파일을 생성합니다.
      메타 유전자 분석 -f RiboMiner_config.txt -c longest.transcripts.info.txt \
      -o MA_normed -U 코돈 -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm yes \
      -y 100 --유형 UTR
      중요한 파라미터가 있는 경우: --type, CDS 또는 UTR 영역 중 하나를 분석; --norm, 판독 밀도를 정규화했는지 여부; -y, 각 전사체에 사용된 코돈의 수; -U, 플롯 RPF 밀도 중 코돈 수준 또는 nt 수준; -u-d는, 시작 코돈 또는 정지 코돈에 대한 분석 영역의 범위를 정의하고; -l, CDS의 최소 길이(즉, 코돈의 수); -M, 전사체 필터링을위한 모드, 카운트 또는 RPKM; 분석을 위해 CDS의 최소 카운트 또는 RPKM을 -n -m 정규화된 영역에서 CDS의 최소 카운트 또는 RPKM; -e, 정규화된 영역으로부터 배제된 코돈의 수.
    2. 대조군 세포와 eIF3 결핍 세포에서 mRNA에 대한 리보솜 점유를 비교하기 위한 pdf 파일 세트를 생성한다.
      PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
      -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
      참고: PlotMetageneAnalysis는 pdf 파일 세트를 생성합니다. MetageneAnalysis 및 PlotMetageneAnalysis의 사용법 에 대한 자세한 내용은 RiboMiner 웹 사이트30에서 확인할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

예시적인 리보솜 프로파일링 데이터세트는 수탁 번호 GSE131074 하에 GEO 데이터베이스에 기탁되었다. 이 프로토콜에 사용 된 모든 파일과 코드는 보충 파일 1-4에서 사용할 수 있습니다. 공개된 리보솜 프로파일링 세트23의 세트에 리보코드를 적용함으로써, 우리는 대조군 및 EIF3E siRNA로 처리된 MCF-10A 세포에서 활발히 번역된 신규한 ORF를 확인했다. 번역 리보솜에 의해 가장 많이 결합될 가능성이 높은 RPF 판독을 선택하기 위해, 시퀀싱 판독의 길이를 조사하고, 알려진 번역 유전자에 매핑된 RPF를 사용하여 메타유전자 분석을 수행하였다. 판독의 길이의 주파수 분포는 대부분의 RPF가 25-35 nt (도 1A)였으며, 이는 예상대로 리보솜에 의해 덮인 뉴클레오티드 서열에 상응한다는 것을 보여주었다. RPF의 서로 다른 길이에 대한 P-사이트 위치는 각각 5' 끝에서 주석이 달린 시작 및 정지 코돈까지의 거리를 조사하여 결정되었습니다 (그림 1B). RPF 읽기는 28-32nt 내에서 강력한 3-nt 주기성을 표시했으며 P 사이트는 +12th nt (보충 파일 1)에 있습니다.

RiboCode는 정준 시작 코돈 (AUG) 또는 대체 시작 코돈 (예를 들어, CUG 및 GUG)에서 다음 정지 코돈까지 후보 ORF를 검색합니다. 그 후, 정의된 범위 내의 RPF들의 맵핑 결과에 기초하여, RiboCode는 인프레임 RPF들의 수(즉, 각 코돈의 첫 번째 뉴클레오티드에 할당된 그들의 P-사이트)가 프레임 밖 RPF들의 수(즉, 각각의 코돈의 두 번째 또는 세 번째 뉴클레오티드에 할당된 그들의 P-사이트)의 수보다 큰지를 평가함으로써 3-nt 주기성을 평가한다. 우리는 p로 ORF를 잠재적으로 번역하는 13,120 개의 유전자<를 확인했으며, 그 중 주석이 달린 ORF를 코딩하는 10,394 개 유전자 (70.8 %), dORF를 코딩하는 유전자 168 개 (1.1 %), uORF를 인코딩하는 유전자 509 개 (3.5 %), 상류 또는 하류 ORF를 코딩하는 유전자가 알려진 주석이 달린 ORF와 중첩 된 939 개 (6.4 %), 새로운 ORF를 코딩하는 단백질 코딩 유전자 68 개 (0.5 %), 새로운 ORF를 코딩하는 비코딩 유전자로 이전에 할당 된 2,601 개 (17.7 %)가 있습니다 (그림 2보충 파일 3)

서로 다른 ORF의 크기를 비교한 결과, uORF와 겹쳐진 ORF는 주석이 달린 ORF(~1,771nt)보다 더 짧다(각각 평균 195 및 188 nt). 새로운 ORF(신규한 PCG 및 신규한 비PCGS의 경우 각각 평균 670 및 385 nt) 및 dORF(~671 nt)에 대해서도 동일한 경향이 관찰되었다(그림 3). 함께, RiboCode에 의해 확인된 이들 비정준 ORF(주석이 없는 ORF)는 알려진 주석이 달린 ORF들보다 작은 펩티드들을 인코딩하는 경향이 있었다.

번역 과정에서 EIF3의 기능을 평가하기 위해 각 ORF에 대해 상대적 RPF 카운트를 계산하였다. 결과는 uORFs의 리보솜 밀도가 대조군 세포에서보다 EIF3E 결핍 세포에서 유의하게 더 높았다는 것을 시사하였다(도 4). 많은 uORF가 다운스트림 코딩 ORF의 번역에 억제 효과를 발휘하는 것으로 보고되었기 때문에, EIF3E 녹다운이 시작 코돈의 하류에 있는 RPF의 글로벌 밀도를 변경하는지 여부를 추가로 조사했습니다(그림 5). 많은 ORF의 프로파일이 정렬되고 평균화 된 메타 유전자 분석은 시작 코돈의 하류 코돈 25와 75 사이에서 리보솜 덩어리가 멈추는 것으로 밝혀졌으며, 이는 번역 신장이 EIF3E 결핍 세포에서 초기에 차단 될 수 있음을 시사한다. ORF의 신호 대 잡음비 또는 번역 효율의 변화가 EIF3E가없는 경우 uORF RPKM의 증가와 코돈 25 ~ 75 사이의 리보솜 축적, 즉 1) 오염 (또는 양호한 라이브러리 품질) 또는 2) EIF3E가없는 샘플의 활성 번역 (또는 리보솜 일시 중지)이 uORF에서 더 많은 판독을 초래하는지 여부 및 그 사이의 정의 된 영역에서 더 많은 판독을 초래하는지 여부를 조사하기 위해 추가 조사가 보증됩니다. 25번째와 75번째 코돈.

마지막으로, RiboCode는 원하는 ORF에서 RPF의 P 사이트 밀도에 대한 시각화를 제공하여 사용자가 RPF의 3-nt 주기성 패턴과 밀도를 검사하는 데 도움이 될 수 있습니다. 예를 들어, 도 6 은 PSMA6의 uORF 및 SENP3-EIF4A1의 dORF 상의 RPF 밀도를 제시한다; 둘 다 공개된 프로테오믹스 데이터23 (데이터는 나타내지 않음)에 의해 검증되었다.

Figure 1
도 1: 시퀀싱 판독 및 P-부위 위치의 평가. (A) 복제 1에서 EIF3E 결핍 세포에서 리보솜 보호 단편 (RPFs)의 길이 분포 (si-eIF3e-1); (B) 알려진 시작 (상단) 및 정지 코돈 (하단) 주위의 밀도에 기초하여 29nt의 RPF의 P 사이트 위치를 추론한다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2: 모든 샘플을 함께 사용하여 RiboCode에 의해 확인된 다양한 유형의 ORF를 보유하는 유전자의 백분율. 약어 : ORF = 오픈 리딩 프레임; dORF = 다운스트림 ORF; PCG = 단백질 코딩 유전자; NonPCG = 비단백질-코딩 유전자; uORF = 업스트림 ORF. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3: 서로 다른 ORF 유형의 길이 분포. 약어 : ORF = 오픈 리딩 프레임; dORF = 다운스트림 ORF; PCG = 단백질 코딩 유전자; NonPCG = 비단백질-코딩 유전자; uORF = 업스트림 ORF; nt = 뉴클레오티드. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
도 4: 대조군과 EIF3E 결핍 세포 사이의 상이한 ORF 유형에 대한 정규화된 판독 카운트의 비교 . p-값은 Wilcoxon 부호 순위 검정에 의해 결정되었다. 약어: ORF = 오픈 리딩 프레임; dORF = 다운스트림 ORF; PCG = 단백질 코딩 유전자; NonPCG = 비단백질-코딩 유전자; uORF = 업스트림 ORF; RPKM = 백만 개의 매핑된 읽기 당 킬로베이스당 읽기; siRNA = 작은-간섭 RNA; si-Ctrl = 대조군 siRNA; si-eIF3e = EIF3E를 표적화하는 siRNA. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 5
도 5: 주석이 달린 ORFs의 시작 코돈의 25-75번째 코돈 하류에서의 리보솜의 스톨을 보여주는 메타유전자 분석. 약어: ORF = 오픈 리딩 프레임; siRNA = 작은-간섭 RNA; si-Ctrl = 대조군 siRNA; si-eIF3e = EIF3E를 표적화하는 siRNA; A. 미국, 모든 단위. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 6
도 6: 마이크로펩티드를 코딩하는 예시적인 ORFs의 P-부위 밀도 프로파일. (A) 전사체 ENST00000622405 상의 주석이 달린 CDS에 대하여 예측된 uORF의 P-부위 밀도 및 그의 위치; (b) A 에서와 동일하지만 전사체 ENST00000614237 상의 예측된 dORF에 대한 것이다. 예측된 uORF(A) 또는 dORF(B)의 확대도를 보여주는 하단 패널. 빨간색 막대 = 프레임 내 읽기; 녹색 및 파란색 막대 = 오프 프레임 읽기. 약어: ORF = 오픈 리딩 프레임; dORF = 다운스트림 ORF; uORF = 업스트림 ORF; CDS = 코딩 시퀀스. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 정보: 두 p-값 사이의 의존성 평가 및 리보코드 결과에 대한 설명(예로서 ATF4의 uORF). 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 1: RPF 및 P 사이트 위치의 선택된 길이를 정의하는 RiboCode의 구성 파일입니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 2: 예측된 ORF의 정보를 포함하는 리보코드 출력 파일. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 3 : RiboCode 출력의 기본 통계를 수행하기위한 R 스크립트 파일. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 4: 보충 파일 1에서 수정된 구성 파일(RiboMiner용). 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

리보솜 프로파일링은 게놈 규모로 세포에서 리보솜의 작용을 연구할 수 있는 전례 없는 기회를 제공합니다. 리보솜 프로파일링 데이터에 의해 전달된 정보를 정확하게 해독하면 유전자 또는 전사체의 어느 영역이 활발히 번역되고 있는지에 대한 통찰력을 얻을 수 있다. 이 단계별 프로토콜은 RiboCode를 사용하여 패키지 설치, 데이터 준비, 명령 실행, 결과 설명 및 데이터 시각화를 포함하여 리보솜 프로파일링 데이터를 자세히 분석하는 방법에 대한 지침을 제공합니다. RiboCode의 분석 결과는 번역이 널리 퍼져 있으며 코딩 유전자의 주석이없는 ORF와 이전에 비 코딩으로 가정 된 많은 전사체에서 발생한다는 것을 나타냅니다. 하류 분석은 리보솜이 번역이 일어날 때 3-뉴클레오티드 단계에서 예측된 ORF를 따라 이동한다는 증거를 제공하였다; 그러나, 번역 과정 또는 생산된 펩티드가 어떤 기능을 수행하는지는 불분명하다. 그럼에도 불구하고, 게놈 상의 ORF를 번역하는 정확한 주석은 이전에 특성화되지 않은 전사체31의 기능을 식별할 수 있는 흥미로운 기회를 야기할 수 있다.

리보솜 프로파일링 데이터를 사용하는 각 ORF에 대한 코딩 잠재력의 예측은 ORF의 정지 코돈에 이르기까지 각 코돈에 대한 P-사이트 밀도의 3-nt 주기성에 크게 의존한다. 따라서 서로 다른 길이의 판독의 P 사이트 위치를 정확하게 감지해야합니다. 이러한 정보는 리보솜 프로파일링 데이터에 의해 직접 제공되는 것이 아니라 RPF의 5' 말단과 주석이 달린 시작 또는 정지 코돈 사이의 거리로부터 추론될 수 있다(프로토콜 단계 5.3). GTF 파일에서 알려진 시작/정지 코돈의 주석이 결여된 경우(예: 새로 조립된 게놈에 대해) 판독의 정확한 P-site 위치가 다른 수단에 의해 결정되지 않는 한 RiboCode가 다운스트림 단계를 실행하지 못할 수 있습니다. 대부분의 경우, 리보솜-결합된 단편의 크기 및 그들의 P-부위 위치는 일정하다, 예를 들어, 28-30 nt 길이와 인간 세포에서 판독의 5' 말단으로부터 +12 nt에서. RiboCode를 사용하면 특정 범위에서 판독을 선택하여 경험을 기반으로 P 사이트 위치를 정의 할 수 있습니다. 그러나, RPF 판독의 길이와 그들의 P-부위의 위치 둘 모두는 환경 조건(예를 들어, 스트레스 또는 자극) 또는 실험 절차(예를 들어, 뉴클레아제, 버퍼, 라이브러리 준비 및 시퀀싱)가 변경되었을 때 상이할 수 있다. 따라서 각 샘플에 대해 메타플롯 (프로토콜 단계 5.3)을 수행하여 가장 신뢰도가 높은 RPF를 추출하고(즉, 3-nt 주기성 패턴을 표시하는 읽기) 서로 다른 조건에서 P-사이트 위치를 결정하는 것이 좋습니다. 이러한 작업은 메타 플롯 함수를 사용하여 자동으로 수행 할 수 있지만 거의 완벽한 프레임 또는 단계적 인 것을 보여주는 소수의 읽기 만 엄격한 선택 기준 및 통계 테스트를 통과합니다. 따라서 특정 매개 변수, 특히 "-f0_percent"을 느슨하게 한 다음 각 길이에서 읽기의 3-nt 주기성을 시각적으로 검사하고 구성 파일을 수동으로 편집하여 특히 라이브러리 품질이 좋지 않은 경우 그에 따라 더 많은 읽기를 포함해야합니다 (프로토콜 단계 5.3).

RiboCode는 정식 또는 비정준 시작 코돈(NUGs)에서 다음 정지 코돈까지 후보 ORF를 검색합니다. 정지 코돈의 상류에 다수의 시작 코돈을 갖는 전사체의 경우, 가장 가능성 있는 시작 코돈은 두 개의 이웃하는 시작 코돈 사이에 매핑된 RPF 판독의 3-nt 주기성을 평가하거나 단순히 오프 프레임 RPF 판독보다 더 많은 인프레임을 갖는 업스트림 시작 코돈을 선택함으로써 결정된다. 이러한 전략의 한계는 시작 코돈 영역에 정렬된 판독이 희박하거나 부재하는 경우 실제 시작 코돈이 잘못 식별될 수 있다는 것이다. 다행스럽게도 글로벌 번역 개시 시퀀싱(GTI-seq)32 및 정량적 번역 개시 시퀀싱(QTI-seq)33과 같은 최근의 전략은 번역 개시 부위를 찾는 보다 직접적인 방법을 제공한다. NUGs의 경우, 효율적인 시작 코돈으로서의 유효성을 조사하기 위해 더 많은 연구가 여전히 필요합니다.

우리는 또한 세 가지 새로운 기능을 추가하여 RiboCode에 대한 새로운 업데이트를 발표했습니다 : 1) 가장 긴 ORF 이외의 성적 증명서와 관련하여 위치에 따라 할당 된 다른 잠재적 인 ORF 유형을보고합니다. 2) 두 개의 아웃 프레임에서 RPF 읽기의 테스트가 독립적이지 않은 경우 결합 된 p- 값을 조정할 수있는 옵션을 제공합니다 ( 보충 정보의 자세한 설명 참조). 3) 다중 테스트에 대해 p-값 보정을 수행하여 ORF를보다 엄격하게 번역하는 스크리닝을 허용합니다.

RiboCode는 RPF 판독 밀도의 3-nt 주기성을 평가함으로써 능동적으로 번역하는 ORF를 식별하기 때문에, 매우 짧은 ORF에 대해 특정 한계가 있다(예를 들어, 3개 미만의 코돈). Spealman et al. RiboCode의 성능을 uORF-seqr과 비교하고 데이터 세트에서 RiboCode에 의해 60nt보다 짧은 uORF가 예측되지 않는다고보고했습니다34. 우리는 이전 버전의 RiboCode에서 ORF 크기 선택 (-m)에 대한 매개 변수가 제대로 설정되지 않았다고 주장합니다. 업데이트된 RiboCode에서 이 인수의 기본값을 5로 변경했습니다.

RiboCode는 두 개의 파일에서 확인된 ORF를 보고합니다: 동일한 유전자의 상이한 전사체로부터의 중복 ORF를 포함하는 모든 ORF를 포함하는 "RiboCode_ORFs_result.txt"; "RiboCode_ORFs_result_collapsed.txt"(보충 파일 2)는 중첩되는 ORFs를 동일한 정지 코돈과 통합하지만 상이한 시작 코돈, 즉 동일한 판독 프레임에서 가장 상류의 시작 코돈을 보유하는 것은 유지될 것이다. 두 파일 모두에서 검출된 ORF는 알려진 CDS에 대한 상대적 위치에 따라 ORF 또는 다른 다른 유형을 번역하는 "새로운" ORF로 분류됩니다(RiboCode paper22 또는 RiboCode website35의 ORF 유형에 대한 자세한 설명 참조). 우리는 예를 들어 ATF4 유전자의 예측된 uORF를 사용하여 리보코드 출력을 해석하는 방법을 예시하였다 (보충 정보). RiboCode는 또한 다양한 유형의 ORF를 포함하는 유전자의 수를 계산하고 백분율과 함께 플롯합니다 (그림 2).

한 연구에 따르면 일부 발현되지만 번역적으로 정지된 유전자는 산화 스트레스시 펩티드로 번역하기 위해 활성화될 수 있으며12, 이는 아마도 조건 의존적 방식으로만 번역될 수 있는 다른 ORF가 있음을 나타낸다. 리보코드는 이 프로토콜(단계 5.4 및 6.1)에서 입증된 바와 같이 별개로(예를 들어, si-Ctrl 또는 si-eIF3e) 또는 공동으로 상이한 실험 조건에 대해 수행될 수 있다. "merged_config.txt"에서 선택한 판독의 길이와 P 사이트 위치를 정의하여 여러 샘플을 단일 실행으로 멀티플렉싱하는 것은 각 샘플을 개별적으로 처리하는 것보다 몇 가지 이점이 있습니다. 첫째, 단일 샘플에 존재하는 바이어스를 감소시키고; 둘째, 프로그램 실행 시간을 절약합니다. 마지막으로 통계를 수행하기에 충분한 데이터를 제공합니다. 따라서 이론적으로 단일 샘플 모드보다 더 잘 작동하며, 특히 시퀀싱 범위가 낮고 배경 잡음이 높은 샘플의 경우 더욱 그렇습니다. 서로 다른 조건(예: si-eIF3e 대 si-Ctrl) 간에 예측된 ORF에 할당된 RPF 수의 추가 정량화 및 비교를 통해 컨텍스트 종속 ORF를 발견하거나 ORF의 번역 조절을 탐색할 수 있습니다.

ORF의 시작과 끝에 리보솜이 축적되어 "번역 램프"라고 불리는 현상으로 인해 처음 15 코돈과 마지막 5 코돈에 할당 된 RPF는 개시 속도의 차이에 대한 차등 ORF 번역 편향의 분석을 피하기 위해 읽기 계산에서 제외되어야합니다 3,5, 36. 이러한 결과는 uORF 유형의 풍부도가 대조군 세포보다 EIF3가없는 세포에서 더 높으며, 이는 능동적으로 번역되는 리보솜의 상승 된 수준에 의해 (또는 적어도 부분적으로) 발생할 수 있음을 시사했다. 시작 코돈 주위의 RPF 밀도의 메타 분석은 또한 초기 번역 신장이 EIF3E에 의해 조절된다는 것을 시사했다. ORF에서 RPF 읽기를 단순히 계산하는 것만으로는 번역 정량화에 정확하지 않으며, 특히 번역 신장이 심각하게 차단된 경우에는 더욱 그렇습니다.

요약하면, 이 프로토콜은 RiboCode가 마이크로펩티드를 인코딩하는 ORF를 포함하여 모든 크기의 신규하게 번역된 ORF를 식별하기 위해 쉽게 적용될 수 있음을 보여준다. 연구 공동체가 다양한 생리적 맥락이나 실험 조건에서 다양한 유형의 ORF를 발견하는 데 유용한 도구가 될 것입니다. 이들 ORFs로부터의 단백질 또는 펩티드 생성물의 추가 검증은 리보솜 프로파일링의 미래 응용의 개발에 유용할 것이다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 이해 상충이 없습니다.

Acknowledgments

저자는 Xi'an Jiaotong University의 HPCC 플랫폼이 제공하는 컴퓨팅 리소스의 지원을 인정하고 싶습니다. Z.X.는 Xi'an Jiaotong University의 Young Topnotch Talent Support Plan에 감사드립니다.

Materials

Name Company Catalog Number Comments
A computer/server running Linux Any - -
Anaconda or Miniconda Anaconda - Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation - https://www.r-project.org/
Rstudio Rstudio - https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
  25. Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
  26. Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
  27. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  28. Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
  29. Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
  30. Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
  31. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  32. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  33. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  34. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  35. Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
  36. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Tags

생물학 문제 180 리보솜 프로파일링 오픈 리딩 프레임 mRNA 번역 마이크로펩타이드 uORF dORF
<em>데 노보</em> 리보솜 프로파일링 데이터를 사용하여 능동적으로 번역된 오픈 리딩 프레임 식별
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhu, Y., Li, F., Yang, X., Xiao, Z.More

Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter