Biology

De novo Identificação de quadros de leitura abertos traduzidos ativamente com dados de perfil ribossomo

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

Traduzindo ribossomos decodificam três nucleotídeos por codon em peptídeos. Seu movimento ao longo do mRNA, capturado pelo perfil ribossomo, produz as pegadas exibindo periodicidade trigêmea característica. Este protocolo descreve como usar o RiboCode para decifrar esse recurso proeminente de dados de criação de perfil ribossomos para identificar quadros de leitura abertos traduzidos ativamente no nível de transcriptome inteiro.

Abstract

A identificação de quadros de leitura aberto (ORFs), especialmente aqueles que codificam pequenos peptídeos e sendo ativamente traduzidos em contextos fisiológicos específicos, é fundamental para anotações abrangentes de translatomes dependentes do contexto. O perfil ribossomo, uma técnica para detectar os locais de ligação e densidades de tradução de ribossomos no RNA, oferece uma avenida para descobrir rapidamente onde a tradução está ocorrendo na escala de todo o genoma. No entanto, não é uma tarefa trivial na bioinformática identificar de forma eficiente e abrangente os ORFs de tradução para o perfil ribossomo. Descrito aqui é um pacote fácil de usar, chamado RiboCode, projetado para procurar traduzir ativamente ORFs de qualquer tamanho a partir de sinais distorcidos e ambíguos em dados de perfil ribossomos. Tomando nosso conjunto de dados publicado anteriormente como exemplo, este artigo fornece instruções passo a passo para todo o pipeline RiboCode, desde o pré-processamento dos dados brutos até a interpretação dos arquivos finais de resultado de saída. Além disso, para avaliar as taxas de tradução dos ORFs anotados, procedimentos de visualização e quantificação de densidades ribossósas em cada ORF também são descritos em detalhes. Em resumo, o presente artigo é uma instrução útil e oportuna para os campos de pesquisa relacionados à tradução, pequenos ORFs e peptídeos.

Introduction

Recentemente, um corpo crescente de estudos revelou a produção generalizada de peptídeos traduzidos de ORFs de genes codificadores e os genes anteriormente anotados como não codificação, como RNAs de não codificação longa (lncRNAs)1,2,3,4,5,6,7,8. Esses ORFs traduzidos são regulados ou induzidos por células a responder a mudanças ambientais, estresse e diferenciação celular1,8,9,10,11,12,13. Os produtos de tradução de alguns ORFs têm sido demonstrados para desempenhar importantes papéis regulatórios em diversos processos biológicos no desenvolvimento e fisiologia. Por exemplo, Chng et ^al.14 descobriram um hormônio peptídeo chamado Elabela (Ela, também conhecido como Apela/Ende/Toddler), que é fundamental para o desenvolvimento cardiovascular. Pauli et al. sugeriram que Ela também age como um mitogênio que promove a migração celular no embrião de peixes ^iniciais15. Magny et al. relataram dois micropeptídeos de menos de 30 aminoácidos regulando o transporte de cálcio e afetando a contração muscular regular no coração de ^Drosophila10.

Ainda não está claro quantos peptídeos desse tipo são codificados pelo genoma e se são biologicamente relevantes. Portanto, a identificação sistemática desses ORFs potencialmente codificadores é altamente desejável. No entanto, determinar diretamente os produtos desses ORFs (ou seja, proteína ou peptídeo) utilizando abordagens tradicionais como conservação evolutiva16,17 e espectrometria de ^massa18,19 é desafiador porque a eficiência de detecção de ambas as abordagens depende do comprimento, abundância e composição de aminoácidos das proteínas ou peptídeos produzidos. O advento do perfil ribossomo, uma técnica para identificar a ocupação ribossômica em mRNAs na resolução nucleotídea, forneceu uma maneira precisa de avaliar o potencial de codificação de diferentes transcrições3,20,21, independentemente de seu comprimento e composição. Um recurso importante e frequentemente utilizado para identificar ORFs ativamente traduzindo usando perfil ribossomo é a periodicidade de três nucleotídeos (3-nt) das pegadas do ribossomo no mRNA desde o códon inicial até o códon stop. No entanto, os dados de perfil ribossomo geralmente têm vários problemas, incluindo leituras de sequenciamento baixo e esparso ao longo de ORFs, alto ruído de sequenciamento e contaminações de RNA ribossômicos (rRNA). Assim, os sinais distorcidos e ambíguos gerados por tais dados enfraquecem os padrões de periodicidade de 3-nt das pegadas de ribossomos no mRNA, o que, em última análise, dificulta a identificação dos ORFs traduzidos de alta confiança.

Um pacote chamado "RiboCode" adaptou uma estratégia modificada de integração de classificação assinada por Wilcoxon e P-value para examinar se o ORF tem fragmentos proteis ribossomos (RPFs) mais in-frame do que ^rpfs22 off-frame. Demonstrou-se ser altamente eficiente, sensível e preciso para a anotação de novo do translatome em dados simulados e reais de perfil ribossomo. Aqui, descrevemos como usar esta ferramenta para detectar os ORFs de tradução potencial dos conjuntos de dados de sequenciamento de perfil ribossorosos crus gerados pelo estudo ^anterior23. Esses conjuntos de dados foram usados para explorar a função da subunidade EIF3 (EIF3E) em tradução comparando os perfis de ocupação ribossosome das células MCF-10A transfeminadas com controle (si-Ctrl) e EIF3E (si-eIF3e) RNAs de pequena interferência (siRNAs). Ao aplicar o RiboCode a esses conjuntos de dados de exemplo, detectamos 5.633 novos ORFs potencialmente codificando pequenos peptídeos ou proteínas. Esses ORFs foram categorizados em vários tipos com base em suas localizações em relação às regiões de codificação, incluindo ORFs upstream (uORFs), ORFs a jusante (dORFs), ORFs sobrepostos, ORFs de novos genes de codificação de proteínas (novos PCGs) e ORFs de novos genes de codificação não-proteína (novos NonPCGs). As densidades de leitura de RPF em uORFs foram significativamente aumentadas em células deficientes de EIF3E em comparação com células de controle, o que pode ser pelo menos parcialmente causado pelo enriquecimento de ribossomos ativamente traduzindo. O acúmulo localizado de ribossomos na região entre o ^25º e o ^75º codon de células deficientes do EIF3E indicaram um bloqueio do alongamento da tradução no estágio inicial. Este protocolo também mostra como visualizar a densidade de RPF da região desejada para examinar os padrões de periodicidade de 3 nt de pegadas ribossósas em ORFs identificados. Essas análises demonstram o poderoso papel do RiboCode na identificação de ORFs traduzindo e estudando a regulação da tradução.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configuração do ambiente e instalação do RiboCode

Abra uma janela de terminal Linux e crie um ambiente conda:
conda criar -n RiboCode python=3.8
Mude para o ambiente criado e instale o RiboCode e as dependências:
conda ativar RiboCode
conda instalar -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Preparação de dados

Pegue arquivos de referência de genoma.
1. Para a sequência de referência, acesse o site do Ensemble em https://www.ensembl.org/index.html, clique no menu superior Download e no menu esquerdo FTP Download. Na tabela apresentada, clique em FASTA na coluna DNA (FASTA) e na linha onde Espécies é Humana. Na página aberta, copie o link da Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, depois baixe e descompacte-o no terminal:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. Para anotação de referência, clique com o botão direito do mouse gtF na coluna Gene define na última página da Web aberta. Copie o link da Homo_sapiens. GRCh38.104.gtf.gz e baixe-o usando:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  NOTA: Recomenda-se obter o arquivo GTF do site do Ensemble, pois ele contém anotações de genoma organizadas em uma hierarquia de três níveis, ou seja, cada gene contém transcrições que contêm exons e traduções opcionais (por exemplo, sequências de codificação [CDS], site de início de tradução, site final de tradução). Quando as anotações de um gene ou transcrição estão faltando, por exemplo, um arquivo GTF obtido do UCSC ou NCBI, use GTFupdate para gerar um GTF atualizado com anotações completas de hierarquia pai-filho: GTFupdate original.gtf > atualizado.gtf. Para o arquivo de anotação no formato .gff, use o kit de ferramentas ^AGAT24 ou qualquer outra ferramenta para converter para o formato .gtf.
Obtenha sequências de rRNA.
1. Abra o navegador de genomas UCSC em https://genome.ucsc.edu e clique em Ferramentas | Navegador de tabela na lista suspensa.
2. Na página aberta, especifique mamífero para clado, humano para genoma, Todas as Tabelas para grupo, rmask para mesa e genoma para região. Para filtrar, clique em Criar para ir a uma nova página e definir repClass, assim como corresponder rRNA.
3. Clique em Enviar e, em seguida, defina o formato de saída para sequência e nome de arquivo de saída como hg38_rRNA.fa. Finalmente, clique em Obter saída | Obtenha sequência para recuperar a sequência de rRNA.
Obtenha conjuntos de dados de perfil ribossosome do Sequence Read Archive (SRA).
1. Baixe as amostras de réplica do grupo de tratamento si-eIF3e e renomeie-as:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Baixe as amostras de réplica do grupo de controle e renomeie-as:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  NOTA: Os IDs de adesão da SRA para estes conjuntos de dados de exemplo foram obtidos no site Geo (Gene Expression Omnibus) ²⁵ , procurando por GSE131074.

3. Corte de adaptadores e remova a contaminação do rRNA

(Opcional) Remova os adaptadores dos dados de sequenciamento. Pule esta etapa se as sequências do adaptador já tiverem sido aparadas, como neste caso. Caso contrário, use o cutadapt para cortar os adaptadores das leituras.
para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fazer
cutadapt -m 15 --match-read-curingas -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
terminado
NOTA: A sequência do adaptador após -um parâmetro variará dependendo da preparação da biblioteca cDNA. As leituras mais curtas que 15 (dadas por -m) são descartadas porque os fragmentos protegidos por ribossomo são geralmente mais longos do que este tamanho.
Remova a contaminação do rRNA usando as seguintes etapas:
1. Sequências de referência do índice rRNA:
  bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Alinhe as leituras à referência rRNA para excluir as leituras originárias do rRNA:
  para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  fazer
  bowtie -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  terminado
  -p especifica o número de threads para executar paralelamente as tarefas. Considerando o tamanho relativamente pequeno das leituras da RPF, outros argumentos (por exemplo, -n, -y, -a, -norc, -best, --strates e -l) devem ser especificados para garantir que os alinhamentos relatados sejam os melhores. Para mais detalhes, consulte o site da ^Bowtie26.

4. Alinhe as leituras limpas ao genoma

Crie um índice de genoma.
STAR_hg38_genome Mkdir
STAR --runThreadN 8 --runMode genomaGenerate --genomaDir ./STAR_hg38_genome --genomaFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Alinhe as leituras limpas (sem contaminação por rRNA) à referência criada.
para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fazer
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomaDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. -outSAMtype BAM ClassificadoPorCoordene --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
terminado
NOTA: Um nucleotídeo não-estaplatado é frequentemente adicionado ao final de 5' de cada leitura pela transcriptase ²⁷ reversa, que será eficientemente aparada pelo STAR à medida que executa o recorte suave por padrão. Os parâmetros para STAR são descritos no manual ^STAR28.
Arquivos de alinhamento de classificação e índice.
para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fazer
samtools tipo -T ${i}. Aligned.toTranscriptome.out.classificado \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
índice samtools ${i}. Aligned.toTranscriptome.out.sorted.bam
índice samtools ${i}. Aligned.sortedByCoord.out.bam
terminado

5. Seleção de tamanho de RPFs e identificação de seus locais P

Prepare as anotações da transcrição.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
- Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
NOTA: Este comando coleta informações necessárias das transcrições de mRNA do arquivo GTF e extrai as sequências para todas as transcrições de mRNA do arquivo FASTA (cada transcrição é montada mesclando as exons de acordo com as estruturas definidas no arquivo GTF).
Selecione RPFs de comprimentos específicos e identifique suas posições no local P.
para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fazer
metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
terminado
NOTA: Este comando plota os perfis agregados da extremidade de 5' das leituras alinhadas de cada comprimento em torno de codons de início (ou stop) anotados de tradução. O p-site dependente de comprimento de leitura pode ser determinado manualmente examinando os gráficos de distribuição (por exemplo, Figura 1B) de distâncias de deslocamento entre as extremidades de 5' das leituras principais e o códon inicial. O RiboCode também gera um arquivo de configuração para cada amostra, no qual as posições do site P de leituras exibindo padrões significativos de periodicidade de 3 nt são automaticamente determinadas. Os parâmetros -f0_percent, -pv1 e -pv2 definem os cortes de limite de proporção e valor p para a seleção das leituras RPF enriquecidas no quadro de leitura. Neste exemplo, os nucleotídeos +12, +13 e +13 do final de 5' das leituras de 29, 30 e 31 nt são definidos manualmente em cada arquivo de configuração.
Edite os arquivos de configuração para cada amostra e mescle-os
NOTA: Para gerar um conjunto de orfs exclusivo e garantir cobertura suficiente de leituras para realizar análises subsequentes, as leituras selecionadas de todas as amostras na etapa anterior são mescladas. As leituras de comprimentos específicos definidos em merged_config.txt arquivo (Arquivo Suplementar 1) e suas informações do site P são usadas para avaliar o potencial de tradução dos ORFs na próxima etapa.

6. De novo anotar orfs traduzindo

Executar RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l sim -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Onde os parâmetros importantes deste comando são os seguintes:
-c, arquivo de configuração contendo o caminho dos arquivos de entrada e as informações das leituras selecionadas e seus sites P.
-l, para transcrições com códons de início múltiplos a montante dos códons de parada, se os ORFs mais longos (a região do codon de início mais distal para parar o codon) são usados para avaliar seu potencial de tradução. Se definido como não, os códons iniciais serão automaticamente determinados.
-s, o codon(s) de início canônico usado para identificação de ORFs.
-A, (opcionalmente) os códons de início nãocanônicos (por exemplo, CTG, GTG e TTG para humanos) utilizados para identificação orf, que podem diferir em mitocôndrias ou núcleo de outras ^espécies29.
-m, o comprimento mínimo (ou seja, aminoácidos) de ORFs.
-o, o prefixo do nome do arquivo de saída contendo os detalhes dos ORFs previstos (Arquivo Suplementar 2).
-g e -b, saída os ORFs previstos para o formato gtf ou cama , respectivamente.

7. (Opcional) quantificação e estatísticas do ORF

Contagem RPF lê em cada ORF.
para i em si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
fazer
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.conta -s sim -c intersecção-estrita
terminado
NOTA: Para excluir os potenciais ribossomos acumulados em torno do início e das extremidades dos ORFs, o número de leituras alocadas nos primeiros 15 (especificados por -f) e nos últimos 5 códons (específicos por -l) não são contados. Opcionalmente, os comprimentos dos RPFs contados são restritos à faixa de 25 a 35 nt (tamanhos comuns de RPFs).
Calcule as estatísticas básicas dos ORFs detectados usando o RiboCode:
Rscript RiboCode_utils. R
NOTA: RiboCode_utils. R (Arquivo Suplementar 3) fornece uma série de estatísticas para a saída do RiboCode, por exemplo, contando o número de ORFs identificados, visualizando a distribuição dos comprimentos orf e calculando as densidades de RPF normalizadas (ou seja, RPKM, leituras por quilobase por milhão de leituras mapeadas).

8. (Opcional) Visualização dos ORFs previstos

Obtenha as posições relativas do início e pare os códons para o ORF desejado (por exemplo, ENSG00000100902_35292349_35292552_67) em sua transcrição de RiboCode_ORFs_result_collapsed.txt (arquivo suplementar 3). Em seguida, plote a densidade de leituras de RPF no ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST000000622405 \
-s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
Onde -s e -e especificar a posição de início e parada de tradução de plotagem orf. --start-codon define o códon inicial do ORF, que aparecerá no título da figura. -o define o prefixo do nome do arquivo de saída.

9. (Opcional) Análise metagênica usando RiboMiner

NOTA: Realize a análise metagene para avaliar a influência do knockdown EIF3E na tradução de ORFs anotados identificados, seguindo as etapas abaixo:

Gerar anotações de transcrições para RiboMiner, que extrai a transcrição mais longa para cada gene com base no arquivo de anotação gerado pelo RiboCode (etapa 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-G Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o mais longo.transcripts.info.txt -O all.transcripts.info.txt
Prepare o arquivo de configuração para RiboMiner. Copie o arquivo de configuração gerado pelo comando metaplots do RiboCode (etapa 5.4) e renomeie-o como "RiboMiner_config.txt". Em seguida, modifique-o de acordo com o formato mostrado no arquivo suplementar 4.
Metagene analisa usando RiboMiner
1. Use MetageneAnalysis para gerar um perfil agregado e mediano das densidades dos RPFs através das transcrições.
  MetageneAnalysis -f RiboMiner_config.txt -c mais longo.transcripts.info.txt \
  -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm yeah \
  -y 100 --tipo UTR
  Onde estão os parâmetros importantes: -tipo, analisando regiões de CDS ou UTR ; --norma, se normalizou a densidade de leitura; -y, o número de códons usados para cada transcrição; -U, plot RPF densidade tanto no nível de don ou nt ; -u e -d, definir a faixa de análise de regiões relativas ao códon ou parar o códon; -l, o comprimento mínimo (ou seja, o número de códons) do CDS; -M, o modo de filtragem de transcrições, conta ou RPKM; -n contagens mínimas ou RPKM em CDS para análise. -m contagem mínima ou RPKM de CDS na região normalizada; -e, o número de códons excluídos da região normalizada.
2. Gere um conjunto de arquivos pdf para comparar as ocupações ribossósmes em mRNA em células de controle e células deficientes eIF3.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --modo média
  NOTA: PlotMetageneAnalysis gera o conjunto de arquivos pdf. Detalhes sobre o uso de MetageneAnalysis e PlotMetageneAnalysis estão disponíveis no site da RiboMiner30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Os conjuntos de dados de perfil ribossosome foram depositados no banco de dados GEO sob o número de adesão GSE131074. Todos os arquivos e códigos usados neste protocolo estão disponíveis nos arquivos suplementares 1-4. Aplicando o RiboCode a um conjunto de conjuntos de dados de perfil ribossosome ^publicado23, identificamos os novos ORFs traduzidos ativamente em células MCF-10A tratadas com controle e siRNAs EIF3E. Para selecionar as leituras de RPF que são provavelmente vinculadas pelos ribossomos traduzidos, os comprimentos das leituras de sequenciamento foram examinados, e uma análise metagene foi realizada usando os RPFs que mapeavam os genes de tradução conhecidos. A distribuição de frequência dos comprimentos das leituras mostrou que a maioria dos RPFs eram de 25-35 nt (Figura 1A), correspondendo a uma sequência de nucleotídeos coberta pelos ribossomos como esperado. Os locais P-local para diferentes comprimentos de RPFs foram determinados examinando as distâncias de suas extremidades de 5' para os códons anotados de início e parada, respectivamente (Figura 1B). A RPF lê dentro de 28-32nt exibindo forte periodicidade de 3-nt, e seus locais P estavam no +^12th nt (arquivo suplementar 1).

RiboCode procura os ORFs candidatos a partir de um codon de início canônico (AUG) ou códons de início alternativo (opcional, por exemplo, CUG e GUG) para o próximo codon stop. Então, Com base nos resultados de mapeamento de RPFs dentro da faixa definida, o RiboCode avalia a periodicidade de 3nt avaliando se o número de RPFs no quadro (ou seja, seus P-sites alocados no primeiro nucleotídeo de cada codon) é maior do que o número de RPFs fora do quadro (ou seja, seus P-sites alocados no segundo ou terceiro nucleotídeo de cada codon). Identificamos 13.120 genes potencialmente traduzindo ORFs com p < 0,05, entre eles 10.394 genes (70,8%) codificando ORFs anotados, 168 (1,1%) genes codificando dORFs, 509 (3,5%) genes codificando uORFs, 939 (6,4%) genes codificando ORFs a montante ou a jusante sobrepostos com ORFs anotados conhecidos (sobrepostos), e 68 (0,5%) genes codificadores de proteínas codificando novos ORFs e 2.601 (17,7%) anteriormente atribuídos como genes não codificadores novos ORFs (Figura 2 e arquivo suplementar 3)

Comparando tamanhos de diferentes ORFs mostrou que os uORFs e orfs sobrepostos são mais curtos (195 e 188 nt em média, respectivamente) do que orfs anotados (~1.771 nt). A mesma tendência também foi observada para orfs novos (670 e 385 nt em média para pcgs novos e novos não-PCGS, respectivamente) e dORFs (~671 nt) (Figura 3). Juntos, aqueles ORFs não orônicos (não anotados) identificados pelo RiboCode tendem a codificar peptídeos menores do que aqueles ORFs anotados conhecidos.

Foram calculadas contagens relativas de RPF para cada ORF para avaliar a função do EIF3 nos processos de tradução. Os resultados sugeriram que as densidades ribossósas dos uORFs foram significativamente maiores em células deficientes de EIF3E do que em células de controle (Figura 4). Como muitos uORFs foram relatados para exercer efeitos inibitórios na tradução de ORFs de codificação a jusante, examinamos ainda se o knockdown EIF3E altera as densidades globais de RPFs a jusante dos códons inativos (Figura 5). A análise metagênica, na qual muitos perfis de ORFs estavam alinhados e, em seguida, média, revelou que uma massa de ribossomos parou entre os códons 25 e 75 a jusante do enteado inicial, sugerindo que o alongamento da tradução poderia ser bloqueado no início em células deficientes do EIF3E. Investigações adicionais são justificadas para examinar se a relação sinal-ruído ou as mudanças na eficiência de tradução dos ORFs contribuem para o aumento do RPKM uORF e o acúmulo de ribossomos entre códons 25 a 75 na ausência de EIF3E, ou seja, se o 1) menos contaminação (ou boa qualidade da biblioteca) ou 2) tradução ativa (ou pausa ribossoma) nas amostras sem EIF3E resulta em mais leituras em uORFs e na região definida entre ^25º e ^75º códons.

Finalmente, o RiboCode também fornece visualização para densidades dos P-sites de RPFs no ORF desejado, o que poderia ajudar os usuários a examinar os padrões de periodicidade de 3-nt e densidades de RPFs. Por exemplo, a Figura 6 apresenta as densidades de RPF em um uORF de PSMA6 e um dORF de SENP3-EIF4A1; ambos foram validados por dados de proteômica ^publicados23 (dados não apresentados).

Figura 1: Avaliação das leituras de sequenciamento e das posições do local P. (A) Distribuição de comprimento de fragmentos protegidos por ribossomos (RPFs) em células deficientes de EIF3E na replicação 1 (si-eIF3e-1); (B) Inferir a posição p-local de RPFs de 29nt com base em suas densidades em torno do início conhecido (topo) e parar códons (inferior). Clique aqui para ver uma versão maior desta figura.

Figura 2: Percentuais de genes que abrigam diferentes tipos de ORFs identificados por RiboCode usando todas as amostras juntas. Abreviaturas: ORF = quadro de leitura aberto; dORF = ORF a jusante; PCG = gene de codificação de proteínas; NãoPCG = gene de codificação de nãoproteína; uORF = UPSTREAM ORF. Clique aqui para ver uma versão maior desta figura.

Figura 3: Distribuições de comprimento de diferentes tipos orf. Abreviaturas: ORF = quadro de leitura aberto; dORF = ORF a jusante; PCG = gene de codificação de proteínas; NãoPCG = gene de codificação de nãoproteína; uORF = ORF upstream; nt = nucleotídeo. Clique aqui para ver uma versão maior desta figura.

Figura 4: A comparação das contagens de leitura normalizadas para diferentes tipos de ORF entre o controle e as células deficientes do EIF3E. Abreviação: ORF = quadro de leitura aberto; dORF = ORF a jusante; PCG = gene de codificação de proteínas; NãoPCG = gene de codificação de nãoproteína; uORF = ORF upstream; RPKM = Leituras por quilobase por milhão de leituras mapeadas; siRNA = RNA de pequena interferência; si-Ctrl = controle siRNA; si-eIF3e = siRNA direcionado EIF3E. Clique aqui para ver uma versão maior desta figura.

Figura 5: Análise metagene mostrando a cabine de ribossomos no 25-75th codon a jusante do códon inicial de ORFs anotados. Abreviação: ORF = quadro de leitura aberto; siRNA = RNA de pequena interferência; si-Ctrl = controle siRNA; si-eIF3e = siRNA targeting EIF3E; A.U., qualquer unidade. Clique aqui para ver uma versão maior desta figura.

Figura 6: Perfis de densidade do local P de orfs codificando micropeptídeos. (A) densidades de p-local de uORF previsto e sua posição em relação ao CDS anotado na transcrição ENST00000622405; (B) mesmo que em A , mas para o dORF previsto na transcrição ENST000000614237. Painel inferior mostrando a visão ampliada do uORF (A) ou dORF (B) previsto. Barra vermelha = leituras no quadro; Barras verdes e azuis = leituras off-frame. Abreviação: ORF = quadro de leitura aberto; dORF = ORF a jusante; uORF = ORF upstream; CDS = sequências de codificação. Clique aqui para ver uma versão maior desta figura.

Informações suplementares: Avaliação da dependência entre dois valores p e explicação dos resultados do RiboCode (uORF de ATF4 como exemplo). Clique aqui para baixar este Arquivo.

Arquivo suplementar 1: O arquivo de configuração do RiboCode definindo os comprimentos selecionados de RPFs e posições de p-site. Clique aqui para baixar este Arquivo.

Arquivo Suplementar 2: Arquivo de saída RiboCode contendo as informações de ORFs previstos. Clique aqui para baixar este Arquivo.

Arquivo Suplementar 3: Arquivo de script R para executar estatísticas básicas da saída de RiboCode. Clique aqui para baixar este Arquivo.

Arquivo suplementar 4: O arquivo de configuração (para RiboMiner) modificado do arquivo suplementar 1. Clique aqui para baixar este Arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

O perfil ribossomo oferece uma oportunidade sem precedentes para estudar a ação dos ribossomos nas células em uma escala de genoma. Decifrar precisamente as informações transportadas pelos dados de criação de perfil ribossomos poderia fornecer informações sobre quais regiões de genes ou transcrições estão traduzindo ativamente. Este protocolo passo a passo fornece orientações sobre como usar o RiboCode para analisar os dados de perfil ribossomo em detalhes, incluindo instalação de pacotes, preparação de dados, execução de comando, explicação de resultados e visualização de dados. Os resultados da análise do RiboCode indicaram que a tradução é difundida e ocorre em ORFs não anotados de genes de codificação e muitas transcrições anteriormente assumidas como não codificadas. As análises a jusante forneceram evidências de que os ribossomos se movem ao longo dos ORFs previstos em passos de 3 nucleotídeos à medida que a tradução ocorre; no entanto, ainda não está claro se o processo de tradução ou os peptídeos produzidos servem a qualquer função. No entanto, anotações precisas de tradução de ORFs no genoma podem dar origem a oportunidades emocionantes para identificar as funções de transcrições anteriormente não caracterizadas31.

A previsão do potencial de codificação para cada ORFs usando dados de criação de perfil ribossosome depende muito da periodicidade de 3-nt das densidades dos locais P em cada codon desde o início até os códons de parada dos ORFs. Portanto, requer uma detecção precisa dos locais P-site de leituras de diferentes comprimentos. Essas informações não são fornecidas diretamente por dados de perfil ribossomo, mas podem ser inferidas a partir das distâncias entre o final de RPFs de 5' e códons anotados de início ou parada (passo do protocolo 5.3). A falta de anotações de códons de start/stop conhecidos no arquivo GTF, como para esses genomas recém-montados, pode fazer com que o RiboCode não execute os degraus a jusante, a menos que os locais exatos do local P das leituras sejam determinados por outros meios. Na maioria dos casos, o tamanho de fragmentos ligados a ribossomo e seus locais p-local são constantes, por exemplo, 28-30 nt de comprimento e no +12 nt do final das leituras de 5' em células humanas. O RiboCode permite a seleção das leituras em uma faixa específica para definir posições do site P com base na experiência. No entanto, ambos os comprimentos das leituras de RPF e a posição de seus locais P podem ser diferentes quando as condições ambientais (por exemplo, estresse ou estímulo) ou o procedimento experimental (por exemplo, nuclease, tampão, preparação da biblioteca e sequenciamento) foram alterados. Portanto, recomendamos a realização dos metaplots (etapa de protocolo 5.3) para cada amostra para extrair os RPFs de maior confiança (ou seja, lê-se exibindo padrões de periodicidade de 3-nt) e determinar suas posições no local P em diferentes condições. Embora essas operações possam ser feitas automaticamente usando a função metaplots , muitas vezes apenas uma minoria de leituras mostrando um enquadramento quase perfeito ou eliminando passam pelos rigorosos critérios de seleção e teste estatístico. Portanto, ainda é necessário afrouxar os certos parâmetros, especialmente o "-f0_percent", e, em seguida, inspecionar visualmente a periodicidade de leituras de 3-nt em cada comprimento e editar manualmente o arquivo de configuração para incluir mais leituras de acordo, especialmente quando a qualidade da biblioteca é ruim (protocolo passo 5.3).

RiboCode procura os ORFs candidatos desde codons de início canônico ou não canônico (NUGs) até o próximo codon stop. Para as transcrições com codons de início múltiplo a montante dos códons de stop, os códons iniciais mais prováveis são determinados avaliando a periodicidade de 3-nt das leituras da RPF mapeadas entre dois codons iniciantes vizinhos ou simplesmente escolhendo o codon inicial upstream tendo mais leituras de RPF off-frame. Uma limitação de tal estratégia é que os códons iniciais reais podem ser mal identificados se as leituras alinhadas às regiões de códon inicial forem esparsas ou ausentes. Felizmente, estratégias recentes, como o sequenciamento global de iniciação de tradução (GTI-seq)³² e o sequenciamento de iniciação de tradução quantitativa (QTI-seq)³³, fornecem maneiras mais diretas para localizar os locais de iniciação da tradução. Para os NUGs, mais estudos ainda são necessários para investigar suas validades como códons de partida eficientes.

Também lançamos uma nova atualização para o RiboCode adicionando três novos recursos: 1) ele relata os outros tipos orf potenciais atribuídos de acordo com suas localizações em relação às transcrições diferentes das mais longas; 2) fornece uma opção para ajustar valores p combinados se o teste de leitura de RPF nos dois quadros não for independente (veja explicação mais detalhada em Informações Suplementares); 3) realiza correção de valor p para testes múltiplos, permitindo a triagem de ORFs de tradução de forma mais rigorosa.

Como o RiboCode identifica os ORFs de tradução ativa, avaliando a periodicidade de 3-nt das densidades de leitura de RPF, ele tem certas limitações para aqueles ORFs que são extremamente curtos (por exemplo, menos de 3 códons). Spealman et al. compararam o desempenho do RiboCode com o uORF-seqr e relataram que não há uORFs menores que 60 nt são previstos pela RiboCode em seu conjunto de ^dados34. Argumentamos que o parâmetro para seleção de tamanho ORF (-m) na versão anterior do RiboCode não está definido corretamente. Mudamos o valor padrão deste argumento para 5 no RiboCode atualizado.

RiboCode relata os ORFs identificados em dois arquivos: "RiboCode_ORFs_result.txt" contendo todos os ORFs, incluindo ORFs redundantes de transcrições diferentes do mesmo gene; "RiboCode_ORFs_result_collapsed.txt" (Arquivo Suplementar 2) integrando os ORFs sobrepostos com o mesmo codon stop, mas códons de início diferentes, ou seja, aquele que abrigar o codon de partida mais upstream no mesmo quadro de leitura será mantido. Em ambos os arquivos, os ORFs detectados são classificados em ORFs de tradução "nova" ou outros tipos diferentes de acordo com suas localizações relativas para CDS conhecidos (veja uma explicação detalhada dos tipos ORF do papel ^RiboCode22 ou no site da RiboCode35). Ilustramos como interpretar as saídas do RiboCode usando um uORF previsto do gene ATF4 como exemplo (Informações Suplementares). RiboCode também conta o número de genes contendo diferentes tipos de ORFs e os plota junto com suas porcentagens (Figura 2).

Um estudo relatou que alguns genes quiescentes expressos, mas traduzidos, podem ser ativados para traduzir em peptídeos sobre estresse ^oxidativo12, indicando que provavelmente existem outros ORFs que podem ser traduzidos apenas de forma dependente de condições. O RiboCode pode ser realizado para diferentes condições experimentais separadamente (por exemplo, si-Ctrl ou si-eIF3e) ou em conjunto, como demonstrado neste protocolo (etapas 5.4 e 6.1). Multiplexar várias amostras em uma única execução, definindo os comprimentos e posições do local P de leituras selecionadas em "merged_config.txt" tem várias vantagens sobre o processamento de cada amostra individualmente. Primeiro, reduz os vieses presentes em uma única amostra; segundo, economiza o tempo de execução do programa; por fim, fornece dados suficientes para realizar as estatísticas. Assim, teoricamente funciona melhor do que o modo de amostra única, especialmente para as amostras com baixa cobertura de sequenciamento e alto ruído de fundo. Uma quantificação adicional e comparação dos números de RPFs atribuídos aos ORFs previstos entre diferentes condições (por exemplo, si-eIF3e vs. si-Ctrl) permitem descobrir ORFs dependentes do contexto ou explorar a regulação translacional dos ORFs.

Note-se que devido ao acúmulo de ribossomos no início e extremidades dos ORFs, um fenômeno chamado "rampa de tradução", os RPFs atribuídos nos primeiros 15 códons e últimos 5 códons devem ser excluídos das leituras contando para evitar a análise da tradução diferencial orf tendenciosa às diferenças das taxas de ^{iniciação3,5}^,³⁶ anos. Esses resultados sugeriram que a abundância de tipos de uORFs é maior em células sem EIF3 do que células de controle, o que pode ser causado (ou pelo menos parcialmente) pelos níveis elevados de ribossomos ativamente traduzidos. A meta-análise das densidades de RPF em torno dos códons iniciais também sugeriu que o alongamento da tradução antecipada é regulado pelo EIF3E. Observe que simplesmente contar as leituras de RPF em um ORF não é preciso para quantificação de tradução, especialmente quando o alongamento da tradução é severamente bloqueado.

Em resumo, este protocolo mostra que o RiboCode poderia ser facilmente aplicado para identificar orfs traduzidos de qualquer tamanho, incluindo aqueles micropeptídeos de codificação. Seria uma ferramenta valiosa para a comunidade de pesquisa descobrir vários tipos de ORFs em diferentes contextos fisiológicos ou condições experimentais. Uma maior validação dos produtos de proteína ou peptídeos desses ORFs seria útil para o desenvolvimento de futuras aplicações de perfil ribossomo.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm conflitos de interesse para divulgar.

Acknowledgments

Os autores gostariam de reconhecer o apoio dos recursos computacionais fornecidos pela plataforma HPCC da Universidade Xi'an Jiaotong. Z.X. agradece com gratidão ao Plano de Apoio ao Talento Jovem Topnotch da Universidade Xi'an Jiaotong.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identificação de quadros de leitura abertos traduzidos ativamente com dados de perfil ribossomo

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.