Biology

De novo Идентификация активно транслируемых открытых кадров чтения с данными профилирования рибосом

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

Перевод рибосом декодирует три нуклеотида на кодон в пептиды. Их движение вдоль мРНК, захваченное профилированием рибосом, производит следы, проявляющие характерную триплетную периодичность. Этот протокол описывает, как использовать RiboCode для расшифровки этой важной функции из данных профилирования рибосом для идентификации активно транслируемых открытых кадров чтения на уровне всего транскриптома.

Abstract

Идентификация открытых кадров чтения (ORF), особенно тех, которые кодируют небольшие пептиды и активно переводятся в конкретных физиологических контекстах, имеет решающее значение для комплексных аннотаций контекстно-зависимых транслейломов. Профилирование рибосом, метод обнаружения мест связывания и плотностей трансляции рибосом на РНК, предлагает способ быстро обнаружить, где происходит трансляция в масштабе всего генома. Тем не менее, в биоинформатике не является тривиальной задачей эффективно и всесторонне идентифицировать переводящие ORF для профилирования рибосом. Здесь описан простой в использовании пакет под названием RiboCode, предназначенный для поиска активного перевода ORF любого размера из искаженных и неоднозначных сигналов в данных профилирования рибосом. Взяв в качестве примера наш ранее опубликованный набор данных, в этой статье приведены пошаговые инструкции для всего конвейера RiboCode, от предварительной обработки необработанных данных до интерпретации конечных выходных файлов результатов. Кроме того, для оценки скорости трансляции аннотированных ORF также подробно описаны процедуры визуализации и количественной оценки плотностей рибосом на каждом ORF. Таким образом, настоящая статья является полезной и своевременной инструкцией для областей исследований, связанных с переводом, малыми ОРФ и пептидами.

Introduction

В последнее время растущее количество исследований выявило широко распространенную продукцию пептидов, переведенных из ORF кодирующих генов и ранее аннотированных генов как некодирующих, таких как длинные некодирующие РНК (lncRNAs)1,2,3,4,5,6,7,8. Эти переведенные ORF регулируются или индуцируются клетками для реагирования на изменения окружающей среды, стресс и дифференцировку клеток1,8,9,10,11,12,13. Было продемонстрировано, что продукты трансляции некоторых ORF играют важную регулирующую роль в различных биологических процессах развития и физиологии. Например, Chng et ^al.14 обнаружили пептидный гормон под названием Elabela (Ela, также известный как Apela/Ende/Toddler), который имеет решающее значение для развития сердечно-сосудистой системы. Паули и др. предположили, что Эла также действует как митоген, который способствует миграции клеток в раннем эмбрионе ^рыбы15. Magny et al. сообщили о двух микропептидах менее 30 аминокислот, регулирующих транспорт кальция и влияющих на регулярное сокращение мышц в сердце ^Drosophila10.

Остается неясным, сколько таких пептидов кодируется геномом и являются ли они биологически значимыми. Поэтому систематическая идентификация этих потенциально кодирующих ORF очень желательна. Однако непосредственное определение продуктов этих ORF (т.е. белка или пептида) с использованием традиционных подходов, таких как эволюционное ^{сохранение16,17} и масс-спектрометрия18,19^, является сложной задачей, поскольку эффективность обнаружения обоих подходов зависит от длины, обилия и аминокислотного состава продуцируемых белков или пептидов. Появление рибосомного профилирования, метода идентификации занятости рибосом на мРНК при нуклеотидном разрешении, обеспечило точный способ оценки кодирующего потенциала различных транскриптов3,20,21, независимо от их длины и состава. Важной и часто используемой особенностью для идентификации активно транслируемых ОРФ с использованием рибосомного профилирования является трехнуклеотидная (3-nt) периодичность следов рибосомы на мРНК от начального кодона до стоп-кодона. Тем не менее, данные профилирования рибосом часто имеют несколько проблем, включая низкие и разреженные показания секвенирования вдоль ORF, высокий шум секвенирования и загрязнение рибосомальной РНК (рРНК). Таким образом, искаженные и неоднозначные сигналы, генерируемые такими данными, ослабляют паттерны периодичности 3-х нт следов рибосом на мРНК, что в конечном итоге затрудняет идентификацию высокодоверных транслируемых ORF.

Пакет под названием «RiboCode» адаптировал модифицированный тест Wilcoxon-signed-rank и стратегию интеграции P-value, чтобы проверить, имеет ли ORF значительно больше фрагментов, защищенных рибосомами (RPF), чем внекадровые ^RPF22. Было продемонстрировано, что он является высокоэффективным, чувствительным и точным для de novo аннотации транслейтома в смоделированных и реальных данных профилирования рибосом. Здесь мы описываем, как использовать этот инструмент для обнаружения потенциального перевода ORF из необработанных наборов данных секвенирования профилирования рибосом, сгенерированных предыдущим ^{исследованием23}. Эти наборы данных были использованы для изучения функции субъединицы EIF3 «E» (EIF3E) в трансляции путем сравнения профилей занятости рибосом клеток MCF-10A, трансфектированных контрольными (si-Ctrl) и EIF3E (si-eIF3e) малоинтерферирующими РНК (siRNAs). Применив RiboCode к этим примерам наборов данных, мы обнаружили 5 633 новых ORF, потенциально кодирующих небольшие пептиды или белки. Эти ORF были классифицированы на различные типы в зависимости от их местоположения относительно кодирующих областей, включая вышестоящие ORF (uORFs), нижестоящие ORF (dORFs), перекрывающиеся ORF, ORF из новых генов, кодирующих белки (новые PCG), и ORF из новых генов, не вызывающих рост (новые NonPCG). Плотность считывания RPF на uORF была значительно увеличена в клетках с дефицитом EIF3E по сравнению с контрольными клетками, что может быть, по крайней мере, частично вызвано обогащением активно транслицирующихся рибосом. Локализованное накопление рибосом в области от ^25-го по ^75-й кодон EIF3E-дефицитных клеток указывало на блокировку удлинения трансляции на ранней стадии. Этот протокол также показывает, как визуализировать плотность RPF в желаемой области для изучения паттернов периодичности 3-nt следов рибосом на идентифицированных ORF. Эти анализы демонстрируют мощную роль RiboCode в выявлении переводческих ORF и изучении регулирования перевода.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Настройка среды и установка RiboCode

Откройте окно терминала Linux и создайте среду conda:
conda create -n RiboCode python=3.8
Переключитесь на созданную среду и установите RiboCode и зависимости:
conda активировать RiboCode
conda install -c биоконда рибокод рибоминер sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Подготовка данных

Получите справочные файлы генома.
1. Для эталонной последовательности перейдите на веб-сайт Ensemble по адресу https://www.ensembl.org/index.html, щелкните верхнее меню Загрузить и левое боковое меню FTP Download. В представленной таблице щелкните FASTA в столбце ДНК (FASTA) и строке, где Вид — Человек. На открывшейся странице скопируйте ссылку на Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, затем скачайте и распакуйте его в терминале:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.фа.gz
2. Для справочной аннотации щелкните правой кнопкой мыши GTF в столбце Наборы генов на последней открывшейся веб-странице. Скопируйте ссылку на Homo_sapiens. GRCh38.104.gtf.gz и загрузите его с помощью:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. ГРЧ38.104.gtf.gz
  ПРИМЕЧАНИЕ: Рекомендуется получить файл GTF с веб-сайта Ensemble, поскольку он содержит аннотации генома, организованные в трехуровневую иерархию, то есть каждый ген содержит транскрипты, которые содержат экзоны и необязательные переводы (например, последовательности кодирования [CDS], сайт начала перевода, конечный сайт перевода). Если аннотации гена или транскрипта отсутствуют, например, файл GTF, полученный из UCSC или NCBI, используйте GTFupdate для создания обновленного GTF с полными аннотациями иерархии родитель-потомок: GTFupdate original.gtf > updated.gtf. Для файла аннотации в формате .gff используйте AGAT ^toolkit24 или любой другой инструмент для преобразования в формат .gtf.
Получение последовательностей рРНК.
1. Откройте браузер генома UCSC в https://genome.ucsc.edu и нажмите Инструменты | Обозреватель таблиц в раскрывающемся списке.
2. На открывшейся странице укажите Mammal для клады, Human для генома, All Tables для группы, rmask для таблицы и genome для региона. Для фильтра нажмите кнопку Создать , чтобы перейти на новую страницу и задать repClass так, как соответствует rRNA.
3. Нажмите кнопку Отправить , а затем задайте для выходного формата последовательность и имя выходного файла hg38_rRNA.fa. Наконец, щелкните Получить выходной | Получение последовательности для извлечения последовательности рРНК.
Получите наборы данных профилирования рибосом из архива чтения последовательностей (SRA).
1. Скачайте реплицированные образцы группы лечения si-eIF3e и переименуйте их:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Скачайте реплицированные образцы контрольной группы и переименуйте их:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  ПРИМЕЧАНИЕ: Идентификаторы присоединения к SRA для этих примеров наборов данных были получены с веб-сайта Gene Expression Omnibus (GEO)²⁵ путем поиска GSE131074.

3. Обрежьте адаптеры и удалите загрязнение рРНК

(Необязательно) Удалите адаптеры из данных виртуализации. Пропустите этот шаг, если последовательности адаптеров уже были обрезаны, как в этом случае. В противном случае используйте cutadapt для обрезки адаптеров от чтения.
для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
делать
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
Договорились
ПРИМЕЧАНИЕ: Последовательность адаптера после параметра -a будет варьироваться в зависимости от подготовки библиотеки кДНК. Показания короче 15 (заданные -m) отбрасываются, потому что фрагменты, защищенные рибосомами, обычно длиннее этого размера.
Удалите загрязнение рРНК с помощью следующих шагов:
1. Индекс референсных последовательностей рРНК:
  галстук-бабочка -f hg38_rRNA.fa hg38_rRNA
2. Выровняйте показания со ссылкой на рРНК, чтобы исключить чтения, исходящие из рРНК:
  для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  делать
  бабочка -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  Договорились
  -p указывает количество потоков для параллельного выполнения задач. Учитывая относительно небольшой размер показаний РПФ, следует указать другие аргументы (например, -n, -y, -a, -norc, --best, --strata и -l), чтобы гарантировать, что сообщаемые выравнивания являются наилучшими. Для получения более подробной информации обратитесь к веб-сайту ^Bowtie26.

4. Выровняйте чистые показания по геному

Создайте индекс генома.
мкдир STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. ГРЧ38.104.gtf
Выровняйте чистые показания (без загрязнения рРНК) по созданному эталону.
для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
делать
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
Договорились
ПРИМЕЧАНИЕ: Нешаблонный нуклеотид часто добавляется к 5'-концу каждого чтения обратной транскриптазой27, которая будет эффективно обрезана STAR, поскольку она выполняет мягкую обрезку по умолчанию. Параметры star описаны в руководстве ^STAR28.
Файлы сортировки и выравнивания индексов.
для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
делать
samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
индекс samtools ${i}. Aligned.toTranscriptome.out.sorted.bam
индекс samtools ${i}. Выровненный.сортированныйByCoord.out.bam
Договорились

5. Подбор размеров РПФ и идентификация их Р-сайтов

Подготовьте аннотации стенограммы.
prepare_transcripts -g Homo_sapiens. ГРЧ38.104.gtf \
-ф Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
ПРИМЕЧАНИЕ: Эта команда собирает необходимую информацию о транскриптах мРНК из файла GTF и извлекает последовательности для всех транскриптов мРНК из файла FASTA (каждая расшифровка собирается путем слияния экзонов в соответствии со структурами, определенными в файле GTF).
Выберите RPF определенной длины и определите их позиции на P-сайте.
для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
делать
metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
Договорились
ПРИМЕЧАНИЕ: Эта команда строит агрегированные профили 5' конца выровненных чтений каждой длины вокруг аннотированных кодонов начала (или остановки) перевода. P-сайт, зависящий от длины считывания, может быть определен вручную путем изучения графиков распределения (например, рисунок 1B) расстояний смещения между 5' концами основных считываний и начальным кодоном. RiboCode также генерирует конфигурационный файл для каждого образца, в котором автоматически определяются позиции P-сайта считывания, отображающие значительные шаблоны периодичности 3-nt. Параметры -f0_percent, -pv1 и -pv2 определяют пороговое значение пропорции и отсечки p-значения для выбора считывания RPF, обогащенного в кадре чтения. В этом примере нуклеотиды +12, +13 и +13 из 5' конца 29, 30 и 31 nt считываются вручную в каждом конфигурационном файле.
Редактирование файлов конфигурации для каждого примера и их объединение
ПРИМЕЧАНИЕ: Для создания консенсусного набора уникальных ORF и обеспечения достаточного охвата считываний для выполнения последующего анализа выбранные чтения всех образцов на предыдущем шаге объединяются. Считывания определенной длины, определенной в файле merged_config.txt (дополнительный файл 1), и их информация о P-сайте используются для оценки потенциала перевода ORF на следующем этапе.

6. De novo annotate перевод ORF

Запустите RiboCode.
РибоКод -a RiboCode_annot -c merged_config.txt -l yes -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Если важные параметры этой команды следующие:
-c, конфигурационный файл, содержащий путь к входным файлам и информацию о выбранных чтениях и их P-сайтах.
-l, для транскриптов, имеющих несколько стартовых кодонов выше по течению от стоп-кодонов, используются ли для оценки их переводного потенциала самые длинные ORF (область от самого дистального стартового кодона до стоп-кодона). Если задано значение нет, начальные кодоны будут определены автоматически.
-s, канонический стартовый кодон(ы), используемый для идентификации ORF.
-A, (необязательно) неканонические стартовые кодоны (например, CTG, GTG и TTG для человека), используемые для идентификации ORF, которые могут отличаться в митохондриях или ядре других ^видов29.
-m, минимальная длина (т.е. аминокислот) ОВФ.
-o, префикс имени выходного файла, содержащий сведения о прогнозируемых ORFs (Дополнительный файл 2).
-g и -b, вывод прогнозируемых ORF в формат gtf или bed соответственно.

7. (Необязательно) количественная оценка и статистика ORF

Подсчет RPF считывает в каждом ORF.
для i в si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
делать
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c пересечение-строгое
Договорились
ПРИМЕЧАНИЕ: Чтобы исключить потенциально накапливающиеся рибосомы вокруг начала и конца ORF, количество считываний, выделенных в первых 15 ( указанных -f) и последних 5 кодонах (специфичных по -l), не учитывается. Опционально длины подсчитанных RPF ограничены диапазоном от 25 до 35 нт (общие размеры RPF).
Рассчитайте базовую статистику обнаруженных ORF с помощью RiboCode:
Rscript RiboCode_utils. R
ПРИМЕЧАНИЕ: RiboCode_utils. R (Дополнительный файл 3) предоставляет ряд статистических данных для выходных данных RiboCode, например, подсчет количества идентифицированных ORF, просмотр распределения длин ORF и вычисление нормализованных плотностей RPF (т.е. RPKM, считывание на килобазу на миллион сопоставленных чтений).

8. (Необязательно) Визуализация прогнозируемых ORF

Получить относительные положения кодонов старта и остановки для требуемого ORF (например, ENSG00000100902_35292349_35292552_67) на его расшифровке из RiboCode_ORFs_result_collapsed.txt (Дополнительный файл 3). Затем график плотности RPF читается в ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --старт-кодон ATG -o ENSG00000100902_35292349_35292552_67
Где -s и -e указывают начальную и конечную позицию перевода построения ORF. --start-codon определяет стартовый кодон ORF, который появится в заголовке рисунка. -o определяет префикс имени выходного файла.

9. (Необязательно) Анализ метагенов с помощью RiboMiner

ПРИМЕЧАНИЕ: Выполните анализ метагенов для оценки влияния нокдауна EIF3E на трансляцию идентифицированных аннотированных ORF, выполнив следующие шаги:

Генерируйте аннотации транскриптов для RiboMiner, который извлекает самый длинный транскрипт для каждого гена на основе файла аннотации, сгенерированного RiboCode (шаг 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-г Homo_sapiens. ГРЧ38.104.gtf -ф RiboCode_annot/transcripts_sequence.фа \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Подготовьте конфигурационный файл для RiboMiner. Скопируйте конфигурационный файл, сгенерированный командой metaplots в RiboCode (шаг 5.4), и переименуйте его в "RiboMiner_config.txt". Затем измените его в соответствии с форматом, показанным в дополнительном файле 4.
Анализ метагенов с помощью RiboMiner
1. Используйте MetageneAnalysis для создания агрегированного и усредненного профиля плотностей RPF по транскриптам.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U кодон -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --норма да \
  -y 100 --тип UTR
  Если важными параметрами являются: --type, анализ регионов CDS или UTR ; --норма, нормализуется ли плотность считывания; -y, количество кодонов, используемых для каждой стенограммы; -U, плотность графика RPF либо на уровне кодона, либо на уровне nt ; -u и -d, определяют диапазон анализирующих областей относительно стартового кодона или стоп-кодона; -l, минимальная длина (т.е. количество кодонов) CDS; -M, режим фильтрации транскриптов, либо счетчиков , либо RPKM; -n минимальных подсчетов или RPKM в CDS для анализа. -m минимальное количество или RPKM CDS в нормализованной области; -e, количество кодонов, исключенных из нормализованной области.
2. Сгенерировать набор pdf-файлов для сравнения оккупантности рибосом на мРНК в контрольных клетках и клетках с дефицитом eIF3.
  PlotMetageneАнализ -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode среднее
  ПРИМЕЧАНИЕ: PlotMetageneAnalysis генерирует набор pdf-файлов. Подробная информация об использовании MetageneAnalysis и PlotMetageneAnalysis доступна на сайте RiboMiner30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Примеры наборов данных профилирования рибосом были депонированы в базе данных ГЭП под номером присоединения GSE131074. Все файлы и коды, используемые в этом протоколе, доступны из дополнительных файлов 1-4. Применяя RiboCode к набору опубликованных наборов данных профилирования ^{рибосом23}, мы идентифицировали новые ORF, активно транслировавшиеся в клетках MCF-10A, обработанных контрольными и EIF3E siRNAs. Чтобы выбрать показания RPF, которые, скорее всего, связаны переводящими рибосомами, были изучены длины показаний секвенирования, и был проведен анализ метагенов с использованием RPF, которые отображались на известных генах трансляции. Частотное распределение длин считывания показало, что большинство РПФ составляли 25-35 нт (рисунок 1А), что соответствует нуклеотидной последовательности, покрытой рибосомами, как и ожидалось. Местоположения P-сайтов для разной длины RPF были определены путем изучения расстояний от их 5' концов до аннотированных кодонов запуска и остановки, соответственно (рисунок 1B). Показания RPF в пределах 28-32nt показали сильную периодичность 3-nt, а их P-сайты были на уровне +^12-го nt (Дополнительный файл 1).

RiboCode ищет кандидатов ORF от канонического стартового кодона (AUG) или альтернативных стартовых кодонов (необязательных, например, CUG и GUG) до следующего стоп-кодона. Затем, основываясь на результатах отображения RPF в пределах определенного диапазона, RiboCode оценивает периодичность 3-nt, оценивая, превышает ли количество внутрикадровых RPF (т.е. их P-сайтов, выделенных на первом нуклеотиде каждого кодона) количество внекадровых RPF (т.е. их P-сайтов, выделенных на втором или третьем нуклеотиде каждого кодона). Мы идентифицировали 13 120 генов, потенциально транслирующих ORF с p < 0,05, среди них 10 394 гена (70,8%), кодирующих аннотированные ORF, 168 (1,1%) генов, кодирующих dORFs, 509 (3,5%) генов, кодирующих uORF, 939 (6,4%) генов, кодирующих upstream или downstream ORF, перекрывающихся с известными аннотированными ORF (overlapped), и 68 (0,5%) генов, кодирующих новые ORF, и 2 601 (17,7%), ранее назначенных как некодирующие гены, кодирующие новые ORF (рисунок 2 и дополнительный файл 3)

Сравнение размеров различных ORF показало, что uORF и перекрывающиеся ORF короче (в среднем 195 и 188 nt соответственно), чем аннотированные ORF (~1,771 nt). Та же тенденция наблюдалась и для новых ORF (670 и 385 nt в среднем для новых PCG и новых nonPCGS, соответственно) и dORF (~671 nt) (рисунок 3). Вместе эти неканонические ORF (неаннотированные), идентифицированные RiboCode, имели тенденцию кодировать пептиды, которые меньше, чем те известные аннотированные ORF.

Относительные показатели РПФ были рассчитаны для каждого ORF для оценки функции EIF3 в процессах перевода. Результаты показали, что плотность рибосом uORF была значительно выше в клетках с дефицитом EIF3E, чем в контрольных клетках (рисунок 4). Поскольку сообщалось, что многие uORF оказывают ингибирующее воздействие на трансляцию нисходящих кодирующих ORF, мы дополнительно изучили, изменяет ли нокдаун EIF3E глобальную плотность RPF после стартовых кодонов (рисунок 5). Анализ метагенов, в котором многие профили ORF были выровнены, а затем усреднены, показал, что масса рибосом застряла между кодонами 25 и 75 ниже по течению от начального кодона, предполагая, что удлинение трансляции может быть заблокировано на ранней стадии клеток с дефицитом EIF3E. Необходимы дальнейшие исследования для изучения того, способствует ли отношение сигнал-шум или изменения в эффективности трансляции ORF увеличению uORF RPKM и накоплению рибосом между кодонами 25-75 в отсутствие EIF3E, то есть 1) меньшее загрязнение (или хорошее качество библиотеки) или 2) активная трансляция (или пауза рибосомы) в образцах без EIF3E приводит к большему количеству считываний в uORF и в определенной области между ^25-й и ^75-й кодоны.

Наконец, RiboCode также обеспечивает визуализацию плотностей P-сайтов RPF на желаемых ORF, что может помочь пользователям изучить паттерны периодичности 3-nt и плотности RPF. Например, на рисунке 6 представлены плотности RPF на uORF PSMA6 и dORF SENP3-EIF4A1; оба были подтверждены опубликованными данными ^{протеомики23} (данные не показаны).

Рисунок 1: Оценка считывания секвенирования и позиций P-сайта. (A) Распределение длины защищенных рибосомных фрагментов (RPF) в клетках с дефицитом EIF3E в репликации 1 (si-eIF3e-1); (B) Вывод положения P-сайта RPF 29nt на основе их плотности вокруг известных стартовых (сверху) и стоп-кодонов (внизу). Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 2: Процент генов, содержащих различные типы ORF, идентифицированных RiboCode с использованием всех образцов вместе. Сокращения: ORF = открытая рамка чтения; dORF = нисходящий ORF; PCG = ген, кодирующий белок; NonPCG = непротеин-кодирующий ген; uORF = восходящий ORF. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 3: Распределения длин различных типов ORF. Сокращения: ORF = открытая рамка чтения; dORF = нисходящий ORF; PCG = ген, кодирующий белок; NonPCG = непротеин-кодирующий ген; uORF = восходящий ORF; nt = нуклеотид. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 4: Сравнение нормализованного количества считываний для различных типов ORF между контрольными и EIF3E-дефицитными клетками. p-значения были определены с помощью теста знакового ранга Уилкоксона. Аббревиатура: ORF = открытая рамка чтения; dORF = нисходящий ORF; PCG = ген, кодирующий белок; NonPCG = непротеин-кодирующий ген; uORF = восходящий ORF; RPKM = чтение на килобазу на миллион сопоставленных считываний; siRNA = малоинтерферная РНК; si-Ctrl = контроль siRNA; si-eIF3e = siRNA, нацеленная на EIF3E. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 5: Метагенный анализ, показывающий сваливание рибосом на 25-75-м кодоне ниже по течению от стартового кодона аннотированных ORF. Аббревиатура: ORF = открытая рамка чтения; siRNA = малоинтерферная РНК; si-Ctrl = контроль siRNA; si-eIF3e = siRNA, нацеленная на EIF3E; А. У., любая единица. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 6: Профили плотности P-сайта примера ORF, кодирующих микропептиды. (A) Плотности P-сайта прогнозируемого uORF и его положение относительно аннотированных CDS на транскрипте ENST00000622405; (B) то же самое, что и в A , но для прогнозируемого dORF в транскрипте ENST00000614237. Нижняя панель, показывающая увеличенное представление прогнозируемого uORF (A) или dORF (B). Красная полоса = чтение в кадре; Зеленые и синие полосы = внекадровое чтение. Аббревиатура: ORF = открытая рамка чтения; dORF = нисходящий ORF; uORF = восходящий ORF; CDS = кодирование последовательностей. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Дополнительная информация: Оценка зависимости между двумя p-значениями и объяснение результатов RiboCode (uORF ATF4 в качестве примера). Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 1: Конфигурационный файл для RiboCode, определяющий выбранные длины RPF и позиций P-сайта. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 2: Выходной файл RiboCode, содержащий информацию о прогнозируемых ORFs. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 3: Файл скрипта R для выполнения базовой статистики вывода RiboCode. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 4: Конфигурационный файл (для RiboMiner), измененный из дополнительного файла 1. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Профилирование рибосом дает беспрецедентную возможность изучить действие рибосом в клетках в масштабе генома. Точная расшифровка информации, переносимой данными профилирования рибосом, может дать представление о том, какие области генов или транскриптов активно транслируются. Этот пошаговый протокол содержит рекомендации по использованию RiboCode для детального анализа данных профилирования рибосом, включая установку пакета, подготовку данных, выполнение команд, объяснение результатов и визуализацию данных. Результаты анализа RiboCode показали, что трансляция распространена и происходит на неаннотированных ORF кодирующих генов и многих транскриптах, ранее считавшихся некодирующими. Последующий анализ показал, что рибосомы движутся вдоль предсказанных ORF в 3-нуклеотидных стадиях по мере трансляции; однако остается неясным, выполняет ли процесс трансляции или произведенные пептиды какую-либо функцию. Тем не менее, точные аннотации перевода ORF на геном могут дать захватывающие возможности для выявления функций ранее нехарактеризованных транскриптов31.

Прогнозирование потенциала кодирования для каждого ORF с использованием данных профилирования рибосом в значительной степени опирается на 3-nt периодичность плотностей P-сайтов на каждом кодоне от начала до стоп-кодонов ORF. Поэтому требуется точное определение местоположения P-сайта считываний различной длины. Такая информация непосредственно не предоставляется данными профилирования рибосом, но может быть выведена из расстояний между 5'-дюймовым концом RPF и аннотированными кодонами запуска или остановки (этап протокола 5.3). Отсутствие аннотаций известных кодонов запуска/остановки в файле GTF, например, для этих вновь собранных геномов, может привести к тому, что RiboCode не сможет выполнить последующие шаги, если точное местоположение P-сайта считываний не определено другими способами. В большинстве случаев размер связанных рибосом фрагментов и их расположение P-сайта постоянны, например, 28-30 нт длиной и +12 нт от 5' конца считываний в клетках человека. RiboCode позволяет выбирать считываемые данные в определенном диапазоне для определения позиций P-сайта на основе опыта. Однако как длина считывания РПФ, так и положение их Р-сайтов могут быть различными, когда изменяются условия окружающей среды (например, стресс или стимул) или экспериментальная процедура (например, нуклеаза, буфер, подготовка библиотеки и секвенирование). Поэтому мы рекомендуем выполнить метасюжеты (шаг протокола 5.3) для каждого образца, чтобы извлечь наиболее надежные RPF (т. Е. Чтения, отображающие шаблоны периодичности 3-nt) и определить их позиции P-site в разных условиях. Хотя эти операции могут быть автоматически выполнены с помощью функции метасюжетов , часто только меньшинство чтений, показывающих почти идеальное обрамление или фазирование, проходят строгие критерии отбора и статистический тест. Поэтому по-прежнему необходимо ослабить определенные параметры, особенно «-f0_percent», а затем визуально проверить 3-nt периодичность чтения на каждой длине и вручную отредактировать конфигурационный файл, чтобы включить больше считываний соответственно, особенно когда качество библиотеки плохое (шаг протокола 5.3).

RiboCode ищет кандидатов ORF от канонических или неканонических стартовых кодонов (NUG) до следующего стоп-кодона. Для транскриптов с несколькими стартовыми кодонами вверх по течению от стоп-кодонов наиболее вероятные стартовые кодоны определяются путем оценки 3-нитевой периодичности считываний RPF, отображаемых между двумя соседними стартовыми кодонами, или просто выбора восходящего стартового кодона, имеющего больше внутрикадрового, чем внекадрового чтения RPF. Ограничение такой стратегии заключается в том, что фактические начальные кодоны могут быть неправильно идентифицированы, если показания, согласованные с областями начального кодона, являются редкими или отсутствуют. К счастью, последние стратегии, такие как глобальное секвенирование инициации трансляции (GTI-seq)³² и количественное секвенирование инициации трансляции (QTI-seq)³³, предоставляют более прямые способы обнаружения сайтов инициации трансляции. Для NUG по-прежнему требуется больше исследований для изучения их валидности в качестве эффективных стартовых кодонов.

Мы также выпустили новое обновление для RiboCode, добавив три новые функции: 1) он сообщает о других потенциальных типах ORF, назначенных в соответствии с их местоположением относительно расшифровок, отличных от самого длинного; 2) предусмотрена возможность корректировки комбинированных p-значений, если тестирование считываний РПФ в двух рамках не является независимым (см. более подробное объяснение в Дополнительной информации); 3) выполняет коррекцию p-значения для многократного тестирования, что позволяет более строго проверять перевод ORF.

Поскольку RiboCode идентифицирует активно транслируемые ORF, оценивая 3-nt периодичность плотностей считывания RPF, он имеет определенные ограничения для тех ORF, которые являются чрезвычайно короткими (например, менее 3 кодонов). Spealman et al. сравнили производительность RiboCode с uORF-seqr и сообщили, что ни один uORFs короче 60 nt не прогнозируется RiboCode в их наборе ^{данных34}. Мы утверждаем, что параметр выбора размера ORF (-m) в предыдущей версии RiboCode установлен неправильно. Мы изменили значение по умолчанию этого аргумента на 5 в обновленном RiboCode.

RiboCode сообщает об идентифицированных ORF в двух файлах: «RiboCode_ORFs_result.txt», содержащий все ORF, включая избыточные ORF из разных транскриптов одного и того же гена; «RiboCode_ORFs_result_collapsed.txt» (Дополнительный файл 2), интегрирующий перекрывающиеся ORF с одним и тем же стоп-кодоном, но разными стартовыми кодонами, т. е. тот, который содержит наиболее верхний исходный кодон в том же кадре чтения, будет сохранен. В обоих файлах обнаруженные ORF классифицируются либо на «новые», переводящие ORF, либо на другие различные типы в соответствии с их относительным расположением к известным CDS (см. подробное объяснение типов ORF из RiboCode ^paper22 или на веб-сайте ^RiboCode35). Мы проиллюстрировали, как интерпретировать выходы РибоКода, используя прогнозируемый uORF гена ATF4 в качестве примера (Дополнительная информация). RiboCode также подсчитывает количество генов, содержащих различные типы ORF, и строит их вместе с их процентами (рисунок 2).

Исследование показало, что некоторые экспрессированные, но трансляционно покоящиеся гены могут быть активированы для перевода в пептиды при окислительном ^{стрессе12}, что указывает на то, что, вероятно, существуют другие ORF, которые могут быть переведены только в зависимости от состояния. РибоКод может быть выполнен для различных экспериментальных условий отдельно (например, si-Ctrl или si-eIF3e) или совместно, как показано в настоящем протоколе (этапы 5.4 и 6.1). Мультиплексирование нескольких образцов в один прогон путем определения длины и положения P-сайта выбранных считываемых объектов в разделе «merged_config.txt» имеет ряд преимуществ по сравнению с обработкой каждого образца по отдельности. Во-первых, это уменьшает смещения, присутствующие в одной выборке; во-вторых, это экономит время работы программы; наконец, он предоставляет достаточно данных для проведения статистики. Таким образом, теоретически он работает лучше, чем режим одиночного образца, особенно для образцов с низким покрытием секвенирования и высоким фоновым шумом. Дальнейшая количественная оценка и сравнение чисел RPF, назначенных прогнозируемым ORF между различными условиями (например, si-eIF3e против si-Ctrl), позволяют нам обнаружить контекстно-зависимые ORF или исследовать трансляционную регуляцию ORF.

Отметим, что из-за накопления рибосом в начале и конце ОРФ, явления, называемого «рампой трансляции», РПФ, присвоенные в первых 15 кодонах и последних 5 кодонах, должны быть исключены из подсчета считываний, чтобы избежать анализа дифференциального смещения перевода ОРФ к различиям скоростей инициации3,5^;^36. Эти результаты показали, что обилие типов uORF выше в клетках без EIF3, чем в контрольных клетках, что может быть вызвано (или, по крайней мере, частично) повышенными уровнями активно транслицирующихся рибосом. Мета-анализ плотностей RPF вокруг стартовых кодонов также показал, что удлинение ранней трансляции регулируется EIF3E. Обратите внимание, что простой подсчет показаний RPF в ORF не является точным для количественной оценки перевода, особенно когда удлинение перевода сильно заблокировано.

Таким образом, этот протокол показывает, что RiboCode может быть легко применен для идентификации новых переведенных ORF любого размера, включая те, которые кодируют микропептиды. Это было бы ценным инструментом для исследовательского сообщества, чтобы обнаружить различные типы ORF в различных физиологических контекстах или экспериментальных условиях. Дальнейшая валидация белковых или пептидных продуктов из этих ORF была бы полезна для разработки будущих применений профилирования рибосом.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

У авторов нет конфликта интересов для раскрытия.

Acknowledgments

Авторы хотели бы отметить поддержку со стороны вычислительных ресурсов, предоставляемых платформой HPCC Сианьского университета Цзяотун. Z.X. благодарит План поддержки талантов Young Topnotch Сианьского университета Цзяотун.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Идентификация активно транслируемых открытых кадров чтения с данными профилирования рибосом

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.