Biology

De novo Identifiering av aktivt översatta öppna läsramar med ribosomprofileringsdata

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

Översättning av ribosomer avkodar tre nukleotider per kodon till peptider. Deras rörelse längs mRNA, fångad av ribosomprofilering, producerar fotavtrycken som uppvisar karakteristisk triplettperiodicitet. Detta protokoll beskriver hur man använder RiboCode för att dechiffrera denna framträdande funktion från ribosomprofileringsdata för att identifiera aktivt översatta öppna läsramar på hela transkriptomnivån.

Abstract

Identifiering av öppna läsramar (ORF), särskilt de som kodar för små peptider och aktivt översätts under specifika fysiologiska sammanhang, är avgörande för omfattande anteckningar av kontextberoende translatomer. Ribosomprofilering, en teknik för att detektera bindningsplatser och densiteter för att översätta ribosomer på RNA, erbjuder en väg att snabbt upptäcka var översättning sker i genomomfattande skala. Det är emellertid inte en trivial uppgift inom bioinformatik att effektivt och omfattande identifiera de översättande ORF: erna för ribosomprofilering. Här beskrivs ett lättanvänt paket, med namnet RiboCode, som är utformat för att aktivt översätta ORF:er av alla storlekar från förvrängda och tvetydiga signaler i ribosomprofileringsdata. Med vår tidigare publicerade datauppsättning som exempel innehåller den här artikeln stegvisa instruktioner för hela RiboCode-pipelinen, från förbearbetning av rådata till tolkning av de slutliga utdataresultatfilerna. För att utvärdera översättningshastigheterna för de kommenterade ORF: erna beskrivs dessutom förfaranden för visualisering och kvantifiering av ribosomdensiteter på varje ORF också i detalj. Sammanfattningsvis är den här artikeln en användbar och aktuell instruktion för forskningsområdena relaterade till översättning, små ORF och peptider.

Introduction

Nyligen har en växande mängd studier avslöjat utbredd produktion av peptider översatta från ORF av kodande gener och de tidigare kommenterade generna som icke-kodande, såsom långa icke-kodande RNA (lncRNA) 1,2,3,4,5,6,7,8. Dessa översatta ORF regleras eller induceras av celler för att reagera på miljöförändringar, stress och celldifferentiering1,8,9,10,11,12,13. Översättningsprodukterna från vissa ORF har visat sig spela viktiga regulatoriska roller i olika biologiska processer inom utveckling och fysiologi. Till exempel upptäckte Chng et ^al.14 ett peptidhormon som heter Elabela (Ela, även känt som Apela / Ende / Toddler), vilket är avgörande för kardiovaskulär utveckling. Pauli et al. föreslog att Ela också fungerar som en mitogen som främjar cellmigration i det tidiga ^{fiskembryot15}. Magny et al. rapporterade två mikropeptider av mindre än 30 aminosyror som reglerar kalciumtransport och påverkar regelbunden muskelkontraktion i Drosophila-hjärtat10.

Det är fortfarande oklart hur många sådana peptider som kodas av genomet och om de är biologiskt relevanta. Därför är systematisk identifiering av dessa potentiellt kodande ORF mycket önskvärt. Att direkt bestämma produkterna från dessa ORF (dvs. protein eller peptid) med hjälp av traditionella metoder såsom evolutionär ^{bevarande16,17} och masspektrometri18,19 är emellertid utmanande eftersom ^{detektionseffektiviteten} för båda metoderna är beroende av längden, överflödet och aminosyrasammansättningen hos de producerade proteinerna eller peptiderna. Tillkomsten av ribosomprofilering, en teknik för att identifiera ribosomens beläggning på mRNA vid nukleotidupplösning, har gett ett exakt sätt att utvärdera kodningspotentialen för olika transkript3,20,21, oavsett deras längd och sammansättning. En viktig och ofta använd funktion för att identifiera aktivt översätta ORF med ribosomprofilering är tre-nukleotid (3-nt) periodiciteten hos ribosomens fotavtryck på mRNA från startkodon till stoppkodonet. Ribosomprofileringsdata har emellertid ofta flera problem, inklusive låga och glesa sekvenseringsläsningar längs ORF, högt sekvenseringsbrus och ribosomala RNA (rRNA) -föroreningar. Således försvagar de förvrängda och tvetydiga signalerna som genereras av sådana data 3-nt periodicitetsmönstren för ribosomernas fotavtryck på mRNA, vilket i slutändan gör identifieringen av de högförtroendeöversatta ORF: erna svåra.

Ett paket med namnet "RiboCode" anpassade ett modifierat Wilcoxon-signerat rank-test och P-värdesintegrationsstrategi för att undersöka om ORF har betydligt fler ribosomskyddade fragment i ramen (RPF) än RPF:er utanför ^ramen22. Det visade sig vara mycket effektivt, känsligt och korrekt för de novo-anteckning av översättningen i simulerade och verkliga ribosomprofileringsdata. Här beskriver vi hur du använder det här verktyget för att upptäcka potentialen att översätta ORF:er från de råa ribosomprofileringssekvenseringsdataset som genererades av den tidigare ^studien23. Dessa dataset hade använts för att undersöka funktionen hos EIF3-underenheten "E" (EIF3E) i översättning genom att jämföra ribosombeläggningsprofilerna för MCF-10A-celler transfekterade med kontroll (si-Ctrl) och EIF3E (si-eIF3e) små interfererande RNA (siRNA). Genom att tillämpa RiboCode på dessa exempeldatauppsättningar upptäckte vi 5 633 nya ORF som potentiellt kodar för små peptider eller proteiner. Dessa ORF kategoriserades i olika typer baserat på deras platser i förhållande till de kodande regionerna, inklusive uppströms ORF (uORF), nedströms ORF (dORF), överlappade ORF, ORF från nya proteinkodande gener (nya PCG) och ORF från nya icke-proteinkodande gener (nya icke-PCPG). RPF-läsdensiteterna på uORF ökade signifikant i EIF3E-bristfälliga celler jämfört med kontrollceller, vilket åtminstone delvis kan orsakas av anrikningen av aktivt översättande ribosomer. Den lokaliserade ribosomackumuleringen i regionen från den 25^{: e} till 75^{: e} kodonen av EIF3E-bristfälliga celler indikerade en blockering av översättningsförlängning i det tidiga skedet. Detta protokoll visar också hur man visualiserar RPF-densiteten för den önskade regionen för att undersöka 3-nt periodicitetsmönstren för ribosomfotavtryck på identifierade ORF. Dessa analyser visar RiboCodes kraftfulla roll när det gäller att identifiera översättning av ORF och studera reglering av översättning.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Miljöinställning och RiboCode-installation

Öppna ett Linux-terminalfönster och skapa en conda-miljö:
conda create -n RiboCode python=3.8
Växla till den skapade miljön och installera RiboCode och beroenden:
conda aktivera RiboCode
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Förberedelse av data

Hämta genomreferensfiler.
1. För referenssekvensen, gå till Ensemble-webbplatsen på https://www.ensembl.org/index.html, klicka på toppmenyn Ladda ner och vänstermenyn FTP Download. I den presenterade tabellen klickar du på FASTA i kolumnen DNA (FASTA) och raden där Species is Human. På den öppnade sidan kopierar du länken till Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz och ladda sedan ner och packa upp den i terminalen:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. För referenskommentar, högerklicka gtf i kolumnen Genuppsättningar på den senast öppnade webbsidan. Kopiera länken till Homo_sapiens. GRCh38.104.gtf.gz och ladda ner den med:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  OBS: Det rekommenderas att hämta GTF-filen från Ensemble-webbplatsen eftersom den innehåller genomanteckningar organiserade i en hierarki på tre nivåer, dvs varje gen innehåller transkriptioner som innehåller exoner och valfria översättningar (t.ex. kodningssekvenser [CDS], översättningsstartplats, översättningsslutplats). När en gens eller transkriptions anteckningar saknas, till exempel en GTF-fil som erhållits från UCSC eller NCBI, använd GTFupdate för att generera en uppdaterad GTF med fullständiga överordnade-underordnade hierarkianteckningar: GTFupdate original.gtf > updated.gtf. För anteckningsfilen i .gff-format använder du AGAT ^toolkit24 eller något annat verktyg för att konvertera till .gtf-formatet.
Få rRNA-sekvenser.
1. Öppna UCSC Genome Browser på https://genome.ucsc.edu och klicka på Verktyg | Tabellwebbläsare i listrutan.
2. På den öppnade sidan anger du Däggdjur för klad, Människa för genom, Alla tabeller för grupp, rmask för tabell och genom för region. För filter klickar du på Skapa för att gå till en ny sida och ange repClass som matchar rRNA.
3. Klick Skicka och ställ sedan in utdataformatet till sekvens - och utdatafilnamn som hg38_rRNA.fa. Klicka slutligen på Hämta | Hämta sekvens för att hämta rRNA-sekvensen.
Hämta datauppsättningar för ribosomprofilering från Sequence Read Archive (SRA).
1. Ladda ned replikatproverna för si-eIF3e-behandlingsgruppen och byt namn på dem:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Ladda ned replikerade exempel på kontrollgruppen och byt namn på dem:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SRR9047195.fastq si-Ctrl-3.fastq
  OBS: SRA-anslutnings-ID:erna för dessa exempeldatauppsättningar erhölls från webbplatsen Gene Expression Omnibus (GEO)²⁵ genom att söka efter GSE131074.

3. Trimma adaptrar och ta bort rRNA-kontaminering

(Valfritt) Ta bort adaptrar från sekvenseringsdata. Hoppa över det här steget om adaptersekvenserna redan har trimmats, som i det här fallet. Annars använder du cutadapt för att trimma adaptrarna från läsningar.
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
göra
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
färdig
Adaptersekvensen efter parametern -a varierar beroende på förberedelse av cDNA-biblioteket. Läsningar kortare än 15 (ges av -m) kasseras eftersom de ribosomskyddade fragmenten vanligtvis är längre än denna storlek.
Ta bort rRNA-kontaminering med följande steg:
1. Index rRNA-referenssekvenser:
  fluga-build -f hg38_rRNA.fa hg38_rRNA
2. Justera läsningarna till rRNA-referens för att utesluta läsningarna som härrör från rRNA:
  for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  göra
  fluga -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  färdig
  -p anger antalet trådar för att köra aktiviteterna parallellt. Med tanke på RPF-läsningarnas relativt lilla storlek bör andra argument (t.ex. -n, -y, -a, -norc, --best, --strata och -l) specificeras för att garantera att de rapporterade anpassningarna är bäst. För mer information, se Bowties ^webbplats26.

4. Anpassa de rena läsningarna till genomet

Skapa ett genomindex.
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Justera de rena läsningarna (ingen rRNA-kontaminering) till den skapade referensen.
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
göra
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
färdig
OBS: En omallerad nukleotid läggs ofta till i 5 '-änden av varje läsning av det omvända transkriptaset27, vilket effektivt kommer att trimmas av STAR eftersom det utför mjukklippning som standard. Parametrarna för STAR beskrivs i STAR ^manual28.
Sortera och indexera justeringsfiler.
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
göra
samtools sortera -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}. Aligned.sortedByCoord.out.bam
färdig

5. Storleksval av RPF och identifiering av deras P-platser

Förbered transkriptionsanteckningarna.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
Obs: Detta kommando samlar in nödvändig information om mRNA-transkriptioner från GTF-filen och extraherar sekvenserna för alla mRNA-transkriptioner från FASTA-filen (varje transkript monteras genom att slå samman exonerna enligt de strukturer som definieras i GTF-filen).
Välj RPF med specifika längder och identifiera deras P-platspositioner.
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
göra
metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0,35 -pv1 0,001 -pv2 0,001
färdig
OBS: Det här kommandot ritar de aggregerade profilerna för 5'-änden av de justerade läsningarna för varje längd runt kommenterade översättningsstart-kodoner (eller -stopp). Den läslängdsberoende P-platsen kan bestämmas manuellt genom att undersöka fördelningsdiagram (t.ex. figur 1B) för förskjutningsavstånd mellan 5 'ändar av huvudavläsningarna och startkodonet. RiboCode genererar också en konfigurationsfil för varje prov, där P-platspositionerna för läsningar som visar signifikanta 3-nt periodicitetsmönster bestäms automatiskt. Parametrarna -f0_percent, -pv1 och -pv2 definierar proportionströskeln och p-värdesavbrotten för att välja RPF-läsningar som berikats i läsramen. I det här exemplet definieras nukleotiderna +12, +13 och +13 från 5'-änden av läsningarna 29, 30 och 31 nt manuellt i varje konfigurationsfil.
Redigera konfigurationsfilerna för varje exempel och sammanfoga dem
OBS: För att skapa en konsensusuppsättning unika ORF och säkerställa tillräcklig täckning av läsningar för att utföra efterföljande analys, slås de valda läsningarna av alla prover i föregående steg samman. Läsningarna av specifika längder som definieras i merged_config.txt fil (tilläggsfil 1) och deras P-platsinformation används för att utvärdera översättningspotentialen för ORF i nästa steg.

6. De novo kommentera översättning av ORF

Kör RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l ja -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Där de viktiga parametrarna för detta kommando är följande:
-c, konfigurationsfil som innehåller sökvägen till indatafiler och information om valda läsningar och deras P-platser.
-l, för transkriptioner med flera startkodoner uppströms stoppkodonerna, oavsett om de längsta ORF: erna (regionen från det mest distala startkodonet för att stoppa kodon) används för att utvärdera deras översättningspotential. Om det är inställt på nej bestäms startkodonerna automatiskt.
-s, det eller de kanoniska startkodon som används för ORF-identifiering.
-A, (valfritt) de icke-kanoniska startkodonerna (t.ex. CTG, GTG och TTG för människa) som används för ORF-identifiering, som kan skilja sig åt i mitokondrier eller kärna av andra ^arter29.
-m, den minsta längden (dvs. aminosyror) av ORF.
-o, prefixet för utdatafilnamnet som innehåller information om förutsagda ORF:er (tilläggsfil 2).
-g och -b, mata ut de förutsagda ORF: erna till gtf respektive sängformat .

7. (Valfritt) ORF-kvantifiering och statistik

Räkna RPF-läsningar i varje ORF.
for i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
göra
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s ja -c korsning-strikt
färdig
OBS: För att utesluta de potentiella ackumulerande ribosomerna runt början och slutet av ORF räknas inte antalet läsningar som tilldelats i de första 15 (specificerade med -f) och de sista 5 kodonerna (specifika med -l). Eventuellt är längderna på räknade RPF begränsade till intervallet från 25 till 35 nt (vanliga storlekar på RPF).
Beräkna grundläggande statistik över de upptäckta ORF: erna med RiboCode:
Rscript RiboCode_utils. R
NOTERA: RiboCode_utils. R (Supplemental File 3) tillhandahåller en serie statistik för RiboCode-utdata, t.ex. att räkna antalet identifierade ORF: er, visa fördelningen av ORF-längder och beräkna de normaliserade RPF-densiteterna (dvs. RPKM, läsningar per kilobas per miljon mappade läsningar).

8. (Valfritt) Visualisering av de förutsagda ORF:erna

Hämta de relativa positionerna för start- och stoppkodonerna för önskad ORF (t.ex. ENSG00000100902_35292349_35292552_67) på dess transkript från RiboCode_ORFs_result_collapsed.txt (kompletterande fil 3). Plotta sedan densiteten för RPF läser i ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-kodon ATG -o ENSG00000100902_35292349_35292552_67
Där -s och -e anger översättningens start- och stoppposition för plottning av ORF. --start-kodon definierar startkodonet för ORF, som kommer att visas i figurtiteln. -o definierar prefixet för utdatafilens namn.

9. (Valfritt) Metagenanalys med RiboMiner

OBS: Utför metagenanalysen för att bedöma påverkan av EIF3E-knockdown på översättningen av identifierade kommenterade ORF: er, enligt stegen nedan:

Generera transkriptionsanteckningar för RiboMiner, som extraherar det längsta transkriptet för varje gen baserat på anteckningsfilen som genereras av RiboCode (steg 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Förbered konfigurationsfilen för RiboMiner. Kopiera konfigurationsfilen som genereras av metaplots-kommandot i RiboCode (steg 5.4) och byt namn på den till "RiboMiner_config.txt". Ändra den sedan enligt det format som visas i Tilläggsfil 4.
Metagenanalyser med RiboMiner
1. Använd MetageneAnalysis för att generera en aggregerad och genomsnittlig profil av RPF: s densiteter över transkriptioner.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm ja \
  -y 100 --typ UTR
  Där viktiga parametrar är: --type, analysera antingen CDS - eller UTR-regioner ; --norm, oavsett om läsdensiteten normaliseras; -y, antalet kodoner som används för varje transkript; -U, plott RPF-densitet antingen på kodonnivå eller nt-nivå ; -u och -d, definiera intervallet för analysregioner i förhållande till startkodon eller stoppkodon; -l, CDS:s minsta längd (dvs. antalet kodoner). -M, läget för transkriptionsfiltrering, antingen antal eller RPKM; -n minsta antal eller RPKM i CDS för analys. -m minsta antal eller RPKM för CDS i den normaliserade regionen; -e, antalet kodoner som utesluts från den normaliserade regionen.
2. Generera en uppsättning pdf-filer för att jämföra ribosombeläggningarna på mRNA i kontrollceller och eIF3-bristfälliga celler.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode medelvärde
  OBS: PlotMetageneAnalysis genererar uppsättningen pdf-filer. Detaljer om användningen av MetageneAnalysis och PlotMetageneAnalysis finns på RiboMiners ^webbplats30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Exempeldatauppsättningarna för ribosomprofilering deponerades i GEO-databasen under anslutningsnumret GSE131074. Alla filer och koder som används i detta protokoll är tillgängliga från tilläggsfiler 1-4. Genom att tillämpa RiboCode på en uppsättning publicerade ribosomprofileringsdataset23 identifierade vi de nya ORF:er som aktivt översatts i MCF-10A-celler behandlade med kontroll och EIF3E-siRNA. För att välja de RPF-läsningar som sannolikt är bundna av de översättande ribosomerna undersöktes längderna på sekvenseringsläsningarna och en metagenanalys utfördes med hjälp av RPF: erna som kartlade de kända översättningsgenerna. Frekvensfördelningen av läsningarnas längder visade att de flesta RPF var 25-35 nt (figur 1A), vilket motsvarar en nukleotidsekvens täckt av ribosomerna som förväntat. P-platsplatserna för olika längder av RPF bestämdes genom att undersöka avstånden från deras 5 'ändar till de kommenterade start- respektive stoppkodonerna (figur 1B). RPF-läsningarna inom 28-32nt visade stark 3-nt periodicitet, och deras P-platser var vid +12^{: e} nt (kompletterande fil 1).

RiboCode söker efter kandidat-ORF:erna från ett kanoniskt startkodon (AUG) eller alternativa startkodoner (valfritt, t.ex. CUG och GUG) till nästa stoppkodon. Sedan, baserat på kartläggningsresultaten för RPF inom det definierade intervallet, bedömer RiboCode periodiciteten på 3 nt genom att utvärdera om antalet RPF i ramen (dvs. deras P-platser som tilldelats på den första nukleotiden för varje kodon) är större än antalet RPF utanför ramen (dvs. deras P-platser som tilldelats på den andra eller tredje nukleotiden för varje kodon). Vi identifierade 13 120 gener som potentiellt översätter ORF med p < 0,05, bland dem 10 394 gener (70,8%) som kodar för kommenterade ORF, 168 (1,1%) gener som kodar för dORF, 509 (3,5%) gener som kodar för uORF, 939 (6,4%) gener som kodar uppströms eller nedströms ORF överlappade med kända kommenterade ORF (Överlappande) och 68 (0,5%) proteinkodande gener som kodar för nya ORF och 2 601 (17,7%) som tidigare tilldelats som icke-kodande gener som kodar för nya ORF (figur 2 och kompletterande fil 3)

Jämförelse av storlekar på olika ORF visade att uORF och överlappande ORF är kortare (195 respektive 188 nt i genomsnitt) än kommenterade ORF (~ 1 771 nt). Samma trend observerades också för nya ORF (670 och 385 nt i genomsnitt för nya PCG respektive nya icke-PCPG) och dORF (~ 671 nt) (figur 3). Tillsammans tenderade de icke-kanoniska ORF (okommenterade) som identifierades av RiboCode att koda peptider som är mindre än de kända kommenterade ORF: erna.

Relativa RPF-antal beräknades för varje ORF för att bedöma EIF3:s funktion i översättningsprocesserna. Resultaten tydde på att ribosomdensiteterna hos uORF var signifikant högre i EIF3E-bristfälliga celler än i kontrollceller (Figur 4). Eftersom många uORF rapporterades ha hämmande effekter på översättningen av nedströms kodande ORF, undersökte vi vidare om EIF3E-knockdown förändrar de globala densiteterna hos RPF nedströms startkodonerna (figur 5). Metagenanalysen, där många ORF: s profiler var inriktade och sedan genomsnittliga, avslöjade att en massa ribosomer stannade mellan kodonerna 25 och 75 nedströms startkodonet, vilket tyder på att översättningsförlängningen kan blockeras tidigt i EIF3E-bristfälliga celler. Ytterligare undersökningar är motiverade för att undersöka om signal-brusförhållandet eller förändringarna i översättningseffektiviteten hos ORF bidrar till ökningen av uORF RPKM och ackumuleringen av ribosomer mellan kodonerna 25 till 75 i frånvaro av EIF3E, det vill säga om 1) mindre kontaminering (eller god bibliotekskvalitet) eller 2) aktiv översättning (eller ribosomuppstängning) i proverna utan EIF3E resulterar i fler läsningar i uORF och i den definierade regionen mellan den 25^{: e} och 75^{: e} kodonen.

Slutligen tillhandahåller RiboCode också visualisering för densiteter av P-platserna för RPF på önskad ORF, vilket kan hjälpa användare att undersöka 3-nt periodicitetsmönster och densiteter för RPF. I figur 6 presenteras till exempel RPF-densiteterna på en uORF för PSMA6 och en dORF för SENP3-EIF4A1. båda validerades av publicerade ^{proteomikdata23} (data visas inte).

Figur 1: Bedömning av sekvenseringsavläsningar och P-platspositioner. (A) Längdfördelning av ribosomskyddade fragment (RPF) i EIF3E-bristfälliga celler i replikat 1 (si-eIF3e-1). (B) Härledning av P-platsposition för RPF på 29nt baserat på deras densiteter runt de kända start- (övre) och stoppkodonerna (botten). Klicka här för att se en större version av denna figur.

Figur 2: Procentandelar av gener som innehåller olika typer av ORF som identifierats av RiboCode med hjälp av alla prover tillsammans. Förkortningar: ORF = öppen läsram; dORF = nedströms ORF, PCG = proteinkodande gen; NonPCG = icke-proteinkodande gen; uORF = uppströms ORF. Klicka här för att se en större version av denna figur.

Figur 3: Längdfördelningar av olika ORF-typer. Förkortningar: ORF = öppen läsram; dORF = nedströms ORF, PCG = proteinkodande gen; NonPCG = icke-proteinkodande gen; uORF = uppströms ORF, nt = nukleotid. Klicka här för att se en större version av denna figur.

Figur 4: Jämförelse av normaliserade läsantal för olika ORF-typer mellan kontroll- och EIF3E-bristfälliga celler. p-värden bestämdes av Wilcoxon-signerat rangtest. Förkortning: ORF = öppen läsram; dORF = nedströms ORF, PCG = proteinkodande gen; NonPCG = icke-proteinkodande gen; uORF = uppströms ORF, RPKM = Läser per kilobas per miljon mappade läsningar; siRNA = småinterfererande RNA; si-Ctrl = kontroll siRNA; si-eIF3e = siRNA som riktar sig mot EIF3E. Klicka här för att se en större version av denna figur.

Figur 5: Metagenanalys som visar stallet av ribosomer vid det 25-75^{: e} kodonet nedströms om startkodonet för kommenterade ORF. Förkortning: ORF = öppen läsram; siRNA = småinterfererande RNA; si-Ctrl = kontroll siRNA; si-eIF3e = siRNA som riktar sig mot EIF3E; A. U., vilken enhet som helst. Klicka här för att se en större version av denna figur.

Figur 6: P-platsdensitetsprofiler för exempel ORF som kodar för mikropeptider. (A) P-platsdensiteter för förutsagd uORF och dess position i förhållande till kommenterad CDS på transkript ENST00000622405; (B) samma som i A men för den förutsagda dORF på transkript ENST00000614237. Nedre panelen som visar den förstorade vyn av förutsagd uORF (A) eller dORF (B). Röd stapel = in-frame läser; Gröna och blå staplar = läsningar utanför ramen. Förkortning: ORF = öppen läsram; dORF = nedströms ORF, uORF = uppströms ORF, CDS = kodningssekvenser. Klicka här för att se en större version av denna figur.

Kompletterande information: Utvärdering av beroendet mellan två p-värden och förklaring av RiboCode-resultat (uORF för ATF4 som exempel). Klicka här för att ladda ner den här filen.

Kompletterande fil 1: Konfigurationsfilen för RiboCode som definierar de valda längderna för RPF och P-platspositioner. Klicka här för att ladda ner den här filen.

Kompletterande fil 2: RiboCode-utdatafil som innehåller information om förutsagda ORF: er. Klicka här för att ladda ner den här filen.

Kompletterande fil 3: R-skriptfil för att utföra grundläggande statistik över RiboCode-utdata. Klicka här för att ladda ner den här filen.

Kompletterande fil 4: Konfigurationsfilen (för RiboMiner) har ändrats från tilläggsfil 1. Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ribosomprofilering erbjuder en oöverträffad möjlighet att studera ribosomernas verkan i celler i genomskala. Exakt dechiffrering av informationen som bärs av ribosomprofileringsdata kan ge insikt i vilka regioner av gener eller transkript som aktivt översätts. Detta steg-för-steg-protokoll ger vägledning om hur du använder RiboCode för att analysera ribosomprofileringsdata i detalj, inklusive paketinstallation, förberedelse av data, kommandokörning, resultatförklaring och datavisualisering. Analysresultaten av RiboCode indikerade att översättning är genomgripande och sker på okommenterade ORF av kodande gener och många transkript som tidigare antagits vara icke-kodande. Nedströmsanalyserna gav bevis för att ribosomerna rör sig längs de förutsagda ORF: erna i 3-nukleotidsteg när översättning sker; Det är emellertid fortfarande oklart om översättningsprocessen eller de producerade peptiderna tjänar någon funktion. Exakta anteckningar om översättning av ORF på genomet kan dock ge upphov till spännande möjligheter att identifiera funktionerna hos tidigare okarakteriserade ^{transkriptioner31}.

Förutsägelsen av kodningspotentialen för varje ORF med hjälp av ribosomprofileringsdata är starkt beroende av 3-nt periodiciteten hos P-platsdensiteterna på varje kodon från början till stoppkodonerna för ORF. Därför kräver det exakt detektering av P-platsens platser för läsningar av olika längder. Sådan information tillhandahålls inte direkt av ribosomprofileringsdata utan kan härledas från avstånden mellan 5'-änden av RPF och kommenterade start- eller stoppkodoner (protokollsteg 5.3). Avsaknad av anteckningar om kända start/stopp-kodoner i GTF-filen, till exempel för de nyligen monterade genomerna, kan leda till att RiboCode misslyckas med att utföra stegen nedströms om inte de exakta P-platsplatserna för läsningarna bestäms på annat sätt. I de flesta fall är storleken på ribosombundna fragment och deras P-platsplatser konstanta, till exempel 28-30 nt långa och vid +12 nt från 5 'slutet av läsningar i mänskliga celler. RiboCode gör det möjligt att välja läsningar i ett visst intervall för att definiera P-site-positioner baserat på erfarenhet. Båda längderna på RPF-läsningar och positionen för deras P-platser kan dock vara olika när miljöförhållandena (t.ex. stress eller stimulans) eller experimentproceduren (t.ex. nukleas, buffert, biblioteksberedning och sekvensering) har ändrats. Därför rekommenderar vi att du utför metadiagrammen (protokollsteg 5.3) för varje prov för att extrahera de mest konfidens-RPF:erna (dvs. läsningar som visar 3-nt periodicitetsmönster) och bestämmer deras P-platspositioner under olika förhållanden. Även om dessa operationer kan utföras automatiskt med hjälp av metaplots-funktionen , är det ofta bara en minoritet av läsningarna som visar en nästan perfekt inramning eller fasning som klarar de strikta urvalskriterierna och det statistiska testet. Därför är det fortfarande nödvändigt att lossa vissa parametrar, särskilt "-f0_percent", och sedan visuellt inspektera 3-nt periodiciteten för läsningar i varje längd och manuellt redigera konfigurationsfilen för att inkludera fler läsningar i enlighet därmed, särskilt när bibliotekskvaliteten är dålig (protokollsteg 5.3).

RiboCode söker efter kandidat-ORF: erna från kanoniska eller icke-kanoniska startkodoner (NUG) till nästa stoppkodon. För transkriptionerna med flera startkodoner uppströms stoppkodonerna bestäms de mest sannolika startkodonerna genom att bedöma 3-nt periodiciteten hos RPF-läsningarna mappade mellan två närliggande startkodoner eller helt enkelt välja uppströms startkodon som har mer in-frame än RPF-läsningar utanför ramen. En begränsning av en sådan strategi är att de faktiska startkodonerna kan vara felidentifierade om läsningar som är anpassade till startkodonregionerna är glesa eller frånvarande. Lyckligtvis ger de senaste strategierna, såsom global översättningsinitieringssekvensering (GTI-seq)³² och kvantitativ översättningsinitieringssekvensering (QTI-seq)³³, mer direkta sätt att hitta översättningsinitieringsplatserna. För NUGs krävs fortfarande fler studier för att undersöka deras validiteter som effektiva startkodoner.

Vi släppte också en ny uppdatering för RiboCode genom att lägga till tre nya funktioner: 1) den rapporterar de andra potentiella ORF-typerna som tilldelats enligt deras platser i förhållande till transkriptionerna andra än den längsta; 2) Det ger ett alternativ för att justera kombinerade p-värden om testningen av RPF-läsningar i de två utramarna inte är oberoende (se mer detaljerad förklaring i kompletterande information). 3) den utför p-värdekorrigering för flera tester, vilket möjliggör screening av översättning av ORF strängare.

Eftersom RiboCode identifierar de aktivt översättande ORF: erna genom att utvärdera RPF- lästäthetens 3-nt periodicitet, har den vissa begränsningar för de ORF som är extremt korta (t.ex. mindre än 3 kodoner). Spealman et al. jämförde RiboCodes prestanda med uORF-seqr och rapporterade att inga uORF kortare än 60 nt förutsägs av RiboCode i deras ^dataset34. Vi hävdar att parametern för ORF-storleksval (-m) i den tidigare versionen av RiboCode inte är korrekt inställd. Vi har ändrat standardvärdet för detta argument till 5 i den uppdaterade RiboCode.

RiboCode rapporterar de identifierade ORF: erna i två filer: "RiboCode_ORFs_result.txt" som innehåller alla ORF, inklusive redundanta ORF från olika transkript av samma gen; "RiboCode_ORFs_result_collapsed.txt" (tilläggsfil 2) som integrerar de överlappande ORF: erna med samma stoppkodon men olika startkodoner, dvs den som innehåller det mest uppströms startkodonet i samma läsram kommer att behållas. I båda filerna klassificeras de upptäckta ORF: erna i antingen "nya" översättnings-ORF eller andra olika typer beroende på deras relativa platser till kända CDS (se en detaljerad förklaring av ORF-typer från RiboCode ^paper22 eller på RiboCode-webbplatsen35). Vi illustrerade hur man tolkar RiboCode-utgångarna med hjälp av en förutsagd uORF av gen ATF4 som ett exempel (kompletterande information). RiboCode räknar också antalet gener som innehåller olika typer av ORF och plottar dem tillsammans med deras procentandelar (figur 2).

En studie rapporterade att vissa uttryckta men translationellt vilande gener kan aktiveras för att översättas till peptider vid oxidativ ^stress12, vilket indikerar att det förmodligen finns andra ORF som endast kan översättas på ett tillståndsberoende sätt. RiboCode kan utföras för olika experimentella förhållanden separat (t.ex. si-Ctrl eller si-eIF3e) eller gemensamt, vilket visas i detta protokoll (steg 5.4 och 6.1). Multiplexering av flera prover till en enda körning genom att definiera längder och P-platspositioner för valda läsningar i "merged_config.txt" har flera fördelar jämfört med att bearbeta varje prov individuellt. För det första minskar det de fördomar som finns i ett enda prov; För det andra sparar det programmets körtid; Slutligen ger den tillräckligt med data för att genomföra statistiken. Således fungerar det teoretiskt bättre än enkelprovsläget, särskilt för proverna med låg sekvenseringstäckning och högt bakgrundsbrus. Ytterligare kvantifiering och jämförelse av antalet RPF som tilldelats förutsagda ORF mellan olika förhållanden (t.ex. si-eIF3e vs si-Ctrl) gör det möjligt för oss att upptäcka kontextberoende ORF eller utforska den translationella regleringen av ORF: erna.

Observera att på grund av ackumuleringen av ribosomer i början och slutet av ORF, ett fenomen som kallas "översättningsramp", bör RPF: erna som tilldelats i de första 15 kodonerna och de sista 5 kodonerna uteslutas från läsningsräkningen för att undvika analys av differentiell ORF-översättningsförskjutning till skillnaderna i initieringshastigheter3,5^,³⁶. Dessa resultat föreslog att överflödet av uORF-typer är högre i celler utan EIF3 än kontrollceller, vilket kan orsakas (eller åtminstone delvis) av de förhöjda nivåerna av aktivt översättande ribosomer. Metaanalysen av RPF-densiteter runt startkodonerna föreslog också att den tidiga översättningsförlängningen regleras av EIF3E. Observera att det inte är korrekt att bara räkna RPF-läsningarna i en ORF för översättningskvantifiering, särskilt när översättningsförlängningen är allvarligt blockerad.

Sammanfattningsvis visar detta protokoll att RiboCode enkelt kan tillämpas för att identifiera nya översatta ORF av alla storlekar, inklusive de som kodar för mikropeptider. Det skulle vara ett värdefullt verktyg för forskarsamhället att upptäcka olika typer av ORF i olika fysiologiska sammanhang eller experimentella förhållanden. Ytterligare validering av protein- eller peptidprodukterna från dessa ORF skulle vara användbar för utvecklingen av framtida tillämpningar av ribosomprofilering.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inga intressekonflikter att avslöja.

Acknowledgments

Författarna vill erkänna stödet från de beräkningsresurser som tillhandahålls av HPCC-plattformen vid Xi'an Jiaotong University. Z.X. tackar tacksamt Young Topnotch Talent Support Plan från Xi'an Jiaotong University.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identifiering av aktivt översatta öppna läsramar med ribosomprofileringsdata

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.