Biology

De novo Identifisering av aktivt oversatte åpne leserammer med ribosomeprofileringsdata

Published: February 18, 2022 doi: 10.3791/63366

Yanan Zhu*¹, Fajin Li*^2,3, Xuerui Yang^2,3, Zhengtao Xiao¹

¹School of Basic Medical Sciences, Xi’an Jiaotong University Health Science Center, ²MOE Key Laboratory of Bioinformatics, Center for Synthetic and Systems Biology, School of Life Sciences, Tsinghua University, ³Joint Graduate Program of Peking-Tsinghua-National Institute of Biological Science

* These authors contributed equally

Summary

Oversettelse av ribosomer dekoder tre nukleotider per codon til peptider. Deres bevegelse langs mRNA, fanget av ribosomprofilering, produserer fotavtrykkene som viser karakteristisk trilling periodicitet. Denne protokollen beskriver hvordan du bruker RiboCode til å dechiffrere denne fremtredende funksjonen fra ribosomeprofileringsdata for å identifisere aktivt oversatte åpne leserammer på hele transkripsjonsnivå.

Abstract

Identifisering av åpne leserammer (ORFer), spesielt de som koder små peptider og blir aktivt oversatt under spesifikke fysiologiske sammenhenger, er avgjørende for omfattende merknader av kontekstavhengige translaktomer. Ribosomprofilering, en teknikk for å oppdage bindingsstedene og tetthetene ved å oversette ribosomer på RNA, tilbyr en mulighet til raskt å oppdage hvor oversettelsen skjer i genomomskalaen. Det er imidlertid ikke en triviell oppgave i bioinformatikk å effektivt og omfattende identifisere oversettelsen av ORFer for ribosomprofilering. Beskrevet her er en brukervennlig pakke, kalt RiboCode, designet for å søke etter aktivt oversette ORFer av hvilken som helst størrelse fra forvrengte og tvetydige signaler i ribosomeprofileringsdata. Denne artikkelen tar vårt tidligere publiserte datasett som et eksempel, og inneholder trinnvise instruksjoner for hele RiboCode-datasamlebåndet, fra forhåndsbehandling av rådataene til tolkning av de endelige utdataresultatfilene. Videre, for å evaluere oversettelsesratene til de kommenterte ORF-ene, er prosedyrer for visualisering og kvantifisering av ribosoletettheter på hver ORF også beskrevet i detalj. Oppsummert er den nåværende artikkelen en nyttig og rettidig instruksjon for forskningsfeltene knyttet til oversettelse, små ORFer og peptider.

Introduction

Nylig har en voksende studiemasse avdekket utbredt produksjon av peptider oversatt fra ORF-er av kodingsgener og de tidligere kommenterte genene som nonkoding, for eksempel lange ikke-koding av RNAer (lncRNAer) ^{1,2,3,4,5,6,7,8}. Disse oversatte ORF-ene er regulert eller indusert av celler for å reagere på miljøendringer, stress og celledifferensiering1,8,9,10,11,12,13. Oversettelsesproduktene til noen ORF-er har vist seg å spille viktige regulatoriske roller i ulike biologiske prosesser i utvikling og fysiologi. For eksempel oppdaget Chng et ^al.14 et peptidhormon kalt Elabela (Ela, også kjent som Apela / Ende / Toddler), som er kritisk for kardiovaskulær utvikling. Pauli et al. foreslo at Ela også fungerer som et mitogen som fremmer cellemigrasjon i det tidlige ^{fiskeembryo15}. Magny et al. rapporterte to mikropeptider på mindre enn 30 aminosyrer som regulerer kalsiumtransport og påvirker vanlig muskelkontraksjon i Drosophila-hjertet10.

Det er fortsatt uklart hvor mange slike peptider som er kodet av genomet og om de er biologisk relevante. Derfor er systematisk identifisering av disse potensielt kodende ORF-ene svært ønskelig. Det er imidlertid utfordrende å bestemme produktene til disse ORF-ene (dvs. protein eller peptid) direkte ved hjelp av tradisjonelle tilnærminger som evolusjonær ^{bevaring16,17} og massespektrometri18,19 fordi deteksjonseffektiviteten til begge tilnærmingene er avhengig av lengden, overfloden og aminosyresammensetningen til de produserte proteinene eller peptidene. Fremkomsten av ribosomprofilering, en teknikk for å identifisere ribosomets belegg på mRNAer ved nukleotidoppløsning, har gitt en presis måte å evaluere kodingspotensialet til forskjellige transkripsjoner3,20,21, uavhengig av lengde og sammensetning. En viktig og ofte brukt funksjon for å identifisere aktivt oversette ORFer ved hjelp av ribosomprofilering er tre-nukleotid (3-nt) periodicitet av ribosomets fotavtrykk på mRNA fra start codon til stop codon. Ribosomprofileringsdata har imidlertid ofte flere problemer, inkludert lav og sparsom sekvensering leser langs ORFer, høy sekvenseringsstøy og ribosomale RNA (rRNA) forurensninger. Dermed svekker de forvrengte og tvetydige signalene generert av slike data 3-nt periodicitetsmønstrene til ribosomers fotavtrykk på mRNA, noe som til slutt gjør identifiseringen av de høysikkerhets oversatte ORF-ene vanskelig.

En pakke kalt "RiboCode" tilpasset en modifisert Wilcoxon-signert-rank test og P-verdi integrasjonsstrategi for å undersøke om ORF har betydelig mer in-frame ribosombeskyttede fragmenter (RPFer) enn off-frame ^RPFer22. Det ble vist å være svært effektiv, følsom og nøyaktig for de novo merknad av translatom i simulerte og ekte ribosomet profileringsdata. Her beskriver vi hvordan du bruker dette verktøyet til å oppdage potensielle oversettelser av ORFer fra de rå ribosomet profileringssekvenseringsdatasett generert av forrige ^studie23. Disse datasettene hadde blitt brukt til å utforske funksjonen til EIF3 subenhet "E" (EIF3E) i oversettelse ved å sammenligne ribosomets beleggprofiler av MCF-10A-celler transfektert med kontroll (si-Ctrl) og EIF3E (si-eIF3e) små-forstyrrende RNAer (siRNAer). Ved å bruke RiboCode på disse eksempeldatasettene oppdaget vi 5633 nye ORFer som potensielt koder for små peptider eller proteiner. Disse ORF-ene ble kategorisert i forskjellige typer basert på deres plasseringer i forhold til koderegionene, inkludert oppstrøms ORF-er (uORFer), nedstrøms ORF-er (dORFer), overlappede ORF-er, ORFer fra nye proteinkodingsgener (nye PCG-er) og ORFer fra nye ikke-proteinkodingsgener (nye nonPCG-er). RPF-lesetetthetene på uORFer ble betydelig økt i EIF3E-mangelfulle celler sammenlignet med kontrollceller, noe som i det minste delvis kan skyldes berikelse av aktivt oversettelse av ribosomer. Den lokaliserte ribosoleakkumuleringen i regionen fra ^25th til ^75th codon av EIF3E-mangelfulle celler indikerte en blokkering av oversettelsesforlengelse i tidlig stadium. Denne protokollen viser også hvordan du visualiserer RPF-tettheten i ønsket region for å undersøke 3-nt periodicity mønstre av ribosome fotavtrykk på identifiserte ORFer. Disse analysene viser RiboCodes mektige rolle i å identifisere oversettelse av ORFer og studere regulering av oversettelse.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Miljøoppsett og RiboCode-installasjon

Åpne et Linux-terminalvindu og opprett et conda-miljø:
conda opprette -n RiboCode python=3,8
Bytt til det opprettede miljøet og installer RiboCode og avhengigheter:
conda aktivere RiboCode
conda installere -c bioconda ribocode ribominer sra-verktøy fastx_toolkit cutadapt bowtie stjerne samtools

2. Klargjøring av data

Hent genomreferansefiler.
1. For referansesekvensen, gå til Ensemble-nettstedet på https://www.ensembl.org/index.html, klikk på toppmenyen Last ned og venstre meny FTP Download. I den presenterte tabellen klikker du fasta i kolonnen DNA (FASTA) og raden der Species is Human. Kopier koblingen til Homo_sapiens på den åpne siden . GRCh38.dna.primary_assembly.fa.gz, last ned og pakk den ut i terminalen:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
2. For referansemerknad høyreklikker du GTF i kolonnen Gene angir på den sist åpnede websiden. Kopier koblingen til Homo_sapiens. GRCh38.104.gtf.gz og last den ned ved hjelp av:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  MERK: Det anbefales å få GTF-filen fra Ensemble-nettstedet, da den inneholder genommerknader organisert i et tre-nivå hierarki, det vil si at hvert gen inneholder transkripsjoner som inneholder exons og valgfrie oversettelser (f.eks. kodingssekvenser [CDS], oversettelsesstartside, oversettelsessluttside). Når et gen eller en transkripsjonsmerknader mangler, for eksempel en GTF-fil hentet fra UCSC eller NCBI, bruker du GTFupdate til å generere en oppdatert GTF med fullstendige parent-child hierarkimerknader: GTFupdate original.gtf > updated.gtf. For merknadsfilen i GFF-formatet bruker du AGAT ^toolkit24 eller et annet verktøy til å konvertere til .gtf-formatet.
Få rRNA-sekvenser.
1. Åpne UCSC Genome Browser på https://genome.ucsc.edu og klikk verktøy | Tabellleser i rullegardinlisten.
2. På den åpne siden angir du Pattedyr for clade, Human for genome, All Tables for group, rmask for table og genome for region. For filter klikker du opprett for å gå til en ny side og angi repClass slik det samsvarer med rRNA.
3. Klikk Send , og sett deretter utdataformatet til sekvens- og utdatafilnavn som hg38_rRNA.fa. Til slutt klikker du på Hent utdata | Hent sekvens for å hente rRNA-sekvensen.
Få ribosomeprofileringsdatasett fra Sequence Read Archive (SRA).
1. Last ned replikeringseksemplene for si-eIF3e-behandlingsgruppen, og gi dem nytt navn:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Last ned replikeringseksemplene for kontrollgruppen, og gi dem nytt navn:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Ctrl-1.fastq
  mv SRR9047194.fastq si-Ctrl-2.fastq
  mv SR9047195.fastq si-Ctrl-3.fastq
  MERK: SRA-tiltredelses-IDene for disse eksempeldatasettene ble hentet fra Gene Expression Omnibus (GEO) ^nettsted25 ved å søke etter GSE131074.

3. Trim adaptere og fjern rRNA-forurensning

(Valgfritt) Fjern kort fra sekvenseringsdataene. Hopp over dette trinnet hvis kortsekvensene allerede er trimmet, som i dette tilfellet. Ellers bruker du cutadapt for å trimme adapterne fra lesing.
for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
gjøre
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
gjort
MERK: Kortsekvensen etter -a-parameteren vil variere avhengig av klargjøring av cDNA-biblioteket. Leser kortere enn 15 (gitt av -m) kastes fordi ribosomets beskyttede fragmenter vanligvis er lengre enn denne størrelsen.
Fjern rRNA-forurensning ved hjelp av følgende fremgangsmåte:
1. Indeks rRNA-referansesekvenser:
  bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Juster lesningene til rRNA-referansen for å utelukke lesingene som kommer fra rRNA:
  for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  gjøre
  bowtie -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  gjort
  -p angir antall tråder for parallell kjøring av oppgavene. Med tanke på den relativt små størrelsen på RPF-lesingen, bør andre argumenter (for eksempel -n, -y, -a, -norc, --best, --strata og -l) angis for å garantere at de rapporterte justeringene er best. Hvis du vil ha mer informasjon, kan du se ^{Bowtie-nettstedet26}.

4. Juster de rene avlesningene til genomet

Opprett en genomindeks.
mkdir STAR_hg38_genome
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Juster de rene avlesningene (ingen rRNA-forurensning) til den opprettede referansen.
for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
gjøre
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes Alle
gjort
MERK: Et ikke-oppdatert nukleotid legges ofte til i 5'-enden av hver lesing av omvendt ^{transkripsjonase27}, som effektivt trimmes av av STAR når den utfører mykklipping som standard. Parameterne for STAR er beskrevet i STAR ^manual28.
Sortere og indeksere justeringsfiler.
for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
gjøre
samtools sortere -T ${i}. Justert.toTranscriptome.out.sortert \
-o ${i}. Justert.toTranscriptome.out.sorted.bam \
${i}. Justert.toTranscriptome.out.bam
samtools-indeks ${i}. Justert.toTranscriptome.out.sorted.bam
samtools-indeks ${i}. Justert.sortedByCoord.out.bam
gjort

5. Størrelsesvalg av RPFer og identifisering av deres P-nettsteder

Forbered transkripsjonsmerknadene.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
MERK: Denne kommandoen samler inn nødvendig informasjon om mRNA-transkripsjoner fra GTF-filen og trekker ut sekvensene for alle mRNA-transkripsjoner fra FASTA-filen (hver transkripsjon settes sammen ved å slå sammen exons i henhold til strukturene som er definert i GTF-filen).
Velg RPFer med bestemte lengder, og identifiser P-områdeposisjonene deres.
for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
gjøre
metaplots -a RiboCode_annot -r ${i}. Justert.toTranscriptome.out.bam \
-o ${i} -f0_percent 0,35 -pv1 0,001 -nåpv2 0,001
gjort
MERK: Denne kommandoen tegner inn de aggregerte profilene til 5' enden av de justerte avlesningene av hver lengde rundt kommenterte oversettelsesstartkodinger (eller stopp). Det leselengdeavhengige P-området kan bestemmes manuelt ved å undersøke distribusjonsplottene (f.eks. figur 1B) av offsetavstander mellom 5' ender av hovedlesningene og startkodonen. RiboCode genererer også en konfigurasjonsfil for hvert utvalg, der P-områdeposisjonene for lesinger som viser betydelige 3-nt periodicitetsmønstre, bestemmes automatisk. Parameterne -f0_percent, -pv1 og -pv2 definerer andelsterskelen og p-verdikuttene for valg av RPF-lesinger som er beriket i leserammen. I dette eksemplet defineres nukleotidene +12, +13 og +13 fra 5- og slutten av 29-, 30- og 31 nt-lesingene manuelt i hver konfigurasjonsfil.
Redigere konfigurasjonsfilene for hvert eksempel og slå dem sammen
MERK: For å generere et konsensussett med unike ORFer og sikre tilstrekkelig dekning av lesinger for å utføre etterfølgende analyse, slås de valgte avlesningene av alle prøvene i forrige trinn sammen. Lesingen av bestemte lengder definert i merged_config.txt fil (tilleggsfil 1) og deres P-områdeinformasjon brukes til å evaluere oversettelsespotensialet til ORFer i neste trinn.

6. De novo kommenterer oversettelse av ORF-er

Kjør RiboCode.
RiboCode -a RiboCode_annot -c merged_config.txt -l ja -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Hvor de viktige parameterne for denne kommandoen er som følger:
-c, konfigurasjonsfil som inneholder banen til inndatafiler og informasjonen om valgte leseoperasjoner og deres P-områder.
-l, for transkripsjoner som har flere start codons oppstrøms stopp codons, om de lengste ORFs (regionen fra den mest distale start codon å stoppe codon) brukes for å evaluere deres oversettelsespotensial. Hvis satt til Nei, bestemmes startkodingene automatisk.
-s, den kanoniske startkodonen(e) som brukes til ORFs identifikasjon.
-A, (valgfritt) de ikke-kanoniske startkodonene (f.eks. CTG, GTG og TTG for mennesker) som brukes til ORF-identifikasjon, som kan variere i mitokondrier eller kjerne av andre ^arter29.
-m, minimum lengde (dvs. aminosyrer) av ORF-er.
-o, prefikset for utdatafilnavn som inneholder detaljene for predikerte ORFer (tilleggsfil 2).
-g og -b, send ut de predikerte ORF-ene til henholdsvis GTF - eller sengeformat .

7. (Valgfritt) ORF-kvantifisering og statistikk

Tell RPF leser i hver ORF.
for i i si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
gjøre
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Justert.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s ja -c skjæringspunkt-streng
gjort
MERK: For å utelukke potensielle akkumulerende ribosomer rundt starten og slutten av ORFer, telles ikke antall avlesninger som er tildelt i de første 15 (spesifisert av -f) og de siste 5 kodonene (spesifikk av -l). Eventuelt er lengden på talte RPFer begrenset til området fra 25 til 35 nt (vanlige størrelser på RPFer).
Beregn grunnleggende statistikk over de oppdagede ORF-ene ved hjelp av RiboCode:
RiboCode_utils Rscript. R
MERK: RiboCode_utils. R (Supplemental File 3) gir en rekke statistikker for RiboCode-utgangen, for eksempel å telle antall identifiserte ORFer, vise fordelingen av ORF-lengder og beregne normaliserte RPF-tettheter (dvs. RPKM, lese per kilobase per million kartlagte lesninger).

8. (Valgfritt) visualisering av de predikerte ORF-ene

Få de relative posisjonene til start- og stoppkodons for ønsket ORF (f.eks. ENSG00000100902_35292349_35292552_67) på transkripsjonen fra RiboCode_ORFs_result_collapsed.txt (tilleggsfil 3). Deretter plotter du tettheten til RPF leser i ORF:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
Der -s og -e angir start- og stoppposisjonen for oversettelsen av ORF. --start-codon definerer startkodonen til ORF, som vises i figurtittelen. -o definerer prefikset for utdatafilnavnet.

9. (Valgfritt) Metagene analyse ved hjelp av RiboMiner

MERK: Utfør metageneanalysen for å vurdere påvirkningen av EIF3E-nedslag på oversettelsen av identifiserte kommenterte ORFer, ved å følge trinnene nedenfor:

Generer transkripsjonsmerknader for RiboMiner, som trekker ut den lengste transkripsjonen for hvert gen basert på merknadsfilen generert av RiboCode (trinn 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Klargjør konfigurasjonsfilen for RiboMiner. Kopier konfigurasjonsfilen som genereres av metaplots -kommandoen for RiboCode (trinn 5.4), og gi den navnet "RiboMiner_config.txt". Deretter endrer du det i henhold til formatet som vises i Tilleggsfil 4.
Metagene analyser ved hjelp av RiboMiner
1. Bruk MetageneAnalysis til å generere en aggregert og gjennomsnittlig profil av RPFs tettheter på tvers av transkripsjoner.
  MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm ja \
  -å 100 --type UTR
  Der viktige parametere er: --type, analysere enten CDS - eller UTR-regioner ; --norm, om normaliserte lesetettheten; -y, antall codons som brukes for hver transkripsjon; -U, plott RPF tetthet enten på codon nivå eller nt nivå; -u og -d, definer utvalget av analyseregioner i forhold til å starte codon eller stoppe codon; -l, minimumslengden (dvs. antall codons) av CDS; -M, modusen for transkripsjonsfiltrering, enten teller eller RPKM; -n minimumsantall eller RPKM i CDS for analyse. -m minimumsantall eller RPKM av CDS i det normaliserte området; -e, antall codons ekskludert fra det normaliserte området.
2. Generer et sett med pdf-filer for å sammenligne ribosomets belegg på mRNA i kontrollceller og eIF3-mangelfulle celler.
  PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --modus gjennomsnitt
  MERK: PlotMetageneAnalysis genererer settet med pdf-filer. Detaljer om bruken av MetageneAnalysis og PlotMetageneAnalysis er tilgjengelige på RiboMiners ^nettsted30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Eksempelet på ribosomet profileringsdatasett ble deponert i GEO-databasen under tiltredelsesnummeret GSE131074. Alle filene og kodene som brukes i denne protokollen er tilgjengelige fra tilleggsfiler 1-4. Ved å bruke RiboCode på et sett med publiserte ribosomeprofileringsdatasett23 identifiserte vi de nye ORF-ene som er aktivt oversatt i MCF-10A-celler behandlet med kontroll og EIF3E siRNAer. For å velge RPF-avlesningene som mest sannsynlig er bundet av de oversettende ribosomene, ble lengden på sekvenseringslesningene undersøkt, og en metageneanalyse ble utført ved hjelp av RPFer som kartla på de kjente oversettelsesgenene. Frekvensfordelingen av lengdene på lesningene viste at de fleste RPFer var 25-35 nt (figur 1A), tilsvarende en nukleotidsekvens dekket av ribosomene som forventet. P-stedets plasseringer for forskjellige lengder av RPFer ble bestemt ved å undersøke avstandene fra deres 5' ender til de kommenterte start- og stoppkodonene, henholdsvis (figur 1B). RPF leser innen 28-32nt viste sterk 3-nt periodicity, og deres P-områder var på +^12th nt (Supplemental file 1).

RiboCode søker etter ORF-ene fra en kanonisk startkodon (AUG) eller alternative startkokoner (valgfritt, for eksempel CUG og GUG) til neste stoppkodon. Deretter, basert på kartleggingsresultatene til RPFer innenfor det definerte området, vurderer RiboCode 3-nt-periodiciteten ved å vurdere om antall RPFer i rammen (dvs. deres P-områder tildelt på den første nukleotiden til hver kodon) er større enn antall RPFer utenfor rammen (dvs. deres P-områder tildelt på andre eller tredje nukleotid av hver codon). Vi identifiserte 13 120 gener som potensielt kan oversette ORFer med p < 0,05, blant dem 10 394 gener (70,8 %) koding av kommenterte ORFer, 168 (1,1 %) gener som koder dORFer, 509 (3,5 %) gener som koder uORFs, 939 (6,4 %) gener som koder oppstrøms eller nedstrøms ORF-er overlappet med kjente kommenterte ORFer (overlappet) og 68 (0,5 %) proteinkodingsgener som koder roman-ORFer, og 2601 (17,7 %) tidligere tildelt som ikke-kodingsgener roman ORFer (figur 2 og tilleggsfil 3)

Sammenligningsstørrelser for forskjellige ORFer viste at uORFer og overlappende ORFer er kortere (henholdsvis 195 og 188 nt) enn kommenterte ORFer (~1 771 nt). Den samme trenden ble også observert for nye ORF-er (henholdsvis 670 og 385 nt i gjennomsnitt for nye PCG-er og nye nonPCGS) og dORFer (~671 nt) (figur 3). Sammen har de ikke-kanoniske ORF-ene (uannotert) identifisert av RiboCode en tendens til å kode peptider som er mindre enn de kjente kommenterte ORF-ene.

Relative RPF-tellinger ble beregnet for hver ORF for å vurdere funksjonen til EIF3 i oversettelsesprosessene. Resultatene antydet at ribosoletettheten til uORFer var betydelig høyere i EIF3E-mangelfulle celler enn i kontrollceller (figur 4). Ettersom mange uORFer ble rapportert å utøve hemmende effekter på oversettelsen av nedstrøms koding av ORFer, undersøkte vi videre om EIF3E-knockdown endrer de globale tetthetene til RPFer nedstrøms startkodons (figur 5). Metageneanalysen, der mange ORFs profiler ble justert og deretter gjennomsnittet, avslørte at en masse ribosomer stoppet mellom codons 25 og 75 nedstrøms startkodon, noe som tyder på at oversettelsesforlengelsen kan blokkeres tidlig i EIF3E-mangelfulle celler. Videre undersøkelser er berettiget til å undersøke om signal-til-støy-forholdet eller endringene i oversettelseseffektiviteten til ORFer bidrar til økningen i uORF RPKM og akkumulering av ribosomer mellom codons 25 og 75 i fravær av EIF3E, det vil si om 1) mindre forurensning (eller god bibliotekkvalitet) eller 2) aktiv oversettelse (eller ribosom pause) i prøvene uten EIF3E resulterer i flere lesninger i uORFer og i det definerte området mellom den 25^. og ^75.

Til slutt gir RiboCode også visualisering for tettheter av P-nettstedene til RPFer på ønsket ORF, noe som kan hjelpe brukere med å undersøke 3-nt periodicity mønstre og tettheter av RPFer. Figur 6 presenterer for eksempel RPF-tetthetene på en uORF av PSMA6 og en dORF av SENP3-EIF4A1; begge ble validert av publiserte proteomikkdata23 (data vises ikke).

Figur 1: Vurdering av sekvenseringsavlesninger og P-områdeposisjoner. (A) Lengdefordeling av ribosomebeskyttede fragmenter (RPFer) i EIF3E-mangelfulle celler i replikering 1 (si-eIF3e-1); (B) Utlede P-site posisjon av RPFer av 29nt basert på deres tettheter rundt den kjente start (topp) og stoppe codons (bunn). Klikk her for å se en større versjon av denne figuren.

Figur 2: Prosentandeler av gener som inneholder forskjellige typer ORFer identifisert av RiboCode ved hjelp av alle prøver sammen. Forkortelser: ORF = åpen leseramme; dORF = nedstrøms ORF; PCG = proteinkodingsgen; NonPCG = nonprotein-koding gen; uORF = oppstrøms ORF. Klikk her for å se en større versjon av denne figuren.

Figur 3: Lengdefordelinger av ulike ORF-typer. Forkortelser: ORF = åpen leseramme; dORF = nedstrøms ORF; PCG = proteinkodingsgen; NonPCG = nonprotein-koding gen; uORF = oppstrøms ORF; nt = nukleotid. Klikk her for å se en større versjon av denne figuren.

Figur 4: Sammenligning av normaliserte lesetall for ulike ORF-typer mellom kontroll og EIF3E-mangelfulle celler. p-verdier ble bestemt av Wilcoxon signert rangeringstest. Forkortelse: ORF = åpen leseramme; dORF = nedstrøms ORF; PCG = proteinkodingsgen; NonPCG = nonprotein-koding gen; uORF = oppstrøms ORF; RPKM = Leser per kilobase per million kartlagte lesinger; siRNA = liten forstyrrende RNA; si-Ctrl = kontroll siRNA; si-eIF3e = siRNA rettet mot EIF3E. Klikk her for å se en større versjon av denne figuren.

Figur 5: Metagene analyse som viser stallen av ribosomer på 25-75th codon nedstrøms av starten codon av kommenterte ORFs. Forkortelse: ORF = åpen leseramme; siRNA = liten forstyrrende RNA; si-Ctrl = kontroll siRNA; si-eIF3e = siRNA rettet mot EIF3E; A.U., hvilken som helst enhet. Klikk her for å se en større versjon av denne figuren.

Figur 6: P-områdetetthetsprofiler for eksempel ORF-er som koder mikropeptider. (A) P-områdetettheter av anslått uORF og dens posisjon i forhold til kommenterte CDS på transkripsjon ENST00000622405; (B) samme som i A , men for den anslåtte dORF på transkripsjon ENST00000614237. Nederste panel som viser den forstørrede visningen av anslått uORF (A) eller dORF (B). Rød stolpe = i rammen leser; Grønne og blå stolper = off-frame leser. Forkortelse: ORF = åpen leseramme; dORF = nedstrøms ORF; uORF = oppstrøms ORF; CDS = kodesekvenser. Klikk her for å se en større versjon av denne figuren.

Tilleggsinformasjon: Evaluering av avhengigheten mellom to p-verdier og forklaring av RiboCode-resultater (uORF av ATF4 som eksempel). Klikk her for å laste ned denne filen.

Tilleggsfil 1: Konfigurasjonsfilen for RiboCode som definerer de valgte lengdene på RPFer og P-områdeposisjoner. Klikk her for å laste ned denne filen.

Tilleggsfil 2: RiboCode-utdatafil som inneholder informasjon om predikerte ORFer. Klikk her for å laste ned denne filen.

Tilleggsfil 3: R-skriptfil for å utføre grunnleggende statistikk over RiboCode-utdata. Klikk her for å laste ned denne filen.

Tilleggsfil 4: Konfigurasjonsfilen (for RiboMiner) endret fra tilleggsfil 1. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ribosomprofilering gir en enestående mulighet til å studere ribosomenes handling i celler i genomskala. Nøyaktig dechiffrering av informasjonen som bæres av ribosomets profileringsdata, kan gi innsikt i hvilke regioner av gener eller transkripsjoner som aktivt oversettes. Denne trinnvise protokollen gir veiledning om hvordan du bruker RiboCode til å analysere ribosomeprofileringsdata i detalj, inkludert pakkeinstallasjon, dataforberedelse, kommandoutførelse, resultatforklaring og datavisualisering. Analyseresultatene av RiboCode indikerte at oversettelsen er gjennomgripende og forekommer på uannoterte ORF-er av kodingsgener og mange transkripsjoner som tidligere antas å være ikke-koding. Nedstrømsanalysene ga bevis for at ribosomene beveger seg langs de anslåtte ORF-ene i 3-nukleotidtrinn etter hvert som oversettelsen skjer; Det er imidlertid fortsatt uklart om oversettelsesprosessen eller de produserte peptidene tjener noen funksjon. Likevel kan nøyaktige merknader om oversettelse av ORFer på genomet gi opphav til spennende muligheter til å identifisere funksjonene til tidligere ukarakteriserte ^{transkripsjoner31}.

Forutsigelsen av kodingspotensial for hver ORF ved hjelp av ribosomeprofileringsdata er svært avhengig av 3-nt periodiciteten til P-anleggstetthetene på hver codon fra starten til stoppkodonene til ORF-er. Derfor krever det presis deteksjon av P-stedets steder for lesing av forskjellige lengder. Slik informasjon er ikke direkte gitt av ribosomeprofileringsdata, men kan utledes fra avstandene mellom 5' enden av RPFer og kommentert start eller stopp codons (protokoll trinn 5.3). Manglende merknader om kjente start / stopp codons i GTF-filen, for eksempel for de nylig monterte genomene, kan føre til at RiboCode ikke klarer å utføre nedstrømstrinnene med mindre de nøyaktige P-stedets plasseringer av lesingene bestemmes på andre måter. I de fleste tilfeller er størrelsen på ribosomebundne fragmenter og deres P-plasseringer konstante, for eksempel 28-30 nt lange og på +12 nt fra 5' enden av lesninger i menneskelige celler. RiboCode tillater valg av leseoperasjoner i et bestemt område for å definere P-områdeposisjoner basert på erfaring. Imidlertid kan begge lengdene på RPF-lesing og plasseringen av P-anleggene deres være forskjellige når miljøforholdene (f.eks. stress eller stimulans) eller den eksperimentelle prosedyren (f.eks. nuklease, buffer, bibliotekforberedelse og sekvensering) er endret. Derfor anbefaler vi at du utfører metaplotene (protokolltrinn 5.3) for hvert utvalg for å trekke ut de mest høysikkerhets-RPFene (dvs. leser som viser 3-nt periodicitetsmønstre) og bestemmer P-områdeposisjonene under forskjellige forhold. Selv om disse operasjonene automatisk kan gjøres ved hjelp av metaplots-funksjonen , består ofte bare et mindretall av lesingene som viser en nesten perfekt innramming eller innfasing, de strenge utvalgskriteriene og statistisk test. Derfor er det fortsatt nødvendig å løsne de visse parametrene, spesielt "-f0_percent", og deretter visuelt inspisere 3-nt periodicity av lesninger i hver lengde og manuelt redigere konfigurasjonsfilen for å inkludere flere lesninger tilsvarende, spesielt når bibliotekkvaliteten er dårlig (protokolltrinn 5.3).

RiboCode søker etter kandidaten ORFs fra kanoniske eller ikke-kanoniske start codons (NUGs) til neste stopp codon. For transkripsjonene med flere startkodons oppstrøms stopp codons, den mest sannsynlige start codons bestemmes ved å vurdere 3-nt periodicity av RPF leser kartlagt mellom to nærliggende start codons eller bare velge oppstrøms start codon har mer in-frame enn off-frame RPF leser. En begrensning ved en slik strategi er at de faktiske startkodonene kan misidentifiseres hvis leseoperasjoner tilpasset starten codon-regionene er sparsomme eller fraværende. Heldigvis gir nylige strategier, for eksempel global oversettelsesinitieringssekvensering (GTI-seq)³² og kvantitativ oversettelsesinitieringssekvensering (QTI-seq)³³, mer direkte måter å finne oversettelsesinitieringsstedene på. For NUG-er er det fortsatt behov for flere studier for å undersøke gyldighetene som effektive startkosoner.

Vi ga også ut en ny oppdatering for RiboCode ved å legge til tre nye funksjoner: 1) den rapporterer de andre potensielle ORF-typene som er tildelt i henhold til deres plasseringer i forhold til andre transkripsjoner enn den lengste; 2) det gir et alternativ for å justere kombinerte p-verdier hvis testingen av RPF leser i de to out-frames ikke er uavhengig (se mer detaljert forklaring i Supplerende informasjon); 3) den utfører p-verdi korreksjon for flere tester, noe som muliggjør screening av oversettelse av ORFer strengere.

Ettersom RiboCode identifiserer de aktivt oversettende ORF-ene ved å evaluere 3-nt periodiciteten til RPF-lesetetthetene, har den visse begrensninger for de ORF-ene som er ekstremt korte (f.eks. mindre enn 3 codons). Spealman et al. sammenlignet ytelsen til RiboCode med uORF-seqr og rapporterte at ingen uORFer kortere enn 60 nt er spådd av RiboCode i deres ^datasett34. Vi hevder at parameteren for valg av ORF-størrelse (-m) i forrige versjon av RiboCode ikke er riktig angitt. Vi har endret standardverdien for dette argumentet til 5 i den oppdaterte RiboCode.

RiboCode rapporterer de identifiserte ORF-ene i to filer: "RiboCode_ORFs_result.txt" som inneholder alle ORFer, inkludert overflødige ORFer fra forskjellige transkripsjoner av samme gen; "RiboCode_ORFs_result_collapsed.txt" (Tilleggsfil 2) som integrerer de overlappende ORF-ene med samme stoppkodon, men forskjellige startkokoner, det vil si den som har den mest oppstrøms startkodonen i samme leseramme, beholdes. I begge filene er de oppdagede ORF-ene klassifisert i enten "roman" oversettelse av ORFer eller andre forskjellige typer i henhold til deres relative plasseringer til kjent CDS (se en detaljert forklaring av ORF-typer fra RiboCode ^paper22 eller på RiboCode ^nettsted35). Vi illustrerte hvordan du tolker RiboCode-utgangene ved hjelp av en anslått uORF av gen ATF4 som et eksempel (Supplemental Information). RiboCode teller også antall gener som inneholder forskjellige typer ORF-er og plotter dem sammen med prosentene (figur 2).

En studie rapporterte at noen uttrykte, men translasjonelt passiviserende gener kan aktiveres for å oversette til peptider ved oksidativt ^stress12, noe som indikerer at det sannsynligvis er andre ORF-er som bare kan oversettes på en tilstandsavhengig måte. RiboCode kan utføres for ulike eksperimentelle forhold separat (f.eks. si-Ctrl eller si-eIF3e) eller i fellesskap, som vist i denne protokollen (trinn 5.4 og 6.1). Multipleksing av flere prøver i ett enkelt kjøring ved å definere lengdene og P-områdeposisjonene til valgte lesinger i "merged_config.txt" har flere fordeler i forhold til å behandle hvert utvalg individuelt. For det første reduserer det fordommene som er tilstede i et enkelt utvalg; For det andre sparer det programmets kjøretid; Til slutt gir den nok data til å utføre statistikken. Dermed fungerer det teoretisk bedre enn enkeltprøvemodus, spesielt for prøvene med lav sekvenseringsdekning og høy bakgrunnsstøy. Ytterligere kvantifisering og sammenligning av antall RPFer tildelt predikerte ORF-er mellom ulike forhold (f.eks. si-eIF3e vs. si-Ctrl) gjør det mulig for oss å oppdage kontekstavhengige ORF-er eller utforske oversettelsesreguleringen av ORF-ene.

Merk at på grunn av opphopning av ribosomer i begynnelsen og slutten av ORF-er, bør et fenomen som kalles "oversettelsesrampe", rollespillene som er tildelt i de første 15 kodonene og de siste 5 kodonene, utelukkes fra lesetellingen for å unngå analyse av differensial ORF-oversettelsesbias til forskjellene i initieringsrater3,5^,³⁶. Disse resultatene antydet at overflod av uORFs typer er høyere i celler uten EIF3 enn kontrollceller, som kan være forårsaket (eller i det minste delvis) av forhøyede nivåer av aktivt oversette ribosomer. Metaanalysen av RPF-tettheter rundt starten codons foreslo også at den tidlige oversettelsesforlengelsen er regulert av EIF3E. Vær oppmerksom på at bare å telle RPF-leserne i en ORF ikke er nøyaktig for oversettelses kvantifisering, spesielt når oversettelsesforlengelsen er sterkt blokkert.

Oppsummert viser denne protokollen at RiboCode enkelt kan brukes til å identifisere nye oversatte ORFer av alle størrelser, inkludert de som koder mikropeptider. Det ville være et verdifullt verktøy for forskningsmiljøet å oppdage ulike typer ORF-er i forskjellige fysiologiske sammenhenger eller eksperimentelle forhold. Ytterligere validering av protein- eller peptidproduktene fra disse ORF-ene vil være nyttig for utvikling av fremtidige anvendelser av ribosomprofilering.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingen interessekonflikter å avsløre.

Acknowledgments

Forfatterne vil gjerne anerkjenne støtten fra beregningsressursene fra HPCC-plattformen til Xi'an Jiaotong University. Z.X. takker takknemlig Young Topnotch Talent Support Plan for Xi'an Jiaotong University.

Materials

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Biology

De novo Identifisering av aktivt oversatte åpne leserammer med ribosomeprofileringsdata

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.