Waiting
Procesando inicio de sesión ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

De novo Identificatie van actief vertaalde open leesframes met ribosoomprofileringsgegevens

Published: February 18, 2022 doi: 10.3791/63366
* These authors contributed equally

Summary

Het vertalen van ribosomen decodeert drie nucleotiden per codon in peptiden. Hun beweging langs mRNA, vastgelegd door ribosoomprofilering, produceert de voetafdrukken die karakteristieke triplet periodiciteit vertonen. Dit protocol beschrijft hoe RiboCode te gebruiken om deze prominente functie te ontcijferen uit ribosoomprofileringsgegevens om actief vertaalde open leesframes op het niveau van het hele transcriptoom te identificeren.

Abstract

Identificatie van open leesframes (ORF's), met name die welke coderen voor kleine peptiden en actief worden vertaald onder specifieke fysiologische contexten, is van cruciaal belang voor uitgebreide annotaties van contextafhankelijke translatomen. Ribosoomprofilering, een techniek voor het detecteren van de bindingslocaties en dichtheden van het vertalen van ribosomen op RNA, biedt een manier om snel te ontdekken waar translatie plaatsvindt op genoombrede schaal. Het is echter geen triviale taak in de bio-informatica om de vertalende ORF's voor ribosoomprofilering efficiënt en uitgebreid te identificeren. Hier beschreven is een eenvoudig te gebruiken pakket, genaamd RiboCode, ontworpen om te zoeken naar actief vertalende ORF's van elke grootte van vervormde en dubbelzinnige signalen in ribosoomprofileringsgegevens. Dit artikel neemt onze eerder gepubliceerde dataset als voorbeeld en biedt stapsgewijze instructies voor de gehele RiboCode-pijplijn, van het voorbewerken van de onbewerkte gegevens tot de interpretatie van de uiteindelijke uitvoerresultaatbestanden. Bovendien worden voor het evalueren van de omrekeningssnelheden van de geannoteerde ORF's ook procedures voor visualisatie en kwantificering van ribosoomdichtheden op elke ORF in detail beschreven. Samenvattend is dit artikel een nuttige en tijdige instructie voor de onderzoeksgebieden met betrekking tot vertaling, kleine ORF's en peptiden.

Introduction

Onlangs heeft een groeiend aantal studies een wijdverspreide productie van peptiden onthuld die zijn vertaald uit ORF's van coderende genen en de eerder geannoteerde genen als niet-coderend, zoals lange niet-coderende RNA's (lncRNA's) 1,2,3,4,5,6,7,8. Deze vertaalde ORF's worden gereguleerd of geïnduceerd door cellen om te reageren op omgevingsveranderingen, stress en celdifferentiatie1,8,9,10,11,12,13. Van de vertaalproducten van sommige ORF's is aangetoond dat ze een belangrijke regulerende rol spelen in diverse biologische processen in ontwikkeling en fysiologie. Chng et al.14 ontdekten bijvoorbeeld een peptidehormoon genaamd Elabela (Ela, ook bekend als Apela / Ende / Toddler), dat van cruciaal belang is voor de cardiovasculaire ontwikkeling. Pauli et al. suggereerden dat Ela ook werkt als een mitogeen dat de celmigratie in het vroege visembryo bevordert15. Magny et al. rapporteerden twee micropeptiden van minder dan 30 aminozuren die het calciumtransport reguleren en de regelmatige spiercontractie in het Drosophila-hart beïnvloeden10.

Het blijft onduidelijk hoeveel van dergelijke peptiden door het genoom worden gecodeerd en of ze biologisch relevant zijn. Daarom is systematische identificatie van deze potentieel coderende ORF's zeer wenselijk. Het direct bepalen van de producten van deze ORF's (d.w.z. eiwit of peptide) met behulp van traditionele benaderingen zoals evolutionaire conservering16,17 en massaspectrometrie18,19 is echter een uitdaging omdat de detectie-efficiëntie van beide benaderingen afhankelijk is van de lengte, abundantie en aminozuursamenstelling van de geproduceerde eiwitten of peptiden. De komst van ribosoomprofilering, een techniek voor het identificeren van de ribosoombezetting op mRNA's met nucleotideresolutie, heeft een precieze manier geboden om het coderingspotentieel van verschillende transcripten3,20,21 te evalueren, ongeacht hun lengte en samenstelling. Een belangrijk en vaak gebruikt kenmerk voor het identificeren van actief vertalende ORF's met behulp van ribosoomprofilering is de drie-nucleotide (3-nt) periodiciteit van de voetafdrukken van het ribosoom op mRNA van het startcodon tot het stopcodon. Ribosoomprofileringsgegevens hebben echter vaak verschillende problemen, waaronder lage en schaarse sequencing-reads langs ORF's, hoge sequencingruis en ribosomale RNA (rRNA) -verontreinigingen. De vervormde en dubbelzinnige signalen die door dergelijke gegevens worden gegenereerd, verzwakken dus de 3-nt periodiciteitspatronen van de voetafdrukken van ribosomen op mRNA, wat uiteindelijk de identificatie van de met hoge betrouwbaarheid vertaalde ORF's moeilijk maakt.

Een pakket met de naam "RiboCode" paste een aangepaste Wilcoxon-signed-rank test en P-value integratiestrategie aan om te onderzoeken of de ORF significant meer in-frame ribosoom-beschermde fragmenten (RPF's) heeft dan off-frame RPFs22. Het bleek zeer efficiënt, gevoelig en nauwkeurig te zijn voor de novo annotatie van het translatoom in gesimuleerde en echte ribosoomprofileringsgegevens. Hier beschrijven we hoe we deze tool kunnen gebruiken om de potentiële vertalende ORF's te detecteren uit de ruwe ribosoomprofileringsequencingsets die door de vorige studie zijn gegenereerd23. Deze datasets werden gebruikt om de functie van EIF3-subeenheid "E" (EIF3E) in vertaling te onderzoeken door de ribosoombezettingsprofielen van MCF-10A-cellen getransfecteerd met controle (si-Ctrl) en EIF3E (si-eIF3e) kleine interfererende RNA's (siRNA's) te vergelijken. Door RiboCode toe te passen op deze voorbeelddatasets, ontdekten we 5.633 nieuwe ORF's die mogelijk coderen voor kleine peptiden of eiwitten. Deze ORF's werden gecategoriseerd in verschillende typen op basis van hun locaties ten opzichte van de coderende regio's, waaronder upstream ORF's (uORF's), downstream ORF's (dORFs), overlappende ORF's, ORF's van nieuwe eiwitcoderende genen (nieuwe PCG's) en ORF's van nieuwe niet-proteïnecoderende genen (nieuwe niet-PCPG's). De RPF-leesdichtheden op uORF's waren significant verhoogd in EIF3E-deficiënte cellen in vergelijking met controlecellen, wat ten minste gedeeltelijk kan worden veroorzaakt door de verrijking van actief translaterende ribosomen. De gelokaliseerde ribosoomaccumulatie in het gebied van het 25e tot 75e codon van EIF3E-deficiënte cellen duidde op een blokkering van translatie-elongatie in het vroege stadium. Dit protocol laat ook zien hoe de RPF-dichtheid van het gewenste gebied kan worden gevisualiseerd voor het onderzoeken van de 3-nt periodiciteitspatronen van ribosoomvoetafdrukken op geïdentificeerde ORF's. Deze analyses tonen de krachtige rol van RiboCode bij het identificeren van vertalende ORF's en het bestuderen van de regulatie van vertaling.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Omgevingsinstellingen en RiboCode-installatie

  1. Open een Linux-terminalvenster en maak een conda-omgeving:
    conda create -n RiboCode python=3.8
  2. Schakel over naar de gecreëerde omgeving en installeer RiboCode en afhankelijkheden:
    conda activeer RiboCode
    conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Voorbereiding van de gegevens

  1. Krijg genoomreferentiebestanden.
    1. Ga voor de referentiereeks naar de Ensemble-website op https://www.ensembl.org/index.html, klik op het hoofdmenu Downloaden en op ftp-download aan de linkerkant. Klik in de gepresenteerde tabel op FASTA in de kolom DNA (FASTA) en de rij waar Species is Human. Kopieer op de geopende pagina de link van Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz en download en pak het uit in de terminal:
      WGET -c \
      http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
      gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
    2. Voor referentieannotatie klikt u met de rechtermuisknop op GTF in de kolom Genensets op de laatst geopende webpagina. Kopieer de link van Homo_sapiens. GRCh38.104.gtf.gz en download het met behulp van:
      WGET -c \
      http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
      gzip -d Homo_sapiens. GRCh38.104.gtf.gz

      OPMERKING: Het wordt aanbevolen om het GTF-bestand van de Ensemble-website te halen, omdat het genoomannotaties bevat die zijn georganiseerd in een hiërarchie op drie niveaus, d.w.z. elk gen bevat transcripten die exonen en optionele vertalingen bevatten (bijv. Coderingssequenties [CDS], vertaalstartsite, vertaaleindsite). Wanneer de annotaties van een gen of transcript ontbreken, bijvoorbeeld een GTF-bestand dat is verkregen van UCSC of NCBI, gebruikt u GTFupdate om een bijgewerkte GTF te genereren met volledige bovenliggende-kindhiërarchie-annotaties: GTFupdate original.gtf > updated.gtf. Gebruik voor het annotatiebestand in de GFF-indeling de AGAT toolkit24 of een ander hulpmiddel om te converteren naar de .gtf-indeling.
  2. Krijg rRNA-sequenties.
    1. Open UCSC Genome Browser op https://genome.ucsc.edu en klik op Extra | Tabelbrowser in de vervolgkeuzelijst.
    2. Geef op de geopende pagina Zoogdier voor clade, Mens voor genoom, Alle tabellen voor groep, rmask voor tabel en genoom voor regio op. Klik voor filter op Maken om naar een nieuwe pagina te gaan en repClass in te stellen zoals overeenkomt met rRNA.
    3. Klik op Verzenden en stel vervolgens het uitvoerformaat in op volgorde en uitvoerbestandsnaam als hg38_rRNA.fa. Klik ten slotte op Uitvoer ophalen | Krijg sequentie om de rRNA-sequentie op te halen.
  3. Download ribosoomprofileringsdatasets van Sequence Read Archive (SRA).
    1. Download de replicatvoorbeelden van de si-eIF3e-behandelingsgroep en hernoem ze:
      fastq-dump SRR9047190 SRR9047191 SRR9047192
      mv SRR9047190.fastq si-eIF3e-1.fastq
      mv SRR9047191.fastq si-eIF3e-2.fastq
      mv SRR9047192.fastq si-eIF3e-3.fastq
    2. Download de replicatievoorbeelden van de controlegroep en wijzig de naam ervan:
      fastq-dump SRR9047193 SRR9047194 SRR9047195
      MV SRR9047193.fastq si-Ctrl-1.fastq
      mv SRR9047194.fastq si-Ctrl-2.fastq
      mv SRR9047195.fastq si-Ctrl-3.fastq
      OPMERKING: De SRA-toetredings-ID's voor deze voorbeeldgegevenssets zijn verkregen van de Gene Expression Omnibus (GEO) website25 door te zoeken naar GSE131074.

3. Trim adapters en verwijder rRNA-verontreiniging

  1. (Optioneel) Verwijder adapters uit de sequencinggegevens. Sla deze stap over als de adapterreeksen al zijn bijgesneden, zoals in dit geval. Gebruik anders cutadapt om de adapters uit leesbewerkingen bij te snijden.
    voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    doen
    cutadapt -m 15 --match-read-jocards -a CTGTAGGCACCATCAAT \
    -o ${i}_trimmed.fastq ${i}.fastq
    klaar
    OPMERKING: De adaptervolgorde na -a parameter is afhankelijk van de voorbereiding van de cDNA-bibliotheek. Leestijden korter dan 15 (gegeven door -m) worden weggegooid omdat de ribosoom-beschermde fragmenten meestal langer zijn dan deze grootte.
  2. Verwijder rRNA-besmetting met behulp van de volgende stappen:
    1. Index rRNA referentiesequenties:
      bowtie-build -f hg38_rRNA.fa hg38_rRNA
    2. Lijn de reads uit op rRNA-referentie om de reads afkomstig van rRNA uit te sluiten:
      voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
      doen
      bowtie -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
      --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
      klaar
      -p geeft het aantal threads aan voor het parallel uitvoeren van de taken. Gezien de relatief kleine omvang van de RPF-reads moeten andere argumenten (bijv. -n, -y, -a, -norc, --best, --strata en -l) worden gespecificeerd om te garanderen dat de gerapporteerde uitlijningen het beste zijn. Raadpleeg voor meer informatie de Bowtie-website26.

4. Stem de clean reads af op het genoom

  1. Maak een genoomindex.
    mkdir STAR_hg38_genome
    STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GrCh38.104.gtf
  2. Lijn de schone reads (geen rRNA-contaminatie) uit op de gemaakte referentie.
    voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    doen
    STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes All
    klaar
    OPMERKING: Een ongetemd nucleotide wordt vaak toegevoegd aan het 5'-uiteinde van elk gelezen door de reverse transcriptase27, die efficiënt wordt afgesneden door STAR omdat het standaard soft-clipping uitvoert. De parameters voor STAR worden beschreven in STAR manual28.
  3. Uitlijningsbestanden sorteren en indexeren.
    voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    doen
    samtools sorteren -T ${i}. Uitgelijnd.toTranscriptome.out.sorted \
    -o ${i}. Uitgelijnd.toTranscriptome.out.sorted.bam \
    ${i}. Uitgelijnd.opTranscriptome.out.bam
    samtools index ${i}. Uitgelijnd.opTranscriptome.out.sorted.bam
    samtools index ${i}. Uitgelijnd.gesorteerdByCoord.out.bam
    klaar

5. Grootteselectie van RPF's en identificatie van hun P-sites

  1. Bereid de transcriptannotaties voor.
    prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
    -f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
    OPMERKING: Deze opdracht verzamelt de vereiste informatie van mRNA-transcripten uit het GTF-bestand en extraheert de sequenties voor alle mRNA-transcripten uit het FASTA-bestand (elk transcript wordt samengesteld door de exonen samen te voegen volgens de structuren die zijn gedefinieerd in het GTF-bestand).
  2. Selecteer RPF's van specifieke lengtes en identificeer hun P-site posities.
    voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    doen
    metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
    -o ${i} -f0_percent 0,35 -pv1 0,001 -pv2 0,001
    klaar
    OPMERKING: Met deze opdracht worden de geaggregeerde profielen van het 5'-uiteinde van de uitgelijnde afleespunten van elke lengte rond geannoteerde translatiestart(of stop)codons weergegeven. De leeslengte-afhankelijke P-site kan handmatig worden bepaald door de verdelingsdiagrammen (bijv. figuur 1B) van offsetafstanden tussen 5'-uiteinden van de major reads en het startcodon te onderzoeken. RiboCode genereert ook een configuratiebestand voor elk monster, waarin de P-siteposities van reads met significante 3-nt periodiciteitspatronen automatisch worden bepaald. De parameters -f0_percent, -pv1 en -pv2 definiëren de verhoudingsdrempel en p-waardeafsnijdingen voor het selecteren van de RPF-waarden die in het leesframe zijn verrijkt. In dit voorbeeld worden de nucleotiden +12, +13 en +13 van het 5'-uiteinde van de 29-, 30- en 31-waarden handmatig gedefinieerd in elk configuratiebestand.
  3. Bewerk de configuratiebestanden voor elk voorbeeld en voeg ze samen
    OPMERKING: Om een consensusset van unieke ORF's te genereren en te zorgen voor voldoende dekking van leesbewerkingen om latere analyses uit te voeren, worden de geselecteerde leesbewerkingen van alle monsters in de vorige stap samengevoegd. De leesbewerkingen van specifieke lengtes die zijn gedefinieerd in merged_config.txt bestand (aanvullend bestand 1) en hun P-site-informatie worden gebruikt voor het evalueren van het vertaalpotentieel van ORF's in de volgende stap.

6. De novo annotate vertalen van ORF's

  1. Voer RiboCode uit.
    RiboCode -a RiboCode_annot -c merged_config.txt -l ja -g \
    -o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG

    Waarbij de belangrijke parameters van deze opdracht als volgt zijn:
    -c, configuratiebestand met het pad van invoerbestanden en de informatie van geselecteerde reads en hun P-sites.
    -l, voor transcripties met meerdere startcodons stroomopwaarts van de stopcodons, of de langste ORF's (het gebied van het meest distale startcodon tot stopcodon) worden gebruikt voor het evalueren van hun vertaalpotentieel. Indien ingesteld op nee, worden de startcodons automatisch bepaald.
    -s, het canonieke startcodon(en) dat wordt gebruikt voor ORFs-identificatie.
    -A, (optioneel) de niet-canonische startcodons (bijv. CTG, GTG en TTG voor de mens) die worden gebruikt voor ORF-identificatie, die kunnen verschillen in mitochondriën of kern van andere soorten29.
    -m, de minimale lengte (d.w.z. aminozuren) van ORF's.
    -o, het voorvoegsel van de uitvoerbestandsnaam met de details van voorspelde ORF's (aanvullend bestand 2).
    -g en -b, voer de voorspelde ORF's uit naar respectievelijk gtf - of bedformaat .

7. (Facultatieve) ORF-kwantificering en statistieken

  1. Tel RPF leest in elke ORF.
    voor i in si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
    doen
    ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
    -r ${i}. Uitgelijnd.gesorteerdByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
    -o ${i}_ORF.counts -s ja -c intersection-strict
    klaar
    OPMERKING: Om de potentiële accumulatie van ribosomen rond het begin en het einde van ORF's uit te sluiten, wordt het aantal waarden toegewezen in de eerste 15 (gespecificeerd door -f) en de laatste 5 codons (specifiek door -l) niet meegeteld. Optioneel zijn de lengtes van getelde RPF's beperkt tot het bereik van 25 tot 35 nt (gangbare grootten van RPF's).
  2. Bereken basisstatistieken van de gedetecteerde ORF's met RiboCode:
    Rscript RiboCode_utils. R
    OPMERKING: RiboCode_utils. R (Supplemental File 3) biedt een reeks statistieken voor de RiboCode-uitvoer, bijvoorbeeld het tellen van het aantal geïdentificeerde ORF's, het bekijken van de verdeling van ORF-lengtes en het berekenen van de genormaliseerde RPF-dichtheden (d.w.z. RPKM, leest per kilobase per miljoen in kaart gebrachte reads).

8. (Optionele) Visualisatie van de voorspelde ORF's

  1. Verkrijg de relatieve posities van de start- en stopcodons voor de gewenste ORF (bijv. ENSG00000100902_35292349_35292552_67) op het transcript van RiboCode_ORFs_result_collapsed.txt (aanvullend bestand 3). Plot vervolgens de dichtheid van RPF-waarden in de ORF:
    plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
    -s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
    Waarbij -s en -e de start- en stoppositie van de translatie van het plotten van ORF specificeren. --start-codon definieert het startcodon van de ORF, dat in de figuurtitel zal verschijnen. -o definieert het voorvoegsel van de naam van het uitvoerbestand.

9. (Optionele) Metagene analyse met RiboMiner

OPMERKING: Voer de metagene analyse uit om de invloed van EIF3E knockdown op de translatie van geïdentificeerde geannoteerde ORF's te beoordelen, volgens de onderstaande stappen:

  1. Genereer transcriptannotaties voor RiboMiner, dat het langste transcript voor elk gen extraheert op basis van het annotatiebestand dat door RiboCode wordt gegenereerd (stap 5.1).
    UitgangTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
    -g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
    -o longest.transcripts.info.txt -O all.transcripts.info.txt
  2. Bereid het configuratiebestand voor RiboMiner voor. Kopieer het configuratiebestand dat is gegenereerd door de opdracht metaplots van RiboCode (stap 5.4) en hernoem het naar 'RiboMiner_config.txt'. Wijzig het vervolgens volgens het formaat dat wordt weergegeven in Aanvullend bestand 4.
  3. Metagene analyses met RiboMiner
    1. Gebruik MetageneAnalysis om een geaggregeerd en gemiddeld profiel van de dichtheden van RPF's over transcripties te genereren.
      MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
      -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm ja \
      -y 100 --type UTR
      Waar belangrijke parameters zijn: --type, het analyseren van CDS - of UTR-regio's ; --norm, of de leesdichtheid is genormaliseerd; -y, het aantal codons dat voor elk transcript is gebruikt; -U, plot RPF-dichtheid op codonniveau of nt-niveau ; -u en -d, definieer het bereik van de analysegebieden ten opzichte van startcodon of stopcodon; -l, de minimale lengte (d.w.z. het aantal codons) van CDS; -M, de modus voor het filteren van transcripten, telt of RPKM; -n minimumtellingen of RPKM in CDS voor analyse. -m minimumtellingen of RPKM van CDS in het genormaliseerde gebied; -e, het aantal codons dat is uitgesloten van het genormaliseerde gebied.
    2. Genereer een set pdf-bestanden voor het vergelijken van de ribosoombezettingen op mRNA in controlecellen en eIF3-deficiënte cellen.
      PlotMetageneAnalyse -i MA_normed_dataframe.txt -o MA_normed \
      -g si-Ctrl,si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
      OPMERKING: PlotMetageneAnalysis genereert de set pdf-bestanden. Details over het gebruik van MetageneAnalysis en PlotMetageneAnalysis zijn beschikbaar op RiboMiner website30.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De voorbeelddatasets voor ribosoomprofilering werden in de GEO-database gedeponeerd onder het toetredingsnummer GSE131074. Alle bestanden en codes die in dit protocol worden gebruikt, zijn beschikbaar in aanvullende bestanden 1-4. Door RiboCode toe te passen op een reeks gepubliceerde ribosoomprofileringsdatasets23, identificeerden we de nieuwe ORF's die actief werden vertaald in MCF-10A-cellen die werden behandeld met controle- en EIF3E siRNA's. Om de RPF-reads te selecteren die hoogstwaarschijnlijk gebonden zijn door de translaterende ribosomen, werden de lengtes van de sequencing reads onderzocht en werd een metagene analyse uitgevoerd met behulp van de RPF's die de bekende translatiegenen in kaart brachten. De frequentieverdeling van de lengtes van de metingen toonde aan dat de meeste RPF's 25-35 nt waren (figuur 1A), wat overeenkomt met een nucleotidesequentie die zoals verwacht door de ribosomen wordt gedekt. De P-site locaties voor verschillende lengtes van RPF's werden bepaald door de afstanden van hun 5 'uiteinden tot de geannoteerde start- en stopcodons respectievelijk te onderzoeken (figuur 1B). De RPF-metingen binnen 28-32nt vertoonden een sterke 3-nt periodiciteit en hun P-sites waren op de +12e nt (Aanvullend bestand 1).

RiboCode zoekt naar de kandidaat-ORF's van een canonical startcodon (AUG) of alternatieve startcodons (optioneel, bijv. CUG en GUG) tot de volgende stopcodon. Vervolgens beoordeelt RiboCode, op basis van de mappingresultaten van RPF's binnen het gedefinieerde bereik, de 3-nt periodiciteit door te evalueren of het aantal in-frame RPF's (d.w.z. hun P-sites toegewezen aan het eerste nucleotide van elk codon) groter is dan het aantal out-of-frame RPF's (d.w.z. hun P-sites toegewezen aan het tweede of derde nucleotide van elk codon). We identificeerden 13.120 genen die mogelijk ORF's vertalen met p < 0,05, waaronder 10.394 genen (70,8%) die coderen voor geannoteerde ORF's, 168 (1,1%) genen die coderen voor dORFs, 509 (3,5%) genen die coderen voor uORF's, 939 (6,4%) genen die coderen voor upstream of downstream ORF's overlappen met bekende geannoteerde ORF's (Overlapped) en 68 (0,5%) eiwitcoderende genen die coderen voor nieuwe ORF's, en 2.601 (17,7%) eerder toegewezen als niet-coderende genen die coderen voor nieuwe ORF's (figuur 2 en supplementbestand 3)

Vergelijking van de grootte van verschillende ORF's toonde aan dat uORF's en overlappende ORF's korter zijn (respectievelijk gemiddeld 195 en 188 nt) dan geannoteerde ORF's (~ 1.771 nt). Dezelfde trend werd ook waargenomen voor nieuwe ORF's (respectievelijk 670 en 385 nt voor nieuwe PCG's en nieuwe nonPCGS) en dORF's (~671 nt) (figuur 3). Samen hadden die niet-canonische ORF's (niet-geannoteerd) geïdentificeerd door RiboCode de neiging om peptiden te coderen die kleiner zijn dan die bekende geannoteerde ORF's.

Voor elke ORF werden relatieve RPF-tellingen berekend om de functie van EIF3 in de vertaalprocessen te beoordelen. De resultaten suggereerden dat de ribosoomdichtheden van uORF's significant hoger waren in EIF3E-deficiënte cellen dan in controlecellen (figuur 4). Aangezien van veel uORF's werd gemeld dat ze remmende effecten hadden op de translatie van downstream coderende ORF's, onderzochten we verder of de EIF3E knockdown de wereldwijde dichtheden van RPF's stroomafwaarts van de startcodons verandert (figuur 5). De metagenanalyse, waarbij de profielen van veel ORF's werden uitgelijnd en vervolgens gemiddeld, onthulde dat een massa ribosomen vastliep tussen codons 25 en 75 stroomafwaarts van het startcodon, wat suggereert dat de translatie-rek vroeg zou kunnen worden geblokkeerd in EIF3E-deficiënte cellen. Verder onderzoek is gerechtvaardigd om te onderzoeken of de signaal-ruisverhouding of de veranderingen in de vertaalefficiëntie van ORF's bijdragen aan de toename van uORF RPKM en de accumulatie van ribosomen tussen codons 25 tot 75 in afwezigheid van EIF3E, dat wil zeggen of de 1) minder verontreiniging (of goede bibliotheekkwaliteit) of 2) actieve translatie (of ribosoomonderbreking) in de monsters zonder EIF3E resulteert in meer leesbewerkingen in uORF's en in het gedefinieerde gebied tussen de 25e en 75e codons.

Ten slotte biedt RiboCode ook visualisatie voor dichtheden van de P-sites van RPF's op gewenste ORF, wat gebruikers zou kunnen helpen om de 3-nt periodiciteitspatronen en dichtheden van RPF's te onderzoeken. Figuur 6 toont bijvoorbeeld de RPF-dichtheden op een uORF van PSMA6 en een dORF van SENP3-EIF4A1; beide werden gevalideerd door gepubliceerde proteomics-gegevens23 (gegevens niet weergegeven).

Figure 1
Figuur 1: Beoordeling van sequencing-aflezingen en de P-siteposities. (A) Lengteverdeling van ribosoombeschermde fragmenten (RPF's) in EIF3E-deficiënte cellen in replicatie 1 (si-eIF3e-1); (B) Het afleiden van de P-site positie van RPF's van 29nt op basis van hun dichtheden rond de bekende start (boven) en stopcodons (onder). Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2: Percentages genen met verschillende soorten ORF's geïdentificeerd door RiboCode met behulp van alle monsters samen. Afkortingen: ORF = open leeskader; dORF = downstream ORF; PCG = eiwitcoderend gen; NonPCG = niet-proteïne-coderend gen; uORF = upstream ORF. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Lengteverdelingen van verschillende ORF-typen. Afkortingen: ORF = open leeskader; dORF = downstream ORF; PCG = eiwitcoderend gen; NonPCG = niet-proteïne-coderend gen; uORF = upstream ORF; nt = nucleotide. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: Vergelijking van genormaliseerde leestellingen voor verschillende ORF-typen tussen controle- en EIF3E-deficiënte cellen. p-waarden werden bepaald door wilcoxon ondertekende rangtest. Afkorting: ORF = open leeskader; dORF = downstream ORF; PCG = eiwitcoderend gen; NonPCG = niet-proteïne-coderend gen; uORF = upstream ORF; RPKM = Reads per kilobase per miljoen in kaart gebrachte reads; siRNA = klein-interfererend RNA; si-Ctrl = controle siRNA; si-eIF3e = siRNA gericht op EIF3E. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Metagene analyse die de kraam van ribosomen toont op het 25-75e codon stroomafwaarts van het startcodon van geannoteerde ORF's. Afkorting: ORF = open leeskader; siRNA = klein-interfererend RNA; si-Ctrl = controle siRNA; si-eIF3e = siRNA gericht op EIF3E; A. U., elke eenheid. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 6
Figuur 6: P-site dichtheidsprofielen van voorbeeld ORF's die coderen voor micropeptiden. (A) P-site dichtheden van voorspelde uORF en de positie ervan ten opzichte van geannoteerde CDS op transcript ENST00000622405; (B) hetzelfde als in A , maar voor de voorspelde dORF op transcript ENST00000614237. Onderste paneel met de vergrote weergave van voorspelde uORF (A) of dORF (B). Rode balk = in-frame leest; Groene en blauwe balken = off-frame leest. Afkorting: ORF = open leeskader; dORF = downstream ORF; uORF = upstream ORF; CDS = codeersequenties. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullende informatie: Evaluatie van de afhankelijkheid tussen twee p-waarden en uitleg van RiboCode-resultaten (uORF van ATF4 als voorbeeld). Klik hier om dit bestand te downloaden.

Aanvullend bestand 1: Het configuratiebestand voor RiboCode dat de geselecteerde lengtes van RPF's en P-siteposities definieert. Klik hier om dit bestand te downloaden.

Aanvullend bestand 2: RiboCode-uitvoerbestand met de informatie van voorspelde ORF's. Klik hier om dit bestand te downloaden.

Aanvullend bestand 3: R-scriptbestand voor het uitvoeren van basisstatistieken van RiboCode-uitvoer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 4: Het configuratiebestand (voor RiboMiner) gewijzigd van aanvullend bestand 1. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ribosoomprofilering biedt een ongekende kans om de werking van de ribosomen in cellen op genoomschaal te bestuderen. Het nauwkeurig ontcijferen van de informatie die door de ribosoomprofileringsgegevens wordt gedragen, kan inzicht geven in welke regio's van genen of transcripten actief worden vertaald. Dit stapsgewijze protocol biedt richtlijnen voor het gebruik van RiboCode om ribosoomprofileringsgegevens in detail te analyseren, inclusief pakketinstallatie, gegevensvoorbereiding, uitvoering van opdrachten, resultaatuitleg en gegevensvisualisatie. De analyseresultaten van RiboCode gaven aan dat translatie alomtegenwoordig is en optreedt op niet-geannoteerde ORF's van coderende genen en veel transcripten waarvan eerder werd aangenomen dat ze niet-coderend waren. De downstream-analyses leverden bewijs dat de ribosomen langs de voorspelde ORF's bewegen in 3-nucleotidestappen wanneer translatie plaatsvindt; het blijft echter onduidelijk of het vertaalproces of de geproduceerde peptiden enige functie hebben. Niettemin kunnen nauwkeurige annotaties van het vertalen van ORF's op het genoom aanleiding geven tot opwindende mogelijkheden om de functies van voorheen niet-gekarakteriseerde transcripten te identificeren31.

De voorspelling van het coderingspotentieel voor elke ORF met behulp van ribosoomprofileringsgegevens is sterk afhankelijk van de 3-nt periodiciteit van de P-sites dichtheden op elk codon van het begin tot de stopcodons van ORF's. Daarom vereist het nauwkeurige detectie van de P-site locaties van aflezingen van verschillende lengtes. Dergelijke informatie wordt niet rechtstreeks verstrekt door ribosoomprofileringsgegevens, maar kan worden afgeleid uit de afstanden tussen het 5'-uiteinde van RPF's en geannoteerde start- of stopcodons (protocolstap 5.3). Het ontbreken van annotaties van bekende start/stop-codons in het GTF-bestand, zoals voor die nieuw samengestelde genomen, kan ertoe leiden dat RiboCode de stroomafwaartse stappen niet uitvoert, tenzij de exacte P-site locaties van de reads op een andere manier worden bepaald. In de meeste gevallen zijn de grootte van ribosoomgebonden fragmenten en hun P-site locaties constant, bijvoorbeeld 28-30 nt lang en op de +12 nt van het 5 'einde van de aflezingen in menselijke cellen. RiboCode maakt de selectie van de reads in een specifiek bereik mogelijk om P-site posities te definiëren op basis van ervaring. Zowel de lengte van de RPF-aflezingen als de positie van hun P-locaties kunnen echter verschillen wanneer de omgevingsomstandigheden (bijv. Stress of stimulus) of de experimentele procedure (bijv. Nuclease, buffer, bibliotheekvoorbereiding en sequencing) zijn gewijzigd. Daarom raden we aan om de metaplots (protocolstap 5.3) voor elk monster uit te voeren om de meest betrouwbare RPF's te extraheren (d.w.z. leests met 3-nt periodiciteitspatronen) en hun P-siteposities in verschillende omstandigheden te bepalen. Hoewel deze bewerkingen automatisch kunnen worden uitgevoerd met behulp van de metaplots-functie , slaagt vaak slechts een minderheid van de metingen die een bijna perfecte framing of fasering laten zien, voor de strenge selectiecriteria en statistische test. Daarom is het nog steeds nodig om de bepaalde parameters los te maken, met name de "-f0_percent", en vervolgens de 3-nt periodiciteit van leesbewerkingen op elke lengte visueel te inspecteren en het configuratiebestand handmatig te bewerken om dienovereenkomstig meer leesbewerkingen op te nemen, vooral wanneer de bibliotheekkwaliteit slecht is (protocolstap 5.3).

RiboCode zoekt naar de kandidaat-ORF's van canonieke of niet-canonieke startcodons (NUG's) tot de volgende stop codon. Voor de transcripties met meerdere startcodons stroomopwaarts van de stopcodons worden de meest waarschijnlijke startcodons bepaald door de 3-nt periodiciteit van de RPF-reads te beoordelen die in kaart zijn gebracht tussen twee naburige startcodons of door simpelweg de upstream startcodon te kiezen met meer in-frame dan off-frame RPF-reads. Een beperking van een dergelijke strategie is dat de werkelijke startcodons verkeerd kunnen worden geïdentificeerd als reads die zijn afgestemd op de startcodonregio's schaars of afwezig zijn. Gelukkig bieden recente strategieën, zoals global translation initiation sequencing (GTI-seq)32 en quantitative translation initiation sequencing (QTI-seq)33, meer directe manieren om de vertaalinitiatiesites te lokaliseren. Voor NUG's zijn nog steeds meer studies nodig om hun validiteiten als efficiënte startcodons te onderzoeken.

We hebben ook een nieuwe update voor RiboCode uitgebracht door drie nieuwe functies toe te voegen: 1) het rapporteert de andere potentiële ORF-typen die zijn toegewezen op basis van hun locaties ten opzichte van de transcripties anders dan de langste; 2) het biedt een optie voor het aanpassen van gecombineerde p-waarden als het testen van RPF-waarden in de twee out-frames niet onafhankelijk is (zie meer gedetailleerde uitleg in Aanvullende informatie); 3) het voert p-waardecorrectie uit voor meerdere tests, waardoor het vertalen van ORF's strenger kan worden gescreend.

Aangezien RiboCode de actief vertalende ORF's identificeert door de 3-nt periodiciteit van de RPF-leesdichtheden te evalueren, heeft het bepaalde beperkingen voor die ORF's die extreem kort zijn (bijvoorbeeld minder dan 3 codons). Spealman et al. vergeleken de prestaties van RiboCode met uORF-seqr en rapporteerden dat er geen uORFs korter dan 60 nt worden voorspeld door RiboCode in hun dataset34. We stellen dat de parameter voor ORF-grootteselectie (-m) in de vorige versie van RiboCode niet correct is ingesteld. We hebben de standaardwaarde van dit argument gewijzigd in 5 in de bijgewerkte RiboCode.

RiboCode rapporteert de geïdentificeerde ORF's in twee bestanden: "RiboCode_ORFs_result.txt" met alle ORF's, inclusief redundante ORF's van verschillende transcripten van hetzelfde gen; "RiboCode_ORFs_result_collapsed.txt" (aanvullend bestand 2) waarin de overlappende ORF's met hetzelfde stopcodon maar verschillende startcodons worden geïntegreerd, d.w.z. degene die het meest upstream startcodon in hetzelfde leesframe herbergt, blijft behouden. In beide bestanden worden de gedetecteerde ORF's ingedeeld in "nieuwe" vertalende ORF's of andere verschillende typen op basis van hun relatieve locaties voor bekende CDS (zie een gedetailleerde uitleg van ORF-typen van RiboCode paper22 of op RiboCode-website35). We illustreerden hoe de RiboCode-outputs kunnen worden geïnterpreteerd met behulp van een voorspelde uORF van gen ATF4 als voorbeeld (Aanvullende informatie). RiboCode telt ook het aantal genen dat verschillende soorten ORF's bevat en plot ze samen met hun percentages (figuur 2).

Een studie meldde dat sommige tot expressie gebrachte maar translationeel rustige genen kunnen worden geactiveerd om zich te vertalen in peptiden bij oxidatieve stress12, wat aangeeft dat er waarschijnlijk andere ORF's zijn die mogelijk alleen op een conditieafhankelijke manier worden vertaald. RiboCode kan afzonderlijk of gezamenlijk worden uitgevoerd voor verschillende experimentele omstandigheden (bijv. si-Ctrl of si-eIF3e), zoals gedemonstreerd in dit protocol (stappen 5.4 en 6.1). Het multiplexen van meerdere monsters in één run door de lengtes en P-siteposities van geselecteerde reads in "merged_config.txt" te definiëren, heeft verschillende voordelen ten opzichte van het afzonderlijk verwerken van elk monster. Ten eerste vermindert het de vooroordelen die aanwezig zijn in een enkel monster; ten tweede bespaart het het programma runtime; ten slotte levert het voldoende gegevens op om de statistieken uit te voeren. Het werkt dus theoretisch beter dan de single-sample-modus, vooral voor de samples met een lage sequencingdekking en hoge achtergrondruis. Verdere kwantificering en vergelijking van aantallen RPF's toegewezen aan voorspelde ORF's tussen verschillende omstandigheden (bijv. Si-eIF3e versus si-Ctrl) stellen ons in staat om contextafhankelijke ORF's te ontdekken of de translationele regulatie van de ORF's te verkennen.

Merk op dat vanwege de accumulatie van ribosomen aan het begin en het einde van ORF's, een fenomeen dat "translatie ramp" wordt genoemd, de RPF's die zijn toegewezen in de eerste 15 codon en de laatste 5 codons moeten worden uitgesloten van de telling van de metingen om te voorkomen dat de analyse van differentiële ORF-translatie die vertekent naar de verschillen van initiatiesnelheden3,5, 36. Deze resultaten suggereerden dat de abundantie van uORFs-typen hoger is in cellen zonder EIF3 dan in controlecellen, wat (of op zijn minst gedeeltelijk) kan worden veroorzaakt door de verhoogde niveaus van actief vertalende ribosomen. De meta-analyse van RPF-dichtheden rond de startcodons suggereerde ook dat de vroege translatie-rek wordt gereguleerd door EIF3E. Merk op dat het simpelweg tellen van de RPF-waarden in een ORF niet nauwkeurig is voor het kwantificeren van vertalingen, vooral wanneer de translatie-rek ernstig wordt geblokkeerd.

Samenvattend laat dit protocol zien dat RiboCode gemakkelijk kan worden toegepast om nieuwe vertaalde ORF's van elke grootte te identificeren, inclusief die welke coderen voor micropeptiden. Het zou een waardevol hulpmiddel zijn voor de onderzoeksgemeenschap om verschillende soorten ORF's in verschillende fysiologische contexten of experimentele omstandigheden te ontdekken. Verdere validatie van de eiwit- of peptideproducten uit deze ORF's zou nuttig zijn voor de ontwikkeling van toekomstige toepassingen van ribosoomprofilering.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben geen belangenconflicten te onthullen.

Acknowledgments

De auteurs willen graag de ondersteuning erkennen van de computationele bronnen die worden geboden door het HPCC-platform van de Xi'an Jiaotong University. Z.X. bedankt dankbaar het Young Topnotch Talent Support Plan van Xi'an Jiaotong University.

Materials

Name Company Catalog Number Comments
A computer/server running Linux Any - -
Anaconda or Miniconda Anaconda - Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation - https://www.r-project.org/
Rstudio Rstudio - https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
  25. Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
  26. Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
  27. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  28. Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
  29. Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
  30. Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
  31. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  32. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  33. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  34. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  35. Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
  36. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Tags

Biologie Ribosoomprofilering open leesframe mRNA-translatie micropeptide uORF dORF
<em>De novo</em> Identificatie van actief vertaalde open leesframes met ribosoomprofileringsgegevens
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhu, Y., Li, F., Yang, X., Xiao, Z.More

Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter