Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

डे नोवो राइबोसोम प्रोफाइलिंग डेटा के साथ सक्रिय रूप से अनुवादित ओपन रीडिंग फ्रेम्स की पहचान

Published: February 18, 2022 doi: 10.3791/63366
* These authors contributed equally

Summary

राइबोसोम का अनुवाद पेप्टाइड्स में प्रति कोडोन तीन न्यूक्लियोटाइड्स को डिकोड करता है। एमआरएनए के साथ उनका आंदोलन, राइबोसोम प्रोफाइलिंग द्वारा कब्जा कर लिया गया है, विशेषता ट्रिपल आवधिकता को प्रदर्शित करने वाले पैरों के निशान पैदा करता है। यह प्रोटोकॉल वर्णन करता है कि राइबोसोम प्रोफाइलिंग डेटा से इस प्रमुख विशेषता को समझने के लिए राइबोकोड का उपयोग कैसे करें ताकि पूरे-ट्रांसक्रिप्टोम स्तर पर सक्रिय रूप से अनुवादित खुले रीडिंग फ्रेम की पहचान की जा सके।

Abstract

खुले पढ़ने के फ्रेम (ओआरएफ) की पहचान, विशेष रूप से छोटे पेप्टाइड्स को एन्कोडिंग करने वाले और विशिष्ट शारीरिक संदर्भों के तहत सक्रिय रूप से अनुवादित होने वाले, संदर्भ-निर्भर अनुवादों के व्यापक एनोटेशन के लिए महत्वपूर्ण है। राइबोसोम प्रोफाइलिंग, आरएनए पर राइबोसोम का अनुवाद करने के बाध्यकारी स्थानों और घनत्व का पता लगाने के लिए एक तकनीक, तेजी से यह पता लगाने के लिए एक एवेन्यू प्रदान करती है कि जीनोम-वाइड पैमाने पर अनुवाद कहां हो रहा है। हालांकि, यह बायोइन्फॉर्मेटिक्स में एक तुच्छ कार्य नहीं है कि राइबोसोम प्रोफाइलिंग के लिए ओआरएफ का अनुवाद कुशलतापूर्वक और व्यापक रूप से पहचान किया जाए। यहां वर्णित एक आसान-से-उपयोग पैकेज है, जिसका नाम राइबोकोड है, जिसे राइबोसोम प्रोफाइलिंग डेटा में विकृत और अस्पष्ट संकेतों से किसी भी आकार के ओआरएफ का सक्रिय रूप से अनुवाद करने के लिए खोज करने के लिए डिज़ाइन किया गया है। एक उदाहरण के रूप में हमारे पहले प्रकाशित डेटासेट को लेते हुए, यह लेख पूरे राइबोकोड पाइपलाइन के लिए चरण-दर-चरण निर्देश प्रदान करता है, कच्चे डेटा के प्रीप्रोसेसिंग से लेकर अंतिम आउटपुट परिणाम फ़ाइलों की व्याख्या तक। इसके अलावा, एनोटेट किए गए ओआरएफ की अनुवाद दरों का मूल्यांकन करने के लिए, प्रत्येक ओआरएफ पर राइबोसोम घनत्व के विज़ुअलाइज़ेशन और परिमाणीकरण के लिए प्रक्रियाओं का भी विस्तार से वर्णन किया गया है। संक्षेप में, वर्तमान लेख अनुवाद, छोटे ओआरएफ और पेप्टाइड्स से संबंधित अनुसंधान क्षेत्रों के लिए एक उपयोगी और समय पर निर्देश है।

Introduction

हाल ही में, अध्ययनों के एक बढ़ते शरीर ने कोडिंग जीन के ओआरएफ से अनुवादित पेप्टाइड्स के व्यापक उत्पादन का खुलासा किया है और पहले एनोटेट किए गए जीनों को नॉनकोडिंग के रूप में, जैसे कि लंबे समय तक नॉनकोडिंग आरएनए (एलएनसीआरएनए) 1,2,3,4,5,6,7,8 इन अनुवादित ओआरएफ को पर्यावरणीय परिवर्तनों, तनाव और सेल भेदभाव 1,8,9,10,11,12,13 का जवाब देने के लिए कोशिकाओं द्वारा विनियमित या प्रेरित किया जाता है कुछ ओआरएफ के अनुवाद उत्पादों को विकास और शरीर विज्ञान में विविध जैविक प्रक्रियाओं में महत्वपूर्ण नियामक भूमिका निभाने के लिए प्रदर्शित किया गया है। उदाहरण के लिए, Chng et al.14 ने Elabela (Ela, जिसे Apela / Ende / Toddler के रूप में भी जाना जाता है) नामक एक पेप्टाइड हार्मोन की खोज की, जो हृदय विकास के लिए महत्वपूर्ण है। पाउली एट अल ने सुझाव दिया कि इला एक माइटोजेन के रूप में भी कार्य करता है जो प्रारंभिक मछली भ्रूण में सेल माइग्रेशन को बढ़ावा देता है15। मैग्नी एट अल ने कैल्शियम परिवहन को विनियमित करने और ड्रोसोफिला हार्ट 10 में नियमित मांसपेशियों के संकुचन को प्रभावित करने वाले 30 से कम अमीनो एसिड के दो माइक्रोपेप्टाइड्स की सूचना दी।

यह स्पष्ट नहीं है कि ऐसे कितने पेप्टाइड्स जीनोम द्वारा एन्कोड किए गए हैं और क्या वे जैविक रूप से प्रासंगिक हैं। इसलिए, इन संभावित कोडिंग ओआरएफ की व्यवस्थित पहचान अत्यधिक वांछनीय है। हालांकि, विकासवादी संरक्षण 16,17 और मास स्पेक्ट्रोमेट्री 18,19 जैसे पारंपरिक दृष्टिकोणों का उपयोग करके इन ओआरएफ (यानी, प्रोटीन या पेप्टाइड) के उत्पादों का सीधे निर्धारण करना चुनौतीपूर्ण है क्योंकि दोनों दृष्टिकोणों की पहचान दक्षता उत्पादित प्रोटीन या पेप्टाइड्स की लंबाई, बहुतायत और अमीनो एसिड संरचना पर निर्भर करती है। राइबोसोम प्रोफाइलिंग के आगमन, न्यूक्लियोटाइड रिज़ॉल्यूशन पर एमआरएनए पर राइबोसोम अधिभोग की पहचान करने के लिए एक तकनीक, ने विभिन्न टेपों 3,20,21 की कोडिंग क्षमता का मूल्यांकन करने का एक सटीक तरीका प्रदान किया है, भले ही उनकी लंबाई और संरचना की परवाह किए बिना। राइबोसोम प्रोफाइलिंग का उपयोग करके सक्रिय रूप से ओआरएफ का अनुवाद करने की पहचान करने के लिए एक महत्वपूर्ण और अक्सर उपयोग की जाने वाली विशेषता तीन-न्यूक्लियोटाइड (3-एनटी) है जो एमआरएनए पर राइबोसोम के पैरों के निशान की आवधिकता है, जो शुरुआती कोडोन से स्टॉप कोडोन तक है। हालांकि, राइबोसोम प्रोफाइलिंग डेटा में अक्सर कई मुद्दे होते हैं, जिनमें ओआरएफ, उच्च अनुक्रमण शोर और राइबोसोमल आरएनए (आरआरएनए) संदूषणों के साथ कम और विरल अनुक्रमण पढ़ता है। इस प्रकार, इस तरह के डेटा द्वारा उत्पन्न विकृत और अस्पष्ट संकेत एमआरएनए पर राइबोसोम के पैरों के निशान के 3-एनटी आवधिकता पैटर्न को कमजोर करते हैं, जो अंततः उच्च-आत्मविश्वास वाले अनुवादित ओआरएफ की पहचान को मुश्किल बनाता है।

"राइबोकोड" नामक एक पैकेज ने एक संशोधित विलकॉक्सन-हस्ताक्षरित-रैंक परीक्षण और पी-मूल्य एकीकरण रणनीति को अनुकूलित किया ताकि यह जांच की जा सके कि ओआरएफ में ऑफ-फ्रेम आरपीएफ 22 की तुलना में काफी अधिक इन-फ्रेम राइबोसोम-संरक्षित टुकड़े (आरपीएफ) हैं या नहीं। यह अत्यधिक कुशल, संवेदनशील, और नकली और वास्तविक राइबोसोम प्रोफाइलिंग डेटा में अनुवाद के डे नोवो एनोटेशन के लिए सटीक होने का प्रदर्शन किया गया था। यहां, हम वर्णन करते हैं कि पिछले अध्ययन 23 द्वारा उत्पन्न कच्चे राइबोसोम प्रोफाइलिंग अनुक्रमण डेटासेट से संभावित अनुवाद ओआरएफ का पता लगाने के लिए इस उपकरण का उपयोग कैसे करें। इन डेटासेट का उपयोग अनुवाद में EIF3 सबयूनिट "E" (EIF3E) के कार्य का पता लगाने के लिए किया गया था, जिसमें MCF-10A कोशिकाओं के राइबोसोम अधिभोग प्रोफाइल की तुलना की गई थी, जो नियंत्रण (si-Ctrl) और EIF3E (si-eIF3e ) छोटे-हस्तक्षेप वाले आरएनए (siRNAs) के साथ transfected थे। इन उदाहरण डेटासेट पर राइबोकोड लागू करके, हमने 5,633 उपन्यास ओआरएफ का पता लगाया जो संभावित रूप से छोटे पेप्टाइड्स या प्रोटीन को एन्कोडिंग करते हैं। इन ओआरएफ को कोडिंग क्षेत्रों के सापेक्ष उनके स्थानों के आधार पर विभिन्न प्रकारों में वर्गीकृत किया गया था, जिसमें अपस्ट्रीम ओआरएफ (यूओआरएफ), डाउनस्ट्रीम ओआरएफ (डीओआरएफ), ओवरलैप किए गए ओआरएफ, उपन्यास प्रोटीन-कोडिंग जीन (उपन्यास पीसीजी) से ओआरएफ, और उपन्यास नॉनप्रोटीन-कोडिंग जीन (उपन्यास नॉनपीसीजी) से ओआरएफ शामिल थे। नियंत्रण कोशिकाओं की तुलना में EIF3E-कमी वाली कोशिकाओं में यूओआरएफ पर आरपीएफ पठन घनत्व में काफी वृद्धि हुई थी, जो कम से कम आंशिक रूप से राइबोसोम का सक्रिय रूप से अनुवाद करने के संवर्धन के कारण हो सकता है। EIF3E-कमी वाली कोशिकाओं के 25 वें से 75 वें कोडोन तक क्षेत्र में स्थानीयकृत राइबोसोम संचय ने प्रारंभिक चरण में अनुवाद बढ़ाव की रुकावट का संकेत दिया। यह प्रोटोकॉल यह भी दिखाता है कि पहचाने गए ओआरएफ पर राइबोसोम पैरों के निशान के 3-एनटी आवधिकता पैटर्न की जांच करने के लिए वांछित क्षेत्र के आरपीएफ घनत्व की कल्पना कैसे की जाए। ये विश्लेषण ओआरएफ के अनुवाद की पहचान करने और अनुवाद के विनियमन का अध्ययन करने में राइबोकोड की शक्तिशाली भूमिका को प्रदर्शित करते हैं।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. पर्यावरण सेटअप और RiboCode स्थापना

  1. एक लिनक्स टर्मिनल विंडो खोलें और एक कोंडा वातावरण बनाएँ:
    कोंडा बनाएँ -n राइबोकोड पायथन = 3.8
  2. बनाए गए वातावरण पर स्विच करें और RiboCode और निर्भरताएँ स्थापित करें:
    कोंडा सक्रिय राइबोकोड
    कोंडा स्थापित -सी bioconda राइबोकोड ribominer sra-उपकरण fastx_toolkit cutadapt bowtie सितारा samtools

2. डेटा की तैयारी

  1. जीनोम संदर्भ फ़ाइलें प्राप्त करें.
    1. संदर्भ अनुक्रम के लिए, https://www.ensembl.org/index.html पर Ensemble वेबसाइट पर जाएँ, शीर्ष मेनू डाउनलोड और बाईं ओर मेनू FTP डाउनलोड पर क्लिक करें। प्रस्तुत तालिका में, स्तंभ DNA (FASTA) और उस पंक्ति में FASTA क्लिक करें जहाँ प्रजाति मानव है. खुले पृष्ठ में, Homo_sapiens के लिंक की प्रतिलिपि बनाएँ. GRCh38.dna.primary_assembly.fa.gz, फिर डाउनलोड करें और इसे टर्मिनल में अनज़िप करें:
      wget -c \
      http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
      gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz
    2. संदर्भ एनोटेशन के लिए, अंतिम-खोले गए वेब पेज में स्तंभ जीन सेट में GTF राइट-क्लिक करें. Homo_sapiens के लिंक की प्रतिलिपि बनाएँ. GRCh38.104.gtf.gz और इसका उपयोग कर इसे डाउनलोड करें:
      wget -c \
      http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
      gzip -d Homo_sapiens. GRCh38.104.gtf.gz

      नोट: Ensemble वेबसाइट से GTF फ़ाइल प्राप्त करने की सिफारिश की जाती है क्योंकि इसमें तीन-स्तरीय पदानुक्रम में आयोजित जीनोम एनोटेशन होते हैं, यानी, प्रत्येक जीन में टेप होते हैं जिनमें एक्सोन और वैकल्पिक अनुवाद होते हैं (उदाहरण के लिए, कोडिंग अनुक्रम [CDS], अनुवाद प्रारंभ साइट, अनुवाद अंत साइट, अनुवाद अंत साइट)। जब किसी जीन या ट्रांसक्रिप्ट के एनोटेशन अनुपलब्ध होते हैं, उदाहरण के लिए, यूसीएससी या एनसीबीआई से प्राप्त एक जीटीएफ फ़ाइल, पूर्ण माता-पिता-बच्चे पदानुक्रम एनोटेशन के साथ एक अद्यतन जीटीएफ उत्पन्न करने के लिए GTFupdate का उपयोग करें: GTFupdate original.gtf > updated.gtf। .gff स्वरूप में एनोटेशन फ़ाइल के लिए, .gtf स्वरूप में कनवर्ट करने के लिए AGAT टूलकिट24 या किसी अन्य उपकरण का उपयोग करें.
  2. RRNA अनुक्रम प्राप्त करें.
    1. https://genome.ucsc.edu पर UCSC जीनोम ब्राउज़र खोलें और उपकरण | पर क्लिक करें ड्रॉपडाउन सूची में तालिका ब्राउज़र.
    2. खुले पृष्ठ पर, क्लैड के लिए स्तनपायी , जीनोम के लिए मानव , समूह के लिए सभी तालिकाएं, तालिका के लिए rmask , और क्षेत्र के लिए जीनोम निर्दिष्ट करें। फ़िल्टर के लिए, किसी नए पृष्ठ पर जाने के लिए बनाएँ क्लिक करें और rRNA से मेल खाने के रूप में repClass सेट करें.
    3. सबमिट करें क्लिक करें, और तब आउटपुट स्वरूप को अनुक्रम और आउटपुट फ़ाइल नाम के रूप में hg38_rRNA.fa पर सेट करें. अंत में, आउटपुट प्राप्त करें | पर क्लिक करें RRNA अनुक्रम को पुनर्प्राप्त करने के लिए अनुक्रम प्राप्त करें.
  3. अनुक्रम पठन संग्रह (SRA) से राइबोसोम प्रोफाइलिंग डेटासेट प्राप्त करें.
    1. si-eIF3e उपचार समूह के प्रतिकृति नमूने डाउनलोड करें और उनका नाम बदलें:
      फास्टक्यू-डंप SRR9047190 SRR9047191 SRR9047192
      mv SRR9047190.fastq si-eIF3e-1.fastq
      mv SRR9047191.fastq si-eIF3e-2.fastq
      mv SRR9047192.fastq si-eIF3e-3.fastq
    2. नियंत्रण समूह के प्रतिकृति नमूने डाउनलोड करें और उनका नाम बदलें:
      फास्टक्यू-डंप SRR9047193 SRR9047194 SRR9047195 SRR9047195
      mv SRR9047193.fastq si-Ctrl-1.fastq
      mv SRR9047194.fastq si-Ctrl-2.fastq
      mv SRR9047195.fastq si-Ctrl-3.fastq
      नोट:: इन उदाहरण डेटासेट के लिए SRA परिग्रहण Id जीन अभिव्यक्ति Omnibus (GEO) वेबसाइट 25 से GSE131074 के लिए खोज कर प्राप्त किए गए थे।

3. ट्रिम एडाप्टर और rRNA संदूषण को हटाने

  1. (वैकल्पिक) अनुक्रमण डेटा से एडाप्टर निकालें. एडाप्टर अनुक्रम पहले से ही छंटनी की गई है, तो इस चरण को छोड़ दें, जैसा कि इस मामले में है। अन्यथा, पढ़ने से एडाप्टर ट्रिम करने के लिए cutadapt का उपयोग करें।
    के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
    करना
    cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
    -o ${i}_trimmed.fastq ${i}.fastq
    समाज-सम्मत
    नोट:: एडाप्टर अनुक्रम के बाद -एक पैरामीटर cDNA लायब्रेरी तैयारी पर निर्भर भिन्न होगा। 15 से कम पढ़ता है ( -m द्वारा दिया गया) छोड़ दिया जाता है क्योंकि राइबोसोम-संरक्षित टुकड़े आमतौर पर इस आकार से लंबे होते हैं।
  2. निम्न चरणों का उपयोग कर rRNA संदूषण निकालें:
    1. अनुक्रमणिका rRNA संदर्भ अनुक्रम:
      bowtie-build -f hg38_rRNA.fa hg38_rRNA
    2. RRNA से उत्पन्न होने वाली पठनों को रद्द करने के लिए rRNA संदर्भ में पठनों को संरेखित करें:
      के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
      करना
      bowtie -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
      --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
      समाज-सम्मत
      -p समानांतर रूप से कार्यों को चलाने के लिए थ्रेड्स की संख्या निर्दिष्ट करता है। आरपीएफ के अपेक्षाकृत छोटे आकार को ध्यान में रखते हुए, अन्य तर्क (जैसे, -n, -y, -a, -norc, --best, --strata, और -l) को यह सुनिश्चित करने के लिए निर्दिष्ट किया जाना चाहिए कि रिपोर्ट किए गए संरेखण सबसे अच्छे हैं। अधिक जानकारी के लिए, Bowtie website26 देखें।

4. जीनोम के लिए साफ पढ़ता है संरेखित करें

  1. एक जीनोम सूचकांक बनाएँ।
    mkdir STAR_hg38_genome
    STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens। GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
  2. बनाए गए संदर्भ के लिए क्लीन रीड्स (कोई rRNA संदूषण) संरेखित करें।
    के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
    करना
    स्टार --runThreadN 8 --outFilterType सामान्य --outWigType wiggle --outWigStrand फंसे हुए --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes सभी
    समाज-सम्मत
    नोट: एक untemplated न्यूक्लियोटाइड अक्सर रिवर्स transcriptase27 द्वारा पढ़ा प्रत्येक के 5 'अंत में जोड़ा जाता है, जो कुशलतासे स्टार द्वारा छंटनी की जाएगी के रूप में यह डिफ़ॉल्ट रूप से नरम-कतरन प्रदर्शन करता है. STAR के लिए पैरामीटर STAR manual28 में वर्णित हैं।
  3. सॉर्ट करें और अनुक्रमणिका संरेखण फ़ाइलें.
    के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
    करना
    samtools सॉर्ट -T ${i}. Aligned.toTranscriptome.out.sorted \
    -o ${i}. Aligned.toTranscriptome.out.sorted.bam \
    ${i}. Aligned.toTranscriptome.out.bam
    samtools अनुक्रमणिका ${i}. Aligned.toTranscriptome.out.sorted.bam
    samtools अनुक्रमणिका ${i}. Aligned.sortedByCoord.out.bam
    समाज-सम्मत

5. आरपीएफ के आकार का चयन और उनके पी-साइटों की पहचान

  1. प्रतिलेख एनोटेशन तैयार करें.
    prepare_transcripts -जी Homo_sapiens. GRCh38.104.gtf \
    -च Homo_sapiens। GRCh38.dna.primary_assembly.fa -o RiboCode_annot
    नोट:: यह आदेश GTF फ़ाइल से mRNA टेपों की आवश्यक जानकारी एकत्र करता है और FASTA फ़ाइल से सभी mRNA टेपों के लिए अनुक्रम निकालता है (प्रत्येक प्रतिलेख GTF फ़ाइल में परिभाषित संरचनाओं के अनुसार exons मर्ज करके इकट्ठा किया जाता है)।
  2. विशिष्ट लंबाई के RPFs का चयन करें और उनके P-साइट पदों की पहचान करें।
    के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
    करना
    metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
    -o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
    समाज-सम्मत
    नोट:: यह आदेश एनोटेट अनुवाद प्रारंभ (या रोकें) कोडोन के आसपास प्रत्येक लंबाई के संरेखित पढ़ता है के 5 'अंत के कुल प्रोफाइल प्लॉट करता है। पठन लंबाई-निर्भर पी-साइट को मैन्युअल रूप से वितरण भूखंडों (जैसे, चित्रा 1 बी) की जांच करके निर्धारित किया जा सकता है, जो प्रमुख रीड्स और स्टार्ट कोडोन के 5 'सिरों के बीच ऑफसेट दूरी है। RiboCode प्रत्येक नमूने के लिए एक कॉन्फ़िगरेशन फ़ाइल भी उत्पन्न करता है, जिसमें महत्वपूर्ण 3-nt आवधिकता पैटर्न प्रदर्शित करने वाले पढ़ने की पी-साइट स्थिति स्वचालित रूप से निर्धारित की जाती है। पैरामीटर -f0_percent, -pv1, और -pv2 आरपीएफ पढ़ने के फ्रेम में समृद्ध पढ़ता है का चयन करने के लिए अनुपात सीमा और पी-मान cutoffs को परिभाषित करते हैं। इस उदाहरण में, +12, +13, और +13 न्यूक्लियोटाइड्स 29, 30, और 31 nt पठन के 5 'अंत से प्रत्येक कॉन्फ़िगरेशन फ़ाइल में मैन्युअल रूप से परिभाषित किए गए हैं।
  3. प्रत्येक नमूने के लिए कॉन्फ़िगरेशन फ़ाइलें संपादित करें और उन्हें मर्ज करें
    नोट:: अद्वितीय ORFs का एक आम सहमति सेट जनरेट करने के लिए और बाद के विश्लेषण करने के लिए पढ़ने का पर्याप्त कवरेज सुनिश्चित करने के लिए, पिछले चरण में सभी नमूनों के चयनित पठन मर्ज कर रहे हैं। merged_config.txt फ़ाइल (पूरक फ़ाइल 1) में परिभाषित विशिष्ट लंबाई के पढ़ने और उनकी पी-साइट जानकारी का उपयोग अगले चरण में ओआरएफ की अनुवाद क्षमता का मूल्यांकन करने के लिए किया जाता है।

6. डी नोवो एनोटेट ORFs अनुवाद

  1. राइबोकोड चलाएँ.
    राइबोकोड -a RiboCode_annot -c merged_config.txt -l हाँ -g \
    -o RiboCode_ORFs_result -s ATG -m 5 -A CTG, GTG, TTG

    जहां इस आदेश के महत्वपूर्ण पैरामीटर निम्नानुसार हैं:
    -c, कॉन्फ़िगरेशन फ़ाइल जिसमें इनपुट फ़ाइलों का पथ और चयनित पढ़ता है और उनकी पी-साइटों की जानकारी होती है।
    -l, स्टॉप कोडोन के अपस्ट्रीम में कई स्टार्ट कोडोन वाले टेपों के लिए, चाहे सबसे लंबे समय तक ओआरएफ (कोडोन को रोकने के लिए सबसे दूरस्थ स्टार्ट कोडोन से क्षेत्र) का उपयोग उनकी अनुवाद क्षमता का मूल्यांकन करने के लिए किया जाता है। यदि नहीं पर सेट किया गया है, तो शुरुआती कोडोन स्वचालित रूप से निर्धारित किए जाएंगे।
    -s, विहित प्रारंभ कोडोन (ओं) ORFs पहचान के लिए इस्तेमाल किया.
    -ए, (वैकल्पिक रूप से) गैर-कैनोनिकल स्टार्ट कोडोन (जैसे, सीटीजी, जीटीजी, और मानव के लिए टीटीजी) ओआरएफ पहचान के लिए उपयोग किया जाता है, जो अन्य प्रजातियों के माइटोकॉन्ड्रिया या नाभिक में भिन्न हो सकता है29
    -m, ओआरएफ की न्यूनतम लंबाई (यानी, अमीनो एसिड)।
    -o, आउटपुट फ़ाइल नाम का उपसर्ग जिसमें अनुमानित ओआरएफ (पूरक फ़ाइल 2) का विवरण होता है।
    -g और -b, आउटपुट gtf या बिस्तर प्रारूप के लिए अनुमानित ORFs, क्रमशः.

7. (वैकल्पिक) ORF परिमाणीकरण और आँकड़े

  1. प्रत्येक ORF में गिनती RPF पढ़ता है।
    के लिए मैं si-Ctrl-1 si-Ctrl-2 si-Ctrl-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3 में
    करना
    ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
    -r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
    -o ${i}_ORF.counts -s हाँ -c प्रतिच्छेदन-सख्त
    समाज-सम्मत
    नोट:: ORFs के प्रारंभ और अंत के आसपास संभावित संचित राइबोसोम को बाहर करने के लिए, पहले 15 ( -f द्वारा निर्दिष्ट) और अंतिम 5 कोडोन ( -l द्वारा विशिष्ट) में आवंटित पठनों की संख्या की गणना नहीं की जाती है। वैकल्पिक रूप से, गिने गए आरपीएफ की लंबाई 25 से 35 एनटी ( आरपीएफ के सामान्य आकार) तक की सीमा तक सीमित है।
  2. राइबोकोड का उपयोग करके पता लगाए गए ORFs के मूल आंकड़ों की गणना करें:
    Rscript RiboCode_utils. R
    नोट: RiboCode_utils. आर (पूरक फ़ाइल 3) राइबोकोड आउटपुट के लिए आंकड़ों की एक श्रृंखला प्रदान करता है, उदाहरण के लिए, पहचाने गए ओआरएफ की संख्या की गिनती, ओआरएफ लंबाई के वितरण को देखना, और सामान्यीकृत आरपीएफ घनत्व की गणना करना (यानी, आरपीकेएम, प्रति मिलियन मैप किए गए रीड्स प्रति किलोबेस पढ़ता है)।

8. (वैकल्पिक) पूर्वानुमानित ORFs के विज़ुअलाइज़ेशन

  1. प्रारंभ के सापेक्ष पदों को प्राप्त करें और वांछित ORF (जैसे, ENSG00000100902_35292349_35292552_67) के लिए कोडोन को रोकें RiboCode_ORFs_result_collapsed.txt (पूरक फ़ाइल 3) से इसकी प्रतिलिपि पर। फिर, आरपीएफ के घनत्व को ओआरएफ में पढ़ने की साजिश करें:
    plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST000000622405 \
    -s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
    जहां -s और -e ORF प्लॉटिंग के अनुवाद प्रारंभ और बंद करने की स्थिति निर्दिष्ट करते हैं। --start-codon ORF के स्टार्ट कोडोन को परिभाषित करता है, जो आंकड़ा शीर्षक में दिखाई देगा। -o आउटपुट फ़ाइल नाम के उपसर्ग को परिभाषित करता है।

9. (वैकल्पिक) RiboMiner का उपयोग कर Metagene विश्लेषण

नोट:: पहचाने गए एनोटेटेड ORFs के अनुवाद पर EIF3E नॉकडाउन के प्रभाव का आकलन करने के लिए मेटाजीन विश्लेषण निष्पादित करें, नीचे दिए गए चरणों का पालन करें:

  1. राइबोमाइनर के लिए टेप एनोटेशन उत्पन्न करें, जो राइबोकोड (चरण 5.1) द्वारा उत्पन्न एनोटेशन फ़ाइल के आधार पर प्रत्येक जीन के लिए सबसे लंबे समय तक प्रतिलेख निकालता है।
    OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
    -जी Homo_sapiens। GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
    -o longest.transcripts.info.txt -O all.transcripts.info.txt
  2. राइबोमाइनर के लिए कॉन्फ़िगरेशन फ़ाइल तैयार करें। राइबोकोड (चरण 5.4) के मेटाप्लॉट्स आदेश द्वारा जनरेट की गई कॉन्फ़िगरेशन फ़ाइल की प्रतिलिपि बनाएँ और इसे "RiboMiner_config.txt" नाम बदलें. उसके बाद, पूरक फ़ाइल 4 में दिखाए गए प्रारूप के अनुसार इसे संशोधित करें।
  3. राइबोमाइनर का उपयोग करके मेटाजीन विश्लेषण करता है
    1. ट्रांसक्रिप्ट्स में आरपीएफ के घनत्व का एक समग्र और औसत प्रोफ़ाइल उत्पन्न करने के लिए मेटाजीनएनालिसिस का उपयोग करें।
      MetageneAnalysis -f RiboMiner_config.txt -c longest.transcripts.info.txt \
      -o MA_normed -U कोडोन -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm yes \
      -y 100 --प्रकार UTR
      जहां महत्वपूर्ण पैरामीटर हैं: --प्रकार, या तो सीडीएस या यूटीआर क्षेत्रों का विश्लेषण करना; --आदर्श, क्या पढ़ने के घनत्व को सामान्यीकृत किया; -y, प्रत्येक प्रतिलेख के लिए उपयोग किए जाने वाले कोडोन की संख्या; -U, प्लॉट आरपीएफ घनत्व या तो कोडन स्तर या nt स्तर पर; -u और -d, कोडोन शुरू करने या कोडोन को रोकने के सापेक्ष क्षेत्रों का विश्लेषण करने की सीमा को परिभाषित करते हैं; -l, सीडीएस की न्यूनतम लंबाई (यानी, कोडोन की संख्या); -M, टेप फ़िल्टरिंग के लिए मोड, या तो गिनती या RPKM; विश्लेषण के लिए सीडीएस में -n न्यूनतम गिनती या RPKM। -m न्यूनतम गिनती या सामान्यीकृत क्षेत्र में सीडीएस के RPKM; -e, सामान्यीकृत क्षेत्र से बाहर रखे गए कोडोन की संख्या।
    2. नियंत्रण कोशिकाओं और eIF3-कमी वाली कोशिकाओं में mRNA पर राइबोसोम अधिभोगों की तुलना करने के लिए पीडीएफ फ़ाइलों का एक सेट उत्पन्न करें।
      PlotMetageneAnalysis -i MA_normed_dataframe.txt -o MA_normed \
      -g si-Ctrl, si-eIF3e -r si-Ctrl-1,si-Ctrl-2,si-Ctrl-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode mean
      नोट: PlotMetageneAnalysis पीडीएफ फ़ाइलों का सेट उत्पन्न करता है। MetageneAnalysis और PlotMetageneAnalysis के उपयोग के बारे में विवरण राइबोमाइनर वेबसाइट 30 पर उपलब्ध हैं।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

उदाहरण राइबोसोम प्रोफाइलिंग डेटासेट को परिग्रहण संख्या GSE131074 के तहत GEO डेटाबेस में जमा किया गया था। इस प्रोटोकॉल में उपयोग की जाने वाली सभी फ़ाइलें और कोड पूरक फ़ाइलों से 1-4 तक उपलब्ध हैं। प्रकाशित राइबोसोम प्रोफाइलिंग डेटासेट 23 के एक सेट पर राइबोकोड लागू करके, हमने नियंत्रण और EIF3E siRNAs के साथ इलाज किए गए MCF-10A कोशिकाओं में सक्रिय रूप से अनुवादित उपन्यास ORFs की पहचान की। आरपीएफ रीड्स का चयन करने के लिए जो सबसे अधिक संभावना राइबोसोम का अनुवाद करने से बंधे होते हैं, अनुक्रमण पढ़ने की लंबाई की जांच की गई थी, और ज्ञात अनुवाद जीन पर मैप किए गए आरपीएफ का उपयोग करके एक मेटाजीन विश्लेषण किया गया था। रीड्स की लंबाई के आवृत्ति वितरण से पता चला है कि अधिकांश आरपीएफ 25-35 एनटी (चित्रा 1 ए) थे, जो राइबोसोम द्वारा कवर किए गए न्यूक्लियोटाइड अनुक्रम के अनुरूप थे। आरपीएफ की विभिन्न लंबाई के लिए पी-साइट स्थानों को उनके 5 'सिरों से एनोटेट किए गए शुरू करने और कोडोन को रोकने के लिए क्रमशः (चित्रा 1 बी) तक की दूरी की जांच करके निर्धारित किया गया था। आरपीएफ 28-32nt के भीतर पढ़ता है मजबूत 3-nt आवधिकता प्रदर्शित करता है, और उनकी पी-साइटें +12 वें nt (पूरक फ़ाइल 1) पर थीं।

RiboCode एक canonical start codon (AUG) या वैकल्पिक प्रारंभ कोडोन (वैकल्पिक, उदाहरण के लिए, CUG और GUG) से अगले स्टॉप कोडोन के लिए उम्मीदवार ORFs के लिए खोज करता है। फिर, परिभाषित सीमा के भीतर आरपीएफ के मानचित्रण परिणामों के आधार पर, राइबोकोड मूल्यांकन करके 3-एनटी आवधिकता का आकलन करता है कि क्या इन-फ्रेम आरपीएफ (यानी, प्रत्येक कोडोन के पहले न्यूक्लियोटाइड पर आवंटित उनकी पी-साइटों) की संख्या आउट-ऑफ-फ्रेम आरपीएफ (यानी, प्रत्येक कोडोन के दूसरे या तीसरे न्यूक्लियोटाइड पर आवंटित उनकी पी-साइटें) की संख्या से अधिक है। हमने 13,120 जीनों की पहचान की है जो संभावित रूप से 0.05 < के साथ ओआरएफ का अनुवाद करते हैं, उनमें से 10,394 जीन (70.8%) एनोटेट किए गए ओआरएफ, 168 (1.1%) जीन एन्कोडिंग डीओआरएफ, 509 (3.5%) जीन एन्कोडिंग यूओआरएफ, 939 (6.4%) जीन एन्कोडिंग अपस्ट्रीम या डाउनस्ट्रीम ओआरएफ को एन्कोडिंग करते हुए ज्ञात एनोटेटेड ओआरएफ (ओवरलैप्ड) के साथ ओवरलैप किए गए हैं, और 68 (0.5%) प्रोटीन-कोडिंग जीन (0.5%) के साथ ओवरलैप किए गए हैं।

विभिन्न ORFs के आकारों की तुलना करने से पता चला है कि uORFs और ओवरलैप किए गए ORFs एनोटेटेड ORFs (~ 1,771 nt) की तुलना में कम (औसतन 195 और 188 nt, क्रमशः) हैं। उपन्यास ओआरएफ (क्रमशः उपन्यास PCGs और उपन्यास nonPCGS के लिए औसतन 670 और 385 nt) और dORFs (~ 671 nt) (चित्रा 3) के लिए भी एक ही प्रवृत्ति देखी गई थी। साथ में, राइबोकोड द्वारा पहचाने जाने वाले उन गैर-कैनोनिकल ओआरएफ (अननोटेटेड) ने पेप्टाइड्स को एन्कोड करने की प्रवृत्ति की जो उन ज्ञात एनोटेट ओआरएफ की तुलना में छोटे हैं।

अनुवाद की प्रक्रियाओं में EIF3 के कार्य का आकलन करने के लिए प्रत्येक ORF के लिए सापेक्ष RPF गिनती की गणना की गई थी। परिणामों ने सुझाव दिया कि यूओआरएफ के राइबोसोम घनत्व नियंत्रण कोशिकाओं की तुलना में ईआईएफ 3 ई-कमी वाली कोशिकाओं में काफी अधिक थे (चित्रा 4)। जैसा कि कई यूओआरएफ को डाउनस्ट्रीम कोडिंग ओआरएफ के अनुवाद पर निरोधात्मक प्रभाव डालने की सूचना दी गई थी, हमने आगे की जांच की कि क्या ईआईएफ 3 ई नॉकडाउन शुरू कोडोन (चित्रा 5) के डाउनस्ट्रीम में आरपीएफ के वैश्विक घनत्व को बदल देता है। मेटाजीन विश्लेषण, जिसमें कई ओआरएफ के प्रोफाइल को संरेखित किया गया था और फिर औसत किया गया था, से पता चला कि राइबोसोम का एक द्रव्यमान शुरू कोडोन के 25 और 75 डाउनस्ट्रीम के बीच रुक गया था, यह सुझाव देते हुए कि अनुवाद बढ़ाव को ईआईएफ 3 ई-कमी वाली कोशिकाओं में जल्दी अवरुद्ध किया जा सकता है। आगे की जांच यह जांचने के लिए वारंट की जाती है कि क्या सिग्नल-टू-शोर अनुपात या ओआरएफ की अनुवाद दक्षता में परिवर्तन यूओआरएफ आरपीकेएम में वृद्धि और ईआईएफ 3 ई की अनुपस्थिति में कोडोन 25 से 75 के बीच राइबोसोम के संचय में योगदान करते हैं, अर्थात, चाहे 1) कम संदूषण (या अच्छी पुस्तकालय की गुणवत्ता) या 2) ईआईएफ 3 ई के बिना नमूनों में सक्रिय अनुवाद (या राइबोसोम रोकना) यूओआरएफ में अधिक पढ़ता है और इसके बीच परिभाषित क्षेत्र में परिभाषित क्षेत्र में। 25 वें और 75 वें कोडोन।

अंत में, राइबोकोड वांछित ओआरएफ पर आरपीएफ की पी-साइटों के घनत्व के लिए विज़ुअलाइज़ेशन भी प्रदान करता है, जो उपयोगकर्ताओं को 3-nt आवधिकता पैटर्न और आरपीएफ के घनत्व की जांच करने में मदद कर सकता है। उदाहरण के लिए, चित्रा 6 PSMA6 के एक uORF और SENP3-EIF4A1 के एक dORF पर RPF घनत्व प्रस्तुत करता है; दोनों को प्रकाशित प्रोटिओमिक्स डेटा 23 (डेटा नहीं दिखाया गया है) द्वारा मान्य किया गया था।

Figure 1
चित्र 1: अनुक्रमण पठन और P-साइट पदों का मूल्यांकन। (A) EIF3E में राइबोसोम संरक्षित टुकड़ों (RPFs) की लंबाई वितरण-1 को दोहराने में कमी वाली कोशिकाओं (si-eIF3e-1); (बी) ज्ञात प्रारंभ (शीर्ष) और स्टॉप कोडोन (नीचे) के आसपास उनके घनत्व के आधार पर 29nt के आरपीएफ की पी-साइट स्थिति का अनुमान लगाना। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 2
चित्रा 2: सभी नमूनों का एक साथ उपयोग करके राइबोकोड द्वारा पहचाने गए विभिन्न प्रकार के ओआरएफ को आश्रय देने वाले जीनों का प्रतिशत। संक्षिप्त रूप: ORF = खुला पढ़ने का फ्रेम; dORF = डाउनस्ट्रीम ORF; PCG = प्रोटीन कोडिंग जीन; NonPCG = nonprotein-कोडिंग जीन; uORF = अपस्ट्रीम ORF. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 3
चित्रा 3: विभिन्न ORF प्रकारों की लंबाई वितरण. संक्षिप्त रूप: ORF = खुला पढ़ने का फ्रेम; dORF = डाउनस्ट्रीम ORF; PCG = प्रोटीन कोडिंग जीन; NonPCG = nonprotein-कोडिंग जीन; uORF = अपस्ट्रीम ORF; nt = न्यूक्लियोटाइड। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 4
चित्रा 4: नियंत्रण और EIF3E-कमी वाले कक्षों के बीच विभिन्न ORF प्रकारों के लिए सामान्यीकृत पठन गणना की तुलना. p-मान विलकॉक्सन हस्ताक्षरित रैंक परीक्षण द्वारा निर्धारित किए गए थे. संक्षिप्त नाम: ORF = खुला पढ़ने का फ्रेम; dORF = डाउनस्ट्रीम ORF; PCG = प्रोटीन कोडिंग जीन; NonPCG = nonprotein-कोडिंग जीन; uORF = अपस्ट्रीम ORF; RPKM = प्रति किलोबेस प्रति मिलियन मैप किए गए रीड्स पढ़ता है; siRNA = छोटे हस्तक्षेप आरएनए; si-Ctrl = नियंत्रण siRNA; si-eIF3e = siRNA लक्ष्यीकरण EIF3E. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 5
चित्रा 5: मेटाजीन विश्लेषण एनोटेट किए गए ओआरएफ के शुरुआती कोडोन के 25-75 वें कोडोन डाउनस्ट्रीम में राइबोसोम के स्टाल को दर्शाता है। संक्षिप्त नाम: ORF = खुला पढ़ने का फ्रेम; siRNA = छोटे हस्तक्षेप आरएनए; si-Ctrl = नियंत्रण siRNA; si-eIF3e = siRNA लक्ष्यीकरण EIF3E; A. U., किसी भी इकाई. कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 6
चित्रा 6: उदाहरण के पी-साइट घनत्व प्रोफाइल ओआरएफ एन्कोडिंग माइक्रोपेप्टाइड्स. () अनुमानित यूओआरएफ के पी-साइट घनत्व और ट्रांसक्रिप्ट ENST00000622405 पर एनोटेटेड सीडीएस के सापेक्ष इसकी स्थिति; (बी) के रूप में ही, लेकिन प्रतिलेख ENST000000614237 पर अनुमानित dORF के लिए। नीचे पैनल अनुमानित uORF () या dORF (बी) के बढ़े हुए दृश्य को दर्शाता है। लाल पट्टी = इन-फ्रेम पढ़ता है; हरे और नीले सलाखों = ऑफ फ्रेम पढ़ता है। संक्षिप्त नाम: ORF = खुला पढ़ने का फ्रेम; dORF = डाउनस्ट्रीम ORF; uORF = अपस्ट्रीम ORF; CDS = कोडिंग अनुक्रम। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

पूरक जानकारी: दो पी-मानों और राइबोकोड परिणामों की व्याख्या (एक उदाहरण के रूप में एटीएफ 4 के यूओआरएफ) के बीच निर्भरता का मूल्यांकन। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

पूरक फ़ाइल 1: राइबोकोड के लिए कॉन्फ़िगरेशन फ़ाइल RPFs और P-साइट पदों की चयनित लंबाई को परिभाषित करती है। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

पूरक फ़ाइल 2: राइबोकोड आउटपुट फ़ाइल जिसमें अनुमानित ORFs की जानकारी होती है। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

पूरक फ़ाइल 3: राइबोकोड आउटपुट के मूल आँकड़े करने के लिए आर स्क्रिप्ट फ़ाइल। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

पूरक फ़ाइल 4: कॉन्फ़िगरेशन फ़ाइल (राइबोमाइनर के लिए) पूरक फ़ाइल 1 से संशोधित। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

राइबोसोम प्रोफाइलिंग जीनोम पैमाने पर कोशिकाओं में राइबोसोम की कार्रवाई का अध्ययन करने का एक अभूतपूर्व अवसर प्रदान करता है। राइबोसोम प्रोफाइलिंग डेटा द्वारा की गई जानकारी को ठीक से समझने से अंतर्दृष्टि प्रदान की जा सकती है कि जीन या टेप के कौन से क्षेत्र सक्रिय रूप से अनुवाद कर रहे हैं। यह चरण-दर-चरण प्रोटोकॉल राइबोसोम प्रोफाइलिंग डेटा का विस्तार से विश्लेषण करने के लिए राइबोकोड का उपयोग करने के तरीके पर मार्गदर्शन प्रदान करता है, जिसमें पैकेज स्थापना, डेटा तैयारी, आदेश निष्पादन, परिणाम स्पष्टीकरण और डेटा विज़ुअलाइज़ेशन शामिल हैं। राइबोकोड के विश्लेषण परिणामों ने संकेत दिया कि अनुवाद व्यापक है और कोडिंग जीन के अननोटेड ओआरएफ पर होता है और कई टेपों को पहले नॉनकोडिंग माना जाता था। डाउनस्ट्रीम विश्लेषण ने सबूत प्रदान किए कि राइबोसोम अनुवाद के रूप में 3-न्यूक्लियोटाइड चरणों में अनुमानित ओआरएफ के साथ आगे बढ़ते हैं; हालांकि, यह स्पष्ट नहीं है कि अनुवाद की प्रक्रिया या उत्पादित पेप्टाइड्स किसी भी कार्य की सेवा करते हैं या नहीं। फिर भी, जीनोम पर ओआरएफ का अनुवाद करने के सटीक एनोटेशन पहले से अज्ञात टेपों के कार्यों की पहचान करने के लिए रोमांचक अवसरों को जन्म दे सकते हैं31

राइबोसोम प्रोफाइलिंग डेटा का उपयोग करके प्रत्येक ओआरएफ के लिए कोडिंग क्षमता की भविष्यवाणी अत्यधिक ओआरएफ के स्टॉप कोडोन की शुरुआत से लेकर प्रत्येक कोडोन पर पी-साइटों के घनत्व की 3-एनटी आवधिकता पर निर्भर करती है। इसलिए, इसे विभिन्न लंबाई के पढ़ने के पी-साइट स्थानों का सटीक पता लगाने की आवश्यकता होती है। इस तरह की जानकारी सीधे राइबोसोम प्रोफाइलिंग डेटा द्वारा प्रदान नहीं की जाती है, लेकिन आरपीएफ के 5 'अंत और एनोटेट किए गए स्टार्ट या स्टॉप कोडोन (प्रोटोकॉल चरण 5.3) के बीच की दूरी से अनुमान लगाया जा सकता है। जीटीएफ फ़ाइल में ज्ञात स्टार्ट / स्टॉप कोडोन के एनोटेशन की कमी, जैसे कि उन नए इकट्ठे जीनोम के लिए, राइबोकोड को डाउनस्ट्रीम चरणों को निष्पादित करने में विफल रहने का कारण बन सकता है जब तक कि रीड्स के सटीक पी-साइट स्थान अन्य तरीकों से निर्धारित नहीं किए जाते हैं। ज्यादातर मामलों में, राइबोसोम-बाउंड टुकड़ों और उनके पी-साइट स्थानों का आकार स्थिर होता है, उदाहरण के लिए, 28-30 nt लंबा और मानव कोशिकाओं में पढ़ने के 5 'अंत से +12 nt पर। RiboCode अनुभव के आधार पर पी-साइट पदों को परिभाषित करने के लिए एक विशिष्ट श्रेणी में पढ़ने के चयन की अनुमति देता है। हालांकि, आरपीएफ पढ़ने की लंबाई और उनकी पी-साइटों की स्थिति दोनों अलग-अलग हो सकती हैं जब पर्यावरणीय स्थितियों (जैसे, तनाव या उत्तेजना) या प्रयोगात्मक प्रक्रिया (जैसे, न्यूक्लिएज, बफर, लाइब्रेरी तैयारी और अनुक्रमण) को बदल दिया गया है। इसलिए, हम प्रत्येक नमूने के लिए metaplots (प्रोटोकॉल चरण 5.3) करने की सलाह देते हैं ताकि सबसे उच्च-विश्वास वाले RPFs को निकाला जा सके (यानी, 3-nt आवधिकता पैटर्न प्रदर्शित करने वाला पढ़ता है) और विभिन्न स्थितियों में उनके पी-साइट पदों को निर्धारित करता है। यद्यपि इन कार्यों को स्वचालित रूप से मेटाप्लॉट्स फ़ंक्शन का उपयोग करके किया जा सकता है, अक्सर केवल एक अल्पसंख्यक पढ़ता है जो निकट-पूर्ण फ्रेमिंग या चरणबद्ध रूप से कठोर चयन मानदंड और सांख्यिकीय परीक्षण पास करता है। इसलिए, कुछ मापदंडों को ढीला करना अभी भी आवश्यक है, विशेष रूप से "-f0_percent,", और फिर नेत्रहीन रूप से प्रत्येक लंबाई पर पढ़ने की 3-nt आवधिकता का निरीक्षण करें और तदनुसार अधिक पढ़ने को शामिल करने के लिए कॉन्फ़िगरेशन फ़ाइल को मैन्युअल रूप से संपादित करें, खासकर जब लाइब्रेरी की गुणवत्ता खराब हो (प्रोटोकॉल चरण 5.3)।

RiboCode उम्मीदवार ORFs के लिए विहित या noncanonical प्रारंभ कोडोन (NUGs) से अगले स्टॉप कोडोन के लिए खोजकरता है। स्टॉप कोडोन के अपस्ट्रीम में कई स्टार्ट कोडोन के साथ टेपों के लिए, सबसे अधिक संभावना है कि शुरुआती कोडोन को आरपीएफ की 3-एनटी आवधिकता का आकलन करके निर्धारित किया जाता है, जो दो पड़ोसी स्टार्ट कोडोन के बीच मैप किया गया है या बस अपस्ट्रीम स्टार्ट कोडोन को ऑफ-फ्रेम आरपीएफ पढ़ने की तुलना में अधिक इन-फ्रेम होने का चयन करता है। इस तरह की रणनीति की एक सीमा यह है कि वास्तविक शुरुआती कोडोन को गलत तरीके से पहचाना जा सकता है यदि स्टार्ट कोडोन क्षेत्रों के लिए संरेखित पढ़ता है तो विरल या अनुपस्थित हैं। सौभाग्य से, हाल की रणनीतियां, जैसे कि वैश्विक अनुवाद दीक्षा अनुक्रमण (GTI-seq)32 और मात्रात्मक अनुवाद दीक्षा अनुक्रमण (QTI-seq)33, अनुवाद दीक्षा साइटों का पता लगाने के लिए अधिक प्रत्यक्ष तरीके प्रदान करते हैं। एनयूजी के लिए, कुशल शुरुआत कोडोन के रूप में उनकी वैधताओं की जांच करने के लिए अभी भी अधिक अध्ययन की आवश्यकता है।

हमने तीन नई सुविधाओं को जोड़कर राइबोकोड के लिए एक नया अपडेट भी जारी किया: 1) यह सबसे लंबे समय तक एक के अलावा अन्य टेपों के सापेक्ष उनके स्थानों के अनुसार असाइन किए गए अन्य संभावित ओआरएफ प्रकारों की रिपोर्ट करता है; 2) यह संयुक्त पी-मानों को समायोजित करने के लिए एक विकल्प प्रदान करता है यदि आरपीएफ का परीक्षण दो आउट-फ्रेम में पढ़ता है तो स्वतंत्र नहीं हैं ( पूरक जानकारी में अधिक विस्तृत स्पष्टीकरण देखें); 3) यह कई परीक्षणों के लिए पी-वैल्यू सुधार करता है, जिससे ओआरएफ का अधिक सख्ती से अनुवाद करने की स्क्रीनिंग की अनुमति मिलती है।

जैसा कि राइबोकोड आरपीएफ की 3-एनटी आवधिकता का मूल्यांकन करके सक्रिय रूप से ओआरएफ का अनुवाद करने वाले ओआरएफ की पहचान करता है, इसमें उन ओआरएफ के लिए कुछ सीमाएं हैं जो बेहद कम हैं (उदाहरण के लिए, 3 कोडोन से कम)। Spealman et al. ने RiboCode के प्रदर्शन की uORF-seqr के साथ तुलना की और बताया कि 60 nt से कम कोई uORFs अपने dataset34 में RiboCode द्वारा भविष्यवाणी नहीं की जाती है। हम तर्क देते हैं कि राइबोकोड के पिछले संस्करण में ORF आकार चयन (-m) के लिए पैरामीटर ठीक से सेट नहीं है। हमने अद्यतन किए गए राइबोकोड में इस तर्क का डिफ़ॉल्ट मान 5 में बदल दिया है।

राइबोकोड दो फ़ाइलों में पहचाने गए ओआरएफ की रिपोर्ट करता है: "RiboCode_ORFs_result.txt" जिसमें सभी ओआरएफ होते हैं, जिसमें एक ही जीन के विभिन्न टेपों से अनावश्यक ओआरएफ शामिल हैं; "RiboCode_ORFs_result_collapsed.txt" (पूरक फ़ाइल 2) एक ही स्टॉप कोडोन के साथ अतिव्यापी ओआरएफ को एकीकृत करना लेकिन अलग-अलग स्टार्ट कोडोन, यानी, एक ही रीडिंग फ्रेम में सबसे अपस्ट्रीम स्टार्ट कोडोन को आश्रय देने वाले को बनाए रखा जाएगा। दोनों फ़ाइलों में, पता लगाए गए ORFs को या तो "उपन्यास" में वर्गीकृत किया जाता है जो ज्ञात CDS के लिए अपने सापेक्ष स्थानों के अनुसार ORFs या अन्य विभिन्न प्रकारों का अनुवाद करता है (RiboCode paper22 से ORF प्रकारों का विस्तृत विवरण देखें या RiboCode website35 पर)। हमने सचित्र किया कि एक उदाहरण के रूप में जीन एटीएफ 4 के अनुमानित यूओआरएफ का उपयोग करके राइबोकोड आउटपुट की व्याख्या कैसे करें (पूरक जानकारी)। राइबोकोड विभिन्न प्रकार के ओआरएफ वाले जीनों की संख्या भी गिनता है और उन्हें उनके प्रतिशत (चित्रा 2) के साथ प्लॉट करता है।

एक अध्ययन ने बताया कि कुछ व्यक्त लेकिन ट्रांसलेशनल रूप से क्विसेंट जीन को ऑक्सीडेटिव तनाव 12 पर पेप्टाइड्स में अनुवाद करने के लिए सक्रिय किया जा सकता है, यह दर्शाता है कि संभवतः अन्य ओआरएफ हैं जिन्हें केवल एक स्थिति-निर्भर तरीके से अनुवादित किया जा सकता है। RiboCode को अलग-अलग प्रयोगात्मक स्थितियों के लिए अलग-अलग प्रदर्शन किया जा सकता है (उदाहरण के लिए, si-Ctrl या si-eIF3e) या संयुक्त रूप से, जैसा कि इस प्रोटोकॉल (चरण 5.4 और 6.1) में दिखाया गया है। "merged_config.txt" में चयनित पठनों की लंबाई और पी-साइट पदों को परिभाषित करके एक ही रन में एकाधिक नमूनों को मल्टीप्लेक्स करना प्रत्येक नमूने को व्यक्तिगत रूप से संसाधित करने पर कई फायदे हैं। सबसे पहले, यह एक ही नमूने में मौजूद पूर्वाग्रहों को कम करता है; दूसरा, यह प्रोग्राम के चलने के समय को बचाता है; अंत में, यह आंकड़ों को पूरा करने के लिए पर्याप्त डेटा प्रदान करता है। इस प्रकार, यह सैद्धांतिक रूप से एकल-नमूना मोड की तुलना में बेहतर काम करता है, विशेष रूप से कम अनुक्रमण कवरेज और उच्च पृष्ठभूमि शोर वाले नमूनों के लिए। आगे परिमाणीकरण और विभिन्न स्थितियों (जैसे, si-eIF3e बनाम si-Ctrl) के बीच अनुमानित ORFs को असाइन किए गए RPFs की संख्या की तुलना हमें संदर्भ-निर्भर ORFs की खोज करने या ORFs के translational विनियमन का पता लगाने की अनुमति देती है।

ध्यान दें कि ओआरएफ की शुरुआत और अंत में राइबोसोम के संचय के कारण, "अनुवाद रैंप" नामक एक घटना, पहले 15 कोडोन और अंतिम 5 कोडोन में असाइन किए गए आरपीएफ को पढ़ने की गिनती से बाहर रखा जाना चाहिए ताकि दीक्षा दरों के अंतर के लिए विभेदक ओआरएफ अनुवाद पूर्वाग्रह के विश्लेषण से बचा जा सके3,5, ३६ । इन परिणामों ने सुझाव दिया कि यूओआरएफ प्रकारों की बहुतायत नियंत्रण कोशिकाओं की तुलना में EIF3 के बिना कोशिकाओं में अधिक है, जो सक्रिय रूप से राइबोसोम का अनुवाद करने के ऊंचे स्तर के कारण (या कम से कम आंशिक रूप से) हो सकती है। प्रारंभ कोडोन के आसपास आरपीएफ घनत्व के मेटा-विश्लेषण ने यह भी सुझाव दिया कि प्रारंभिक अनुवाद बढ़ाव EIF3E द्वारा विनियमित किया जाता है। ध्यान दें कि बस एक ओआरएफ में आरपीएफ पढ़ता है की गिनती अनुवाद परिमाणीकरण के लिए सटीक नहीं है, खासकर जब अनुवाद बढ़ाव गंभीर रूप से अवरुद्ध हो जाता है।

संक्षेप में, इस प्रोटोकॉल से पता चलता है कि राइबोकोड को किसी भी आकार के उपन्यास अनुवादित ओआरएफ की पहचान करने के लिए आसानी से लागू किया जा सकता है, जिसमें माइक्रोपेप्टाइड्स को एन्कोडिंग करना भी शामिल है। यह अनुसंधान समुदाय के लिए विभिन्न शारीरिक संदर्भों या प्रयोगात्मक स्थितियों में विभिन्न प्रकार के ओआरएफ की खोज करने के लिए एक मूल्यवान उपकरण होगा। इन ORFs से प्रोटीन या पेप्टाइड उत्पादों का आगे सत्यापन राइबोसोम प्रोफाइलिंग के भविष्य के अनुप्रयोगों के विकास के लिए उपयोगी होगा।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए हितों का कोई संघर्ष नहीं है।

Acknowledgments

लेखक Xi'an Jiaotong University के HPCC प्लेटफ़ॉर्म द्वारा प्रदान किए गए कम्प्यूटेशनल संसाधनों से समर्थन को स्वीकार करना चाहते हैं। Z.X. कृतज्ञतापूर्वक Xi'an Jiaotong University के यंग टॉपनॉच टैलेंट सपोर्ट प्लान को धन्यवाद देता है।

Materials

Name Company Catalog Number Comments
A computer/server running Linux Any - -
Anaconda or Miniconda Anaconda - Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation - https://www.r-project.org/
Rstudio Rstudio - https://www.rstudio.com/

DOWNLOAD MATERIALS LIST

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , Chapter 4 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. Dainat, J. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format. , Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020).
  25. Edgar, R. Gene Expression Omnibus. , Available from: https://www.ncbi.nim.nih.gov/geo (2002).
  26. Langmead, B. Bowtie: an ultrafast memory-efficient short read aligner. , Available from: http://bowtie-bio.sourceforge.net/manual.shtml (2021).
  27. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  28. Dobin, A. STAR manual. , Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022).
  29. Elzanowski, A. The genetic codes. , Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019).
  30. Li, F. RiboMiner. , Available from: https://github.com/xryanglab/RiboMiner (2020).
  31. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  32. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  33. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  34. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  35. Xiao, Z. RiboCode. , Available from: https://github.com/xryanglab/RiboCode (2018).
  36. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Tags

जीवविज्ञान अंक 180 राइबोसोम प्रोफाइलिंग खुला पढ़ने का फ्रेम mRNA अनुवाद माइक्रोपेप्टाइड uORF dORF
<em>डे नोवो</em> राइबोसोम प्रोफाइलिंग डेटा के साथ सक्रिय रूप से अनुवादित ओपन रीडिंग फ्रेम्स की पहचान
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhu, Y., Li, F., Yang, X., Xiao, Z.More

Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter