आरएनए अगली पीढ़ी के अनुक्रमण और एक Bioसूचनातंत्र पाइप लाइन व्यक्त की पहचान करने के लिए-Locus-विशिष्ट स्तर पर 1s

Genetics
 

Summary

यहां, हम एक bioinformatic दृष्टिकोण और विश्लेषण प्रस्तुत करने के लिए लोकस विशिष्ट स्तर पर लाइन-1 अभिव्यक्ति की पहचान ।

Cite this Article

Copy Citation | Download Citations

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

लंबे INterspersed तत्वों-1 (लाइंस/L1s) दोहराया तत्व है कि नकल कर सकते है और बेतरतीब ढंग से जीनोमिक अस्थिरता और mutagenesis में जिसके परिणामस्वरूप जीनोम में संमिलित कर रहे हैं । व्यक्तिगत स्तर पर L1 loci की अभिव्यक्ति पैटर्न को समझना इस mutagenic तत्व के जीव विज्ञान की समझ को उधार दे देंगे । इस स्वायत्त तत्व ऊपर ५००,००० प्रतियां के साथ मानव जीनोम का एक महत्वपूर्ण हिस्सा बना देता है, हालांकि ९९% काट रहे है और दोषपूर्ण । तथापि, दोषपूर्ण प्रतियों की उनकी बहुतायत और प्रबल संख्या से यह पता लगाना चुनौतीपूर्ण होता है कि एल1 से संबंधित L1s को अन्य जीनों के भाग के रूप में व्यक्त किया गया है । यह भी पहचान है जो विशिष्ट L1 लोकस तत्वों के दोहराव प्रकृति के कारण व्यक्त की है चुनौतीपूर्ण है । इन चुनौतियों से पार पाते हुए, हम लोकस विशिष्ट स्तर पर L1 अभिव्यक्ति की पहचान करने के लिए एक आरएनए-seq bioinformatic दृष्टिकोण प्रस्तुत करते हैं । संक्षेप में, हम साइटोप्लाज्मिक आरएनए इकट्ठा, polyadenylated टेप के लिए चुनते हैं, और भूग्रस्त विशिष्ट आरएनए-Seq विश्लेषण का उपयोग विशिष्ट नक्शा मानव संदर्भ जीनोम में L1 loci को पढ़ता है । हम अपने स्वयं के प्रमोटर से प्रतिलेखन की पुष्टि करने के लिए और प्रत्येक व्यक्ति l1 लोकस के mappability के लिए खाते के लिए मैप किए गए प्रतिलिपि को समायोजित पढ़ता विशिष्ट मैप के साथ प्रत्येक L1 लोकस नेत्रहीन उपपादरी । यह दृष्टिकोण एक प्रोस्टेट ट्यूमर सेल लाइन, DU145 करने के लिए लागू किया गया था, पूर्ण लंबाई L1 तत्वों की एक छोटी संख्या से अभिव्यक्ति का पता लगाने के लिए इस प्रोटोकॉल की क्षमता का प्रदर्शन करने के लिए ।

Introduction

रिट्रोपक्षारित्र दोहराए जाने वाले डीएनए तत्व हैं जो आरएनए मध्यवर्ती के माध्यम से कॉपी और पेस्ट तंत्र में जीनोम में "कूद" कर सकते हैं । पश्चपक्षाभ के एक उपसमुच्चय को दीर्घ अंतरास्पर्सयुक्त तत्वों-1 (रेखाओं/L1s) के रूप में जाना जाता है और यह मानव जीनोम का छठा अंग है, जिसकी 500, 0000 प्रतिलिपियाँ1हैं । उनकी बहुतायत के बावजूद, इन प्रतियों की सबसे दोषपूर्ण और केवल एक अनुमान के साथ काट रहे है 80-120 L1 तत्वों के लिए सक्रिय2सोचा । एक पूर्ण लंबाई L1 5 ' और 3 के साथ लंबाई में के बारे में 6 केबी है ' untranslated क्षेत्रों, एक आंतरिक प्रमोटर और एसोसिएटेड विरोधी भावना प्रमोटर, दो गैर अतिव्यापी खुले पढ़ने के फ्रेम (orfs), और एक संकेत और polya पूंछ3,4,5 . मनुष्यों में, L1s बड़े परिवारों के साथ विकासवादी युग द्वारा विशिष्ट subfamilies से बना रहे है समय के साथ अधिक अद्वितीय अनुक्रम परिवर्तन संचित होने सबसे कम उंर के उपपरिवार, L1HS6,7की तुलना में । L1s एक ही स्वायत्त, मानव रेट्रोट्रांसपोसंस और उनके orfs एक रिवर्स ट्रांसक्रिप्टेस, endonuclease, और आरएनपीएस के साथ आर. एन. ए.-बाध्यकारी और निगरानी के लिए एक प्रक्रिया में retrotranspose और जीनोम में डालने के लिए आवश्यक गतिविधियों को सांकेतिक शब्दों में बदलना करने के लिए कहा जाता है लक्ष्य primed रिवर्स ट्रांसक्रिप्शन8,9,10,11,12

L1s के प्रतिपक्षांतरण के कारण मानव जर्मलाइन रोगों के होने की सूचना मिली है, जिसमें सम्मिलन उत्परिवर्तनजनन, लक्ष्य-स्थल विलोपन और पुनर्व्यवस्था,13,14,15, 16. हाल ही में यह परिकल्पना की गई है कि L1s oncogenesis में एक भूमिका निभा सकता है और बढ़ अभिव्यक्ति और इस mutagenic तत्व की प्रविष्टि घटनाओं उपकला कैंसर . यह अनुमान लगाया गया है कि प्रत्येक २०० जन्मों में एक नई L1 प्रविष्टिहै । इसलिए सक्रियता से व्यक्त L1s के जीव विज्ञान को बेहतर ढंग से समझना अनिवार्य है । अन्य जीनों के प्रतिलिपियों में पाई गई दोषपूर्ण प्रतियों की पुनरावृत्तीय प्रकृति और प्रचुरता ने विश्लेषण के इस स्तर को चुनौतीपूर्ण बना दिया है ।

सौभाग्य से, उच्च throughput अनुक्रमण प्रौद्योगिकियों के आगमन के साथ, प्रगति को पार्स किया गया है और प्रमाण के अनुसार locus-विशिष्ट स्तर पर L1s को व्यक्त करने की पहचान । वहां कैसे सबसे अच्छा आरएनए अगली पीढ़ी के अनुक्रमण का उपयोग L1s व्यक्त की पहचान करने पर भिंन दर्शन कर रहे हैं । वहां केवल दो उचित locus-विशिष्ट स्तर पर L1 टेप मानचित्रण के लिए सुझाव दिया दृष्टिकोण गया है । एक केवल संभावित ट्रांसक्रिप्शन कि L1 polyadenylation संकेत के माध्यम से पढ़ता है और flanking20दृश्यों में केंद्रित है । हमारा दृष्टिकोण L1 तत्वों के बीच छोटे अनुक्रम मतभेद का लाभ लेता है और केवल उन आरएनए-seq पढ़ता है कि विशिष्ट एक लोकस21करने के लिए नक्शे । इन दोनों पद्धतियों में प्रतिलेख स्तरों की मात्रा के संदर्भ में सीमाएं हैं । Quantitation संभावित रूप से प्रत्येक L1 लोकस21की ' अद्वितीय mappability ' के लिए एक सुधार जोड़ने, या अधिक जटिल एल्गोरिदम है कि एक विशिष्ट लोकस22के लिए अद्वितीय मैप नहीं किया जा सकता बहु-मैप reads पुनर्वितरित का उपयोग करके सुधारा जा सकता है । यहां, हम एक कदम दर कदम तरीके से आरएनए निष्कर्षण और अगली पीढ़ी के अनुक्रमण और bioसूचनाविज्ञान प्रोटोकॉल के लिए locus-विशिष्ट स्तर पर व्यक्त L1 तत्वों की पहचान में विस्तार होगा । हमारा दृष्टिकोण कार्यात्मक L1 तत्वों के जीवविज्ञान के हमारे ज्ञान का अधिकतम लाभ लेता है । इसमें यह जानना शामिल है कि कार्यात्मक L1 तत्वों L1 प्रमोटर से उत्पंन किया जाना चाहिए, L1 तत्व की शुरुआत में शुरू की, कोशिका द्रव्य में अनुवाद किया जाना चाहिए और है कि उनके टेप सह होना चाहिए रैखिक जीनोम के साथ । संक्षेप में, हम ताजा, साइटोप्लाज्मी आरएनए इकट्ठा, polyadenylated टेप के लिए चयन करें, और एक विशिष्ट नक्शा करने के लिए भूग्रस्त-विशेष आरएनए Seq विश्लेषण का उपयोग मानव संदर्भ जीनोम में L1 loci को पढ़ता है । ये गठबंधन पढ़ता है तो अभी भी व्यापक मैनुअल curation निर्धारित करने के लिए यदि ट्रांसक्रिप्ट पढ़ता एक लोकस के रूप में एक प्रमाण के रूप में व्यक्त l1 से पहले l1 प्रमोटर से आरंभ की आवश्यकता है । हम DU145 प्रोस्टेट ट्यूमर कोशिका रेखा के नमूने पर इस दृष्टिकोण को लागू करने के लिए यह कैसे दिखाता है एक अपेक्षाकृत कुछ सक्रिय रूप से निष्क्रिय प्रतियां के द्रव्यमान से L1 सदस्यों तहरीर दी ।

Protocol

1. साइटोप्लाज्मिक आरएनए निष्कर्षण

  1. निंन विधियों द्वारा कक्षों को प्राप्त करें ।
    1. 275% से जीवित कोशिकाओं को इकट्ठा-100% संगम, टी-७५ flasks है ।
      1. 5 मिलीलीटर ठंडे पीबीएस में फ्लास्क को 2 बार धोएं, और आखिरी वाश में कोशिकाओं को कुरेदें और 15 मिलीलीटर शंक्वाकार नली में स्थानांतरित करें । १,००० एक्स जी और 4 डिग्री सेल्सियस पर 2 मिनट के लिए अपकेंद्रित्र, और ध्यान से हटाने और supernatant (सामग्री की मेज) त्यागने ।
    2. ऊतक नमूनों से कोशिकाओं को इकट्ठा ।
      1. साइटोप्लाज्मिक आरएनए निष्कर्षण के लिए ऊतक को विच्छेदार होने से एक घंटे के भीतर तैयार करें और हमेशा बर्फ पर रखें । लंबी अवधि के लिए भंडारण के लिए, आरएनए अवरोध करनेवाला समाधान का उपयोग करने के लिए ऊतक स्टोर करने के लिए ७२ घंटे के बाद विच्छेदन के बाद निर्माता के प्रोटोकॉल (सामग्री की तालिका) का पालन ।
      2. पासा एक 10 μm3 नमूना और एक बाँझ dounce homogenize में ठंड pbs के 5 मिलीलीटर के साथ ताजा नमूना homogenize, एक 15 मिलीलीटर शंक्वाकार ट्यूब के लिए स्थानांतरण, 2 मिनट के लिए १,००० /c8 >) ।
  2. 5 मिनट के लिए बर्फ पर सेलुलर गोली-मिक्स और सेबेट करने के लिए lysis बफर के 2 मिलीलीटर जोड़ें ।
    1. १५० मिमी nacl, ५० मिमी hepes (पीएच ७.४), और 25 μg/एमएल डिजिटोनिन (सामग्री की मेज) के साथ ताजा lysis बफर तैयार ।
    2. प्लाज्मा झिल्ली घुसना करने के लिए आवश्यक lysis बफर में डिजिटोनिन की न्यूनतम एकाग्रता के रूप में सेल प्रकार के द्वारा भिन्न हो सकते हैं, microscopically पुष्टि करते हैं कि lysis बफर के साथ इलाज कोशिकाओं प्लाज्मा झिल्ली खो देते हैं और बरकरार परमाणु झिल्ली को बनाए रखने.
    3. बस का उपयोग करने से पहले, जोड़ें १,००० U/एमएल RNase अवरोध करनेवाला (सामग्री की मेज) ।
  3. १,००० x जी और 4 डिग्री सेल्सियस पर 1 मिनट के लिए अपकेंद्रित्र, और supernatant इकट्ठा ।
  4. Supernatant को पूर्व ठंडा ७.५ मिलीलीटर की Trizol और १.५ मिलीलीटर क्लोरोफॉर्म जोड़ें । सभी कदम है कि क्लोरोफॉर्म की आवश्यकता होती है एक स्वच्छ रासायनिक हुड के अंदर किया जाना चाहिए (सामग्री की मेज) ।
  5. ३,२२० एक्स जी और 4 डिग्री सेल्सियस पर ३५ मिनट के लिए अपकेंद्रित्र
  6. एक ताजा पूर्व ठंडा 15 मिलीलीटर ट्यूब के लिए जलीय भाग (शीर्ष परत) हस्तांतरण ।
  7. क्लोरोफॉर्म और भंवर के ४.५ मिलीलीटर जोड़ें ।
  8. ३,२२० x g और 4 ° c पर 10 मिनट के लिए अपकेंद्रित्र
  9. जलीय भाग को ताजी पूर्व-ठंडी नली में अंतरित करें ।
  10. Isopropanol के ४.५ मिलीलीटर जोड़ें, अच्छी तरह हिला, और-८० डिग्री सेल्सियस पर सेते रात (सामग्री की मेज) ।
  11. ४५ मिनट के लिए ३,२२० एक्स जी और 4 डिग्री सेल्सियस पर अपकेंद्रित्र ।
  12. आइसोप्रोपेनॉल निकालें, 15 मिलीलीटर की १००% इथेनॉल (सामग्री की मेज) जोड़ें ।
  13. 10 मिनट के लिए ३,२२० x g पर अपकेंद्रित्र ।
  14. लगभग 1 घंटे के लिए इथेनॉल, नाली और सूखी निकालें ।
    1. किसी भी शेष इथेनॉल (सामग्री की मेज) बाहर दाग करने के लिए एक बाँझ कपास झाड़ू का प्रयोग करें ।
  15. १०० में नमूना फिर से निलंबित RNase मुक्त पानी के २०० μL पैलेट आकार (सामग्री की मेज) के आधार पर ।
  16. Fractionate नमूनों के निर्माता के intructions23 (सामग्री की तालिका) के अनुसार गुणवत्ता और नमूनों की एकाग्रता का निर्धारण करने के लिए वैद्युतकणसंचलन प्रौद्योगिकी का उपयोग ।
    1. यदि रिन > 824नमूने आरएनए-seq विश्लेषण के लिए अर्हता प्राप्त ।

2. अगली पीढ़ी के अनुक्रमण

  1. प्रस्तुत साइटोप्लाज्मिक आरएनए नमूने अगली पीढ़ी के अनुक्रमण मंच का उपयोग करने के लिए sequenced किया जा करने के उद्देश्य से कम से ५०,०००,००० युग्मित-अंत १०० बीपी पढ़ता है ।
  2. पॉली-एडेनाइटेड RNAs और strand-विशिष्ट अनुक्रमण के लिए चयन करें ।

3. एनोटेशन बनाएँ (वैकल्पिक अगर एक एक मौजूदा एनोटेशन है)

  1. पूर्ण-लंबाई L1 एनोटेशन बनाएँ या पूर्ण-लंबाई L1 एनोटेशन (पूरक फ़ाइल 1a-b) डाउनलोड करें ।
    1. डाउनलोड लाइन के लिए दोहराने Masker एनोटेशन-1 तालिका ब्राउज़र उपकरण के साथ UCSC जीनोम ब्राउज़र से तत्वों (https://genome.ucsc.edu/cgi-bin/hgTables) । स्तनपायी क्लेड, मानव जीनोम, hg19 विधानसभा (या एक अधिक अद्यतन जीनोम के लिए hg38) निर्दिष्ट करें, और वर्ग के नाम के तहत "LINE1" के लिए फ़िल्टर । FL-L1-BLAST. gtf के रूप में एक. gtf फ़ाइल और लेबल के रूप में डाउनलोड करें ।
    2. 1 एल के पहले ३०० बीपी के एक स्थानीय विस्फोट खोज भागो 1.3 पूर्ण लंबाई L1 तत्व मानव जीनोम में प्रमोटर क्षेत्र को शामिल और ६,००० bp बहाव जोड़ने के लिए L1 के एक अंत बनाने के लिए एनोटेशन फ़ाइल निर्देशांक । एक gtf फ़ाइल और FL-L1-RM. gtf के रूप में लेबल में सहेजें ।
    3. दोहराए जाने वाले एनोटेशन और प्रमोटर-आधारित L1 एनोटेशन का उपयोग करते हुए bedtools, और FL-L1-BLAST_RM. txt (सॉफ़्टवेयर पैकेज़)के रूप में लेबल के बीच काटना ।
      1. लिनक्स टर्मिनल में इस आदेश का प्रयोग करें: bedtools एक प्रकार का FL-L1-BLAST. gtf-b FL-L1-RM. gtf > FL-L1-BLAST_RM. txt ।
    4. ऊपर और नीचे भूग्रस्त द्वारा प्रतिच्छेदित FL-L1 एनोटेशन अलग है ।
      1. स्प्रेडशीट सॉफ्टवेयर में FL-L1-BLAST_RM. txt पर प्रतिलिपि बनाएं और "ऋण" और "प्लस" strand द्वारा सॉर्ट और फिर गुणसूत्र स्थान के द्वारा क्रमबद्ध करें ।
      2. दो नए स्प्रेडशीट दस्तावेज़, ऋण किनारा पर पूर्ण लंबाई L1s के लिए प्रतिच्छेदित निर्देशांक के साथ एक और नीचे कतरा पर एक बनाएं, और FL-L1-BLAST_RM_minus. xls और FL-L1-BLAST_RM_plus. xls के रूप में सहेजें ।
      3. Txt फ़ाइलों के रूप में दो नए दस्तावेज़ों को सहेजें ।
    5. Txt फ़ाइलों को सही एनोटेशन फ़ाइलें (सॉफ़्टवेयर पैकेज़) में कनवर्ट करने के लिए mac2unix प्रोग्राम का उपयोग करें ।
      1. टर्मिनल में इस आदेश का उपयोग करें: Mac2unix.sh FL-L1-BLAST_RM_minus. gff ।
      2. टर्मिनल में इस आदेश का उपयोग करें: Mac2unix.sh FL-L1-BLAST_RM_plus. gff ।
      3. . Gff एक्सटेंशन के साथ नई फ़ाइलें सहेजें ।
    6. वैकल्पिक रूप से, + और – strand के साथ जुड़े पंक्तियों फिल्टर करने के लिए AWK का उपयोग करें ।
      1. + Strand: ऑक '/+/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_plus. gtfप्राप्त करने के लिए निम्न आदेश का उपयोग करें ।
      2. -Strand प्राप्त करने के लिए निंन कमांड लाइन का प्रयोग करें: ऑक '/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_minus. gtf

4. व्यक्त की पहचान करने के लिए संरेखण पाइपलाइन पढ़ें L1s

विकल्प विवरण
-पी यह विवरण कंप्यूटर संरेखण चल रहे थ्रेड्स की संख्या का उपयोग करना चाहिए । बड़ा कंप्यूटर स्मृति और अधिक धागे की अनुमति होगी और होना चाहिए ।
-एम 1 यह प्रोग्राम केवल पढ़ता है कि जीनोम है कि किसी भी अंय जीनोम मैच से बेहतर है में एक मैच है स्वीकार करने के लिए कहता है ।
-वाई यह tryhard स्विच है जो सभी संभव मैचों के लिए मानचित्रण खोज करता है और यह मैच की एक निश्चित संख्या तक पहुंच गया है के बाद छोड़ने के लिए अनुमति नहीं है ।
-v 3 यह केवल कार्यक्रम की अनुमति देता है मानचित्रण के लिए स्मृति का उपयोग करने के लिए 3 या कम जीनोम बेमेल के साथ पढ़ता है ।
– एक्स ६०० यह केवल युग्मित एक दूसरे के ६०० ठिकानों के भीतर है कि नक्शे पढ़ता है की अनुमति देता है । यह सुनिश्चित करता है कि पढ़ें जोड़े जीनोम में सह-रेखीय होते हैं और प्रोसेस्ड आरएनए अणुओं को शामिल करने वाले एस के खिलाफ चयन करते हैं ।
-chunkmbs ८१८४ यह आदेश प्रत्येक L1-संबंधित पठन के लिए संभव बड़ी मात्रा में संरेखण को हैंडल करने के लिए अतिरिक्त स्मृति असाइन करता है ।

तालिका 1: Bowtie के लिए आदेश पंक्ति विकल्प ।

  1. भागो संरेखण बनती-अंत के साथ आरएनए-Seq ब्याज का नमूना Bowtie का उपयोग कर फ़ाइलें ।
    नोट: Bowtie1 का उपयोग किया जाना चाहिए और नहीं Bowtie2 क्योंकि अद्वितीय संरेखण के लिए आवश्यक पैरामीटर विशेष रूप से केवल bowtie के इस संस्करण (सॉफ्टवेयर संकुल) में पाए जाते हैं । बोटाई पर प्रयोग किया जाता है, जैसे स्टार में आदेश concordant का मूल्यांकन करने के लिए splice वाकिफ aligners, निरंतर पढ़ता है और अधिक L1 जीव विज्ञान और अभिव्यक्ति के लिए प्रासंगिक है ।
    1. लिनक्स टर्मिनल में इस कमांड लाइन का प्रयोग करें: bowtie-p 10-m 1-S-y-v 3-एक्स ६००--chunkmbs ८१८४ hg_x_y_m_index-1 hg_sample_1. fq-2 hg_sample_2. fq | samtools देखें-hbuS-। samtools सॉर्ट-hg_sample_sorted. bam। Bowtie के लिए आदेश पंक्ति विकल्पों का वर्णन के लिए तालिका 1 देखें ।
  2. स्ट्रैंड आउटपुट bam फ़ाइल samtools (सॉफ्टवेयर संकुल) और निंनलिखित Linux कमांड का उपयोग कर अलग । यदि कोई मानक अगली जनरेशन sequencing प्रोटोकॉल का उपयोग नहीं कर रहा है, तो वास्तविक ध्वज मान भिन्न हो सकते हैं कि ध्यान दें ।
    1. शीर्ष भूग्रस्त के लिए चयन करने के लिए इस आदेश पंक्ति का उपयोग करें: samtools देखें-h hg_sample_sorted. bam | ऑक ' substr ($ 0, 1, 1) = = "@" । | $२ = = > १६३ $२ ८३
    2. नीचे भूग्रस्त के लिए चयन करने के लिए इस आदेश पंक्ति का उपयोग करें: samtools देखें-h hg_sample_sorted. bam | ऑक ' substr ($ 0, 1, 1) = = "@" । | $२ = = > १४७ $२ ९९
  3. L1 loci के लिए एनोटेशन के खिलाफ पढ़ें गिनती bedtools (सॉफ्टवेयर संकुल) का उपयोग कर जनरेट करें ।
    1. इस आदेश पंक्ति का उपयोग करने के लिए पढ़ने के लिए गणना शीर्ष किनारा पर sense दिशा में L1s: bedtools कवरेज-abam FL-L1-BLAST_RM_plus. gff-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt
    2. इस आदेश पंक्ति का उपयोग करने के लिए पढ़ने के लिए गणना नीचे किनारा पर नब्ज दिशा में L1s: bedtools कवरेज-abam FL-L1-BLAST_RM_minus. gff-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt
  4. अनुक्रमणिका bam फ़ाइल से चरण 5.1.1 यह एकीकृत जीनोमिक्स दर्शक (IGV)25 (सॉफ्टवेयर संकुल) में देखने योग्य बनाने के लिए ।
    1. इस आदेश पंक्ति का उपयोग करें: samtools अनुक्रमणिका hg_sample_sorted. bam
  5. एक समय में के माध्यम से पहुंचाया आरएनए-Seq नमूनों की संख्या में वृद्धि करने के लिए एक बैच मोड का उपयोग करने के लिए, एक सुपर कंप्यूटर स्क्रिप्ट का उपयोग करने के लिए कदम ४.१ को पूरा करने के लिए human_bowtie. sh, एक स्क्रिप्ट को पूरा करने के लिए कदम 4.2-4.3 बनाया गया है बुलाया human_L1_pipeline. sh, और एक स्क्रिप्ट को पूरा करने के लिए चरण ४.४ bam_index. sh नामक बनाया गया है । ये स्क्रिप्ट संबद्ध सुपर कंप्यूटर स्क्रिप्ट चलाने के लिए आदेश के साथ पूरक फ़ाइल 2 में पाया जा सकता है ।

5. मैनुअल curation

  1. प्रत्येक एनोटेटेड L1 locus के लिए मैप reads के लिए एक स्प्रेडशीट बनाएं ।
    1. चरण 4.3.2 और लेबल पृष्ठ में "ऋण-नीचे." के रूप में बनाया hg_sample_sorted_bowtie_tryhard_minus_bottom. txt पर प्रतिलिपि बनाएं
      1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
    2. एक और स्प्रेडशीट में "top-plus" के रूप में चरण 4.3.1 और label में hg_sample_sorted_bowtie_tryhard_plus_top. txt पर प्रतिलिपि बनाएं ।
      1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
    3. "संयुक्त" के रूप में लेबल एक तिहाई पृष्ठ बनाएं और दस या अधिक पढ़ता के साथ सभी loci जोड़ें "से ऋण-नीचे" और "प्लस टॉप" पंनों ।
      1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
    4. IGV25 (सॉफ्टवेयर संकुल) में निम्नलिखित फ़ाइलों को लोड: 1) एनोटेटिड जीन कल्पना करने के लिए ब्याज के जीनोम का संदर्भ, 2) FL-L1-BLAST_RM. gff L1 एनोटेशन कल्पना करने के लिए, 3) hg_sample_sorted. bam से मैप किए गए टेप को विज़ुअलाइज़ करने के लिए ब्याज का नमूना है, और 4) hg_genomicDNA_sorted. bam जीनोमिक क्षेत्रों की mappability का आकलन करने के लिए ।
    5. प्रत्येक bam फ़ाइल के साथ संबद्ध कवरेज और समिंग पंक्तियां निकालें ।
    6. सभी IGV पटरियों एक स्क्रीन पर फिट तो hg_sample_sorted. bam और hg_genomicDNA_sorted. bam सेक.
  2. मैंयुअल रूप से curate ।
    1. का उपयोग करते हुए loci से निर्देशांक स्प्रेडशीट "संयुक्त" पृष्ठ पर सूचीबद्ध, दृश्य को IGV25 (सॉफ्टवेयर संकुल) में loci बुलाया ।
    2. एक लोकस curate को प्रामाणिक रूप से अपने आप को व्यक्त किया जा सकता है यदि कोई ऊपर L1 दिशा में 5 केबी तक पढ़ता है ।
      1. पंक्ति को रंग में हरा लेबल करें और ध्यान दें कि यह एक प्रामाणिक रूप से व्यक्त किया गया L1 क्यों है ।
        नोट: इस नियम के लिए कोई अपवाद मौजूद है यदि L1 का क्षेत्र upstream मैप करने योग्य नहीं है । यदि यह स्थिति है, तो पंक्ति को लाल रंग में लेबल करें और ध्यान दें कि L1 प्रमोटर के क्षेत्र के प्रतिप्रवाह की अभिव्यक्ति मूल्यांकित नहीं की जा सकती है और इसलिए L1's व्यंजक आत्मविश्वास से निर्धारित नहीं हो पा रहा है ।
    3. एक लोकस curate को प्रमाण के रूप में बंद अपने स्वयं के प्रमोटर व्यक्त नहीं किया जाएगा अगर वहां ऊपर ऊपर पढ़ता है 5 केबी ।
      1. रंग में लाल पंक्ति लेबल और ध्यान दें क्यों यह एक प्रामाणिक रूप से व्यक्त L1 नहीं है ।
      2. झूठी के रूप में एक लोकस curate अगर यह एक ही दिशा में एक व्यक्त जीन के intron के भीतर L1 के ऊपर पढ़ता है, यदि यह एक ही दिशा में एक व्यक्त जीन के बहाव के साथ है L1 के ऊपर पढ़ता है, या संयुक्त राष्ट्र के लिए-एनोटेट के साथ अभिव्यक्ति पैटर्न पुनः विज्ञापन L1 के ऊपर ।
        नोट: इस नियम के लिए एक अपवाद लागू होता है जब वहां कम से सीधे L1 प्रमोटर शुरू साइट अतिव्यापी पढ़ता है, लेकिन थोड़ा L1 के ऊपर है । यदि कोई अंय इस तरह एक L1 मामले के ऊपर पढ़ता है, इस L1 प्रामाणिक रूप से व्यक्त करने पर विचार करें । पंक्ति को हरा रंग लेबल करें और ध्यान दें कि यह प्रामाणिक रूप से क्यों व्यक्त किया गया L1 है ।
    4. एक L1 लोकस क्यूरेट के रूप में गलत होने की संभावना है अगर प्रतिचित्रित के पैटर्न की लोकस के लिए पढ़ता है mappability के विशिष्ट L1's क्षेत्रों के साथ सहसंबंधित नहीं है ।
      नोट: उदाहरण के लिए, यदि एक l1 उच्च मैप करने योग्य है, लेकिन केवल एक ढेर है l1 के भीतर एक गाढ़ा क्षेत्र में पढ़ता है, यह कम करने के लिए अपने स्वयं के प्रमोटर से L1 अभिव्यक्ति से संबंधित होने की संभावना है और अधिक exons या ltrs की तरह संयुक्त राष्ट्र-एनोटेटिड स्रोतों से होने की संभावना है । इस तरह के मामलों में, नारंगी के रूप में loci उपपादरी और ध्यान दें कि क्यों loci संदिग्ध है । UCSC जीनोम ब्राउज़र में L1 स्थान की जाँच करके संदिग्ध ढेर के स्रोतों की जाँच करें ।
    5. एक स्थान पर curate प्रामाणिक रूप से व्यक्त नहीं किया जा करने के लिए अगर यह कई मायनों संयुक्त राष्ट्र एनोटेट व्यक्त क्षेत्रों के एक जीनोमिक वातावरण के भीतर है
      नोट: उदाहरण के लिए, पढ़ता जा सकता है 10 kb L1 के upstream, लेकिन हर 10 kb या तो मैप किए गए पढ़ता है और उनमें से कुछ पढ़ता है L1 के साथ संरेखित करें । इन L1s कम अपने प्रमोटर व्यक्त होने की संभावना है, और अधिक करने के लिए मैप किया गया है की संभावना संयुक्त राष्ट्र के कारण-एनोटेटिड जीनोमिक अभिव्यक्ति की पैटर्न पढ़ता है । इस तरह के मामलों में, नारंगी के रूप में loci उपपादरी और ध्यान दें कि क्यों loci संदिग्ध है ।

6. पढ़ें संरेखण रणनीति संदर्भ जीनोम में mappability का आकलन करने के लिए (वैकल्पिक अगर एक एक मौजूदा गठबंधन जीनोमिक डीएनए डाटासेट है)

  1. डाउनलोड पूरे जीनोम डीएनए अनुक्रम फ़ाइलें और कंवर्ट करने के लिए. fq फ़ाइलें
    1. NCBI वेबसाइट पर जाएं यहां पाया: https://www.ncbi.nlm.nih.gov/sra
    2. Wgs HeLa युग्मित अंतमें टाइप करें ।
    3. होमोसेक्सुअल sapiens के लिए का चयन करें द्वारा परिणाम के तहत टैक्सों
    4. एक नमूना का चयन करें जो युग्मित अंत है और १०० या अधिक bp के साथ पढ़ता है निम्न नमूना की तरह: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
    5. चलाएँ और उसके बाद मेटाडेटा यहाँ दिखाए गए का चयन करके पठन लंबाई की पुष्टि करें: https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=ERR492384
    6. पूरे जीनोम डीएनए अनुक्रम डेटा डाउनलोड करने के लिए, लिनक्स टर्मिनल में इस आदेश दर्ज करें: sratoolkit. 2.9.2-mac64 /
      नोट: SRA टूलकिट prefetch फंक्शन डाउनलोड परिग्रहण संख्या "ERR492384" NCBI साइट (सॉफ्टवेयर संकुल) में पाया । १०० गीगाबाइट करने के लिए "100G" डाउनलोड डेटा की मात्रा सीमा ।
    7. लिनक्स टर्मिनल में इस आदेश दर्ज करें: fastq-डंप--भाजित-फ़ाइलें ERR492384
      नोट: यह दो fastq फ़ाइलों में डाउनलोड जीनोमिक डीएनए डेटासेट विभाजन ।
  2. Bowtie का उपयोग कर संरेखण चलाएँ.
    1. संरेखण के लिए Linux में इस आदेश का उपयोग करें: bowtie-p 10-m 1-एस-वाई-v 3-X ६००--chunkmbs ८१८४ hg_x_y_m_index-1 hg_genomicDNA_1. fq-2 hg_genomicDNA_2. fq । samtools देखें-hbuS-। samtools सॉर्ट-hg_genomicdna_sorted. bam
      1. ४.१ चरण को देखें Bowtie संरेखण (सॉफ्टवेयर संकुल) में प्रयुक्त मापदंडों को समझने के लिए ।
      2. Genomically संरेखित bam लेखक अनुरोध पर उपलब्ध mappability का आकलन करने के लिए फ़ाइल डाउनलोड करें ।
  3. Index bam फ़ाइल चरण 4.2.1 से samtools का उपयोग करने के लिए यह IGV25 (सॉफ्टवेयर संकुल) में देखने योग्य बनाने के लिए आगे मैनुअल curation सूचित करें ।
    1. लिनक्स में इस कमांड लाइन का प्रयोग करें: samtools सूचकांक hg_genomicdna_sorted. bam
  4. प्रत्येक L1 loci की mappability का आकलन करें
    1. निर्धारित विशिष्ट मैप की संख्या L1 loci के लिए bedtools प्रोग्राम, FL-L1 एनोटेशन, और संरेखित जीनोमिक अनुक्रम डेटा (सॉफ्टवेयर संकुल) का उपयोग करने के लिए पढ़ता है ।
      1. लिनक्स में इस कमांड लाइन का प्रयोग करें: bedtools कवरेज-abam FL-L1-BLAST_RM. gtf – b hg_genomicdna_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt
    2. जब ४०० अनंय पढ़ता है यह करने के लिए संरेखित पूर्ण कवरेज mappability है करने के लिए कोई L1 लोकस निर्दिष्ट करें ।
    3. ऊपर या नीचे जीनोमिक डीएनए को स्केल करने के लिए आवश्यक कारक निर्धारित करने के लिए ४०० प्रत्येक व्यक्ति L1 के लिए पढ़ता है ।
    4. व्यक्तिगत L1 लोकस के अनुसार अभिव्यक्ति का एक छोटा उपाय है, के लिए कदम 6.4.3 में आरएनए ट्रांसक्रिप्ट की संख्या में निर्धारित कारक पढ़ता है कि प्रमाण के अनुसार व्यक्त करने के लिए संरेखित करें L1s वर्गों में निर्धारित 4 – 5.

Representative Results

कदम ऊपर वर्णित है और चित्र 1 में रेखांकन वर्णित एक मानव प्रोस्टेट ट्यूमर सेल लाइन DU145 करने के लिए लागू किया गया । एक चयनित, किनारा-विशिष्ट, युग्मित-अंत प्रोटोकॉल-आरएनए नमूना साइटोप्लाज्मिल्ली prepped था और अगले-gen एक पाली में sequenced था । Bowtie का उपयोग करना, युग्मित-अंत sequencing फ़ाइलों को संरेखित केवल अनंय मेल जिसमें युग्मित-अंत किसी अंय जीनोमिक स्थान की तुलना में एक जीनोमिक स्थान के लिए बेहतर मेल खाते की अनुमति दी गई । DU145 अनुक्रम फ़ाइलें मानव संदर्भ जीनोम एक bam फ़ाइल है, जो लेखक के अनुरोध पर उपलब्ध है बनाने के लिए गठबंधन किया गया । Bedtools का उपयोग करते हुए, डेटा DU145 strand-सेपरेटेड bam फ़ाइलों से पूरी लंबाई L1s करने के लिए मैप किया गया पढ़ता की संख्या पर निकाला गया था । उन पुस्तकें सबसे बड़े से एक स्प्रेडशीट में हल कर रहे थे और मैंयुअल रूप से igv में प्रत्येक L1 लोकस के आसपास जीनोमिक पर्यावरण की जांच करने के लिए अपनी प्रामाणिकता की पुष्टि (पूरक तालिका 1) द्वारा क्यूरेट । यदि एक नमूना के लिए प्रमाण के अनुसार व्यक्त किया क्यूरेट था, यह रंग था सही सबसे कॉलम में अपनी स्वीकृति के लिए एक विवरण के साथ हरी कोडित । L1 loci के उदाहरण के लिए प्रमाण के अनुसार तरीकों में वर्णित दिशा निर्देशों के बाद व्यक्त किया जा स्वीकार किए जाते है खंड चित्रा 2a-bमें दिखाए जाते हैं । यदि किसी नमूने को प्रामाणिक रूप से व्यक्त किया जा अस्वीकार कर दिया गया था, यह रंग था-सही सबसे स्तंभ पर अस्वीकृति के कारण के साथ लाल के रूप में कोडित । L1 loci के उदाहरण विधियां अनुभाग में वर्णित अपने स्वयं निंनलिखित दिशा निर्देशों के अलावा अंय प्रमोटर से अभिव्यक्ति के कारण अस्वीकार कर दिया है चित्र 2c-e में विस्तृत हैं ।

यहां, एक अक्षुण्ण प्रमोटर क्षेत्र के साथ केवल पूर्ण लंबाई L1s का अध्ययन किया गया । अगर यह अंतर नहीं किया जाता है, तो छोटे L1s से निकलने वाले ट्रांसक्रिप् शनल नॉइज़ का एक बड़ा स्रोत पेश किया जाता है । DU145 में छोटा L1s के उदाहरण चित्र 3a-b में दिखाए जाते हैं, जहां वे विशिष्ट रूप से मैप किए गए RNA-seq पढ़ता के रूप में पहचाने गए थे । IGV में, तथापि, यह स्पष्ट है कि उन टेप से काट लिया L1 शुरू नहीं किया गया है, लेकिन एक जीन या अनुप्रवाह में एक व्यक्त जीन से L1 अनुक्रम के शामिल किए जाने से ।

कुल मिलाकर DU145 में, पूर्ण लंबाई L1 loci का प्रतिशत और पढ़ता है कि के रूप में अस्वीकार कर दिया है प्रमाण के रूप में व्यक्त की है L1s मैनुअल curation के बाद लगभग ५०% (पूरक तालिका 2) L1 मैप किए गए ट्रांसक्रिप्ट के उच्च स्तर का प्रदर्शन है पढ़ता है कि अंयथा मैनुअल curation बिना झूठी सकारात्मक के रूप में दर्ज हो । विशेष रूप से, DU145 में वहां थे ११४ कुल पूर्ण लंबाई L1 loci को विशिष्ट मैप है ३,१५२ पढ़ता है की कुल के साथ नब्ज दिशा में पढ़ता है, लेकिन वहां थे केवल ६० loci से चिह्नित किया जा करने के लिए अपने स्वयं के प्रमोटर के बाद १,८७९ के साथ मैनुअल curation पढ़ता ( पूरक तालिका 1) । यह स्थिति तब भी है जब साइटोप्लाज्मिक एमआरएनए के लिए चयन करके एल1 जीवविज्ञान के लिए अप्रासंगिक अभिव्यक्ति को कम करने के लिए कदम उठाए गए थे । ध्यान दें कि DU145 में मैप किए गए टेप के उच्चतम स्तर के साथ लोकस क्योंकि यह एक प्रामाणिक व्यक्त L1 (चित्रा 4) नहीं था अस्वीकार कर दिया गया था । कुल मिलाकर निर्दिष्ट L1 loci के लिए मैप किए गए टेप की संख्या इसी तरह के बीच स्वीकार किए जाते है और के रूप में अस्वीकार कर दिया L1 loci मैनुअल curation के बाद व्यक्त की (चित्रा 4) ।

मैनुअल curation के बाद, पढ़ता है कि विशेष रूप से मैप करने के लिए प्रमाण के अनुसार विशिष्ट L1 loci DU145 श्रेणी में १७५ से एक मनमाने ढंग से चुना ंयूनतम कट ऑफ 10 पढ़ता करने के लिए पढ़ता की संख्या (चित्रा 5) । विशिष्ट मैप किए गए ट्रांसक्रिप्ट की पहचान करने का यह तरीका अभिव्यक्ति को सही मात्रा में पहचानने की क्षमता को L1s पर पढ़ता है । इसके लिए खाते के लिए, एक सुधार कारक इसके mappability पर आधारित प्रत्येक लोकस के लिए बनाया गया था । इस सुधार कारक बनाने के लिए, पहले bedtools सभी पूर्ण-लंबाई L1 loci करने के लिए संरेखित और सबसे कम मैप किए गए प्रतिलिपि पढ़ता से उन loci का रेखांकन (पूरक चित्रा 1) । यह मनमाने ढंग से निर्दिष्ट किया गया था कि ४०० के साथ L1s पढ़ता पूर्ण कवरेज mappability था । पढ़ता की संख्या HeLa जीनोमिक अनुक्रमण नमूना में एक L1 लोकस करने के लिए मैप करने के लिए सक्षम किया गया था ४०० reads के सापेक्ष स्केल किया गया और उस स्केल संख्या तो पढ़ता है जो प्रत्येक के लिए मैप की संख्या के लिए एक प्रमाण DU145 में l1 लोकस (पूरक तालिका 2) व्यक्त . के रूप में अपेक्षित, L1 तत्व कि mappability के लिए बड़ा सुधार स्कोर था L1PA2 (पूरक तालिका 2) की तरह युवा subfamilies से आया था । एक बार पढ़ता है प्रत्येक locus में mappability स्कोर के लिए समायोजित किया गया, सबसे locus के लिए अभिव्यक्ति के लिए quantitation वृद्धि हुई (चित्रा 6). पढ़ता है कि ६१२ DU145 में mappability सुधार के साथ विशिष्ट L1 loci के साथ व्यक्त करने के लिए अनन्य रूप से मैप किए गए reads की संख्या 4 पढ़ता है और वहां एक फिर से सबसे कम करने के लिए उच्चतम का आदेश दिया गया loci (चित्रा 6) ।

Figure 1
चित्र 1: वर्कफ़्लो योजनाबद्ध ।
रेखांकन का वर्णन एक मानव नमूने में व्यक्त L1s की पहचान करने के लिए कदम उठाए हैं । ध्यान दें कि चरण 1 और 2 उपयुक्त फ़ाइलें पहले से ही उपलब्ध हैं, तो दोहराया जा करने की आवश्यकता नहीं है । इन उपयुक्त फ़ाइलों को पूरक फ़ाइल 1a-b और अनुपूरक फ़ाइल 2से डाउनलोड किया जा सकता है । लाल रंग में बक्से कदम जहां bedtools कवरेज कार्यक्रम के लिए एक ही भावना दिशा में L1s को पढ़ता मानचित्रण की संख्या गिनती करने के लिए प्रयोग किया जाता है संकेत मिलता है । नब्ज उंमुख मानचित्रण के साथ इन loci पढ़ता है L1s कि मैंयुअल रूप से curated जाना चाहिए रहे हैं । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

Figure 2
चित्रा 2: DU145 में क्यूरेट L1 loci के उदाहरण ।
Igv में लोड संदर्भ जीनोम, पूर्ण लंबाई L1 gff एनोटेशन संदर्भ जीनोम संस्करण (अनुपूरक 1 फ़ाइल), DU145 bam फ़ाइल मिलान फ़ाइल है, और अंत में जीनोमिक HeLa bam को mappability, जो लेखक पर सभी उपलब्ध है आकलन फ़ाइल अनुरोध. तीर एनोटेटिड L1 की दिशा के दृश्य में सहायता के लिए जोड़ा गया है । तीर और लाल रंग में पढ़ता सही से बाएं अनुक्रम में उंमुख होते हैं । तीर और नीले रंग में पढ़ता है बाएं से दाएं अनुक्रम में उंमुख होते हैं । एक) igv में, इस l1 लोकस प्रकट होने के लिए अपने स्वयं के प्रमोटर के रूप में वहां कोई नहीं है पर 5 केबी के लिए नब्ज उंमुखीकरण में L1 के ऊपर पढ़ता है । इस L1 कम mappability है, यह एक जीन में नहीं है, और उंमीद antisense प्रमोटर गतिविधि26के सबूत है । ) igv में, इस L1 लोकस प्रकट होने के लिए अपने स्वयं के प्रमोटर के रूप में वहां कोई ऊपर 5 केबी के लिए अर्थ उंमुखीकरण में L1 पढ़ता है । इस L1 कम mappability है और विपरीत दिशा के एक जीन के भीतर है । ) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां है ऊपर 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 एक ही दिशा के एक जीन के भीतर है तो प्रतिलिपि पुस्तकें सबसे अधिक संभावना व्यक्त जीन के प्रमोटर से उद्भव कर रहे हैं । ) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां ऊपर है 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 एक ही दिशा में एक उच्च व्यक्त जीन के बहाव है तो प्रतिलिपि पुस्तकें सबसे अधिक संभावना है कि व्यक्त जीन के प्रमोटर से उद्भव और सामांय जीन टर्मिनेटर से परे का विस्तार है । ) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां है ऊपर 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 के भीतर या संदर्भ जीन में एक एनोटेटिड जीन के पास नहीं है तो भीतर इन टेप के मूल और L1 तत्व के ऊपर का सुझाव एक संयुक्त राष्ट्र एनोटेटिड प्रमोटर । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

Figure 3
चित्रा 3: पृष्ठभूमि शोर से कटा हुआ L1s के रूप में अच्छी तरह से originates.
वे पृष्ठभूमि शोर का एक प्रमुख स्रोत है के रूप में हमारे L1 एनोटेशन छोटा L1s शामिल नहीं है । तीर एनोटेटिड L1 की दिशा के दृश्य में सहायता के लिए जोड़ा गया है । तीर और नीले रंग में पढ़ता है बाएं से दाएं अनुक्रम में उंमुख होते हैं । a) का प्रदर्शन एक छोटा L1 का एक उदाहरण है L1MB5 sufamily में २७०६ bps है । IGV में यह स्पष्ट है कि पढ़ता है एक व्यक्त जीन के डाउनस्ट्रीम विस्तार से उत्पन्न. ) दिखाया एक छोटा L1 का एक और उदाहरण है । यह L1 ४७६७ बीपीएस लंबा है एक L1PA11 है । IGV में यह स्पष्ट है कि पढ़ता L1 करने के लिए विशिष्ट मानचित्रण व्यक्त exon, जो L1 के भीतर है से उत्पन्न होता है. इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

Figure 4
चित्रा 4: प्रतिलेख पढ़ता है कि सभी को पूर्ण लंबाई बरकरार L1s मानव जीनोम DU145 प्रोस्टेट ट्यूमर कोशिका रेखा में व्यक्त की ।
काले रंग में विशिष्ट loci के रूप में पहचान के लिए प्रमाण के रूप में मैनुअल curation के बाद व्यक्त की और लाल में विशिष्ट loci रहे है के रूप में प्रमाण के रूप में व्यक्त की मैनुअल curation पढ़ता है खारिज कर दिया जाएगा । ग्रे में एक से कम दस के साथ loci हैं, प्रत्येक के लिए मानचित्रण पढ़ता है । के रूप में इन loci प्रतिलेख पढ़ता का एक छोटा सा अंश का प्रतिनिधित्व करते हैं, वे मैंयुअल रूप से curate नहीं थे । एक्स-अक्ष सही निशान निरूपित हर १०० पूर्ण लंबाई, बरकरार L1s. लगभग ४,५०० loci रेखांकन नहीं कर रहे है के रूप में वे शूंय मैप पढ़ता है दिखाया गया है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

Figure 5
चित्रा 5: प्रतिलेख पढ़ता है कि नक्शा विशिष्ट प्रमाण के अनुसार पूर्ण लंबाई बरकरार L1s DU145 प्रोस्टेट ट्यूमर कोशिका रेखा में व्यक्त किया ।
दिखाया प्रतिलिपि की संख्या है कि मैनुअल curation के बाद DU145 कोशिकाओं में विशिष्ट loci को मैप पढ़ता है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

Figure 6
चित्रा 6: पढ़ता है प्रमाण के अनुसार करने के लिए है L1 व्यक्त जब mappability द्वारा समायोजित ।
दिखाई ट्रांसक्रिप्ट की संख्याएं हैं, जो loci-विशिष्ट mappability स्कोर द्वारा समायोजित किया जाता है जो DU145 कक्षों में मैंयुअल रूप से L1 loci के लिए मैप करता है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

पूरक फ़ाइल 1: पूर्ण लंबाई के लिए एनोटेशन, बरकरार मानव L1s अभिविन्यास के अनुसार. a) FL-L1-BLAST_RM_minus. gff. b) FL-L1-BLAST_RM_plus. gff. कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक फ़ाइल 2: सुपर कंप्यूटर लिपियों खंड 4 में विस्तृत bioसूचनाविज्ञान पाइपलाइन को स्वचालित करने के लिए इस्तेमाल किया । कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक चित्रा 1: Genomic डीएनए नमूना L1 mappability निर्धारित करने के लिए इस्तेमाल किया.
दिखाया जीनोमिक ट्रांसक्रिप्ट की संख्या है HeLa सेल लाइन नमूना है कि सभी ५,००० पूर्ण लंबाई के जीनोम में L1 loci से नक्शा पढ़ता है । यह निर्दिष्ट किया गया था कि एक L1 पूर्ण कवरेज mappability है जब ४०० L1 करने के लिए नक्शे पढ़ता है । कृपया इस आंकड़े को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक तालिका 1: DU145 में L1s के मैनुअल Curation । कृपया इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक तालिका 2: mappability समायोजन के साथ DU145 में Curated L1s. कृपया इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें ।

Discussion

L1 गतिविधि के लिए आनुवंशिक क्षति और बीमारी के लिए योगदान अस्थिरता का कारण दिखाया गया है27,28,29। लगभग ५,००० पूर्ण लंबाई L1 प्रतियां के, केवल कुछ दर्जन विकास युवा L1s खाते के अधिकांश retrotransposition गतिविधि2। हालांकि, वहां सबूत है कि यहां तक कि कुछ पुराने, retroपक्षात्मकता-incompentent L1s अभी भी डीएनए हानिकारक प्रोटीन30का उत्पादन कर रहे हैं । L1s की भूमिका को पूरी तरह से जीनोमिक अस्थिरता और रोग में की सराहना करते हैं, locus-विशिष्ट स्तर पर L1 अभिव्यक्ति समझा जाना चाहिए । तथापि, एल 1 से संबंधित अन्य RNAs में शामिल दृश्यों की उच्च पृष्ठभूमि L1 प्रत्याक्रमण के लिए प्रामाणिक L1 अभिव्यक्ति की व्याख्या में एक महत्वपूर्ण चुनौती बन गया है. पहचान और इसलिए व्यक्तिगत L1 loci के अभिव्यक्ति पैटर्न को समझने में एक और चुनौती उनके दोहराव प्रकृति की वजह से होता है कि कई छोटे पढ़ने के दृश्यों की अनुमति नहीं एक अद्वितीय loci के लिए नक्शा है । इन चुनौतियों से उबरने के लिए, हमने आरएनए-एसईक्यू डेटा का उपयोग करते हुए व्यक्तिगत L1 loci की अभिव्यक्ति की पहचान करने में ऊपर वर्णित दृष्टिकोण विकसित किया ।

हमारे दृष्टिकोण उच्च स्तर फ़िल्टर (९९%) एल-1 दृश्यों से उत्पन्न होने वाले ट्रांसक्रिप् शनल शोर जो एल1 पश् चतरण से असंबंधित होते हैं, कई कदम उठाते हैं । पहले चरण में साइटोप्लाज्मिक आरएनए की तैयारी शामिल है । साइटोप्लाज्मिक आरएनए के लिए चयन करके, एल 1-संबंधित पढ़ता में पाया इंट्रानिक mRNA नाभिक में काफी समाप्त हो रहे हैं. अनुक्रमण पुस्तकालय की तैयारी में, एक और L1s को असंबंधित transcriptional शोर को कम करने के लिए उठाया कदम polyadenylated टेप का चयन शामिल हैं । यह गैर-mRNA प्रजातियों में पाया L1-संबंधित ट्रांसक्रिप्ट शोर निकालता है । एक अन्य चरण में, एंटीसेंस L1-संबंधित ट्रांस्क्रिप्ट को पहचानने और हटाने के लिए strand-विशिष्ट अनुक्रमण शामिल है. आरएनए-एसईक्यू ट्रांस्क्रिप्ट्स की संख्या की पहचान करते समय कार्यशील प्रमोटर क्षेत्रों के साथ पूर्ण-लंबाई L1s के लिए एनोटेशन का उपयोग, जो कि L1s को मैप करता है, पृष्ठभूमि शोर को भी समाप्त करता है जो अंयथा छोटे L1s से उत्पन्न होता है । अंत में, पिछले l1 अनुक्रमण के लिए असंबंधित L1 दृश्यों के transcriptional शोर को नष्ट करने में महत्वपूर्ण कदम पूर्ण लंबाई L1s के मैनुअल curation है के लिए मैप आरएनए Seq टेप की पहचान की है । मैनुअल curation प्रत्येक bioinformatically की पहचान के दृश्य शामिल है-होना करने के लिए अपने आसपास के जीनोमिक वातावरण के संदर्भ में L1 प्रकट व्यक्त की पुष्टि करने के लिए कि अभिव्यक्ति L1 प्रमोटर से निकलती है । इस दृष्टिकोण DU145, एक प्रोस्टेट ट्यूमर कोशिका रेखा के लिए लागू किया गया था । यहां तक कि सभी तैयारी से संबंधित कदम पृष्ठभूमि शोर को कम करने के लिए, L1 loci के लगभग ५०% की पहचान की bioinformatically में DU145 के रूप में अस्वीकार कर दिया गया L1 पृष्ठभूमि शोरअन्य transcriptional स्रोतों से शुरू विश्वसनीय परिणाम देने के लिए कठोरता पर बल देना । इस दृष्टिकोण मैनुअल curation का उपयोग कर श्रम गहन है, लेकिन इस पाइपलाइन के विकास में आवश्यक का मूल्यांकन करने और एक पूर्ण लंबाई L1 आसपास जीनोमिक पर्यावरण को समझने के लिए । अगले कदम curation नियमों के कुछ स्वचालित द्वारा आवश्यक मैनुअल curation की राशि को कम करने में शामिल हैं, हालांकि कारण जीनोमिक अभिव्यक्ति की अभी भी पूरी तरह से ज्ञात प्रकृति, संयुक्त राष्ट्र के संदर्भ में अभिव्यक्ति के स्रोतों एनोटेटिड जीनोम, कम के क्षेत्रों mappability, और यहां तक कि एक संदर्भ जीनोम के निर्माण के साथ शामिल कारकों उलझी यह पूरी तरह से इस समय L1 curation स्वचालित करने के लिए संभव नहीं है ।

अनुक्रमण के साथ व्यक्तिगत L1 loci की अभिव्यक्ति की पहचान करने में दूसरी चुनौती दोहराव L1 टेप के मानचित्रण से संबंधित है । इस संरेखण रणनीति में, यह आवश्यक है कि एक प्रतिलिपि को विशिष्ट रूप से संरेखित करना चाहिए और संदर्भ जीनोम में सह-linearly होना चाहिए ताकि मैप किया जा सके । ऐसे युग्मित-अंत दृश्यों के लिए चयन करके, जो इस बात का नक्शा तैयार करते हैं, कि संदर्भ जीनोम में पाए जाने वाले एल1 loci में विशिष्ट रूप से संरेखित ट्रांस्क्रिप्ट की मात्रा बढ़ जाती है । इस अनूठी मानचित्रण रणनीति एक एकल L1 locus के लिए विशेष रूप से पढ़ने के फोन मानचित्रण में विश्वास प्रदान करता है, हालांकि यह संभावित प्रत्येक पहचान की अभिव्यक्ति मात्रा underestimates-हो-प्रमाण के अनुसार व्यक्त की, दोहराव L1 । इस अंडरestimation के लिए लगभग सही करने के लिए, अपनी mappability के आधार पर प्रत्येक L1 लोकस के लिए एक "mappability" स्कोर विकसित किया गया था और विशिष्ट मैप किए गए प्रतिलिपि पढ़ता की संख्या के लिए लागू (चित्रा 6) । यह ध्यान देने योग्य है कि आदर्श रूप में, mappability पूर्ण कवरेज के लिए रन बनाए जाने चाहिए पूर्ण लंबाई L1 मिलान WGS नमूने के अनुसार पढ़ता है । यहां, हम HeLa कोशिकाओं के wgs का उपयोग करने के लिए फुलाने के लिए प्रत्येक l1 loci के mappability स्कोर निर्धारित करने के लिए या डिफ्लेट द DU145 प्रोस्टेट ट्यूमर कोशिका लाइनों में L1 loci को मानचित्रण पढ़ता है । इस mappability गणना एक क्रूड सुधार स्कोर है, लेकिन ' चुना ४०० के पूर्ण कवरेज mappability ' पढ़ता मन में ट्यूमर कोशिका लाइनों के गतिशील प्रकृति के साथ निर्धारित किया गया था । यह पूरक चित्रा 1में मनाया जा सकता है, कि वहां कुछ L1 wgs के साथ बहुत ही उच्च संख्या के साथ एल. ई. loci रहे है प्रतिचित्रित पढ़ता है । ये संभावना HeLa के भीतर दोहराया गुणसूत्र दृश्यों से आया है कि संदर्भ जीनोम, यही वजह है कि उन loci को पूरा mappability कवरेज का प्रतिनिधि नहीं चुना गया है के भीतर नहीं हैं । इसके बजाय यह निर्धारित किया गया था कि १००% पढ़ने के कवरेज के आसपास होता है ४०० पूरक चित्रा 1 के अनुसार पढ़ता है और तब माना जाता है कि इस औसत DU145 ट्यूमर प्रोस्टेट सेल लाइन के रूप में अच्छी तरह से करने के लिए लागू होता है ।

100-200 bp के साथ इस संरेखण रणनीति आरएनए-seq प्रौद्योगिकी से पढ़ता है भी प्राथमिकता के रूप में संदर्भ जीनोम के भीतर विकास पुराने L1s के लिए चयन के रूप में पुराने L1s समय अद्वितीय उत्परिवर्तनों कि उंहें और अधिक mappable बनाने पर जमा किया है । इस दृष्टिकोण, इसलिए सीमित संवेदनशीलता है जब यह L1s के रूप में के रूप में अच्छी तरह से गैर संदर्भ, बहुरूपी L1s के सबसे कम उंर की पहचान करने के लिए आता है । L1s के सबसे कम उंर की पहचान करने के लिए, हम का उपयोग करने का सुझाव 5 ' की दौड़ चयन L1 टेप और अनुक्रमण प्रौद्योगिकी PacBio की तरह है कि अब21पढ़ता है का उपयोग करें । यह और अधिक अद्वितीय मानचित्रण परमिट और इसलिए व्यक्त की पहचान, युवा L1s । आरएनए-एसईक्यू और PacBio दृष्टिकोण एक साथ का उपयोग कर प्रामाणिक रूप से व्यक्त की एक अधिक व्यापक सूची के लिए नेतृत्व कर सकते हैं L1s । प्रामाणिक रूप से व्यक्त की पहचान करने के लिए बहुरूपी L1s, पहले अगले कदम निर्माण और संदर्भ जीनोम में बहुरूपी दृश्यों की प्रविष्टि शामिल हैं ।

दोहराने दृश्यों का अध्ययन करने में जैविक और तकनीकी चुनौतियों महान हैं, हालांकि इसके बाद के संस्करण कठोर प्रक्रिया के साथ एल. एन. एन. ए. एन. आर. एन. ए.-अनुक्रमण प्रौद्योगिकी का उपयोग कर retrotransposition से संबंधित, ट्रांस्क्रिशनल पृष्ठभूमि शोर के बड़े स्तर पर और आत्मविश्वास से किया जा रहा है और इसरो व्यक्तिगत लोकस स्तर पर L1 अभिव्यक्ति पैटर्न और मात्रा की पहचान ।

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

हम डॉ यान दांग DU145 प्रोस्टेट ट्यूमर कोशिकाओं के लिए शुक्रिया अदा करना चाहूंगा । हम सुपर कंप्यूटर लिपियों बनाने में उनके मार्गदर्शन और सलाह के लिए डॉ नाथन Ungerleider शुक्रिया अदा करना चाहूंगा । इस काम के कुछ NIH अनुदान R01 GM121812 पीडी, R01 AG057597 के लिए VPB, और 5TL1TR001418 टी के लिए द्वारा वित्त पोषित किया गया था । हम भी कैंसर क्रूसेडरों और Tulane कैंसर सेंटर Bioसूचनाविज्ञान कोर से समर्थन स्वीकार करना चाहते हैं ।

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100, (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254, (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10, (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21, (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8, (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17, (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106, (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21, (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87, (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254, (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72, (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113, (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28, (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33, (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345, (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25, (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45, (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31, (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21, (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1, (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141, (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26, (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42, (16), 10488-10502 (2014).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics