Genetics

आरएनए अगली पीढ़ी के अनुक्रमण और एक Bioसूचनातंत्र पाइप लाइन व्यक्त की पहचान करने के लिए-Locus-विशिष्ट स्तर पर 1s

Published: May 19, 2019 doi: 10.3791/59771

Tiffany Kaul¹, Maria E. Morales¹, Emily Smither¹, Melody Baddoo^1,2, Victoria P. Belancio^1,3, Prescott Deininger^1,4

¹Tulane Cancer Center, Tulane University, ²Department of Pathology, Tulane University, ³Department of Structural and Cellular Biology, Tulane University, ⁴Department of Epidemiology, Tulane University

Summary

यहां, हम एक bioinformatic दृष्टिकोण और विश्लेषण प्रस्तुत करने के लिए लोकस विशिष्ट स्तर पर लाइन-1 अभिव्यक्ति की पहचान ।

Abstract

लंबे INterspersed तत्वों-1 (लाइंस/L1s) दोहराया तत्व है कि नकल कर सकते है और बेतरतीब ढंग से जीनोमिक अस्थिरता और mutagenesis में जिसके परिणामस्वरूप जीनोम में संमिलित कर रहे हैं । व्यक्तिगत स्तर पर L1 loci की अभिव्यक्ति पैटर्न को समझना इस mutagenic तत्व के जीव विज्ञान की समझ को उधार दे देंगे । इस स्वायत्त तत्व ऊपर ५००,००० प्रतियां के साथ मानव जीनोम का एक महत्वपूर्ण हिस्सा बना देता है, हालांकि ९९% काट रहे है और दोषपूर्ण । तथापि, दोषपूर्ण प्रतियों की उनकी बहुतायत और प्रबल संख्या से यह पता लगाना चुनौतीपूर्ण होता है कि एल1 से संबंधित L1s को अन्य जीनों के भाग के रूप में व्यक्त किया गया है । यह भी पहचान है जो विशिष्ट L1 लोकस तत्वों के दोहराव प्रकृति के कारण व्यक्त की है चुनौतीपूर्ण है । इन चुनौतियों से पार पाते हुए, हम लोकस विशिष्ट स्तर पर L1 अभिव्यक्ति की पहचान करने के लिए एक आरएनए-seq bioinformatic दृष्टिकोण प्रस्तुत करते हैं । संक्षेप में, हम साइटोप्लाज्मिक आरएनए इकट्ठा, polyadenylated टेप के लिए चुनते हैं, और भूग्रस्त विशिष्ट आरएनए-Seq विश्लेषण का उपयोग विशिष्ट नक्शा मानव संदर्भ जीनोम में L1 loci को पढ़ता है । हम अपने स्वयं के प्रमोटर से प्रतिलेखन की पुष्टि करने के लिए और प्रत्येक व्यक्ति l1 लोकस के mappability के लिए खाते के लिए मैप किए गए प्रतिलिपि को समायोजित पढ़ता विशिष्ट मैप के साथ प्रत्येक L1 लोकस नेत्रहीन उपपादरी । यह दृष्टिकोण एक प्रोस्टेट ट्यूमर सेल लाइन, DU145 करने के लिए लागू किया गया था, पूर्ण लंबाई L1 तत्वों की एक छोटी संख्या से अभिव्यक्ति का पता लगाने के लिए इस प्रोटोकॉल की क्षमता का प्रदर्शन करने के लिए ।

Introduction

रिट्रोपक्षारित्र दोहराए जाने वाले डीएनए तत्व हैं जो आरएनए मध्यवर्ती के माध्यम से कॉपी और पेस्ट तंत्र में जीनोम में "कूद" कर सकते हैं । पश्चपक्षाभ के एक उपसमुच्चय को दीर्घ अंतरास्पर्सयुक्त तत्वों-1 (रेखाओं/L1s) के रूप में जाना जाता है और यह मानव जीनोम का छठा अंग है, जिसकी 500, 0000 प्रतिलिपियाँ¹हैं । उनकी बहुतायत के बावजूद, इन प्रतियों की सबसे दोषपूर्ण और केवल एक अनुमान के साथ काट रहे है 80-120 L1 तत्वों के लिए सक्रिय²सोचा । एक पूर्ण लंबाई L1 5 ' और 3 के साथ लंबाई में के बारे में 6 केबी है ' untranslated क्षेत्रों, एक आंतरिक प्रमोटर और एसोसिएटेड विरोधी भावना प्रमोटर, दो गैर अतिव्यापी खुले पढ़ने के फ्रेम (orfs), और एक संकेत और polya पूंछ³^,⁴^,⁵. मनुष्यों में, L1s बड़े परिवारों के साथ विकासवादी युग द्वारा विशिष्ट subfamilies से बना रहे है समय के साथ अधिक अद्वितीय अनुक्रम परिवर्तन संचित होने सबसे कम उंर के उपपरिवार, L1HS⁶^,⁷की तुलना में । L1s एक ही स्वायत्त, मानव रेट्रोट्रांसपोसंस और उनके orfs एक रिवर्स ट्रांसक्रिप्टेस, endonuclease, और आरएनपीएस के साथ आर. एन. ए.-बाध्यकारी और निगरानी के लिए एक प्रक्रिया में retrotranspose और जीनोम में डालने के लिए आवश्यक गतिविधियों को सांकेतिक शब्दों में बदलना करने के लिए कहा जाता है लक्ष्य primed रिवर्स ट्रांसक्रिप्शन⁸^,⁹^,¹⁰^,¹¹^,¹²।

L1s के प्रतिपक्षांतरण के कारण मानव जर्मलाइन रोगों के होने की सूचना मिली है, जिसमें सम्मिलन उत्परिवर्तनजनन, लक्ष्य-स्थल विलोपन और पुनर्व्यवस्था,¹³,¹⁴^,¹⁵^, ¹⁶. हाल ही में यह परिकल्पना की गई है कि L1s oncogenesis में एक भूमिका निभा सकता है और बढ़ अभिव्यक्ति और इस mutagenic तत्व की प्रविष्टि घटनाओं उपकला कैंसर. यह अनुमान लगाया गया है कि प्रत्येक २०० जन्मों में एक नई L1 प्रविष्टिहै । इसलिए सक्रियता से व्यक्त L1s के जीव विज्ञान को बेहतर ढंग से समझना अनिवार्य है । अन्य जीनों के प्रतिलिपियों में पाई गई दोषपूर्ण प्रतियों की पुनरावृत्तीय प्रकृति और प्रचुरता ने विश्लेषण के इस स्तर को चुनौतीपूर्ण बना दिया है ।

सौभाग्य से, उच्च throughput अनुक्रमण प्रौद्योगिकियों के आगमन के साथ, प्रगति को पार्स किया गया है और प्रमाण के अनुसार locus-विशिष्ट स्तर पर L1s को व्यक्त करने की पहचान । वहां कैसे सबसे अच्छा आरएनए अगली पीढ़ी के अनुक्रमण का उपयोग L1s व्यक्त की पहचान करने पर भिंन दर्शन कर रहे हैं । वहां केवल दो उचित locus-विशिष्ट स्तर पर L1 टेप मानचित्रण के लिए सुझाव दिया दृष्टिकोण गया है । एक केवल संभावित ट्रांसक्रिप्शन कि L1 polyadenylation संकेत के माध्यम से पढ़ता है और flanking²⁰दृश्यों में केंद्रित है । हमारा दृष्टिकोण L1 तत्वों के बीच छोटे अनुक्रम मतभेद का लाभ लेता है और केवल उन आरएनए-seq पढ़ता है कि विशिष्ट एक लोकस²¹करने के लिए नक्शे । इन दोनों पद्धतियों में प्रतिलेख स्तरों की मात्रा के संदर्भ में सीमाएं हैं । Quantitation संभावित रूप से प्रत्येक L1 लोकस²¹की ' अद्वितीय mappability ' के लिए एक सुधार जोड़ने, या अधिक जटिल एल्गोरिदम है कि एक विशिष्ट लोकस²²के लिए अद्वितीय मैप नहीं किया जा सकता बहु-मैप reads पुनर्वितरित का उपयोग करके सुधारा जा सकता है । यहां, हम एक कदम दर कदम तरीके से आरएनए निष्कर्षण और अगली पीढ़ी के अनुक्रमण और bioसूचनाविज्ञान प्रोटोकॉल के लिए locus-विशिष्ट स्तर पर व्यक्त L1 तत्वों की पहचान में विस्तार होगा । हमारा दृष्टिकोण कार्यात्मक L1 तत्वों के जीवविज्ञान के हमारे ज्ञान का अधिकतम लाभ लेता है । इसमें यह जानना शामिल है कि कार्यात्मक L1 तत्वों L1 प्रमोटर से उत्पंन किया जाना चाहिए, L1 तत्व की शुरुआत में शुरू की, कोशिका द्रव्य में अनुवाद किया जाना चाहिए और है कि उनके टेप सह होना चाहिए रैखिक जीनोम के साथ । संक्षेप में, हम ताजा, साइटोप्लाज्मी आरएनए इकट्ठा, polyadenylated टेप के लिए चयन करें, और एक विशिष्ट नक्शा करने के लिए भूग्रस्त-विशेष आरएनए Seq विश्लेषण का उपयोग मानव संदर्भ जीनोम में L1 loci को पढ़ता है । ये गठबंधन पढ़ता है तो अभी भी व्यापक मैनुअल curation निर्धारित करने के लिए यदि ट्रांसक्रिप्ट पढ़ता एक लोकस के रूप में एक प्रमाण के रूप में व्यक्त l1 से पहले l1 प्रमोटर से आरंभ की आवश्यकता है । हम DU145 प्रोस्टेट ट्यूमर कोशिका रेखा के नमूने पर इस दृष्टिकोण को लागू करने के लिए यह कैसे दिखाता है एक अपेक्षाकृत कुछ सक्रिय रूप से निष्क्रिय प्रतियां के द्रव्यमान से L1 सदस्यों तहरीर दी ।

Protocol

1. साइटोप्लाज्मिक आरएनए निष्कर्षण

निंन विधियों द्वारा कक्षों को प्राप्त करें ।
1. 275% से जीवित कोशिकाओं को इकट्ठा-100% संगम, टी-७५ flasks है ।
  1. 5 मिलीलीटर ठंडे पीबीएस में फ्लास्क को 2 बार धोएं, और आखिरी वाश में कोशिकाओं को कुरेदें और 15 मिलीलीटर शंक्वाकार नली में स्थानांतरित करें । १,००० एक्स जी और 4 डिग्री सेल्सियस पर 2 मिनट के लिए अपकेंद्रित्र, और ध्यान से हटाने और supernatant (सामग्री की मेज) त्यागने ।
2. ऊतक नमूनों से कोशिकाओं को इकट्ठा ।
  1. साइटोप्लाज्मिक आरएनए निष्कर्षण के लिए ऊतक को विच्छेदार होने से एक घंटे के भीतर तैयार करें और हमेशा बर्फ पर रखें । लंबी अवधि के लिए भंडारण के लिए, आरएनए अवरोध करनेवाला समाधान का उपयोग करने के लिए ऊतक स्टोर करने के लिए ७२ घंटे के बाद विच्छेदन के बाद निर्माता के प्रोटोकॉल (सामग्री की तालिका) का पालन ।
  2. पासा एक 10 μm³ नमूना और एक बाँझ dounce homogenize में ठंड pbs के 5 मिलीलीटर के साथ ताजा नमूना homogenize, एक 15 मिलीलीटर शंक्वाकार ट्यूब के लिए स्थानांतरण, 2 मिनट के लिए १,००० /c8 >) ।
5 मिनट के लिए बर्फ पर सेलुलर गोली-मिक्स और सेबेट करने के लिए lysis बफर के 2 मिलीलीटर जोड़ें ।
1. १५० मिमी nacl, ५० मिमी hepes (पीएच ७.४), और 25 μg/एमएल डिजिटोनिन (सामग्री की मेज) के साथ ताजा lysis बफर तैयार ।
2. प्लाज्मा झिल्ली घुसना करने के लिए आवश्यक lysis बफर में डिजिटोनिन की न्यूनतम एकाग्रता के रूप में सेल प्रकार के द्वारा भिन्न हो सकते हैं, microscopically पुष्टि करते हैं कि lysis बफर के साथ इलाज कोशिकाओं प्लाज्मा झिल्ली खो देते हैं और बरकरार परमाणु झिल्ली को बनाए रखने.
3. बस का उपयोग करने से पहले, जोड़ें १,००० U/एमएल RNase अवरोध करनेवाला (सामग्री की मेज) ।
१,००० x जी और 4 डिग्री सेल्सियस पर 1 मिनट के लिए अपकेंद्रित्र, और supernatant इकट्ठा ।
Supernatant को पूर्व ठंडा ७.५ मिलीलीटर की Trizol और १.५ मिलीलीटर क्लोरोफॉर्म जोड़ें । सभी कदम है कि क्लोरोफॉर्म की आवश्यकता होती है एक स्वच्छ रासायनिक हुड के अंदर किया जाना चाहिए (सामग्री की मेज) ।
३,२२० एक्स जी और 4 डिग्री सेल्सियस पर ३५ मिनट के लिए अपकेंद्रित्र
एक ताजा पूर्व ठंडा 15 मिलीलीटर ट्यूब के लिए जलीय भाग (शीर्ष परत) हस्तांतरण ।
क्लोरोफॉर्म और भंवर के ४.५ मिलीलीटर जोड़ें ।
३,२२० x g और 4 ° c पर 10 मिनट के लिए अपकेंद्रित्र
जलीय भाग को ताजी पूर्व-ठंडी नली में अंतरित करें ।
Isopropanol के ४.५ मिलीलीटर जोड़ें, अच्छी तरह हिला, और-८० डिग्री सेल्सियस पर सेते रात (सामग्री की मेज) ।
४५ मिनट के लिए ३,२२० एक्स जी और 4 डिग्री सेल्सियस पर अपकेंद्रित्र ।
आइसोप्रोपेनॉल निकालें, 15 मिलीलीटर की १००% इथेनॉल (सामग्री की मेज) जोड़ें ।
10 मिनट के लिए ३,२२० x g पर अपकेंद्रित्र ।
लगभग 1 घंटे के लिए इथेनॉल, नाली और सूखी निकालें ।
1. किसी भी शेष इथेनॉल (सामग्री की मेज) बाहर दाग करने के लिए एक बाँझ कपास झाड़ू का प्रयोग करें ।
१०० में नमूना फिर से निलंबित RNase मुक्त पानी के २०० μL पैलेट आकार (सामग्री की मेज) के आधार पर ।
Fractionate नमूनों के निर्माता के intructions²³ (सामग्री की तालिका) के अनुसार गुणवत्ता और नमूनों की एकाग्रता का निर्धारण करने के लिए वैद्युतकणसंचलन प्रौद्योगिकी का उपयोग ।
1. यदि रिन > 8²⁴नमूने आरएनए-seq विश्लेषण के लिए अर्हता प्राप्त ।

2. अगली पीढ़ी के अनुक्रमण

प्रस्तुत साइटोप्लाज्मिक आरएनए नमूने अगली पीढ़ी के अनुक्रमण मंच का उपयोग करने के लिए sequenced किया जा करने के उद्देश्य से कम से ५०,०००,००० युग्मित-अंत १०० बीपी पढ़ता है ।
पॉली-एडेनाइटेड RNAs और strand-विशिष्ट अनुक्रमण के लिए चयन करें ।

3. एनोटेशन बनाएँ (वैकल्पिक अगर एक एक मौजूदा एनोटेशन है)

पूर्ण-लंबाई L1 एनोटेशन बनाएँ या पूर्ण-लंबाई L1 एनोटेशन (पूरक फ़ाइल 1a-b) डाउनलोड करें ।
1. डाउनलोड लाइन के लिए दोहराने Masker एनोटेशन-1 तालिका ब्राउज़र उपकरण के साथ UCSC जीनोम ब्राउज़र से तत्वों (https://genome.ucsc.edu/cgi-bin/hgTables) । स्तनपायी क्लेड, मानव जीनोम, hg19 विधानसभा (या एक अधिक अद्यतन जीनोम के लिए hg38) निर्दिष्ट करें, और वर्ग के नाम के तहत "LINE1" के लिए फ़िल्टर । FL-L1-BLAST. gtf के रूप में एक. gtf फ़ाइल और लेबल के रूप में डाउनलोड करें ।
2. 1 एल के पहले ३०० बीपी के एक स्थानीय विस्फोट खोज भागो 1.3 पूर्ण लंबाई L1 तत्व मानव जीनोम में प्रमोटर क्षेत्र को शामिल और ६,००० bp बहाव जोड़ने के लिए L1 के एक अंत बनाने के लिए एनोटेशन फ़ाइल निर्देशांक । एक gtf फ़ाइल और FL-L1-RM. gtf के रूप में लेबल में सहेजें ।
3. दोहराए जाने वाले एनोटेशन और प्रमोटर-आधारित L1 एनोटेशन का उपयोग करते हुए bedtools, और FL-L1-BLAST_RM. txt (सॉफ़्टवेयर पैकेज़)के रूप में लेबल के बीच काटना ।
  1. लिनक्स टर्मिनल में इस आदेश का प्रयोग करें: bedtools एक प्रकार का FL-L1-BLAST. gtf-b FL-L1-RM. gtf > FL-L1-BLAST_RM. txt ।
4. ऊपर और नीचे भूग्रस्त द्वारा प्रतिच्छेदित FL-L1 एनोटेशन अलग है ।
  1. स्प्रेडशीट सॉफ्टवेयर में FL-L1-BLAST_RM. txt पर प्रतिलिपि बनाएं और "ऋण" और "प्लस" strand द्वारा सॉर्ट और फिर गुणसूत्र स्थान के द्वारा क्रमबद्ध करें ।
  2. दो नए स्प्रेडशीट दस्तावेज़, ऋण किनारा पर पूर्ण लंबाई L1s के लिए प्रतिच्छेदित निर्देशांक के साथ एक और नीचे कतरा पर एक बनाएं, और FL-L1-BLAST_RM_minus. xls और FL-L1-BLAST_RM_plus. xls के रूप में सहेजें ।
  3. Txt फ़ाइलों के रूप में दो नए दस्तावेज़ों को सहेजें ।
5. Txt फ़ाइलों को सही एनोटेशन फ़ाइलें (सॉफ़्टवेयर पैकेज़) में कनवर्ट करने के लिए mac2unix प्रोग्राम का उपयोग करें ।
  1. टर्मिनल में इस आदेश का उपयोग करें: Mac2unix.sh FL-L1-BLAST_RM_minus. gff ।
  2. टर्मिनल में इस आदेश का उपयोग करें: Mac2unix.sh FL-L1-BLAST_RM_plus. gff ।
  3. . Gff एक्सटेंशन के साथ नई फ़ाइलें सहेजें ।
6. वैकल्पिक रूप से, + और – strand के साथ जुड़े पंक्तियों फिल्टर करने के लिए AWK का उपयोग करें ।
  1. + Strand: ऑक '/+/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_plus. gtfप्राप्त करने के लिए निम्न आदेश का उपयोग करें ।
  2. -Strand प्राप्त करने के लिए निंन कमांड लाइन का प्रयोग करें: ऑक '/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_minus. gtf।

4. व्यक्त की पहचान करने के लिए संरेखण पाइपलाइन पढ़ें L1s

विकल्प	विवरण
-पी	यह विवरण कंप्यूटर संरेखण चल रहे थ्रेड्स की संख्या का उपयोग करना चाहिए । बड़ा कंप्यूटर स्मृति और अधिक धागे की अनुमति होगी और होना चाहिए ।
-एम 1	यह प्रोग्राम केवल पढ़ता है कि जीनोम है कि किसी भी अंय जीनोम मैच से बेहतर है में एक मैच है स्वीकार करने के लिए कहता है ।
-वाई	यह tryhard स्विच है जो सभी संभव मैचों के लिए मानचित्रण खोज करता है और यह मैच की एक निश्चित संख्या तक पहुंच गया है के बाद छोड़ने के लिए अनुमति नहीं है ।
-v 3	यह केवल कार्यक्रम की अनुमति देता है मानचित्रण के लिए स्मृति का उपयोग करने के लिए 3 या कम जीनोम बेमेल के साथ पढ़ता है ।
– एक्स ६००	यह केवल युग्मित एक दूसरे के ६०० ठिकानों के भीतर है कि नक्शे पढ़ता है की अनुमति देता है । यह सुनिश्चित करता है कि पढ़ें जोड़े जीनोम में सह-रेखीय होते हैं और प्रोसेस्ड आरएनए अणुओं को शामिल करने वाले एस के खिलाफ चयन करते हैं ।
-chunkmbs ८१८४	यह आदेश प्रत्येक L1-संबंधित पठन के लिए संभव बड़ी मात्रा में संरेखण को हैंडल करने के लिए अतिरिक्त स्मृति असाइन करता है ।

तालिका 1: Bowtie के लिए आदेश पंक्ति विकल्प ।

भागो संरेखण बनती-अंत के साथ आरएनए-Seq ब्याज का नमूना Bowtie का उपयोग कर फ़ाइलें ।
नोट: Bowtie1 का उपयोग किया जाना चाहिए और नहीं Bowtie2 क्योंकि अद्वितीय संरेखण के लिए आवश्यक पैरामीटर विशेष रूप से केवल bowtie के इस संस्करण (सॉफ्टवेयर संकुल) में पाए जाते हैं । बोटाई पर प्रयोग किया जाता है, जैसे स्टार में आदेश concordant का मूल्यांकन करने के लिए splice वाकिफ aligners, निरंतर पढ़ता है और अधिक L1 जीव विज्ञान और अभिव्यक्ति के लिए प्रासंगिक है ।
1. लिनक्स टर्मिनल में इस कमांड लाइन का प्रयोग करें: bowtie-p 10-m 1-S-y-v 3-एक्स ६००--chunkmbs ८१८४ hg_x_y_m_index-1 hg_sample_1. fq-2 hg_sample_2. fq | samtools देखें-hbuS-। samtools सॉर्ट-hg_sample_sorted. bam। Bowtie के लिए आदेश पंक्ति विकल्पों का वर्णन के लिए तालिका 1 देखें ।
स्ट्रैंड आउटपुट bam फ़ाइल samtools (सॉफ्टवेयर संकुल) और निंनलिखित Linux कमांड का उपयोग कर अलग । यदि कोई मानक अगली जनरेशन sequencing प्रोटोकॉल का उपयोग नहीं कर रहा है, तो वास्तविक ध्वज मान भिन्न हो सकते हैं कि ध्यान दें ।
1. शीर्ष भूग्रस्त के लिए चयन करने के लिए इस आदेश पंक्ति का उपयोग करें: samtools देखें-h hg_sample_sorted. bam | ऑक ' substr ($ 0, 1, 1) = = "@" । | $२ = = > १६३ $२ ८३।
2. नीचे भूग्रस्त के लिए चयन करने के लिए इस आदेश पंक्ति का उपयोग करें: samtools देखें-h hg_sample_sorted. bam | ऑक ' substr ($ 0, 1, 1) = = "@" । | $२ = = > १४७ $२ ९९।
L1 loci के लिए एनोटेशन के खिलाफ पढ़ें गिनती bedtools (सॉफ्टवेयर संकुल) का उपयोग कर जनरेट करें ।
1. इस आदेश पंक्ति का उपयोग करने के लिए पढ़ने के लिए गणना शीर्ष किनारा पर sense दिशा में L1s: bedtools कवरेज-abam FL-L1-BLAST_RM_plus. gff-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt।
2. इस आदेश पंक्ति का उपयोग करने के लिए पढ़ने के लिए गणना नीचे किनारा पर नब्ज दिशा में L1s: bedtools कवरेज-abam FL-L1-BLAST_RM_minus. gff-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt।
अनुक्रमणिका bam फ़ाइल से चरण 5.1.1 यह एकीकृत जीनोमिक्स दर्शक (IGV)²⁵ (सॉफ्टवेयर संकुल) में देखने योग्य बनाने के लिए ।
1. इस आदेश पंक्ति का उपयोग करें: samtools अनुक्रमणिका hg_sample_sorted. bam
एक समय में के माध्यम से पहुंचाया आरएनए-Seq नमूनों की संख्या में वृद्धि करने के लिए एक बैच मोड का उपयोग करने के लिए, एक सुपर कंप्यूटर स्क्रिप्ट का उपयोग करने के लिए कदम ४.१ को पूरा करने के लिए human_bowtie. sh, एक स्क्रिप्ट को पूरा करने के लिए कदम 4.2-4.3 बनाया गया है बुलाया human_L1_pipeline. sh, और एक स्क्रिप्ट को पूरा करने के लिए चरण ४.४ bam_index. sh नामक बनाया गया है । ये स्क्रिप्ट संबद्ध सुपर कंप्यूटर स्क्रिप्ट चलाने के लिए आदेश के साथ पूरक फ़ाइल 2 में पाया जा सकता है ।

5. मैनुअल curation

प्रत्येक एनोटेटेड L1 locus के लिए मैप reads के लिए एक स्प्रेडशीट बनाएं ।
1. चरण 4.3.2 और लेबल पृष्ठ में "ऋण-नीचे." के रूप में बनाया hg_sample_sorted_bowtie_tryhard_minus_bottom. txt पर प्रतिलिपि बनाएं
  1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
2. एक और स्प्रेडशीट में "top-plus" के रूप में चरण 4.3.1 और label में hg_sample_sorted_bowtie_tryhard_plus_top. txt पर प्रतिलिपि बनाएं ।
  1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
3. "संयुक्त" के रूप में लेबल एक तिहाई पृष्ठ बनाएं और दस या अधिक पढ़ता के साथ सभी loci जोड़ें "से ऋण-नीचे" और "प्लस टॉप" पंनों ।
  1. स्तंभ J में मिले reads की सबसे कम संख्या के आधार पर सभी स्तंभों को सॉर्ट करें ।
4. IGV²⁵ (सॉफ्टवेयर संकुल) में निम्नलिखित फ़ाइलों को लोड: 1) एनोटेटिड जीन कल्पना करने के लिए ब्याज के जीनोम का संदर्भ, 2) FL-L1-BLAST_RM. gff L1 एनोटेशन कल्पना करने के लिए, 3) hg_sample_sorted. bam से मैप किए गए टेप को विज़ुअलाइज़ करने के लिए ब्याज का नमूना है, और 4) hg_genomicDNA_sorted. bam जीनोमिक क्षेत्रों की mappability का आकलन करने के लिए ।
5. प्रत्येक bam फ़ाइल के साथ संबद्ध कवरेज और समिंग पंक्तियां निकालें ।
6. सभी IGV पटरियों एक स्क्रीन पर फिट तो hg_sample_sorted. bam और hg_genomicDNA_sorted. bam सेक.
मैंयुअल रूप से curate ।
1. का उपयोग करते हुए loci से निर्देशांक स्प्रेडशीट "संयुक्त" पृष्ठ पर सूचीबद्ध, दृश्य को IGV²⁵ (सॉफ्टवेयर संकुल) में loci बुलाया ।
2. एक लोकस curate को प्रामाणिक रूप से अपने आप को व्यक्त किया जा सकता है यदि कोई ऊपर L1 दिशा में 5 केबी तक पढ़ता है ।
  1. पंक्ति को रंग में हरा लेबल करें और ध्यान दें कि यह एक प्रामाणिक रूप से व्यक्त किया गया L1 क्यों है ।
    नोट: इस नियम के लिए कोई अपवाद मौजूद है यदि L1 का क्षेत्र upstream मैप करने योग्य नहीं है । यदि यह स्थिति है, तो पंक्ति को लाल रंग में लेबल करें और ध्यान दें कि L1 प्रमोटर के क्षेत्र के प्रतिप्रवाह की अभिव्यक्ति मूल्यांकित नहीं की जा सकती है और इसलिए L1's व्यंजक आत्मविश्वास से निर्धारित नहीं हो पा रहा है ।
3. एक लोकस curate को प्रमाण के रूप में बंद अपने स्वयं के प्रमोटर व्यक्त नहीं किया जाएगा अगर वहां ऊपर ऊपर पढ़ता है 5 केबी ।
  1. रंग में लाल पंक्ति लेबल और ध्यान दें क्यों यह एक प्रामाणिक रूप से व्यक्त L1 नहीं है ।
  2. झूठी के रूप में एक लोकस curate अगर यह एक ही दिशा में एक व्यक्त जीन के intron के भीतर L1 के ऊपर पढ़ता है, यदि यह एक ही दिशा में एक व्यक्त जीन के बहाव के साथ है L1 के ऊपर पढ़ता है, या संयुक्त राष्ट्र के लिए-एनोटेट के साथ अभिव्यक्ति पैटर्न पुनः विज्ञापन L1 के ऊपर ।
    नोट: इस नियम के लिए एक अपवाद लागू होता है जब वहां कम से सीधे L1 प्रमोटर शुरू साइट अतिव्यापी पढ़ता है, लेकिन थोड़ा L1 के ऊपर है । यदि कोई अंय इस तरह एक L1 मामले के ऊपर पढ़ता है, इस L1 प्रामाणिक रूप से व्यक्त करने पर विचार करें । पंक्ति को हरा रंग लेबल करें और ध्यान दें कि यह प्रामाणिक रूप से क्यों व्यक्त किया गया L1 है ।
4. एक L1 लोकस क्यूरेट के रूप में गलत होने की संभावना है अगर प्रतिचित्रित के पैटर्न की लोकस के लिए पढ़ता है mappability के विशिष्ट L1's क्षेत्रों के साथ सहसंबंधित नहीं है ।
  नोट: उदाहरण के लिए, यदि एक l1 उच्च मैप करने योग्य है, लेकिन केवल एक ढेर है l1 के भीतर एक गाढ़ा क्षेत्र में पढ़ता है, यह कम करने के लिए अपने स्वयं के प्रमोटर से L1 अभिव्यक्ति से संबंधित होने की संभावना है और अधिक exons या ltrs की तरह संयुक्त राष्ट्र-एनोटेटिड स्रोतों से होने की संभावना है । इस तरह के मामलों में, नारंगी के रूप में loci उपपादरी और ध्यान दें कि क्यों loci संदिग्ध है । UCSC जीनोम ब्राउज़र में L1 स्थान की जाँच करके संदिग्ध ढेर के स्रोतों की जाँच करें ।
5. एक स्थान पर curate प्रामाणिक रूप से व्यक्त नहीं किया जा करने के लिए अगर यह कई मायनों संयुक्त राष्ट्र एनोटेट व्यक्त क्षेत्रों के एक जीनोमिक वातावरण के भीतर है
  नोट: उदाहरण के लिए, पढ़ता जा सकता है 10 kb L1 के upstream, लेकिन हर 10 kb या तो मैप किए गए पढ़ता है और उनमें से कुछ पढ़ता है L1 के साथ संरेखित करें । इन L1s कम अपने प्रमोटर व्यक्त होने की संभावना है, और अधिक करने के लिए मैप किया गया है की संभावना संयुक्त राष्ट्र के कारण-एनोटेटिड जीनोमिक अभिव्यक्ति की पैटर्न पढ़ता है । इस तरह के मामलों में, नारंगी के रूप में loci उपपादरी और ध्यान दें कि क्यों loci संदिग्ध है ।

6. पढ़ें संरेखण रणनीति संदर्भ जीनोम में mappability का आकलन करने के लिए (वैकल्पिक अगर एक एक मौजूदा गठबंधन जीनोमिक डीएनए डाटासेट है)

डाउनलोड पूरे जीनोम डीएनए अनुक्रम फ़ाइलें और कंवर्ट करने के लिए. fq फ़ाइलें
1. NCBI वेबसाइट पर जाएं यहां पाया: https://www.ncbi.nlm.nih.gov/sra
2. Wgs HeLa युग्मित अंतमें टाइप करें ।
3. होमोसेक्सुअल sapiens के लिए का चयन करें द्वारा परिणाम के तहत टैक्सों।
4. एक नमूना का चयन करें जो युग्मित अंत है और १०० या अधिक bp के साथ पढ़ता है निम्न नमूना की तरह: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
5. चलाएँ और उसके बाद मेटाडेटा यहाँ दिखाए गए का चयन करके पठन लंबाई की पुष्टि करें: https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=ERR492384
6. पूरे जीनोम डीएनए अनुक्रम डेटा डाउनलोड करने के लिए, लिनक्स टर्मिनल में इस आदेश दर्ज करें: sratoolkit. 2.9.2-mac64 /
  नोट: SRA टूलकिट prefetch फंक्शन डाउनलोड परिग्रहण संख्या "ERR492384" NCBI साइट (सॉफ्टवेयर संकुल) में पाया । १०० गीगाबाइट करने के लिए "100G" डाउनलोड डेटा की मात्रा सीमा ।
7. लिनक्स टर्मिनल में इस आदेश दर्ज करें: fastq-डंप--भाजित-फ़ाइलें ERR492384
  नोट: यह दो fastq फ़ाइलों में डाउनलोड जीनोमिक डीएनए डेटासेट विभाजन ।
Bowtie का उपयोग कर संरेखण चलाएँ.
1. संरेखण के लिए Linux में इस आदेश का उपयोग करें: bowtie-p 10-m 1-एस-वाई-v 3-X ६००--chunkmbs ८१८४ hg_x_y_m_index-1 hg_genomicDNA_1. fq-2 hg_genomicDNA_2. fq । samtools देखें-hbuS-। samtools सॉर्ट-hg_genomicdna_sorted. bam।
  1. ४.१ चरण को देखें Bowtie संरेखण (सॉफ्टवेयर संकुल) में प्रयुक्त मापदंडों को समझने के लिए ।
  2. Genomically संरेखित bam लेखक अनुरोध पर उपलब्ध mappability का आकलन करने के लिए फ़ाइल डाउनलोड करें ।
Index bam फ़ाइल चरण 4.2.1 से samtools का उपयोग करने के लिए यह IGV²⁵ (सॉफ्टवेयर संकुल) में देखने योग्य बनाने के लिए आगे मैनुअल curation सूचित करें ।
1. लिनक्स में इस कमांड लाइन का प्रयोग करें: samtools सूचकांक hg_genomicdna_sorted. bam
प्रत्येक L1 loci की mappability का आकलन करें
1. निर्धारित विशिष्ट मैप की संख्या L1 loci के लिए bedtools प्रोग्राम, FL-L1 एनोटेशन, और संरेखित जीनोमिक अनुक्रम डेटा (सॉफ्टवेयर संकुल) का उपयोग करने के लिए पढ़ता है ।
  1. लिनक्स में इस कमांड लाइन का प्रयोग करें: bedtools कवरेज-abam FL-L1-BLAST_RM. gtf – b hg_genomicdna_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt।
2. जब ४०० अनंय पढ़ता है यह करने के लिए संरेखित पूर्ण कवरेज mappability है करने के लिए कोई L1 लोकस निर्दिष्ट करें ।
3. ऊपर या नीचे जीनोमिक डीएनए को स्केल करने के लिए आवश्यक कारक निर्धारित करने के लिए ४०० प्रत्येक व्यक्ति L1 के लिए पढ़ता है ।
4. व्यक्तिगत L1 लोकस के अनुसार अभिव्यक्ति का एक छोटा उपाय है, के लिए कदम 6.4.3 में आरएनए ट्रांसक्रिप्ट की संख्या में निर्धारित कारक पढ़ता है कि प्रमाण के अनुसार व्यक्त करने के लिए संरेखित करें L1s वर्गों में निर्धारित 4 – 5.

Representative Results

कदम ऊपर वर्णित है और चित्र 1 में रेखांकन वर्णित एक मानव प्रोस्टेट ट्यूमर सेल लाइन DU145 करने के लिए लागू किया गया । एक चयनित, किनारा-विशिष्ट, युग्मित-अंत प्रोटोकॉल-आरएनए नमूना साइटोप्लाज्मिल्ली prepped था और अगले-gen एक पाली में sequenced था । Bowtie का उपयोग करना, युग्मित-अंत sequencing फ़ाइलों को संरेखित केवल अनंय मेल जिसमें युग्मित-अंत किसी अंय जीनोमिक स्थान की तुलना में एक जीनोमिक स्थान के लिए बेहतर मेल खाते की अनुमति दी गई । DU145 अनुक्रम फ़ाइलें मानव संदर्भ जीनोम एक bam फ़ाइल है, जो लेखक के अनुरोध पर उपलब्ध है बनाने के लिए गठबंधन किया गया । Bedtools का उपयोग करते हुए, डेटा DU145 strand-सेपरेटेड bam फ़ाइलों से पूरी लंबाई L1s करने के लिए मैप किया गया पढ़ता की संख्या पर निकाला गया था । उन पुस्तकें सबसे बड़े से एक स्प्रेडशीट में हल कर रहे थे और मैंयुअल रूप से igv में प्रत्येक L1 लोकस के आसपास जीनोमिक पर्यावरण की जांच करने के लिए अपनी प्रामाणिकता की पुष्टि (पूरक तालिका 1) द्वारा क्यूरेट । यदि एक नमूना के लिए प्रमाण के अनुसार व्यक्त किया क्यूरेट था, यह रंग था सही सबसे कॉलम में अपनी स्वीकृति के लिए एक विवरण के साथ हरी कोडित । L1 loci के उदाहरण के लिए प्रमाण के अनुसार तरीकों में वर्णित दिशा निर्देशों के बाद व्यक्त किया जा स्वीकार किए जाते है खंड चित्रा 2a-bमें दिखाए जाते हैं । यदि किसी नमूने को प्रामाणिक रूप से व्यक्त किया जा अस्वीकार कर दिया गया था, यह रंग था-सही सबसे स्तंभ पर अस्वीकृति के कारण के साथ लाल के रूप में कोडित । L1 loci के उदाहरण विधियां अनुभाग में वर्णित अपने स्वयं निंनलिखित दिशा निर्देशों के अलावा अंय प्रमोटर से अभिव्यक्ति के कारण अस्वीकार कर दिया है चित्र 2c-e में विस्तृत हैं ।

यहां, एक अक्षुण्ण प्रमोटर क्षेत्र के साथ केवल पूर्ण लंबाई L1s का अध्ययन किया गया । अगर यह अंतर नहीं किया जाता है, तो छोटे L1s से निकलने वाले ट्रांसक्रिप् शनल नॉइज़ का एक बड़ा स्रोत पेश किया जाता है । DU145 में छोटा L1s के उदाहरण चित्र 3a-b में दिखाए जाते हैं, जहां वे विशिष्ट रूप से मैप किए गए RNA-seq पढ़ता के रूप में पहचाने गए थे । IGV में, तथापि, यह स्पष्ट है कि उन टेप से काट लिया L1 शुरू नहीं किया गया है, लेकिन एक जीन या अनुप्रवाह में एक व्यक्त जीन से L1 अनुक्रम के शामिल किए जाने से ।

कुल मिलाकर DU145 में, पूर्ण लंबाई L1 loci का प्रतिशत और पढ़ता है कि के रूप में अस्वीकार कर दिया है प्रमाण के रूप में व्यक्त की है L1s मैनुअल curation के बाद लगभग ५०% (पूरक तालिका 2) L1 मैप किए गए ट्रांसक्रिप्ट के उच्च स्तर का प्रदर्शन है पढ़ता है कि अंयथा मैनुअल curation बिना झूठी सकारात्मक के रूप में दर्ज हो । विशेष रूप से, DU145 में वहां थे ११४ कुल पूर्ण लंबाई L1 loci को विशिष्ट मैप है ३,१५२ पढ़ता है की कुल के साथ नब्ज दिशा में पढ़ता है, लेकिन वहां थे केवल ६० loci से चिह्नित किया जा करने के लिए अपने स्वयं के प्रमोटर के बाद १,८७९ के साथ मैनुअल curation पढ़ता ( पूरक तालिका 1) । यह स्थिति तब भी है जब साइटोप्लाज्मिक एमआरएनए के लिए चयन करके एल1 जीवविज्ञान के लिए अप्रासंगिक अभिव्यक्ति को कम करने के लिए कदम उठाए गए थे । ध्यान दें कि DU145 में मैप किए गए टेप के उच्चतम स्तर के साथ लोकस क्योंकि यह एक प्रामाणिक व्यक्त L1 (चित्रा 4) नहीं था अस्वीकार कर दिया गया था । कुल मिलाकर निर्दिष्ट L1 loci के लिए मैप किए गए टेप की संख्या इसी तरह के बीच स्वीकार किए जाते है और के रूप में अस्वीकार कर दिया L1 loci मैनुअल curation के बाद व्यक्त की (चित्रा 4) ।

मैनुअल curation के बाद, पढ़ता है कि विशेष रूप से मैप करने के लिए प्रमाण के अनुसार विशिष्ट L1 loci DU145 श्रेणी में १७५ से एक मनमाने ढंग से चुना ंयूनतम कट ऑफ 10 पढ़ता करने के लिए पढ़ता की संख्या (चित्रा 5) । विशिष्ट मैप किए गए ट्रांसक्रिप्ट की पहचान करने का यह तरीका अभिव्यक्ति को सही मात्रा में पहचानने की क्षमता को L1s पर पढ़ता है । इसके लिए खाते के लिए, एक सुधार कारक इसके mappability पर आधारित प्रत्येक लोकस के लिए बनाया गया था । इस सुधार कारक बनाने के लिए, पहले bedtools सभी पूर्ण-लंबाई L1 loci करने के लिए संरेखित और सबसे कम मैप किए गए प्रतिलिपि पढ़ता से उन loci का रेखांकन (पूरक चित्रा 1) । यह मनमाने ढंग से निर्दिष्ट किया गया था कि ४०० के साथ L1s पढ़ता पूर्ण कवरेज mappability था । पढ़ता की संख्या HeLa जीनोमिक अनुक्रमण नमूना में एक L1 लोकस करने के लिए मैप करने के लिए सक्षम किया गया था ४०० reads के सापेक्ष स्केल किया गया और उस स्केल संख्या तो पढ़ता है जो प्रत्येक के लिए मैप की संख्या के लिए एक प्रमाण DU145 में l1 लोकस (पूरक तालिका 2) व्यक्त . के रूप में अपेक्षित, L1 तत्व कि mappability के लिए बड़ा सुधार स्कोर था L1PA2 (पूरक तालिका 2) की तरह युवा subfamilies से आया था । एक बार पढ़ता है प्रत्येक locus में mappability स्कोर के लिए समायोजित किया गया, सबसे locus के लिए अभिव्यक्ति के लिए quantitation वृद्धि हुई (चित्रा 6). पढ़ता है कि ६१२ DU145 में mappability सुधार के साथ विशिष्ट L1 loci के साथ व्यक्त करने के लिए अनन्य रूप से मैप किए गए reads की संख्या 4 पढ़ता है और वहां एक फिर से सबसे कम करने के लिए उच्चतम का आदेश दिया गया loci (चित्रा 6) ।

चित्र 1: वर्कफ़्लो योजनाबद्ध ।
रेखांकन का वर्णन एक मानव नमूने में व्यक्त L1s की पहचान करने के लिए कदम उठाए हैं । ध्यान दें कि चरण 1 और 2 उपयुक्त फ़ाइलें पहले से ही उपलब्ध हैं, तो दोहराया जा करने की आवश्यकता नहीं है । इन उपयुक्त फ़ाइलों को पूरक फ़ाइल 1a-b और अनुपूरक फ़ाइल 2से डाउनलोड किया जा सकता है । लाल रंग में बक्से कदम जहां bedtools कवरेज कार्यक्रम के लिए एक ही भावना दिशा में L1s को पढ़ता मानचित्रण की संख्या गिनती करने के लिए प्रयोग किया जाता है संकेत मिलता है । नब्ज उंमुख मानचित्रण के साथ इन loci पढ़ता है L1s कि मैंयुअल रूप से curated जाना चाहिए रहे हैं । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

चित्रा 2: DU145 में क्यूरेट L1 loci के उदाहरण ।
Igv में लोड संदर्भ जीनोम, पूर्ण लंबाई L1 gff एनोटेशन संदर्भ जीनोम संस्करण (अनुपूरक 1 फ़ाइल), DU145 bam फ़ाइल मिलान फ़ाइल है, और अंत में जीनोमिक HeLa bam को mappability, जो लेखक पर सभी उपलब्ध है आकलन फ़ाइल अनुरोध. तीर एनोटेटिड L1 की दिशा के दृश्य में सहायता के लिए जोड़ा गया है । तीर और लाल रंग में पढ़ता सही से बाएं अनुक्रम में उंमुख होते हैं । तीर और नीले रंग में पढ़ता है बाएं से दाएं अनुक्रम में उंमुख होते हैं । एक) igv में, इस l1 लोकस प्रकट होने के लिए अपने स्वयं के प्रमोटर के रूप में वहां कोई नहीं है पर 5 केबी के लिए नब्ज उंमुखीकरण में L1 के ऊपर पढ़ता है । इस L1 कम mappability है, यह एक जीन में नहीं है, और उंमीद antisense प्रमोटर गतिविधि²⁶के सबूत है । ख) igv में, इस L1 लोकस प्रकट होने के लिए अपने स्वयं के प्रमोटर के रूप में वहां कोई ऊपर 5 केबी के लिए अर्थ उंमुखीकरण में L1 पढ़ता है । इस L1 कम mappability है और विपरीत दिशा के एक जीन के भीतर है । ग) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां है ऊपर 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 एक ही दिशा के एक जीन के भीतर है तो प्रतिलिपि पुस्तकें सबसे अधिक संभावना व्यक्त जीन के प्रमोटर से उद्भव कर रहे हैं । घ) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां ऊपर है 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 एक ही दिशा में एक उच्च व्यक्त जीन के बहाव है तो प्रतिलिपि पुस्तकें सबसे अधिक संभावना है कि व्यक्त जीन के प्रमोटर से उद्भव और सामांय जीन टर्मिनेटर से परे का विस्तार है । ई) igv में, इस l1 लोकस एक व्यक्त L1 के रूप में अस्वीकार कर दिया गया था के रूप में वहां है ऊपर 5 केबी के भीतर एक ही उंमुखीकरण में पढ़ता है । इस L1 के भीतर या संदर्भ जीन में एक एनोटेटिड जीन के पास नहीं है तो भीतर इन टेप के मूल और L1 तत्व के ऊपर का सुझाव एक संयुक्त राष्ट्र एनोटेटिड प्रमोटर । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

चित्रा 3: पृष्ठभूमि शोर से कटा हुआ L1s के रूप में अच्छी तरह से originates.
वे पृष्ठभूमि शोर का एक प्रमुख स्रोत है के रूप में हमारे L1 एनोटेशन छोटा L1s शामिल नहीं है । तीर एनोटेटिड L1 की दिशा के दृश्य में सहायता के लिए जोड़ा गया है । तीर और नीले रंग में पढ़ता है बाएं से दाएं अनुक्रम में उंमुख होते हैं । a) का प्रदर्शन एक छोटा L1 का एक उदाहरण है L1MB5 sufamily में २७०६ bps है । IGV में यह स्पष्ट है कि पढ़ता है एक व्यक्त जीन के डाउनस्ट्रीम विस्तार से उत्पन्न. ख) दिखाया एक छोटा L1 का एक और उदाहरण है । यह L1 ४७६७ बीपीएस लंबा है एक L1PA11 है । IGV में यह स्पष्ट है कि पढ़ता L1 करने के लिए विशिष्ट मानचित्रण व्यक्त exon, जो L1 के भीतर है से उत्पन्न होता है. इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

चित्रा 4: प्रतिलेख पढ़ता है कि सभी को पूर्ण लंबाई बरकरार L1s मानव जीनोम DU145 प्रोस्टेट ट्यूमर कोशिका रेखा में व्यक्त की ।
काले रंग में विशिष्ट loci के रूप में पहचान के लिए प्रमाण के रूप में मैनुअल curation के बाद व्यक्त की और लाल में विशिष्ट loci रहे है के रूप में प्रमाण के रूप में व्यक्त की मैनुअल curation पढ़ता है खारिज कर दिया जाएगा । ग्रे में एक से कम दस के साथ loci हैं, प्रत्येक के लिए मानचित्रण पढ़ता है । के रूप में इन loci प्रतिलेख पढ़ता का एक छोटा सा अंश का प्रतिनिधित्व करते हैं, वे मैंयुअल रूप से curate नहीं थे । एक्स-अक्ष सही निशान निरूपित हर १०० पूर्ण लंबाई, बरकरार L1s. लगभग ४,५०० loci रेखांकन नहीं कर रहे है के रूप में वे शूंय मैप पढ़ता है दिखाया गया है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

चित्रा 5: प्रतिलेख पढ़ता है कि नक्शा विशिष्ट प्रमाण के अनुसार पूर्ण लंबाई बरकरार L1s DU145 प्रोस्टेट ट्यूमर कोशिका रेखा में व्यक्त किया ।
दिखाया प्रतिलिपि की संख्या है कि मैनुअल curation के बाद DU145 कोशिकाओं में विशिष्ट loci को मैप पढ़ता है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

चित्रा 6: पढ़ता है प्रमाण के अनुसार करने के लिए है L1 व्यक्त जब mappability द्वारा समायोजित ।
दिखाई ट्रांसक्रिप्ट की संख्याएं हैं, जो loci-विशिष्ट mappability स्कोर द्वारा समायोजित किया जाता है जो DU145 कक्षों में मैंयुअल रूप से L1 loci के लिए मैप करता है । इस आंकड़े का बड़ा संस्करण देखने के लिए कृपया यहां क्लिक करें ।

पूरक फ़ाइल 1: पूर्ण लंबाई के लिए एनोटेशन, बरकरार मानव L1s अभिविन्यास के अनुसार. a) FL-L1-BLAST_RM_minus. gff. b) FL-L1-BLAST_RM_plus. gff. कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक फ़ाइल 2: सुपर कंप्यूटर लिपियों खंड 4 में विस्तृत bioसूचनाविज्ञान पाइपलाइन को स्वचालित करने के लिए इस्तेमाल किया । कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक चित्रा 1: Genomic डीएनए नमूना L1 mappability निर्धारित करने के लिए इस्तेमाल किया.
दिखाया जीनोमिक ट्रांसक्रिप्ट की संख्या है HeLa सेल लाइन नमूना है कि सभी ५,००० पूर्ण लंबाई के जीनोम में L1 loci से नक्शा पढ़ता है । यह निर्दिष्ट किया गया था कि एक L1 पूर्ण कवरेज mappability है जब ४०० L1 करने के लिए नक्शे पढ़ता है । कृपया इस आंकड़े को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक तालिका 1: DU145 में L1s के मैनुअल Curation । कृपया इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें ।

पूरक तालिका 2: mappability समायोजन के साथ DU145 में Curated L1s. कृपया इस तालिका को डाउनलोड करने के लिए यहां क्लिक करें ।

Discussion

L1 गतिविधि के लिए आनुवंशिक क्षति और बीमारी के लिए योगदान अस्थिरता का कारण दिखाया गया है²⁷^,²⁸^,²⁹। लगभग ५,००० पूर्ण लंबाई L1 प्रतियां के, केवल कुछ दर्जन विकास युवा L1s खाते के अधिकांश retrotransposition गतिविधि²। हालांकि, वहां सबूत है कि यहां तक कि कुछ पुराने, retroपक्षात्मकता-incompentent L1s अभी भी डीएनए हानिकारक प्रोटीन³⁰का उत्पादन कर रहे हैं । L1s की भूमिका को पूरी तरह से जीनोमिक अस्थिरता और रोग में की सराहना करते हैं, locus-विशिष्ट स्तर पर L1 अभिव्यक्ति समझा जाना चाहिए । तथापि, एल 1 से संबंधित अन्य RNAs में शामिल दृश्यों की उच्च पृष्ठभूमि L1 प्रत्याक्रमण के लिए प्रामाणिक L1 अभिव्यक्ति की व्याख्या में एक महत्वपूर्ण चुनौती बन गया है. पहचान और इसलिए व्यक्तिगत L1 loci के अभिव्यक्ति पैटर्न को समझने में एक और चुनौती उनके दोहराव प्रकृति की वजह से होता है कि कई छोटे पढ़ने के दृश्यों की अनुमति नहीं एक अद्वितीय loci के लिए नक्शा है । इन चुनौतियों से उबरने के लिए, हमने आरएनए-एसईक्यू डेटा का उपयोग करते हुए व्यक्तिगत L1 loci की अभिव्यक्ति की पहचान करने में ऊपर वर्णित दृष्टिकोण विकसित किया ।

हमारे दृष्टिकोण उच्च स्तर फ़िल्टर (९९%) एल-1 दृश्यों से उत्पन्न होने वाले ट्रांसक्रिप् शनल शोर जो एल1 पश् चतरण से असंबंधित होते हैं, कई कदम उठाते हैं । पहले चरण में साइटोप्लाज्मिक आरएनए की तैयारी शामिल है । साइटोप्लाज्मिक आरएनए के लिए चयन करके, एल 1-संबंधित पढ़ता में पाया इंट्रानिक mRNA नाभिक में काफी समाप्त हो रहे हैं. अनुक्रमण पुस्तकालय की तैयारी में, एक और L1s को असंबंधित transcriptional शोर को कम करने के लिए उठाया कदम polyadenylated टेप का चयन शामिल हैं । यह गैर-mRNA प्रजातियों में पाया L1-संबंधित ट्रांसक्रिप्ट शोर निकालता है । एक अन्य चरण में, एंटीसेंस L1-संबंधित ट्रांस्क्रिप्ट को पहचानने और हटाने के लिए strand-विशिष्ट अनुक्रमण शामिल है. आरएनए-एसईक्यू ट्रांस्क्रिप्ट्स की संख्या की पहचान करते समय कार्यशील प्रमोटर क्षेत्रों के साथ पूर्ण-लंबाई L1s के लिए एनोटेशन का उपयोग, जो कि L1s को मैप करता है, पृष्ठभूमि शोर को भी समाप्त करता है जो अंयथा छोटे L1s से उत्पन्न होता है । अंत में, पिछले l1 अनुक्रमण के लिए असंबंधित L1 दृश्यों के transcriptional शोर को नष्ट करने में महत्वपूर्ण कदम पूर्ण लंबाई L1s के मैनुअल curation है के लिए मैप आरएनए Seq टेप की पहचान की है । मैनुअल curation प्रत्येक bioinformatically की पहचान के दृश्य शामिल है-होना करने के लिए अपने आसपास के जीनोमिक वातावरण के संदर्भ में L1 प्रकट व्यक्त की पुष्टि करने के लिए कि अभिव्यक्ति L1 प्रमोटर से निकलती है । इस दृष्टिकोण DU145, एक प्रोस्टेट ट्यूमर कोशिका रेखा के लिए लागू किया गया था । यहां तक कि सभी तैयारी से संबंधित कदम पृष्ठभूमि शोर को कम करने के लिए, L1 loci के लगभग ५०% की पहचान की bioinformatically में DU145 के रूप में अस्वीकार कर दिया गया L1 पृष्ठभूमि शोरअन्य transcriptional स्रोतों से शुरू विश्वसनीय परिणाम देने के लिए कठोरता पर बल देना । इस दृष्टिकोण मैनुअल curation का उपयोग कर श्रम गहन है, लेकिन इस पाइपलाइन के विकास में आवश्यक का मूल्यांकन करने और एक पूर्ण लंबाई L1 आसपास जीनोमिक पर्यावरण को समझने के लिए । अगले कदम curation नियमों के कुछ स्वचालित द्वारा आवश्यक मैनुअल curation की राशि को कम करने में शामिल हैं, हालांकि कारण जीनोमिक अभिव्यक्ति की अभी भी पूरी तरह से ज्ञात प्रकृति, संयुक्त राष्ट्र के संदर्भ में अभिव्यक्ति के स्रोतों एनोटेटिड जीनोम, कम के क्षेत्रों mappability, और यहां तक कि एक संदर्भ जीनोम के निर्माण के साथ शामिल कारकों उलझी यह पूरी तरह से इस समय L1 curation स्वचालित करने के लिए संभव नहीं है ।

अनुक्रमण के साथ व्यक्तिगत L1 loci की अभिव्यक्ति की पहचान करने में दूसरी चुनौती दोहराव L1 टेप के मानचित्रण से संबंधित है । इस संरेखण रणनीति में, यह आवश्यक है कि एक प्रतिलिपि को विशिष्ट रूप से संरेखित करना चाहिए और संदर्भ जीनोम में सह-linearly होना चाहिए ताकि मैप किया जा सके । ऐसे युग्मित-अंत दृश्यों के लिए चयन करके, जो इस बात का नक्शा तैयार करते हैं, कि संदर्भ जीनोम में पाए जाने वाले एल1 loci में विशिष्ट रूप से संरेखित ट्रांस्क्रिप्ट की मात्रा बढ़ जाती है । इस अनूठी मानचित्रण रणनीति एक एकल L1 locus के लिए विशेष रूप से पढ़ने के फोन मानचित्रण में विश्वास प्रदान करता है, हालांकि यह संभावित प्रत्येक पहचान की अभिव्यक्ति मात्रा underestimates-हो-प्रमाण के अनुसार व्यक्त की, दोहराव L1 । इस अंडरestimation के लिए लगभग सही करने के लिए, अपनी mappability के आधार पर प्रत्येक L1 लोकस के लिए एक "mappability" स्कोर विकसित किया गया था और विशिष्ट मैप किए गए प्रतिलिपि पढ़ता की संख्या के लिए लागू (चित्रा 6) । यह ध्यान देने योग्य है कि आदर्श रूप में, mappability पूर्ण कवरेज के लिए रन बनाए जाने चाहिए पूर्ण लंबाई L1 मिलान WGS नमूने के अनुसार पढ़ता है । यहां, हम HeLa कोशिकाओं के wgs का उपयोग करने के लिए फुलाने के लिए प्रत्येक l1 loci के mappability स्कोर निर्धारित करने के लिए या डिफ्लेट द DU145 प्रोस्टेट ट्यूमर कोशिका लाइनों में L1 loci को मानचित्रण पढ़ता है । इस mappability गणना एक क्रूड सुधार स्कोर है, लेकिन ' चुना ४०० के पूर्ण कवरेज mappability ' पढ़ता मन में ट्यूमर कोशिका लाइनों के गतिशील प्रकृति के साथ निर्धारित किया गया था । यह पूरक चित्रा 1में मनाया जा सकता है, कि वहां कुछ L1 wgs के साथ बहुत ही उच्च संख्या के साथ एल. ई. loci रहे है प्रतिचित्रित पढ़ता है । ये संभावना HeLa के भीतर दोहराया गुणसूत्र दृश्यों से आया है कि संदर्भ जीनोम, यही वजह है कि उन loci को पूरा mappability कवरेज का प्रतिनिधि नहीं चुना गया है के भीतर नहीं हैं । इसके बजाय यह निर्धारित किया गया था कि १००% पढ़ने के कवरेज के आसपास होता है ४०० पूरक चित्रा 1 के अनुसार पढ़ता है और तब माना जाता है कि इस औसत DU145 ट्यूमर प्रोस्टेट सेल लाइन के रूप में अच्छी तरह से करने के लिए लागू होता है ।

100-200 bp के साथ इस संरेखण रणनीति आरएनए-seq प्रौद्योगिकी से पढ़ता है भी प्राथमिकता के रूप में संदर्भ जीनोम के भीतर विकास पुराने L1s के लिए चयन के रूप में पुराने L1s समय अद्वितीय उत्परिवर्तनों कि उंहें और अधिक mappable बनाने पर जमा किया है । इस दृष्टिकोण, इसलिए सीमित संवेदनशीलता है जब यह L1s के रूप में के रूप में अच्छी तरह से गैर संदर्भ, बहुरूपी L1s के सबसे कम उंर की पहचान करने के लिए आता है । L1s के सबसे कम उंर की पहचान करने के लिए, हम का उपयोग करने का सुझाव 5 ' की दौड़ चयन L1 टेप और अनुक्रमण प्रौद्योगिकी PacBio की तरह है कि अब²¹पढ़ता है का उपयोग करें । यह और अधिक अद्वितीय मानचित्रण परमिट और इसलिए व्यक्त की पहचान, युवा L1s । आरएनए-एसईक्यू और PacBio दृष्टिकोण एक साथ का उपयोग कर प्रामाणिक रूप से व्यक्त की एक अधिक व्यापक सूची के लिए नेतृत्व कर सकते हैं L1s । प्रामाणिक रूप से व्यक्त की पहचान करने के लिए बहुरूपी L1s, पहले अगले कदम निर्माण और संदर्भ जीनोम में बहुरूपी दृश्यों की प्रविष्टि शामिल हैं ।

दोहराने दृश्यों का अध्ययन करने में जैविक और तकनीकी चुनौतियों महान हैं, हालांकि इसके बाद के संस्करण कठोर प्रक्रिया के साथ एल. एन. एन. ए. एन. आर. एन. ए.-अनुक्रमण प्रौद्योगिकी का उपयोग कर retrotransposition से संबंधित, ट्रांस्क्रिशनल पृष्ठभूमि शोर के बड़े स्तर पर और आत्मविश्वास से किया जा रहा है और इसरो व्यक्तिगत लोकस स्तर पर L1 अभिव्यक्ति पैटर्न और मात्रा की पहचान ।

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

हम डॉ यान दांग DU145 प्रोस्टेट ट्यूमर कोशिकाओं के लिए शुक्रिया अदा करना चाहूंगा । हम सुपर कंप्यूटर लिपियों बनाने में उनके मार्गदर्शन और सलाह के लिए डॉ नाथन Ungerleider शुक्रिया अदा करना चाहूंगा । इस काम के कुछ NIH अनुदान R01 GM121812 पीडी, R01 AG057597 के लिए VPB, और 5TL1TR001418 टी के लिए द्वारा वित्त पोषित किया गया था । हम भी कैंसर क्रूसेडरों और Tulane कैंसर सेंटर Bioसूचनाविज्ञान कोर से समर्थन स्वीकार करना चाहते हैं ।

Materials

Name	Company	Catalog Number	Comments
1 M HEPES	Affymetrix	AAJ16924AE
5 M NaCl	Invitrogen	AM9760G
Agilent bioanalyzer 2100	Agilent technologies
Agilent RNA 6000 Nano Kit	Agilent technologies	5067-1511
bedtools.26.0			https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8			https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper	Olympus plastics	25-270
Chloroform	Fisher	C298-500
Digitonin	Research Products International Corp	50-488-644
Ethanol	Fisher	A4094
Gibco (Phosphate Buffered Saline)	Invitrogen	10-010-049
Homogenizer	Thomas Scientific	BBI-8541906
IGV 2.4			https://software.broadinstitute.org/software/igv/download
Isopropanol	Fisher	A416-500
mac2unix			https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips	Fisher	23-400-122
RNAse later solution	Invitrogen	AM7022
RNaseZap RNase Decontamination Solution	Invitrogen	AM9780
samtools-1.3			https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2			https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor	Invitrogen	AM2694
Trizol	Invitrogen	15-596-018
Water (DNASE, RNASE free)	Fisher	BP2484100

DOWNLOAD MATERIALS LIST

References

International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
Agilent RNA 6000 Nano Kit Guide. , Agilent. (2017).
Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , Agilent Technologies. (2016).
Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Genetics

आरएनए अगली पीढ़ी के अनुक्रमण और एक Bioसूचनातंत्र पाइप लाइन व्यक्त की पहचान करने के लिए-Locus-विशिष्ट स्तर पर 1s

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.