الجيش النيبالي الجديد الجيل التالي التسلسل وخط أنابيب المعلوماتية الحيوية لتحديد خط التعبير-1s في مستوي محدد الموضع

Genetics
 

Summary

هنا ، نقدم نهج المعلوماتية الحيوية وتحليلات لتحديد خط-1 التعبير علي مستوي معين.

Cite this Article

Copy Citation | Download Citations

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

عناصر طويلة تتخللها-1 (خطوط/L1s) هي العناصر المتكررة التي يمكن نسخ وادراج عشوائيا في الجينوم مما ادي إلى عدم الاستقرار الجينوم والطفرات. فهم أنماط التعبير من L1 مكاني علي المستوي الفردي وسوف تقرض لفهم بيولوجيا هذا العنصر الطفرة. هذا العنصر المستقل يشكل جزءا كبيرا من الجينوم البشري مع أكثر من 500,000 نسخه ، علي الرغم من ان 99 ٪ يتم اقتطاعها ومعيبه. ومع ذلك ، فان وفره النسخ المعيبة وعددها المهيمن يجعل من الصعب تحديد الL1s المعرب عنها بشكل أصلي من المتواليات ذات الصلة بالرقم L1 المعبر عنها كجزء من جينات أخرى. ومن الصعب أيضا تحديد الموضع L1 المحدد الذي يعبر عنه بسبب الطبيعة المتكررة للعناصر. التغلب علي هذه التحديات ، نقدم نهج المعلوماتية البيولوجية المتسلسلة لتحديد التعبير L1 عند مستوي معين. وباختصار ، ونحن نجمع الحمض الريبي الخلوي rna ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. نحن الاشراف بصريا كل موضع L1 مع يقرا المعينة بشكل فريد لتاكيد النسخ من المروج الخاصة بها وضبط النص المعين يقرا لحساب القدرة علي كل موضع L1 الفردية. تم تطبيق هذا النهج علي خط خليه ورم البروستاتا ، DU145 ، لإثبات قدره هذا البروتوكول للكشف عن التعبير من عدد صغير من العناصر L1 بالطول الكامل.

Introduction

ريتروترانسسونز هي عناصر الحمض النووي المتكررة التي يمكن "القفز" في الجينوم في اليه النسخ واللصق عبر وسيطه RNA. ومن المعروف مجموعه فرعيه واحده من الرجعية العناصر الطويلة تتخللها-1 (خطوط/L1s) ويشكل سدس الجينوم البشري مع أكثر من 500, 0000 نسخ1. علي الرغم من وفره, معظم هذه النسخ هي معيبه واقتطاعها مع ما يقدر فقط 80-120 العناصر L1 يعتقد ان تكون نشطه2. A L1 كامل طول حوالي 6 كيلو بايت في الطول مع 5 ' و 3 ' المناطق غير المترجمة, المروج الداخلية والمرتبطة المضادة للشعور المروج, اثنين غير متداخلة إطارات القراءة المفتوحة (orfs), واشاره والذيل polya3,4,5 . في البشر ، تتكون L1s من الأسر الفرعية التي تتميز بالعمر التطوري مع الأسر الأكبر سنا التي تراكمت طفرات تسلسل أكثر تفردا مع مرور الوقت مقارنه مع أصغر عائله فرعيه ، L1HS6،7. L1s هي الوحيدة المستقلة ، والرجعية البشرية و ORFs ترميز النسخ العكسي ، والكريات ، و RNPs مع الجيش النيبالي للربط والانشطه المرافقة المطلوبة لتغيير المسار وادراجها في الجينوم في عمليه المشار اليها باسم الهدف-تستعد عكس النسخ8،9،10،11،12.

وقد أفيد بان التبديل التحديثي لL1s يسبب امراض الإنسان الجرثومية البشرية من خلال مجموعه متنوعة من أليات بما في ذلك الطفرات الذهنية ، وحذف المواقع المستهدفة ، وأعاده الترتيب13و14و15و 16. في الاونه الاخيره تم الافتراض ان L1s قد تلعب دورا في اونكوجينيسيس و/أو تطور الورم كما لوحظ زيادة التعبير واحداث الادراج من هذا العنصر الطفرات في مجموعه متنوعة من السرطانات الظهاريه17,18 . ويقدر ان هناك واحده جديده L1 الادراج في كل 200 الولادات19. ولذلك ، فمن المحتم ان نفهم بشكل أفضل بيولوجيا التعبير عن L1s بنشاط. وقد جعلت الطبيعة المتكررة ووفره النسخ المعيبة الموجودة ضمن نصوص الجينات الأخرى هذا المستوي من التحليل تحديا.

لحسن الحظ ، مع ظهور تقنيات التسلسل الانتاجيه العالية ، تم اجراء خطوات واسعه لتحليل وتحديد التعبير الأصلي L1s علي مستوي محدد الموضع. هناك الفلسفات المختلفة حول كيفيه تحديد أفضل التعبير عن L1s باستخدام RNA الجيل التالي التسلسل. ولم يقترح سوي نهجين معقولين لرسم خرائط المحاضر الحرفية L1 علي المستوي الخاص بالمقر. واحده يركز فقط علي النسخ محتمله ان يقرا من خلال ال [1] [بولدتيلايشن] اشاره وداخل [فلكينغ] تسلسل20. نهجنا يستفيد من الاختلافات تسلسل الصغيرة بين العناصر L1 والخرائط فقط تلك التي الحمض الريبي النيبالي-Seq يقرا ان خريطة فريدة من نوعها لأحد الموضع21. كل من هذه الطرق لديها قيود من حيث كميات من مستويات النص. يمكن تحسين كميات من المحتمل من خلال أضافه تصحيح ل ' mappability فريدة ' من كل الموضع L121، أو استخدام خوارزميات أكثر تعقيدا ان أعاده توزيع القراءات متعددة الخرائط التي لا يمكن تعيينها بشكل فريد إلى موضع معين22. هنا ، سنقوم بالتفصيل في خطوه بخطوه طريقه استخراج RNA والجيل التالي من التسلسل وبروتوكول المعلوماتية الحيوية لتحديد العناصر التي تم التعبير عنها L1 علي مستوي محدد الموضع. نهجنا ياخذ الاستفادة القصوى من معرفتنا بيولوجيا العناصر الوظيفية L1. وهذا يشمل معرفه ان العناصر الوظيفية L1 يجب ان تتولد من المروج L1 ، التي بدات في بداية العنصر L1 ، يجب ان تترجم في السيتوبلاسما وان النسخ الخاصة بهم يجب ان تكون مشتركه الخطي مع الجينوم. لفتره وجيزة ، ونحن نجمع الطازجة ، الحمض الريبي الخلوي الجديد ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. يقرا هذا يحاذي بعد ذلك بعد بعد موسعه يدوية [كرايشن] ان يحدد ان نص يقرا ينشا من ال [L1] مروج قبل يعين موضع كاصليه عبر عن [L1]. نحن نطبق هذا النهج علي DU145 عينه خط خليه ورم البروستاتا لتوضيح كيف انه يحدد عدد قليل نسبيا من الأعضاء المستنسخين بنشاط من كتله النسخ غير النشطة.

Protocol

1. استخراج الحمض الريبي الخلوي السيتوبلازمي

  1. الحصول علي الخلايا عبر الطرق التالية.
    1. جمع الخلايا الحية من 2.75 ٪-100 ٪ متموج ، T-75 قوارير.
      1. غسل قارورة 2 مرات في 5 مل من تلفزيونيه الباردة ، وفي غسل الماضي كشط الخلايا ونقل إلى أنبوب مخروطي 15 مل. الطرد المركزي لمده 2 دقيقه في 1,000 x g و 4 درجه مئوية ، وأزاله بعناية وتجاهل ماده طافي (جدول المواد).
    2. جمع الخلايا من عينات الانسجه.
      1. اعداد الانسجه لاستخراج الحمض الخلوي الريبي سيتوبلازمي في غضون ساعة من تشريحها وتبقي دائما علي الجليد. للتخزين علي المدى الطويل ، استخدم محاليل مثبطات RNA لتخزين الانسجه لمده تصل إلى 72 ساعة بعد التشريح بعد البروتوكول الخاص بالشركة المصنعة (جدول المواد).
      2. الزهر 10 μm3 عينه وتجانس عينه جديده مع 5 مل من الباردة في الخالط المجانسة المعقمة ، نقل إلى أنبوب مخروطي 15 مل ، الطرد المركزي لمده 2 دقيقه في 1,000 x g في 4 درجه مئوية ، وأزاله بعناية وتجاهل ماده طافي (جدول المواد < /c8 >).
  2. أضافه 2 مل من تحلل العازلة إلى الخلوية بيليه-مزيج واحتضان علي الجليد لمده 5 دقائق.
    1. اعداد العازلة تحلل الطازجة مع 150 mM NaCl ، 50 mM HEPES (pH 7.4) ، و 25 ميكروغرام/مل ديجيتونين (جدول المواد).
    2. وبما ان الحد الأدنى لتركيز الديجيتونين في العازل التحلل المطلوب لاختراق غشاء البلازما قد يختلف حسب نوع الخلية ، مجهريا تاكيد ان الخلايا المعالجة بالتحلل العازلة تفقد غشاء البلازما وتحتفظ بالغشاء النووي السليم.
    3. فقط قبل الاستخدام ، أضافه 1,000 U/mL مثبط RNase (جدول المواد).
  3. الطرد المركزي لمده 1 دقيقه في 1,000 x g و 4 درجه مئوية ، وجمع supernatant.
  4. أضافه ماده طافي إلى ما قبل المبردة 7.5 ml من trizol و 1.5 مل من كلوروفورم. يجب القيام بجميع الخطوات التي تتطلب كلوروفورم داخل غطاء كيميائي نظيف (جدول المواد).
  5. الطرد المركزي لمده 35 دقيقه في 3,220 x g و 4 ° c.
  6. نقل الجزء المائي (الطبقة العليا) إلى أنبوب 15 مل الطازجة قبل المبردة.
  7. أضافه 4.5 مل من كلوروفورم ودوامه.
  8. الطرد المركزي لمده 10 دقيقه في 3,220 x g و 4 ° c.
  9. نقل الجزء المائي إلى أنبوب طازج قبل المبردة.
  10. أضافه 4.5 mL من الايزوبروبانول ، يهز جيدا ، واحتضان في-80 درجه مئوية بين عشيه وضحيها (جدول المواد).
  11. أجهزه الطرد المركزي في 3,220 x g و 4 درجه مئوية ل 45 دقيقه.
  12. أزاله الايزوبروبانول ، أضافه 15 مل من 100 ٪ الايثانول (جدول المواد).
  13. الطرد المركزي في 3,220 x g لمده 10 دقيقه.
  14. أزاله الايثانول ، واستنزاف وجافه لمده 1 ساعة تقريبا.
    1. استخدم مسحه قطنية معقمه لتلطيخ اي الايثانول المتبقي (جدول المواد).
  15. أعاده التعليق العينة في 100 إلى 200 μL من المياه الحرة RNase اعتمادا علي حجم بيليه (جدول المواد).
  16. عينات fractionate باستخدام تقنيه الكهربائي لتحديد الجودة وتركيز العينات وفقا لشركات التصنيع في الشاحنات23 (جدول المواد).
    1. عينات يتاهل ل [رنا-تلي] تحليل ان [رين] > 824.

2-تسلسل الجيل التالي

  1. إرسال عينات الحمض الخلوي الريبي سيتوبلازمي لتكون متسلسلة باستخدام الجيل التالي من منصة التسلسل تهدف إلى توليد ما لا يقل عن 50,000,000 المزدوجة نهاية 100 bp يقرا.
  2. حدد للحصول علي RNAs بولي-adenylated وتسلسل محدده حبلا.

3. إنشاء التعليقات التوضيحية (اختياري إذا كان أحد التعليقات التوضيحية موجودة)

  1. إنشاء التعليق التوضيحي L1 بالطول الكامل أو تنزيل التعليق التوضيحي L1 بالطول الكامل (ملف إضافي 1a-b).
    1. تحميل التعليقات التوضيحية تكرار Masker لعناصر الخط-1 من المتصفح الجينوم UCSC مع أداه متصفح الجدول (https://genome.ucsc.edu/cgi-bin/hgTables). حدد clade الثدييات ، الجينوم البشري ، التجميع hg19 (أو hg38 لجينوم أكثر تحديثا) ، وتصفيه "LINE1" تحت اسم الفئة. تنزيل كملف gtf وتسميته ك FL-L1-BLAST. gtf.
    2. تشغيل البحث المحلية انفجار من الأول 300 bp من L 1.3 كامل طول العنصر L1 تشمل المنطقة المروج في الجينوم البشري وأضافه 6,000 bp المصب لإنشاء نهاية الإحداثيات L1 إلى ملف التعليق التوضيحي. حفظ في ملف gtf والتسمية كما FL-L1-RM. gtf.
    3. يتقاطع مع التعليق التوضيحي التكراري والتعليق التوضيحي L1 المستند إلى المروج باستخدام أدوات السرير والتسمية ك FL-L1-BLAST_RM (حزم البرامج).
      1. استخدم هذا الأمر في المحطة الطرفية Linux: تتقاطع أدوات bedtools-gtf-b FL-L1-RM > FL-L1-BLAST_RM.
    4. افصل التعليق التوضيحي FL-L1 المتقاطع بواسطة الحبل العلوي والسفلي.
      1. انسخ عبر FL-L1-BLAST_RM إلى برنامج جداول البيانات وقم بالفرز بواسطة الحبل "ناقص" و "plus" ثم الفرز حسب موقع الكروموسوم.
      2. إنشاء وثيقتي جدول بيانات جديده ، واحده مع الإحداثيات المتقاطعة لطول كامل L1s علي حبل ناقص وواحد علي حبلا السفلي ، وحفظ ك FL-L1-BLAST_RM_minus و FL-L1-BLAST_RM_plus.
      3. احفظ المستندين الجديدين كملفات .txt.
    5. استخدم برنامج mac2unix لتحويل ملفات .txt إلى ملفات التعليقات التوضيحية الصحيحة (حزم البرامج).
      1. استخدم هذا الأمر في المحطة الطرفية: Mac2unix.sh FL-L1-BLAST_RM_minus.
      2. استخدم هذا الأمر في المحطة الطرفية: Mac2unix.sh FL-L1-BLAST_RM_plus.
      3. حفظ الملفات الجديدة باستخدام الملحق .gff.
    6. بدلا من ذلك ، استخدم AWK لتصفيه الصفوف المرتبطة ب + و-حبلا.
      1. استخدم الأمر التالي للحصول علي + حبلا: awk '/+/' FL-L1_BLAST_RM > FL-L1_BLAST_RM_plus. gtf.
      2. استخدم سطر الأوامر التالي للحصول علي-ستراند: awk '/-/' FL-L1_BLAST_RM > FL-L1_BLAST_RM_minus. gtf.

4. قراءه خط أنابيب المحاذاة لتحديد أعرب L1s

الخيار وصف
– ع هذا تفاصيل عدد مؤشرات الترابط التي يجب ان يستخدمها الكمبيوتر تشغيل المحاذاة. سوف ذاكره الكمبيوتر أكبر تسمح المزيد من المواضيع ويجب ان تكون تجريبية د.
– م 1 هذا يخبر البرنامج فقط بقبول القراءات التي لها تطابق واحد في الجينوم أفضل من اي تطابق جينوم آخر.
– y هذا هو مفتاح التبديل الذي يجعل البحث عن الخرائط لكافة التطابقات الممكنة وعدم السماح لها بالإنهاء بعد الوصول إلى عدد ثابت من التطابقات.
– v 3 يسمح هذا البرنامج فقط لاستخدام الذاكرة للقراءة المعينة مع 3 أو اقل من التباينات إلى الجينوم.
– X 600 يسمح هذا فقط بالقراءة المقترنة التي الخريطة ضمن 600 القواعد من بعضها البعض. وهذا يتاكد من ان الأزواج المقروءة مشتركه في الجينوم وتختار ضد الجزيئات التي تعالج جزيئات RNA المعالجة.
– chunkmbs 8184 يقوم هذا الأمر بتعيين ذاكره اضافيه لمعالجه الكمية الكبيرة من المحاذاات الممكنة لكل قراءه ذات صله ب L1.

الجدول 1: خيارات سطر الأوامر ل Bowtie.

  1. تشغيل محاذاة ملفات fastq التسلسل الاقتران مع عينه الحمض الريبي النيبالي-Seq من الفائدة باستخدام Bowtie.
    ملاحظه: يجب استخدام Bowtie1 وليس Bowtie2 لان المعلمات المطلوبة لمحاذاة فريدة يتم العثور عليها علي وجه التحديد فقط في هذا الإصدار من ربطه (حزم البرامج). استعملت [بووتي] علي [لصق-كنمنت مصفف] مثل نجم [أين وردر تو] قيمت [كنكننت], يقرا متجاورة أكثر مناسبه إلى [L1] علم الاحياء وتعبير.
    1. استخدم سطر الأوامر هذا في المحطة الطرفية لينكس: ربطه-p 10-م 1-S-y-v 3-X 600--chunkmbs 8184 hg_x_y_m_index-1 hg_sample_1-2 hg_sample_2 | سامادات عرض-hbus-| سامادو الفرز-hg_sample_sorted. انظر الجدول 1 للحصول علي وصف لخيارات سطر الأوامر ل bowtie.
  2. حبلا منفصلة الإخراج bam الملف باستخدام samtools (حزم البرامج) وأوامر لينكس التالية. لاحظ ان قيم العلامات الفعلية قد تختلف إذا كان أحد لا يستخدم بروتوكولات التسلسل الجيل التالي القياسية.
    1. استخدم سطر الأوامر هذا لتحديد لاعلي ستراند: samtools عرض-h hg_sample_sorted | awk ' substr ($ 0 ، 1 ، 1) = = "@" | | $2 = = 83 | | $2 = = 163 {print} ' | سامادو عرض-bS-> hg_sample_sorted_topstrand.
    2. استخدم سطر الأوامر هذا لتحديد لأسفل حبلا: samtools عرض-h hg_sample_sorted | awk ' substr ($ 0, 1, 1) = = "@" | | $2 = = 99 | | $2 = = 147 {طباعه} ' | samtools عرض-bS-> hg_sample_sorted_bottomstrand.
  3. إنشاء حسابات القراءة مقابل التعليقات التوضيحية ل L1 مكاني باستخدام أدوات السرير (حزم البرامج).
    1. استخدم سطر الأوامر هذا لإنشاء حسابات القراءة ل L1s في اتجاه الإحساس علي الخصلة العلوية: تغطيه أدوات السرير-abam FL-L1-BLAST_RM_plus-b hg_sample_sorted_topstrand > hg_sample_sorted_bowtie_tryhard_plus_top.
    2. استخدم سطر الأوامر هذا لإنشاء حسابات القراءة ل L1s في اتجاه الإحساس علي الحبل السفلي: تغطيه أدوات السرير-abam FL-L1-BLAST_RM_minus-b hg_sample_sorted_bottomstrand > hg_sample_sorted_bowtie_tryhard_minus_bottom.
  4. فهرسه ملف bam من الخطوة 5.1.1 لجعلها قابله للعرض في عارض الجينوم التكاملي (IGV)25 (حزم البرامج).
    1. استخدم سطر الأوامر هذا: الفهرس samtools hg_sample_sorted
  5. لاستخدام وضع الدفعي لزيادة عدد العينات المتسلسلة الحمض الريبي النيبالي المنقولة في وقت واحد ، استخدم برنامج نصي للكمبيوتر الفائق لإكمال الخطوة 4.1 يسمي human_bowtie ، تم إنشاء برنامج نصي لإكمال الخطوات 4.2-4.3 يسمي human_L1_pipeline ، وبرنامج نصي لإكمال تم إنشاء الخطوة 4.4 يسمي bam_index. يمكن العثور علي هذه البرامج النصية في الملف التكميلي 2 مع أوامر الكمبيوتر الفائق المقترنة لتشغيل البرامج النصية.

5. اليدوي الكرايشن

  1. إنشاء جدول بيانات للقراءة المعينة لكل موضع المشروح L1.
    1. نسخ فوق hg_sample_sorted_bowtie_tryhard_minus_bottom التي تم إنشاؤها في الخطوة 4.3.2 وصفحه التسمية ك "ناقص-أسفل".
      1. فرز كافة الاعمده استنادا إلى اعلي إلى اقل عدد من القراءات الموجودة في العمود J.
    2. نسخ فوق hg_sample_sorted_bowtie_tryhard_plus_top التي تم إنشاؤها في الخطوة والتسمية ك "اعلي-زائد" في جدول بيانات آخر.
      1. فرز كافة الاعمده استنادا إلى اعلي إلى اقل عدد من القراءات الموجودة في العمود J.
    3. إنشاء صفحه ثالثه تسمي باسم "مجتمعه" وأضافه كل مكاني مع عشره أو أكثر من القراءة من "ناقص-أسفل" و "زائد-اعلي" الصفحات.
      1. فرز كافة الاعمده استنادا إلى اعلي إلى اقل عدد من القراءات الموجودة في العمود J.
    4. تحميل الملفات التالية في IGV25 (حزم البرامج): 1) الجينوم المرجعي للاهتمام لتصور الجينات المشروحة ، 2) FL-L1-BLAST_RM لتصور التعليق التوضيحي L1 ، 3) hg_sample_sorted لتصور النصوص المعينة من عينه من الفائدة ، و 4) hg_genomicDNA_sorted لتقييم قابليه المناطق الجينية.
    5. أزاله التغطية وصفوف الوصلات المرتبطة بكل ملف bam.
    6. ضغط hg_sample_sorted و hg_genomicDNA_sorted لذلك جميع المسارات IGV تناسب علي شاشه واحده.
  2. الاشراف يدويا.
    1. باستخدام الإحداثيات من مكاني المدرجة في جدول البيانات "مجتمعه" الصفحة ، عرض يسمي مكاني في igv25 (حزمالبرمجيات).
    2. الاشراف علي المكان الذي يمكن التعبير عنه بشكل أصلي من تلقاء نفسه إذا لم تكن هناك قراءه المنبع في اتجاه L1 تصل إلى 5 كيلوبايت.
      1. تسميه الصف الأخضر في اللون ولاحظ لماذا هو التعبير عنها بشكل أصلي L1.
        ملاحظه: يوجد استثناء لهذه القاعدة إذا لم يتم قابل للتعيين المنطقة المنبع من L1. إذا كانت هذه هي الحالة ، تسميه الصف الأحمر في اللون ولاحظ انه لا يمكن تقييم تعبير المنطقة المنبع المروج L1 التالي التعبير L1's غير قادر علي تحديد بثقة.
    3. الاشراف علي مكان لعدم التعبير عنها أصلي من المروج الخاصة بها إذا كان هناك يقرا المنبع تصل إلى 5 كيلوبايت.
      1. تسميه الصف الأحمر في اللون ولاحظ لماذا لم يكن التعبير عنها أصلي L1.
      2. [الخوري] مكان كزائفه ان هو يكون عبر عن ضمن [اينترون] من مورثه يعبر في ال نفسه اتجاه مع يقرا منبع من ال [L1], ان هو يكون مصب من مورثه يعبر في ال نفسه اتجاه مع يقرا منبع من ال L1, أو ل [ان-بربررد] تعبير أنماط مع [ر] إعلانات المنبع من L1.
        ملاحظه: يتم تطبيق استثناء لهذه القاعدة عندما يكون هناك الحد الأدنى من القراءة مباشره تراكب المروج L1 بدء الموقع ، ولكن المنبع قليلا من L1. إذا لم تكن هناك قراءه أخرى المنبع من حاله L1 مثل هذا ، والنظر في هذا L1 ليتم التعبير عنها بشكل أصلي. تسميه الصف اللون الأخضر وملاحظه لماذا هو التعبير عنها أصلي L1.
    4. الاشراف علي الموضع L1 من المرجح ان تكون كاذبه إذا كان نمط القراءة المعينة إلى موضع لا ترتبط مع المناطق L1's محدده من mappability.
      ملاحظه: علي سبيل المثال ، إذا كان l1 قابل للتعيين للغاية ولكن لديه كومه من القراءات في منطقه مكثفه داخل l1 ، فمن المحتمل ان تكون مرتبطة بتعبير L1 من المروج الخاص به والأكثر احتمالا ان تكون من مصادر غير مشروحه مثل الاكسون أو ltrs. في مثل هذه الحالات ، والاشراف علي مكاني كما البرتقالي وملاحظه لماذا موضع مشبوهة. تحقق من مصادر الكومات المشبوهة عن طريق التحقق من الموقع L1 في متصفح الجينوم UCSC.
    5. الاشراف علي مكان لا يمكن التعبير عنه بشكل أصلي إذا كان ضمن بيئة جينيه من المناطق التي تم التعبير عنها بصوره متقطعه غير مشروحه
      ملاحظه: علي سبيل المثال ، قد يتم التعبير عن القراءات 10 كيلوبايت المنبع من L1 ولكن كل 10 كيلوبايت أو حتى هناك القراءة المعينة وبعض هذه القراءات محاذاة مع L1. وهذه الL1s اقل احتمالا للتعبير عن المروج الخاص بها ، ومن المرجح ان تكون قد حددت القراءات بسبب أنماط التعبير الجيني غير المشروحة. في مثل هذه الحالات ، والاشراف علي مكاني كما البرتقالي وملاحظه لماذا موضع مشبوهة.

6. قراءه استراتيجية المحاذاة لتقييم القدرة في الجينوم المرجعي (اختياري إذا كان أحد لديه مجموعه بيانات الحمض النووي الوراثية الانحياز القائمة)

  1. تحميل الجينوم الكامل ملفات تسلسل الحمض النووي وتحويل إلى ملفات .fq
    1. انتقل إلى موقع NCBI الموجود هنا: https://www.ncbi.nlm.nih.gov/sra
    2. اكتب في Wgs هيلا الاقتران النهاية.
    3. حدد للإنسان العاقل تحت النتائج من قبل [تاكسون].
    4. حدد نموذج الذي يقترن النهاية ويقرا مع 100 أو أكثر bp مثل النموذج التالي: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [accn]
    5. تاكيد طول القراءة عن طريق تحديد تشغيل ثم بيانات التعريف كما هو موضح هنا: https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=ERR492384
    6. لتحميل بيانات تسلسل الجينات الوراثية بأكملها ، ادخل هذا الأمر في المحطة الطرفية لينكس: سراتشولكيت. 2.9.2-mac64/بن/الإحضار المبدئي-X 100G ERR492384
      ملاحظه: وظيفة الإحضار المبدئي لمجموعه أدوات الاداات الخاصة بتنزيل رقم الانضمام "ERR492384" الموجودة في موقع NCBI (حزم البرامج). و "100G" حدود كميه البيانات التي تم تحميلها إلى 100 غيغابايت.
    7. ادخل هذا الأمر في المحطة الطرفية لينكس: fastq-تفريغ--تقسيم الملفات ERR492384
      ملاحظه: هذا يقسم مجموعه بيانات الحمض النووي الجينية التي تم تنزيلها إلى ملفين fastq.
  2. تشغيل المحاذاة باستخدام Bowtie.
    1. استخدام هذا الأمر في لينكس لمحاذاة: ربطه-p 10-م 1-S-y-v 3-X 600--chunkmbs 8184 hg_x_y_m_index-1 hg_genomicDNA_1-2 hg_genomicDNA_2 | سامادات عرض-hbus-| سامادو الفرز-hg_genomicdna_sorted.
      1. راجع الخطوة 4.1 لفهم المعلمات المستخدمة في محاذاة Bowtie (حزم البرامج).
      2. قم بتنزيل ملف bam المحاذي لجينوميكالي لتقييم قابليه الكتابة المتوفرة عند طلب المؤلف.
  3. فهرسه ملف bam من الخطوة 4-2-1 باستخدام samtools لجعلها قابله للعرض في IGV25 (حزم البرامج) لمزيد من المعلومات اليدوية الcuration.
    1. استخدام سطر الأوامر هذا في لينكس: samtools فهرس hg_genomicdna_sorted
  4. تقييم مدي قابليه كل منها لل L1
    1. تحديد عدد القراءات المعينة بشكل فريد إلى l1 مكاني باستخدام برنامج أدوات السرير ، والتعليق التوضيحي FL-L1 ، وبيانات التسلسل الجيني المحاذية (حزم البرامج).
      1. استخدم سطر الأوامر هذا في Linux: تغطيه أدوات السرير-abam FL-L1-BLAST_RM-gtf-ب hg_genomicdna_sorted ≫ L1_Mappability_hg_genomicDNA.
    2. تعيين موضع L1 ان يكون التغطية الكاملة mappability عند 400 القراءة فريدة من نوعها محاذاة اليه.
    3. تحديد العامل المطلوب لرفع مستوي أو أسفل الجينات الجينية محاذاة يقرا إلى 400 لكل L1 الفردية.
    4. ان يتلقى يقيس مقياس التعبير وفقا ل فرديه [1] موضع [مسبيليتي], يضاعف العامل يحدد في خطوه 6.4.3 إلى الرقم من [رنا] نص يقرا ان يحاذي إلى أصليه عبر عن L1s يحدد في أقسام [4-5].

Representative Results

تم تطبيق الخطوات الموضحة أعلاه والموصوفة بيانيا في الشكل 1 علي خط خليه ورم البروستاتا البشرية DU145. عينت ال [رنا] عينه كان [سيتوبلاسميكالي] وكان [أين-جن] متسلسلة في [بولي-ا] ينتقي, [ستراند-ول], يقترن-نهاية بروتوكول. وباستخدام Bowtie ، تمت محاذاة ملفات التسلسل المزدوج التي تسمح بالمطابقة الفريدة التي تتطابق فيها القراءة المزدوجة مع الموقع الجيني بالمقارنة مع اي موقع جيني آخر. تم محاذاة ملفات تسلسل DU145 إلى الجينوم المرجعي البشري إنشاء ملف bam ، الذي يتوفر عند طلب الكاتب. باستخدام أدوات السرير ، تم استخراج البيانات من ملفات bam المفصولة DU145 علي عدد القراءات التي تم تعيينها إلى الطول الكامل L1s. وتم فرز تلك القراءات في جدول بيانات من الأكبر إلى الأصغر وبتنسيق يدوي من خلال فحص البيئة الجينية حول كل موضع من المحور L1 في IGV لتاكيد صحتها (الجدول التكميلي 1). إذا تم تنسيق العينة ليتم التعبير عنها بشكل أصلي ، فقد تم تلوينها باللون الأخضر مع شرح لقبولها في العمود الأيمن. وترد في الشكل 2الف-باءأمثله علي المبادئ التوجيهية L1 التي قبلت ان يتم التعبير عنها بشكل أصلي بعد الإرشادات الموصوفة في قسم الأساليب. إذا تم رفض عينه ليتم التعبير عنها بشكل أصلي ، فانه تم تلوينها باللون الأحمر مع سبب الرفض علي اليمين معظم العمود. وترد بالتفصيل في الشكل 2جيم-هاء أمثله علي المواقع التي رفضتها المادة L1 بسبب التعبير عن مروج آخر غير المبادئ التوجيهية التالية الوارد وصفها في قسم الأساليب.

هنا ، تمت دراسة L1s كامله الطول فقط مع منطقه مروج سليمه. إذا لم يتم اجراء هذا التمييز ، يتم إدخال مصدر كبير من الضوضاء التي تنشا من الL1s المقتطعة. وترد أمثله لL1s المقتطعة في DU145 في الشكل 3الف-باء حيث تم تحديدها علي انها تتضمن القراءات المتسلسلة الخاصة ب RNA التي تم تعيينها بصوره فريدة. في IGV ، ومع ذلك ، فمن الواضح ان هذه النصوص لم تبدا من L1 المقتطعة ، ولكن من ادراج تسلسل L1 في الجينات أو المصب من الجينات المعرب عنها.

عموما في DU145 ، والنسبة المئوية لكامل طول l1 مكاني ويقرا التي تم رفضها كما أعرب أصلي L1s بعد الكرايشن اليدوي هو تقريبا 50 ٪ (الجدول التكميلي 2) مما يدل علي مستوي عال من النص الذي تم تعيينه l1 يقرا التي من شانها ان والا يتم تسجيلها علي انها إيجابيات كاذبه دون الcuration اليدوي. علي وجه التحديد ، في DU145 كانت هناك 114 إجمالي الطول الكامل لل L1 مكاني ان يكون المعين يقرا بشكل فريد في اتجاه الشعور مع ما مجموعه 3,152 يقرا ، ولكن كان هناك فقط 60 مكاني المحددة ليتم التعبير عنها من المروج الخاصة بهم بعد الكرايشن اليدوي مع 1,879 يقرا ( الجدول التكميلي 1). وهذا هو الحال حتى عندما اتخذت خطوات للحد من التعبير لا علاقة لها البيولوجيا L1 عن طريق اختيار mRNA سيتوبلازمي. لاحظ انه تم رفض الموضع مع اعلي مستوي من النصوص المعينة في DU145 لأنه لم يكن التعبير الأصلي L1 (الشكل 4). وبشكل عام ، فان عدد النصوص المعينة إلى نطاقات L1 المحددة يتراوح بين المقبولة والمرفوضة من النوع L1 علي النحو المعرب عنه بعد التجعيد اليدوي (الشكل 4).

بعد الcuration اليدوي ، وعدد من يقرا ان خريطة فريدة من نوعها بشكل أصلي وأعرب محدده L1 مكاني في DU145 نطاق من 175 يقرا إلى الحد الأدنى المختار تعسفا قطع من 10 يقرا (الشكل 5). هذا النهج لتحديد النص الذي تم تعيينه بشكل فريد يقرا إلى L1s يحد من القدرة علي قياس التعبير بدقه. لحساب هذا الأمر ، تم إنشاء عامل تصحيح لكل موضع استنادا إلى قابليه التشغيل الخاصة به. لإنشاء عامل التصحيح هذا ، تم استخدام أدوات السرير الاولي لاستخراج عدد القراءات المعينة بشكل فريد من ملف الجينوم الجيني في هيلا الذي تمت محاذاته لكل الطول الكامل ل L1 مكاني و بياني تلك مكاني من اعلي إلى ادني نص معين يقرا (تكميلي الشكل 1). عينت هو كان تعسفا ان L1s مع 400 يقرا تلقي يشبع تغطيه [اببيليتي]. تم تحجيم عدد القراءات القادرة علي الخريطة إلى موضع L1 في نموذج التسلسل الجيني هيلا بالنسبة إلى 400 قراءه وانه تم ضرب العدد الذي تم تحجيمه إلى عدد القراءات التي تم تعيينها إلى كل التعبيرات الاصليه l1 مكاني في DU145 (الجدول التكميلي 2) . وكما هو متوقع ، جاءت العناصر L1 التي كانت لها درجات تصحيح أكبر لقابليه النفاذ من الأسر الفرعية الأصغر سنا مثل L1PA2 (الجدول التكميلي 2). وبمجرد تعديل القراءات لدرجات القدرة علي التحمل في كل موضع ، زادت كميه التعبير بالنسبة لمعظم المواضع (الشكل 6). وتراوح عدد القراءات التي تم تعيينها بشكل فريد إلى التعبير الأصلي المحدد L1 مكاني مع تصحيحات mappability في DU145 من 612 إلى 4 يقرا وكان هناك أعاده ترتيب من اعلي إلى ادني التعبير عن مكاني (الشكل 6).

Figure 1
الشكل 1: تخطيط سير العمل.
وصفت بيانيا الخطوات ان يعين L1s يعبر في عينه انسانيه. لاحظ ان الخطوتين 1 و 2 لا تحتاج إلى تكرار إذا كانت الملفات المناسبة متوفرة بالفعل. قد يتم تحميل هذه الملفات المناسبة من ملف الملحق 1a-b وملحق ملف 2. تشير المربعات باللون الأحمر إلى الخطوات التي يستخدم فيها برنامج تغطيه أدوات السرير لحساب عدد القراءات التي يتم تعيينها إلى L1s في نفس اتجاه الإحساس. هذه مكاني مع رسم الخرائط المنحى المعني يقرا هي L1s التي ينبغي ان يتم تنسيقها يدويا. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

Figure 2
الشكل 2: أمثله من المواقع التي تم تنسيقها في DU145.
تحميلها في IGV هي الجينوم المرجعي ، ملف التعليق التوضيحي الكامل الطول L1 gff مطابقه الإصدار الجينوم المرجعي (ملف الملحق 1) ، وملف DU145 bam ، وأخيرا الجينوم هيلا بأم ملف لتقييم القدرة ، والتي هي كل ما هو متاح علي المؤلف طلب. وقد أضيفت أسهم للمساعدة في التصور من اتجاه L1 المشروح. وتوجه السهام ويقرا باللون الأحمر في تسلسل من اليمين إلى اليسار. وتوجه السهام ويقرا باللون الأزرق في تسلسل من اليسار إلى اليمين. ا) في igv ، يظهر هذا الموضع L1 ليتم التعبير عنه من المروج الخاصة به كما ان هناك لا يقرا المنبع من L1 في اتجاه الشعور لأكثر من 5 كيلوبايت. هذا L1 لديه قدره منخفضه ، فانه ليس في الجينات ، ولديه أدله علي النشاط المتوقع المروج انتيسنس26. ب) في igv ، يبدو هذا الموضع L1 ان يعبر عن المروج الخاصة به كما انه لا توجد قراءه المنبع l1 في اتجاه الشعور لأكثر من 5 كيلوبايت. هذا L1 لديه قدره منخفضه وهو داخل جين من الاتجاه المعاكس. ج) في igv ، تم رفض هذا الموضع l1 باعتباره l1 المعرب عنها كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 داخل مورثه من ال نفسه اتجاه لذلك النص يقرا يكون علي الأرجح أتيت من المروج من ال يعبر مورثه. d) في igv ، تم رفض هذا الموضع l1 كما المعلنة l1 كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 هو المصب من الجينات التي أعرب عنها بشده في نفس الاتجاه التالي فان النص يقرا هي علي الأرجح الناشئة من المروج لذلك الجين المعرب عنها وتمتد إلى ما بعد الجينات الطبيعية المنهي. ه) في igv ، تم رفض هذا الموضع l1 كما التعبير عن l1 كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 ليست داخل أو بالقرب من الجينات المشروحة في الجينات المرجعية التالي فان أصل هذه النصوص داخل والمنبع من عنصر L1 توحي الأمم المتحدة-المشروح المروج. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

Figure 3
الشكل 3: ينشا ضجيج الخلفية من L1s المقتطعة أيضا.
لا يتضمن التعليق التوضيحي L1 L1s المقتطعة لأنها مصدر رئيسي للضوضاء في الخلفية. وقد أضيفت أسهم للمساعدة في التصور من اتجاه L1 المشروح. وتوجه السهام ويقرا باللون الأزرق في تسلسل من اليسار إلى اليمين. ا) الموضح هو مثال علي L1 المقتطعة في L1MB5 sufamily الذي هو 2706 bps. في [ايغف] هو واضحة ان اليقرا يتكون من امتداد مجري النهر من مورثه يعبر. ب) المعروض هو مثال آخر علي L1 المقتطعة. هذا L1 هو L1PA11 الذي هو 4767 bps طويلة. في [ايغف] هو واضحة ان ال يقرا تعيين بشكل فريد إلى ال [L1] يتكون من ال عبر عن [اكسن], اي ال [L1] ضمنت. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

Figure 4
الشكل 4: يقرا النص تلك الخريطة بشكل فريد لكل الطول الكامل لL1s السليمة في الجينوم البشري المعرب عنه في DU145 خط خلايا أورام البروستاتا.
باللون الأسود هي المواقع المحددة التي يمكن التعرف عليها بشكل أصلي بعد التجعيد اليدوي اللون الأحمر هي المواقع المحددة التي سيتم رفضها كما تم التعبير عنها بشكل أصلي بعد القيام بعمليه التجعيد اليدوي. في الرمادي هي مكاني مع اقل من عشره يقرا تعيين لكل منهما. وحيث ان هذه المواقع تمثل جزءا صغيرا من النص يقرا ، لم يتم الاشراف عليها يدويا. علامات القراد x-محور دلاله علي كل 100 كامله الطول ، L1s سليمه. تقريبا 4,500 لا يتم عرضها بشكل رسومي كما كان لديهم صفر القراءة المعينة. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

Figure 5
الشكل 5: يقرا النص ان الخريطة فريدة من نوعها ليعبر عن كامل طول سليمه L1s في DU145 البروستاتا خط الخلية الورم.
تظهر أرقام النص يقرا تلك الخريطة إلى مكاني محدده في خلايا DU145 بعد التجعيد اليدوي. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

Figure 6
الشكل 6: يقرا الرسم البياني ليتم التعبير عنه بشكل أصلي عند تعديله بواسطة القابلية للتعديل.
تظهر أرقام القراءة النصية التي تم تعديلها بواسطة درجات mappability الخاصة بالمواقع المحددة التي تم تعيينها ليتم تنسيقها يدويا في L1 مكاني في خلايا DU145. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

الملف التكميلي 1: شروح لL1s البشرية الكاملة الطول والسليمة وفقا للتوجيه. (ا) FL-L1-BLAST_RM_minus. ب) FL-L1-BLAST_RM_plus. الرجاء الضغط هنا لتحميل هذا الملف.

الملف التكميلي 2: مخطوطات الحاسوب الفائق المستخدمة لاتمته خط أنابيب المعلوماتية الحيوية المفصل في القسم 4. الرجاء الضغط هنا لتحميل هذا الملف.

الشكل التكميلي 1: عينه الجينات الجينية المستخدمة لتحديد قابليه الاستخدام L1.
يظهر عدد من النصوص الجينية يقرا من نموذج خط الخلية هيلا ان الخريطة فريدة من نوعها لجميع 5,000 الطول الكامل L1 مكاني في الجينوم. تم تعيين ان L1 لديه التغطية الكاملة mappability عندما 400 يقرا الخريطة إلى L1. يرجى النقر هنا لتحميل هذا الرقم.

الجدول التكميلي 1: العملية اليدوية لL1s في DU145. يرجى النقر هنا لتحميل هذا الجدول.

الجدول 2 التكميلي: الL1s المنسق في DU145 مع تعديل قابليه الاستخدام. يرجى النقر هنا لتحميل هذا الجدول.

Discussion

وقد ثبت ان النشاط L1 يسبب الضرر الوراثي وعدم الاستقرار المساهمة في المرض27,28,29. من ال تقريبا 5,000 [فول-لنغث] [L1] نسخ, فقط [ا فو] اثنا عشر [رتنايشنريلي] شباب L1s حساب للاغلبيه من [ريتروريبل] نشاط2. ومع ذلك ، هناك أدله علي انه حتى بعض كبار السن ، ريتروترانسبوسيتيونالي-incompentent L1s لا تزال قادره علي إنتاج الحمض النووي الضار البروتينات30. لنقدر تماما دور L1s في عدم الاستقرار الجينوم والمرض ، يجب فهم التعبير L1 علي مستوي محدد الموضع. ومع ذلك ، فان الخلفية العالية للتسلسلات ذات الصلة بالمستوي L1 المدمجة في RNAs الأخرى غير المرتبطة بالتبديل العكسي لل l1 تشكل تحديا كبيرا في تفسير التعبير L1 الأصلي. تحدي آخر في تحديد التالي فهم أنماط التعبير من الفردية L1 مكاني يحدث بسبب طبيعتها المتكررة التي لا تسمح العديد من تسلسل قراءه قصيرة للخريطة إلى موضع فريد واحد. للتغلب علي هذه التحديات ، قمنا بتطوير النهج الموصوف أعلاه في تحديد التعبير عن الفردية L1 مكاني باستخدام البيانات المتسلسلة RNA.

نهجنا مرشحات المستوي العالي (أكثر من 99 ٪) من الضوضاء المتحولة المتولدة من متواليات L1 التي لا علاقة لها بالتبديل العكسي L1 عن طريق اتخاذ عدد من الخطوات. الخطوة الاولي تنطوي علي اعداد الحمض الخلوي الريبي السيتوبلازمي. عن طريق اختيار ل RNA سيتوبلازمي ، القراءات ذات الصلة L1 وجدت داخل التعبير عن mRNA في النواة والمنضب إلى حد كبير. في اعداد مكتبه التسلسل ، خطوه أخرى اتخذت للحد من الضوضاء التبادلية لا علاقة لها L1s تشمل اختيار النصوص polyadenylated. وهذا يزيل الضوضاء المرتبطة بالنص L1 الموجودة في الأنواع غير mRNA. وتشمل الخطوة الأخرى التسلسل الخاص بالحبل من أجل تحديد وأزاله النصوص ذات الصلة بالاستشعار من النوع L1. استخدام تعليق توضيحي لL1s كامل الطول مع مناطق المروج الوظيفية عند تحديد عدد النسخ المتسلسلة الحمض الريبي النيبالي التي الخريطة إلى L1s أيضا يلغي الضوضاء الخلفية التي تنشا خلاف ذلك من L1s المقتطعة. وأخيرا ، فان الخطوة الحاسمة الاخيره في القضاء علي الضوضاء العابرة لمتواليات L1 غير المرتبطة بالتبديل العكسي L1 هي التحويل اليدوي لL1s الكاملة الطول التي تم تحديدها لتعيين النسخ المتسلسلة لل RNA. وينطوي الاعتماد اليدوي علي تصور لكل موضع من المواقع التي تم التعرف عليها بطريقه المعلوماتية الاحيائيه في سياق بيئتها الجينية المحيطة بها لتاكيد ان التعبير ينبع من المروج L1. تم تطبيق هذا النهج علي DU145 ، وهو خط خليه ورم البروستاتا. وحتى مع جميع الخطوات المتعلقة بالاعداد المتخذة للحد من الضجيج في الخلفية ، تم رفض ما يقرب من 50 في المائة من النسبة المئوية لل L1 التي تم تحديدها بيولوجيا في DU145 باعتبارها ضوضاء خلفيه L1 منشؤها مصادر أخرى للتحويل (الشكل 4) ، التاكيد علي الصرامة المطلوبة لتحقيق نتائج موثوق بها. هذا النهج باستخدام التشغيل اليدوي هو العمل المكثف ، ولكن الضرورية في تطوير هذا الخط لتقييم وفهم البيئة الجينية المحيطة L1 كامل الطول. وتشمل الخطوات التالية الحد من كميه العمليات اليدوية اللازمة من خلال أتمته بعض قواعد الكرايشن ، علي الرغم من نظرا لطبيعة لا تزال غير معروفه تماما من التعبير الجينوم ، ومصادر الأمم المتحدة المشروحة للتعبير في الجينوم المرجعي ، ومناطق منخفضه mappability ، وحتى تعقيد العوامل التي تنطوي عليها مع بناء الجينوم المرجعي فانه لا يكون من الممكن أتمته L1 بالبالكامل في هذا الوقت.

التحدي الثاني في تحديد التعبير عن الفردية l1 مكاني مع التسلسل يتعلق برسم الخرائط من المستنسخات l1 المتكررة. في هذه الاستراتيجية المحاذاة ، فانه من المطلوب ان النص يجب ان تتوافق بشكل فريد والتعاون خطيا إلى الجينوم المرجعي من أجل ان يتم تعيينها. من خلال تحديد التسلسلات المقترنة التي يتم تعيينها بشكل متطابق ، فان مقدار النصوص التي يتم محاذاتها بصوره فريدة إلى L1 مكاني الموجود في الجينوم المرجعي يزيد. وتوفر هذه الاستراتيجية الفريدة لرسم الخرائط الثقة في استدعاء الخرائط المقروءة تحديدا إلى موضع واحد من النوع L1 ، علي الرغم من انه من المحتمل ان يقلل من تقدير كميه التعبير التي تم التعرف عليها بشكل أصلي ومعبر عنها ، والمكررة ، L1. إلى صحيحه تقريبا ل هذا بخس, طورت "[مسبيليتي]" درجه لكل [1] موضع يؤسس علي [مسبيليتي] ه كان وطبقت إلى الرقم من فريد يعين نص يقرا (شكل 6). ومن الجدير بالذكر انه من الناحية المثالية ، يجب ان يكون سجل القدرة علي التغطية الكاملة يقرا عبر L1 كامل الطول وفقا لعينه WGS المتطابقة. هنا ، ونحن نستخدم wgs من الخلايا هيلا لتحديد عشرات mappability من كل l1 مكاني من أجل تضخيم أو انكماش يقرا تعيين إلى l1 مكاني في DU145 خطوط الخلايا السرطانية البروستاتا. هذا الحساب mappability هو درجه تصحيح الخام ، ولكن تم تحديد المختارة ' التغطية الكاملة mappability ' من 400 يقرا مع الطبيعة الديناميكية لخطوط الخلايا السرطانية في الاعتبار. ويمكن ملاحظه ذلك في الشكل التكميلي 1، ان هناك عدد قليل من المواقع L1 مع Wgs هيلا مع ارتفاع كبير للغاية من القراءات المعينة. هذه من المرجح ان تاتي من متواليات الكروموسومات المكررة داخل هيلا التي ليست ضمن الجينوم المرجعي ، وهذا هو السبب في تلك المواقع لم يتم اختيارها لتكون ممثله للتغطية كامله القدرة. بدلا من ذلك حددت هو كان ان المعدل من 100% يقرا تغطيه يحدث حول 400 يقرا وفقا ل اضافيه شكل 1 وكان بعد ذلك افترضت ان هذا معدل يطبق إلى ال DU145 ورم بروستاتا خليه خط أيضا.

هذه الاستراتيجية المحاذاة مع 100-200 bp يقرا من تكنولوجيا RNA-Seq أيضا يختار بشكل تفضيلي لL1s القديمة التطورية داخل الجينوم المرجعي كما تراكمت L1s القديمة علي مر الزمن طفرات فريدة من نوعها التي تجعلها أكثر قابل للتعيين. هذا النهج ، التالي ، لديه حساسية محدوده عندما يتعلق الأمر بتحديد أصغر من L1s ، فضلا عن عدم المرجعية ، L1s متعدد الوجوه. لتحديد أصغر من L1s ، نقترح استخدام 5 ' سباق الاختيار من النصوص L1 والتكنولوجيا التسلسل مثل PacBio التي تجعل استخدام أطول يقرا21. هذا يسمح رسم خرائط أكثر فريدة من نوعها ، التالي التعرف علي ثقة من L1s الشباب المعرب عنها. استخدام الحمض الريبي النيبالي-Seq ونهج PacBio معا يمكن ان يؤدي إلى قائمه أكثر شمولا من التعبير عنها بشكل أصلي L1s. ولتحديد الL1s متعددة الوجوه المعرب عنها أصليا ، تشمل الخطوات التالية الاولي بناء وادراج متواليات متعددة الوجوه في الجينوم المرجعي.

التحديات البيولوجية والتقنية في دراسة تكرار متواليات كبيره ، علي الرغم من الإجراءات الصارمة المذكورة أعلاه لأزاله الضوضاء التبادلية من تسلسل L1 الأمم المتحدة المتعلقة باعاده التحديث باستخدام تكنولوجيا التسلسل RNA ، نبدا في التدقيق من خلال المستويات الكبيرة للضوضاء الخلفية المتحولة والتعرف بثقة وصرامة علي أنماط التعبير L1 وكميتها علي مستوي الموضع الفردي.

Disclosures

وليس لدي المؤلفين ما يفصحون عنه.

Acknowledgments

نود ان نشكر الدكتور يان دونغ لخلايا أورام البروستاتا DU145. نود ان نشكر الدكتور ناثان Ungerleider لتوجيهاته والمشورة في إنشاء مخطوطات الكمبيوتر الفائق. تم تمويل بعض من هذا العمل من قبل المعاهد القومية للصحة المنح R01 GM121812 إلى PD ، R01 AG057597 إلى VPB ، و 5TL1TR001418 إلى المعارف التقليدية. ونود أيضا ان نعترف بالدعم من الصليبيين السرطان ومركز Tulane للسرطان المعلوماتية الحيوية الاساسيه.

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100, (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254, (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10, (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21, (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8, (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17, (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106, (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21, (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87, (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254, (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72, (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113, (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28, (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33, (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345, (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25, (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45, (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31, (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21, (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1, (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141, (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26, (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42, (16), 10488-10502 (2014).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics