Burada, hat-1 ifadesini Locus özel seviyesinde belirlemek için Biyoinformatik bir yaklaşım ve analizler sunuyoruz.
Uzun INterspersed Elements-1 (LINEs/L1s), genomik istikrarsızlık ve Mutagenezi ortaya çıkan genomu kopyalayabilir ve rasgele ekleyebilen tekrarlayan öğelerdir. Tek seviyede L1 loci ‘nin ifade desenlerini anlamak, bu mutajitik elemanın biyoloji anlayışına borç verecektir. Bu otonom eleman, 500.000 ‘ den fazla kopya ile insan genomunun önemli bir kısmını oluşturur, ancak 99% kesilmiş ve arızalı. Ancak, onların bolluk ve kusurlu kopya baskın sayısı diğer genlerin bir parçası olarak ifade L1 ile ilgili dizileri otantik ifade L1s tanımlamak için zor hale. Ayrıca hangi belirli L1 Locus elementlerin tekrarlayan doğası nedeniyle ifade edilir belirlemek için zordur. Bu zorlukların üstesinden gelmek, bir RNA-Seq Biyoinformatik yaklaşımı, Locus belirli düzeyde L1 ifadesini belirlemek için sunuyoruz. Özetle, sitoplazmik RNA topluyoruz, poliadenile transkriptler için seçiyoruz ve insan referansı genomunda okumaları L1 loci ‘ye benzersiz bir şekilde eşlemek için ipliklere özgü RNA-Seq analizlerini kullanıyoruz. Biz görsel olarak her L1 Locus benzersiz eşlemeli ile kendi Organizatör transkripsiyon onaylamak ve eşleştirilen transkript her tek L1 Locus mappability için hesaba okur ayarlamak için okur kürate. Bu yaklaşım, DU145, bu protokol tam uzunlukta L1 elemanlarının az sayıda ifade algılamak için yeteneğini göstermek için bir prostat tümör hücre hattı uygulandı.
Retrotransposons RNA ara yoluyla bir kopya ve yapıştırma mekanizmasında genomda “atlamak” olabilir tekrarlayan DNA unsurlarıdır. Retrotranspozonları bir alt kümesi uzun interspersed Elements-1 (LINEs/L1s) olarak bilinir ve 500, 0000 kopya1ile insan genomu altıncı yapar. Onların bolluk rağmen, bu kopyaları çoğu arızalı ve yalnızca tahmini 80-120 L1 elemanları aktif2olduğu düşünülmektedir ile kesilir. Tam uzunluklu L1, 5 ‘ ve 3 ‘ tercüme edilmemiş bölgeler, dahili bir organizatör ve ilişkili Anti-Sense promotör, iki adet örtüşmeyen açık okuma çerçevesi (ORFS) ve bir sinyal ve Polya kuyruğu3,4,5 ile yaklaşık 6 KB uzunluğunda . İnsanlarda, L1s en genç alt ailesine kıyasla zaman içinde daha fazla benzersiz sıra mutasyonları birikmiş olan eski aileleri ile evrimsel yaş ayırt alt ailelerden oluşur, L1HS. L1s tek otonom, insan retrotranspozonları ve onların ORFS bir ters transcriptase kodlamak, endonuclease, ve RNA-bağlayıcı ve refakatçi faaliyetleri ile rnps retrotranspoze ve bir süreçte genom eklemek için gerekli hedef-astar olarak adlandırılır Ters transkripsiyon8,9,10,11,12.
L1s retrotranspozit, İnsersiyonel mutagenesis, hedef site silmeleri ve yeniden düzenlemeler13,14,15, dahil olmak üzere çeşitli mekanizmalar ile insan germline hastalıklarına neden olduğu bildirilmiştir 16. son zamanlarda, bu mutajisik elemanın çeşitli epitelyal kanserlerde gözlenen artan ifade ve ekleme olayları olarak L1s onserit ve/veya tümör ilerlemesinde bir rol oynayabilirler hipotez olmuştur17,18 . Her 200 Doğum19yeni bir L1 ekleme olduğunu tahmin edilmektedir. Bu nedenle, daha iyi aktif L1s ifade biyoloji anlamak zorunludur. Tekrarlayan doğası ve diğer genlerin transkriptler içinde bulunan kusurlu kopyaları bolluk bu düzeyde analiz zorlu yaptık.
Neyse ki, yüksek verimlilik sıralama teknolojileri gelişiyle, adımlar ayrıştırmak ve otantik L1s Locus özel düzeyde ifade tanımlamak için yapılmıştır. RNA ‘nın yeni nesil sıralamayı kullanarak L1s ifade etme konusunda farklı felsefeler vardır. L1 transkriptleri Locus ‘a özgü düzeyde eşlemek için önerilen sadece iki makul yaklaşım olmuştur. Biri sadece L1 polimadenilasyon sinyali ve20‘ li sıralar arasında okuyan potansiyel transkripsiyon üzerinde duruluyor. Yaklaşımımız L1 elemanları arasındaki küçük sıralı farklılıklardan yararlanır ve sadece bu RNA-Seq ‘ d e k i benzersiz bir Locus21ile eşleştirir. Bu yöntemlerin her ikisi de transkript düzeylerinin kantitasyon açısından sınırlamalar vardır. Quantitation, her L1 Locus21‘ in ‘ benzersiz mappability ‘ için bir düzeltme ekleyerek veya belirli bir Locus22‘ ye benzersiz olarak eşlenmemiş çok eşlemeli okuma yeniden dağıtmak daha karmaşık algoritmalar kullanarak potansiyel olarak iyileştirilebilir. Burada, RNA ekstraksiyonu ve yeni nesil sıralamaya ve Biyoinformatik protokolünde, yer alan L1 unsurlarını Locus ‘a özgü seviyede tanımlamak için adım-adım bir şekilde ayrıntı verecektir. Yaklaşımımız, fonksiyonel L1 elemanlarının biyolojisi hakkındaki bilgimizin maksimal avantajı alır. Bu, L1 elemanının başlangıcında başlatılan L1 düzenleyicinden fonksiyonel L1 unsurlarının oluşturulması gerektiğini bilerek, sitoplazmada tercüme edilmelidir ve transkriptlerinin genom ile birlikte doğrusal olması gerektiğini de içerir. Kısaca, biz taze, sitoplazmik RNA toplamak, poliadenile transkriptler için seçin, ve insan referans genom içinde L1 loci benzersiz harita okumak için Strand özgü RNA-Seq analizleri kullanın. Bu hizalanmış okur sonra yine de transkript okur L1 organizatör bir otantik ifade L1 olarak bir Locus belirlemeden önce kaynaklanan olup olmadığını belirlemek için geniş manuel kürasyon gerektirir. Biz DU145 prostat tümör hücre hattı örneği üzerinde bu yaklaşımı uygulamak nasıl nispeten az aktif nüshaların kütlesinden L1 üyeleri tespit göstermek için.
L1 aktivitesi, hastalığın27,28,29‘ a katkı sağlayan genetik hasarlara ve istikrarsızlığa neden olduğu gösterilmiştir. Yaklaşık 5.000 tam uzunlukta L1 kopyaları, sadece birkaç düzine evrimsel genç L1s hesap retrotranspozis etkinliği çoğunluğu için2. Ancak, hatta bazı eski, retrotranspositi,-incompentent L1s hala DNA zarar proteinleri30üretmek mümkün olduğunu kanıtlar vardır. L1s ‘nin genomik istikrarsızlık ve hastalıkta rolünü tam anlamıyla takdir etmek için, Locus özel seviyesinde L1 ifadesi anlaşılmalıdır. Ancak, L1 retrotranspoziteye ilgisiz diğer RNAs ‘a dahil L1 ile ilgili sıraların yüksek arka planı, otantik L1 ifadesinin yorumlanması konusunda önemli bir zorluk oluşturmaktadır. Tanımlamak ve bu nedenle bireysel L1 loci ifade desenleri anlamak başka bir zorluk birçok kısa okuma dizileri tek bir benzersiz Locus eşlemek için izin vermez tekrarlayan doğası nedeniyle oluşur. Bu zorlukların üstesinden gelmek için, RNA-Seq verilerini kullanarak bireysel L1 loci ifadesini tanımlayarak yukarıda açıklanan yaklaşımı geliştirdik.
Yaklaşımımız yüksek seviyede filtreler (% 99 üzerinde) bir dizi adım alarak L1 retrotranspozitiyle ilgisiz L1 dizilerinden oluşturulan transkripsiyonel gürültü. İlk adım sitoplazmik RNA ‘nın hazırlanması içerir. Sitoplazmik RNA için seçerek, çekirdeğin içinde ifade edilen intronik mRNA içinde bulunan L1 ile ilgili okuma önemli ölçüde tükenmiş. Sıralama Kütüphanesi hazırlık, başka bir adım L1s ilgisiz transkripsiyonel gürültü azaltmak için poliadenile transkripsiyon seçimi içerir. Bu, mRNA olmayan türlerde bulunan L1 ile ilgili transkript gürültüsünü giderir. Başka bir adım, antisens L1 ile ilgili transkriptleri belirlemek ve ortadan kaldırmak için Strand özgü sıralamayı içerir. L1s ile eşleştiren RNA-Seq transkriptlerinin sayısını tanımlayırken işlevsel Organizatör bölgeleri ile tam uzunlukta L1s için ek açıklama kullanımı, aksi takdirde kesilmiş L1s kaynaklanan arka plan gürültüsünü de ortadan kaldırır. Son olarak, L1 retrotranspozitasyonu ile ilgisiz L1 sıralarının transkripsiyonel gürültüsünü ortadan kaldırmanın son kritik adımı, tam uzunlukta L1s ‘ nin RNA-Seq transkriptlerinin eşlemeli olduğu tespit edilen manuel kürasyon. Manuel küratörlüğü her Biyoinformatik tanımlanan-to-to-ifade L1 Locus onun çevreleyen genomik çevre bağlamında bu ifadenin L1 Promoter kaynaklanan onaylamak için görselleştirme içerir. Bu yaklaşım DU145, prostat tümör hücresi hattı uygulandı. Arka plan gürültüsünü azaltmak için yapılan tüm preparatlarla ilgili adımlarda bile, DU145 ‘de Biyoinformatik olarak tanımlanan L1 loci ‘nin yaklaşık% 50 ‘ si, diğer transkripsiyon kaynaklarından kaynaklanan L1 arka plan gürültüsü olarak reddedildi (Şekil 4), güvenilir sonuçlar üretmek için gereken zorluklarla vurgulayarak. Bu yaklaşım el Kürasyonu kullanarak emek yoğundur, ancak bu boru hattının geliştirilmesinde gerekli olan, tam uzunlukta L1 ‘i çevreleyen genomik ortamı değerlendirmek ve anlamak. Sonraki adımlar, kürasyon kurallarının bazılarını otomatikleştirerek gerekli manuel kürasyon miktarını azaltarak, yine de tamamen bilinen genomik ifadenin doğası nedeniyle, referans genomu ifadesinde un-açıklamalı kaynaklar, düşük bölgeler mappability ve hatta bir referans genomunun inşası ile ilgili faktörleri karmaşık hale getirmek, şu anda L1 kürasyonunu tamamen otomatikleştirmek mümkün değildir.
Sıralama ile bireysel L1 loci ifadesinin belirlenmesi ikinci zorluk tekrarlayan L1 transkriptleri haritalama ile ilgilidir. Bu hizalama stratejisinde, bir transkript eşleştirilmek üzere referans genomuna benzersiz ve eşdoğrusal olarak hizalanması gerekir. Uyumlu olarak eşleştirilen eşleştirilmiş uç sıraları seçerek, referans genomunda bulunan L1 loci ‘ye benzersiz olarak hizalanan transkriptler miktarı artar. Bu benzersiz eşleme stratejisi özellikle tek bir L1 Locus için okuma eşleme çağrılması güven sağlar, potansiyel olarak her tanımlanan-to-olmak-otantik ifade, tekrarlayan L1 ifade miktarını hafife. Bu alt tahmin için yaklaşık olarak doğru, onun mappability dayalı her L1 Locus için bir “mappability” puanı geliştirilmiştir ve benzersiz eşlemeli transkripti okuma sayısına uygulanan (Şekil 6). Bu ideal, mappability tam kapsama tam uzunlukta L1 arasında eşleşen WGS örnek göre okur için puan olmalıdır Not edilir. Burada, biz DU145 prostat tümörü hücre hatları L1 loci için haritalama okur şişirmek veya deflate her L1 loci mappability puanları belirlemek için HeLa hücrelerinin WGS kullanın. Bu mappability hesaplama ham düzeltme puanı, ancak 400 okuma seçilen ‘ komple kapsama mappability ‘ akılda tümör hücre hatları dinamik doğası ile belirlendi. Ek Şekil 1‘ de görülebilir, birkaç L1 loci ile hela WGS ile son derece yüksek sayıda eşlenen okur. Bu büyük olasılıkla HeLa içinde yinelenen kromozom dizileri gelen referans genom içinde değil, bu yüzden bu loci tam mappability kapsama temsilcisi olarak seçildi değildi gelir. Bunun yerine% 100 ortalama% okuma kapsamı yaklaşık 400 ek Şekil 1 göre okur ve daha sonra bu ortalama DU145 tümör prostat hücre hattı için de geçerli olduğu varsayılır görülmektedir belirlendi.
RNA-Seq teknolojisinden 100-200 BP okur bu hizalama stratejisi de tercihen daha büyük L1s zaman benzersiz mutasyonlar onları daha eşlenebilir hale biriken olarak referans genom içinde evrimsel olarak eski L1s için seçer. Bu yaklaşım, bu nedenle, L1s en genç yanı sıra referans olmayan, polimorfik L1s tanımlamak için geldiğinde hassasiyet sınırlıdır. L1s en genç tanımlamak için, biz kullanarak öneririz 5 ‘ L1 transkriptler YARıŞ seçimi ve PacBio gibi sıralama teknolojisi daha uzun kullanım yapmak21okur. Bu daha benzersiz haritalama ve bu nedenle ifade, Genç L1s emin kimlik izin verir. RNA-Seq ve PacBio yaklaşımlarının birlikte kullanılması, özgün olarak ifade edilen L1s daha kapsamlı bir listeye yol açabilir. Otantik olarak ifade edilen polimorfik L1s tanımlamak için, ilk sonraki adımlar, referans genomuna polimorfik diziler oluşturma ve ekleme içerir.
Tekrar dizileri okuyan biyolojik ve teknik zorluklar büyük, ancak yukarıdaki titiz prosedür ile L1 dizileri transkripsiyonel gürültüyü kaldırmak için RNA-sıralama teknolojisini kullanarak retrotransposition ile ilgili, biz üzerinden elemek için başlar büyük düzeyde transkripsiyon arka plan gürültüsü ve güvenle ve sıkı bir şekilde L1 ifade desenleri ve miktarı bireysel Locus düzeyinde tanımlamak için varlık.
The authors have nothing to disclose.
DU145 prostat tümörü hücreleri için Dr. yan Dong ‘a teşekkür etmek istiyoruz. Dr. Nathan Ungerleider ‘e süper bilgisayar senaryoları yaratmada rehberlik ve tavsiyeler için teşekkür etmek istiyoruz. Bu çalışmanın bazıları NıH hibe R01 GM121812 tarafından PD, R01 AG057597 VPB ve 5TL1TR001418 TK tarafından finanse edildi. Biz de kanser Haçlılar ve Tulane Kanser Merkezi Biyoinformatik Core destek kabul etmek istiyorum.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |