Biology

SPLINTER kullanarak Pooled Sıralama gelen Nadir Genomik Variantların Algılama

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

Pooled DNA dizi büyük kohortlarında karmaşık fenotipleri ile ilişkili nadir türevlerini algılamak için hızlı ve maliyet-etkin bir stratejidir. Burada SPLINTER'da yazılım paketi kullanarak 32 kanser ilişkili genlerin havuzlu, yeni nesil dizileme sayısal analiz açıklanmaktadır. Bu yöntem, ölçeklenebilir ve menfaat fenotipi için geçerlidir.

Abstract

DNA dizi analizi teknolojisi belirgin son yıllarda ² ileri olduğu gibi, herhangi bir iki kişi arasındaki genetik varyasyonun miktarını daha önce ³ düşündüklerinden daha fazla olduğu giderek daha belirgin hale gelmiştir. Buna karşılık, dizi tabanlı genotipleme ^4,5 yaygın hastalığın fenotipik değişkenlik ortak dizisi çeşitlerinin önemli bir katkı tanımlamak için başarısız oldu. Birlikte ele alındığında, bu gözlemler Ortak Hastalık / ortak ve karmaşık fenotipleri "kayıp kalıtım" ın yerine çoğunluk nadir ve özel DNA varyantlarının ^6-8 bireyin kişisel tercihe bağlı olduğunu düşündüren Rare Variant hipotez evrim yol açmıştır . Ancak, nadir değişimi karmaşık fenotipleri nasıl etkilediğini karakterize birçok genomik lokuslar çok etkilenen bireylerin analiz gerektirir ve ideal bir etkilenmemiş kohortta benzer bir anketle karşılaştırıldığında. Bugünün platformlar, bir tarafından sunulan güç sıralaması rağmenbirçok genomik lokusları ve gerekli sonraki sayısal analiz nüfus tabanlı anket birçok araştırmacı için engelleyici kalır.

Bu gereksinimi karşılamak için, biz bir birleştirilmiş sıralama yaklaşımı ^1,9 ve elde edilen veriler son derece doğru nadir değişken tespiti için yeni bir yazılım paketi ¹ geliştirdik. Etkilenen bireylerin ve anket tek bir sıralama kütüphanede birden fazla hedef bölgelerde genetik varyasyonun derecesi, tüm nüfusun Havuzu genom yeteneği geleneksel tek-örnek sıralama metodolojisi mükemmel bir maliyet ve zaman tasarrufu sağlar. 25 kat allel başına ortalama sıralama kapsama ile, bizim özel algoritması, SPLINTER, 1 kadar havuzları yüksek duyarlılık ve özgüllük uzunluğunda dört baz çiftlerine eklemeler, silmeler ve oyuncu çağırmak için bir iç varyant arayarak kontrol stratejisi kullanıyor 500 bireylerde mutant allel. Burada toplanmış s hazırlanması için bir yöntem tarifkütüphane equencing havuzlanmış dizi analizi (SPLINTER'da paketini nasıl kullanılacağı hakkında adım adım talimatları takip http://www.ibridgenetwork.org/wustl/splinter ). Biz 947 birey toplanmış dizi arasında bir karşılaştırma gösteriyor, bunların hepsi de kişi başına sıralama ile 20kb üzerinde de, genom dizisi yapıldı. Etiketlediniz genotipleme ve havuza örnek olarak adlandırılan yeni varyantları arasındaki uyum mükemmeldi. Bu yöntem kolay genomik lokus ve bireylerin herhangi bir sayı herhangi bir sayı kadar ölçeklendirilebilir. Çalışma kapsamında nüfus taklit oranlarda iç pozitif ve negatif amplikon kontrolleri birleşmeyle, algoritmanın optimum performans için kalibre edilebilir. Bu strateji, aynı zamanda hibridizasyon yakalama ya da tek tek spesifik barkodlar ile kullanılmak üzere modifiye edilebilir ve bu tür tümörün DNA gibi doğal olarak heterojen örnekleri, bir sekanslama için uygulanabilir.

Protocol

Bu yöntem, Vallania FML ve ark. Genome Research 2010 bildirilmiştir araştırma kullanılmıştır.

1. Örnek Pooling ve Hedefli Genomik Loci PCR Yakalama

Havuz (ler) her genomik DNA normalleştirilmiş bir miktar birleştirin. PCR kişi başına DNA 0.3 ng kullanma havuzunda alel başına üniforma amplifikasyon olasılığını artıran her PCR reaksiyonu, içine kişi başına yaklaşık 50 diploid genom dahil edecektir.
Genomik dizileri NCBI (elde edilebilir http://www.ncbi.nlm.nih.gov/ ) veya UCSC Genom Tarayıcı ( http://genome.ucsc.edu/index.html ). kullandığınızdan emin olun tekrarlayan bir bölgede bir astar tasarımı önlemek için sıra almak "RepeatMasker" ("N" ile işaretlenir).
Web tabanlı Primer3 (kullanınrimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) programı faiz artı bazı komşu dizilerinin genomik bölgeleri kesip yapıştırma astar tasarımı (ve amplikonlar 600-2000 bp) tipik olarak idealdir kullanılmak üzere Primer 3 için en uygun astar tasarım koşulları ¹⁰ şunlardır: En az astar size = 19; Optimum astar size = 25; Maksimum astar size = 30; Asgari Tm = 64 ° C; Optimum Tm. = 70 ° C; Maksimum Tm = 74 ° C Maksimum Tm farkı = 5 ° C; Asgari GC içeriği = 45; Maksimum GC içeriği = 80; (bu isteğe bağlıdır) = 20 dönmek için sayısı; Maksimum 3 'ucuna istikrar = 100 ilgi bütün genomik lokuslarının yükseltmek için. Design primerler. primerler aldıktan sonra, liyofilize stokları GKD ek bir 10:01 seyreltme takiben 100 uM son konsantrasyon ila 10 mM Tris, pH 7.5 + 0.1 mM EDTA içinde seyreltilmiş edilebilir ₂ O ile 10 uM.
PCR: Biz büyük genomik yükseltmek için yüksek kalitede DNA polimeraz kullanılması tavsiyedüşük hata oranı (10 ^-7) ve kör uçlu ürünleri (bu alt-ligasyon adımı için gerekli olan) üretimi nedeniyle amplikonlar. Biz PfuUltra Yüksek Sadakat kullanmış, ancak benzer özellikler (örneğin Phusion gibi) enzimleri karşılaştırılabilir sonuçlar vermesi gerekir. Her bir PCR reaksiyonu 2.5 U PfuUltra High Fidelity-polimeraz bir son konsantrasyon içerir, 1 M betain, her bir astar 400 nM, 200 uM dNTPs, tampon 1x PfuUltra ⁽⁺ veya enzimatik aslına korumak için ≥ 2 mM Mg ² ihtiva eden bir tampon) , 50 ul'lik bir son hacim içinde toplanmış DNA 5-50 ng. 1: aşağıdaki koşullarda PCR kullanılır. 93-95 ° C de 2 dakika; 2. 30 saniye boyunca 93-95 ° C; 3. 30 saniye boyunca 58-60 ° C; 4. 65-70 ° amplikonlar 500-1000 bp / amplikonlar> 1 kb için 3-5 dakika 250-500 bp / 1,5-3 dakika amplikonlar için 60-90 saniye için C; 5. Tekrar 25-40 devir için 2-4 adımları; 6. 65 ° C'de 10 dakika süreyle; 7. 4 ° C tutun. Gerekirse, PCR sonuçları genellikle ıslah edilebilir: 1)2) büyük amplikonlar için tavlama sıcaklığının yükseltilmesi;; küçük amplikonlar için tavlama sıcaklığının düşürülmesi 3. Herhangi bir amplikon için uzatma süresi uzatma.
SPLINTER kontrolleri Hazırlanması: Her SPLINTER'da deney negatif ve pozitif kontrol varlığını en iyi kesinlik elde etmek gerektirir. A negatif kontrol, daha önce (bir HapMap örnek gibi) sıralı olan herhangi bir birey, bar kodlu örnekteki tüm homozigot baz pozisyonlar oluşabilir. Pozitif kontrol daha sonra, iki ya da daha fazla örneğin örnekleri arasında bir karışımı oluşacaktır. Bu rapor için, negatif kontrol M13mp18 ssDNA vektör belkemiğini bir 1,934 bp amplifiye bölgedir. PCR ürünü hiçbir dizisi varyasyon kaynak malzeme veya PCR ile var olduğunu teyit etmek için önce kullanımına Sanger sıralı idi. Pozitif kontrol özel eklemeler, silmeler substit ile tasarlanmış eklemek klonlanmış bir 72 bp ile pGEM-T Kolay vektörlerin bir panel oluşurutions (Tablo 1). Biz mol oranlarında bir vahşi tip bir arka plana karşı birlikte vektörler karıştırın mutasyonlar havuzda tek bir alleli (yani 100-alleli havuzu için, tek bir allel sıklığı% 1 olacaktır) frekansta mevcut böyle. Daha sonra PCR, pGEM-T Easy M13 PUC astar sitelerini kullanarak son bir 355bp uzun PCR ürünü üreten karma denetim şablon yükseltmek.

2. Pooled PCR Kütüphane Hazırlama ve Sıralama

PCR ürünü havuzu: Her PCR ürün fazlalığı primer temizlenmelidir. Biz Qiagen Qiaquick sütun arıtma ya da büyük ölçekli temizleme için vakum manifoldu ile 96-iyi filtre plakaları kullanılır. Saflaştırma ardından, her bir PCR ürünü, standart teknikler kullanılarak ölçülebilir edilmelidir. Konsantrasyonu ile havuzlama olarak molekül sayısına göre normalleştirilmiş bir havuza her PCR ürünü (kontroller dahil) Kombine küçük amplikonlar ov overrepresentation neden olacaktırer daha büyük ürünler. Konsantrasyonları aşağıdaki formül kullanılarak hacim başına DNA moleküllerinin mutlak sayısı dönüştürülür: (g / ml) x (1 mol x bp / 660 g) x (amplikon 1 / # bp) x (6 x 10 ²³ moleküller / 1 mol ) = molekülleri / uL. Daha sonra, havuz amplikon ortalama molekül normalleştirilmiş bir dizi için gereken her bir reaksiyonun gelen ses belirler. Bu dizi, keyfi olarak ayarlanabilir ve gerçekten doğruluğunu sağlamak için yeterince büyük miktarda pipet bağlıdır. Biz genellikle her amplikon 1-2 x ¹⁰ 10 molekül birleştirir.
PCR ürünlerinin ligasyonu: Bu adım, küçük PCR amplikonlarının sonication onların sona doğru temsilini önyargılı olacak gibi düzgün sıralanması kapsama ulaşmak için gereklidir. Bu aşmak için, parçalanma öncesinde büyük concatemers (> = 10 Kb) içine toplanmış PCR ürünleri ligate. Pfu Ultra HF Polimeraz verimli ligasyon (bir Taq tabanlı polimeraz edecek değil bir 3p "A" çıkıntı katacak yol açan künt uçları oluştururdolgu veya küntleşme onayı olmadan llow ligasyon). Bu reaksiyon 2-3 kat gerekirse kadar ölçeklendirilebilir. Ligasyon reaksiyon 50 ul nihai hacimde havuzlanmış PCR ürünlerinin 2 ug ila 10 U T4 nükleotid kinaz, 200 U T4 ligaz,% 15 w / v polietilen, 1X T4 ligaz tampon, glikol 8000 MW içerir. Reaksiyonlar 20 dakika boyunca 65 ° C'de ve ardından ° C daha sonra 4 tutulan 16 saat boyunca 22 ° C'de inkübe edilir. Bu basamakta başarılı bir% 1 agaroz jel içine örneklerinin 50 ng yüklenmesi ile kontrol edilebilir. Başarılı ligasyon şeritte yüksek molekül ağırlıklı bant mevcut (Şekil 2, 3 şeritli bakınız) neden olur.
DNA fragmentasyonu: Bu noktada, PCR ürünleri büyük concatemers (> 10kb) sahip olmalıdır. Biz 24 örnek Diagenode Bioruptor sonikatör kullanarak rastgele bir sonikasyon stratejisi olduğunu fragmanı 25 dakika içinde bu concatemers (40 sn dakikada / 20 sn "off" "on") olabilir. Sonication nedenle, PEG tarafından tanıtıldı viskozite tarafından inhibe edilirBu Qiagen PB tampon örnek 10:01 seyreltilmesi ile aşılabilir. Sonuçlar% 2'lik agaroz jel (Şekil 2, 4 ve 5 şeritli bakın) kontrol edilebilir.
Örnek "End Onar" adım Illumina Genomik Kütüphane Numune Hazırlama protokol başında doğrudan dahil etmek için hazırdır. Burada bildirilen veriler tek ucundan Illumina Genom Analyzer IIx okur, ama biz HiSeq 2000 İkinci el ve tek veya paired-end karşılaştırılabilir sonuçlar okur gerçekleştirdik. Oluşturulan kütüphanenin ölçeği göz önüne alındığında, biz de HiSeq platformu (veriler gösterilmemiştir) tarafından sağlanan bant genişliği karşılamak için multipleks birden havuza kütüphaneler için özel barkodlu adaptörleri kullanılmıştır. Üreticinin protokol ve kiti ile birlikte tavsiyelerine uyun. 25 kat veya allel için daha fazla değişken tespiti, hedef kapsama alanı için optimum düzeyde duyarlılık ve özgüllük elde etmek için (Şekil 3) önerilir. Bu tahmin havuzu boyutu bağımsızdırve varyant tipi tespit edilmesi. Gerekli birden şerit ve ishal yeterli kapsama ulaşmak için kombine edilebilir olursa.

3. Sıralama Hizalama ve Analiz okur

Dosya sıkıştırma ve biçimlendirme: Ham sıralama okuma dosyalar ya EŞARP biçimi veya sıkıştırılmış dönüştürülmesi gerekir. Herhangi bir ilgili bilgileri kaybetmeden bir sonraki analiz adımlar için zaman ve yer tasarrufu gibi Sıkıştırma isteğe bağlıdır. Bu aşağıdaki komut ile birlikte komut RAPGAP_read_compressor_v2.pl kullanılarak elde edilir:
./RAPGAP_read_compressor_v2.pl [Oku dosyası]> [Sıkıştırılmış dosyasını okuyun]
Okumak Kabul edilen dosya giriş biçimleri EŞARP ve FASTQ, gzip ya veya sıkıştırılmamış şunlardır:
EŞARP formatı örnek:
HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ formatı örnek:
@ HWI-EAS440_7_1_0_410 # 0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
Ve / 8888888888888888888854588767777666!
Ham okumak hizalama: ham artık okuma PCR reaksiyonları, aynı zamanda, pozitif ve negatif kontrol dahil hedeflenen bölgeleri için özel açıklamalı FASTA referans dizisine hizalanabilir. Hizalama dahil hizalama aracı RAPGAPHASH5d kullanılarak gerçekleştirilebilir. Bu noktada girdi biçimi EŞARP veya sıkıştırılmış olmalıdır. Uyum için komut şöyledir:
./RAPGAPHASH5d [Sıkıştırılmış Oku dosyası] [FASTA dosya] [düzenlemeleri sayısı izin]> [dosya Bağlantısızlar]
Referans sekansı göre izin verilmektedir salt başına uyumsuzlukları sayısı, bir kullanıcı tarafından tanımlanan bir parametredir. Birbirine benzemeyen bir fazlalığı numarasına sahip okuma atılır. Biz 101 bp okur için bp okur 76 ve 5 uyumsuzlukları için 36 bp okuma, 4 uyumsuzlukları için 2 uyumsuzlukları izin öneririz. Fazla birbirine benzemeyen izin al içine sağlayan aşırı sıralama hataları olasılığını artıracaktırveri igned. Okuma uzunlukları daha uzun olmaya devam ederken, bu değer daha da artırılabilir.
Etiketleme aynı flowcell dosyaları hizalanır: Bu noktada tüm dosyayı okumak hizalanmış aynı sıralama run (aynı flowcell yani birden şerit toplanmış olabilir mensup okumak dosyaları tanımlamak için benzersiz bir tanımlayıcı ("tag") verilmelidir ve) tek bir etiket verilir. Her makine çalıştırma etiketi ile karakterize edilebilir benzersiz bir hata profili üretir, çünkü etiketi gereklidir. Bir etiket okur bir dizi (altçizgi karakteri "_" ayrıştırma sorunları için kullanılmamalıdır) ayırt etmek için kullanılan bir karakter alfanümerik dizedir. Farklı etiketleri farklı flowcells veya makine çalışır oluşturulan hizalı okuma dosyaları için kullanılmalıdır. Etiketler aşağıdaki komutu ile birlikte RAPGAP_alignment_tagger.pl kullanılarak eklenebilir:
. / RAPGAP_alignment_tagger.pl [Bağlantısızlar dosya] [TAG]> [etiketlenmiş dosya Bağlantısızlar]
Bu noktadan sonra, hizalanmışbirden fazla farklı flowcells oluşturulan aynı kitaplık dosyaları kendi etiketlerini olarak birlikte kombine edilebilir onları ayrı tutmak olacaktır.
Hata modeli üretme: Yukarıda belirtildiği gibi, her makine çalıştırma doğru varyantı arama için karakterize gereken sıralama hatası benzersiz bir profil oluşturur. Her makine çalıştırması için bu hataları modellemek için, sırası varyasyon yoksun olduğu bilinen bir iç kontrol dizisi her havuza örnek kütüphane yer almaktadır. Hizalanmış etiketli dosyadan, bir hata modeli dosyası negatif kontrol referansı sekans ile birlikte aracı EMGENERATOR4 kullanılarak üretilebilir. Tüm negatif kontrol dizisi alternatif 5 've 3' giriş en bazlar ile belirtilen bunun sadece bir kısmını, kullanılan ya da yapılabilir. Benzersiz okur ve pseudocounts her zaman kullanılmalıdır:
./EMGENERATOR4 [Bağlantısızlar etiketlenmiş dosya] [negatif kontrol sırası] [Çıktı dosya adı] en temel [5 '[3 kullanılmak üzere negatif kontrol çoğunu baz]'kullanılmak üzere negatif kontrol] eşsiz [include sadece okur? = Y] [hizalama kesme değişiklik] [pseudocounts girmek? = Y]
EMGENERATOR4 aracı _0, _1 veya _2 takip çıktı dosya adı parametresi olarak adlandırılan 3 dosyaları oluşturur. Bu dosyalar, 0, 1. ve 2. sıra sırasıyla hata modele uygun. SPLINTER'da ile arama varyantı için, 2. sıra hata modeli her zaman kullanılmalıdır.
Bir run error profil görselleştirmek için, error_model_tabler_v4.pl 0. sırada hata modeli dosyası (Şekil 4) bir PDF hata arsa üretmek için kullanılabilir:
./error_model_tabler_v4.pl [Hata modeli 0 düzeni dosyası] [çıktı dosyası adı]
Plot dosyası çalıştırma belirli bir hata eğilim göstermektedir ve bir sonraki bölümde açıklanmıştır analizi için kullanılacak okumak bazlar arasında en çok sayıda sonucuna için kullanılabilir.

4. SPLINTER kullanarak Rare Variant Algılama

Varyant seslendiğiniSPLINTER tarafından g: analizinde ilk adım hata modeli ve referans dizi kullanarak uyumlu dosya üzerinde SPLINTER'da aracı çalıştırmak. Bunu yapmak için komut:
./SPLINTER6r [Bağlantısızlar etiketlenmiş dosya] [FASTA dosya] [2. sıra hata modeli dosyası] [sayısı kullanılmak üzere üs okuma] [dışlanacak üsleri veya devir okuma] [p-değeri kesim = -1,301] eşsiz [kullanımı okur = Y] [hizalama kesim değişiklik] mevcut seçenekler arasından [havuzu size] [mutlak kapsama çıktısını iplikçik başına = Y]> [SPLINTER'da dosya]
Kullanılacak okuma üslerinin sayısı değişir ve her vadede göre değerlendirilmelidir. Biz genelde yüksek kaliteli veri (ilk 24 örneğin, okumak bir 36bp uzun bazlar okuyun) temsil olarak salt ilk 2/3rds kullanmanızı öneririz. (Bir virgül veya N örneğin 5,7,11 ya da N ile ayrılmış) kusurlu olduğu takdirde Tek okumak üsleri analize dahil edilebilir. P-değeri kesim varyantı arama analizi olacak kadar sıkı belirler. Biz neminimal -1,301 en az kesilme (log10 ölçekte ≤ 0.05 p-değerine karşılık gelen) izin vererek analiz başlar. Havuz boyutu seçeneği gerçek havuzda tek bir allel daha az minör allel frekansları ile potansiyel türevleri ortadan kaldırarak algoritmaları "sinyal-gürültü" ayrımcılık optimize eder. 50 kişilik bir havuzda Örneğin, düşük gözlenen varyant 0.01 frekans veya 100 allel de 1 de beklenebilir. Böylece, havuz boyutu seçeneği (40 kişi ankete eğer en yakın seçenek 100 havuzu boyutu olacağını, bu yüzden biz 80 allel bekliyoruz yani) deneyi analiz alel gerçek sayısından daha fazladır yakın değere ayarlanması gerekir . Frekansları <0.01 seviyesinde denilen Varyantları gürültü olarak dikkate alınmayacaktır. Bu dosya bir varyantın pozisyon tanımı, varyant tipi, DNA zincir başına p-değeri, değişik frekans ve DNA zincir başına düşen toplam kapsama (ile, numune boyunca istatistiksel olarak anlamlı olan tüm hit döndürür
Sözde varyantlar için kapsama Normalleştirici: numune üzerinde kapsama dalgalanmalar sahte hit üretebilir. Bu, aşağıdaki gibi splinter_filter_v3.pl komut uygulanarak düzeltilebilir:
./splinter_filter_v3.pl [SPLINTER dosya] [liste dosyası] [darlığı]> [SPLINTER'da normalize dosya]
liste dosyası bir sekme ile sınırlandırılmış dosya şeklinde pozitif kontrol isabet listesi burada.
İkinci alan mutasyon mevcut olduğu konumu gösterir ise ilk alan, ilgi amplikon gösterir. N sekansının geri kalan herhangi bir mutasyon ihtiva olmadığını gösterir.
Pozitif kontrol verileri kullanarak en iyi p-değeri eşikleri Belirlenmesi: normalleşme sonra, pozitif kontrol analizi belirli bir numune analizi duyarlılık ve özgüllük maksimize etmek için vazgeçilmezdir. Bu bilgiler kullanılarak uygun p-değeri kesme bulunması ile elde edilebilirPozitif kontrol olarak muaf. Büyük olasılıkla, -1,301 ilk p-değeri eğer öyleyse, pozitif veya negatif kontrolden yanlış pozitif arama neden olacak olan, yeteri kadar sıkı olmayacak. Her SPLINTER analizi hangi bir priori tahmin edilemedi, (Tablo 2 sütun 5 ve 6), her sözde varyant için p-değeri gerçek gösterecektir. Bununla birlikte, tüm analizi bilinen gerçek pozitif tabanı pozisyonları için ilk çıkış görüntülenen p değerinin en az sıkı kullanılarak tekrarlanmıştır edilebilir. Bu hepsi değil, yanlış pozitif, çoğu hariç ve genellikle çok daha az önemli p-değerleri gerçek pozitifler göre varken tüm gerçek pozitifler korumak için görev yapacak. Bu işlemi otomatikleştirmek için, cutoff_tester.pl kullanılabilir cutoff_tester.pl bir SPLINTER'da çıktı dosyası ve normalleşmesi için kullanılacak tek bir sekme ile ayrılmış dosya şeklinde pozitif kontrol isabet listesi gerektirir.:
. / Cutoff_tester.pl [SPLINTER'da filtresied dosya] [liste dosyası]
Sonuç çıktısı aşamalı (bkz. Tablo 3) optimal bir eşik ulaşmak bir liste olacaktır. Biçimi:
[Maksimum duyarlılık ve özgüllük mesafe] [duyarlılığı] [özgüllük] [kesme]
örneğin:
7.76946294170104e-07 1 0,999118554429264 -16,1019999999967
Son satırında çalıştırmak için en uygun kesme temsil eder ve böylece veri analizi için kullanılabilir. Optimal sonuç 1 duyarlılık ve özgüllük elde etmektir. Bu sonuç elde olmayan durumda, SPLINTER analizi Incorporated sayısını en iyi durum elde edilene kadar bazlar okumak değiştirerek tekrarlanabilir.
Final varyant filtreleme: son kesme, optimal kesme aşağıdaki hits SPLINTER'da çıktı dosyası süzer cutoff_cut.pl script kullanarak verileri, uygulanabilir
. / Cutoff_cut.pl [SPLINTER'da filtre dosyası] [kesme]> [SPLINTER'da sondosya]
Bu adım, örnekte bulunan SNP ve indellerin içerecek nihai SPLINTER'da çıktı dosyasını oluşturur. Eklemeleri için çıkış değiştirilmesine veya silme (Tablo 2) biraz farklı olduğunu unutmayın.

5.. Temsilcisi Sonuçlar

Biz 947 kişilik bir nüfusu birleştirilmiş ve sıralama için 20 kb üzerinde hedeflenmiş. Biz standart bir protokol sonrası nadir görülen varyantları tespiti için SPLINTER'da uygulanır. Her birey önce genom dizisi genotipleme tarafından gerçekleştirilen genotipleme ettirdi. Etiketlediniz genotipleme ve havuza örnek olarak adlandırılan yeni varyantları arasındaki uyum (Şekil 6) mükemmeldi. Popülasyonda nadir bunlardan ikisi (rs3822343 ve rs3776110) Üç türevleri, sıralama sonuçlarından de novo çağrıldı ve bireysel pyrosequencing tarafından doğrulanmıştır. Havuzda minör allel frekansları (MAF) MAF benzerdi dbSNP build 129 bildirildi. Pyrosequencing ve toplanan sıralama arasındaki MAF konkordans (Tablo 3) mükemmeldi.

Tablo 1
Pozitif kontrol için Tablo 1. DNA oligonükleotid dizileri. Her dizisi iki oyuncu değişikliği veya bir ekleme ve bir silme biri tarafından Vahşi Tipi referans farklı bir DNA parçası oluşur. büyük resim görmek için buraya tıklayın .

Tablo 2
Tablo 2. SPLINTER'da çıkış örneği. İlk iki satır bir ikame ya da silme (mavi başlık) için standart SPLINTER'da çıkışı temsil eder. Son satır ekleme (mor başlık) için standart SPLINTER'da çıkış temsil eder.rget = "_blank"> büyük resim görmek için buraya tıklayın.

Tablo 3
Tablo 3. Beş bilinen ve üç romanı türevleri büyük nüfus olarak tanımlanmalı ve bireysel genotipleme tarafından doğrulanmıştır. Bireysel doğrulama pyrosequencing (satır 1-3), TaqMan assay (satır 4-6) veya Sanger sıralama (7,8 satır) tarafından yapılmıştır. Geniş bir allel frekans aralığı ve MAF beş pozisyonları <% 1, dahil olmak üzere toplanmış sıralama allel sıklığı tahmin ve bireysel genotipleme arasında uyum güçlüydü. Bir yıldız (*) ile işaretlenmiş Pozisyonlar daha önce bildirilen veriler ⁹ uyarlanmıştır.

Şekil 1. Pooled-DNA dizi analizi ve SPLINTER'da bakış. Hasta DNA toplanmış olupve seçilmiş lokuslar çoğaltıldı. Nihai PCR ürünleri, eşit molar oranlarda bir pozitif ve negatif kontrol ile birlikte bir araya getirilmiştir. Havuzlanmış karışımı daha sonra dizisi çıkarıldı ve elde edilen okuma bunların referans geri eşleştirilir. Haritalı negatif kontrol okuma bir çalışma belirli bir hata modeli oluşturmak için kullanılır. SPLINTER sonra hata modeli ve pozitif kontrol bilgileri içeren tarafından nadir SNPs ve indellerin tespit etmek için kullanılabilir. [Vallania FLM ark, Genomu Araştırma 2010 yılından uyarlanmıştır] büyük resim görmek için buraya tıklayın .

Şekil 2. Pooled PCR amplikon ligasyonu ve sonication. Ligasyon ve kütüphanesi hazırlanması protokolde rastgele parçalanması adımlardan oluşan bir göstergesi olarak, pUC19 vektör enzimatik şeritli 2'de gösterildiği gibi parçalara sindirildi. Bu parçaları norma edildi, molekül sayısına göre lized kombine ve rastgele yukarıda 1.7 adıma göre bağlandı. Ortaya çıkan büyük bir concatamers şeritli 3 de gösterilmiştir. Yukarıda adım 1.8 'de tarif edildiği gibi bağlanan concatamers eşit sonikasyon ile bölünmüş ve tabi edildi. Her bir teknik çoğaltmak için DNA fragmanlarının edilen yayma şeritlerinin 4 ve 5 de gösterilmiştir. Braket jel çıkarma ve sıralama kütüphane oluşturulması için kullanılan boyut aralığı vurgulamaktadır.

Şekil 3. Bir birleştirilmiş örnek tek bir alel kapsama bir fonksiyonu olarak Doğruluk. Doğruluk 0.5 (rastgele) ile 1.0 (mükemmel doğruluk) için değişen bir Alıcı Operatör Curve (ROC), en Curve (AUC) altında Alanı olarak tahmin edilmektedir. EAA 200, 500 ve 1000 allel (A) havuzlarda tek mutant alel tespiti için alel başına kapsamının bir fonksiyonu olarak çizilir. EAA değiştirmeler, eklemeler ve d için bir işlev toplam kapsama olarak çizilireletions (B). [Vallania FLM ark, Genomu Araştırma 2010 yılından uyarlanmıştır].

Şekil 4. Hata Arsa belirli bir pozisyonda hatalı bir baz içeren olasılığını göstermektedir. Hata profili sıralama okuma 3 'sonuna doğru artan bir trend ile düşük hata oranlarını gösterir. Özellikle, farklı referans nükleotidler farklı hata olasılıkları (örneğin referans olarak bir G verilen bir C içeren olasılığı bakınız) gösterilecek. [Vallania FLM ark, Genomu Araştırma 2010 yılından uyarlanmıştır].

Şekil 5,
Şekil 5. Allel başına 25 kat daha fazla kapsama alanı vardı pozisyonlar için allel sıklığı tahmin SPLINTER'da doğruluğu. Panel A, ≥ 25 kat kapsama tek değişken tespiti için uygun duyarlılık gösteren Şekil 3 içinde sonuçlarına göreçok yüksek korelasyon (r = 0.999) olarak GWAS sonuçları ile ölçülen allel sayıları ile SPLINTER'da tahmin toplanmış DNA alel frekansları arasında karşılaştırma. [Vallania FLM ark, Genomu Araştırma 2010 yılından uyarlanmıştır].

Şekil 6. 974 birey toplanmış sıralama gelen SPLINTER'da tahminlere nazaran GWAS tarafından ölçülen alel frekansları arasında karşılaştırma. Karşılaştırma için genotyped lokuslar ve sekansı bölgeler arasında 19 ortak pozisyonları vardı. Çıkan korelasyon çok yüksek (r = 0,99538). Olan büyük rakam görmek için buraya tıklayın .

Discussion

Insidans ve sık, karmaşık fenotipleri ve obezite ^8, hiperkolesterolemi ^4, hipertansiyon ⁷ ve diğerleri gibi hastalıkların tedavi yanıtı nadir varyasyon kişisel profillerini moderatörlüğünü olabileceğini kanıtlar artmaktadır. Etkilenen popülasyonlarda agrega bu varyantların derin tanısal ve tedavi edici etkileri olacaktır genlerin ve yolların belirlenmesi, ancak ayrı olarak etkilenen bireylerin analiz zaman olabilir ve yasaklayıcı mal olabilir. Nüfus tabanlı analiz birden fazla odakta genetik çeşitliliği araştırmak için daha verimli bir yöntem sunar.

Biz popülasyonlar arasında genetik varyasyon bu tip tanımlamak için tasarlanan SPLINTER'da yazılım paketi ile eşleştirilmiş bir roman havuza-DNA dizi protokolü sunarız. We were nadir görülen varyantları da dahil olmak üzere, 947 kişilik geniş bir havuza nüfus içinde küçük allelleri tanımlanması ve miktarının bu yöntemin doğruluğunu göstermekbirleştirilmiş sıralama gelen de novo olarak adlandırılan ve bireysel pyrosequencing tarafından onaylanmıştır. Bizim strateji esas olarak bir pozitif kuruluş ve her deneme içinde bir negatif kontrol ile diğer protokoller farklıdır. Bu SPLINTER diğer yaklaşımlar ¹ kıyasla çok daha yüksek doğruluk ve güç elde etmek için izin verir. Alel başına 25-kat arasında optimum kapsama havuz boyutu sadece ölçeklerde doğrusal olarak bu gerekliliği gibi büyük havuzlarının analizi olanaklı hale, bağımsız olarak havuz boyutu ile sabitlenir. Bizim yaklaşımımız çok esnek ve menfaat fenotipi değil, aynı zamanda karışık hücre popülasyonları ve tümör biyopsisi doğal olarak heterojen örnekleri, uygulanabilir. Böyle exome veya genom gibi büyük bir hedef bölgelerden toplanan sıralama içinde giderek artan ilgi dikkate alındığında, kütüphane hazırlık ve SPLINTER'da analizi özel yakalama ve tam exome sıralama ile uyumludur, ancak SPLINTER'da paketinde uyum programı için tasarlanmış değildi büyükreferanslar dizileri. Bu nedenle, başarılı bir şekilde birleştirilmiş örnek (Ramos ve ark., Incelemede) çağırıyor varyantı takip genom diziler için, Novoalign, dinamik programlama hizalama kullanmış olurlar. Böylece, birleştirilmiş sıralama stratejisi hedef dizisinin artan miktarda büyük havuzlarına başarıyla ölçeklendirilebilir.

Disclosures

Çıkar çatışması ilan etti.

Acknowledgments

Bu çalışma Çocuk Discovery Enstitüsü hibe MC-II-2006-1 (RDM ve TED), NIH Epigenetik Yol Haritası hibe [1R01DA025744-01 ve 3R01DA025744-02S1] (RDM ve FLMV), U01AG023746 (SC), Saigh tarafından desteklenmiştir Vakfı (FLMV ve TED), 1K08CA140720-01A1 ve Alex'in Limonata "A" Ödülü desteği (TED) durun. Biz genomik analizi ile yardım için Washington Üniversitesi Tıp Okulu'nda Genetik Bölümü Genom Teknoloji Erişim Merkezi teşekkür ederim. Merkezi kısmen Araştırma Kaynakları için NationalCenter (NCRR), Sağlık (NIH), Ulusal Sağlık Enstitüleri bir bileşeni # UL1RR024992 NCI Kanser Merkezi Destek Hibe Siteman Kanser Merkezi'ne # P30 CA91842 tarafından ICTS / CTSA hibe ile desteklenen ve bir Tıbbi Araştırma NIH Yol Haritası. Bu yayın sadece yazarların sorumluluğundadır ve mutlaka NCRR veya NIH resmi görüşü temsil etmez.

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Biology

SPLINTER kullanarak Pooled Sıralama gelen Nadir Genomik Variantların Algılama

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.