Summary
汇集DNA测序检测与大同伙的复杂表型相关的罕见的变异是一个快速和具有成本效益的战略。在这里,我们描述的汇集,32个癌症相关的基因,利用分裂软件包下一代测序的计算分析。这种方法可扩展性,适用于任何利益型。
Abstract
随着DNA测序技术已经明显提前2近年来,它已成为越来越明显,任何两个人之间的遗传变异量是大于以前认为的3。相比之下,基于阵列的基因分型并没有确定一个共同的序列变异4,5的常见疾病的表型变异的重大贡献。两者合计,这些意见已导致常见疾病的演化/罕见的变异假说,表明多数是“缺失的遗传”中常见的和复杂的表型,而不是由于个人的个人资料罕见的或私人的DNA变异6-8 。然而,表征罕见的变异如何影响复杂表型需要许多受影响的个人,在许多基因位点的分析,是理想到不受影响的队列中的类似调查相比。尽管今天的平台,所提供的电源排序许多基因位点和随后的计算分析所需的人口为基础的调查仍让许多研究者望而却步。
为了满足这一需要,我们开发了汇集的测序方法1,9和一个新的软件包,从得到的数据高度准确的稀有变异检测1。从受影响的个人和整个人口调查的遗传变异程度在多个有针对性的地区,在一个单一的测序库池基因组的能力提供了极好的节约成本和时间,传统的单一样本的测序方法。平均每25倍的基因测序覆盖,我们的自定义算法,分裂,使用内部变量,调用控制策略调用4个碱基对的插入,删除和替换从高灵敏度和特异性的长度可达池1在500个人的突变等位基因。这里,我们描述为准备汇集小号的方法,其次equencing库如何使用汇集测序分析(碎片包一步一步的指示http://www.ibridgenetwork.org/wustl/splinter )。我们展示了汇集了947个人的测序之间的比较,所有的人也经历了全基因组阵列,超过20KB每人测序。标签的基因分型,并呼吁汇集样品中的新变种之间的一致性都非常优秀。这种方法可以很容易地扩展到任何数量的基因位点和任何个人。通过整合内部的正面和负面的扩增控制模拟研究人口的比率,该算法可以进行校准,以获得最佳性能。这一战略也被修改为与杂交捕获或个别特定条形码的使用,可应用于自然异质性样本,如肿瘤DNA测序。
Protocol
采用这种方法在研究报告中Vallania FML今天等。基因组研究2010。
1。样品池,并有针对性的基因位点的PCR捕捉
- 结合归金额从每一个人的基因组DNA,在您的池(S)。使用0.3纳克每PCR反应的人的DNA,将其纳入每个PCR反应,从而提高了每个等位基因在池中均匀放大的可能性约50%的人二倍体基因组。
- 可以得到的基因组序列从NCBI( http://www.ncbi.nlm.nih.gov/ )或UCSC基因组浏览器( http://genome.ucsc.edu/index.html )。 确保使用“RepeatMasker”(标记为“N”)时获得的序列,以避免重复区域设计的底漆 。
- 使用基于web的Primer3(rimer3/input.htm“目标=”_blank“> http://frodo.wi.mit.edu/primer3/input.htm)实用程序来通过剪切和粘贴的兴趣,再加上一些侧翼序列的基因组区域设计引物(扩增600-2000 bp的通常是理想的)10的最佳引物设计引物3使用的条件是:底漆最小尺寸= 19;优化底漆大小= 25;最大的引物大小= 30;最低的Tm = 64℃;最佳TM。 = 70°C;最大的Tm = 74°C,最大的Tm差异= 5°C,最低GC含量= 45;最大GC含量= 80;号返回= 20(这是任意);最大3'端的稳定性= 100设计引物扩增所有感兴趣的基因位点收到的引物。,冻干的股票可以在10毫米的Tris,pH值7.5±0.1 mM的EDTA稀释到100微米的额外10:1 DDH稀释终浓度2至10微米。
- PCR扩增:我们推荐使用的高保真DNA聚合酶扩增大型基因组由于低误码率(10-7)和钝端产品(下游结扎步骤,这是必要的)代扩增。我们已经使用PfuUltra高,富达,但具有类似特性的酶(如Phusion)应提供类似的结果。每个PCR反应含有终浓度为2.5üPfuUltra高保真聚合酶,1个M甜菜碱,每个引物400毫微米,200μM的dNTPs浓度,,1X PfuUltra缓冲区(或缓冲区含有≥2毫米镁2 +为了保持酶的保真度) 5-50纳克的最终体积为50μLDNA汇集。使用下面的PCR条件:1。 93-95°C的2分钟; 2。 93-95℃,30秒3。 58-60℃,持续30秒4。 65-70°C的60-90秒250-500 BP / 1.5-3分钟扩增扩增500-1000 bp的扩增> 1 KB / 3-5分钟; 5。重复步骤25-40周期2-4; 6。 65°C下10分钟; 7。 4°C搁置。如果需要,通常可以得到改善PCR结果:1)小扩增的退火温度; 2)提高大型扩增的退火温度降低; 3。任何扩增的延伸时间的延长。
- 斯普林特控制制备:每分裂实验要求存在消极和积极的控制,以获得最佳的精度。阴性对照,可以由任何个人,条码样品中所有的的合子基地先前已测序(如HapMap的样品)的立场。阳性对照,然后由两个或两个以上的这些样本的混合物。对于这份报告中,阴性对照1 1934 bp的扩增的M13mp18单链DNA载体的骨干区域。桑格测序PCR产物,在使用前,以确认没有序列变异存在从源材料或PCR扩增。阳性对照包括一至pGEM-T Easy载体克隆插入一个72 bp的面板设计与特定的插入,删除,substitutions( 见表1)。我们对野生型背景混合载体一起在摩尔比,这种突变是在游泳池的单等位基因频率(即100等位基因的游泳池,一个单一的等位基因频率将1%)。然后,我们PCR扩增使用引至pGEM-T易M13的市局网站,产生最后的355bp长的PCR产物的混合控制模板。
2。 PCR技术图书馆汇集的制备和测序
- PCR产物池:每个PCR产物应清理多余的引物。我们用Qiagen公司Qiaquick柱纯化或96真空多方面进行大规模的清理过滤板。净化之后,每个PCR产物应量化的使用标准技术。每个PCR产物(包括控件)结合成分子数归一池,浓缩池将导致小扩增OV的比例过高呃较大的产品。浓度转换为每卷使用的公式DNA分子的绝对数量:(克/微升)×(1摩尔x BP / 660Ğ)×(1 /#扩增BP)×(6×10 23分子/ 1摩尔)=分子/微升。然后,我们确定从每个反应池每扩增分子归所需音量。这个数字是任意的,可以进行调整,真正取决于后移液量足够大,以保持精度。我们通常集中1-2×10 10分子的每个扩增。
- PCR产物结扎:这一步是必要的,以实现统一测序覆盖率超声小的PCR扩增将偏向两端的表示。为了克服这个问题,我们结扎大首尾连接(> = 10 KB)之前碎片汇集的PCR产物。 PFU超高频聚合酶产生平末端,导致高效结扎(1 Taq酶为基础的聚合酶将增加1 3P“A”的过剩,这将不是一个llow结扎,恕不另行填写或钝化)。 这种反应可以扩大2-3倍,如果必要 。结扎反应包含10 U T4多核苷酸激酶,T4连接酶200单位,15%W / V聚乙烯,汇集在终体积50μLPCR产物以2微克1X T4连接酶缓冲液,乙二醇8000兆瓦。反应在22°C孵育16小时20分钟,其次是65℃,在4℃后举行。这一步的成功,可以由50毫微克的样品放入1%琼脂糖凝胶进行检查。成功结扎会导致高的分子量在车道带存在(参见图2,泳道3)。
- DNA片段:此时,你应该有大的首尾连接PCR产物(> 10KB)。我们有一个随机的超声策略使用24样本的Diagenode Bioruptor sonicator的,可以在25分钟内这些片段首尾连接(40秒/ 20秒的“关闭”每分钟“”)。超声被抑制的PEG推出的粘度,因此这是可以克服的,在Qiagen公司的PB缓冲液稀释样品10:1。检查结果可以在2%琼脂糖凝胶(参见图2,泳道4和5)。
- 样品是准备直接纳入“结束修复”一步Illumina公司的基因组文库的样品制备协议开始。这里报道的数据是从单端Illumina的Genome Analyzer的IIx能读,但我们已经使用了HiSeq 2000进行单人或配对末端读取结果具有可比性。鉴于创建库的规模,我们也使用自定义条形码适配器以多个汇集库,以适应由HiSeq平台(数据未显示)提供的带宽。按照制造商的协议和建议,与试剂盒来。为了达到最佳的灵敏度和特异性变异检测,目标覆盖25倍或更多的每等位基因建议( 图3)。这估计是独立的池大小和变异类型被检测到。如果必要的多车道和运行可以结合达到足够的覆盖范围。
3。测序读取校准和分析
- 应转换成的围巾格式或压缩文件压缩格式:原始测序读文件。压缩是可选的,因为它可以节省后续分析步骤的时间和空间,而不会失去任何相关信息。这是通过使用下面的命令所包含的脚本RAPGAP_read_compressor_v2.pl:
./RAPGAP_read_compressor_v2.pl [读文件]> [压缩读取文件]
接受阅读文件输入格式围巾和FASTQ的,无论是gzip压缩或解压缩:
围巾的格式,例如:
HWI-EAS440:7:1:0:316#0/1:NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC:DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQ格式例如:
HWI-EAS440_7_1_0_410#0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
&/ 8888888888888888888854588767777666! - 现在,可以读取原始对齐:原始读取FASTA格式注释的参考序列,具体包括PCR反应,以及作为阳性和阴性对照目标区域对齐。对齐可以使用附带的对齐工具RAPGAPHASH5d的 。在这一点上的输入格式有围巾或压缩。对齐的命令是:
./RAPGAPHASH5d [压缩的只读文件] [FASTA格式文件] [编辑数量允许]> [不结盟文件]
每所允许的参考序列相比读错配的数量是一个用户定义的参数。读取该有多余的不匹配将被丢弃。我们建议允许76 bp的读取和5 101 bp的读错配2为36 bp的读,4不匹配不匹配。让更多的不匹配将提高到人,让多余的测序错误的可能性igned数据。作为读长继续变长,这个值可以进一步提高。 - 标记对齐,从相同的流通池的文件:在这一点上,整个对齐的读文件,应赋予一个唯一的标识(“标记”),以确定读取文件属于同一测序运行(即多个通道从相同的流通池可汇总和一个标记)。标签是必要的,因为每台机器运行生成一个唯一的错误的文件,可以通过标签的特点。标记是一个字符的字母数字字符串,用来区分集的读取(下划线字符“_”,不应该被用于分析问题)。对齐的读,上的不同flowcells或机器上运行生成的文件,应使用不同的标签。标签可以用下面的命令包括RAPGAP_alignment_tagger.pl:
/ RAPGAP_alignment_tagger.pl [不结盟文件] [豪]> [不结盟标签文件]
这一点后,对齐从上多个不同flowcells产生相同的库文件可以结合各自的标签一起,让他们分开。 - 错误模型生成:如上所述 ,每台机器的运行产生了测序错误,需要准确的变种通话特点的独特的轮廓。到每台机器上运行这些错误建模,每个池的样本库中包括内部控制序列,被称为是没有序列变异。从对齐的标签文件,一个错误的模型文件,可以产生与阴性对照组参考序列包括工具EMGENERATOR4的 。所有可用于阴性对照序列,或者只是其中的一个子集,由5'和3'最输入基地指定。独特的内容,并应始终使用pseudocounts:
./EMGENERATOR4 [不结盟标签文件] [阴性对照序列] [输出文件名] [5'最基础的阴性对照] [3'最基础要使用负控制[包括独特的只读取? = y [对齐编辑截止] [进入pseudocounts? = y]
EMGENERATOR4工具将生成3个文件作为输出文件的名称由_0,_1或_2参数命名。这些文件对应1 0号,第一和第二阶误差模型,分别与分裂调用变种,二阶误差模型,应始终使用。 - 可视化运行的错误率的文件,的error_model_tabler_v4.pl可以用来生成PDF错误情节上的第0阶误差模型文件( 图4):
./error_model_tabler_v4.pl [错误模型第0个顺序文件] [输出文件名]
打印文件,就会发现运行特定的错误趋势,可以用来推断的最大数量的阅读基地将用于分析,这是在下一节解释。
4。罕见的变异检测,使用斯普林特
- 变种的呼唤G的分裂:在分析的第一步是运行对齐使用的误差模型和参考序列的文件碎片的工具。这样做的命令是:
./SPLINTER6r [不结盟标签文件] [FASTA格式文件] [2阶误差模型文件[数量要使用的阅读基地] [阅读基地或周期被排除] [p值截止= -1.301] [使用独特的读取= y] [对齐编辑截止] [池的大小可从选项] [打印出的绝对覆盖,每串= y]> [斯普林特文件]
阅读基地要使用的数量各不相同,应根据每个运行评估。我们通常建议使用读第一2/3rds,因为他们代表最高质量的数据(第24阅读基地,一个36bp长读)。从分析可以排除单阅读基地,如果发现有缺陷(逗号或N例如5,7,11或N分隔)。严格的变种呼叫分析将是p值截止使然。我们也不mally开始允许-1.301最低截止(对应的p值≤0.05 log10的规模)的分析。池的大小选项优化算法“信号与噪声”的歧视,消除潜在的次要等位基因频率低于在实际池的单等位基因变种。例如50个人池,观测到的最低的变种,可以预计在0.01频率或1 100个等位基因。因此,池的大小选项应设置为最接近的值,是更大的实际人数比在实验分析的等位基因(即如果有40人正在接受调查,我们预计80个等位基因,所以最接近的选择将是一个池的大小为100) 。在频率<0.01称为变种将被忽略的噪音。此文件返回跨样本统计显著,全部命中的位置描述的变异,变异类型,每个DNA链的p值,变异的频率和每个DNA链的全覆盖(- 正常化的所谓变种覆盖:覆盖整个样本的波动,可以产生虚假点击。这可以纠正,通过应用如下splinter_filter_v3.pl的脚本:
./splinter_filter_v3.pl [文件碎片] [列表文件] [紧缩]> [分裂规范化文件]
列表文件是制表符分隔的文件形式的阳性对照命中列表。
第一个字段表示兴趣的扩增,而第二个字段表示在该突变是目前的位置。 N表示,其余的序列不包含任何突变。- 确定最优的p值阈值,使用阳性对照数据:阳性对照分析正常化后,为最大限度地发挥一个特定样本分析的灵敏度和特异性是必不可少的。这可以通过寻找最佳的p值的截止使用的信息TION从阳性对照。最有可能的,最初的p值-1.301不会是不够严格,如果这样,将导致误报的积极或消极的控制通话。每个所谓的变种,将每分裂分析表明实际的p值(见表2列5和6),这不能预测 。然而,整个分析,可以反复使用至少严格p值显示已知的真阳性基地位置的初始输出。这将有助于保留所有真阳性,而排除大多数,如果不是所有,误报,他们通常有少得多的P-值比真阳性。这个过程自动化,可用于cutoff_tester.pl cutoff_tester.pl需要一个分裂的输出文件,并作为正常化的一个制表符分隔的文件的形式积极控制命中。
/ cutoff_tester.pl分裂过滤编辑文件] [列表文件]
输出结果将是一个截断,逐步达到最佳( 见表3)。格式是:
[距离最大的灵敏度和特异性[灵敏度] [专一] [截止]
例如:
7.76946294170104e-07 1 0.999118554429264 -16.1019999999967
最后一行表示最优化的运行截止,因此可以被用于数据分析。最佳的结果是达到1灵敏度和特异性。没有达到这个结果的情况下, 碎片分析可以重复改变法人的数量,直到实现最优化的条件读基地。- 最后变种过滤:可用于的数据使用cutoff_cut.pl脚本,这将过滤分裂输出文件,点击下面的最优截止的最后截止,
/ cutoff_cut.pl [分裂过滤文件] [截止] [分裂决赛文件]
这一步将产生最终分裂输出文件,其中将包含单核苷酸多态性和插入缺失样本中存在的。请注意,插入输出比替换或删除( 见表2)略有不同。 - 正常化的所谓变种覆盖:覆盖整个样本的波动,可以产生虚假点击。这可以纠正,通过应用如下splinter_filter_v3.pl的脚本:
5。代表结果
我们汇集了947个人的人口,并有针对性的进行测序超过20 KB。我们采用分裂罕见的变异检测,按照我们的标准协议。每个人此前已通过全基因组阵列基因分型基因分型进行。标签的基因分型,并呼吁汇集样品中的新变种之间的一致性良好( 图6)。三个变种,其中两个(rs3822343和rs3776110)在人口罕见,被称为从头测序结果和个别焦磷酸测序验证。次要等位基因频率在池(MAF),类似的农林部报告在dbSNP的构建129。农林部之间的焦磷酸测序和汇集测序一致性非常好( 见表3)。
表1。DNA为阳性对照寡核苷酸序列。每个序列组成的DNA片段,从不同的野生型参考或者两个换人或插入和删除1。 点击这里查看大图 。
表2。分裂输出范例。前两行代表分裂替换或删除(蓝头)的标准输出。最后一行表示分裂插入(紫色头)的标准输出。rget =“_blank”>点击这里查看大图。
表3。五个已知和三个新变种,从庞大的人口数量确定,由单个基因分型验证。焦磷酸测序(1-3行),TaqMan方法Sanger测序(7,8行)(第4-6行)或个人进行验证。为等位基因频率范围广泛,包括五个位置农林部<1%,汇集测序等位基因频率估计和个人的基因分型之间的一致性是强劲的。带有星号(*)标记的位置是改编自先前公布的数据9。
图1。汇集DNA测序和碎片分析概述。病人的DNA汇集在选定的位点的扩增。最终的PCR产物集中在摩尔比阳性和阴性对照。汇集混合,然后测序,并由此产生的读取映射回参考。映射负控制的读取被用来生成运行特定的错误模型。碎片可以被用来检测的误差模型和阳性对照纳入信息罕见SNPs和INDELS。 [的FLM Vallania 2010年,基因组研究等改编] 点击这里查看大图 。
图2。汇集PCR扩增结扎术和超声。结扎和随机碎片的步骤,在图书馆准备协议的示范,pUC19载体酶消化巷2所示的片段。这些碎片是诺玛lized分子数,结合随机结扎根据上述步骤1.7。造成大concatamers巷3所示。结扎concatamers平分,受到超声上述步骤1.8中所述。每个技术复制的DNA片段产生涂片通道4和5所示。支架凸显了用于凝胶的提取和测序库创建的尺寸范围。
图3。作为一个汇集样品中的单等位基因功能的覆盖精度。精度估计下一个接收器操作曲线(ROC),范围从0.5(随机)1.0(完美的精确性)曲线(AUC)的地区。 AUC是绘制每个基因的功能,200,500和1000等位基因(一)池的单等位基因突变检测的覆盖。 AUC是绘制作为替换,插入和D功能全覆盖eletions(乙)。 [从Vallania的FLM 2010年,基因组研究等改编]。
图4。误差图显示了在一个给定的位置,纳入错误基地的概率。错误的文件显示低错误率增加的趋势,向3'结束测序读。值得注意的是,不同的参考核苷酸显示不同的错误概率(例如纳入作为参考一个C一个G的概率)。 [从Vallania的FLM 2010年,基因组研究等改编]。
图5。职位,有大于25倍的覆盖率每等位基因等位基因频率估计精度分裂。基于在A组, 图3显示最佳灵敏度≥25倍覆盖单变异检测,结果1池DNA的等位基因频率非常高的相关性(R = 0.999)的GWAS结果测得的等位基因数分裂估计的比较。 [从Vallania的FLM 2010年,基因组研究等改编]。
图6。等位基因频率相比,汇集了974个人的测序分裂估计的GWAS的测量之间的比较。有19常见的基因位点的位置和顺序地区之间进行比较。产生的相关性是非常高的相关(r = 0.99538)。 点击这里查看大图 。
Discussion
有越来越多的证据表明,发病率和治疗反应常见的,复杂的表型和8肥胖,高胆固醇血症,高血压7和其他疾病,如可由个人档案罕见的变异主持。确定基因和途径,这些变种在受影响的人口聚集的地方将产生深远的诊断和治疗的影响,但单独分析受影响的个人,可以是时间和成本过高。人口为基础的分析提供了一个更有效的方法测量在多个位点的遗传变异。
我们提出一个新的池DNA测序协议旨在确定这个种群之间的遗传变异类型的与斯普林特软件的包配对。我们证明这种方法的准确性,在确定和量化次要等位基因在947个人的人口大汇集,包括罕见的变异从头从汇集测序和个人的焦磷酸测序验证。我们的策略主要是从其他协议不同,由一个积极的成立和在每一个实验的阴性对照。这允许分裂,以达到更高的精度和电源相比,其他方法1。每个等位基因的25倍,最佳的覆盖范围是固定的,独立池的大小,大池分析是可行的,这一要求与池大小的唯一尺度线性。我们的做法是非常灵活,可以应用于任何利益的表型,但也自然异构的样品,如混合细胞群和肿瘤活检。由于汇集从大的目标区域,如外显子组或基因组的测序日益增长的兴趣,我们的图书馆准备和碎片分析与自定义捕捉和全外显子组测序兼容,但没有被设计为在分裂包的对齐工具大引用序列。因此,我们已经成功地利用动态规划对准,Novoalign,从汇集的样本(拉莫斯等。提交)调用的变种的全基因组的路线。因此,我们汇集的测序战略可以成功扩展到较大的池,越来越多的靶序列。
Disclosures
没有利益冲突的声明。
Acknowledgments
这项工作得到了在儿童探知研究所授予的MC-二-2006年-1(RDM的和泰德),在NIH的表观遗传学蓝图补助金[1R01DA025744-01和3R01DA025744-02S1](RDM并且FLMV),U01AG023746(SC)的,在Saigh基金会(FLMV和TED),1K08CA140720-01A1和亚历克斯的柠檬水摊位“一奖”支持(TED)。我们感谢与基因组分析的帮助下,在华盛顿大学医学院遗传学系的基因组技术访问中心。该中心的部分支持NCI癌症中心支援津贴#P30的CA91842 Siteman癌症中心和ICTS /铁协批准UL1RR024992从NationalCenter研究资源(NCRR),美国国立卫生研究院(NIH)的一个组成部分,并国立卫生研究院医学研究路线图。本刊物完全是作者的责任,并不代表NCRR或NIH的官方意见。
Materials
Name | Company | Catalog Number | Comments |
PfuUltra High-Fidelity | Agilent | 600384 | 1.4 |
Betaine | SIGMA | B2629 | 1.4 |
M13mp18 ssDNA vector | NEB | N4040S | 1.5 |
pGEM-T Easy | Promega | A1360 | 1.5 |
T4 Polynucleotide Kinase | NEB | M0201S | 2.2 |
T4 Ligase | NEB | M0202S | 2.2 |
Polyethylene Glycol 8000 MW | SIGMA | P5413 | 2.2 |
Bioruptor sonicator | Diagenode | UCD-200-TS | 2.3 |
References
- Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
- Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
- The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
- Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
- Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
- Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
- Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
- Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
- Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
- Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).