Biology

逆转录病毒整合位点的扩增，新一代测序和基因组DNA制图

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

在本地和全球尺度上表现出逆转录病毒整合签名的偏好。这里，我们提出了（1）的生成用连接介导的PCR（LM-PCR）扩增和新一代测序（NGS）逆转录病毒整合位点的不同的库的详细的协议;（2）绘制的每个病毒 - 的基因组位置使用BEDTools交界处，和（3）分析统计相关数据主机。从感染的细胞中提取的基因组DNA是通过消化用限制性酶或通过超声处理分段。合适的DNA末端修复后，双链连接子连接到DNA末端，和半巢式PCR是使用这两个病毒的长末端重复（LTR）端部和连接接头DNA互补的引物进行的。 PCR引物携带NGS期间用于DNA聚类所需的序列，否定为单独的适配器连接的要求。质量控制（QC）下进行，以评估DNA片段大小分布和适应呃之前NGS DNA结合。序列输出文件过滤含有LTR-读取，并确定LTR和连接器的序列裁剪掉。修剪宿主细胞序列被映射到使用BLAT参照基因组和被过滤为最小97％的同一性的参照基因组中的独特点。独特的整合位点是审查相邻核苷酸（nt）的顺序和分配相对于不同的基因特性。使用该协议，高复杂度的整合位点文库可从基因组DNA在三天构成。该包括易感组织培养细胞至整合位点分析的外源病毒感染的整个协议可以因此在大约一到两周进行。这项技术的应用近期涉及到艾滋病毒感染患者的整合位点的纵向分析。

Introduction

病毒DNA（VDNA）到宿主细胞基因组中的整合是在逆转录病毒的生命周期的一个重要步骤。积分是由病毒酶整合酶（IN），其执行，导致建立稳定地插入原病毒¹的两个不同的催化过程来完成的。在亚基接合是通过逆转录生成的线性VDNA的端部，形成具有VDNA高阶intasome端通过一个IN多聚体^2-4保持在一起。在切割中称作3'-处理的处理顺序的3'从不变5'-CA-3下游VDNA的端部“，留下凹入3'在每个VDNA末端^5-8活性羟基结束。该intasome随后导入细胞核作为大型组件的主机的一部分，并称为preintegration复合物^{（PIC），9-11}的病毒蛋白。遇到细胞靶DNA（T-DNA）后，使用VDNA 3'-羟基GRO起坐裂解TDNA顶部和底部股线以交错的方式，同时通过链转移^12,13的过程中加入VDNA到TDNA 5'磷酸基团。

在本地和全球尺度上表现出逆转录病毒整合位点的偏好。在当地，共识的整合位点包括了从VDNA插入位点^14,15大约五到十个基点的上游和下游跨越弱保守的回文T-DNA序列。全球范围内，逆转录病毒针对具体的染色质注释^16。有七种不同的逆转录病毒属 - 通过ε，伦蒂和spuma阿尔法。慢病毒，包括HIV-1，有利于积极转录基因¹⁷机构内部整合，而gammaretroviruses优先整合到转录起始位点（起始位置跟）和有源增强地区^18-20。与之形成鲜明对比，泡沫病毒强烈向heterochrom偏见ATIC区域，如基因贫乏椎板相关领域^21。当地TDNA基地偏好由IN和T-DNA ^13,22,23之间核蛋白的接触特定网络决定的很大一部分。对于慢病毒和gammaretroviruses，相对于基因组注释集成是通过中和同源细胞因子^24-27之间的相互作用支配很大一部分。改变IN-T-DNA相互作用网络^13,22,23,28的细节，扰乱或重新工程宿主因子交互^25-27,29-32是行之有效的战略分别重新定位在本地和全球层面的整合。

用来编目逆转录病毒整合位点的DNA测序方法的功率在过去几十年的极大增加。整合位点用费力净化和手工克隆技术产生只是根据研究^33,34独特的网站屈指可数回收创举。LTR宿主DNA结的LM-PCR扩增与映射单个整合位点，以转化领域人类和小鼠草案基因组，与来自外源组织培养细胞的感染中回收网的增加至几百到上千¹⁷数量的能力的结合^18。 LM-PCR检测方法NGS的更近的组合已派出图书馆深度跃然而出。具体而言，焦磷酸测序，得到的独特的集成网站^30,35-38数以万计的量级，而库测序通过使用DNA聚类可以产生数以百万计的独特序列^19-21,39的。在这里，我们描述了扩增和测序使用DNA集群NGS逆转录病毒整合位点的优化LM-PCR方法。该方法结合了所需的适配器序列引入PCR引物，因此直接进入扩增的DNA分子，从而排除了要求用于向sequen之前一个额外的适配器连接步骤庆安^40。在生物信息学分析管道中，从LTR宿主DNA结到的独特的整合位点的映射到相关的基因组特征的原始测序数据的解析，也一般地描述。按照这一领域^36,38,41-43从以前的方法确定的协议的优先级，自定义脚本可以开发，以帮助在生物信息学管道的具体步骤的完成。该实用程序和协议的灵敏度通过扩增，测序和映射从在感染的1.0（MOI），以及一个滴定系列该DNA的近似多重感染的组织培养细胞中的HIV-1的整合位点与代表性数据示出通过未感染的细胞的DNA中稀释5倍的步骤为1的最大稀释度：15625，得到的6.4×10 ^-5的近似等效惯性矩。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1.生成病毒原液

注意：此协议的湿式清洗台方面的流程图在图1中描绘的病毒原料生产和组织培养细胞的随后感染的细节通常将适用于不同类型的逆转录病毒。对于一些实验，靶细胞可能不表达内源性病毒受体（多个），并且在这种情况下，假型逆转录病毒颗粒携带异源病毒包膜糖蛋白的结构，例如，从水泡性口炎病毒（VSV-G）对G糖蛋白，会需要感染^44,45。

注：与HIV-1工作时，须采取预防措施。虽然具体准则会有所不同，从机构的机构，所有的基于病毒的工作应在一个专门的，操作者限制生物安全柜（通常被称为组织培养罩）来进行。适当的个人防护设备包括面部防护，鞋套，手套双层和全身套装西装应随时佩戴。从病毒相关的实验产生的所有废液应与漂白剂（10％终浓度）灭活，以及包括固体废弃物都应该在处置之前进行高压灭菌。

一个转染前一天，补充有10％（体积/体积）胎牛血清和1％的板3.3×10 ^6个 HEK293T细胞于10ml的Dulbecco改良的Eagle培养基（DMEM）的（体积/体积）青霉素/链霉素（10,000ù / ml的股票）在每一个100 mm培养皿。
注意：辅以的DMEM上称为DMEM-FPS从这一点。
在随后的日子，转染使用市售的转染试剂或磷酸钙细胞用质粒携带全长逆转录病毒分子克隆的10微克或9微克信封缺失单轮载体用VSV-G表达构建体的1微克。
1. 孵育的C在5％的CO ₂的潮湿的细胞培养箱中，在37℃厄尔（在此条件下称“组织培养孵化”）。后约48小时，使用一个容积移液管收获含有病毒的细胞培养基，并通过它通过0.45μm的过滤器在重力作用下流动。
2. 集中超速离心病毒为20万XG在4℃1小时。重悬在500微升DMEM-FPS含20单位DNA酶病毒颗粒，并在37℃孵育1小时。
  注意：DNA酶步骤有助于通过消除来自转染过程仍然存在的质粒DNA的冲击，以减少不必要的质粒序列的恢复。
确定使用HIV-1 p24抗原捕获试剂盒，按照制造商的说明P24浓度^46。
注：病毒浓度还可以通过逆转录酶活性测定^47,48确定。备选地，功能性病毒的水平可以通过测量MOI确定。这是通过使用荧光激活细胞与表达荧光报告基因，如绿色荧光蛋白病毒排序最容易完成的。与可能不支持感染的相同的水平进行优化的细胞系的初级细胞时MOI确定可以是特别有用的。

2.感染细胞与病毒

板，每孔3.0×10 ^5个 HEK293T细胞于在2.5ml的DMEM-FPS一个6孔板，并在组织培养箱孵育过夜。
注意：此协议中回收独特的整合位点的数目成正比在感染中使用的细胞和活性病毒的数量的数量。
传染为500纳克/毫升的终病毒的p24浓度的细胞在500微升新鲜DMEM-FPS终体积用于在组织培养箱2小时，再加入2毫升的DMEM-FPS预热至每孔在37℃和继续孵化。
在48小时后感染，删除媒体并用2ml磷酸盐缓冲盐水（PBS）洗涤细胞。加0.5 ml胰蛋白酶 - EDTA预加热到37℃，和几秒钟后目视检查细胞移位的孔中。
加2ml的预温热的DMEM-FPS和悬浮轻轻向上/向下吹打使细胞与一个容积移液管〜10倍。将该溶液转移至含有18毫升预热DMEM-FPS一个75cm ²的组织培养烧瓶中，并孵育所述细胞在组织培养培养箱中。
后，从感染的起始微创五天，收集细胞通过除去介质，用5ml PBS洗涤，加入2毫升预热胰蛋白酶-EDTA，并通过移液用5ml预热的DMEM-FPS悬浮。离心在室温下5分钟将溶液在2500 xg离心，并弃去上清液。
注意：虽然在约48小时后感染^49,50在这些条件下的高原整合，需要培养的附加3天sufficientlý稀释，从基于细胞的DNA重组或病毒介导的自动积分导致未集成的DNA分子的浓度。
提取使用市售的试剂盒（例如，见^51）将细胞沉淀基因组DNA。洗脱从用200μl的10mM Tris-HCl中，pH值8.5所提供的离子交换柱将DNA。
注：细胞的等分试样应在48小时后的感染（步骤2.3）用于感染性测定，以确保适当的病毒感染前NGS分摊。

3.片段基因组DNA通过超声处理或限制性内切酶消化

注意：超声处理的碎片在一个几乎序列无关的方式的基因组DNA，因此碎片的优选模式时用低的预期回收率测序样品（例如，在相对低的MOI启动感染的患者的细胞或感染）。此外，超声允许一个区分的党重复PCR从独特的集成丘拉尔整合位点序列在同一地点，这是至关重要的，以区分含有原病毒细胞的感染患者（见下文第11步^）39,52-54的克隆扩增。
注意：将DNA应立即下游从上游的LTR被切割的LM-PCR过程中，以减少内部的病毒序列的扩增。限制性内切酶BglⅡ即位于43碱基下游从上游U5序列，这是用于与MseI-产生的DNA随后连接不相容结束作品以及与许多HIV-1株（ 图1B）。当通过超声准备DNA，内部裂解限制性内切酶应连接结扎后应用（ 见图1C - E和下面的步骤4.3）。

用于超声处理，混合在不含核酸酶的水的基因组DNA的10微克至120微升的最终体积。超声处理使用的参数为500 bp的平均规模突破（两轮以下的段米：占空比：5％;强度：3;每一次脉冲周期：200;时间：80秒）。
纯化使用PCR纯化试剂盒声振的DNA。修复DNA末端用DNA末端修复包，净化使用PCR纯化试剂盒的DNA。 A-尾用Klenow外的DNA ^-酶，净化使用PCR纯化试剂盒的A-DNA尾。请参阅^51,52的配套使用的其他详细信息。
用于限制性内切酶消化，在100μl的缓冲液由生产和产生5'- TA突出酶的混合物（100单位每）供给的体积切割基因组DNA的10微克，37℃过夜，以及一个不相容酶如BglII位劈开从上游病毒LTR下游。使用PCR纯化试剂盒纯化该DNA的第二天。
注意：限制性内切酶的无应的终端内切〜由该LM-PCR方案扩增病毒DNA端的30碱基对。该协议专门放大U5HIV-1 DNA的末端。

4.退火接头寡核苷酸和结扎支离破碎的基因组DNA

注：准备含有悬垂是与上述DNA片段（ 见表1中这个协议所使用的寡核苷酸序列）兼容的非对称接头。链接器超声处理的DNA用于必须包含一个兼容的T-3'突出，而对于MseI消化的DNA的连接体必须包含一个兼容5'-TA突出（ 图1）。短连接链必须还含有不可延伸的化学修饰，如3'-胺，来约束朝向感兴趣的DNA随后的扩增反应。
注意：当制备多个并联不同整合位点的库和/或当在相同的测序运行多路复用独特样本，它建议使用独特的接头对每个样品，以限制对样品交叉沾污的可能性PCR过程中通货膨胀。此附加意味着在半巢式PCR（以下描述）的使用独特接头的引物对每个样品。独特接头链和接头引物可以通过加扰表1中列出，同时保持相似的总体％GC含量和适用突出位置上的连接体寡核苷酸序列来设计。

退火短和长接头链在35微升10毫摩尔Tris盐酸，pH值8.0-0.1毫摩尔EDTA（10μM的每种寡核苷酸的最终浓度）通过加热至90℃并缓慢冷却到室温以1°步每分钟℃。
制备每基因组DNA样品的至少四个并联连接反应，其中含有1.5μM的连接接头，1微克片段化DNA，并在50μl800单位T4 DNA连接酶。在12℃结扎过夜。净化用PCR纯化试剂盒的第二天。
用于通过超声处理制备的样品，消化有100U一个restric的纯化连接反应化的酶，根据制造商的下游，从上游LTR（例如，BglⅡ位为HIV-1）的切割推荐的条件过夜。纯化使用PCR纯化试剂盒将DNA。

5.扩增出病毒LTR-主机的基因组DNA结由半巢式PCR

注意：为了确保最佳文库多样性，至少4-8平行的PCR，这取决于所回收的连接反应的DNA浓度，应该对每个样品为两种PCR回合来制备。 DNA模板浓度应通过分光光度法进行量化。在这个协议中的PCR的第一轮和第二轮采用嵌套LTR特异性引物，但相同的特定连接体引物被用于两轮（ 表1）。第二轮LTR特异引物和用于DNA聚类以及测序引物结合位点的特异性连接子引物编码接头序列。嵌套LTR特异性引物还编码6核苷酸索引序列，WHICH可以为同一测序运行中多路复用库不同的引物之间变化。

制备含有每管的成分如表2中列出的第一轮的PCR。
注意：特定接头引物怀有互补的22个核苷酸的连接体，53℃，45％的GC含量，并且其3的熔融温度'末端位于15-16 bp的上游的3'末端不同的连接子长链（ 表1）。第一轮27 nt的LTR引物具有的59℃，48％的GC含量的熔融温度，和它的3'末端位于34碱基上游的HIV-1的U5末端。第二轮26 nt的LTR的引物的区域即HIV-1的LTR互补为60℃，50％的GC含量，并且其3'末端的熔融温度位于18碱基上游从病毒U5总站。建议在寡核苷酸的熔化温度和GC含量应如果用户模仿这些参数设计PCR引物用（包括与其他逆转录病毒使用^）21改变的序列。
运行一次PCR轮在以下热循环参数：一循环：94℃2分钟; 30个循环：94℃15秒，55℃，30秒，68℃45秒;一个循环：68℃10分钟。
池反应和使用PCR纯化试剂盒纯化。制备含有每管中的成分按照表3中的第二轮的PCR。使用在步骤5.2中所述的热循环仪参数运行所述第二轮PCR。凝聚反应和使用市售的PCR纯化试剂盒按照制造商的说明纯化DNA。
注：各种与DNA集群NGS兼容推荐指数序列可用^71。

6.执行QC和NGS（通常由测序完成设施）

（QC测定＃1），使用氟确认步骤5.3文库DNA浓度米^55。简要地说，在200微升不含核酸酶的水的最终体积制备标准和实验样品。涡流管2-3秒，室温下培养2分钟，然后在荧光计读出的样品。
注：样品应包含在15微升体积最小的为2nM文库DNA的最低浓度。
（QC测定＃2）确认用的基于磁带的测定法⁵⁶的DNA片段大小分布。
注：理想的分布是比较宽泛的DNA峰中心在长约500基点。如果材料的显著量大于1 kb的大，则建议掺入大小选过程，以消除更长的DNA的物种，这将聚类过程中妨碍桥扩增。相反，如果一个显著峰是明显的约100至200碱基，引物二聚体可能PCR过程中形成的。在这种情况下，该过程应当被优化，以尽量减少引物二聚体的形成。
（QC检测＃3）有限公司通过定量PCR ⁵⁷并将通过适配器插入DNA文库的适当结合。
制造商的应用程序文学下列情况进行NGS。利用10％的尖峰在（W / W）ΦX174的DNA，这将通过对测序运行提供均衡基础组合物优化实时质量度量。
注：整合位点测序实验通常受到单端150基点（SE150）或配对末端150基点（PE150）测序。 PE150是特别有用的以捕获在每个DNA分子的连接体的连接点（例如，审议整合位时为宿主细胞克隆扩增的证据）。

7.使用自定义的Python或Perl脚本解析测序数据包含LTR-序列，作物离开LTR和接头序列，并映射到参考基因组与BLAT

对于含LTR序列读取，作物LTR和接头序列从宿主基因组DNA序列路程，扫描FASTA文件这些序列导出到新FASTA文件。图裁剪读取到两个参照基因组（例如，人类基因组的版本hg19或GRCh38），并使用BLAT ⁵⁸的病毒基因组，与输出整合位点坐标输出到一个单独的.txt文件，使用以下设置：
stepSize的= 6，minIdentity = 97，和maxIntron = 0
解析BLAT输出.txt文件，删除autointegrations（即证据表明，LTR月底已整合到病毒DNA基因组的内部区域）等的序列映射到HIV-1的基因组，并创建.txt文件一个单独的输出中，所有重复的整合位点已经被浓缩成单一的，唯一的坐标命中。

8.创建一个包含15-NT间隔周围集成.bed文件，这些转换为FASTA文件，构建序列标志来展示基地周边首整合位点

创建列出的基地间隔.bed文件每个整合位点。至少有15个碱基（5上游和下游10）的建议对序列的标志产生。通过使用BEDTools ⁵⁹ fastaFromBed功能，该命令从这些.bed文件的FASTA文件：
fastaFromBed -fi /目录/至/参考/基因组/ -name -s -bed 15_base_pair_file.bed -fo output_file.fasta
注意：不变病毒5'-CA-3'二核苷酸接合集成期间主办的DNA，和验证LTR末端到细胞DNA的交界处是一个重要的初始滤波器，以确定真正的整合位点。我们还从该主机DNA序列人口编译序列标识验证实验结果。作为逆转录病毒展示周围的整合位点^14,15签名碱的喜好，该序列标识用来验证该映射基因组位点产生通过中介导的整合，相对于其他的重组机制，如非同源DNA末端连接^60,61。
使用WebLogo 3（http://weblogo.threeplusone.com/create.cgi）创建从FASTA文件序列标识。点击“选择文件”上传FASTA文件，并使用以下设置输出格式，PDF（矢量）;标志的大小，大的;第一个位置号，-5;标志齐全，-5〜5; Y轴的规模，0.1，Y轴间距抽动，0.5，颜色方案，经典（NA）。

9.创建中央碱基对.bed文件，检查样品交叉污染，以及地图独特的集成点的相对分配到相关的功能基因组

由于逆转录病毒整合整个T-DNA链交错的方式出现时，调整整合位点的精确坐标，以反映目标站点复制相对于基因组功能基因组分布的正确映射的核心基点。
1. 因此，5基点复制病毒如HIV-1，建立与中央基点从我偏移.bed文件通过向正链的整合绘图下游两个基地，两基地上游集成映射负链ntegration网站。
来检查样品的交叉污染，通过使用BEDTools 相交函数相交中央碱基.bed文件两个不同的样品，并按照该命令计算不同的库之间的共同的整合位点的数目：
bedtools相交-a central_basepair_1.bed -b central_basepair_2.bed -f 1.00 -r -s> overlap1v2.txt
算，以量化的两个库通过使用以下命令中常见的部位的确切数目的输出overlap1v2.txt文件内的行数：
厕所-l overlap1v2.txt
下载的RefSeq注释.bed文件被用于从UCSC基因组注释数据库整合位映射的参照基因组的版本（例如 http://hgdownload.cse.ucsc.edu/goldenPath/hg38/da^{tabase）62。}
1. 通过使用BEDTools功能相交相交，那是对样品产生的RefSeq的.bed文件下面这个命令中央碱基对.bed文件计算整合位点下跌的RefSeq基因中的数量：
  bedtools相交-a central_basepair_1.bed -b RefSeq_hg38.bed -u> RefSeq_sample1.bed
算，以量化通过使用以下命令中的RefSeq基因落位点的确切数目的输出RefSeq_sample1.bed文件内的行数：
厕所-l RefSeq_sample1.bed
映射整合位点与感兴趣的任何其他注释的量的间隔.bed文件是可重复步骤9.3和9.4。下载来自UCSC基因组注释数据库感兴趣的参考基因组的最新CpG岛标注.bed文件作为指导步骤9.4。
1. 计算整合位点的落下一定二内的数姿态（在本实施例中所示是一个5 kb的窗口）CpG岛通过使用BEDTools 窗口函数和跟随此指令的：
  bedtools窗口-w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
算，以量化落入2.5 kb以内的上游或下游的CpG岛的通过使用下面的命令位点的确切数目的输出CpG_sample1.bed文件内的行数：
厕所-l CpG_sample1.bed
重复步骤9.6和9.7绘图整合位点附近的起始位置跟。产生RefSeq.bed文件，其中的基因组坐标映射到多个基因的候选版本进行了调整，以反映只有一个单一的基因存在于该位置。这可以防止周围的整合位点基因密度高估。计算通过使用BEDTools 窗口函数和该命令之后围绕每个整合位点的1兆区的基因密度：
通过下面这个命令计算数据集中所有集成的平均密度基因：
awk的'（总和+ = $ 7）END（打印“平均=”总和/ NR）“GeneDensity_sample1.bed

10.统计比较整合位点分布样品采用双尾中的R Fisher精确检验和双尾秩和检验中

注意：使用Fisher精确测试的RefSeq基因内或CpG岛或起始位置跟的窗口内比较整合位点的比例，但使用Wilcoxon秩和检验的分布在周围的整合位点基因密度比较。 R程序可在http://www.r-project.org/。
双尾Fisher精确检验：

使用如步骤9.4和9.7指示计算出的数字，铬eate矩阵中观察到的事件与按照该命令余下的网站（注释内或周围的注释窗口内集成）的R各自的比较：
（annotation_of_interest < - 矩阵（C（SampleA＃中，SampleA＃剩余SampleB＃中，SampleB＃剩余），nrow = 2，dimnames =名单（C（'中心'，'余'），C（'SampleA'， 'SampleB'））））
计算双尾费舍尔的使用以下命令精确检验比较P值：
fisher.test（annotation_of_interest，另类='two.sided'）$ p.value
双尾秩和检验：
创建一个制表符分隔的.txt文件，其中每列包含在顶部电池的样品名称，由该库（从9.9步产生的.bed文件中获得的）所有整合位点基因密度值低于紧随其后。使用以下命令导入这个制表符分隔的.txt文件到R和NAvigating到正确的文件目录：
FILENAME < - as.data.frame（read.delim（file.choose（），标题= T，check.names = FALSE，填写= TRUE，九月=' t'））
计算通过使用以下命令双尾秩和检验比较P值：
wilcox.test（文件名$ SampleA，FILENAME $ SampleB，另类='two.sided'，配对= F，准确= T）$ p.value
注：P值只能下降到R中一定（非常低）极限来计算，在此之后零将由程序返回。对于大量不同的样品能产生在R A P = 0，估计P值作为<2.2×10 ^-308。

11.检查原始测序数据对于包含集成病毒DNA细胞的克隆膨胀的迹象

注意：存在在参考基因组完全相同的核苷酸多个结合一个小的潜力。可替代地，一个单一的tegration事件可能成为在测序数据冗余地存在由于文库制备期间和/或之前，通过DNA制备细胞复制的使用PCR。从HIV感染患者的基因组DNA的最近的分析已经通过识别独特的超声波剪切点/连接器的连接点包含相同的整合位点^52-54的DNA序列内（可前PCR才会出现）来区分这些可能性。目前，以克隆扩增的细胞内窝藏原病毒是否向潜病毒储，因而它是特别令人感兴趣的研究在人类患者中的整合位点时以表征其膨胀水平的辩论。

类似于在步骤8.1中所列的程序，生成.bed文件列出的延伸碱基的间隔，在这种情况下，25个核苷酸的下游从每个唯一整合位点（上游的碱是不必要这里）。产生这些.bed文件FASTA文件（如指示步骤8.1），通过使用来自BEDTools的fastaFromBed功能，下面这个命令：
fastaFromBed -fi /目录/至/参考/基因组/ -name -s -bed 25_base_pair_file.bed -fo output_file.fasta
注意：为了提高每个的特异性查询，建议从各积分位点提取至少25个核苷酸的下游用于克隆扩增的分析。
最好使用自定义脚本，搜索包含完全匹配的25个核苷酸下游每一个独特的整合位点的所有字符串原始序列数据FASTA文件，并存放这些序列到一个新文件。从原始的字符串修剪LTR和接头序列。合并的PE序列通过转换读取读取到的反向互补，修整LTR和接头序列，然后分配READ2字符串其READ1对如果字符串共享至少20个核苷酸的重叠。
扫描每个整合位点块的连接器连接点。每个分类整合为“克隆扩增＆＃34;如果接头连接点≥3沸点分开。
注意：不合并序列克隆扩增分析的协议内容已被描述^52。
注意：在通过超声处理的完全相同位置的基因组中的碎片导致克隆扩增的程度的低估，和方法来纠正所产生的实验偏压已经描述^63,64。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

表4列出一个代表性实验的结果，以示出用于从感染细胞的培养物中回收整合位点的NGS的灵敏度。未感染的细胞的DNA被用于串联从其中在平均每个细胞包含一个积分⁴⁰的感染稀释的基因组DNA。 15625：在五个步骤的1的最大稀释制备稀释液。在滴定系列的基因组DNA，然后通过超声处理片段化或通过用限制性内切核酸酶消化MseI和BglⅡ，随后的LM-PCR的独特整合位点的数目，以及网站地图近端到选定的基因组注释的数目，是根据上述方案计算。数据分析显示，数十个独特的集成网站（量的1-2％，从整齐的基因组DNA恢复）从哪里理论上只有15625人被感染的细胞制备库恢复。当分析整合位数据集，这是至关重要的数据进行比较，以匹配组随机基因组位点，这被称为匹配的随机控制或MRC。作为代表性的结果通过限制性内切酶消化或超声剪切基因组DNA，两个不同的数据集MRC构建。 MRC _恩茨包含从hg19随机选择地点邻近MseI和BglⅡ酶切的部位产生50000独特的基因组位点，而MRC _随机窝藏10000个网站不归从设置基因组标记物的距离产生。仅可映射回一个独特基因组位置的位点应该在MRC的数据集一起使用。作为超声剪基因组DNA从序列偏压基本上不含，MRC _随机可能被视为较适用于由通过超声处理的DNA片段化所产生的数据集。管控一体化的另类风格站点数据集可以在体外通过重组蛋白质反应而产生，intasome核蛋白复合^21，或从急性感染的细胞¹⁷与脱蛋白的基因组DNA提取的PIC，然后按照对LM-PCR和NGS协议^21。

为整合位点的通过超声处理对限制性消化（比较纯样品之间），以及用于比较的MRC _ENZ和MRC _随机的，显示在图2中 。整合位点的分布回收回收的分布比较的P值以下超声处理是类似于由限制回收酶消化用于检查的所有注释，以在对CpG岛接近而言明显的最大方差。正如预期的那样^18,65两个数据集显著从缅甸红十字会在集成方面的RefSeq基因和基因Ð内不同密度周围的平均整合位点，而两个数据集是相对于CpG岛和起始位置跟分配方面类似缅甸红十字会。由于相对较少的HIV-1的整合位点映射内的CpG岛或TSS的2.5 kb的，增加网的总数回收降低的倾向，可以集（表4和图2）之间产生的可变性。序列标识来确认整合位数据的真实性示于图3。共识的HIV-1整合位点^{14,22（-3）TDG} （G / V）的TWA（C / B）CHA（+7）（使用的生物化学基本代码国际联盟写入;反斜杠表示VDNA的位置正链连接和下划线表示5-bp的序列重复以下的HIV-1整合和DNA修复）可以由两个分片技术制备的库明显看出，虽然确定性程度与感染细胞的稀释增大而减小脱氧核糖核酸。从对比数据MRC对准的随机位置未能产生基地偏好可观的水平。

图1：集成网站库制剂流程图说明 （一）通过转染HEK293T细胞，收获和过滤上清液48小时后，通过超速离心浓缩和感染靶细胞的病毒适当浓度生成病毒股票。感染后至少五天，提取基因组DNA。请参阅第1及额外的实验细节正文2。（B和C）片段纯化的基因组DNA消化用限制性酶或通过超声处理。限制性内切酶鸡尾酒应该包括酶（如 BglII位）下游从上游病毒LTR裂解反击-选择LM-P内部VDNA序列的CR放大。绿色星号和（C）中支箭头表示该BglⅡ位应该接头结扎之后施加。红色亮点病毒序列，而黑色的亮点宿主细胞的序列。隐含DNA断裂点（不按比例）由“X”标记的HIV-1包含许多MseI和Ⅱ部位;只有那些相关的协议被示出。地图上方的括号表示由LM-PCR优先扩增所述U5-细胞DNA的区域。 （D）净化零散的DNA（然后最终修复超声的情况和A-尾），并以结扎（E）兼容的非对称连接分子（蓝色）。在（D）的品红圆圈表示将要放大的整合位点。在连接器的短链的3'末端的星号表示氨基保护修饰。（六）开展第一轮的半巢式PCR用首轮LTR底漆（红色）和连接器的引物（蓝色）。在T他的PCR回合中，接头引物编码的DNA聚类和NGS引物结合序列（分组为绿色附属物蓝色接头引物），而LTR的引物缺乏这样的序列。 （G）净化第一轮PCR产物，并进行第二轮半巢式PCR。在这一轮的PCR，使用相同的接头引物与在第一轮（蓝+绿附属物），与第二轮LTR引物（红色）携带的DNA的聚类和NGS引物结合序列以及用于复用条形码（一起分组为一个绿色的附属物红色LTR底漆）。（H）净化第二轮PCR产物作为最终的整合位点库（品红色盒装，由品红圆圈标记整合位点）。提交等分，为质量控制和NGS测序服务。请点击此处查看该图的放大版本。

图 2：P 值对在DNA碎片用超声或经酶切与所属缅甸红十字会整合位点扩增比较 RefSeq的基因和附近的CpG岛和的TSS内的整合位点，以及区域的基因密度分布的数字，中列出。≥0.05以粗体和斜体突出表4中 的P值由Wilcoxon秩和检验计算Fisher精确测试^b 的P值^计算的P值^çMRC _恩茨：。匹配随机控制;一套50000独特的整合位点是随机选择汞构建在接近MseI /BglⅡ限制位点位置产生^19ðMRC _随机：匹配包含10,000独特的整合位点随机控制通过随机selecti生产在没有正常化酶切位点接近hg19纳克的立场。请点击此处查看该图的放大版本。

图3：序列标志描绘的HIV-1相应设定从代表实验库由（A）的用限制酶消化或（B）的声处理制备使用WebLogo软件进行比对库整合位点。在滴定系列的每个稀释描绘，从整齐的DNA在该图中，以第1的最大稀释的顶部：15625在底部。 （C）顺序徽标50,000独特的基因组位点的MRC。误差棒基本上代表在任何特定位置在碱掺入的标准偏差。更具体地，将n每个误差条的otal高度等同于小样品校正两次^66，其用于熵存在于相对较小的数据集的低估控制。 x轴表示相对于集成在零点网站宿主细胞基因组DNA中核苷酸的立场。请点击此处查看该图的放大版本。

表格1
表1：连接器专用和第二寡核苷酸序列的链接建设和PCR扩增轮LTR引物编码DNA集群接头序列，这是颜色编码为：黑色，基地互补的链接或将HIV-1 LTR;红色，唯一索引或条码;绿色，测序引物结合位点;对于DNA集群蓝色，接头序列。单端（SE）测序REActions将利用测序引物退火到第二轮LTR引READ1（绿色）序列，而配对末端（PE）的反应将同时使用（READ1和READ2）测序引物。 ^一个链接的短链包含3'氨基保护修改。请点击此处查看该表的放大版本。

试剂	要添加每反应
第一轮LTR引物（15μM）：	2.5微升
接头特异性引物（15μM）：	0.5微升
10X PCR缓冲液：	2.5微升
的dNTP（2.5每个MM）	0.5微升
DNA聚合酶组合：	0.5微升
连接反应：	100纳克
无核酸酶水：	多达25微升

表2：配方为第一轮的PCR要添加到每个单独的PCR管被指示每个指定试剂的量。

试剂	要添加每反应
第二轮LTR引物（15μM）：	2.5微升
接头特异性引物（15μM）：	0.5微升
10X PCR缓冲液：	2.5微升
的dNTP（2.5每个MM）	0.5微升
DNA聚合酶组合：	0.5微升
第一轮PCR： 100纳克
无核酸酶水：	多达25微升

表3：第二轮PCR配方要添加到每个PCR管各试剂的量表示。

<TD>文摘，1：125

图书馆	#Unique网站	％ ^一 RefSeq的	％的CpG +/- 2.5 kb的^b	TSS％+/- 2.5 kb的^Ç	平均。基因密度+/- 500 ^KBð
超声，整齐	3,169	71.2	5.1	3.7	15.8
超声处理，1:5	366	75.1	2.7	3	16.3
254	74	7.1	5.1	16.7
超声处理，1：125	430	69.8	6.9	6	14.6
超声处理，1：625	314	65.6	5.6	6.7	13.5
超声处理，1：3,125	116	73.6	3.5	2.5	13.1
超声处理，1：15625	72	62.5	0	1.4	14.7
文摘，整齐	7428	69.8	3.6	2.9	15.2
消化，1:5	1460	71.4	4.4	3.4	14.9
文摘1:25	394	68.8	4.3	3.3	15.8
172	71	0	3	14
消化，1：625	134	73.9	3.7	3.7	14.1
消化，1：3,125	100	83.1	6.4	5.2	19.1
消化，1：15625	73	74	4.1	1.4	9.7
MRC _恩茨 ^ê	50000	44.7	4.2	4	8.7
MRC _随机 ^˚F	万	41.3	5.3	4.2	8.6

表4： 代表滴定系列整合位点基因组总经销站点，整合日的百分比。在范围内的TSS的2.5 kb的^秋天的RefSeq基因中^，B CpG岛的2.5 kb的范围内，并且^C ^D周围的平均整合位点有1 Mb内的基因密度^E×MRC _恩茨：。匹配随机控制;一套50000独特的整合位点被随机选择邻近的hg19 MseI /BglⅡ限制位点位置产生^˚FMRC _随机：包含通过随机选择在hg19位置，而正常化固定位置产生10,000个唯一的整合位点相匹配的随机控制。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

一种用于逆转录病毒整合位点的分析协议，从通过基因组分布模式映射的初始病毒感染步骤，进行说明。这个协议是适用于任何反转录病毒和任何可感染的细胞类型。此外，该测定管道是相当敏感，以回收的从基因组DNA等效的系列稀释独特的整合位点令人满意编号以与6.4×10 ^-5的MOI启动的感染的可能性。当从可能含有低病毒载量，其中只有细胞的一小部分会窝藏集成原病毒感染的患者施加到样本这种敏感性使得协议特别有用。在这一领域^36,38,41-43之前方法论的论文一致，在这个协议的生物信息学部分的多个步骤将定制的脚本开发受益顺序处理大量数据文件。虽然BLAT ⁵⁸是马pping在本协议中所述程序，用户可能会发现蝴蝶结^{67（http://bowtie-bio.sourceforge.net/index.shtml）}是一个合适的选择。

一个替代的生物信息学流水线最近报道的测定莫洛尼鼠白血病病毒（的MoMLV）整合位点^19。在它被开发成独立的软件，是可公开获得的，并且是相当强大的，因为它最初是用于映射成千上万的独特的MoMLV整合位点即管道是有用的。然而，现有的软件最初被设计为专门重新分析报告的MoMLV数据集，所以重新编程将是必要定制管道交替的实验设计（该工具的功能是最近扩展到包括腺相关病毒和TOL2和AC / Ds转载体^68）。此外，该协议描述的初步整合位点的产生.bed文件，但并没有制定出必要的地图网站的具体步骤，相关的基因组注释。读者可能会发现“向整合位点分析”服务器^69，这是当前稿件的审查过程中释放，分析使用此处描述的协议所产生的NGS序列非常有用。

某些点应该使用任何协议时，分析逆转录病毒整合位点的数据集被强调。当在串联制备多个库，一个显著潜在存在样品的交叉污染。即使样品的串扰非常小的水平可以掩盖的结果以呈现NGS运行不可用的水平。因此，所有的湿钳工工作应在消毒，专用层流罩或PCR工作站来完成。一组吸液管和试剂诸如无核酸酶的水，应专门致力于整合位点扩增。每个库制备过程中使用独特的连接体可以限制潜在的跨放大，并且还允许交叉鉴定原始FASTA文件中的每个库中读取。

考虑使用超声与酶切片段化的基因组DNA的优劣是很重要的。一方面，超声处理提供剪切点的相对随机分布，但随后所需DNA修复和A尾步骤持续降低的接头连接产物的产率相比，用限制酶产生的粘性末端进行结扎。另一方面，限制性酶消化提供剪切点，这将不可避免地引入已恢复的数据中的一些偏倚的-支付较少的人口。利用限制性内切酶以丢弃上游LTR序列将在两种情况下（ 图1）导致在位于基因组中的该位点的上游整合位点的一小部分的损失。任何数据偏差，可能会导致可广告通过文库制备过程中忽略从协议的酶消化，过滤掉导致从测序数据上游LTR序列的众多打扮。

虽然当前协议是相当敏感的，能够产生数百万的独特整合位点^21,40，所有可用的集成的仅约三分之一的可预期在即使有最好的库制剂（参考的给定实验被放大^。70和未发表意见）。分析从暗藏的病毒载量低的低MOI感染或患者的样品时，这可能引起并发症。这种限制可以部分通过重复测序同样文库制备和/或测序并行同一DNA样本得出多个库来克服。在检测灵敏度提高未来也会相应是逆转录病毒整合位点的测序深化翻译应用非常有利。

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

我们非常感谢我们的同事斯蒂芬·休斯和亨利·莱文的意见，这是建立逆转录病毒整合位点的测序NGS协议在恩格尔曼实验的关键。这项工作是由美国国立卫生研究院授予AI039394和AI052014（以ANE）和AI060354（哈佛大学艾滋病研究中心）的支持。

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS