Biology

Amplification, Séquençage de nouvelle génération, et l'ADN génomique Cartographie des rétrovirales Sites d'intégration

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

Rétrovirus exposition préférences d'intégration de la signature sur les deux échelles locales et globales. Ici, nous présentons un protocole détaillé pour (1) génération de diverses bibliothèques de sites d'intégration rétrovirales par PCR (LM-PCR) de ligature médiée et séquençage de nouvelle génération (NGS), (2) la cartographie de la localisation génomique de chaque virus- accueillir la jonction en utilisant bedtools, et (3) l'analyse des données pour la pertinence statistique. L'ADN génomique extrait de cellules infectées est fragmenté par digestion avec des enzymes de restriction ou par sonication. ADN après la fin de la réparation appropriée, lieurs double brin sont ligaturés sur les extrémités d'ADN et la PCR semi-nichée est réalisée en utilisant des amorces complémentaires à la fois à la longue répétition terminale (LTR) du virus extrémité et l'ADN de liaison ligaturer. Les amorces de PCR portent des séquences requises pour la classification de l'ADN lors de NGS, niant la nécessité d'adapter la ligature séparée. le contrôle de la qualité (CQ) est réalisée afin d'évaluer la distribution de la taille des fragments d'ADN et d'adapterer ADN incorporation avant NGS. les fichiers de sortie de séquence sont filtrés pour LTR contenant lit, et les séquences définissant le LTR et l'éditeur de liens sont rognées loin. des séquences de cellules hôtes rognées sont mises en correspondance à un génome de référence en utilisant BLAT et sont filtrées pour une identité minimale de 97% à un point unique dans le génome de référence. sites d'intégration uniques sont examinés pour nucléotide adjacent (nt) la séquence et la distribution par rapport à diverses caractéristiques génomiques. En utilisant ce protocole, les bibliothèques de site d'intégration d'une grande complexité peuvent être construites à partir d'ADN génomique dans les trois jours. Le protocole complet qui englobe une infection virale sensible exogène de cellules de culture tissulaire à l'analyse des sites d'intégration peut donc être effectuée en environ une à deux semaines. Les applications récentes de cette technologie se rapportent à l'analyse longitudinale des sites d'intégration de patients infectés par le VIH.

Introduction

L'intégration de l'ADN viral (vDNA) dans le génome de la cellule hôte est une étape essentielle dans le cycle de vie retroviral. L' intégration est réalisée par l'enzyme intégrase virale (IN), qui réalise deux procédés catalytiques distincts qui conduisent à la mise en place du provirus inséré de façon stable ^1. EN unités s'engager les extrémités de la vDNA linéaire qui est produite par transcription inverse, la formation de la intasome d'ordre supérieur avec vDNA extrémités maintenues ensemble par un multimère EN ^2-4. EN clive 'extrémités de la vDNA en aval de 5'-CA-3 invariants du 3 séquences dans un processus connu sous le nom 3'-traitement, laissant en retrait extrémités 3' avec des groupes hydroxyles réactifs à chaque vDNA terminale ^5-8. Le intasome est ensuite importé dans le noyau dans le cadre d'un grand ensemble de l' hôte et des protéines virales connues comme le complexe de pré - intégration (PIC) ^9-11. Après avoir rencontré l'ADN cible cellulaire (ADNt), IN utilise le vDNA 3'-hydroxyle groups pour cliver le haut ADNt et des brins inférieurs en quinconce et se joint à la vDNA à des groupes de phosphate ADNt 5 'dans le processus de transfert de brin ^12,13 simultanément.

Rétrovirus préférences du site d'intégration d'exposition sur les échelles locales et globales. Localement, les sites d'intégration de consensus sont constitués de séquences palindromiques TDNA faiblement conservés qui enjambent d'environ cinq à dix paires de bases en amont et en aval des sites d'insertion vDNA ^14,15. Globalement, les retrovirus ciblent annotations chromatine spécifiques ^16. Il y a sept genres différents rétroviral - alpha par epsilon, lenti et spuma. Les lentivirus, qui comprennent le VIH-1, favorisent l' intégration au sein des organes de gènes activement transcrits ^17, tandis que les gammaretroviruses intègrent préférentiellement dans les sites de transcription de démarrage (TSSS) et des régions activatrices actives ^18-20. À l'opposé, spumavirus est fortement biaisé vers heterochromrégions atiques, tels que les domaines de la lamina associée gènes pauvres ^21. Les préférences de base ADNt locales sont en grande partie dictée par des réseaux spécifiques de contacts nucléoprotéine entre IN et ADNt ^13,22,23. Pour les lentivirus et gammaretroviruses, l' intégration par rapport aux annotations génomiques est en grande partie régie par des interactions entre IN et facteurs cellulaires parentes ^24-27. Modifier les détails du réseau d'interaction IN-ADNt ^13,22,23,28 et de perturber ou de re-engineering IN-hôte interactions de facteurs ^25-27,29-32 sont des stratégies éprouvées pour recibler l' intégration aux niveaux local et mondial, respectivement.

La puissance des procédures de séquençage d'ADN utilisés au catalogue des sites d'intégration rétrovirale a beaucoup augmenté au cours des dernières décennies. Les sites d'intégration ont été récupérés dans le travail de pionnier en utilisant la purification laborieuse et des techniques manuelles de clonage pour obtenir une poignée de sites uniques par étude ^33,34.La combinaison de l' amplification LM-PCR des jonctions d'ADN LTR-hôtes avec la possibilité de cartographier des sites d'intégration individuels aux génomes humains et les projets de souris transformées sur le terrain, avec le nombre de sites récupérés à partir de la culture tissulaire exogène infection de cellules croissant à plusieurs centaines de milliers ^{17 , 18.} La combinaison la plus récente de la LM-PCR avec la méthodologie NGS a envoyé la profondeur de la bibliothèque montée en flèche. Plus précisément, pyroséquençage a donné l'ordre de dizaines de milliers de sites d'intégration uniques ^30,35-38, tandis que les bibliothèques séquencés grâce à l'utilisation du regroupement d'ADN peut donner des millions de séquences uniques ^19-21,39. Nous décrivons ici un protocole LM-PCR optimisé pour l'amplification et le séquençage des sites d'intégration rétroviraux utilisant NGS de regroupement d'ADN. Le procédé incorpore nécessaire séquences d'adaptation dans les amorces de PCR, et donc directement dans les molécules d'ADN amplifiées, ce qui empêche ainsi la nécessité d'une étape de ligature adaptateur supplémentaire avant séquenCing ^40. Le pipeline d'analyse bio-informatique, à partir de l'analyse des données de séquençage pour les premières LTR-hôtes d'ADN des jonctions à la cartographie des sites uniques d'intégration à PERTINENT caractéristiques génomiques, est également décrite de façon générale. Conformément à la préséance établi des protocoles méthodologiques antérieurs dans ce domaine ^36,38,41-43, scripts personnalisés peuvent être développés pour faciliter la réalisation des étapes spécifiques dans le pipeline de la bioinformatique. L'utilité et la sensibilité du protocole est illustré par des données représentatives de l'amplification, le séquençage et la cartographie du VIH-1 des sites d'intégration à partir de cellules de culture de tissus infectés à la multiplicité approximative d'infection (MOI) de 1,0, ainsi qu'une série de titrages de cet ADN diluée à travers l' ADN cellulaire non infecté dans 5 fois des mesures pour une dilution maximale de 1: 15,625 pour obtenir le approximative MOI équivalent de 6,4 x 10 ^-5.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Générer des stocks de virus

Note: Un organigramme de l'aspect banc humide de ce protocole est représenté sur la figure 1 Les détails de la production de stock virale et une infection ultérieure des cellules de culture de tissus seront applicables aux différents types de retrovirus.. Pour certaines expériences, la cellule cible ne peut pas exprimer le récepteur viral endogène (s), et dans ces cas la construction de particules rétrovirales pseudotypées hébergeant hétérologue glycoprotéine d'enveloppe virale, par exemple , la glycoprotéine G du virus de la stomatite vésiculaire (VSV-G), seront requis pour l' infection ^44,45.

Remarque: précautions doivent être prises lorsque l'on travaille avec le VIH-1. Bien que des lignes directrices spécifiques varient d'un établissement à, tous les travaux sur la base de virus doit être effectuée dans une armoire dédiée, l'opérateur restreint la sécurité biologique (généralement appelée culture hotte de tissu). équipement de protection individuelle appropriéqui comprend une protection du visage, des couvre-chaussures, une couche de gant double, et un costume de coverall corps entier doit être porté en tout temps. Tous les déchets liquides résultant d'expériences liés aux virus doit être inactivé avec l'eau de Javel (10% concentration finale) et tous les déchets, y compris les solides doivent être autoclavés avant leur élimination.

Un jour avant la transfection, la plaque de 3,3 x 10 ⁶ cellules HEK293T dans 10 ml de milieu Eagle modifié de Dulbecco (DMEM) supplémenté avec 10% (v / v) de sérum fœtal bovin et 1% (v / v) de pénicilline / streptomycine (10 000 U / ml stock) dans chacune des cinq boîtes de 100 mm.
Note: Complété-DMEM est appelé DMEM-FPS à partir de ce point.
Le jour suivant, transfecter les cellules avec 10 pg de plasmide portant longueur totale de clones moléculaires rétroviraux ou 9 pg de vecteurs à un tour d'enveloppe supprimée avec 1 pg d'un VSV-G d'assemblage d'expression en utilisant disponibles dans le commerce des réactifs de transfection ou de phosphate de calcium.
1. Incuber la caunes à 37 ° C dans un incubateur humidifié de culture cellulaire avec 5% de CO ₂ (cette condition ci-après dénommés "incubateur de culture tissulaire»). Après environ 48 heures, la récolte du milieu cellulaire contenant le virus à l'aide d'une pipette volumétrique et le passer à travers un filtre de 0,45 um par écoulement gravitaire.
2. Concentrer le virus par ultracentrifugation à 200 000 xg pendant 1 h à 4 ° C. Reprendre le culot de virus dans 500 ul DMEM-FPS contenant 20 U DNase, et incuber pendant 1 heure à 37 ° C.
  Remarque: L'étape DNase permet de réduire la récupération des séquences de plasmide indésirables en éliminant le poids de l'ADN de plasmide qui persiste à la procédure de transfection.
Déterminer la concentration de p24 ⁴⁶ en utilisant un antigène p24 du VIH-1 kit de capture selon les instructions du fabricant.
Remarque: la concentration de virus peut également être déterminée par l' activité transcriptase inverse dosage ^47,48. En variante, le niveau de virus fonctionnel peutêtre déterminée en mesurant MOI. Ceci est plus facilement réalisé en utilisant les cellules activées par fluorescence de tri avec des virus qui expriment des gènes rapporteurs fluorescents tels que la protéine fluorescente verte améliorée. détermination MOI peut être particulièrement utile lorsque l'on travaille avec des cellules primaires qui ne peuvent pas soutenir le même niveau d'infection des lignées de cellules optimisées.

2. Cellules Infect avec Virus

Plaque 3,0 x 10 ⁵ cellules HEK293T par puits dans une plaque à 6 puits dans 2,5 ml de DMEM-FPS et incuber pendant une nuit dans un incubateur de culture tissulaire.
Note: Le nombre de sites uniques d'intégration récupérés avec ce protocole est directement proportionnelle au nombre de cellules et la quantité de virus actifs utilisés dans l'infection.
Infect cellules avec une concentration de p24 virale finale de 500 ng / ml dans un volume final de 500 ul frais DMEM-FPS pendant 2 heures dans un incubateur de culture de tissu, puis ajouter 2 ml de DMEM-FPS pré-chauffé à 37 ° C par puits et poursuivre l'incubation.
À48 heures après l'infection, retirer les médias et laver les cellules avec 2 ml de solution saline tamponnée au phosphate (PBS). Ajouter 0,5 ml de trypsine-EDTA pré-chauffé à 37 ° C, et après quelques secondes d'inspecter visuellement les puits pour le délogement cellulaire.
Ajouter 2 ml de pré-chauffé DMEM-FPS et remettre les cellules en douceur jusqu'à pipetage / bas avec une pipette volumétrique ~ 10 fois. Transférer la solution dans un 75 flacon de culture cm ² de tissu contenant 18 ml de DMEM préchauffé-SFP, et incuber les cellules dans un incubateur de culture tissulaire.
Après minimalement cinq jours après le début de l'infection, recueillir les cellules en supprimant les médias, laver avec 5 ml de PBS, ajouter 2 ml préchauffé trypsine-EDTA, et resuspendre avec 5 ml préchauffée DMEM-FPS par pipetage. Centrifuger la solution pendant 5 min à température ambiante à 2500 xg, et jeter le surnageant.
Note: Bien que l' intégration dans ces conditions plateaux à environ 48 heures après l'infection ^49,50, les 3 jours supplémentaires de culture sont nécessaires pour sufficiently diluer la concentration de molécules d'ADN non intégrés qui résultent de la recombinaison d'ADN à base de cellules ou autointegration virale médiée.
Extraire l' ADN génomique à partir du culot cellulaire en utilisant un kit disponible dans le commerce (par exemple, voir ^51). Éluer l'ADN à partir de la colonne échangeuse d'ions fourni avec 200 ul de 10 mM de Tris-HCl, pH 8,5.
Remarque: Une partie aliquote de cellules doit être réparti à 48 heures post-infection (étape 2.3) pour un essai d'infectivité pour assurer l'infection appropriée du virus avant NGS.

3. Le fragment d'ADN génomique par traitement aux ultrasons ou par des enzymes de restriction Digest

Note: les fragments d' ADN génomique sonication d'une manière indépendante de la séquence virtuellement et est donc le mode de fragmentation préférable lorsque le séquençage d' échantillons avec un taux de récupération prévu faible (par exemple, les cellules de patients infectés ou des infections initiées relativement faible MOI). En outre, la sonication permet de distinguer les doublons de PCR d'un partiséquence du site d'intégration culier d'intégrations uniques sur le même site, ce qui est essentiel pour distinguer l'expansion clonale de cellules contenant provirus chez les patients infectés (voir l' étape 11 ci - dessous) ^39,52-54.
Remarque: L'ADN doit être coupé immédiatement en aval du LTR en amont pour diminuer l'amplification des séquences virales internes au cours LM-PCR. L'enzyme de restriction BglII , qui se trouve 43 paires de bases en aval de la séquence U5 en amont et qui est incompatible pour la ligature ultérieure avec l' ADN généré par Msel se termine fonctionne bien avec plusieurs souches VIH-1 (figure 1B). Lors de la préparation de l' ADN par sonication, l'interne de clivage d' enzyme de restriction doit être appliqué après linker ligature (voir la figure 1C - E et l' étape 4.3 ci - dessous).

Pour sonication, mélanger 10 ug d'ADN génomique dans l'eau sans nucléase à un volume final de 120 pi. Soniquer en utilisant des paramètres pour une taille de rupture moyenne de 500 pb (deux tours de la para suivantemètres: Cycle de service: 5%; intensité: 3; cycles par rafale: 200; temps: 80 sec).
Purifier l'ADN soniquée à l'aide d'un kit de purification PCR. Réparer l'ADN des extrémités en utilisant un kit de fin réparation de l'ADN et de purifier l'ADN en utilisant un kit de purification PCR. Une queue de l'ADN en utilisant Klenow exo ^- enzyme et purifier l'ADN à queue A l' aide d' un kit de purification PCR. Reportez - vous à ^51,52 pour plus de détails sur l' utilisation du kit.
Pour la digestion par endonucléase de restriction, coupé 10 ug d'ADN génomique durant la nuit à 37 ° C dans un volume de 100 ul avec du tampon fourni par le fabricant et un cocktail d'enzymes (100 UI chacune) qui génère des surplombs 5 'TA, ainsi qu'un enzyme incompatibles tels que BglII qui clive en aval de l'amont LTR virale. Purifier l'ADN le jour suivant en utilisant un kit de purification PCR.
Remarque: Aucune des enzymes de restriction devrait couper dans le terminal ~ 30 pb de l'extrémité de l'ADN viral qui est amplifié par le protocole LM-PCR. Ce protocole amplifie spécifiquement U5fin de l'ADN du VIH-1.

4. recuire Linker Oligonucleotides et ligaturer à Fragmenté ADN génomique

Note: Préparer un lieur asymétrique contenant un surplomb qui est compatible avec les fragments d'ADN ci - dessus (voir le tableau 1 pour les séquences d'oligonucléotides utilisées dans ce protocole). L'éditeur de liens à utiliser avec l' ADN sonifié doit contenir T-protubérante 3 'compatible, tandis que l'agent de liaison pour l' ADN digéré par Msel doit contenir un débord compatible 5'-TA (figure 1). Le brin de liaison court doit contenir en outre une modification chimique non extensible, tel que le 3 'amine, pour limiter les réactions d'amplification ultérieures vers l'ADN d'intérêt.
Remarque: Lors de la préparation de plusieurs différentes bibliothèques de sites d'intégration en parallèle et / ou lorsque des échantillons uniques de multiplexage sur le même séquençage terme, il est recommandé d'utiliser des linkers uniques pour chaque échantillon afin de limiter le potentiel de l'échantillon contre-contamination au cours de la PCR. Cela implique en outre l'utilisation d'amorces de liaison unique pour chaque échantillon au cours de la PCR semi-nichée (décrite ci-dessous). Brins de liaison uniques et des amorces de liaison peuvent être conçus en brouillant les séquences d'oligonucléotides de liaison figurant au tableau 1 , tout en maintenant le contenu% de GC globale similaire et positions de surplomb applicables.

Recuire les brins de liaison courtes et longues dans 35 pl de 10 mM de Tris-HCl, pH mM d'EDTA 8,0 à 0,1 (concentration finale de 10 uM de chaque oligonucleotide) par chauffage à 90 ° C et en refroidissant lentement à température ambiante, par incréments de 1 ° C par minute.
Préparer au moins quatre réactions de ligature parallèles par échantillon d'ADN génomique, qui contiennent 1,5 uM linker ligation, l'ADN fragmenté 1 pg et 800 U d'ADN ligase T4 dans 50 pl. Ligaturer nuit à 12 ° C. Purifier le lendemain avec un kit de purification PCR.
Pour les échantillons préparés par sonication, digèrent la réaction de ligature a été purifiée par 100 U d'une restriction enzyme qui clive en aval du LTR amont (par exemple, BglII pour le VIH-1) dans le cadre du fabricant recommandé conditions du jour au lendemain. On purifie l'ADN en utilisant un kit de purification PCR.

5. Amplifier virales LTR-hôte ADN génomique Jonctions par PCR semi-nichée

Remarque: Afin d'assurer la diversité de la bibliothèque optimale, au moins 4-8 PCR parallèles, en fonction de la concentration d'ADN de la réaction de ligature récupéré doit être préparé pour chaque échantillon pour les deux cycles de PCR. la concentration de matrice d'ADN devrait être quantifié par spectrophotométrie. Dans ce protocole , les premier et deuxième tours de PCR emploient imbriqués amorces LTR-spécifiques, mais la même amorce spécifique de liaison est utilisé pour les deux tours (tableau 1). La seconde amorce LTR spécifique ronde et les séquences d'adaptateur amorce codent spécifique à l'éditeur de liens pour le regroupement d'ADN ainsi que des sites de liaison à l'amorce de séquençage. L'amorce spécifique LTR imbriquée code également pour une séquence d'index 6 nt, which peut varier entre les différentes amorces pour les bibliothèques de multiplexage dans le même séquençage terme.

Préparer les premiers RFP ronds contenant les ingrédients par tube comme indiqué dans le tableau 2.
Remarque: L'amorce spécifique du lieur héberge 22 nt de complémentarité avec le segment de liaison, une température de fusion de 53 ° C, une teneur en GC de 45% et son extrémité 3 'est située 15 à 16 pb en amont de la 3' de les longs brins de liaison différentes (tableau 1). Le premier tour 27 nt RLT primaire a une température de fusion de 59 ° C, une teneur en GC de 48% et son extrémité 3 'est situé à 34 pb en amont du VIH-1 U5 terminale. La région de la deuxième série d'amorce 26 nt RLT qui est complémentaire du VIH-1 LTR a une température de fusion de 60 ° C, un contenu en GC de 50% et son extrémité 3 'est situé à 18 pb en amont de la U5 virale terminus. Il est recommandé que la température de fusion et oligonucléotide GC-contenu doivent imiter ces paramètres si les utilisateursamorces de PCR de conception avec des séquences modifiées (y compris pour une utilisation avec d' autres retrovirus) ^21.
Exécutez premier tour PCR dans les paramètres du thermocycleur suivants: Un cycle: 94 ° C pendant 2 min; 30 cycles: 94 ° C pendant 15 s, 55 ° C pendant 30 secondes, 68 ° C pendant 45 secondes; un cycle: 68 ° C pendant 10 min.
Rassembler les réactions et purifier en utilisant un kit de purification PCR. Préparer deuxième RFP rondes contenant les ingrédients par tube selon le Tableau 3. Exécutez le second tour de PCR en utilisant les paramètres du thermocycleur décrits dans l' étape 5.2. Mutualiser les réactions et on purifie l'ADN en utilisant un kit de purification PCR commercial en suivant les instructions du fabricant.
Note: Une variété de séquences d'index recommandées compatibles avec NGS de clustering d'ADN sont disponibles ^71.

6. Effectuer QC et NGS (Typiquement complété par une installation de séquençage)

(QC essai n ° 1) Confirmer l'étape 5.3 concentration d'ADN bibliothèque à l'aide d'un fluoromètre ^55. En bref, préparer des normes et des échantillons expérimentaux dans un volume final de 200 l'eau sans nucléase ul. tubes Vortex pendant 2-3 sec, incuber à température ambiante pendant 2 min, puis lire les échantillons dans le fluoromètre.
Nota: Les échantillons doivent contenir une concentration minimale de deux ADN de la banque nM dans un volume minimum de 15 ul.
(QC essai n ° 2) Confirmer la distribution de taille des fragments d'ADN en utilisant un essai sur bande ^56.
Remarque: Une répartition idéale est relativement large pic d'ADN de centrage autour de 500 pb de longueur. Si une quantité importante de matière est supérieure à 1 kb, il est recommandé d'incorporer une procédure taille-sélection pour éliminer les espèces d'ADN plus longues, qui empêcheront le pont amplification lors de clustering. En revanche, si un pic significatif apparaît environ 100 à 200 pb, un dimère d'amorce peut s'être formée au cours de la PCR. Dans ce cas, la procédure doit être optimisée afin de minimiser la formation de dimères d'amorces.
(QC test n ° 3) Confirm incorporation appropriée des adaptateurs dans la bibliothèque d'ADN par PCR quantitative ^57.
Effectuer NGS suivant la littérature d'application du fabricant. Utiliser un pic-in de 10% (p / p) ΦX174 ADN, ce qui permettra d'optimiser les mesures de qualité en temps réel en fournissant la composition de base équilibrée pour la course de séquençage.
Note: les expériences de séquençage du site d'intégration sont généralement soumis à une seule extrémité 150 pb (SE150) ou appariées extrémité 150 pb (PE150) séquençage. PE150 est particulièrement utile pour capturer le point sur chaque molécule d'ADN de fixation de liaison (par exemple, lors de l' examen des sites d'intégration des preuves de la cellule hôte expansion clonale).

7. Utilisez un Python ou PERL script personnalisé pour Parse Séquençage données pour LTR contenant Sequences, Crop loin LTR et Linker Sequences, et la carte de référence du génome avec BLAT

fichiers FASTA scan pour LTR-séquence contenant lit, LTR des cultures et des séquences de liaison loin de séquence d'ADN génomique de l'hôte, etexporter ces séquences dans un nouveau fichier FASTA. Plan recadrée lit à la fois un génome de référence (par exemple , l' homme hg19 versions du génome ou GRCh38) et le génome viral en utilisant BLAT ^58, avec le site d'intégration de sortie coordonnées exportées vers un fichier .txt séparé, en utilisant les paramètres suivants:
stepSize = 6, minIdentity = 97 et maxIntron = 0
Parse la sortie BLAT fichier .txt, retirez autointegrations (c. -à- preuve que la fin LTR a intégré dans une région interne du génome de l' ADN viral) et d' autres séquences de cartographie du génome du VIH-1, et de créer une sortie séparée .txt fichier dans lequel tous les sites d'intégration en double ont été condensés en un seul, de coordonnées unique hits.

8. Créer des fichiers .bed contenant Intervalles 15 Nt Environnement Integrations, convertir ces fichiers FASTA et Construct Sequence Logos pour afficher les préférences de base à proximité des sites d'intégration

Créer des fichiers .bed qui liste un intervalle de bases pourchaque site d'intégration. Au moins 15 bases (5 amont et aval 10) sont proposés pour le logo de la séquence génération. Générer un fichier FASTA à partir de ces fichiers .bed en utilisant la fonction de fastaFromBed de bedtools ⁵⁹ et cette commande:
-fi / répertoire fastaFromBed / vers / référence / génome / -name -s -bed 15_base_pair_file.bed -fo output_file.fasta
Remarque: le virus 5'-CA-3 'dinucléotide invariante est relié à l'hôte lors de l'intégration de l'ADN et la vérification de la jonction de l'extrémité LTR de l'ADN cellulaire est un filtre initial important d'identifier les véritables sites d'intégration. Nous compilons en outre les logos de séquence de cette population de séquence d'ADN de l'hôte afin de vérifier les résultats expérimentaux. Comme retrovirus afficher signature préférences de base autour de leurs sites d'intégration ^14,15, les logos de séquence servent à valider que les sites génomiques mappés surgi grâce à l' intégration IN-médiée par rapport à d' autres mécanismes de recombinaison tels que l' ADN non homologue^60,61 extrémité de jonction.
Utilisez WebLogo 3 (http://weblogo.threeplusone.com/create.cgi) pour créer des logos de séquence à partir des fichiers FASTA. Cliquez sur "Choisissez Fichier" pour télécharger le fichier FASTA, et utiliser les paramètres suivants: Format de sortie, PDF (vecteur); la taille du logo, grand; Premier numéro de position, -5; Plage de Logo, -5 à 5; échelle de l'axe Y, 0,1, axe Y espacement tic, 0,5, système couleur, classique (NA).

9. Créer Central Base de Pair .bed Files, Check for Sample contamination croisée, et cartographier la répartition des sites uniques d'intégration par rapport aux caractéristiques génomiques Pertinent

Etant donné que l'intégration rétrovirale se produit en quinconce sur les brins TDNA, ajuster les coordonnées précises des sites d'intégration pour refléter le pb central de la duplication du site cible pour la cartographie génomique correcte de la distribution par rapport aux caractéristiques génomiques.
1. Par conséquent, pour 5 pb duplication des virus comme le VIH-1, créez un fichier .bed avec le décalage de la i pb centralntégration site en deux bases en aval pour les intégrations à la cartographie du brin plus, et deux bases en amont pour les intégrations cartographie du brin moins.
Pour vérifier la contamination croisée échantillon, calculer le nombre de sites d'intégration communs entre les différentes bibliothèques en utilisant les bedtools croisent fonction pour couper pb central .bed fichiers pour deux échantillons différents et en suivant cette commande:
bedtools intersection -a central_basepair_1.bed -b central_basepair_2.bed -f 1,00 -r -s> overlap1v2.txt
Comptez le nombre de lignes dans le fichier de sortie overlap1v2.txt afin de quantifier le nombre exact de sites communs entre les deux bibliothèques en utilisant la commande suivante:
wc -l overlap1v2.txt
Télécharger le fichier .bed RefSeq d'annotation pour la version du génome de référence qui a été utilisé pour la cartographie du site d'intégration de la base de données UCSC Genome Annotation (par exemple http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database) ^62.
1. Calculer le nombre de sites d'intégration relevant de gènes RefSeq en utilisant les bedtools croisent fonction pour croiser le fichier .bed paire de base centrale qui a été généré pour l'échantillon avec le RefSeq .bed fichier suivant cette commande:
  bedtools intersection -a central_basepair_1.bed -b RefSeq_hg38.bed -u> RefSeq_sample1.bed
Comptez le nombre de lignes dans le fichier de sortie RefSeq_sample1.bed afin de quantifier le nombre exact des sites relevant des gènes RefSeq en utilisant la commande suivante:
wc -l RefSeq_sample1.bed
Répétez les étapes 9.3 et 9.4 pour les sites d'intégration de la cartographie à toute autre annotation d'intérêt pour lequel un intervalle .bed fichier est disponible. Télécharger le fichier le plus récent CpG island annotation .bed pour le génome d'intérêt de la base de données UCSC Genome Annotation de référence comme indiqué à l'étape 9.4.
1. Calculer le nombre de sites d'intégration se situant dans une certaine diposition (illustrée dans cet exemple est une fenêtre de 5 kb) des îlots CpG en utilisant la fonction de fenêtre bedtools et en suivant cette commande:
  bedtools fenêtre -w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
Comptez le nombre de lignes dans le fichier de sortie CpG_sample1.bed afin de quantifier le nombre exact des sites relevant de 2,5 kb en amont ou en aval des îlots CpG en utilisant la commande suivante:
wc -l CpG_sample1.bed
Répétez les étapes 9.6 et 9.7 pour les sites d'intégration de cartographie à proximité TSS. Générer une autre version du fichier RefSeq.bed, où génomique coordonne la cartographie à plus d'un gène ont été ajustés pour refléter uniquement un seul gène présent à cette position. Cela empêche une surestimation de la densité du gène entourant les sites d'intégration. Calculer la densité des gènes dans la région 1 Mb entourant chaque site d'intégration en utilisant la fonction de fenêtre bedtools et en suivant cette commande:
Calculer la densité du gène moyenne pour toutes les intégrations dans l'ensemble de données en suivant cette commande:
awk '(somme + = 7 $) END (impression "Average =", somme / NR)' GeneDensity_sample1.bed

10. Statistiquement Comparer Intégration du site Distributions parmi les échantillons en utilisant deux-tailed test exact de Fisher et deux queues Wilcoxon Test dans R

Remarque: le test exact de l'utilisation Fisher pour comparer la proportion de sites d'intégration au sein de gènes RefSeq ou dans une fenêtre d'îlots CpG ou TSS, mais utiliser le test de rang de somme de Wilcoxon pour comparer la répartition de la densité du gène entourant les sites d'intégration. Le programme de R est disponible à http://www.r-project.org/.
Deux-tailed test exact de Fisher:

En utilisant les nombres calculés comme indiqué dans les étapes 9.4 et 9.7, create matrices pour chaque comparaison en R d'occurrences observées (les intégrations au sein d' une annotation ou dans une fenêtre entourant une annotation) par rapport à des sites restants en suivant cette commande:
(Annotation_of_interest <- matrice (c (SampleA # in, SampleA # restante, SampleB # in, SampleB # restant), nrow = 2, dimnames = list (c ( 'Centre', 'reste'), c ( 'SampleA', 'SampleB'))))
Calculer la valeur de P pour la comparaison de deux-tailed test exact de Fisher avec la commande suivante:
fisher.test (annotation_of_interest, alternative = 'two.sided') $ Val.par
Deux-tailed test de Wilcoxon rang somme:
Créer un fichier .txt délimité par des tabulations dans lequel chaque colonne contient le nom de l'échantillon dans la cellule supérieure, suivi ci-dessous par les valeurs de densité de gènes pour tous les sites d'intégration dans cette bibliothèque (obtenue à partir du fichier .bed généré à l'étape 9.9). Importer ce fichier .txt délimité par des tabulations dans R en utilisant la commande suivante et navigating dans le répertoire de fichier correct:
FILENAME <- as.data.frame (read.delim (file.choose (), en-tête = T, check.names = FALSE, fill = TRUE, sep = ' t'))
Calculer la valeur de P pour la comparaison de deux-tailed test de Wilcoxon rang somme avec la commande suivante:
wilcox.test (FILENAME $ SampleA, FILENAME $ SampleB, alternatifs = 'two.sided', apparié = F, exacte = T) $ Val.par
Remarque: Les valeurs de P peuvent être calculées uniquement jusqu'à une certaine (extrêmement faible) limite R, après quoi zéro sera renvoyé par le programme. Pour massivement différents échantillons qui donnent un P = 0 dans R, estimer la valeur de P comme <2,2 x 10 ^-308.

11. Examiner Raw Séquençage données pour preuve de l'expansion clonale de cellules contenant l'ADN viral intégré

Remarque: Il existe une petite possibilité que plus d'une intégration dans le même nt exacte dans le génome de référence. Alternativement, un seul danstégration événement peut devenir redondance présente dans les données de séquençage en raison de l'utilisation de la PCR pendant la préparation de bibliothèque et / ou par duplication cellulaire avant la préparation de l'ADN. Des analyses récentes de l' ADN génomique provenant de patients infectés par le VIH ont distingué ces possibilités en identifiant des points des points sonication de cisaillement / de fixation de liaison uniques (qui ne peut survenir avant la PCR) dans des séquences d'ADN contenant des sites d'intégration identiques ^52-54. Il y a actuellement un débat pour savoir si provirus abrités dans les cellules clonale étendues contribuent au réservoir viral latent, et il est donc d'un intérêt particulier pour caractériser leur niveau d'expansion lors de l'étude des sites d'intégration chez des patients humains.

Semblable à la procédure décrite à l'étape 8.1, générer des fichiers .bed annonce un intervalle de bases étendant, dans ce cas, 25 nt en aval de chaque site d'intégration unique (bases en amont ne sont pas nécessaires ici). Générer un fichier FASTA à partir de ces fichiers .bed (comme indiqué dansEtape 8.1) en utilisant la fonction fastaFromBed de bedtools et à la suite de cette commande:
-fi / répertoire fastaFromBed / vers / référence / génome / -name -s -bed 25_base_pair_file.bed -fo output_file.fasta
Remarque: Pour améliorer la spécificité de chaque recherche, il est recommandé d'extraire au moins 25 nt en aval de chaque site d'intégration pour les analyses expansion clonale.
De préférence, en utilisant un script personnalisé, recherchez le fichier FASTA de données de séquence brute pour toutes les chaînes contenant une correspondance exacte à 25 nt en aval de chaque site d'intégration unique, et déposer ces séquences dans un nouveau fichier. Coupez LTR et des séquences de liaison des chaînes brutes. Fusionner séquence PE lit en convertissant lit le complément inverse, le parage LTR et séquences de liaison, puis en attribuant des chaînes READ2 à leur paire READ1 si les chaînes partagent au moins 20 chevauchement nt.
Balayez les points de chaque bloc de site d'intégration de fixation de liaison. Classez chaque intégration comme «clonale élargi &# 34; si les points de fixation de liaison sont ≥3 pb.
Remarque: Un protocole pour l' analyse de l' expansion clonale sans fusionner séquence se lit a été décrite ^52.
Note: Fragmentation du génome à exactement au même endroit par sonication conduit à une sous - estimation de l'ampleur de l' expansion clonale, et des méthodes pour corriger le biais expérimental résultant ont été décrits ^63,64.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Le tableau 4 présente les résultats d'une expérience représentative pour illustrer la sensibilité de NGS pour la récupération des sites d'intégration d'une culture de cellules infectées. ADN cellulaire non infecté a été utilisé pour diluer en série ADN génomique d'une infection dans laquelle chaque cellule , en moyenne , contenait une intégration ^40. Dilutions ont été préparés dans les étapes de cinq à une dilution maximale de 1: 15.625. L'ADN génomique de la série de titrage a ensuite été fragmenté par sonication ou par digestion avec des endonucléases de restriction MseI et BglII, suivie par LM-PCR. Le nombre de sites uniques d'intégration, ainsi que le nombre de sites de cartographie proximale par rapport à des annotations génomiques sélectionnées ont été calculées selon le protocole ci-dessus. L'analyse des données a révélé des dizaines de sites d'intégration uniques (1-2% du montant récupéré à partir de l'ADN génomique pur) récupérés à partir de banques préparées à partir de cellules où, en théorie, un seul en 15625 a été infecté. Lors de l'analyse des ensembles de données du site d'intégration, il est essentiel de comparer les données à un ensemble apparié des sites génomiques aléatoires, ce qui est appelé un contrôle aléatoire adapté ou MRC. Comme les résultats représentatifs cisaillés l'ADN génomique par l'enzyme de restriction digestion ou par sonication, deux ensembles de données MRC différentes ont été construits. MRC _enz contenait 50.000 emplacements génomiques uniques générés par la sélection aléatoire des sites de hg19 à proximité des sites de restriction BglII et Msel digestion par des enzymes, tandis que les MRC _aléatoires générés des sites abrités 10.000 sans normalisation pour la distance de marqueurs génomiques fixés. Seuls les sites qui peuvent être mappés vers un emplacement génomique unique, doivent être utilisés dans des ensembles de données CRM. Comme cisailles sonication ADN génomique essentiellement exempt de biais de séquence, MRC _aléatoire peut être considéré comme plus applicable aux ensembles de données produites par la fragmentation de l' ADN par sonication. Un autre style d'intégration de contrôleSite ensemble de données peut être généré in vitro par réaction recombinante en protéines, intasome nucléoprotéine complexe ²¹ ou PICs extraits de cellules infectées de façon aiguë ¹⁷ avec l' ADN génomique déprotéinisé, puis après la LM-PCR et NGS protocoles ^21.

Les valeurs de P pour la comparaison de la distribution des sites d'intégration récupérés par traitement par ultrasons par rapport à digestion par restriction (comparaison entre les échantillons purs), ainsi que par rapport à la MRC _enz et CRM _aléatoire, sont affichés dans la Figure 2. La répartition des sites d'intégration récupérée sonication suivante était similaire à ceux récupérés par digestion de restriction enzymatique pour toutes les annotations examinées avec le plus grand écart évident en termes de proximité pour les îles CpG. Comme prévu ^18,65 deux ensembles de données diffèrent sensiblement des MRC en termes d'intégration au sein de gènes RefSeq et gène densité entourant le site d'intégration moyenne, tandis que les deux ensembles de données ont été similaires aux MRC en termes de distribution par rapport aux îlots CpG et TSS. Depuis relativement peu le VIH-1 des sites d'intégration carte à moins de 2,5 kb d'un îlot CpG ou TSS, l' augmentation du nombre total de sites récupéré est susceptible de diminuer la variabilité qui peut survenir entre les ensembles de données (Tableau 4 et Figure 2). Logos de séquence pour confirmer l'authenticité des données du site d'intégration sont présentés dans la figure 3. Le consensus VIH-1 site d'intégration ^14,22 (-3) TDG (G / V) TWA (C / B) CHA (+7) ( écrite à l'aide de l'Union internationale des codes de base Biochemistry, la barre oblique inverse indique la position de vDNA ainsi un brin de liaison, et le trait de soulignement indique la séquence 5 pb reproduit ci-après HIV-1 l'intégration et la réparation de l'ADN) est apparente pour les bibliothèques préparées par les techniques de fragmentation, bien que le degré de certitude diminue avec l'augmentation de la dilution cellulaire infectéeADN. Les sites aléatoires alignés à partir de l'ensemble de données MRC en revanche pas réussi à générer des niveaux appréciables de préférences de base.

Figure 1:. Ordinogramme Illustration de préparation d' intégration bibliothèque de site (A) Générer des stocks de virus par transfection de cellules HEK293T, la récolte et la filtration du surnageant 48 heures plus tard, la concentration par ultracentrifugation, et en infectant les cellules cibles avec une concentration appropriée du virus. Au moins cinq jours après l'infection, extraction de l'ADN génomique. Se reporter aux sections 1 et 2 du texte principal pour les détails expérimentaux supplémentaires. (B et C) , le fragment purifié de l' ADN génomique par digestion avec des enzymes de restriction ou par sonication. Le cocktail d'enzymes de restriction devrait inclure une enzyme (par exemple BglII) qui clive en aval de l'amont LTR viral de contre-sélection pour LM-PCR amplification de séquences d'vDNA internes. Astérisque flèche verte et ramifiée en (C) indiquent que Bglll doit être appliqué après la ligature lieur. faits saillants rouges de séquence virale, tandis que des reflets noirs hébergent séquence cellulaire. les points de rupture implicite d'ADN (non à l'échelle) sont marquées par "X" VIH-1 contient de nombreux sites Msel et BglII; seulement celles qui concernent le protocole sont affichés. Les crochets au-dessus des cartes indiquent les régions d'ADN-U5 cellulaire préférentiellement amplifié par LM-PCR. (D) Purifier l' ADN fragmenté (puis fin de réparation et A-queue dans le cas de sonication) et ligaturer aux molécules de liaison asymétriques (E) compatibles ( de couleur bleue). Cercles de Magenta en (D) indiquent le site d'intégration qui sera amplifié. Astérisques aux extrémités 3 'des courts brins de liaison indiquent acides bloquant modifications. (F) Conduite premier tour de PCR semi-nichée en utilisant première amorce ronde LTR (rouge) et de liaison primaire (bleu). en tsa ronde PCR, l'amorce de lieur code pour le regroupement de l'ADN et NGS séquences (groupées comme un appendice vert au lieur amorce bleu) de liaison d'amorce, tandis que l'amorce LTR manque de telles séquences. (G) Purifier premier produit PCR rond et mener second tour de PCR semi-nichée. Dans cette série de PCR, utiliser la même amorce de lieur comme dans le premier tour (bleu + appendice vert), en même temps que la seconde amorce ronde LTR (rouge) qui porte le regroupement de l'ADN et NGS séquences de liaison d'amorce ainsi qu'un code à barres pour le multiplexage ( regroupés comme un appendice vert à l'amorce rouge LTR). (H) Purifier second produit PCR rond comme la bibliothèque du site d'intégration finale (encadré en magenta, avec le site d'intégration marqué par le cercle magenta). Soumettre aliquote à l' installation de séquençage QC et NGS. S'il vous plaît cliquer ici pour voir une version plus grande de cette figure.

Figure 2:. P Valeurs pour la comparaison des sites d' intégration Amplified Après Fragmentation de l' ADN par sonication ou par des enzymes de restriction Digestion par rapport MRC respectives Nombre de sites d'intégration au sein de gènes RefSeq et îlots CpG à proximité et TSS, ainsi que des profils régionaux de densité de gènes, sont répertoriés dans . Tableau 4 valeurs P ≥0.05 sont mis en évidence en caractères gras et en italique ^a des valeurs de P calculées par test exact valeurs P ^b Fisher calculées par test de Wilcoxon rang somme ^c MRC _enz:... appariés contrôle aléatoire; un ensemble de 50.000 sites d'intégration uniques a été produit par la sélection aléatoire des positions à proximité des sites de restriction Msel / BglII dans hg build 19. ^D MRC _aléatoire: appariés contrôle aléatoire contenant 10.000 sites d'intégration uniques produits par hasard selectipositions ng dans hg19 sans normalisation au site de restriction de proximité. S'il vous plaît cliquer ici pour voir une version plus grande de cette figure.

Figure 3: Séquence Logos Depicting VIH-1 Base de Préférences de bibliothèques expérience représentative des sites d'intégration des bibliothèques préparées par (A) la digestion avec des enzymes de restriction ou (B) sonication ont été alignées en utilisant le logiciel WebLogo.. Chaque dilution de la série de titrage est représenté, à partir d'ADN propre au sommet de la figure à la dilution maximale de 1: 15.625 au fond. Logo (C) de séquence pour la MRC de 50.000 emplacements génomiques uniques. Les barres d'erreur représentent essentiellement l'écart-type dans l'incorporation de base à une position particulière. Plus précisément, le thauteur otal de chaque barre d'erreur équivaut à deux fois la petite correction de l' échantillon ^66, qui contrôle pour sous - estimation de l' entropie présente relativement petits ensembles de données. L'axe des abscisses représente la cellule hôte génomique positions ADN nt par rapport au site d'intégration au point zéro. S'il vous plaît cliquer ici pour voir une version plus grande de cette figure.

. Tableau 1: amorces Oligonucleotide Sequences pour Linker Construction et Amplification PCR Linker spécifiques et deuxième rondes LTR codent des séquences d' ADN de l' adaptateur de clustering, qui sont codés par couleur comme suit: noir, bases complémentaires à la liaison ou au VIH-1 LTR; rouge, index ou code à barres unique; vert, le séquençage des sites de liaison d'amorce; bleu, des séquences d'adaptateur pour le regroupement d'ADN. Single-fin (SE) séquençage reactions utilisera l'amorce de séquençage qui apparie à la deuxième ronde LTR amorce READ1 (vert) séquence, tandis que apparié-end (PE) réactions utiliseront les deux (READ1 et READ2) des amorces de séquençage. courts brins d' ^un lieurs contiennent 3 'amino bloquant modification. S'il vous plaît cliquer ici pour voir une version plus grande de cette table.

Réactif	Pour ajouter par réaction
Première amorce ronde LTR (15 uM):	2,5 ul
spécifiques Linker primaire (15 uM):	0,5 ul
tampon 10x PCR:	2,5 ul
dNTP (2,5 mM chacun)	0,5 ul
ADN polymérase mélange:	0,5 ul
la réaction de liaison:	100 ng
sans nucléase l'eau:	jusqu'à 25 ul

Tableau 2:. Recette pour First Round PCR La quantité de chaque réactif spécifié à ajouter à chaque tube PCR est indiquée.

Réactif	Pour ajouter par réaction
Deuxième amorce ronde LTR (15 uM):	2,5 ul
spécifiques Linker primaire (15 uM):	0,5 ul
tampon 10x PCR:	2,5 ul
dNTP (2,5 mM chacun)	0,5 ul
ADN polymérase mélange:	0,5 ul
Première PCR round: 100 ng
sans nucléase l'eau:	jusqu'à 25 ul

Tableau 3:. Recette deuxième cycle de PCR La quantité de chaque réactif soit ajouté à chaque tube de PCR est indiquée.

<td> Digest, 1: 125

Bibliothèque	Sites #Unique	% RefSeq ^une	% CpG +/- 2,5 kb ^b	% TSS +/- 2,5 kb ^c	Moy. 500 kb ^d de Gene Densité
Sonication, soigné	3169	71,2	5.1	3.7	15.8
Sonication, 1: 5	366	75,1	2.7	3	16.3
254	74	7.1	5.1	16.7
Sonication, 1: 125	430	69,8	6.9	6	14.6
Sonication, 1: 625	314	65,6	5.6	6.7	13.5
Sonication, 1: 3125	116	73,6	3.5	2.5	13.1
Sonication, 1: 15.625	72	62,5	0	1.4	14.7
Digest, soigné	7428	69,8	3.6	2.9	15.2
Digest, 1: 5	1460	71,4	4.4	3.4	14.9
Digest, 01:25	394	68,8	4.3	3.3	15.8
172	71	0	3	14
Digest, 1: 625	134	73,9	3.7	3.7	14.1
Digest, 1: 3125	100	83,1	6.4	5.2	19.1
Digest, 1: 15.625	73	74	4.1	1.4	9.7
MRC _enz ^e	50.000	44,7	4.2	4	8.7
MRC _aléatoire ^f	10.000	41,3	5.3	4.2	8.6

Tableau 4: Répartition génomique des sites d' intégration du Représentant Titration Series Le pourcentage de sites d'intégration totale e.à l' automne , au sein d' ^un des gènes RefSeq, ^b à moins de 2,5 kb d'îlots CpG, et ^c à moins de 2,5 kb de TSS ^d La densité des gènes dans 1 Mb entourant le site d'intégration moyenne ^e MRC _enz:.. appariés contrôle aléatoire; un ensemble de 50.000 sites d'intégration uniques a été produit par la sélection aléatoire des positions à proximité des sites de restriction Msel / BglII dans hg19 ^f MRC _aléatoire:. contrôle aléatoire appariés contenant 10.000 sites d'intégration uniques produites en choisissant au hasard des positions dans hg19 sans normalisation à des postes fixes.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Un protocole pour l'analyse des sites d'intégration de retrovirus, de l'étape d'infection par le virus initial par mappage des profils de distribution génomique, est décrite. Ce protocole est applicable à tout retrovirus et tout type de cellule infectable. En outre, la conduite de dosage est très sensible, avec la possibilité de récupérer un nombre satisfaisant des sites uniques d'intégration à partir de dilutions en série de l' ADN génomique équivalent à celui d'une infection initiée avec un MOI de 6,4 x 10 ^-5. Cette sensibilité rend le protocole particulièrement utile lorsqu'il est appliqué à des échantillons provenant de patients infectés qui peuvent contenir une faible charge virale, où seule une petite fraction des cellules hébergera un provirus intégré. Conformément aux documents de méthodologie antérieurs dans ce domaine ^36,38,41-43, plusieurs étapes dans la partie de la bio - informatique de ce protocole bénéficieront du développement de scripts personnalisés pour le traitement de gros fichiers de données de séquence. Alors que BLAT ⁵⁸ est le mapping utilitaire décrit dans ce protocole, les utilisateurs peuvent trouver Bowtie ⁶⁷ (http://bowtie-bio.sourceforge.net/index.shtml) être une alternative appropriée.

Un pipeline de bioinformatique de remplacement a été récemment rapporté pour la détermination de Moloney virus de la leucémie murine (MoMLV) sites d'intégration ^19. Ce pipeline est utile en ce qu'il a été développé dans le logiciel autonome qui est accessible au public, et est assez puissant en ce qu'il a été initialement utilisé pour cartographier des centaines de milliers de sites uniques d'intégration de MoMLV. Cependant, le logiciel disponible a été initialement conçu pour spécifiquement ré-analyser l'ensemble de données MoMLV signalé, et ainsi de reprogrammation serait nécessaire pour personnaliser le pipeline d'alterner des modèles expérimentaux (la fonctionnalité de l'outil a été récemment élargi pour inclure le virus adéno-associé et Tol2 et Ac / Ds transposon vecteurs ^68). Par ailleurs, ce protocole décrit la génération du site d'intégration préliminaire .bedfichier, mais ne fixe pas les étapes spécifiques nécessaires pour cartographier les sites d'annotations pertinentes génomiques. Les lecteurs peuvent trouver le "vecteur d' intégration Analyse du site" serveur ^69, qui a été publié au cours de l'examen du manuscrit actuel, utile pour analyser les séquences NGS générées en utilisant le protocole décrit ici.

Certains points doivent être soulignés lors de l'utilisation de tout protocole pour analyser les ensembles de données rétrovirales site d'intégration. Lors de la préparation de plusieurs bibliothèques en tandem, un potentiel important existe pour la contamination croisée échantillon. Même un très faible niveau de l'échantillon diaphonie peut masquer les résultats au niveau de rendre une course NGS inutilisable. Par conséquent, tous les travaux par voie humide banc devrait être achevée en, une hotte à flux laminaire dédié stérilisé ou poste de travail PCR. Un ensemble de pipettes et des réactifs tels que l'eau sans nucléase devrait être dédié uniquement à site d'intégration amplification. L'utilisation de linkers uniques pour chaque préparation bibliothèque peut limiter le potentielpour le contre-amplification et aussi permettre l'identification de croisement se lit dans chaque bibliothèque dans les fichiers FASTA premières.

Il est important d'examiner les avantages et les inconvénients de l'utilisation de sonication par rapport endonucléase de restriction digestion à fragmenter l'ADN génomique. D'une part, la sonication fournit une distribution relativement aléatoire de points de cisaillement, mais la réparation de l'ADN et A-tailing ensuite les étapes requises à réduire régulièrement le rendement de linker produits de ligature par rapport aux ligatures effectuées avec des extrémités cohésives générées par l'enzyme de restriction. D'autre part, l'enzyme de restriction digestion fournit une population moins décaissé de points de cisaillement, qui invariablement introduire un biais dans les données récupérées. L' utilisation d' une endonucléase de restriction pour rejeter les séquences LTR en amont seront dans les deux cas (figure 1) se traduisent par la perte d'une petite fraction des sites d'intégration qui se trouvent en amont de ce site dans le génome. Tout biais de données qui peut en résulter peut être adhabillé en omettant la digestion enzymatique à partir du protocole lors de la préparation de bibliothèque et le filtrage résultant de la multitude de séquences LTR en amont à partir des données de séquençage.

Bien que le protocole actuel est tout à fait sensible et capable de générer des millions de sites d'intégration uniques ^21,40, seulement environ un tiers de toutes les intégrations disponibles pourraient être devrait être amplifié dans une expérience donnée , même avec le meilleur de la bibliothèque des préparations (ref ^70. et observations non publiées). Cela peut entraîner des complications lors de l'analyse des échantillons provenant de patients ou infections MOI bas qui abritent une faible charge virale. Cette limitation peut être surmontée en partie par séquençage à plusieurs reprises la même préparation bibliothèque et / ou le séquençage de plusieurs bibliothèques dérivées du même échantillon d'ADN en parallèle. Les hausses futures de la sensibilité du test sera donc très bénéfique pour les applications traductionnelles favorisant des rétroviral séquençage du site d'intégration.

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

Nous sommes reconnaissants à nos collègues Stephen Hughes et Henry Levin conseil qui était essentiel d'établir le protocole NGS pour rétroviral séquençage du site d'intégration dans le laboratoire Engelman. Ce travail a été soutenu par les Instituts nationaux américains de la santé accorde AI039394 et AI052014 (à ANE) et AI060354 (Centre universitaire de Harvard for AIDS Research).

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS