Biology

Versterking, next-generation sequencing en Genomic DNA in kaart brengen van retrovirale integratie Sites

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

Retrovirussen vertonen handtekening integratie voorkeuren op zowel de lokale en wereldwijde schaal. Hier presenteren we een gedetailleerd protocol voor (1) genereren van diverse bibliotheken van retrovirale integratieplaatsen middels ligatie-gemedieerde PCR (LM-PCR) amplificatie en de volgende generatie sequencing (NGS), (2) kaart brengen van de genomische locatie van elk virus gastheer junction behulp BEDTools, en (3) het analyseren van de gegevens voor statistische relevantie. Genomisch DNA geëxtraheerd uit geïnfecteerde cellen is gefragmenteerd door digestie met restrictie-enzymen of door sonicatie. Na geschikte DNA end-reparatie, zijn double-stranded linkers geligeerd op de DNA-uiteinden en semi-nested PCR wordt uitgevoerd met primers die complementair zijn aan zowel de lange terminale herhaling (LTR) uiteinde van het virus en de geligeerde linker DNA. De PCR primers dragen sequenties die vereist zijn voor DNA-clustering in NGS, teniet de behoefte aan apart adapter ligatie. Kwaliteitscontrole (QC) is uitgevoerd om DNA-fragment grootteverdeling evalueren en aanpassener DNA opname voorafgaand aan de NGS. Sequence output bestanden worden gefilterd voor LTR-bevattende leest, en de sequenties definiëren van de LTR en de linker zijn weg afgesneden. Bijgesneden gastheercel sequenties worden toegewezen aan een referentie genoom behulp BLAT en gefilterd voor minimaal 97% identiteit met een unieke plaats in de referentie genoom. Unieke integratieplaatsen worden onderzocht voor aangrenzende nucleotide (nt) sequentie en distributie ten opzichte van verschillende genomische functies. Met dit protocol, kan integratieplaats bibliotheken met hoge complexiteit worden geconstrueerd uit genomisch DNA in drie dagen. De gehele protocol dat exogene virale infectie van gevoelige weefselkweek cellen integratieplaats analyse omvat kan derhalve worden uitgevoerd bij ongeveer 1-2 weken. Recente toepassingen van deze technologie hebben betrekking op longitudinale analyse van de integratie sites uit HIV-geïnfecteerde patiënten.

Introduction

Integratie van viraal DNA (vDNA) in het gastheergenoom is een essentiële stap in de virale levenscyclus. Integratie wordt bereikt door het virale enzym integrase (IN), die zich bezighoudt met twee verschillende katalytische processen die leiden tot de oprichting van een stabiel ingebracht provirus ^1. IN subeenheden aangrijpen op de uiteinden van de lineaire vDNA dat wordt gegenereerd door middel van reverse transcriptie, die de hogere orde intasome met vDNA uiteinden samengehouden door een IN multimeer ^2-4. IN splitst de 3 'einden van het vDNA stroomafwaarts van invariante 5'-CA-3' sequenties in een proces dat 3'-verwerking, het verlaten verzonken 3'-uiteinden met reactieve hydroxylgroepen op elk uiteinde vDNA ^5-8. De intasome wordt vervolgens in de kern ingevoerd als deel van een grote verzameling van gastheer en virale proteïnen bekend als de preintegration complex (PIC) ^9-11. Na het ontmoeten van cellulaire doelwit DNA (TDNA), IN gebruikt de vDNA 3'-hydroxyl groups om de TDNA boven- en onderkant strengen in een versprongen wijze aanhangen en tegelijkertijd voegt zich bij de vDNA om TDNA 5 'fosfaatgroepen door het proces van het strand transfer ^12,13.

Retrovirussen vertonen integratie voorkeuren voor websites op de lokale en wereldwijde schaal. Lokaal, consensus integratie plaatsen bestaan uit zwak geconserveerde palindroom TDNA sequenties die variëren van ongeveer 5-10 bp stroomopwaarts als stroomafwaarts van de vDNA insertieplaatsen ^14,15. Wereldwijd retrovirussen richten zich op specifieke chromatine annotaties ^16. Er zijn zeven verschillende retrovirale genera - alfa door middel van epsilon, Lenti, en spuma. De lentivirussen, die HIV-1 omvatten, gunst integratie binnen de lichamen van actief getranscribeerd genen ^17, terwijl de gammaretrovirussen voorkeur te integreren in de transcriptie start sites (Tsss) en actieve versterker regio's ^18-20. In scherp contrast, is spumavirus sterk neigt in de richting heterochromATIC regio's, zoals gen-arme-lamina bijbehorende domeinen ^21. Lokale TDNA base voorkeuren zijn voor een groot deel bepaald door de specifieke netwerken van nucleoproteïne contacten tussen IN en TDNA ^13,22,23. Voor de lentivirussen en gammaretrovirussen, integratie ten opzichte van genomische annotaties is voor een groot deel bepaald door de interactie tussen IN en verwante cellulaire factoren ^24-27. Het veranderen van de specifieke kenmerken van de IN-TDNA interactie netwerk ^13,22,23,28 en verstoren of re-engineering IN-host-factor interacties ^25-27,29-32 zijn bewezen strategieën om de integratie retarget op lokaal en mondiaal niveau, respectievelijk.

De kracht van DNA sequencing procedures gebruikt aan catalogus retrovirale integratieplaatsen is enorm in de afgelopen decennia. Integratie sites werden teruggevonden in baanbrekende werk met behulp van bewerkelijke zuivering en handmatige kloontechnieken tot slechts een handvol unieke locaties per studie ^33,34 opleveren.De combinatie van LM-PCR amplificatie van LTR-gastheer-DNA kruispunten met de mogelijkheid om afzonderlijke integratieplaatsen voor mens en muis ontwerp genomen veranderde het gebied in kaart met het aantal sites gewonnen uit exogene weefselkweek cellen infecties verhogen tot enkele honderden tot duizenden ^{17 , 18.} De meer recente combinatie van LM-PCR met NGS methodologie bibliotheek diepte rijzen de pan uit gestuurd. Specifiek, pyrosequencing leverde in de orde van tienduizenden unieke integratieplaatsen ^30,35-38, terwijl bibliotheken gesequentieerd met behulp van DNA clustervorming miljoenen unieke sequenties ^19-21,39 verkregen. Hier beschrijven we een geoptimaliseerde LM-PCR-protocol voor het versterken en het sequencen van retrovirale integratie sites met behulp van DNA-clustering NGS. De werkwijze omvat benodigde adapter sequenties in de PCR primers en dus rechtstreeks in de geamplificeerde DNA-moleculen, waardoor de vereiste weg staat tegen adapter ligatie stap vóór sequencing ^40. De bio-informatica-analyse pijpleiding van het parseren van ruwe sequentiegegevens voor LTR-gastheer-DNA junctions het in kaart brengen van unieke integratieplaatsen genomisch features relevant, wordt ook algemeen beschreven. Overeenkomstig de vastgestelde stand van methodologische voorschriften dit gebied ^36,38,41-43 voorrang, kunnen aangepaste scripts worden ontwikkeld om de voltooiing van de specifieke stappen in de bioinformatica pijplijn helpen. Het nut en de gevoeligheid van het protocol wordt geïllustreerd met representatieve gegevens door amplificatie, sequencing, en afbeelden van HIV-1 integratieplaatsen van weefselkweek cellen geïnfecteerd met de multipliciteit van infectie (MOI) van 1,0, en een titratiereeks van dit DNA verdund met ongeïnfecteerde cellulair DNA in 5-voudige stappen hoogste verdunning van 1: 15.625 tot bij benadering equivalente MOI opbrengst van 6,4 x 10 ^-5.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Genereer Virus Stocks

Opmerking: Een stroomschema van de wet bench aspect van dit protocol is in Figuur 1 De gegevens van virusvoorraad productie en daaropvolgende infectie van weefselcultuur cellen algemeen voor verschillende retrovirussen.. Voor sommige experimenten, kan de doelcel niet de endogene virale receptor (en) tot expressie, en in dergelijke gevallen de constructie van pseudo-getypeerde retrovirale deeltjes herbergen heterologe virale envelop glycoproteïne, bijvoorbeeld het glycoproteïne G van vesiculair stomatitis virus (VSV-G), wordt vereist voor infectie ^44,45.

Let op: Voorzorgsmaatregelen moeten worden genomen bij het werken met HIV-1. Hoewel specifieke richtlijnen zal variëren van instelling tot instelling, moeten alle-virus based werken worden uitgevoerd in een speciale, de exploitant beperkt bioveiligheidskast (meestal aangeduid als een weefselkweek kap). Een goede persoonlijke beschermingsmiddelendat geldt ook voor het gezicht dragen, schoen covers, een dubbele handschoen laag, en een full-body suit overall moet worden gedragen ten alle tijden. Alle vloeibaar afval als gevolg van virus-gerelateerde experimenten moeten worden geïnactiveerd met bleekmiddel (10% uiteindelijke concentratie), en al het afval met inbegrip van vaste stoffen moet voorafgaand aan verwijdering worden geautoclaveerd.

Eén dag voor transfectie, plaat 3,3 x 10 ⁶ HEK293T-cellen in 10 ml Dulbecco's Modified Eagle Medium (DMEM) aangevuld met 10% (v / v) foetaal runderserum en 1% (v / v) penicilline / streptomycine (10.000 U / ml voorraad) per vijf 100 mm schalen.
Opmerking: Aangevuld-DMEM wordt aangeduid als DMEM-FPS vanaf dit punt.
Op de daaropvolgende dag transfecteren van de cellen met 10 ug plasmide dat de volledige lengte retrovirale moleculaire klonen en 9 pg-omhulling verwijderd single-round vectoren met 1 ug van een VSV-G-expressieconstruct gebruikmaking van commercieel verkrijgbare transfectie reagentia of calciumfosfaat.
1. Incubeer de cells bij 37 ° C in een bevochtigde celkweek incubator met 5% CO ₂ (deze voorwaarde hierna "weefselkweek incubator"). Na ongeveer 48 uur, de oogst van het virus-bevattende cel media met behulp van een volumetrische pipet en doorgeven door een 0,45 pm filter door de zwaartekracht flow.
2. Concentreer het virus door ultracentrifugatie bij 200.000 xg gedurende 1 uur bij 4 ° C. Resuspendeer het virus pellet in 500 ui DMEM-FPS bevattende 20 U DNase en incubeer gedurende 1 uur bij 37 ° C.
  Opmerking: De DNase stap helpt bij het herstel van ongewenste plasmidesequenties verminderen door het elimineren van de last van plasmide-DNA dat blijft de transfectie procedure.
Bepaal p24 concentratie ⁴⁶ met een HIV-1 p24 antigen capture kit volgens instructies van de fabrikant.
Noot: virusconcentratie kan ook worden bepaald door reverse transcriptase activiteit test ^47,48. Als alternatief kan de mate van functionele virusworden bepaald door MOI. Dit wordt het gemakkelijkst gedaan met behulp van fluorescentie-geactiveerde celsortering met virussen die fluorescerende reporter genen zoals versterkt groen fluorescent eiwit tot expressie. MOI bepaling kan bijzonder nuttig zijn bij het werken met primaire cellen die niet dezelfde mate van infectie ondersteunen geoptimaliseerde cellijnen.

2. cellen infecteren met een virus

Plaat 3,0 x 10 ⁵ HEK293T cellen per putje in een 6-wells plaat in 2,5 ml DMEM-FPS en incubeer overnacht in een weefselkweek incubator.
Opmerking: Het aantal unieke integratieplaatsen gewonnen met dit protocol is recht evenredig met het aantal cellen en de hoeveelheid werkzame gebruikte virus in de infectie.
Cellen infecteren met een uiteindelijke virale p24 concentratie van 500 ng / ml in een uiteindelijk volume van 500 ul vers DMEM-POD 2 uur in een weefselkweek incubator, voeg vervolgens 2 ml DMEM-FPS voorverwarmd tot 37 ° C per putje en verder incubatie.
Op48 uur na infectie, verwijder de media en was de cellen met 2 ml fosfaat-gebufferde zoutoplossing (PBS). Voeg 0,5 ml trypsine-EDTA voorverwarmd tot 37 ° C, en na enkele seconden visueel de putjes cel losraking.
Voeg 2 ml voorverwarmd DMEM-FPS en resuspendeer de cellen door voorzichtig omhoog / omlaag te pipetteren met een volumetrische pipet ~ 10 keer. Breng de oplossing aan een 75 ^cm2 weefselkweek kolf die 18 ml voorverwarmde DMEM-FPS en incubeer de cellen in een weefselkweek incubator.
Na minimaal vijf dagen na de aanvang van de infectie, het verzamelen van de cellen door het medium te verwijderen, wassen met 5 ml PBS, voeg 2 ml voorverwarmde trypsine-EDTA en resuspendeer met 5 ml voorverwarmd DMEM-FPS door pipetteren. Centrifugeer de oplossing gedurende 5 minuten bij kamertemperatuur bij 2500 xg, Verwijder de bovenstaande vloeistof.
Opmerking: hoewel de integratie onder deze omstandigheden plateaus op ongeveer 48 uur na infectie ^49,50, de extra 3 dagen van de cultuur zijn verplicht om sufficiently verdunnen van de concentratie van niet-geïntegreerde DNA-moleculen die resulteren uit celgebaseerde DNA recombinatie of viraal gemedieerde autointegration.
Extract genoom DNA uit de cel pellet met behulp van een commercieel verkrijgbare kit (zie bijvoorbeeld ^51). Elueer het DNA van de ionenwisselaarkolom toegevoerd met 200 ui 10 mM Tris-HCl, pH 8,5.
Opmerking: Een hoeveelheid van cellen moet worden verdeeld in 48 uur na infectie (stap 2,3) voor een infectiviteit assay juiste virusinfectie geboden wordt voordat NGS.

3. Fragment Genomisch DNA door sonicatie of door Restriction Enzyme Digest

Opmerking: Sonicatie fragmenten genomische DNA in een vrijwel sequentie-onafhankelijke wijze en is daarmee de voorkeur wijze van fragmentatie bij het sequentiëren van de monsters met een lage verwachte recovery rate (bijvoorbeeld geïnfecteerde patiënt cellen of infecties geïnitieerd bij relatief lage MOI). Bovendien sonicatie kan men PCR duplicaten van een parti onderscheidenderheid integratieplaats sequentie uit unieke integraties op dezelfde locatie, die kritiek is voor de klonale expansie van provirus bevattende cellen in geïnfecteerde patiënten (zie stap 11 hieronder) ^39,52-54 onderscheiden.
Opmerking: Het DNA moet onmiddellijk stroomafwaarts gekloven uit het stroomopwaartse LTR amplificatie van interne virale sequenties verminderen tijdens LM-PCR. Het restrictie-enzym BglII dat 43 bp stroomafwaarts ligt van de stroomopwaartse U5 sequentie en die onverenigbaar voor daaropvolgende ligatie met Msel-gegenereerde DNA-uiteinden werkt goed met veel HIV-1-stammen (Figuur 1B). Bij de voorbereiding DNA door sonicatie wordt de inwendige-splitsende restrictie-enzym worden toegepast na linker ligatie (zie figuur 1C - E en stap 4.3).

Voor ultrasoonapparaat, meng 10 ug genomisch DNA in nuclease-vrij water tot een eindvolume van 120 pl. Sonificeer gebruiken parameters voor een gemiddelde rusten grootte van 500 bp (twee ronden van de volgende parameters: duty cycle: 5%; intensiteit: 3; cycli per burst: 200; tijd: 80 sec).
Zuiver gesoniceerde DNA onder toepassing van een PCR zuivering kit. Repareer de DNA-uiteinden met behulp van een DNA-end-reparatieset en zuiveren het DNA met behulp van een PCR zuivering kit. A-staart met Klenow DNA exo ^- enzym en zuivert het A-staart DNA onder toepassing van een PCR zuivering kit. Raadpleeg ^51,52 voor meer details van de kit gebruik.
Voor restrictie endonuclease digestie, gesneden 10 ug genomisch DNA overnacht bij 37 ° C in een volume van 100 pl buffer met door de fabrikant en een cocktail van enzymen (100 U elk) die 5'-overhangen te genereren TA geleverd, alsmede een onverenigbaar enzym zoals BglII dat klieft stroomafwaarts van de upstream-virale LTR. Zuiver het DNA de volgende dag met behulp van een PCR zuivering kit.
Let op: Geen van de restrictie-enzymen dienen binnen de terminal te snijden ~ 30 bp van het virale DNA einde dat is versterkt door de LM-PCR-protocol. Dit protocol specifiek versterkt de U5einde van HIV-1 DNA.

4. Onthard Linker Oligonucleotiden en ligeren aan Gefragmenteerde Genomic DNA

Opmerking: Bereid een asymmetrisch linker met een overhang die compatibel is met de bovengenoemde DNA-fragmenten (zie Tabel 1 voor sequenties van oligonucleotiden gebruikt in dit protocol) is. De linker te gebruiken met gesoniceerde DNA moet compatibel T-3 'overhang bevatten, terwijl de linker voor Msel gedigereerde DNA een compatibele 5'-overhang TA (figuur 1) moet bevatten. De korte bindstreng moet additioneel een niet-verlengbare chemische modificatie, zoals 3'-amine, de daaropvolgende amplificatiereacties naar het DNA van belang te beperken.
Opmerking: Bij de voorbereiding van meerdere verschillende integratie plaats bibliotheken in parallel en / of wanneer multiplexing unieke monsters worden op dezelfde sequencing run, is het raadzaam om unieke linkers te gebruiken voor elk monster om het potentieel voor het monster cross-Contamin beperkenatie tijdens PCR. Dit houdt bovendien het gebruik van unieke linker primers voor elk monster in semi-nested PCR (hieronder beschreven). Unieke linker strengen en linker primers kunnen worden ontworpen door het vervormen linker oligonucleotide sequenties in Tabel 1 opgesomde behoud overeenstemden% GC-gehalte en toepassing overhang posities.

Hybridiseren de korte en lange linker strengen in 35 gl 10 mM Tris-HCl, pH 8,0-0,1 mM EDTA (eindconcentratie van 10 uM van elke oligonucleotide) door verwarming tot 90 ° C en langzaam afkoelen tot kamertemperatuur in stappen van 1 ° C per min.
Maak minstens vier parallelle ligatiereacties per genomisch DNA monster dat 1,5 pM linker geligeerd, 1 ug DNA gefragmenteerd en 800 U T4 DNA ligase in 50 pi bevatten. Ligeren nacht bij 12 ° C. Zuiver de volgende dag met een PCR zuivering kit.
Voor monsters bereid door sonicatie, verteren het gezuiverde ligatiereactie met 100 U van een bepertie enzym dat splitst stroomafwaarts van het stroomopwaartse LTR (bijvoorbeeld BglII HIV-1) onder de fabrikant aanbevolen omstandigheden overnacht. Zuiver het DNA onder toepassing van een PCR zuivering kit.

5. Amplify virale LTR-Host Genomic DNA Kruispunten door semi-nested PCR

Opmerking: Om te zorgen voor een optimale diversiteit van de bibliotheek ten minste 4-8 parallel PCRs, afhankelijk van de DNA concentratie van het gewonnen ligatiereactie moet worden voor ieder monster beide PCR ronden. DNA templateconcentratie worden gekwantificeerd door spectrofotometrie. In dit protocol de eerste en tweede ronde van PCR gebruik geneste LTR-specifieke primers, maar dezelfde linker-specifieke primer wordt gebruikt voor zowel ronde (tabel 1). De tweede LTR-specifieke primer en de linker-specifieke primer codeert adaptersequenties voor DNA clustering en sequencing primer-bindingsplaatsen. De geneste LTR-specifieke primer codeert een 6 nt indexsequentie, which kan worden gevarieerd tussen de verschillende primers voor het multiplexen bibliotheken binnen dezelfde sequencing run.

Bereid eerste ronde PCRs met de ingrediënten per buis zoals vermeld in tabel 2.
Opmerking: De linker-specifieke primer herbergt 22 nt complementair aan de koppelaar, een smelttemperatuur van 53 ° C, een GC-gehalte van 45%, en het 3'-uiteinde ligt 15-16 bp stroomopwaarts van de 3'-uiteinden van de verschillende linker lange strengen (tabel 1). De eerste ronde 27 nt LTR primer een smelttemperatuur van 59 ° C, een GC-gehalte van 48%, en het 3 'uiteinde bevindt zich 34 bp stroomopwaarts van het HIV-1 U5 terminus. Het gebied van de tweede ronde 26 nt LTR primer die complementair is aan het HIV-1 LTR een smelttemperatuur van 60 ° C, een GC-gehalte van 50%, en het 3 'uiteinde bevindt zich 18 bp stroomopwaarts van de virale U5 terminus. Het wordt aanbevolen dat oligonucleotide smelttemperatuur en GC-gehalte van deze parameters dient na te bootsen als gebruikersontwerp PCR primers met veranderde sequenties (zoals voor gebruik met andere retrovirussen) ^21.
Run eerste PCR door onder de volgende parameters thermocycler: Een cyclus: 94 ° C gedurende 2 min; 30 cycli: 94 ° C gedurende 15 sec, 55 ° C gedurende 30 sec, 68 ° C gedurende 45 seconden; één cyclus: 68 ° C gedurende 10 minuten.
Pool reacties en zuiveren met behulp van een PCR zuivering kit. Bereid tweede PCRs met de ingrediënten per buis volgens Tabel 3. Voer de tweede ronde van PCR met de thermocycler parameters in stap 5.2. de reacties Pool en zuiveren van het DNA met een commerciële PCR zuivering kit volgens de instructies van de fabrikant.
Opmerking: Een verscheidenheid van de aanbevolen index die verenigbaar zijn met DNA clustering NGS beschikbaar zijn ^71.

6. Voer QC en NGS (Typisch aangevuld met een Sequencing Facility)

(QC-test # 1) Bevestig Stap 5.3 bibliotheek DNA-concentratie met behulp van een fluor⁵⁵ meter. Kort bereiden normen en experimentele monsters in een eindvolume van 200 pi nuclease-vrij water. Vortexbuizen gedurende 2-3 seconden incuberen bij kamertemperatuur gedurende 2 minuten, en lees de monsters in de fluorometer.
Opmerking: De monsters moeten een minimale concentratie van 2 nM bibliotheek DNA in een minimaal volume van 15 pi bevatten.
(QC-test # 2) Bevestig DNA-fragment grootteverdeling met behulp van een tape-gebaseerde test ^56.
Opmerking: Een ideale verdeling is een relatief breed DNA piek gecentreerd rond 500 bp in lengte. Als een aanzienlijke hoeveelheid materiaal groter is dan 1 kb, dan is het raadzaam om een size-selectieprocedure op te nemen om langer DNA soorten, die brug versterking zal hinderen tijdens clustering te elimineren. Indien daarentegen een significante piek blijkt ongeveer 100 tot 200 bp, een primer dimeer kan zijn gevormd gedurende PCR. In dit geval moet de procedure worden geoptimaliseerd om de vorming van primer dimeren minimaliseren.
(QC-test # 3) Confirm goede incorporatie van adapters in DNA-bibliotheek met behulp van kwantitatieve PCR ^57.
Voer NGS na het aanbrengen van de fabrikant literatuur. Maken gebruik van een spike-in van 10% (w / w) ΦX174 DNA, die real-time kwaliteit metrics te optimaliseren door middel van een evenwichtige samenstelling op basis van de sequencing run.
Opmerking: Integratie website sequencing experimenten zijn meestal onderworpen aan één uiteinde 150 bp (SE150) of gepaarde-end 150 bp (PE150) sequencing. PE150 is bijzonder nuttig om de linker bevestigingspunt op elk DNA-molecuul te vangen (bijvoorbeeld bij het onderzoek integratieplaatsen voor bewijs gastheercel klonale expansie).

7. Gebruik een aangepaste Python of Perl-script om Sequencing-gegevens parseren voor LTR-bevattende Sequences, Crop weg LTR en Linker Sequences en kaart om Reference Genome met BLAT

Scan FASTA-bestanden voor LTR-bevattende sequentie leest, bijsnijden LTR en linker-sequenties uit de buurt van gastheer genoom DNA-sequentie, enexporteren deze sequenties in nieuw FASTA bestand. Kaart bijgesneden leest om zowel een verwijzing genoom (bijvoorbeeld menselijk genoom versies hg19 of GRCh38) en het virale genoom met behulp van BLAT ^58, met een vermogen integratie plaats coördinaten geëxporteerd naar een afzonderlijk txt-bestand, met de volgende instellingen:
stepSize = 6, minIdentity = 97, en maxIntron = 0
Parseren BLAT uitgang .txt bestanden, verwijderen autointegrations (dwz bewijs dat de LTR einde is opgenomen in een inwendig gebied van het virale genoom DNA) en andere sequenties mapping naar het HIV-1-genoom, en een aparte uitgang .txt bestand waarin alle dubbele integratie sites zijn samengevat in één enkele, unieke coördineren hits.

8. Maak .bed bestanden met 15-nt intervallen Omliggende integraties, deze om te zetten naar FASTA bestanden en Construct Sequence Logos wilt zien Base Preferences Omliggende Integration Sites

Maak .bed bestanden die een interval van de grondslagen voor de lijstelke integratie plaats. Ten minste 15 basen (5 upstream en downstream 10) worden voorgesteld voor reeks logo generatie. Genereer een FASTA bestand uit deze .bed bestanden met de fastaFromBed functie van BEDTools ⁵⁹ en deze opdracht:
fastaFromBed-fi / directory / naar / referentie / genoom / -name -s -bed 15_base_pair_file.bed -fo output_file.fasta
Opmerking: De invariant virale 5'-CA-3 'dinucleotide is verbonden DNA gastheer tijdens integratie en verifiëren van de kruising van de LTR terminus cellulaire DNA is een belangrijke eerste filter bonafide integratieplaatsen identificeren. We bovendien compileren sequentie logo's van deze host DNA-sequentie bevolking om de experimentele resultaten te controleren. Retrovirussen handtekening base voorkeur rond hun integratieplaatsen ^14,15 tonen de sequentie logo's dienen te valideren dat de in kaart gebrachte genomische gebieden ontstaan door IN-gemedieerde integratie in vergelijking met andere recombinatie mechanismen zoals niet-homologe DNAuiteindelijk toetreden ^60,61.
Gebruik WebLogo 3 (http://weblogo.threeplusone.com/create.cgi) sequentie logo's van de FASTA bestanden. Klik op 'Bestand kiezen' om FASTA bestand te uploaden, en gebruik de volgende instellingen: Output formaat, PDF (vector); Logo omvang, groot; Eerste positie nummer, -5; Logo range, -5 tot 5; Y-as schaal, 0,1, Y-as tic afstand, 0,5, kleurenschema, classic (NA).

9. Maak Central basenparen .bed Files, Controleren op Sample Cross-besmetting, en de verdeling van de unieke integratie Sites Ten opzichte Relevante Genomic Features Kaart

Omdat retrovirale integratie gebeurt in een gespreide manier over de TDNA strengen, pas de precieze coördinaten van integratie sites om de centrale bp van de target site duplicatie voor de juiste kaart brengen van genomische distributie ten opzichte van genomische functies weer te geven.
1. Daarom is voor 5 bp dupliceren virussen zoals HIV-1, maakt een .bed bestand met de centrale bp ten opzichte van de iIntegratie plaatse door twee bases downstream voor integratie in kaart brengen van de plus-streng, en twee basen stroomopwaarts voor integraties in kaart brengen van de negatieve streng.
Om te controleren voor het monster kruisbesmetting, bereken het aantal van integratie plaatsen gebruikelijk onder de verschillende bibliotheken met behulp van de BEDTools snijden functie snijden centrale bp .bed bestanden voor twee verschillende monsters en door het volgen van deze opdracht:
bedtools kruisen -a central_basepair_1.bed -b central_basepair_2.bed -f 1,00 -r -s> overlap1v2.txt
Tel het aantal lijnen binnen de output overlap1v2.txt file om het exacte aantal sites gebruikelijk onder de twee bibliotheken met behulp van de volgende opdracht te kwantificeren:
wc -l overlap1v2.txt
Download de RefSeq annotatie .bed bestand voor de versie van referentie-genoom die werd gebruikt voor de integratie plaats in kaart brengen van de UCSC genoomannotatie Database (bijv http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database) ^62.
1. Bereken het aantal integratieplaatsen die onder RefSeq genen met de BEDTools snijden functie om de centrale basenpaar .bed bestand dat werd gegenereerd voor het monster met de RefSeq .bed bestand na deze opdracht kruisen:
  bedtools kruisen -a central_basepair_1.bed -b RefSeq_hg38.bed -u> RefSeq_sample1.bed
Tel het aantal lijnen binnen de output RefSeq_sample1.bed file om het exacte aantal sites die vallen in RefSeq genen met behulp van de volgende opdracht te kwantificeren:
wc -l RefSeq_sample1.bed
Herhaal de stappen 9,3 en 9,4 voor het mappen integratieplaatsen elke andere annotatie van belang waarvoor een interval .bed bestand. Download de meest actuele CpG eiland annotatie .bed bestand voor de referentie-genoom van interesse van de UCSC genoomannotatie Database zoals aangegeven in stap 9.4.
1. Bereken het aantal integratieplaatsen die onder een bepaalde distand (getoond in dit voorbeeld een 5 kb venster) van CpG eilanden met de BEDTools vensterfunctie en na deze opdracht:
  bedtools window -w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
Tel het aantal lijnen binnen de output CpG_sample1.bed file om het exacte aantal sites die vallen binnen 2,5 kb stroomopwaarts of stroomafwaarts van CpG eilanden met behulp van de volgende opdracht te kwantificeren:
wc -l CpG_sample1.bed
Herhaal stap 9.6 en 9.7 voor het in kaart brengen van integratie plaatsen in de omgeving tsss. Genereer een alternatieve versie van het RefSeq.bed bestanden waarin genomische coördinaten toewijzing aan verschillende genen zijn aangepast om slechts een enkel gen aanwezig op die positie weer te geven. Dit voorkomt overschatting van gen dichtheid rondom integratie sites. Bereken het gen dichtheid in de 1 Mb regio rond elk integratie plaats met behulp van de BEDTools window functie en het volgen van deze opdracht:
Bereken de gemiddelde gen dichtheid voor alle integraties in de dataset door het volgen van deze opdracht:
awk '(som + = $ 7) END (print "Gemiddeld =", sum / NR)' GeneDensity_sample1.bed

10. Statistisch Vergelijk Integratie Site Uitkeringen bij monsters met behulp van Tweezijdige Exact Test Fisher's en Tweezijdige Wilcoxon Rank Sum Test in R

Opmerking: exact test Gebruik Fisher's voor het vergelijken van het aandeel van de integratie sites binnen RefSeq genen of binnen een raam van CpG eilanden of Tsss, maar gebruik maken van de Wilcoxon rank sum test voor het vergelijken van de distributie in gen dichtheid rond de integratie sites. De R-programma is te vinden op http://www.r-project.org/.
Tweezijdige Fisher's exact test:

Met behulp van de cijfers berekend volgens de instructies in de stappen 9.4 en 9.7, create matrices voor elke vergelijking in R van de waargenomen gebeurtenissen (integraties binnen een annotatie of binnen een raam rond een annotatie) versus overige locaties door het volgen van deze opdracht:
(Annotation_of_interest <- matrix (c (SampleA # in, SampleA # resterende SampleB # in, SampleB # resterende), nrow = 2, dimnames = lijst (c ( 'Center', 'rest'), c ( 'SampleA', 'SampleB))))
Bereken de P-waarde voor de vergelijking met tweezijdige Fisher's exact test met het volgende commando:
fisher.test (annotation_of_interest, variant = 'two.sided') $ p.value
Tweezijdige Wilcoxon rank sum-test:
Maak een tabgescheiden .txt bestand waarin elke kolom bevat de naam monster in de bovenste cel, onder gevolgd door het gen dichtheid waarden voor alle integratie sites in die bibliotheek (verkregen uit de .bed bestand gegenereerd in stap 9.9). Importeer deze tabs gescheiden .txt bestand in R met de volgende opdracht en navigating naar het juiste bestand directory:
FILENAME <- as.data.frame (read.delim (file.choose (), header = T, check.names = FALSE, vul = TRUE, september = ' t'))
Bereken de P-waarde voor de vergelijking met tweezijdige Wilcoxon-test rang som met het volgende commando:
wilcox.test (FILENAME $ SampleA, FILENAME $ SampleB, variant = 'two.sided', gekoppeld = F, exacte = T) $ p.value
Opmerking: P-waarden kunnen worden berekend slechts tot een bepaalde (zeer lage) grenswaarde in R, waarna nul wordt geretourneerd door het programma. Voor massaal verschillende monsters die een P = 0 in R opleveren, een schatting van de P-waarde als <2,2 x 10 ^-308.

11. Onderzoek Raw Sequencing gegevens voor Bewijs van clonale expansie van cellen met geïntegreerde virale DNA

Opmerking: een kleine mogelijkheid bestaat voor meerdere integratie op hetzelfde nt in de referentie genoom. Als alternatief, een single inintegratie- gebeurtenis kan redundant aanwezig sequentiegegevens worden door het gebruik van PCR in bibliotheek bereiding en / of celdeling vóór DNA preparaat. Recente analyse van genomisch DNA van HIV-geïnfecteerde patiënten hebben deze mogelijkheden onderscheiden door het identificeren van unieke sonificatie shear punten / linker bevestigingspunten (die alleen kan optreden voorafgaand aan PCR) op DNA-sequenties die identiek integratieplaatsen ^52-54. Er is momenteel een discussie of provirussen geherbergd binnen klonaal geëxpandeerde cellen bijdragen tot de latente virale reservoir, en dus van bijzonder belang voor de mate van expansie kenmerken bij het bestuderen integratieplaatsen bij menselijke patiënten.

Vergelijkbaar met de in stap 8,1 genoemde procedure genereren .bed bestanden lijst een interval van bases uitstrekkende, in dit geval 25 nt stroomafwaarts van elke unieke integratieplaats (stroomopwaartse basen zijn hier niet nodig). Genereer een FASTA bestand uit deze .bed bestanden (zoals beschreven inStap 8.1) met behulp van de fastaFromBed functie van BEDTools en het volgen van deze opdracht:
fastaFromBed-fi / directory / naar / referentie / genoom / -name -s -bed 25_base_pair_file.bed -fo output_file.fasta
Opmerking: Om de specificiteit van elke verbetering van zoeken is het aangeraden om minstens 25 halen nt stroomafwaarts van elk integratie plaats voor klonale uitbreiding analyses.
Bij voorkeur met behulp van een aangepaste script, zoek in de ruwe sequence data FASTA bestand voor alle strings met een exacte match om de 25 nt stroomafwaarts van elke unieke integratie site, en deze sequenties storten in een nieuw bestand. Trim LTR en linker-sequenties uit de ruwe snaren. Samenvoegen PE sequentie leest door het omzetten leest het omgekeerde complement, trimmen LTR en linker-sequenties, en vervolgens toewijzen READ2 strings om hun READ1 pair als de snaren te delen ten minste 20 overlappende nt.
Scan de linker bevestigingspunten van elk integratie plaats te blokkeren. Classificeren elk integratie als "klonaal uitgebreid &# 34; als linker bevestigingspunten zijn ≥3 bp uit elkaar.
Opmerking: Een protocol voor clonale expansie analyse zonder het samenvoegen sequentie leest is beschreven ^52.
Opmerking: Fragmentatie van het genoom op exact dezelfde plaats door sonicatie leidt tot een onderschatting van de omvang van klonale expansie en methoden om de resulterende experimentele voorspanning beschreven ^63,64 corrigeren.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tabel 4 vermeldt de resultaten van een representatief experiment om de gevoeligheid van NGS illustreren voor het terugwinnen integratieplaatsen uit een kweek van geïnfecteerde cellen. Geïnfecteerde cellulaire DNA werd gebruikt om serieel verdunde genomisch DNA van een infectie waarin elke cel gemiddeld staand een integratie ^40. Verdunningen werden bereid in stappen van vijf tot een maximale verdunning van 1: 15.625. Genomisch DNA in het titratiereeks Vervolgens werd gefragmenteerd door sonificatie of door digestie met restrictie-endonucleasen BglII en Msel, gevolgd door LM-PCR. Het aantal unieke integratieplaatsen, evenals het aantal locaties mapping proximaal geselecteerde genomische annotaties, werden berekend volgens bovenstaande protocol. Data-analyse onthulde tientallen unieke integratie sites (1-2% van het bedrag hersteld van nette genoom DNA) teruggewonnen uit bibliotheken bereid uit cellen, waar in theorie slechts één op de 15.625 was besmet. Bij het analyseren integratieplaats datasets, is het essentieel om de gegevens te vergelijken met een vergelijkbare reeks willekeurige genomische gebieden, die een aangepaste willekeurige controle of MRC wordt genoemd. Als representatieve resultaten gefragmenteerd genomisch DNA door restrictie-enzymdigestie of door sonicatie werden twee verschillende MRC datasets geconstrueerd. MRC _enz bevatte 50.000 unieke genomische plaatsen gegenereerd door willekeurig selecteren van sites uit hg19 in de nabijheid van de sites van Msel en BglII restrictie-enzym vertering, terwijl MRC _willekeurige koesterde 10.000 plaatsen gegenereerd zonder normalisatie voor afstand van de set genomische markers. Alleen de sites die kunnen worden toegewezen aan een unieke genomische locatie moet worden gebruikt in MRC datasets. Zoals sonicatie scharen genoom DNA in wezen vrij van sequentie bias, kan MRC _willekeurig worden gezien als meer van toepassing op datasets geproduceerd door fragmentatie van DNA door sonicatie. Een alternatieve manier van besturingsintegratieter dataset kan in vitro worden gegenereerd door reactie IN recombinant eiwit, intasome nucleoproteïne complex ²¹ of PICs geëxtraheerd uit acuut geïnfecteerde cellen ¹⁷ met onteiwitte genomisch DNA, en vervolgens na de LM-PCR en protocollen NGS ^21.

P-waarden voor vergelijking van de verdeling van integratieplaatsen teruggewonnen door sonicatie versus restrictiedigestie (vergelijking tussen de nette monsters), en ter vergelijking met de MRC _Enz en MRC _willekeurig worden weergegeven in figuur 2. De verdeling van integratieplaatsen teruggewonnen na sonicatie was vergelijkbaar met die teruggewonnen door restrictie-enzym digest alle annotaties onderzocht, met de grootste variantie duidelijk in termen van nabijheid van CpG eilanden. Zoals verwacht ^18,65 beide datasets aanzienlijk verschilde van de MRCs in termen van integraties binnen RefSeq genen en density rondom de gemiddelde integratie site, terwijl beide datasets waren vergelijkbaar met de MRCs op het gebied van de distributie ten opzichte van CpG eilanden en tsss. Aangezien relatief weinig HIV-1 integratie websites in kaart binnen 2,5 kb van een CpG eiland of TSS, waardoor het totale aantal sites hersteld is waarschijnlijk de variabiliteit die kunnen ontstaan tussen datasets (Tabel 4 en Figuur 2) te verlagen. Sequentie logo op de authenticiteit van de integratieplaats gegevens bevestigen worden getoond in figuur 3. De consensus HIV-1 integratieplaats ^14,22 (-3) TDG (G / V) TWA (C / B) CHA (7) ( geschreven met behulp van International Union of Biochemistry base codes, de backslash geeft de positie van vDNA plus-streng verbinden, en de onderstreping geeft de 5-bp sequentie gedupliceerd volgende HIV-1 integratie en DNA-herstel) blijkt voor bibliotheken bereid door beide fragmentatie technieken, hoewel de mate van zekerheid af met toenemende verdunning van geïnfecteerde celDNA. De willekeurige plaatsen uitgelijnde uit de MRC dataset daarentegen niet aanzienlijke niveaus van base-voorkeuren.

Figuur 1:. Stroomschema Illustratie van Integratie Site Library Voorbereidingen (A) Genereer virus voorraden door transfecteren HEK293T cellen, het oogsten en filteren supernatant 48 uur later, concentreren door ultracentrifugatie, en infecteren doelcellen met de juiste concentratie van het virus. Ten minste vijf dagen na infectie, extract genomisch DNA. Raadpleeg de afdelingen 1 en 2 van de belangrijkste tekst voor meer experimentele details. (B en C) fragment gezuiverd genomisch DNA door digestie met restrictie-enzymen of door sonicatie. De restrictie-enzym cocktail moet een enzym (bijv BglII), die splitst stroomafwaarts van de upstream-virale LTR naar balie-select voor LM-P omvattenCR versterking van de interne vDNA sequenties. Groene asterisk en vertakte pijl in (C) geven dat BglII worden toegepast na linker ligatie. Rode highlights virale sequentie, terwijl de zwarte hoogtepunten gastheer cellulaire volgorde. Impliciete DNA breekpunten (niet op schaal) worden gekenmerkt door "X." HIV-1 bevat tal Msel en BglII locaties; alleen die van het protocol relevant zijn weergegeven. De steunen boven de kaarten geven de U5-cellulaire DNA regio bij voorkeur geamplificeerd door LM-PCR. (D) Zuiver gefragmenteerd DNA (toen end-reparatie en A-staart in het geval van geluidsgolven) en ligeren aan (E) compatible asymmetrische linker-moleculen (blauw gekleurd). Magenta cirkels in (D) geven de integratieplaats die wordt geamplificeerd. Sterretjes aan het 3'-uiteinde van de linker korte strengen duiden aminoblokkerende modificaties. (F) Conduct eerste ronde van semi-nested PCR met behulp van de eerste ronde LTR primer (rood) en linker primer (blauw). in tPCR zijn rond, de linker primer codeert voor DNA clustering en NGS primer bindende sequenties (gegroepeerd als groene aanhangsel van de blauwe linker primer), terwijl de primer LTR mist dergelijke sequenties. (G) Zuiver eerste ronde PCR-product en een eventueel tweede ronde van semi-nested PCR. In deze ronde van PCR, gebruik van dezelfde linker primer als in de eerste ronde (blauw + groen aanhangsel), samen met de tweede ronde LTR primer (rood) die DNA clustering en NGS primerbindende sequenties draagt en een barcode voor multiplexing ( gegroepeerd als groene aanhangsel van de rode LTR primer). (H) Zuiver tweede ronde PCR-product als de uiteindelijke integratie website bibliotheek (boxed in magenta, met integratie plaats gekenmerkt door magenta cirkel). Submit hoeveelheid hiervan sequencing faciliteit voor QC en NGS. Klik hier om een grotere versie van deze figuur te bekijken.

"Figuur Figuur 2:. P-waarden voor de vergelijking van Integratie sites Amplified Na DNA-fragmentatie door sonicatie of door restrictie-enzymdigestie versus respectieve MRCs Aantallen integratie sites binnen RefSeq genen en de omgeving CpG eilanden en Tsss, evenals regionale gen dichtheid profielen, zijn weergegeven in . tabel 4 P-waarden ≥0.05 worden in vet en cursief ^een P-waarden berekend door Fisher's exact test ^b P-waarden berekend door Wilcoxon rank sum-test ^c MRC _enz... geëvenaard willekeurige controle; een set van 50.000 unieke integratie locaties werd geproduceerd door willekeurig selecteren van posities in de nabijheid van MseI / BglII restrictie sites in hg build 19. ^d MRC _{willekeurige:} geëvenaard willekeurige controle met 10.000 unieke integratie websites geproduceerd door willekeurig selecting posities in hg19 zonder normalisering te restrictieplaats nabijheid. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Sequence Logos afschilderen van HIV-1 Base Voorkeuren representatief experiment Bibliotheken Integratie sites uit bibliotheken bereid door (A) vertering met restrictie-enzymen of (B) sonicatie werden uitgelijnd met behulp van WebLogo software.. Elke verdunning in het titratie serie is afgebeeld, uit zuiver DNA bovenaan de figuur maximale verdunning van 1: 15.625 onderaan. (C) Sequence logo voor de MRC van 50.000 unieke genomische sites. Foutbalken wezen geven de standaardafwijking base opname op een bepaalde positie. Meer specifiek, de total hoogte van elk foutstaaf is gelijk aan tweemaal de kleine steekproefcorrectie ^66, die bepaalt voor onderschatting van entropie aanwezig in relatief kleine datasets. De x-as vertegenwoordigt gastheercel genoom DNA nt posities ten opzichte van de plaats van integratie op nulpunt. Klik hier om een grotere versie van deze figuur te bekijken.

tafel 1
. Tabel 1: oligonucleotidesequenties voor Linker Bouw en PCR-amplificatie Linker-specifieke en tweede ronde LTR primers coderen DNA clustering adapter sequenties, die kleurgecodeerde als volgt zijn: zwart, basen complementair zijn aan de linker of aan de HIV-1-LTR; rood, unieke index of barcode; groen, sequencing primer bindingsplaatsen; blauw, adapter sequenties voor DNA clustering. Single-end (SE) sequencing reaCTIES zal de sequencing primer die versmelt naar de tweede ronde LTR primer READ1 (groen) sequentie te gebruiken, terwijl de gepaarde-end (PE) reacties zowel (READ1 en READ2) sequencing primers zal gebruiken. ^een linker korte strengen bevatten 3 'aminoblokkerende modificatie. klik hier om een grotere versie van deze tabel te bekijken.

Reagens	Om toevoegen per Reaction
Eerste ronde LTR primer (15 uM):	2,5 pl
Linker-specifieke primer (15 uM):	0,5 pl
10x PCR-buffer:	2,5 pl
dNTPs (2,5 mM elk)	0,5 pl
DNA polymerase mengsel:	0,5 pl
Ligatiereactie:	100 ng
Nuclease-vrij water:	tot 25 gl

Tabel 2:. Recept voor Eerste ronde PCR De hoeveelheid van elk genoemd reagens aan elke individuele PCR buis aangegeven worden toegevoegd.

Reagens	Om toevoegen per Reaction
Tweede ronde LTR primer (15 uM):	2,5 pl
Linker-specifieke primer (15 uM):	0,5 pl
10x PCR-buffer:	2,5 pl
dNTPs (2,5 mM elk)	0,5 pl
DNA polymerase mengsel:	0,5 pl
Eerste ronde PCR: 100 ng
Nuclease-vrij water:	tot 25 gl

Tabel 3:. Tweede ronde PCR Recept De hoeveelheid van elk reagens wordt toegevoegd aan elke PCR buis aangegeven.

<td> Digest, 1: 125

Bibliotheek	#Unique sites	% RefSeq ^een	% CpG +/- 2,5 kb ^b	% TSS +/- 2,5 kb ^c	Gem. Gene Density +/- 500 kb ^d
Sonicatie, nette	3169	71.2	5.1	3.7	15.8
Sonicatie, 1: 5	366	75.1	2.7	3	16.3
254	74	7.1	5.1	16.7
Sonicatie, 1: 125	430	69.8	6.9	6	14.6
Sonicatie, 1: 625	314	65.6	5.6	6.7	13.5
Sonicatie, 1: 3125	116	73.6	3.5	2.5	13.1
Sonicatie, 1: 15.625	72	62.5	0	1.4	14.7
Digest, nette	7428	69.8	3.6	2.9	15.2
Digest, 1: 5	1460	71.4	4.4	3.4	14.9
Digest, 01:25	394	68.8	4.3	3.3	15.8
172	71	0	3	14
Digest, 1: 625	134	73.9	3.7	3.7	14.1
Digest, 1: 3125	100	83.1	6.4	5.2	19.1
Digest, 1: 15.625	73	74	4.1	1.4	9.7
MRC _enz ^e	50.000	44.7	4.2	4	8.7
MRC _willekeurige ^f	10.000	41.3	5.3	4.2	8.6

Tabel 4: Genomic Verdeling van Integratie Sites van Vertegenwoordiger titratie Series Het percentage van de totale integratie plaatsen Th.op binnen ^een RefSeq genen binnen 2,5 kb van Tsss vallen, ^b binnen 2,5 kb van CpG eilanden, en ^c ^d Het gen dichtheid binnen 1 Mb rond het gemiddelde integratie plaats ^e MRC _enz.. geëvenaard willekeurige controle; een set van 50.000 unieke integratie locaties werd geproduceerd door willekeurig selecteren van posities in de nabijheid van MseI / BglII restrictie sites in hg19 ^f MRC _willekeurig. geëvenaard willekeurige controle met 10.000 unieke integratie websites geproduceerd door willekeurig selecteren van posities in hg19 zonder normalisatie naar vaste posities.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Een protocol voor de analyse van retrovirale integratieplaatsen, de initiële virusinfectie stap door de omschrijving van genomische verspreidingspatronen wordt beschreven. Dit protocol is toepasbaar op elk retrovirus geïnfecteerd en elk celtype. Bovendien is de assay pijpleiding is zeer gevoelig, met de potentie om een bevredigend aantal unieke integratieplaatsen van seriële verdunningen van genomisch DNA overeenkomt herstellen tot die van een infectie gestart met een MOI van 6,4 x 10 ^-5. Deze gevoeligheid maakt het protocol vooral nuttig wanneer toegepast op monsters van geïnfecteerde patiënten die een lage viral load, waarbij slechts een kleine fractie van cellen die een geïntegreerd provirus zal herbergen kunnen bevatten. In overeenstemming met eerdere methodologie papieren op dit gebied ^36,38,41-43 zullen meerdere stappen in de bioinformatica deel van dit protocol profiteren van de ontwikkeling van aangepaste scripts voor het verwerken van grote bestanden van de sequence data. Terwijl BLAT ⁵⁸ de mapping nut beschreven in dit protocol, kunnen gebruikers Bowtie ⁶⁷ (http://bowtie-bio.sourceforge.net/index.shtml) te vinden om een geschikt alternatief zijn.

Alternatief bio pijpleiding Onlangs werd voor bepaling van Moloney murine leukemievirus (MoMLV) integratieplaatsen ^19. Dat pijpleiding is nuttig omdat het werd ontwikkeld tot alone software die openbaar is, en is zeer krachtig, dat oorspronkelijk werd gebruikt om honderdduizenden unieke MoMLV integratieplaatsen kaart. Echter, de beschikbare software oorspronkelijk ontworpen voor gebruik opnieuw analyseren de gerapporteerde MoMLV dataset, enzovoort herprogrammering nodig zou zijn om de pijpleiding te passen experimentele ontwerp (de werking van het gereedschap wisselen onlangs uitgebreid met adeno geassocieerde virus en Tol2 omvatten en ac / Ds transposon vectoren ^68). Voorts dat beschreven protocol het genereren van de voorlopige integratieplaats .bedbestand, maar niet de lay-out specifieke stappen die nodig zijn om de kaart sites om genomische annotaties relevant. Lezers kunnen de "Vector Integration Site Analysis" server ^69, die werd uitgebracht tijdens de herziening van de huidige manuscript, nuttig om het NGS sequenties gegenereerd met behulp van de hier beschreven protocol te analyseren vinden.

Bepaalde punten moeten worden benadrukt bij het gebruik van een protocol om retrovirale integratie plaats datasets te analyseren. Bij de voorbereiding van meerdere bibliotheken in tandem, een aanzienlijk potentieel bestaat voor het monster kruisbesmetting. Zelfs een zeer kleine mate van crosstalk monster kunnen de resultaten verdoezelen om het niveau van het renderen van een NGS run onbruikbaar. Daarom moeten alle nat-bank werken in een gesteriliseerde, gewijd laminaire stroming kap of PCR werkstation worden afgerond. Een set van pipetten en reagentia zoals nuclease-vrij water moet uitsluitend worden besteed aan de integratie ter versterking. Het gebruik van unieke linkers voor elke bibliotheek preparaat kan het potentieel beperkenvoor cross-versterking en het ook mogelijk voor de identificatie van crossover leest binnen elke bibliotheek in het ruwe FASTA bestanden.

Het is belangrijk om de voors en tegens van het gebruik van geluidsgolven versus restrictie endonucleasedigestering om genomische DNA-fragment te overwegen. Enerzijds, sonificeren geeft een relatief willekeurige verdeling afschuiving punten, maar de later vereiste DNA herstel en A-tailing stappen consequent verlagen de opbrengst aan linker ligatieproducten tegenover ligaties uitgevoerd met restrictie-enzym gegenereerde sticky ends. Anderzijds, restrictie-enzymdigestie verschaft een minder uitbetaald populatie afschuiving punten, die steevast enige bias in de herstelde data invoeren. Gebruik van een restrictie endonuclease stroomopwaarts LTR sequenties ontdoen wordt in beide gevallen (figuur 1) resulteren in het verlies van een klein deel van integratieplaatsen die stroomopwaarts van die plaats in het genoom liggen. Alle gegevens vooroordeel dat kan resulteren kan advertentie zijnverzorgd door het weglaten van de enzymatische vertering van het protocol tijdens de bibliotheek voorbereiding en het uitfilteren van de veelheid van de resulterende stroomopwaarts LTR-sequenties van de sequencing data.

Hoewel het huidige protocol is zeer gevoelig en kunnen genereren miljoenen unieke integratieplaatsen ^21,40, slechts ongeveer een derde van alle beschikbare integraties kan worden verwacht te amplificeren in een gegeven experiment zelfs met de beste bibliotheek preparaten (ref. ⁷⁰ en ongepubliceerde waarnemingen). Dit kan leiden tot complicaties bij het analyseren van monsters van lage MOI infecties of patiënten die een lage viral load haven. Deze beperking kan gedeeltelijk worden overwonnen door herhaaldelijk sequencing dezelfde bibliotheek opgesteld en / of sequencing meerdere bibliotheken afgeleid van dezelfde DNA monster parallel. Toekomstige verhogingen testgevoeligheid dienovereenkomstig zeer gunstig voor het bevorderen translationele toepassingen van retrovirale integratieplaats sequencing.

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

We zijn dankbaar dat onze collega Stephen Hughes en Henry Levin voor het advies dat van cruciaal belang voor de NGS protocol voor retrovirale integratie ter sequencing te vestigen in de Engelman lab was. Dit werk werd ondersteund door de Amerikaanse National Institutes of Health subsidies AI039394 en AI052014 (tot ANE) en AI060354 (Harvard University Center for AIDS Research).

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS