Biology

Forstærkning, Næste generations sekventering, og Genomisk DNA Kortlægning af retroviral integration steder

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

Retrovira udviser signatur integration præferencer på både lokale og globale skalaer. Her præsenteres en detaljeret protokol for (1) frembringelsen af diverse biblioteker af retroviral integration websteder ved hjælp ligering-medieret PCR (LM-PCR) amplifikation og næste generation sekventering (NGS), (2) at kortlægge genomiske placering af hver virus- vært krydset ved hjælp BEDTools, og (3) at analysere dataene for statistisk relevans. Genomisk DNA ekstraheret fra inficerede celler er fragmenteret ved spaltning med restriktionsenzymer eller ved lydbehandling. Efter passende DNA ende-reparation, er dobbeltstrengede linkere ligeret på den DNA-ender, og semi-nested PCR udføres under anvendelse af primere komplementære til både den lange terminale gentagelse (LTR) ende af virusset og ligeret linker-DNA. PCR-primerne bærer sekvenser, der kræves til DNA-klyngedannelse under NGS, at bevirke kravet om separat adapter ligering. Kvalitetskontrol (QC) udføres for at vurdere DNA-fragment størrelsesfordeling og tilpasseare DNA inkorporering før NGS. Sequence output filer filtreres for LTR-holdige læser, og sekvenserne definerer LTR og linker er beskåret væk. Trimmede værtscellelinier sekvenser kortlægges til en reference-genom ved hjælp BLAT og filtreres til minimalt 97% identitet med et unikt sted i henvisningen genomet. Unikke integration steder er gransket for tilstødende nukleotid (nt) sekvens og distribution i forhold til forskellige genomiske funktioner. Ved anvendelse af denne protokol, kan integrationssted biblioteker af høj kompleksitet konstrueres fra genomisk DNA i tre dage. Hele protokol, som omfatter eksogen viral infektion af modtagelige vævskulturceller til integrationssted analyse kan derfor udføres i cirka en til to uger. Nylige anvendelser af denne teknologi vedrører langsgående analyse af integration steder fra HIV-smittede patienter.

Introduction

Integration af viralt DNA (vDNA) i værtscellens genom er et væsentligt skridt i den retrovirale livscyklus. Integration opnås ved den virale enzym integrase (IN), som udfører to forskellige katalytiske processer, der fører til etablering af stabilt indsat provirus ^1. I underenheder i indgreb med enderne af det lineære vDNA, der genereres gennem revers transkription, danner den højere ordens intasome med vDNA ender holdes sammen af en IN multimer ^2-4. I spalter 3 'enderne af vDNA nedstrøms fra invariante 5'-CA-3' sekvenser i en proces kendt som 3'-behandling, hvilket efterlader forsænkede 3'-ender med reaktive hydroxylgrupper ved hver vDNA terminus ^5-8. Den intasome efterfølgende importeres til kernen som en del af en stor samling af vært og virale proteiner kendt som preintegration kompleks (PIC) ^9-11. Efter at støde cellulære mål-DNA (tDNA), IN bruger vDNA 3'-hydroxyl groups for at spalte tDNA øverste og nederste tråde i en forskudt måde og samtidig slutter sig til vDNA til tDNA 5 'phosphatgrupperne gennem processen med streng transfer ^12,13.

Retrovirus udstille integration foretrukne indstillinger på webstedet på de lokale og globale skalaer. Lokalt, konsensus integrationssteder består af svagt konserverede palindrome tDNA sekvenser, der spænder fra ca. fem til ti bp opstrøms og nedstrøms fra vDNA insertionssteder ^14,15. Globalt retrovirus målrette specifikke kromatin anmærkninger ^16. Der er syv forskellige retroviral slægter - alpha gennem epsilon, Lenti, og spuma. De lentivira, som omfatter HIV-1, favorisere integration i ligene af aktivt transskriberede gener ^17, mens gammaretroviruses fortrinsvis integrere i transkriptionelle start-sites (TSSs) og aktive enhancerregioner ^18-20. I skarp modsætning hertil spumavirus stærkt forudindtaget mod heterochromatiske regioner, såsom gen-fattig lamina-associerede domæner ^21. Lokale tDNA base-præferencer er for en stor del dikteret af specifikke netværk af nukleoprotein- kontakter mellem IN og tDNA ^13,22,23. For lentivira og gammaretroviruses, integration i forhold til genomiske anmærkninger er en stor del styret af interaktioner mellem IN og beslægtede cellulære faktorer ^24-27. Ændring detaljerne i IN-tDNA interaktion netværk ^13,22,23,28 og forstyrrer eller re-engineering IN-vært faktor interaktioner ^25-27,29-32 er bevist strategier til retarget integration på lokalt og globalt plan, hhv.

Effekten af DNA-sekventering procedurer, der anvendes til at katalogisere retroviral integration sites er steget enormt i de seneste årtier. Integration websteder blev genfundet i banebrydende arbejde ved hjælp af arbejdskrævende rensning og manuelle kloningsteknikker at give blot en håndfuld af unikke steder pr studiet ^33,34.Kombinationen af LM-PCR-amplifikation af LTR-vært DNA vejkryds med evnen til at kortlægge individuelle integration websteder til menneskelige og mus udkast genomer forvandlet marken, med antallet af websteder genvundet fra eksogen vævskulturer celle infektioner stigende til flere hundrede til tusinder ^{17 , 18.} Den nyere kombination af LM-PCR med NGS metodik har sendt bibliotek dybde skyrocketing. Konkret pyrosekventering gav på rækkefølgen af titusinder af unikke integration sites ^30,35-38, mens biblioteker sekventeret ved brug af DNA-klyngedannelse kan give millioner af unikke sekvenser ^19-21,39. Her beskriver vi en optimeret LM-PCR-protokol til forstærkning og sekventering retrovirale integration websteder ved hjælp af DNA-klyngedannelse NGS. Fremgangsmåden inkorporerer nødvendige adapter sekvenser i PCR-primerne og således direkte i det amplificerede DNA-molekyler, hvorved kravet til hinder for en ekstra adapter ligering trin før sequencing ^40. Den bioinformatisk analyse rørledning fra parsing af rå sekventering data for LTR-værten DNA vejkryds til kortlægning af unikke integration sites for en iagttagelse genomiske funktioner, er også generelt beskrevet. I overensstemmelse med den forrang etableret fra tidligere metodiske protokoller på dette område ^36,38,41-43, kan brugerdefinerede scripts blive udviklet til at hjælpe færdiggørelsen af konkrete skridt i bioinformatik pipeline. Anvendeligheden og følsomhed af protokollen er illustreret med repræsentative data ved at forstærke, sekventering og kortlægning HIV-1 integrationssteder fra vævskulturceller inficeret ved det omtrentlige infektionsmultiplicitet (MOI) på 1,0, samt en titrering serien af dette DNA fortyndet gennem uinficerede cellulært DNA i 5-fold trin til en maksimal fortynding på 1: 15.625, hvilket gav den omtrentlige tilsvarende MOI på 6,4 x 10 ^-5.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Generer Virus Stocks

Bemærk: En rutediagram af den våde bænk aspekt af denne protokol er afbildet i figur 1 Detaljerne i viral stock produktion og efterfølgende infektion af vævskulturceller vil generelt finde anvendelse på forskellige typer af retrovira.. Til nogle forsøg kan målcellen ikke udtrykke det endogene viral receptor (er), og i sådanne tilfælde konstruktionen af pseudotype retrovirale partikler der huser heterologe virale kappeglycoprotein, f.eks G-glycoproteinet fra vesikulær stomatitis-virus (VSV-G), vil være kræves for infektion ^44,45.

Bemærk: Der bør tages Forholdsregler ved arbejde med HIV-1. Selvom specifikke retningslinjer vil variere fra institution til institution, bør alle virus-baserede arbejde udføres i et dedikeret, operatør begrænset biologisk sikkerhedsskab (typisk omtalt som en vævskultur hætte). Korrekt personlige værnemidlerder omfatter ansigtsbeskyttelse, skoovertræk, en dobbelt handske lag, og en fuld krop coverall dragt, bør der på alle tidspunkter. Alt flydende affald fra virusrelaterede eksperimenter skal inaktiveres med blegemiddel (10% slutkoncentration), og alt affald, herunder faste stoffer skal autoklaveres før bortskaffelse.

En dag før transfektion, plade 3.3 x 10 ⁶ HEK293T celler i 10 ml Dulbeccos Modified Eagle Medium (DMEM) suppleret med 10% (vol / vol) føtalt bovint serum og 1% (v / v) penicillin / streptomycin (10.000 U / ml stamopløsning) i hver af fem 100 mm-skåle.
Bemærk: Suppleret-DMEM omtales som DMEM-FPS fra dette punkt.
På den efterfølgende dag, transficere cellerne med 10 pg af plasmid, der bærer fuld længde retrovirale molekylære kloner eller 9 ug envelope-deleteret single-round vektorer med 1 ug af en VSV-G ekspressionskonstruktion anvendelse af kommercielt tilgængelige transfektionsreagenser eller calciumphosphat.
1. Inkubér calen ved 37 ° C i en befugtet cellekultur inkubator med _5% CO2 (denne tilstand i det følgende benævnt "vævskulturinkubator"). Efter cirka 48 timer, indsamles virusholdige cellemedier ved anvendelse af en volumetrisk pipette og ledes gennem en 0,45 um filter ved hjælp af tyngdekraften flow.
2. Koncentrer virus ved ultracentrifugering ved 200.000 x g i 1 time ved 4 ° C. Resuspender virus pellet i 500 pi DMEM-FPS indeholdende 20 U DNase, og inkuberes i 1 time ved 37 ° C.
  Bemærk: DNase trin hjælper med at reducere inddrivelse af uønskede plasmid sekvenser ved at fjerne hovedparten af plasmid-DNA, der varer fra transfektion procedure.
Bestem p24-koncentration ⁴⁶ under anvendelse af et HIV-1 p24-antigen capture kit i henhold til producentens anvisninger.
Bemærk: Virus koncentration kan også bestemmes ved revers transkriptase-aktivitet assay ^47,48. Alternativt niveauet af funktionelle virus kanbestemmes ved at måle MOI. Dette er lettest gøres ved hjælp af fluorescens-aktiveret cellesortering med virus, der udtrykker fluorescerende reporter gener, såsom forstærket grønt fluorescerende protein. MOI bestemmelse kan være særligt nyttige, når der arbejdes med primære celler, der ikke understøtter den samme grad af infektion som optimerede cellelinier.

2. inficere celler med virus

Plade 3,0 x 10 ⁵ HEK293T brønd i en 6-brønds plade i 2,5 ml DMEM-FPS og inkuberes natten over i en vævskultur-inkubator.
Bemærk: Antallet af unikke integrationssteder inddrevet med denne protokol er direkte proportional med antallet af celler og mængde aktivt virus anvendt ved infektion.
Inficere celler med en endelig viral p24 koncentration på 500 ng / ml i et slutvolumen på 500 pi frisk DMEM-FPS i 2 timer i en vævsdyrkningsinkubator, derefter tilsættes 2 ml DMEM-FPS forvarmet til 37 ° C per brønd og Fortsæt inkubation.
På48 timer efter infektion, fjern medier og vask af cellerne med 2 ml phosphatbufret saltvand (PBS). Tilsæt 0,5 ml trypsin-EDTA forvarmet til 37 ° C, og efter et par sekunder visuelt inspicere brønde til celle løsgørelse.
Tilsæt 2 ml forvarmet DMEM-FPS og udeluk cellerne ved forsigtig op / ned pipettering med en fuldpipette ~ 10 gange. Opløsningen overføres til en 75 ^cm2 vævskultur-kolbe indeholdende 18 ml forvarmet DMEM-FPS, og inkuber cellerne i en vævskultur-inkubator.
Efter minimalt fem dage efter starten af infektionen, indsamle cellerne ved at fjerne mediet, skylles med 5 ml PBS, tilsættes 2 ml forvarmet trypsin-EDTA, og resuspender med 5 ml forvarmet DMEM-FPS ved pipettering. Centrifuger opløsningen i 5 minutter ved stuetemperatur ved 2500 x g, og kassér supernatanten.
Bemærk: Selv om integration under disse betingelser plateauer på omkring 48 timer efter infektion ^49,50, er de ekstra 3 dages kultur kræves for at sufficiently fortynde koncentrationen af ikke-integrerede DNA-molekyler, der skyldes cellebaseret DNA-rekombination eller viral-medieret autointegration.
Uddrag genomisk DNA fra cellepelleten ved anvendelse af et kommercielt tilgængeligt kit (se fx ^51). Eluering af DNA'et fra den medfølgende ionbyttersøjle med 200 pi 10 mM Tris-HCI, pH 8,5.
Bemærk: En alikvot af celler bør fordeles ved 48 timer efter infektion (trin 2.3) for en infektivitet assay for at sikre korrekt virus infektion forud for NGS.

3. Fragment Genomisk DNA ved sonikering eller ved restriktionsenzymspaltning

Bemærk: Sonikering fragmenter genomisk DNA i en næsten sekvens-uafhængig måde, og er således den foretrukne form for fragmentering når sekventere prøver med en lav forventet opsving sats (f.eks inficerede patient celler eller infektioner indledt ved relativt lav MOI). Endvidere lydbehandling tillader en at skelne PCR dubletter af en partiCULAR integration websted sekvens fra unikke integrationer på samme sted, som er afgørende at skelne mellem den klonal ekspansion af provirus-holdige celler i inficerede patienter (se trin 11 nedenfor) ^39,52-54.
Bemærk: DNA'et skal spaltes umiddelbart nedstrøms fra den opstrøms LTR at mindske amplifikation af interne virale sekvenser under LM-PCR. Restriktionsenzymet BglII, der ligger 43 bp nedstrøms fra den opstrøms U5-sekvensen og som er uforenelig til efterfølgende ligering med Msel-genereret DNA-ender virker godt med mange HIV-1-stammer (figur 1b). Ved udarbejdelsen DNA ved lydbehandling, bør den interne-spaltende restriktionsenzym anvendes efter linker ligation (se figur 1C - E og Trin 4.3 nedenfor).

For lydbehandling, bland 10 ug af genomisk DNA i nuklease-frit vand til et endeligt volumen på 120 pi. Sonikeres ved hjælp af parametrene for en gennemsnitlig pause størrelse på 500 bp (to runder af følgende parameter: duty cycle: 5%; intensitet: 3; cyklusser per burst: 200; tid: 80 sek).
Oprens sonikerede DNA ved anvendelse af et PCR-oprensningskit. Reparere DNA-ender under anvendelse af en DNA-ende-reparationssæt og oprense DNA'et ved anvendelse af et PCR-oprensningskit. A-hale DNA'et anvendelse af Klenow exo ^- enzym og oprense A-tailed DNA ved anvendelse af et PCR-oprensningskit. Der henvises til ^51,52 for yderligere oplysninger om kit brug.
For restriktionsendonukleasespaltning, sender 10 ug genomisk DNA natten over ved 37 ° C i et volumen på 100 pi med puffer leveret af producenten og en cocktail af enzymer (100 E hver), der genererer 5'-TA-overhæng, samt en uforenelig enzym, såsom BglII der spalter nedstrøms fra den opstrøms virale LTR. Oprense DNA næste dag ved hjælp af en PCR oprensning kittet.
Bemærk: Ingen af restriktionsenzymer bør skære i terminalen ~ 30 bp af virale DNA ende, der forstærkes ved LM-PCR-protokol. Denne protokol specifikt forstærker U5ende af HIV-1-DNA.

4. Anneal linkeroligonucleotider og Liger til Fragmenteret Genomisk DNA

Bemærk: Der laves en asymmetrisk linker indeholdende et udhæng, der er kompatibelt med de ovennævnte DNA-fragmenter (se tabel 1 for sekvenserne af oligonucleotider anvendt i denne protokol). Linkeren skal bruges med sonikerede DNA skal indeholde en kompatibel T-3 'overhæng, mens linkeren for Msel-fordøjede DNA skal indeholde en kompatibel 5'-TA-overhæng (figur 1). Den korte linker-strengen skal yderligere indeholde et ikke-forlænges kemiske forandringer, såsom 3'-amin, for at begrænse de efterfølgende amplifikationsreaktioner mod DNA'et af interesse.
Bemærk: Ved fremstilling af flere forskellige integration websted biblioteker i parallel og / eller når multiplexing unikke prøver på samme sekventering køre, anbefales det at bruge unikke indeksobligationer for hver prøve for at begrænse mulighederne for prøve cross-contamination under PCR. Dette indebærer desuden anvendelse af unikke linker primere for hver prøve under semi-nested PCR (beskrevet nedenfor). Unikke linker tråde og linker-primere kan designes ved at forvanske linker-oligonukleotidsekvenser, der er anført i tabel 1, mens tilsvarende samlet% GC-indhold og gældende udhæng positioner opretholdelse.

Anneale de korte og lange linker tråde i 35 pi 10 mM Tris-HCI, pH 8,0-0,1 mM EDTA (slutkoncentration på 10 uM af hvert oligonucleotid) ved opvarmning til 90 ° C og langsom afkøling til stuetemperatur i trin på 1 ° C pr min.
Fremstilles mindst fire parallelle ligeringsreaktioner pr genomisk DNA-prøve, som indeholder 1,5 uM ligeret linker, 1 ug fragmenteret DNA, og 800 U T4 DNA-ligase i 50 pi. Ligere natten over ved 12 ° C. Oprens den næste dag med et PCR-oprensningskit.
For prøver fremstillet ved lydbehandling, fordøje det oprensede ligeringsreaktion med 100 E af en restriction enzym der spalter nedstrøms fra opstrøms LTR (f.eks BgIII for HIV-1) under producentens anbefalede betingelser natten over. Oprens DNA under anvendelse af et PCR-oprensningskit.

5. Amplify Viral LTR-Host Genomisk DNA vejkryds Semi-nested PCR

Bemærk: For at sikre optimal bibliotek mangfoldighed, mindst 4-8 parallelle PCR'er, afhængigt af DNA-koncentrationen af den genfundne ligeringsreaktionen, bør være forberedt på hver prøve for begge PCR runder. DNA-skabelon fusionen bør kvantificeres ved spektrofotometri. I denne protokol de første og anden runde af PCR anvender indlejrede LTR-specifikke primere, men den samme linker-primer anvendes til begge runder (tabel 1). Den anden runde LTR-specifik primer og linker-primer koder adapter sekvenser for DNA clustering samt sekventeringsprimer-bindingssteder. Den nestede LTR-specifik primer koder også en 6 nt indeks sekvens, which kan varieres mellem forskellige primere til multipleksing biblioteker i samme sekventering løb.

Forbered første runde PCR'er indeholdende ingredienserne pr rør som anført i Tabel 2.
Bemærk: Linkeren primer huser 22 nt af komplementaritet til linkeren, en smeltetemperatur på 53 ° C, et GC-indhold på 45%, og dens 3'-ende er placeret 15-16 bp opstrøms fra 3'-terminalerne af de forskellige linker lange tråde (tabel 1). Den første runde 27 nt LTR primer har en smeltetemperatur på 59 ° C, et GC-indhold på 48%, og dens 3'-ende er placeret 34 bp opstrøms fra HIV-1 U5 terminus. Området af den anden runde 26 nt LTR primer, som er komplementær med HIV-1 LTR har en smeltetemperatur på 60 ° C, et GC-indhold på 50%, og dens 3'-ende er placeret 18 bp opstrøms fra den virale U5 terminus. Det anbefales, at oligonucleotid smeltetemperaturen og GC-indhold bør efterligne disse parametre, hvis brugernedesign PCR-primere med ændrede sekvenser (herunder til brug med andre retrovira) ^21.
Kør første PCR runde under følgende termocykler parametre: En cyklus: 94 ° C i 2 min; 30 cykler: 94 ° C i 15 sek, 55 ° C i 30 sek, 68 ° C i 45 sek; en cyklus: 68 ° C i 10 min.
Pool reaktioner og oprense ved anvendelse af et PCR-oprensningskit. Forbered anden runde PCR'er indeholder ingredienser pr rør som pr tabel 3. Kør den anden runde af PCR ved hjælp af de thermocycler parametre, der er beskrevet i trin 5.2. Pool reaktionerne og oprense DNA'et anvendelse af et kommercielt PCR oprensningskit ifølge producentens anvisninger.
Bemærk: En række anbefalede indeks, der er kompatible med DNA clustering NGS er tilgængelige ^71.

6. Udfør QC og NGS (Typisk Afsluttet af en Sequencing Facility)

(QC assay # 1) Bekræft Trin 5.3 bibliotek DNA-koncentration ved hjælp af en fluormeter ^55. Kort beskrevet forberede standarder og eksperimentelle prøver i et endeligt volumen på 200 pi nuclease-frit vand. Vortexrør til 2-3 sek, inkuber ved stuetemperatur i 2 minutter, og derefter læse prøverne i fluorometer.
Bemærk: Prøver bør indeholde en koncentration på 2 nM bibliotek DNA minimum i en minimal volumen på 15 pi.
(QC assay # 2) Bekræft DNA-fragment størrelse fordeling anvendes et bånd-baserede assay ^56.
Bemærk: En ideel fordeling er et relativt bredt DNA peak centrering omkring 500 bp i længde. Hvis en betydelig mængde materiale er større end 1 kb, så anbefales det at inkorporere en størrelse-udvælgelsesprocedure at eliminere længere DNA-typer, som vil hindre bro amplifikation under klyngedannelse. Hvis derimod en signifikant top fremgår omkring 100 til 200 bp, en primer dimer kan have dannet under PCR. I dette tilfælde bør optimeres proceduren for at minimere dannelsen af primer-dimerer.
(QC assay # 3) Confirm korrekt inkorporering af adaptere i DNA-bibliotek ved kvantitativ PCR ^57.
Udfør NGS følge fabrikantens ansøgning litteratur. Udnytte en stigning-i på 10% (vægt / vægt) ØX174 DNA, hvilket vil optimere realtid kvalitetsmetrik ved at tilvejebringe en afbalanceret basesammensætning til sekventering løb.
Bemærk: Integration websted sekventering eksperimenter er typisk udsat for enkelt ende 150 bp (SE150) eller parret ende 150 bp (PE150) sekventering. PE150 er særlig nyttig til at fange linkeren fastgørelsespunkt på hvert DNA-molekyle (fx ved vurderingen integrationssteder for tegn på værtscelle klonal ekspansion).

7. Brug en Customized Python eller Perl-script til Parse Sequencing Data til LTR-holdige sekvenser, Crop væk LTR og linkersekvenser, og Kort til reference genom med BLAT

Scannings FASTA filer til LTR-indeholdende sekvens læser, afgrøde LTR og linkersekvenser væk fra vært genomiske DNA-sekvens, ogeksportere disse sekvenser i et nyt FASTA fil. Kort beskåret læser til både en reference-genom (f.eks menneskelige genom versioner hg19 eller GRCh38) og det virale genom ved hjælp BLAT ^58, med output integration websted koordinater eksporteres til en separat .txt-fil, ved hjælp af følgende indstillinger:
trinstørrelse = 6, minIdentity = 97, og maxIntron = 0
Parse BLAT output .txt fil, fjern autointegrations (dvs. bevis for, at LTR ende har integreret i en indre region af det virale DNA-genom) og andre sekvenser kortlægning til HIV-1-genomet, og skabe en separat udgang .txt fil, hvor alle dublerede integration steder er blevet kondenseret til enkelte, unikke koordinere hits.

8. Opret .bed filer med 15-Nt Intervaller Omkringliggende Integrations, Konverter Disse til FASTA filer, og Construct Sequence Logos til Display Base Preferences Omkringliggende Integration steder

Opret .bed filer, liste et interval af baser forhver integration site. Mindst 15 baser (5 opstrøms og 10 nedstrøms) er foreslået for sekvens logo generation. Generer en FASTA fil fra disse .bed filer ved hjælp af fastaFromBed funktion fra BEDTools ⁵⁹ og denne kommando:
fastaFromBed fi / mappe / til / reference / genom / -name -s -bed 15_base_pair_file.bed -fo output_file.fasta
Bemærk: Den invariante virale 5'-CA-3 'dinucleotid er sluttet at være vært DNA under integration, og kontrollere krydset af LTR endestation til cellulær DNA er en vigtig indledende filter til at identificere bona fide integration sites. Vi har desuden kompilere sekvens logoer fra denne vært DNA-sekvens befolkning til at kontrollere de eksperimentelle resultater. Som retrovira vise signatur uædle præferencer omgivende deres integrationssteder ^14,15, sekvensen logoer tjener til at validere, at de kortlagte genomiske sites opstået ved IN-medieret integration sammenlignet med andre rekombinations mekanismer såsom ikke-homologt DNAende sammenføjning ^60,61.
Brug WebLogo 3 (http://weblogo.threeplusone.com/create.cgi) for at skabe sekvens logoer fra FASTA filer. Klik på 'Vælg fil "for at uploade FASTA fil og bruge følgende indstillinger: Output format, PDF (vektor); Logo størrelse, stor; Første position nummer, -5; Logo interval, -5 til 5; Y-aksen skala, 0,1, Y-akse tic afstand, 0,5, Farveskema, classic (NA).

9. Opret Central Base Pair .bed Filer, Check for Sample krydskontaminering, og kortlægge fordelingen af Unique Integration steder forhold til relevante Genomic Egenskaber

Da retroviral integration sker i en forskudt måde på tværs af tDNA tråde, justere de præcise koordinater for integration sites for at afspejle den centrale bp af målstedet dobbeltarbejde for korrekt kortlægning af genomisk fordeling i forhold til genomiske funktioner.
1. Derfor, for 5 bp overlappe vira som HIV-1, oprette en .bed fil med den centrale bp forskudt fra integration websted ved to baser nedstrøms for integrationer kortlægning til plus-strengen, og to baser opstrøms for integrationer kortlægning til minus streng.
For at kontrollere for prøve krydskontaminering, beregne antallet af integration sites fælles mellem de forskellige biblioteker ved hjælp af BEDTools skærer funktion til skærer central bp .bed filer til to forskellige prøver og ved at følge denne kommando:
bedtools skærer -a central_basepair_1.bed -b central_basepair_2.bed -f 1,00 -r -s> overlap1v2.txt
Tæl antallet af linjer i output overlap1v2.txt filen for at kvantificere det nøjagtige antal lokaliteter fælles blandt de to biblioteker ved at bruge følgende kommando:
wc -l overlap1v2.txt
Download RefSeq annotation .bed filen for den version af henvisningen genom, der blev brugt til integration websted mapping fra UCSC Genome Annotation Database (f.eks http://hgdownload.cse.ucsc.edu/goldenPath/hg38/daTabase) ^62.
1. Beregn antallet af integration lokaliteter, der henhører under RefSeq gener ved hjælp af BEDTools skærer funktion til skærer den centrale basepar .bed fil, der blev genereret for prøven med RefSeq .bed fil efter denne kommando:
  bedtools skærer -a central_basepair_1.bed -b RefSeq_hg38.bed -u> RefSeq_sample1.bed
Tæl antallet af linjer i output RefSeq_sample1.bed filen for at kvantificere det nøjagtige antal lokaliteter, der falder i RefSeq gener ved hjælp af følgende kommando:
wc -l RefSeq_sample1.bed
Gentag trin 9.3 og 9.4 til kortlægning integration websteder til enhver anden annotation af interesse, for hvilken et interval .bed fil er tilgængelig. Hent den nyeste CpG ø annotation .bed fil for referencen genomet af interesse fra UCSC Genome Annotation Database som anvist i trin 9.4.
1. Beregn antallet af integration lokaliteter, der henhører under en bestemt diholdning (illustreret i dette eksempel er et 5 kb vindue) af CpG-øer ved at bruge BEDTools vinduesfunktionen og følger denne kommando:
  bedtools vinduet -w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
Tæl antallet af linjer i output CpG_sample1.bed filen for at kvantificere det nøjagtige antal lokaliteter, der henhører under 2,5 kb opstrøms eller nedstrøms for CpG øer ved hjælp af følgende kommando:
wc -l CpG_sample1.bed
Gentag trin 9.6 og 9.7 for kortlægning integration steder i nærheden TSSs. Generer en alternativ version af RefSeq.bed fil, hvor genomisk koordinerer kortlægning til mere end ét gen er blevet justeret til at afspejle kun et enkelt gen til stede i den position. Dette forhindrer overvurdering af gen tæthed omkring integration sites. Beregn genet tæthed i 1 Mb område, der omgiver hver integration Site ved at bruge BEDTools vinduesfunktionen og følger denne kommando:
Beregn den gennemsnitlige gen tæthed for alle integrationer i datasættet ved at følge denne kommando:
awk '(sum + = $ 7) END (print "Average =" sum / NR) «GeneDensity_sample1.bed

10. Statistisk sammenligne Integration site distributioner blandt Prøver ved hjælp af to-tailed Fishers eksakte test og Two-tailed Wilcoxon Rank Sum Test i R

Bemærk: Brug Fishers eksakte test til sammenligning af andelen af integrationssteder inden RefSeq gener eller i et vindue af CpG øer eller TSSs, men anvende Wilcoxon rank sum test til sammenligning af fordelingen i gen-tæthed omgiver integrationssteder. R Programmet findes på http://www.r-project.org/.
To-halede Fishers eksakte test:

Brug af tal beregnet som anvist i trin 9.4 og 9.7, create matricer for hver sammenligning i R af observerede begivenheder (integrationer inden en anmærkning eller inden for et vindue omgiver en anmærkning) versus resterende sites ved at følge denne kommando:
(Annotation_of_interest <- matrix (c (SampleA # i, SampleA # resterende, SampleB # i, SampleB # tilbage), nrow = 2, dimnames = liste (c ( 'center', 'Resten'), c ( 'SampleA «, 'SampleB'))))
Beregn P-værdi til sammenligning af to-halet Fishers eksakte test med følgende kommando:
fisher.test (annotation_of_interest, alternative = 'two.sided «) $ p.value
To-halet Wilcoxon rank sum test:
Opret en tabulatorsepareret .txt fil, hvor hver kolonne indeholder navnet prøve i den øverste celle efterfulgt nedenfor af genet densitetsværdier for alle integration websteder i at biblioteket (fås fra .bed fil genereret i trin 9.9). Importer denne tabulatorsepareret .txt fil i R ved hjælp af følgende kommando og navigating til den korrekte fil mappen:
FILENAME <- as.data.frame (read.delim (file.choose (), header = T, check.names = FALSK, fylde = SAND, sep = ' t'))
Beregn P-værdi til sammenligning af to-halet Wilcoxon rank sum test med følgende kommando:
wilcox.test (FILENAME $ SampleA, FILENAME $ SampleB, alternative = 'two.sided', parret = F, eksakt = T) $ p.value
Bemærk: P-værdier kan beregnes kun ned til en vis (ekstremt lav) grænse i R, hvorefter nul vil blive returneret af programmet. For massivt forskellige prøver, der giver en P = 0 i R, estimere P-værdi som <2,2 x 10 ^-308.

11. Undersøge Raw Sequencing Data til Bevis for klonal ekspansion Celler med integrerede Viral DNA

Bemærk: Der er et lille potentiale for mere end en integration på nøjagtig samme nt i referencen genomet. Alternativt kan en enkelt igration begivenhed kan blive redundant stede i sekventering data fra anvendelse af PCR under bibliotek tilberedning og / eller ved celle overlapning før DNA-præparat. Nylige analyser af genomisk DNA fra HIV-inficerede patienter har udmærket disse muligheder ved at identificere unikke lydbehandling shear point / linker fastgørelsespunkter (som kun kan opstå forud for PCR) inden DNA-sekvenser indeholdende identiske integrationssteder ^52-54. Der er i øjeblikket en debat om, hvorvidt provirus nærede inden klonalt ekspanderede celler bidrager til latent viral reservoir, og det er således af særlig interesse at karakterisere deres niveau af ekspansion når man studerer integrationssteder i humane patienter.

Svarende til den anført i trin 8.1 procedure, generere .bed filer med lister et interval af baser, der strækker sig i dette tilfælde, 25 nt nedstrøms fra hver unik integrationssted (upstream baser er unødvendige her). Generer en FASTA fil fra disse .bed filer (som anvist iTrin 8.1) ved hjælp af fastaFromBed funktion fra BEDTools og efter denne kommando:
fastaFromBed fi / mappe / til / reference / genom / -name -s -bed 25_base_pair_file.bed -fo output_file.fasta
Bemærk: For at forbedre specificiteten af hver søge anbefales det at udvinde mindst 25 nt nedstrøms hver integration site for klonal ekspansion analyser.
Fortrinsvis at bruge en tilpasset script, søge på rå sekvens data FASTA fil for alle strenge, der indeholder en eksakt match til 25 nt nedstrøms hver unik integration sted, og deponere disse sekvenser i en ny fil. Trim LTR og linker-sekvenser fra de rå strenge. Flet PE sekvens læser ved at konvertere læser for det omvendte komplement, trimning LTR og linkersekvenser, og derefter tildele read2 strenge til deres read1 par, hvis strengene deler mindst 20 overlappende nt.
Scan linker fastgørelsespunkter for hver integration websted blok. Klassificere hver integration som "klonalt udvidede &# 34; hvis linker fastgørelsespunkter er ≥3 bp fra hinanden.
Bemærk: En protokol til klonal ekspansion analyse uden sammenlægning sekvens læser er blevet beskrevet ^52.
Bemærk: Opsplitning af genomet på nøjagtig samme sted ved lydbehandling fører til en undervurdering af omfanget af klonal ekspansion, og metoder til at korrigere den resulterende eksperimentelle skævhed er blevet beskrevet ^63,64.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tabel 4 viser resultaterne af et repræsentativt eksperiment for at illustrere følsomheden af NGS til udvinding integrationssteder fra en kultur af inficerede celler. Uinficerede cellulært DNA blev anvendt til serielt fortyndet genomisk DNA fra en infektion, hvor hver celle i gennemsnit indeholdt én integration ^40. Fortyndinger blev forberedt i trin på fem til en maksimal fortynding på 1: 15.625. Genomisk DNA i titreringsserie blev derefter fragmenteret ved lydbehandling eller ved fordøjelse med restriktionsendonukleaserne Msel og BglII efterfulgt af LM-PCR. Antallet af unikke integrationssteder, samt antallet af steder kortlægning proximalt til udvalgte genomiske anmærkninger, blev beregnet ifølge ovenstående protokol. Dataanalyse afsløret snesevis af unikke integration sites (1-2% af det beløb inddrives fra pæn genomisk DNA) inddrives fra biblioteker fremstillet ud fra celler, hvor i teorien kun hver 15.625 blev smittet. Ved analyse af integration websted datasæt, er det afgørende at sammenligne data til en matchet sæt af tilfældige genomiske steder, som kaldes en matchet tilfældig kontrol eller MRC. Som repræsentative resultater forskydes genomisk DNA ved restriktionsenzymfordøjelse eller ved lydbehandling blev to forskellige MRC datasæt konstrueret. MRC _Enz indeholdt 50.000 unikke genomiske steder genereret af tilfældigt at udvælge lokaliteter fra hg19 i nærheden af de steder, Msel og BgIII restriktionsenzym fordøjelse, mens MRC _tilfældige nærede 10.000 lokaliteter genereret uden normalisering for afstand fra fastsatte genomiske markører. Kun de steder, der kan kortlægges tilbage til en unik genomisk placering bør anvendes i MRC datasæt. Som sonikering saks genomisk DNA væsentlige fri sekvens bias, kan MRC _tilfældig ses som mere gælder for datasæt fremstillet ved fragmentering af DNA ved sonikering. En alternativ form for kontrol integrationwebsted datasæt kan genereres in vitro ved omsætning af rekombinant protein, intasome nukleoprotein kompleks ^21, eller PIC'er ekstraheret fra akut inficerede celler ¹⁷ med proteinfri genomisk DNA, og derefter efter LM-PCR og NGS protokol ^21.

P-værdier for sammenligning af fordelingen af integrationssteder udvundet ved lydbehandling versus restriktionsfordøjelse (sammenligning mellem de pæne prøver), samt til sammenligning med MRC _Enz og MRC _tilfældig, vises i figur 2. Fordelingen af integrationssteder genvundet efter sonikering var lig dem inddrives af restriktionsenzym fordøje for alle anmærkninger undersøgte, med den største varians tydeligt i nærhed til CpG øer. Som forventet ^18,65 begge datasæt afveg væsentligt fra de KMK i form af integrationer inden RefSeq gener og gen-density omgiver gennemsnitlige integration site, mens begge datasæt svarede til de KMK i form af distributionen i forhold til CpG øer og TSSs. Da relativt få HIV-1 integration sites kort inden for 2,5 kb af en CpG ø eller TSS, øge det samlede antal lokaliteter genvundet sandsynligvis mindske variabilitet, der kan opstå mellem datasæt (tabel 4 og figur 2). Sequence logoer for at bekræfte ægtheden af de integration webstedsdata er vist i figur 3. Konsensus HIV-1 integration websted ^14,22 (-3) TDG (G / V) TWA (C / B) CHA (7) ( skrevet med International Union of Biochemistry base-koder, den backslash angiver placeringen af vDNA plus-streng sammenføjning, og understregningen angiver 5 bp sekvens duplikeres efter HIV-1 integration og DNA-reparation) ses for biblioteker udarbejdet af både fragmentering teknikker, selvom graden af sikkerhed falder med stigende fortynding af inficeret celleDNA. De tilfældige sites aligned fra MRC datasæt derimod ikke forårsage betydelige niveauer af uædle præferencer.

figur 1
Figur 1:. Flow Chart Illustration af Integration site Bibliotek Forberedelse (A) Generer virusstammer ved transfektion HEK293T celler, høst og filtrering supernatant 48 timer senere, koncentrerer ved ultracentrifugering, og inficere målceller med passende koncentration af virus. Mindst fem dage efter infektion, ekstrahere genomisk DNA. Der henvises til §§ 1 og 2 i hovedteksten for yderligere eksperimentelle detaljer. (B og C) Fragment oprenset genomisk DNA ved fordøjelse med restriktionsenzymer eller ved lydbehandling. Den restriktionsenzym cocktail bør omfatte et enzym (f.eks Bglll), som spalter nedstrøms fra opstrøms viral LTR for kontraangreb vælge for LM-PCR amplifikation af interne vDNA sekvenser. Grøn stjerne og forgrenede pil i (C) betegne, at BgIII bør anvendes efter linker ligation. Røde højdepunkter viral sekvens, mens sorte højdepunkter vært cellulære sekvens. Implicit DNA break punkter (ikke i målestok), er markeret med "X" HIV-1 indeholder talrige Msel og BgIII sites; kun dem der er relevante for den protokol, der er vist. Beslagene over kortene betegner U5-cellulær DNA-regioner fortrinsvis forstærket af LM-PCR. (D) renses fragmenteret DNA (så ende-reparation og A-hale i tilfælde af lydbehandling) og ligere til (E) kompatible asymmetriske linkermolekyler (farvede blue). Magenta kredse i (D) angiver integrationen websted, der vil blive forstærket. Stjerner på 3'-enderne af linkeren korte strenge betegner aminogrupper blokering modifikationer. (F) Conduct første runde af semi-nested PCR ved hjælp første runde LTR primer (rød) og linker primer (blå). i thans PCR runde linkeren primeren koder for DNA klyngedannelse og NGS primer binding sekvenser (grupperet som et grønt tillæg til det blå linker primer), mens LTR-primeren mangler sådanne sekvenser. (G) Rens første runde PCR-produkt og gennemføre anden runde af semi-nested PCR. I denne runde af PCR, bruge den samme linker primer som i første runde (blå + grøn vedhæng), sammen med den anden runde LTR primer (rød), der bærer DNA klyngedannelse og NGS primer bindende sekvenser samt en stregkode for multiplexing ( grupperet som en grøn vedhæng til den røde LTR primer). (H) Rens anden runde PCR-produkt som den endelige integration websted bibliotek (boxed i magenta, med integration stedet præget af magenta cirkel). Indsend portion til sekventering facilitet til QC og NGS. Klik her for at se en større version af dette tal.

"Figur Figur 2:. P Værdier for Sammenligning af integration steder Amplified Efter DNA-fragmentering ved lydbehandling eller ved restriktionsenzymfordøjelse versus respektive KMK Antal integration sites inden RefSeq gener og nærliggende CpG øer og TSSs, samt regionale profiler gen tæthed, er opført i . tabel 4 P-værdier ≥0.05 er fremhævet med fed skrift og kursiv ^en p-værdier beregnet ved Fishers eksakte test ^b P-værdier beregnet ved Wilcoxon rank sum test ^c MRC _Enz:... matchet tilfældig kontrol; et sæt af 50.000 unikke integration sites blev produceret af tilfældigt at udvælge positioner i nærhed til Msel / BgIII restriktionssteder i hg build 19. ^d MRC _random: matchet tilfældig kontrol indeholdende 10.000 unikke integration sites produceret af tilfældigt selecting positioner i hg19 uden normalisering til restriktionssted nærhed. Klik her for at se en større version af dette tal.

Figur 3
Figur 3: Sekvens Logos Depicting HIV-1 Base Preferences repræsentativt forsøg Biblioteker Integration sites fra biblioteker udarbejdet af (A) fordøjelse med restriktionsenzymer eller (B) lydbehandling blev justeret ved hjælp WebLogo software.. Hver fortynding i titreringsserie er afbildet, fra ublandet DNA i toppen af figuren til den maksimale fortynding på 1: 15.625 i bunden. (C) Sekvens logo til MRC på 50.000 unikke genomiske sites. Fejllinjer væsentlige repræsenterer standardafvigelsen i basen inkorporering på et bestemt position. Mere specifikt total højde for hver fejl bar svarer til det dobbelte af den lille prøve korrektion ^66, som kontrollerer for undervurdering af entropi til stede i relativt små datasæt. X-aksen repræsenterer vært celle genomiske DNA nt position i forhold til stedet for integration på nulpunktet. Klik her for at se en større version af dette tal.

tabel 1
. Tabel 1: oligonucleotidsekvenser for Linker Byggeri og PCR-amplifikation Linker-specifikke og anden runde LTR primere koder DNA clustering adapter-sekvenser, som er farvekodede som følger: sort, baser komplementære til linker eller til HIV-1 LTR; rød, unikke indeks eller stregkode; grøn, sekventering primer binding sites; blå, adaptorsekvenser til DNA klyngedannelse. Single-end (SE) sekventering reaKTIONER vil udnytte den sekvensering primer, der annealer til anden runde LTR primer read1 (grøn) sekvens, mens parret-end (PE) reaktioner vil bruge både (read1 og read2) sekvensprimere. ^en linker korte tråde indeholder 3 'amino blokerer modifikation. klik her for at se en større version af denne tabel.

Reagens	At Tilføj per reaktion
First Round LTR-primer (15 uM):	2,5 pi
Linker-specifik primer (15 uM):	0,5 pi
10x PCR-buffer:	2,5 pi
dNTP'er (2,5 mM hver)	0,5 pi
DNA-polymerase mix:	0,5 pi
Ligeringsreaktion:	100 ng
Nuklease-frit vand:	op til 25 pi

Tabel 2:. Opskriften på First Round PCR Mængden af hver af de angivne reagens der skal lægges til den enkelte PCR-rør er angivet.

Reagens	At Tilføj per reaktion
Anden runde LTR-primer (15 uM):	2,5 pi
Linker-specifik primer (15 uM):	0,5 pi
10x PCR-buffer:	2,5 pi
dNTP'er (2,5 mM hver)	0,5 pi
DNA-polymerase mix:	0,5 pi
Første runde PCR: 100 ng
Nuklease-frit vand:	op til 25 pi

Tabel 3:. Anden runde PCR opskrift Mængden af hvert reagens der skal lægges til hver PCR-rør er angivet.

<td> Digest, 1: 125

Bibliotek	#Unique steder	% RefSeq ^en	% CpG +/- 2,5 kb ^B	% TSS +/- 2,5 kb ^c	Gns. Gene Density +/- 500 kb ^d
Sonikering, pæn	3169	71.2	5.1	3.7	15.8
Sonikering, 1: 5	366	75.1	2.7	3	16.3
254	74	7.1	5.1	16,7
Sonikering, 1: 125	430	69.8	6.9	6	14.6
Sonikering, 1: 625	314	65,6	5.6	6.7	13.5
Sonikering, 1: 3,125	116	73,6	3,5	2.5	13.1
Sonikering, 1: 15.625	72	62,5	0	1.4	14.7
Digest, pæn	7428	69.8	3.6	2.9	15.2
Digest, 1: 5	1460	71,4	4.4	3.4	14.9
Digest, 01:25	394	68.8	4.3	3.3	15.8
172	71	0	3	14
Digest, 1: 625	134	73,9	3.7	3.7	14.1
Digest, 1: 3125	100	83,1	6.4	5.2	19.1
Digest, 1: 15.625	73	74	4.1	1.4	9.7
MRC _Enz ^e	50.000	44,7	4.2	4	8.7
MRC _tilfældig ^f	10.000	41.3	5.3	4.2	8.6

Tabel 4: Genomisk Fordeling af Integration steder fra repræsentant Titrering Series Den procentdel af samlede integrationsomkostninger sites th.ved fald inden for ^et RefSeq gener, ^b inden for 2,5 kb af CpG øer, og ^c inden for 2,5 kb TSSs ^d Genet tæthed inden for 1 Mb omgiver den gennemsnitlige integration webstedet ^e MRC _Enz:.. matchet tilfældig kontrol; et sæt af 50.000 unikke integration sites blev produceret af tilfældigt at udvælge positioner i nærhed til Msel / BgIII restriktionssteder i hg19 ^f MRC _tilfældig:. matchet tilfældig kontrol indeholdende 10.000 unikke integration sites produceret af tilfældigt at udvælge positioner i hg19 uden normalisering til faste stillinger.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

En protokol til analyse af retroviral integration sites, fra den oprindelige virus infektion trin gennem kortlægning af genomiske distributionsmønstre, beskrives. Denne protokol gælder for enhver retrovirus og enhver inficeres celletype. Endvidere assayet rørledningen er meget følsomme, med potentiale til at genvinde en tilfredsstillende antal unikke integrationssteder fra serielle fortyndinger af genomisk DNA svarende til det af en infektion initieret med en MOI på 6,4 x 10 ^-5. Denne følsomhed er protokollen især nyttig når den anvendes på prøver fra inficerede patienter, der kan indeholde en lav virusmængde, hvor kun en lille brøkdel af celler vil harbor et integreret provirus. I overensstemmelse med tidligere metode papirer på dette område ^36,38,41-43, vil flere trin i bioinformatik del af denne protokol drage nytte af udviklingen af skræddersyede scripts til behandling af store filer af sekvensdata. Mens BLAT ⁵⁸ er mapping nytte beskrevet i denne protokol, kan brugere finde Bowtie ⁶⁷ (http://bowtie-bio.sourceforge.net/index.shtml) for at være et passende alternativ.

En alternativ bioinformatik rørledning blev for nylig rapporteret til bestemmelse af Moloney leukæmivirus (MoMLV) integrationssteder ^19. At rørledningen er nyttig, idet den blev udviklet i standalone software, der er offentligt tilgængelige, og er ganske stærk i at det oprindeligt blev anvendt til kortlægning hundredtusindvis af unikke MoMLV integration sites. Imidlertid blev tilgængelig software oprindeligt designet til specifikt at re-analysere rapporterede MoMLV datasæt, og så omprogrammering ville være nødvendigt at tilpasse rørledningen kan alternere forsøgsdesign (funktionaliteten af værktøjet blev for nylig udvidet med adeno-associeret virus og Tol2 og ac / Ds transposon vektorer ^68). Desuden beskrevet, at protokollen genereringen af den foreløbige integration webstedet .bedfil, men ikke lægge ud, der er nødvendige for kort sites konkrete skridt til en iagttagelse genomiske anmærkninger. Læserne kan finde "Vector Integration site Analysis" server ^69, som blev udgivet i forbindelse med revisionen af den nuværende manuskript, nyttigt at analysere NGS sekvenser genereret ved hjælp protokollen beskrevet her.

Visse punkter bør understreges ved brug af en protokol til at analysere retrovirale integration websted datasæt. Ved udarbejdelsen af flere biblioteker i tandem, der et betydeligt potentiale for prøve krydskontaminering. Selv en meget lille grad af prøven krydstale kan skjule resultater til niveauet gengive en NGS run ubrugelig. Derfor bør alle våd-bænk arbejde være afsluttet i en steriliseret, dedikeret laminar flow hætte eller PCR-arbejdsstation. Et sæt af pipetter og reagenser, såsom nuclease-frit vand bør udelukkende dedikeret til integreringssite amplifikation. Brugen af unikke linkere for hvert bibliotek præparat kan begrænse den potentiellepå tværs af forstærkning og også give mulighed for identifikation af crossover læser inden hvert bibliotek i de rå FASTA filer.

Det er vigtigt at overveje fordele og ulemper ved at bruge lydbehandling versus restriktionsendonukleasefordøjelse at fragmentere genomisk DNA. På den ene side, sonikering tilvejebringer en relativt tilfældig fordeling af shear punkter, men de efterfølgende krævede DNA reparation og A-hale trin konsekvent reducere udbyttet af linker-ligeringsprodukter sammenlignet med ligeringer udføres med restriktionsenzym-genererede klæbrige ender. På den anden side, restriktionsenzymfordøjelse giver en mindre udbetalt population af shear punkter, som uvægerligt vil introducere en vis skævhed i den gendannede data. Udnytte en restriktionsendonuklease til at skille opstrøms LTR-sekvenser vil i begge tilfælde (figur 1) resultere i tab af en lille brøkdel af integrationssteder, der ligger opstrøms for det sted i genomet. Enhver data skævhed, der kan resultere kan være annonceklædt ved at udelade den enzymatiske fordøjelse fra protokollen under biblioteket forberedelse og frafiltrere de mange resulterende opstrøms LTR-sekvenser fra sekventering data.

Selvom den nuværende protokol er meget følsomme og kan generere millioner af unikke integrationssteder ^21,40, kun omkring en tredjedel af alle tilgængelige integrationer kan forventes at blive amplificeret i et givet eksperiment selv med de bedste af biblioteket præparater (ref. ⁷⁰ og upublicerede observationer). Dette kan medføre komplikationer, når man analyserer prøver fra lav MOI infektioner eller patienter, som skjuler lav virusmængde. Denne begrænsning kan overvindes delvist ved gentagne gange sekventering af samme bibliotek tilberedning og / eller sekventering flere biblioteker afledt fra den samme DNA-prøven parallelt. Fremtidige stigninger i assay følsomhed vil derfor være meget gavnligt for de Fremme translationelle anvendelser af retroviral integration websted sekventering.

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

Vi er taknemmelige for vores kolleger Stephen Hughes og Henry Levin for rådgivning, der var afgørende for at etablere den NGS protokol for retroviral integration websted sekventering i Engelman lab. Dette arbejde blev støttet af amerikanske National Institutes of Health giver AI039394 og AI052014 (til ANE) og AI060354 (Harvard University Center for AIDS Research).

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS