Biology

Forsterkning, Neste generasjons sekvensering, og Genomisk DNA Kartlegging av Retrovirale Integrasjons nettsteder

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

Retrovirus utstillingen signatur integrerings preferanser på både lokalt og globalt plan. Her presenterer vi en detaljert protokoll for (1) generasjon av ulike biblioteker av retrovirale integrasjons nettsteder som bruker ligation-mediert PCR (LM-PCR) forsterkning og neste generasjons sekvensering (NGS), (2) å kartlegge genomisk plasseringen av hver virus- vert knutepunkt ved hjelp av BEDTools, og (3) å analysere dataene for statistiske relevans. Genomisk DNA ble ekstrahert fra infiserte celler er fragmentert ved spaltning med restriksjonsenzymer eller ved ultralydbehandling. Etter passende DNA-ende-reparasjon, blir dobbelt-trådet linkere ligeres til DNA-endene, og delvis nestet PCR blir utført ved anvendelse av primere komplementære til både lang terminal gjentagelse (LTR) enden av viruset og ligert linker DNA. PCR-primere bære sekvenser som er nødvendig for DNA-clustering under NGS, nektende kravet til separat adapter ligation. Kvalitetskontroll (QC) blir utført for å vurdere DNA-fragment størrelsesfordeling og tilpasseer DNA inkorporert før NGS. Sekvens utdatafiler filtreres for LTR holdig leser, og sekvensene som definerer LTR og linker blir beskåret bort. Trimmet vertscelle sekvenser tilordnet et referansegenom ved hjelp BLAT og filtreres for minimalt 97% identitet til et unikt sted i referanse genomet. Unike integrasjons nettsteder er gransket for tilstøtende nucleotide (nt) sekvens og distribusjon i forhold til ulike genomiske funksjoner. Ved hjelp av denne protokollen, kan integrasjonssete biblioteker med høy kompleksitet være konstruert av genomisk DNA i tre dager. Hele protokollen som omfatter eksogen viral infeksjon av mottagelige vevskulturceller til integreringssete analyse kan derfor gjennomføres i omtrent en til to uker. Nye anvendelser av denne teknologien gjelder for langsgående analyse av integrasjons nettsteder fra HIV-infiserte pasienter.

Introduction

Integrasjon av viral DNA (vDNA) inn i vertscellegenomet er et viktig trinn i den retroviral livssyklus. Integrering oppnås ved viral enzymet integrase (IN), som utfører to forskjellige katalytiske prosesser som fører til opprettelsen av stabilt innsatt provirus ^1. IN-subenheter i inngrep med endene av den lineære vDNA som er generert ved revers transkripsjon, som danner den høyere ordens intasome med vDNA ender holdt sammen av en IN multimer ^2-4. IN spalter 3 'endene av vDNA nedstrøms fra invariante 5'-CA-3' sekvenser i en prosess kjent som 3'-behandling, og etterlater forsenket 3'-endene med reaktive hydroksylgrupper ved hver vDNA terminus ^5-8. Den intasome blir deretter importeres inn i kjernen som en del av en stor samling av vert og virusproteiner som er kjent som den preintegration kompleks (PIC) ^9-11. Etter møte med mobil target DNA (tDNA), bruker i vDNA 3'-hydroksyl groups for å spalte tDNA øverste og nederste tråder i en forskjøvet måte, og samtidig slutter seg til vDNA til tDNA 5 'fosfatgruppene gjennom prosessen fra å overføre ^12,13.

Retrovirus utstillings integrering språk preferanser på lokalt og globalt plan. Lokalt, konsensus integrering nettsider består av svakt konserverte palindromic tDNA sekvenser som spenner fra omtrent fem til ti bp oppstrøms og nedstrøms fra vDNA innstikk ^14,15. Globalt retrovirus målrette bestemte kromatin merknader ^16. Det er sju forskjellige retroviral genera - alpha gjennom epsilon, Lenti, og spuma. De lentiviruses, som inkluderer HIV-1, favorisere integrasjon innenfor likene av aktivt transkriberte gener ^17, mens gammaretroviruses fortrinnsvis integreres i transkripsjonsstartsider (TSSs) og aktive enhancer regioner ^18-20. I skarp kontrast er spumavirus sterkt forutinntatt mot heterochromtiske regioner, slik som genet fattig lamina-forbundet domener ^21. Lokale tDNA basis preferanser er i stor grad styrt av spesifikke nettverk av nucleoprotein kontakter mellom IN og tDNA ^13,22,23. For lentiviruses og gammaretroviruses, integrasjon i forhold til genomisk merknader er i stor grad styrt av interaksjoner mellom IN og beslektede cellulære faktorer ^24-27. Endre detaljene i IN-tDNA interaksjon nettverk ^13,22,23,28 og forstyrre eller re-engineering IN-vert faktor interaksjoner ^25-27,29-32 er påvist strategier for å målrette videre integrasjon på de lokale og globale nivåer, henholdsvis.

Kraften av DNA-sekvensering prosedyrer som brukes til å katalogisere retrovirale integrasjons nettsider har økt voldsomt de siste tiårene. Integrasjons steder ble gjenvunnet i banebrytende arbeid med arbeidskrevende rensing og manuelle kloningsteknikker for å gi bare en håndfull av unike nettsteder per studie ^33,34.Kombinasjonen av LM-PCR forsterkning av LTR-verts DNA veikryss med evnen til å kartlegge individuelle integrerings områder som menneske mus utkast genomer forvandlet feltet, med antall steder utvinnes fra eksogene vev kultur celle infeksjoner øker til flere hundre til tusen ^{17 18.} Den nyere kombinasjon av LM-PCR med NGS metodikken har sendt bibliotek dybde skyrocketing. Spesielt pyrosekvensering ga i størrelsesorden titusenvis av unike integrasjonssider ^30,35-38, mens bibliotekene sekvensert ved bruk av DNA clustering kan gi millioner av unike sekvenser ^19-21,39. Her beskriver vi en optimalisert LM-PCR protokoll for å forsterke og sekvenseretrovirale integrasjons nettsteder som bruker DNA clustering NGS. Fremgangsmåten inkorporerer kreves adaptersekvenser inn i PCR-primerne og dermed direkte inn i de amplifiserte DNA-molekyler, og derved utelukker behovet for en ytterligere adapter ligation trinn før Sekvenscing ^40. Den bioinformatiske analyse rørledning fra analyseringen av rå sekvense data for LTR-vert DNA veikryss til kartlegging av unike integrasjons nettsider for å relevant genomiske funksjoner, er også generelt beskrevet. I henhold til prioritet etablert fra tidligere kjente metodeprotokoller på dette felt ^36,38,41-43, kan definerte skript bli utviklet for å hjelpe til fullføring av spesifikke trinn i bioinformatikk rørledningen. Anvendeligheten og følsomheten til protokollen er illustrert med representative data, ved å forsterke, sekvensering, og kartlegging av HIV-1-integrasjons områder fra vevskultur-celler infisert med tilnærmet multiplisitet av infeksjon (MOI) på 1,0, så vel som en titrering serie av dette DNA fortynnet gjennom uinfiserte cellulært DNA i 5-ganger trinn til et maksimum fortynning på 1: 15625 for å gi den omtrentlige ekvivalente MOI på 6,4 x 10 ^-5.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Generer Virus Stocks

Merk: Et flytskjema av den våte benken aspekt av denne protokollen er vist i figur 1. Detaljene ved viral lager produksjon og påfølgende infeksjon av vevkulturceller vil generelt gjelde for forskjellige typer av retrovirus.. For noen eksperimenter, kan målcellen ikke uttrykker endogen viral reseptor (er), og i slike tilfeller konstruksjonen av pseudotyped retroviruspartikler som bærer heterologe virale kappe-glykoprotein, for eksempel G-glykoproteinet fra vesikulær stomatitt-virus (VSV-G), vil det bli kreves for infeksjon ^44,45.

Merk: Forholdsregler bør tas når du arbeider med HIV-1. Selv om spesifikke retningslinjer vil variere fra institusjon til institusjon, bør alle virus basert arbeid utføres på en dedikert, operatør begrenset biologisk sikkerhetskabinett (vanligvis referert til som en vev kultur hette). Riktig personlig verneutstyrsom inkluderer ansiktsbeskyttelse, skoovertrekk, en dobbel hanske lag, og en full-body kjeledress drakt Det skal til enhver tid. Alt flytende avfall fra virusrelaterte eksperimenter bør bli inaktivert med blekemiddel (10% endelig konsentrasjon), og alt avfall inklusive faste stoffer skal autoklaveres før tømming.

En dag før transfeksjon, plate 3.3 x 10 ⁶ HEK293T celler i 10 ml Dulbeccos modifiserte Eagle-medium (DMEM) supplert med 10% (v / v) føtalt bovint serum og 1% (volum / volum) penicillin / streptomycin (10000 U / ml stamløsning) i hver av fem 100 mm skåler.
Merk: Supplert-DMEM omtales som DMEM-FPS fra dette punktet.
På den påfølgende dag, transfektere cellene med 10 pg av plasmid som bærer full-lengde retrovirale molekylære kloner eller 9 ug konvolutt-slettede single-round vektorer med 1 ug av et VSV-G ekspresjonskonstruksjon anvendelse av kommersielt tilgjengelige transfeksjon reagenser eller kalsiumfosfat.
1. Inkuber calen ved 37 ° C i en fuktig cellekulturinkubator med 5% CO ₂ (denne tilstanden heretter referert til som "vevsdyrkningsinkubator"). Etter ca 48 timer, høste virusholdige cellemateriale ved hjelp av en volumetrisk pipette og passerer det gjennom et 0,45 mikrometer filter av tyngdekraften flyt.
2. Konsentrer viruset ved ultrasentrifugering ved 200.000 xg i 1 time ved 4 ° C. Resuspender virus-pelleten i 500 pl DMEM-FPS inneholdende 20 U DNase, og inkuberes i 1 time ved 37 ° C.
  Merk: DNase trinnet bidrar til å redusere utvinningen av uønskede plasmid-sekvenser ved å eliminere hovedtyngden av plasmid DNA som vedvarer fra transfeksjon prosedyren.
Bestem p24 konsentrasjon ⁴⁶ ved hjelp av en HIV-1 p24 antigenerobring kit i henhold til produsentens anvisninger.
Merk: Virus-konsentrasjonen kan også bestemmes ved revers transkriptaseaktivitet assay ^47,48. Alternativt kan nivået av funksjonelle virus muligbestemmes ved å måle MOI. Dette blir lettest gjøres ved hjelp av fluorescens-aktivert cellesortering med virus som uttrykker fluorescerende reportergener som forbedret grønt fluorescerende protein. MOI beslutning kan være spesielt nyttig når du arbeider med primærceller som ikke støtter den samme grad av infeksjon som er optimalisert cellelinjer.

2. infisere celler med virus

Plate 3,0 x 10 ⁵ HEK293T celler per brønn i en 6-brønns plate i 2,5 ml DMEM-FPS og inkuber over natten i en vevskulturinkubator.
Merk: Antall unike integrering områder utvinnes med denne protokollen er direkte proporsjonal med antall celler og mengden av aktivt virus som brukes i infeksjonen.
Infisere celler med en endelig viral p24 konsentrasjon på 500 ng / ml i et sluttvolum på 500 ul friskt DMEM-FPS i 2 timer i en vevskultur-inkubator, og deretter tilsett 2 ml DMEM-FPS forvarmet til 37 ° C per brønn og fortsette inkubasjon.
På48 timer etter infeksjon, fjern mediet og vask av cellene med 2 ml fosfatbufret saltløsning (PBS). Tilsett 0,5 ml trypsin-EDTA forvarmet til 37 ° C, og etter noen sekunder visuelt inspisere brønner for celle løsner.
Tilsett 2 ml forvarmes DMEM-FPS og resuspender cellene ved forsiktig opp / ned pipettering med en volumetrisk pipette ~ 10 ganger. Overfør løsningen til en 75 ^cm2 vevskulturkolbe inneholdende 18 ml forvarmet DMEM-FPS, og inkuberes cellene i en vevskulturinkubator.
Etter minimalt fem dager fra starten av infeksjonen, samle cellene ved å fjerne media, vask med 5 ml PBS, tilsett 2 ml forvarmet trypsin-EDTA, og resuspender med 5 ml forvarmet DMEM-FPS ved pipettering. Sentrifuger løsningen i 5 min ved romtemperatur ved 2 500 xg, og supernatanten kastes.
Merk: Selv om integrering under disse forholdene platåer på ca 48 timer etter infeksjon ^49,50, blir ytterligere 3 dager med kultur som kreves for å sufficiently fortynne konsentrasjonen av uintegrerte DNA-molekyler som følge av cellebasert DNA-rekombinasjon eller viral-mediert autointegration.
Utdrag genomisk DNA fra cellepelleten ved å bruke et kommersielt tilgjengelig kit (se for eksempel ^51). Eluere DNA fra den medfølgende ionebytter-kolonne med 200 ul 10 mM Tris-HCl, pH 8,5.
Merk: En porsjon av cellene skal fordeles ved 48 timer etter infeksjon (trinn 2.3) til en infeksiøsitet assay for å sikre riktig virusinfeksjon før NGS.

3. Fragment Genomisk DNA ved ultralydbehandling eller ved restriksjonsenzym Digest

Merk: ultralyd fragmenter genomisk DNA i en tilnærmet sekvens-uavhengig måte og er dermed å foretrekke modus av fragmentering når sekvenserer prøver med en lav forventet utvinningsgrad (f.eks infiserte pasientceller eller infeksjoner initiert ved relativt lav MOI). Videre gir ultralyd en å skille PCR duplikater av et partisielt integrering nettstedet sekvens fra unike integrasjoner på samme sted, noe som er avgjørende for å skille klonal ekspansjon av provirus holdige celler i infiserte pasienter (se trinn 11 nedenfor) ^39,52-54.
Merk: DNA må bli spaltet umiddelbart nedstrøms fra oppstrøms LTR for å minske amplifikasjon av interne virale sekvenser under LM-PCR. Restriksjonsenzymet Bglll som ligger 43 bp nedstrøms fra oppstrøms U5 sekvens, og som ikke er kompatibelt for etterfølgende ligering med Msel-genererte DNA-ender virker godt med mange HIV-1-stammer (figur 1B). Ved fremstilling av DNA ved hjelp av ultralydbehandling, bør den innvendige spalte-restriksjonsenzym påføres etter linker ligering (se figur 1C - E og trinn 4.3 nedenfor).

For ultralydbehandling, bland 10 pg av genomisk DNA i nuklease-fritt vann til et sluttvolum på 120 ul. Sonicate ved hjelp av parametre for en gjennomsnittlig break størrelse på 500 bp (to runder med følgende paramålere: Driftssyklus: 5%; intensitet: 3; sykluser per burst: 200; tid: 80 sek).
Rens lydbehandlet DNA ved hjelp av en PCR rensing kit. Reparere DNA ender ved hjelp av en DNA-end-reparasjonssett og rense DNA ved hjelp av en PCR rensing kit. A-hale av DNA ved hjelp av Klenow-ekso ^- enzym og rense den A-tailed DNA ved anvendelse av en PCR-rensesett. Henvis til ^51,52 for ytterligere detaljer om kit bruk.
For restriksjonsendonucleaseoppløsning, kuttet 10 pg av genomisk DNA over natten ved 37 ° C i et volum på 100 ml med buffer levert av produsenten, og en cocktail av enzymer (100 U hver) som genererer 5'-TA overheng, samt en uforenlig enzym slik som Bglll som spalter nedstrøms fra oppstrøms virale LTR. Rens det DNA som den neste dag ved hjelp av en PCR-rensesett.
Bemerk: Ingen av de restriksjonsenzymer skal kuttes i terminalen ~ 30 bp av det virale DNA-enden som er forsterket av LM-PCR protokoll. Denne protokollen forsterker spesielt U5slutten av HIV-1 DNA.

4. gløding Linker Oligonukleotider og ligere til Fragmentert Genomisk DNA

NB: Bland et asymmetrisk linker inneholdende et overheng som er kompatibelt med de ovenfor angitte DNA-fragmenter (se tabell 1 for sekvensene til oligonukleotidene anvendt i denne protokollen). Linkeren som skal brukes sammen med sonikert DNA må inneholde en kompatibel T-3 'overhenget, mens linkeren for Msel-spaltet DNA, må inneholde en kompatibel 5'-TA henget (figur 1). Den korte linker tråd må i tillegg inneholde et ikke-utvidbart kjemisk modifikasjon, slik som 3'-amin, for å begrense de etterfølgende amplifiseringsreaksjoner mot DNA av interesse.
Merk: Når du forbereder flere forskjellige integrasjons språk bibliotekene i parallell og / eller når multiplexing uavhengige utvalg, på samme sekvense løp, er det anbefalt å bruke unike linkere for hver prøve å begrense potensialet for prøvekryss contaminasjon i løpet av PCR. Dette medfører i tillegg bruk av unike linker primere for hver prøve i løpet av semi-nested PCR (beskrevet nedenfor). Unike linker tråder og linker primere kan bli konstruert ved å kryptere linker oligonukleotidsekvenser som er oppført i tabell 1, og samtidig opprettholde liknende total% GC-innhold og gjeldende overheng stillinger.

Varmebehandlet kort og lang linker tråder i 35 pl 10 mM Tris-HCl, pH 8,0 til 0,1 mM EDTA (sluttkonsentrasjon på 10 pM av hvert oligonukleotid) ved oppvarming til 90 ° C og sakte avkjøling til romtemperatur i trinn på 1 ° C per min.
Fremstille i det minste fire parallelle ligeringsreaksjoner pr genomisk DNA-prøve, som inneholder 1,5 uM ligert linker, 1 ug fragmentert DNA, og 800 U T4 DNA-ligase i 50 pl. Ligere over natten ved 12 ° C. Rens neste dag med en PCR rensing kit.
For prøver utarbeidet av ultralydbehandling, fordøye renset ringsreaksjonen med 100 U av en RESTRICsjon enzym som spalter nedstrøms fra oppstrøms LTR (f.eks BglII for HIV-1) under produsentens anbefalte vilkår natten. Rense DNA ved hjelp av en PCR rensing kit.

5. forsterke Viral LTR-Host genomisk DNA trafikkmaskiner ved Semi-nestet PCR

Merk: For å sikre at for optimal bibliotek mangfold, minst 4-8 parallell PCR, avhengig av DNA-konsentrasjonen av den utvunnede ligeringsreaksjonen, bør være forberedt for hver prøve for begge PCR-runder. DNA-templat konsentrasjonen skal kvantifiseres ved hjelp av spektrofotometri. I denne protokollen de første og andre runden av PCR anvender nestede LTR-spesifikke primere, men det samme linker-spesifikk primer brukes for begge runder (tabell 1). Den andre runden LTR-spesifikk primer og linker-spesifikke primer kode adaptersekvenser for DNA-gruppering, så vel som sekvens primer-bindingsseter. Den nestede LTR-spesifikk primer koder også en 6 nt indeksen sekvens, which kan varieres mellom forskjellige primere for multipleksing biblioteker innenfor samme sekvense løp.

Forbered første runde PCRs inneholder ingredienser per tube som er oppført i Tabell 2.
Merk: Den linker-spesifikke primer havner 22 nt av komplementaritet til linkeren, en smeltetemperatur på 53 ° C, et GC-innhold på 45%, og dens 3'-ende er plassert 15-16 bp oppstrøms fra 3'-termini av de forskjellige linker lange tråder (tabell 1). Den første runden 27 nt LTR primer har en smeltetemperatur på 59 ° C, et GC-innhold på 48%, og dens 3'-ende er plassert 34 bp oppstrøms fra HIV-1 U5 terminus. Området for den andre runden 26 nt LTR primer som er komplementær med HIV-1 LTR har en smeltetemperatur på 60 ° C, et GC-innhold på 50%, og dens 3'-ende er plassert 18 bp oppstrøms fra det virale U5 endestasjonen. Det anbefales at oligonukleotid smeltetemperatur og GC-innhold bør etterligne disse parametrene hvis brukerneMotivet PCR-primere med endrede sekvenser (inkludert for bruk med andre retrovirus) ^21.
Kjør første PCR-runde under følgende termo parametere: en syklus: 94 ° C i 2 minutter; 30 sykluser: 94 ° C i 15 sekunder, 55 ° C i 30 sek, 68 ° C i 45 sekunder; en syklus: 68 ° C i 10 min.
Pool reaksjoner og rense ved hjelp av en PCR rensing kit. Forbered andre runde PCR som inneholder ingredienser per rør som per tabell 3. Kjør den andre runden av PCR ved hjelp av termo parametrene er beskrevet i trinn 5.2. Pool reaksjonene og rense DNA ved hjelp av et kommersielt PCR rensing kit følge produsentens instruksjoner.
Merk: En rekke anbefalte indeks sekvenser som er kompatible med DNA clustering NGS er tilgjengelig ^71.

6. Utfør QC og NGS (typisk gjennomført av en Sequencing Facility)

(QC analyse # 1) Bekreft Trinn 5,3 bibliotek DNA-konsentrasjon ved hjelp av en fluormeter ^55. I korthet fremstille standarder og eksperimentelle prøver i et sluttvolum på 200 ul nuklease-fri vann. Vortex-rør i 2-3 sek, inkuber ved romtemperatur i 2 minutter, og deretter lese prøvene i fluorometeret.
Merk: Prøvene bør inneholde en minimumskonsentrasjon på 2 nM bibliotek-DNA i et minimalt volum av 15 ul.
(QC analyse # 2) Bekreft DNA fragment størrelsesfordeling ved hjelp av en tape-baserte analysen ^56.
Merk: En ideell fordeling er en relativt bred DNA topp sentrering rundt 500 bp i lengde. Dersom en betydelig mengde materiale som er større enn 1 kb, så er det anbefalt å innlemme et størrelse-utvelgelsesprosedyre for å eliminere lengre DNA-arter, noe som vil vanskeliggjøre bro amplifikasjon under gruppering. Derimot, hvis en betydelig topp er tydelig rundt 100 til 200 bp, en primer-dimer kan ha dannet i løpet av PCR. I dette tilfellet er prosedyren bør optimaliseres for å minimalisere dannelsen av primer-dimerer.
(QC assay # 3) Samtidignfirm riktig inkorporering av adaptere til DNA-biblioteket ved kvantitativ PCR ^57.
Utfør NGS følge produsentens søknad litteratur. Utnytte en topp-in på 10% (vekt / vekt) ΦX174 DNA, som vil optimalisere sanntid Kvalitetsmålet ved å tilveiebringe balansert basesammensetning til sekvense løp.
Merk: Integrasjon nettstedet sekvense eksperimenter er typisk utsatt for enkle enden 150 bp (SE150) eller parvise end 150 bp (PE150) sekvensering. PE150 er spesielt nyttig for å fange opp den linkerfestepunkt på hver DNA-molekyl (for eksempel når gransker integrasjons områder for tegn på vertscelle klonal ekspansjon).

7. Bruk en tilpasset Python eller Perl-skript for å analysere Sekvense Data for LTR inneholder sekvenser, Crop bort LTR og lenke sekvenser, og Kart til Reference Genome med BLAT

Skann FASTA filer for LTR-holdige sekvens leser, beskjære LTR og lenke sekvenser fra verten genomisk DNA-sekvens, ogeksport av disse sekvenser i et nytt FASTA fil. Kart beskjæres leser både en referanse genom (f.eks menneskelige genom versjoner hg19 eller GRCh38) og viral genom hjelp BLAT ^58, med utgang integrasjon nettstedet koordinater eksportert til en separat .txt-fil med følgende innstillinger:
trinnstørrelse = 6, minIdentity = 97, og maxIntron = 0
Parse BLAT utgangs TXT fil, tar autointegrations (dvs. bevis for at LTR enden er integrert i en indre region av det virale DNA genom) og andre sekvenser tilordning til HIV-1 genomet, og å skape en separat utgang TXT fil i hvilken alle dupliserte integrasjons nettsteder har blitt kondensert til enkle, unike koordinere treff.

8. Lag .bed filer som inneholder 15 Nt intervaller Omkringintegrasjoner, konvertere disse til FASTA filer, og Konstruer Sequence Logoer til Display Base Preferences Rundt Integrasjons nettsteder

Lag .bed filer som inneholder et intervall på baser forhvert integrering nettsted. Minst 15 baser (5 oppstrøms og 10 nedstrøms) er foreslått for sekvens logo generasjon. Generere en FASTA fil fra disse .bed filer ved hjelp av fastaFromBed funksjon fra BEDTools ⁵⁹ og denne kommandoen:
fastaFromBed fi / katalog / til / referanse / genom / -name -s-sengs 15_base_pair_file.bed -fo output_file.fasta
Merk: invariant viral 5'-CA-3 'dinucleotide er sluttet å være vert for DNA under integrasjon, og verifisere krysset av LTR endestasjonen på cellulært DNA er et viktig første filter for å identifisere bona fide integrasjonssider. Vi i tillegg kompilere sekvens logoer fra denne verten DNA sekvens befolkningen til å verifisere de eksperimentelle resultatene. Som retrovirus vise signatur basis preferanser rundt sine integrasjonssider ^14,15, sekvens logoer tjene til å bekrefte at de kartlagte genomiske områder oppsto gjennom IN-mediert integrasjon i forhold til andre rekombinasjon mekanismer som ikke-homologe DNAende å bli ^60,61.
Bruk WebLogo 3 (http://weblogo.threeplusone.com/create.cgi) for å lage sekvens logoer fra FASTA filer. Klikk "Velg fil" for å laste opp FASTA fil, og bruke følgende innstillinger: Output format, PDF (vektor); Logo størrelse, stor; Først posisjonsnummer, -5; Logo rekkevidde, -5 til 5; Y-aksen skala, 0.1, Y-aksen tic avstand, 0,5, Fargevalg, klassisk (NA).

9. Lag Central basepar .bed filer, se etter Sample krysskontaminering, og kartlegge fordelingen av unike integreringen nettsteder Relativt Relevant Genomisk Funksjoner

Siden retroviral integrering skjer i en forskjøvet måte over tDNA strenger, justere nøyaktige koordinatene til integrasjons nettsider for å reflektere den sentrale bp over målstedet duplisering for riktig kartlegging av genom fordeling i forhold til genomisk funksjoner.
1. Derfor, for 5 bp duplisere virus som HIV-1, opprette en .bed fil med den sentrale bp forskjøvet fra jegntegration stedet av to baser nedstrøms for integrasjoner kartlegging til pluss strand, og to baser oppstrøms for integrasjoner kartlegging til minus strand.
For å sjekke for prøve krysskontaminering, beregne antall integrasjonssider vanligste blant de forskjellige bibliotekene ved hjelp av BEDTools krysser funksjonen til å krysse midt bp .bed filer i to forskjellige prøver og ved å følge denne kommandoen:
bedtools skjærer -a central_basepair_1.bed -b central_basepair_2.bed -f 1.00 -r -s> overlap1v2.txt
Tell antall linjer innen utgangen overlap1v2.txt fil for å kvantifisere nøyaktig antall områder vanlige blant de to bibliotekene ved hjelp av følgende kommando:
wc -l overlap1v2.txt
Last ned RefSeq merknaden .bed filen for den versjonen av referansen genomet som ble brukt for integrering nettstedet kartlegging fra UCSC Genome Kommentar Database (f.eks http://hgdownload.cse.ucsc.edu/goldenPath/hg38/daLageret) ^62.
1. Beregn antall integrasjons områder som faller innenfor RefSeq gener ved hjelp av BEDTools krysser funksjon for å krysse den sentrale basepar .bed filen som ble generert for prøven med RefSeq .bed filen følgende kommando:
  bedtools skjærer -a central_basepair_1.bed -b RefSeq_hg38.bed -u> RefSeq_sample1.bed
Tell antall linjer innen utgangen RefSeq_sample1.bed fil for å kvantifisere den eksakte antallet nettsteder som faller i RefSeq gener ved hjelp av følgende kommando:
wc -l RefSeq_sample1.bed
Gjenta trinn 9.3 og 9.4 for kartlegging integrasjons nettsteder til noen annen annotering av interesse som et intervall .bed filen er tilgjengelig. Last ned den nyeste CpG island annotering .bed fil for referansegenom interesse fra UCSC Genome merknad Database som anvist i trinn 9.4.
1. Beregn antall integrasjons områder som faller innenfor en viss distilling (vist i dette eksempel er et 5 kb vindu) av CpG øyene ved hjelp av BEDTools vindusfunksjon og følgende kommando:
  bedtools vindu -w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
Tell antall linjer innen utgangen CpG_sample1.bed fil for å kvantifisere nøyaktig antall områder som faller innenfor 2,5 kb oppstrøms eller nedstrøms av CpG øyer ved å bruke følgende kommando:
wc -l CpG_sample1.bed
Gjenta trinn 9.6 og 9.7 for kartlegging av integrerings områder i nærheten TSSs. Generere en alternativ versjon av RefSeq.bed fil, hvor genomisk koordinerer kartlegging til mer enn ett gen er justert for å reflektere bare et enkelt gen til stede på den posisjonen. Dette hindrer overvurdering av genet tetthet rundt integrering nettsteder. Beregn genet tettheten i en Mb regionen rundt hvert integrering område ved hjelp av BEDTools vindu funksjon og følge denne kommandoen:
Beregne gjennomsnittlig genet tetthet for alle integrasjoner i datasettet ved å følge denne kommandoen:
awk '(sum + = $ 7) END (print "Average =", sum / NR)' GeneDensity_sample1.bed

10. Statistisk sammenligning Integrasjon Nettsteds Fordelinger blant Prøver å bruke to-tailed Fishers Exact Test og Two-tailed Wilcoxon Rank Sum Test i R

Merk: Bruk Fishers eksakte test for å sammenligne andelen av integrasjons områder innenfor RefSeq gener eller innenfor et vindu av CpG øyer eller TSSs, men bruke Wilcoxon rank sum test for sammenligning av fordelingen i genet tetthet som omgir integreringssteder. R Programmet er tilgjengelig på http://www.r-project.org/.
To-tailed Fishers eksakte test:

Bruke tallene beregnet som beskrevet i trinn 9.4 og 9.7, create matriser for hver sammenligning i R observerte forekomster (integrasjoner innenfor en merknad eller innenfor et vindu rundt en merknad) versus rester nettsider ved å følge denne kommandoen:
(Annotation_of_interest <- matrise (c (SampleA # i, gjenværende SampleA #, SampleB # i, gjenværende SampleB #), nrow = 2, dimnames = liste (c ( 'senter', 'Rest'), c ( 'SampleA', 'SampleB'))))
Beregn P-verdi for sammenligning av to-tailed Fishers eksakte test med følgende kommando:
fisher.test (annotation_of_interest, alternativ = 'two.sided') $ p.value
To-tailed Wilcoxon rank sum test:
Opprett en tabulatordelt txt-fil hvor hver kolonne inneholder prøven navn i den øverste cellen, etterfulgt nedenfor ved verdier gense tetthet for alle integrasjons områder i det biblioteket (hentet fra .bed fil generert i trinn 9.9). Importere denne tabulatordelt txt-fil inn i R ved hjelp av følgende kommando og navigating til riktig fil katalogen:
FILNAVN <- as.data.frame (read.delim (file.choose (), header = T, check.names = USANN, fylle = TRUE, sep = ' t'))
Beregn P-verdi for sammenligning av to-tailed Wilcoxon rank sum test med følgende kommando:
wilcox.test (NAME $ SampleA, filnavn $ SampleB, alternative = 'two.sided ", sammen = F, nøyaktige = T) $ p.value
Merk: P-verdier kan beregnes bare ned til et visst (ekstremt lav) grense i R, hvoretter null vil bli returnert av programmet. For massivt forskjellige prøver som gir en P = 0 i R, anslå P-verdi som <2,2 x 10 ^-308.

11. Undersøk Raw Sekvense Data for Bevis på klonal ekspansjon av celler som inneholder Integrert Viral DNA

Merk: En liten potensial for mer enn en integrering på nøyaktig samme nt i referanse genomet. Alternativt kan en singel iintegrering arrangement kan bli redundant til stede i sekvenseringsdataene på grunn av bruk av PCR under bibliotek fremstillingen og / eller ved hjelp av celle duplisering før DNA-preparat. Nye analyser av genomisk DNA fra HIV-infiserte pasienter har preget disse mulighetene ved å identifisere unike ultralydskjærpunkter / linker festepunktene (som bare kan oppstå før PCR) innen DNA-sekvenser som inneholder identiske integrasjonssider ^52-54. Det er for tiden en debatt om hvorvidt provirus næret innen clonally utvidet celler bidra til latent viral reservoaret, og dermed er det av spesiell interesse å karakterisere deres nivå av ekspansjon når studere integrering steder i menneskelige pasienter.

I likhet med fremgangsmåten som er oppført i trinn 8.1, generere .bed filer med lister over et intervall på baser som strekker seg, i dette tilfellet 25 nt nedstrøms fra hver unike integreringssete (oppstrøms baser er unødvendig her). Generere en FASTA fil fra disse .bed filer (som beskrevet iTrinn 8.1) ved hjelp av fastaFromBed funksjon fra BEDTools og følge denne kommandoen:
fastaFromBed fi / katalog / til / referanse / genom / -name -s-sengs 25_base_pair_file.bed -fo output_file.fasta
Merk: For å forbedre spesifisiteten til hvert søk, anbefales det å trekke minst 25 nt nedstrøms fra hver integrering stedet for klonal ekspansjon analyser.
Helst bruker en tilpasset manus, søke på rå sekvens data FASTA fil for alle strenger som inneholder en eksakt match til 25 nt nedstrøms fra hver unike integrering området, og sette disse sekvensene inn i en ny fil. Trim LTR og lenke sekvenser fra rå strenger. Flett PE sekvens leser ved å konvertere leser til det motsatte komplement, trimming LTR og lenke sekvenser, og deretter tildele read2 strenger til deres read1 par hvis strengene deler minst 20 overlapp nt.
Skann linker festepunkter i hver integrasjons nettstedet blokk. Klassifisere hver integrasjon som "clonally utvidet &# 34; hvis linker festepunkter er ≥3 bp hverandre.
Merk: En protokoll for klonal ekspansjon analyse uten sammenslåing sekvens leser har blitt beskrevet ^52.
Merk: Fragmentering av genomet på nøyaktig samme sted ved ultralydbehandling fører til en undervurdering av omfanget av klonal ekspansjon, og fremgangsmåter for å korrigere de resulterende eksperimentelle forspenningen er blitt beskrevet ^63,64.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tabell 4 viser resultatene av et representativt eksperiment for å illustrere sensitiviteten av NGS for gjenvinning av integrasjons områder fra en kultur av infiserte celler. Uinfiserte cellulær DNA ble benyttet til å fortynne serielt genomisk DNA fra en infeksjon hvori hver celle i gjennomsnitt inneholdt en integrasjons ^40. Fortynninger ble fremstilt i trinn på fem til en maksimal fortynning på 1: 15625. Genomisk DNA i titreringen serie ble så fragmentert ved ultralydbehandling eller ved spaltning med restriksjonsendonukleaser Msel og Bglll, fulgt av LM-PCR. Antallet av unike integrering områder, så vel som antall steder kartlegging proksimalt til utvalgte genomiske anmerkninger, ble beregnet i henhold til ovennevnte protokoll. Dataanalyse avslørte dusinvis av unike integrasjonssider (1-2% av beløpet utvinnes fra ryddig genomisk DNA) utvinnes fra biblioteker fremstilt fra cellene der i teorien eneste i 15625 ble smittet. Ved analyse av integreringssete datasett, er det avgjørende å sammenligne dataene til et matchet sett av tilfeldige genomiske områder, noe som kalles en matchet tilfeldig kontroll eller MRC. Som representative resultater skåret genom-DNA ved hjelp av restriksjonsenzymkutting eller ved ultralydbehandling, ble to forskjellige MRC-datasett konstruert. MRC _Enz inneholdt 50.000 unike genomisk nettsider generert av tilfeldig valg av områder fra hg19 i nærhet til områder av MseI og Bglll restriksjonsenzym fordøyelsen, mens MRC _tilfeldige næret 10.000 nettsider generert uten normalisering for avstand fra satt genomiske markører. Bare de områder som kan tilordnes tilbake til en unik genomisk sted som skal brukes i MRC datasett. Som ultralyd saks genomisk DNA hovedsak fri rekkefølge bias, kan MRC _tilfeldig bli sett på som mer aktuelt å datasett produsert av fragmentering av DNA ved ultralydbehandling. Et alternativ stil av kontroll integreringområde datasett kan dannes in vitro ved omsetning av rekombinant protein, intasome nukleoprotein komplekset ^21, eller PICs ekstrahert fra akutt infiserte celler ¹⁷ med avproteinisert genomisk DNA, og deretter følge LM-PCR og NGS protokoller ^21.

P-verdier for sammenligning av fordelingen av integrasjons områder gjenvunnet ved ultralydbehandling i forhold til restriksjonskutting (sammenligning er mellom de pene prøvene), så vel som for sammenligning med MRC _enz og MRC _tilfeldig, er vist i figur 2. Fordelingen av integrasjons områder gjenvunnet følgende ultralyd var lik de utvinnes ved restriksjonsenzym fordøye for alle kommentarer undersøkt, med størst variasjon tydelig i form av nærhet til CpG øyer. Som forventet ^18,65 begge datasett skilte seg vesentlig fra de MRCS i form av integrasjoner innen RefSeq gener og gen density rundt gjennomsnittet integrering stedet, mens begge datasett var lik MRCS i form av distribusjon i forhold til CpG øyer og TSSs. Siden relativt få HIV-1-integrasjonssider kart innenfor 2,5 kb av et CpG øy eller TSS, noe som øker det totale antall områder utvinnes er egnet til å redusere variabiliteten som kan oppstå mellom datasett (tabell 4 og figur 2). Sekvens logoer for å bekrefte ektheten av integrasjon nettsteddata er vist i figur 3. Konsensus HIV-1 integrasjon nettstedet ^14,22 (-3) TDG (G / V) TWA (C / B) CHA (7) ( skrevet med International Union of Biochemistry basiskoder, backslash indikerer plasseringen av vDNA pluss-strand delta, og understrekingen indikerer 5-bp sekvensen dupliseres etter HIV-1 integrasjon og DNA-reparasjon) er åpenbar for bibliotekene utarbeidet av begge fragmentering teknikker, selv om den grad av sikkerhet avtar med økende fortynning av infiserte celleDNA. De tilfeldige steder justert fra MRC datasettet derimot ikke klarte å generere betydelige nivåer av basis preferanser.

Figur 1
Figur 1:. Flytskjema Illustrasjon Integrerings- nettstedet bibliotek Forberedelser (A) generere virus aksjer ved trans HEK293T celler, høsting og filtrering supernatanten 48 timer senere, konsentrere av ultrasentrifugering, og infisere målceller med passende konsentrasjon av virus. Minst fem dager etter infeksjon, trekke genomisk DNA. Se §§ 1 og 2 i hovedteksten for flere eksperimentelle detaljer. (B og C) fragment ble renset genomisk DNA ved kutting med restriksjonsenzymer eller ved ultralydbehandling. Restriksjonsenzym cocktail bør inneholde et enzym (f.eks BglII) som spalter nedstrøms fra oppstrøms viral LTR å motvirke-select for LM-PCR forsterkning av interne vDNA sekvenser. Grønn stjerne og forgrenede pilen i (C) betegne at Bglll bør påføres etter linker ligering. Røde høydepunkter viral sekvens, mens svart høydepunkter vert mobil sekvens. Implisitt DNA brytepunkter (ikke i målestokk) er merket med "X" HIV-1 inneholder mange Msel og Bglll områder; bare de som er relevante til protokollen er vist. Konsollene over kartene betegne U5-cellulær DNA-områder fortrinnsvis forsterket av LM-PCR. (D) Rens fragmentert DNA (da ende-reparasjon og A-hale i tilfellet av ultralydbehandling) og ligere til (E) som er kompatible asymmetriske linkermolekyler (farget blå). Magenta sirkler i (D) indikerer integrasjons område som vil bli forsterket. Stjernene i 3'-endene av de korte linker trådene betegne aminosyrene blokkerende modifikasjoner. (F) Gjennomføring første runde av semi-nested PCR ved anvendelse av første runden LTR primer (rød) og linker-primeren (blå). i tsin PCR-runde, koder for linkeren primer for DNA clustering og NGS primer bindingssekvenser (gruppert som en grønn vedheng til den blå linker primeren), mens den LTR primeren mangler slike sekvenser. (G) Rens første runde PCR produkt og gjennomføre andre runde av semi-nestet PCR. I denne runden av PCR, bruke samme linker primer som i første runde (blå + grønn vedheng), sammen med den andre runden LTR primer (rød) som bærer DNA clustering og NGS primer bindende sekvenser samt en strekkode for multipleksing ( gruppert som en grønn vedheng til den røde LTR primer). (H) Rens andre runde PCR-produktet som det endelige integrering nettstedet bibliotek (eske i magenta, med integrasjon stedet preget av magenta sirkel). Send delmengde til sekvensering anlegg for QC og NGS. Klikk her for å se en større versjon av dette tallet.

"Figur Figur 2:. P-verdier for sammenligning av Integrasjons nettsteder Amplified Etter DNA fragmentering ved ultralydbehandling eller ved restriksjonsenzymspaltning versus Respektive MRCS Numbers av integrasjons områder innen RefSeq gener og nærliggende CpG øyer og TSSs, samt regionale genet tetthetsprofiler, oppført i . Tabell 4 P-verdier ≥0.05 er uthevet med fet og kursiv tekst ^en P-verdier beregnet av Fishers eksakte test ^b P-verdier beregnet av Wilcoxon rank sum test ^c MRC _Enz:... matchet tilfeldig kontroll; et sett av 50.000 unike integrasjonssider ble produsert av tilfeldig velge posisjoner i nærhet til MseI / Bglll restriksjonssetene i hg build 19. ^d MRC _tilfeldig: matchet tilfeldig kontroll med 10.000 unike integrasjonssider produsert av tilfeldig selecting stillinger i hg19 uten normalisering til restriksjonssetet nærhet. Klikk her for å se en større versjon av dette tallet.

Figur 3
Figur 3: Sekvens Logos viser HIV-1 Base Valg fra Representative Experiment biblioteker Integrasjons nettsteder fra biblioteker utarbeidet av (A) fordøyelse med restriksjonsenzymer eller (B) lydbehandling ble justert ved hjelp WebLogo programvare.. Hver fortynning i titreringen serien er avbildet, fra ryddig DNA ved toppen av figuren til den maksimale fortynning på 1: 15625 i bunnen. (C) Sekvens logo for MRC på 50.000 unike genomisk nettsider. Feilfelt hovedsak representerer standardavviket i basen innlemmelse i en bestemt posisjon. Mer spesifikt, totalt høyden av hvert feilfelt som tilsvarer det dobbelte av lite utvalg korreksjon ^66, som kontrollerer for undervurdering av entropi til stede i relativt små datasett. X-aksen representerer vertscelle genomisk DNA nt posisjoner i forhold til stedet for integrering på nullpunkt. Klikk her for å se en større versjon av dette tallet.

. Tabell 1: oligonukleotidsekvenser for Linker Bygg og PCR Amplification Linker spesifikke og andre runde LTR primere kode DNA clustering adapter sekvenser, som er fargekodet slik: svart, baser utfyllende til linker eller til HIV-1 LTR; rød, entydig indeks eller strekkode; grønn, sekvense primer bindingssteder; blå, adaptere sekvenser for DNA clustering. Single-end (SE) sekvense reactions vil utnytte sekvense primer som hybridiserer til andre runde LTR primer read1 (grønn) sekvens, mens paret-end (PE) reaksjoner vil bruke begge (read1 og read2) sekvenseringsprimere. ^en linker korte tråder inneholder 3 'amino blokkerer modifisering. klikk her for å se en større versjon av denne tabellen.

reagens	Å Legg per Reaction
First Round LTR primer (15 mm):	2,5 mL
Linker spesifikk primer (15 mm):	0,5 ul
10x PCR buffer:	2,5 mL
dNTP (2,5 mM hver)	0,5 ul
DNA polymerase mix:	0,5 ul
Ligation reaksjon:	100 ng
Nukleasefritt vann:	opp til 25 ul

Tabell 2:. Resept for første runde PCR Mengden av hver angitte reagens som skal tilsettes til hver individuelle PCR-rør er indikert.

reagens	Å Legg per Reaction
Andre runde LTR primer (15 mm):	2,5 mL
Linker spesifikk primer (15 mm):	0,5 ul
10x PCR buffer:	2,5 mL
dNTP (2,5 mM hver)	0,5 ul
DNA polymerase mix:	0,5 ul
Første runde PCR: 100 ng
Nukleasefritt vann:	opp til 25 ul

Tabell 3:. Andre runde PCR Oppskrift Mengden av hver reagens som skal tilsettes til hvert PCR-rør er indikert.

<td> Digest, 1: 125

Bibliotek	#Unique nettsteder	% RefSeq ^en	% CpG +/- 2,5 kb ^b	% TSS +/- 2,5 kb ^c	Nr. Gene Tetthet +/- 500 kb ^d
Lydbehandling, ryddig	3169	71.2	5.1	3.7	15.8
Ultralydbehandling, 1: 5	366	75,1	2.7	3	16,3
254	74	7.1	5.1	16,7
Ultralydbehandling, 1: 125	430	69.8	6.9	6	14.6
Ultralydbehandling, 1: 625	314	65.6	5.6	6.7	13.5
Lydbehandling, 1: 3125	116	73.6	3,5	2,5	13.1
Ultralydbehandling, 1: 15625	72	62,5	0	1.4	14.7
Digest, ryddig	7428	69.8	3.6	2.9	15.2
Digest, 1: 5	1460	71,4	4.4	3.4	14.9
Digest, 01:25	394	68.8	4.3	3.3	15.8
172	71	0	3	14
Digest, 1: 625	134	73,9	3.7	3.7	14.1
Digest, 1: 3125	100	83.1	6.4	5.2	19.1
Digest, 1: 15625	73	74	4.1	1.4	9.7
MRC _Enz ^e	50000	44.7	4.2	4	8.7
MRC _tilfeldig ^f	10000	41.3	5.3	4.2	8.6

Tabell 4: Genomisk Fordeling av Integrasjons nettsteder fra Representant Titrering Series Andelen av totale integrasjonssider th.ved fall ⁱ løpet ^av RefSeq gener, ^b innen 2,5 kb av CpG øyer, og ^c innenfor 2,5 kb TSSs ^d Genet tetthet innen 1 Mb rundt gjennomsnittet integrasjon nettstedet ^e MRC _Enz.. matchet tilfeldig kontroll; et sett av 50.000 unike integrasjonssider ble produsert av tilfeldig velge posisjoner i nærhet til MseI / Bglll restriksjonssetene i hg19 ^f MRC _tilfeldig. matchet tilfeldig kontroll med 10.000 unike integrasjonssider produsert av tilfeldig velge posisjoner i hg19 uten normalisering til faste stillinger.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

En protokoll for analyse av retrovirale integrasjons områder, fra den initiale virus infeksjon trinn gjennom kartlegging av genomiske fordelingsmønstre, er beskrevet. Denne protokollen er anvendelig til en hvilken som helst retrovirus, og en hvilken som helst infiserbare celletype. Videre er analysen rørledningen ganske følsom, med mulighet for å utvinne et tilfredsstillende antall unike integrering områder fra seriefortynninger av genomisk DNA som tilsvarer en infeksjon initiert med en MOI på 6,4 x 10 ^-5. Denne følsomhet gjør protokollen spesielt nyttig når den anvendes på prøver fra infiserte pasienter som kan inneholde en lav virusbelastning, hvor bare en liten fraksjon av cellene vil huse en integrert provirus. I samsvar med tidligere metodikk papirer på dette feltet ^36,38,41-43, vil flere trinn i bioinformatikk del av denne protokollen dra nytte av utviklingen av tilpassede skript for behandling av store filer av sekvensdata. Mens BLAT ⁵⁸ er maPPING verktøyet beskrevet i denne protokollen, kan brukere finne Bowtie ⁶⁷ (http://bowtie-bio.sourceforge.net/index.shtml) til å være et passende alternativ.

Et alternativ bioinformatikk rørledningen ble nylig rapportert for bestemmelse av Moloney murine leukemia virus (MoMLV) integrasjonssider ^19. Det rørledningen er nyttig ved at det ble utviklet til frittstående programvare som er offentlig tilgjengelig, og er ganske kraftig i at det opprinnelig ble brukt til å kartlegge hundretusener av unike MoMLV integrasjonssider. Men den tilgjengelige programvaren ble opprinnelig utviklet for å spesifikt re-analysere rapporterte MoMLV datasettet, og så omprogrammere ville være nødvendig å tilpasse rørledningen for å veksle eksperimentelle design (funksjonalitet i verktøyet ble nylig utvidet til å omfatte adeno-assosiert virus og Tol2 og ac / Ds transposon vektorer ^68). Videre at protokollen beskrev generasjon av den foreløpige integrering nettstedet .bedfil, men ikke legge ut konkrete tiltak som er nødvendige for å kartlegge områder til relevant genomiske merknader. Leserne kan finne "Vector Integration Nettstedet Analysis" server ^69, som ble utgitt under gjennomgang av dagens manuskript, nyttig å analysere NGS sekvenser generert ved hjelp av protokollen beskrevet her.

Enkelte punkter bør vektlegges når du bruker en protokoll for å analysere retrovirale integrering språk datasett. Når du forbereder flere biblioteker i tandem, finnes et betydelig potensial for prøve krysskontaminering. Selv en meget liten grad av prøven krysstale kan skjule resultatene til nivået gjengi et NGS løpe ubrukelig. Derfor bør all våt-benk arbeidet være ferdig i en sterilisert, dedikert laminær hette eller PCR arbeidsstasjon. Et sett med pipetter og reagenser som nukleasefritt vann skal være dedikert utelukkende til integrering nettstedet forsterkning. Bruken av unike linkere for hvert bibliotek preparat kan begrense den potensiellefor kryss-forsterkning og også gi rom for identifikasjon av crossover leser innenfor hvert bibliotek i rå FASTA filer.

Det er viktig å vurdere fordeler og ulemper ved bruk av ultralyd versus restriksjonsendonucleaseoppløsning å fragmentere genomisk DNA. På den ene side gir sonikering en forholdsvis tilfeldig fordeling av skjærpunkter, men de etterfølgende nødvendige DNA-reparasjon og A-tailing trinn gående redusere utbyttet av linkerligeringsprodukter i forhold til ligeringer utføres med restriksjonsenzym-genererte klebrige ender. På den annen side, gir restriksjonsenzymspaltning en mindre utbetalt populasjon av skjærpunkter, noe som alltid vil introdusere noen skjevhet i de gjenopprettede data. Ved å benytte en restriksjonsendonuklease for å forkaste oppstrøms LTR-sekvenser vil i begge tilfeller (figur 1) resultere i tap av en liten brøkdel av integrasjons områder som ligger oppstrøms for det området i genomet. Eventuelle data skjevhet som kan føre kan være annonsekledd ved å utelate den enzymatiske fordøyelsen fra protokollen under biblioteket forberedelse og filtrere ut de mange resulterende oppstrøms LTR sekvenser fra sekvenseringsdata.

Selv om den nåværende protokollen er ganske følsom og i stand til å generere millioner av unike integrasjonssider ^21,40, bare om lag en tredjedel av alle tilgjengelige integrasjoner kan forventes å bli forsterket i et gitt eksperiment selv med det beste av biblioteket preparater (ref. ⁷⁰ og upubliserte observasjoner). Dette kan føre til komplikasjoner ved analyse av prøver fra lave MOI infeksjoner eller pasienter som havn lav virusmengde. Denne begrensning kan overvinnes delvis ved gjentatte ganger å sekvensere det samme bibliotek fremstillingen og / eller sekvensering av flere biblioteker avledet fra den samme DNA-prøven i parallell. Fremtidige økninger i analysen sensitivitet vil derfor være svært gunstig for å fremme translasjonsforskning anvendelser av retroviral integrering nettstedet sekvensering.

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

Vi er takknemlige for at våre kolleger Stephen Hughes og Henry Levin for råd som var avgjørende for å etablere NGS protokollen for retroviral integrering nettstedet sekvensering i Engelman lab. Dette arbeidet ble støttet av amerikanske National Institutes of Health gir AI039394 og AI052014 (til ANE) og AI060354 (Harvard University Center for AIDS Research).

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS