Biology

Amplificación, secuenciación de próxima generación, y Genómica Mapeo de ADN retrovirales sitios de integración

Published: March 22, 2016 doi: 10.3791/53840

Erik Serrao¹, Peter Cherepanov², Alan N. Engelman¹

¹Department of Cancer Immunology and AIDS, Dana-Farber Cancer Institute, ²Chromatin Structure and Mobile DNA, The Francis Crick Institute

Abstract

Los retrovirus presentan preferencias de integración de la firma en tanto a escala local y global. A continuación, presentamos un protocolo detallado para (1) generación de diversas bibliotecas de sitios de integración retroviral utilizando la amplificación por PCR (LM-PCR) mediada por la ligadura y la secuenciación de próxima generación (NGS), (2) el mapeo de la localización genómica de cada virus- sede de unión usando BEDTools, y (3) el análisis de los datos de relevancia estadística. El ADN genómico extraído de células infectadas se fragmenta por digestión con enzimas de restricción o por sonicación. Después del final de reparación de ADN adecuado, enlazadores de doble cadena se ligan en los extremos del ADN, y PCR semi-anidada se llevaron a cabo utilizando cebadores complementarios a tanto el extremo repetición terminal larga (LTR) del virus y el ADN enlazador se ligó. Los cebadores de la PCR llevan secuencias requeridas para la agrupación de ADN durante la NGS, negando la necesidad de la ligadura de adaptador independiente. El control de calidad (QC) se llevó a cabo para evaluar la distribución de tamaño de los fragmentos de ADN y adaptarer incorporación de ADN antes de NGS. los archivos de salida de secuencia se filtran para LTR contiene lee, y las secuencias que definen el LTR y el enlazador se recortan de distancia. secuencias de la célula huésped recortadas se asignan a un genoma de referencia utilizando Blat y se filtran por la identidad mínimamente 97% a un punto único en el genoma de referencia. sitios de integración únicas son examinadas por el nucleótido adyacente (nt) secuencia y distribución relativa de diferentes características genómicas. El uso de este protocolo, las bibliotecas del sitio de integración de alta complejidad se pueden construir a partir de ADN genómico en tres días. por lo tanto, todo el protocolo que abarca la infección viral exógena de células de cultivo de tejidos susceptibles de análisis del sitio de integración puede llevarse a cabo en aproximadamente una a dos semanas. Las aplicaciones recientes de esta tecnología se refieren a análisis longitudinal de los sitios de integración de los pacientes infectados por el VIH.

Introduction

La integración de ADN viral (ADNv) en el genoma de la célula huésped es un paso esencial en el ciclo de vida retroviral. La integración se lleva a cabo por la enzima integrasa viral (IN), que lleva a cabo dos procesos catalíticos diferentes que conducen a la creación de la provirus de forma estable insertado ^1. EN subunidades enganchar los extremos de la ADNv lineal que se genera a través de la transcripción inversa, la formación de la intasome de orden superior con ADNv extremos se mantienen unidos por un multímero IN ^2-4. EN escinde 'extremos de la vDNA aguas abajo de 5'-CA-3 invariantes' el 3 secuencias en un proceso conocido como 3'-procesamiento, dejando empotrados 3 'termina con grupos hidroxilo reactivos en cada vDNA terminal ^5-8. El intasome se importa posteriormente en el núcleo como parte de una gran asamblea de huésped y las proteínas virales conocidas como el complejo de pre-integración (PIC) ^9-11. Después de encontrarse con el ADN diana celular (tDNA), EN utiliza el vDNA 3'-hidroxilo groups para escindir la parte superior tDNA y hebras de fondo de forma escalonada y al mismo tiempo se une a la vDNA a grupos fosfato tDNA 5 'a través del proceso de transferencia de la cadena ^12,13.

Retrovirus preferencias integración de exposiciones en las escalas locales y globales. A nivel local, los sitios de integración de consenso se componen de secuencias palindrómicas tDNA débilmente conservado que se extienden a partir de entre cinco y diez pares de bases aguas arriba y aguas abajo de los sitios de inserción vDNA ^14,15. A nivel mundial, los retrovirus se dirigen a las anotaciones de la cromatina específicos ^16. Hay siete diferentes géneros retrovirales - alfa a través épsilon, Lenti, y spuma. Los lentivirus, que incluyen el VIH-1, a favor de la integración dentro de los cuerpos de los genes transcritos activamente ^17, mientras que los gammaretroviruses integran preferentemente en sitios de inicio de la transcripción (DST) y las regiones potenciadoras activos ^18-20. En agudo contraste, spumavirus está fuertemente sesgada hacia heterochromATIC regiones, tales como dominios de lámina gen asociado a los pobres ^21. Las preferencias locales de base tDNA son en gran parte dictado por las redes de contactos específicos de la nucleoproteína entre IN y tDNA ^13,22,23. Para los lentivirus y gammaretroviruses, en relación con la integración genómica anotaciones se debe en gran parte regulado por las interacciones entre IN y factores celulares afines ^24-27. La alteración de las características específicas de la red de interacción EN-tDNA ^13,22,23,28 y perturbar o re-ingeniería en el huésped interacciones de los factores ^25-27,29-32 han demostrado estrategias para reorientar la integración en los niveles locales y globales, respectivamente.

El poder de procedimientos de secuenciación de ADN utilizados para catalogar los sitios de integración retroviral se ha incrementado enormemente en los últimos decenios. Sitios de integración se recuperaron en el trabajo pionero de purificación laborioso y utilizando técnicas de clonación manuales para producir sólo un puñado de sitios únicos por ^33,34 estudio.La combinación de la amplificación LM-PCR de los cruces de ADN LTR-huésped con la capacidad de asignar sitios de integración individuales a los genomas de los proyectos de humanos y de ratón transformadas el campo, con el número de sitios recuperados de infecciones de células de cultivo de tejidos exógeno creciente a varios cientos a miles ^{17 , 18.} La combinación más reciente de LM-PCR con la metodología NGS ha enviado incremento exorbitante profundidad biblioteca. En concreto, la pirosecuenciación produjo en el orden de decenas de miles de sitios de integración únicas ^30,35-38, mientras que las bibliotecas secuenciaron mediante el uso de la agrupación de ADN pueden producir millones de secuencias únicas ^19-21,39. A continuación se describe un protocolo de LM-PCR optimizado para amplificar y secuenciar los sitios de integración retroviral utilizando NGS agrupación de ADN. El método incorpora requiere secuencias adaptadoras en los cebadores de PCR y por lo tanto directamente en las moléculas de ADN amplificados, impidiendo de ese modo el requisito de un paso adaptador de ligadura adicional antes de Sequencing ^40. El oleoducto análisis bioinformático, desde el análisis de la secuencia de datos en bruto para LTR-anfitrionas cruces de ADN a la cartografía de los sitios de integración únicas de características genómicas pertinentes, también se describe en general. De acuerdo con la preferencia establecida a partir de los protocolos metodológicos previos en este campo ^36,38,41-43, scripts personalizados pueden ser desarrollados para ayudar a la realización de medidas específicas en el gasoducto bioinformática. La utilidad y la sensibilidad del protocolo se ilustra con datos representativos mediante la amplificación, secuenciación y el mapeo de VIH-1 sitios de integración a partir de células de cultivo de tejidos infectados en la multiplicidad aproximada de infección (MOI) de 1.0, así como una serie de titulación de este ADN diluido a través del ADN celular no infectada en 5 veces pasos para una dilución máxima de 1: 15.625 para producir el aproximado MOI equivalente de 6,4 x 10 ^-5.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Generar las reservas de virus

Nota: Un diagrama de flujo del banco aspecto húmedo de este protocolo se representa en la Figura 1 Los detalles de la producción cepa vírica y la posterior infección de células de cultivo de tejidos por lo general se aplican a diferentes tipos de retrovirus.. Para algunos experimentos, la célula diana puede no expresan el receptor viral endógeno (s), y en tales casos la construcción de partículas retrovirales pseudotyped albergan glicoproteína de la envoltura viral heterólogo, por ejemplo, la glicoproteína G del virus de la estomatitis vesicular (VSV-G), será necesaria para la infección ^44,45.

Nota: Se deben tomar precauciones cuando se trabaja con el VIH-1. Aunque las directrices específicas varían de una institución a otra, todo el trabajo basado en el virus debe llevarse a cabo en un gabinete dedicado, operador restringido de seguridad biológica (típicamente referido como una campana de cultivo de tejidos). equipo de protección personal adecuadoque incluye protección para la cara, cubiertas del zapato, una capa doble guante, y un traje de buzo de cuerpo completo se debe usar en todo momento. Todos los desechos líquidos resultantes de experimentos relacionados con los virus debe inactivarse con cloro (concentración final 10%), y todos los residuos sólidos incluyendo debe esterilizarse en autoclave antes de su eliminación.

Un día antes de la transfección, la placa de 3,3 x 10 ⁶ células HEK293T en 10 ml de de Eagle modificado por Dulbecco (DMEM) suplementado con 10% (v / v) de suero bovino fetal y 1% (v / v) de penicilina / estreptomicina (10.000 U / ml de solución madre) en cada una de las cinco placas de 100 mm.
Nota: Complementado-DMEM se conoce como DMEM-FPS partir de este momento.
En el día posterior, transfectar las células con 10 g de plásmido que lleva clones moleculares retrovirales de longitud completa o 9 g de los vectores de una sola ronda de borrado del sobre-con 1 g de una construcción de expresión de VSV-G utilizando reactivos de transfección disponibles comercialmente o fosfato de calcio.
1. Incubar la cells a 37 ° C en una incubadora de cultivo celular humidificado con un 5% de CO ₂ (esta condición de aquí en adelante referidos como "cultura del tejido incubadora"). Después de aproximadamente 48 horas, la cosecha de los medios de comunicación celular que contiene el virus usando una pipeta volumétrica y pasarlo a través de un filtro de 0,45 micras por flujo de gravedad.
2. Se concentra el virus mediante ultracentrifugación a 200.000 xg durante 1 hora a 4 ° C. Resuspender el sedimento de virus en 500 l DMEM-FPS que contiene 20 U de DNasa, y se incuba durante 1 hora a 37 ° C.
  Nota: El paso DNasa ayuda a reducir la recuperación de secuencias de plásmido no deseados mediante la eliminación de la peor de ADN de plásmido que persiste desde el procedimiento de transfección.
Determinar la concentración de p24 ⁴⁶ usando un antígeno p24 kit de captura de VIH-1 según las instrucciones del fabricante.
Nota: La concentración de virus también se puede determinar mediante el ensayo de actividad de transcriptasa inversa ^47,48. Alternativamente, el nivel de virus funcionales puedendeterminarse midiendo MOI. Esto se realiza más fácilmente utilizando fluorescencia de células activadas por la clasificación con los virus que expresan genes informadores fluorescentes tales como proteína verde fluorescente. MOI determinación puede ser particularmente útil cuando se trabaja con células primarias pueden no soportar el mismo nivel de infección como líneas celulares optimizados.

2. Las células inocular el virus

Placa 3.0 x 10 ⁵ células HEK293T por pocillo en una placa de 6 pocillos en 2,5 ml de DMEM-FPS e incubar durante la noche en una incubadora de cultivo de tejidos.
Nota: El número de sitios de integración recuperados únicas con este protocolo es directamente proporcional al número de células y la cantidad de virus activos usados en la infección.
Infectar las células con una concentración viral p24 final de 500 ng / ml en un volumen final de 500 l DMEM-FPS durante 2 horas en una incubadora de cultivo de tejidos, a continuación, añadir 2 ml de DMEM-FPS pre-calentado a 37 ° C por pocillo y se continuar la incubación.
A48 horas después de la infección, eliminar los medios de comunicación y lavar las células con 2 buffer fosfato salino ml (PBS). Añadir 0,5 ml de tripsina-EDTA pre-calentado a 37 ° C, y después de unos pocos segundos una inspección visual de los pozos para el desprendimiento de células.
Añadir 2 ml de DMEM precalentado-FPS y volver a suspender las células mediante pipeteo suave hacia arriba / abajo con una pipeta volumétrica ~ 10 veces. Transferir la solución a un 75 cm matraz de cultivo de tejido que contiene ² 18 ml pre-calentado DMEM-FPS, y se incuban las células en una incubadora de cultivo de tejidos.
Después mínimamente cinco días a partir del inicio de la infección, recoger las células mediante la eliminación de los medios de comunicación, se lava con 5 ml de PBS, añadir 2 ml pre-calentado tripsina-EDTA, y resuspender con 5 ml pre-calentado DMEM-FPS mediante pipeteo. Centrifugar la solución durante 5 min a temperatura ambiente a 2500 xg, y descartar el sobrenadante.
Nota: Si bien la integración en estas condiciones mesetas en alrededor de 48 horas después de la infección ^49,50, se requiere que los 3 días adicionales de cultivo a sufficiently diluir la concentración de moléculas de ADN no integrados que resultan de la recombinación de ADN basado en células o autointegration mediada por virus.
Extraer el ADN genómico del sedimento celular usando un kit comercialmente disponible (por ejemplo, véase ^51). Eluir el ADN de la columna de intercambio iónico suministrado con 200 l de 10 mM Tris-HCl, pH 8,5.
Nota: Una alícuota de células debe repartirse a las 48 horas post-infección (Paso 2.3) para un ensayo de infectividad para asegurar la infección adecuada virus antes de la NGS.

DNA 3. fragmento genómico por sonicación o por digestión con enzimas de restricción

Nota: fragmentos de ADN genómico de sonicación de una manera prácticamente independiente de la secuencia y es por lo tanto el modo de transporte preferido de la fragmentación cuando las muestras de secuenciación con una baja tasa de recuperación esperada (por ejemplo, células de pacientes con infección o infecciones iniciadas a relativamente baja MOI). Además, sonicación permite distinguir los duplicados de PCR de un particular secuencia del sitio de integración de integraciones únicas en el mismo lugar, lo cual es crítico para distinguir la expansión clonal de las células que contienen el provirus en pacientes infectados (véase el paso 11 a continuación) ^39,52-54.
Nota: El ADN debe ser escindido inmediatamente aguas abajo de la corriente arriba LTR para disminuir la amplificación de secuencias virales internas durante LM-PCR. La enzima de restricción BglII que se encuentra 43 pb aguas abajo de la secuencia U5 aguas arriba y que es incompatible para la posterior ligación con ADN generados por MseI termina funciona bien con muchas cepas de VIH-1 (Figura 1B). En la preparación de ADN mediante sonicación, la enzima de restricción de escisión interna debe ser aplicada después de la ligación enlazador (véase la Figura 1C - E y Paso 4.3 más abajo).

Para la sonicación, la mezcla 10 g de ADN genómico en agua libre de nucleasa a un volumen final de 120 microlitros. Someter a ultrasonidos utilizando parámetros de un tamaño medio de ruptura de 500 pb (dos rondas de la siguiente párrafom: Ciclo de trabajo: 5%; Intensidad: 3; ciclos por ráfaga: 200; Tiempo: 80 seg).
Se purifica ADN agitado cuando el uso de un kit de purificación de PCR. Reparar el ADN extremos utilizando un kit de reparación de ADN fin y purificar el ADN utilizando un kit de purificación de PCR. Una cola de ADN usando Klenow exo ^- enzima y purificar el ADN de una cola utilizando un kit de purificación de PCR. Consulte a ^51,52 para obtener detalles adicionales de uso del kit.
Para la digestión con endonucleasas de restricción, corte 10 g de ADN genómico durante una noche a 37 ° C en un volumen de 100 l con tampón suministrados por el fabricante y un cóctel de enzimas (100 U cada uno) que generan salientes 5'-TA, así como una enzima incompatible tal como BglII que escinde aguas abajo de la LTR viral aguas arriba. Se purifica el ADN al día siguiente utilizando un kit de purificación de PCR.
Nota: Ninguno de los enzimas de restricción debe cortar dentro de la terminal de ~ 30 pb del extremo de ADN viral que se amplifica por el protocolo de LM-PCR. Este protocolo amplifica específicamente la U5final de VIH-1 de ADN.

4. recocido oligonucleótidos enlazadores y se liga al ADN genómico fragmentado

Nota: Preparar un enlazador asimétrica que contiene un saliente que es compatible con los fragmentos de ADN anteriores (véase la Tabla 1 para las secuencias de los oligonucleótidos utilizados en este protocolo). El enlazador que se utiliza con ADN agitado cuando debe contener una compatible 'pendiente T-3, mientras que el enlazador de DNA digerido con MseI debe contener un saliente compatible 5'-TA (Figura 1). La cadena enlazadora corta debe contener, además, una modificación química no extensible, tal como 3'-amina, para limitar las reacciones de amplificación subsiguientes hacia el ADN de interés.
Nota: En la preparación de varias bibliotecas del sitio de integración diferentes en paralelo y / o cuando las muestras únicas de multiplexación en el mismo plazo de secuenciación, se recomienda utilizar conectores únicos para cada muestra para limitar el potencial para la muestra cruzada Contaminación durante la PCR. Esto implica, además, el uso de cebadores de enlazadores únicos para cada muestra durante la PCR semi-anidada (descrito a continuación). Hilos enlazadores únicos y cebadores de engarce pueden ser diseñados por aleatorización las secuencias de oligonucleótidos enlazadores enumerados en la Tabla 1 mientras se mantiene el contenido de GC% global similar y posiciones voladizo aplicables.

Recocer la cortas y largas hebras de engarce en 35 l de 10 mM Tris-HCl, pH 8,0 a 0,1 mM EDTA (concentración final de 10 mM de cada oligonucleótido) por calentamiento a 90 ° C y enfriar lentamente a temperatura ambiente en pasos de 1 ° C por min.
Preparar al menos cuatro reacciones de ligación en paralelo por muestra de ADN genómico, que contienen 1,5 mM enlazador se ligó, ADN fragmentado 1 g, y 800 U de T4 DNA ligasa en 50 l. Ligar durante la noche a 12 ° C. Se purifica el día siguiente con un kit de purificación de PCR.
Para las muestras preparadas por sonicación, digerir la reacción de ligación purificada con 100 U de un restricenzima que escinde la corriente abajo de la LTR aguas arriba (por ejemplo, BglII para el VIH-1) bajo el fabricante de las condiciones recomendadas durante la noche. Se purifica el ADN utilizando un kit de purificación de PCR.

5. Amplify virales LTR-Host genómicas de ADN uniones por PCR semi-anidada

Nota: Para asegurar la diversidad de la biblioteca óptima, por lo menos 4-8 PCRs paralelos, dependiendo de la concentración de ADN de la reacción de ligación se recuperó, se debe preparar para cada muestra para las dos rondas de PCR. concentración de molde de ADN debe ser cuantificado mediante espectrofotometría. En este protocolo la primera y segunda rondas de PCR emplean cebadores LTR-anidados específicos, pero el mismo cebador enlazador-específica se utiliza para ambas rondas (Tabla 1). El segundo cebador LTR-específica redondo y las secuencias de cebador adaptador encode-enlazador específico para la agrupación de ADN así como los sitios de unión a cebador de secuenciación. El cebador LTR-específico anidado también codifica una secuencia de índice de 6 nt, whICH se puede variar entre los diferentes cebadores para las bibliotecas de multiplexación dentro de la misma serie de secuenciación.

Preparar primeras PCRs redondas que contienen los ingredientes por tubo como se indica en la Tabla 2.
Nota: El cebador enlazador específico alberga 22 nt de complementariedad al enlazador, una temperatura de fusión de 53 ° C, un contenido de GC de 45%, y su extremo 3 'se encuentra 15 a 16 pb aguas arriba de la 3' termini de los diferentes enlazador largas hebras (Tabla 1). La primera ronda de 27 nt cebador LTR tiene una temperatura de fusión de 59 ° C, un contenido de GC de 48%, y su extremo 3 'se encuentra 34 pb aguas arriba desde el terminal U5 VIH-1. La región de la segunda imprimación ronda 26 nt LTR que es complementaria a la de VIH-1 LTR tiene una temperatura de fusión de 60 ° C, un contenido de GC de 50%, y su extremo 3 'se encuentra 18 pb aguas arriba de la U5 viral término. Se recomienda que la temperatura de fusión de oligonucleótidos y GC-contenido deben imitar estos parámetros si los usuariosLos cebadores de PCR de diseño con secuencias alteradas (incluyendo para su uso con otros retrovirus) ^21.
Ejecutar primera ronda de PCR bajo las siguientes parámetros del termociclador: Un ciclo: 94 ° C durante 2 min; 30 ciclos: 94 ° C durante 15 s, 55 ° C durante 30 seg, 68 ° C durante 45 seg; un ciclo: 68 ° C durante 10 min.
Piscina reacciones y purificar utilizando un kit de purificación de PCR. Preparar segunda PCRs redondas que contienen los ingredientes por tubo según la Tabla 3. Ejecutar la segunda ronda de PCR utilizando los parámetros del termociclador descritos en la etapa 5.2. Reunir las reacciones y se purifica el ADN utilizando un kit de purificación de PCR comercial siguiendo las instrucciones del fabricante.
Nota: Una variedad de secuencias de índices recomendados compatibles con NGS agrupación de ADN están disponibles ^71.

6. Realizar control de calidad y NGS (Típicamente completa con una instalación de secuenciación)

(QC ensayo # 1) Confirmar Paso 5.3 concentración de ADN utilizando una biblioteca de flúor⁵⁵ metros. Brevemente, se preparan patrones y las muestras experimentales en un volumen final de 200 l de agua libre de nucleasa. tubos de vórtice durante 2-3 segundos, se incuban a temperatura ambiente durante 2 minutos y después se leen las muestras en el fluorómetro.
Nota: Las muestras deben contener una concentración mínima de 2 nM de ADN de la biblioteca en un volumen mínimo de 15 l.
(QC ensayo # 2) Confirmar la distribución de tamaño de los fragmentos de ADN utilizando un ensayo de ⁵⁶ basado en cinta.
Nota: Una distribución ideal es relativamente un pico ancho ADN centrado en torno a 500 pb de longitud. Si una cantidad significativa de material es más grande que 1 kb, entonces se recomienda incorporar un procedimiento de selección de tamaño para eliminar especies de ADN más largos, lo que impedirá la amplificación puente durante el agrupamiento. Por el contrario, si un pico significativo es evidente alrededor de 100 a 200 pb, un dímero cebador puede haberse formado durante la PCR. En este caso, el procedimiento debe ser optimizado para reducir al mínimo la formación de dímeros de cebadores.
(QC ensayo # 3) Confirm incorporación adecuada de los adaptadores en la biblioteca de ADN por PCR cuantitativa ^57.
Realizar NGS siguiente bibliografía aplicación del fabricante. Utilizar una espiga-en de 10% (w / w) ΦX174 ADN, que optimizará las métricas de calidad en tiempo real, proporcionando la composición de bases equilibrado de la pista de secuenciación.
Nota: Los experimentos de secuenciación del sitio de integración se someten normalmente a un solo extremo 150 pb (SE150) o en pares de extremo 150 pb secuenciación (PE150). PE150 es particularmente útil para capturar el punto de unión de engarce en cada molécula de ADN (por ejemplo, al examinar los sitios de integración para la evidencia de la expansión clonal de la célula huésped).

7. Utilice una secuencia de comandos de Python o Perl personalizada puede analizar los datos en secuencia para contener secuencias LTR-LTR, la cosecha de distancia y el enlazador secuencias, y Mapa de referencia del genoma con Blat

FASTA archivos de escaneo para LTR-que contiene la secuencia lee, LTR de cultivos y secuencias de enlace fuera de secuencia de ADN genómico de acogida, yexportar estas secuencias en un nuevo archivo FASTA. Mapa cosechado lee a la vez un genoma de referencia (por ejemplo, las versiones del genoma hg19 humanos o GRCh38) y el genoma viral utilizando Blat ^58, con el sitio de integración de salida coordenadas exportar a un archivo .txt por separado, con la siguiente configuración:
stepSize = 6, minIdentity = 97, y = 0 maxIntron
Analizar la salida Blat archivo .txt, eliminar autointegrations (es decir, la evidencia de que el extremo LTR ha integrado en una región interna del genoma de ADN viral) y otras secuencias de mapeo para el genoma del VIH-1, y crear una salida separada .txt archivo en el que todos los sitios de integración duplicados se han condensado en individuales, los accesos de coordenadas únicas.

8. Crear archivos .bed que tengan intervalos de 15-nt integraciones de contorno, convertir estos archivos a FASTA, y construir Secuencia Logos a las preferencias de visualización base circundantes sitios de integración

Crear archivos .bed que enumeran un intervalo de bases decada sitio de integración. Al menos 15 bases (5 aguas arriba y aguas abajo 10) se sugieren para la generación de secuencia logo. Generar un archivo FASTA de estos archivos .bed mediante el uso de la función de fastaFromBed BEDTools ⁵⁹ y este comando:
-fi / directorio fastaFromBed / a / referencia / genoma / -name -s -ropa 15_base_pair_file.bed -fo output_file.fasta
Nota: El viral 5'-CA-3 'dinucleótido invariante se une a la sede de ADN durante la integración, y la verificación de la unión de la terminal LTR de ADN celular es un filtro inicial importante identificar de buena fe sitios de integración. Estamos, además, compilar la secuencia logotipos de esta población de acogida secuencia de ADN para verificar los resultados experimentales. Como los retrovirus Preferencias de visualización de base de firma que rodean sus sitios de integración ^14,15, los logos de secuencia sirven para validar que los sitios genómicos mapeadas surgieron través de la integración mediada por IN en comparación con otros mecanismos de recombinación tales como ADN no homólogaponer fin a unirse a ^60,61.
Uso WebLogo 3 (http://weblogo.threeplusone.com/create.cgi) para crear la secuencia logotipos de los archivos FASTA. Haga clic en "Seleccionar archivo" para cargar el archivo FASTA, y utilizar los siguientes ajustes: Formato de visualización, PDF (vector); tamaño del logotipo, grande; En primer número de la posición, -5; Logo gama, -5 a 5; la escala del eje Y, 0.1, eje Y espaciamiento tic, 0,5, Combinación de colores, clásico (NA).

9. Crear base central Par .bed archivos, la verificación de la muestra de la contaminación cruzada, y el mapa de la distribución de los únicos sitios de integración relativa a rasgos pertinentes genómicas

Dado que la integración retroviral se produce de forma escalonada a través de las hebras tDNA, ajustar las coordenadas precisas de los sitios de integración para reflejar el pb central de la duplicación sitio diana para la correcta correspondencia de distribución genómica en relación con las características genómicas.
1. Por lo tanto, para los 5 pb duplicación de virus como el VIH-1, cree un archivo .bed con el desplazamiento desde el centro i pbEl sitio ntegración por dos bases abajo para las integraciones de mapeo a la cadena positiva, y dos bases por delante para las integraciones de mapeo a la cadena menos.
Para comprobar si hay contaminación cruzada de la muestra, calcular el número de sitios de integración comunes entre las diferentes bibliotecas mediante el uso de las BEDTools función se cruzan para intersectar pb centro .bed archivos para dos muestras diferentes y siguiendo este orden:
bedtools se cruzan -a -b central_basepair_1.bed central_basepair_2.bed -f 1,00 -r -s> overlap1v2.txt
Contar el número de líneas del archivo overlap1v2.txt de salida con el fin de cuantificar la cantidad exacta de los puntos comunes entre las dos bibliotecas utilizando el siguiente comando:
wc -l overlap1v2.txt
Descargar el archivo .bed RefSeq anotación para la versión del genoma de referencia que se utilizó para el mapeo del sitio de integración de la base de datos UCSC anotación del genoma (por ejemplo http://hgdownload.cse.ucsc.edu/goldenPath/hg38/dade bases de) ^62.
1. Calcular el número de sitios de integración que caen dentro de los genes RefSeq utilizando los BEDTools función se cruzan para intersectar el archivo .bed par de bases central que se ha generado para la muestra con la RefSeq archivo .bed siguiente comando:
  bedtools se cruzan -a -b central_basepair_1.bed RefSeq_hg38.bed -u> RefSeq_sample1.bed
Contar el número de líneas del archivo RefSeq_sample1.bed de salida con el fin de cuantificar la cantidad exacta de los puntos que caen en RefSeq genes utilizando el siguiente comando:
wc -l RefSeq_sample1.bed
Repita los pasos 9.3 y 9.4 para los sitios de integración de mapeo a cualquier otra anotación de interés para los que un intervalo .bed archivo está disponible. Descargar el archivo más reciente .bed la isla CpG de anotación para el genoma de interés de referencia de la base de datos UCSC anotación del genoma como se indica en el paso 9.4.
1. Calcular el número de sitios de integración que cae dentro de un cierto dipostura (ilustrado en este ejemplo es una ventana de 5 kb) de las islas CpG mediante el uso de la función de ventana BEDTools y después de este comando:
  ventana bedtools -w 2500 central_basepair_1.bed -b CpG_hg38.bed -u> CpG_sample1.bed
Contar el número de líneas del archivo CpG_sample1.bed de salida con el fin de cuantificar la cantidad exacta de los puntos que caen dentro de 2,5 kb aguas arriba o aguas abajo de las islas CpG mediante el siguiente comando:
wc -l CpG_sample1.bed
Repita los pasos 9.6 y 9.7 para los sitios de integración de mapeo cercano DST. Generar una versión alternativa del archivo RefSeq.bed, donde genómica coordina la asignación a más de un gen se han ajustado para reflejar sólo un único gen presente en esa posición. Esto evita la sobreestimación de la densidad de genes que rodea los sitios de integración. Calcular la densidad de genes en la región 1 Mb que rodea a cada sitio de integración mediante el uso de la función de ventana BEDTools y después de este comando:
Se calcula la densidad media de genes para todas las integraciones en el conjunto de datos siguiendo este orden:
awk '(suma + = $ 7) FIN (Promedio de impresión "=", suma / NR)' GeneDensity_sample1.bed

10. Estadísticamente Comparar Integración del sitio Distribuciones entre las muestras utilizando la prueba exacta de Fisher y de dos colas de Rangos de Wilcoxon prueba de suma de R de dos colas

Nota: la prueba exacta de Fisher para la comparación de uso de la proporción de los sitios de integración dentro de los genes RefSeq o dentro de una ventana de islas CpG o DST, pero el uso de la prueba de suma de rangos de Wilcoxon para comparar la distribución de la densidad de genes que rodea a los sitios de integración. El programa de I está disponible en http://www.r-project.org/.
La prueba exacta de Fisher de dos colas:

El uso de los números calculados como se indica en los pasos 9.4 y 9.7, create matrices para cada comparación en I de ocurrencias observadas (integraciones dentro de una anotación o dentro de una ventana que rodea una anotación) frente al resto de los sitios siguiendo este orden:
(Annotation_of_interest <- matriz (c (muestraa # en, muestraa # restante, SampleB # en, SampleB # restante), nrow = 2, dimnames = lista (c ( 'Centro', 'resto'), c ( 'muestraa', 'SampleB'))))
Calcular el valor de p para la comparación por la prueba exacta de Fisher con el siguiente comando de dos colas:
fisher.test (annotation_of_interest, alternativa = 'two.sided') $ Valor PD
Wilcoxon rango suma de prueba de dos colas:
Crear un archivo .txt delimitado por tabuladores en el que cada columna contiene el nombre de la muestra en la celda superior, seguido a continuación por los valores de densidad de genes para todos los sitios de integración en la biblioteca (obtenido desde el archivo de .bed generada en el paso 9.9). Importar este archivo .txt delimitado por tabuladores en R utilizando el siguiente comando y navigating al directorio de archivo correcto:
FILENAME <- as.data.frame (read.delim (file.choose (), encabezado = T, check.names = FALSO, llenar = TRUE, sep = ' t'))
Calcular el valor de p para la comparación por parte de dos colas prueba de suma de rangos de Wilcoxon con el siguiente comando:
wilcox.test (FILENAME $ muestraa, FILENAME $ SampleB, = alternativos 'two.sided', emparejado = F, exacta = T) $ Valor PD
Nota: Los valores de P se pueden calcular solamente hasta un cierto límite (muy bajo) en R, después de lo cual cero será devuelto por el programa. Para masivamente diferentes muestras que producen una p = 0 en R, estimar el valor P como <2,2 x 10 ^-308.

11. Examinar los datos brutos de secuenciación para la evidencia de la expansión clonal de células que contienen ADN viral integrado

Nota: Existe una pequeña posibilidad de que más de una integración en la misma nt en el genoma de referencia. Alternativamente, un sencillo enevento integración puede llegar a ser redundante presente en los datos de secuenciación debido a la utilización de PCR durante la preparación de la biblioteca y / o por la duplicación de células antes de la preparación de ADN. Recientes análisis de ADN genómico procedentes de pacientes infectados por el VIH han distinguido estas posibilidades mediante la identificación de puntos de puntos sonicación de corte / fijación enlazador únicos (que sólo puede surgir antes de la PCR) dentro de las secuencias de ADN que contienen sitios de integración idénticos ^52-54. En la actualidad existe un debate acerca de si provirus albergado dentro de las células clonal ampliado contribuyen al reservorio viral latente, y por lo tanto es de especial interés para caracterizar su nivel de expansión en el estudio de los sitios de integración en pacientes humanos.

Similar al procedimiento indicado en el paso 8.1, generar archivos .bed anuncio de un intervalo de bases que se extienden, en este caso, 25 nt aguas abajo de cada sitio de integración único (bases aguas arriba son innecesarias aquí). Generar un archivo FASTA de estos archivos .bed (como se indica enPaso 8.1) mediante el uso de la función de fastaFromBed BEDTools y después de este comando:
-fi / directorio fastaFromBed / a / referencia / genoma / -name -s -ropa 25_base_pair_file.bed -fo output_file.fasta
Nota: Para mejorar la especificidad de cada búsqueda se recomienda para extraer al menos 25 nt aguas abajo de cada sitio de integración para los análisis de la expansión clonal.
Preferiblemente utilizando un script personalizado, buscar el archivo de datos de secuencias FASTA prima para todas las cadenas que contengan una coincidencia exacta con el 25 nt río abajo de cada sitio de integración único, y depositar estas secuencias en un archivo nuevo. Recorte LTR y secuencias de unión de las cuerdas primas. Combinar secuencia de PE lee mediante la conversión de las lecturas en el complemento inverso, el recorte de las secuencias LTR y enlazador, y luego asignar series de READ2 a su par READ1 si las cadenas comparten al menos 20 nt superposición.
Analiza los puntos de fijación enlazador de cada bloque sitio de integración. Clasifica cada integración como "clonal ampliado y# 34; Si los puntos de fijación enlazador son ≥3 pb aparte.
Nota: Un protocolo para el análisis de la expansión clonal sin fusionar secuencia de lecturas ha sido descrita ^52.
Nota: La fragmentación del genoma en la misma ubicación exacta mediante ultrasonidos conduce a una subestimación de la magnitud de la expansión clonal, y los métodos para corregir el sesgo experimentales resultantes han sido descritos ^63,64.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La Tabla 4 muestra los resultados de un experimento representativo para ilustrar la sensibilidad de NGS para la recuperación de los sitios de integración a partir de un cultivo de células infectadas. ADN celular no infectadas se utilizó para diluir en serie de ADN genómico a partir de una infección en la que cada célula en promedio contenía una integración ^40. Las diluciones se preparan en pasos de cinco a una dilución máxima de 1: 15.625. El ADN genómico de la serie de titulación a continuación, se fragmentó por sonicación o por digestión con endonucleasas de restricción MseI y BglII, seguido por LM-PCR. El número de sitios de integración único, así como el número de sitios proximal de mapeo para anotaciones genómicas seleccionadas, se calcularon de acuerdo con el protocolo anterior. análisis de los datos reveló docenas de sitios de integración únicos (1-2% de la cantidad recuperada a partir del ADN genómico puro) se recuperaron de las bibliotecas preparadas a partir de células en las que, en teoría, sólo uno de cada 15.625 se infectó. Al analizar conjuntos de datos del sitio de integración, es fundamental para comparar los datos a un conjunto combinado de sitios genómicos aleatorios, lo que se llama un control aleatorio igualado o MRC. Como muestran los resultados representativos esquiladas ADN genómico por digestión con enzimas de restricción o por sonicación, se construyeron dos conjuntos de datos diferentes MRC. MRC _enz contenía 50.000 sitios genómicos único generado por selección aleatoria de sitios de hg19 en la proximidad de los sitios de digestión con enzimas de restricción MseI y BglII, mientras que MRC _azar albergado 10.000 sitios generan sin normalización de la distancia de marcadores genómicos establecidos. Sólo los sitios que se pueden asignar de nuevo a una localización genómica única se deben utilizar en MRC conjuntos de datos. Como tijeras de sonicación ADN genómico esencialmente libre de sesgo de secuencia, MRC _aleatorio puede ser visto como más aplicable a conjuntos de datos producidos por la fragmentación de ADN mediante sonicación. Un estilo alternativo de integración de controlconjunto de datos del sitio puede ser generada in vitro por reacción recombinante en proteínas, intasome nucleoproteína complejo ^21, o PICs extraídos a partir de células infectadas de forma aguda ¹⁷ con el ADN genómico desproteinizado, y luego después de la LM-PCR y protocolos NGS ^21.

Los valores de p para la comparación de la distribución de los sitios de integración recuperados por sonicación frente a digestión de restricción (comparación es entre las muestras puras), así como para la comparación con la MRC _enz y MRC _azar, se muestran en la Figura 2. La distribución de los sitios de integración recuperados después de la sonicación fue similar a los recuperados por la enzima de restricción para digerir todas las anotaciones examinados, con la mayor variación evidente en términos de proximidad a las islas CpG. Como era de esperar ^18,65 ambos conjuntos de datos difieren significativamente de los MRC en términos de integraciones dentro de los genes RefSeq gen y density que rodea el sitio de integración del promedio, mientras que ambos conjuntos de datos fueron similares a los MRC en términos de distribución en relación con las islas CpG y DST. Dado que pocos de VIH-1 sitios de integración dentro de un mapa 2,5 kb de una isla CpG o SST, aumentando el número total de sitios recuperado es probable que disminuya la variabilidad que puede surgir entre conjuntos de datos (Tabla 4 y Figura 2). Secuencia de logotipos para confirmar la autenticidad de los datos del sitio de integración se muestran en la Figura 3. El consenso VIH-1 sitio de integración ^14,22 (-3) TDG (G / V) TWA (C / B) CHA (7) ( escrito usando Unión Internacional de códigos de base Bioquímica; la barra invertida indica la posición de ADNv de cadena positiva de unión, y el subrayado indica la secuencia 5-bp duplicado siguiendo el VIH-1 la integración y la reparación del ADN) es aparente para las bibliotecas preparadas por las dos técnicas de fragmentación, aunque el grado de certeza disminuye al aumentar la dilución de célula infectadaDNA. Los sitios al azar del conjunto de datos alineados MRC por el contrario no ha podido generar niveles apreciables de preferencias de base.

Figura 1:. Diagrama de flujo Ilustración de Preparativos Integración de la biblioteca del sitio (A) Generar reservas de virus mediante la transfección de células HEK293T, recolección y filtración de sobrenadante 48 horas más tarde, se concentra por ultracentrifugación, y la infección de las células diana con una concentración apropiada de virus. Por lo menos cinco días después de la infección, extraer el ADN genómico. Consulte las secciones 1 y 2 del texto principal para los detalles experimentales adicionales. (B y C) fragmento purificado de ADN genómico por digestión con enzimas de restricción o por sonicación. El cóctel de enzimas de restricción debe incluir una enzima (por ejemplo, BglII) que escinde aguas abajo de la LTR viral aguas arriba para contrarrestar de selección para LM-Pamplificación de secuencias de CR ADNv internos. Asterisco verde y la flecha ramificado en (C) denotan que BglII debe aplicarse después de la ligación enlazador. reflejos rojos secuencia viral, mientras que reflejos negros alojan secuencia celular. puntos de quiebre ADN implícita (no a escala) están marcadas por "X" VIH-1 contiene numerosos sitios MseI y BglII; Sólo se muestran las relacionadas con el protocolo. Los soportes por encima de los mapas indican las regiones de ADN U5-celular preferentemente amplificadas por LM-PCR. (D) Se purifica ADN fragmentado (luego terminar-reparación y A-cola en el caso de tratamiento con ultrasonidos) y se liga a moléculas de enlace asimétricos (E) compatibles (de color azul). Círculos magenta en (D) indican el sitio de integración que se amplifica. Los asteriscos en los extremos 3 'de las hebras cortas de engarce denotan el bloqueo de amino modificaciones. (F) Conducta primera ronda de PCR semi-anidada utilizando redonda primer cebador LTR (rojo) y el cebador enlazador (azul). en tsu ronda de PCR, el cebador ligador codifica para la agrupación de ADN y secuencias (agrupados como un apéndice verde al cebador enlazador azul) de fijación de iniciador NGS, mientras que el cebador LTR carece de tales secuencias. (G) Purificar primera ronda de PCR producto y llevar a cabo la segunda ronda de PCR semi-anidada. En esta ronda de PCR, utilizar el mismo cebador enlazador como en la primera ronda (azul + apéndice verde), junto con el segundo cebador ronda LTR (rojo) que lleva la agrupación de ADN y secuencias de unión de cebadores NGS, así como un código de barras para la multiplexación ( agrupados como un apéndice verde al rojo imprimación LTR). (H) Purificar el segundo producto de PCR redonda como la biblioteca del sitio de integración final (en caja en color magenta, con el sitio de integración marcada por el círculo magenta). Presentar alícuota de instalación de secuenciación para el control de calidad y de NGS. Haga clic aquí para ver una versión más grande de esta figura.

"Figura Figura 2:. Los valores de p para la comparación de los sitios de integración amplificado Tras la fragmentación del ADN mediante sonicación o mediante enzimas de restricción digestión frente MRC números respectivos de los sitios de integración dentro de los genes RefSeq y las islas CpG cercanas y DST, así como los perfiles regionales densidad de genes, se enumeran en Los valores de p Tabla 4 ≥0.05 se destacan en negrita y cursiva ^unos valores de p calculado por los valores de p exacto de Fisher prueba ^b calculados por la prueba de Wilcoxon rango suma de ^c MRC _enz:.... igualado control aleatorio; un conjunto de 50.000 sitios de integración únicas fue producido por selección aleatoria de las posiciones en las proximidades de los sitios de restricción MseI / BglII en la acumulación de Hg 19. ^d MRC _azar: emparejado control aleatorio que contiene 10.000 sitios de integración únicas producido por azar SELECTING en posiciones hg19 sin normalización a la proximidad de sitios de restricción. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Secuencia Logos que representa el VIH-1 Base Preferencias de Bibliotecas experimento representativo sitios de integración de las bibliotecas preparadas por digestión (A) con enzimas de restricción o sonicación (B) fueron alineados utilizando software WebLogo.. Cada dilución de la serie de titulación se representa, a partir de ADN puro en la parte superior de la figura de la dilución máxima de 1: 15.625 en la parte inferior. Logo (C) Secuencia para el MRC de 50.000 sitios genómicas únicas. Las barras de error representan la desviación estándar esencialmente en la incorporación de base en cualquier posición particular. Más específicamente, la total altura de cada barra de error es equivalente al doble de la pequeña muestra de corrección ^66, que controla la subestimación de la entropía presente en relativamente pequeños conjuntos de datos. El eje x representa la célula huésped posiciones nt de ADN genómico en relación con el sitio de integración en el punto cero. Por favor, haga clic aquí para ver una versión más grande de esta figura.

tabla 1
. Tabla 1: cebadores de oligonucleótidos circulares LTR secuencias de vinculador de construcción y amplificación por PCR Enlazador específicos y segundo codifican secuencias adaptadoras agrupación de ADN, que son codificados por color de la siguiente manera: negro, bases complementarias al conector o al VIH-1 LTR; rojo, índice o código de barras único; verde, sitios de unión a cebador de secuenciación; azul, secuencias adaptadoras para la agrupación de ADN. Single-extremo (SE) rea secuenciacióncciones utilizarán el cebador de secuenciación que se hibrida con la segunda secuencia de ronda LTR cebador READ1 (verde), mientras que de gama emparejado (PE) reacciones utilizarán ambos (READ1 y READ2) cebadores de secuenciación. ^un enlazador hebras cortas contienen 3 'amino bloqueo de modificación. Haga clic aquí para ver una versión más grande de esta tabla.

Reactivo	Para agregar por Reacción
Primer cebador Ronda LTR (15 M):	2,5 l
-Enlazador cebador específico (15 M):	0,5 l
tampón 10x PCR:	2,5 l
dNTPs 2,5 mM (cada uno)	0,5 l
ADN polimerasa mezcla:	0,5 l
reacción de ligación:	100 ng
agua libre de nucleasa:	hasta 25 l

Tabla 2:. Receta para la primera ronda de PCR La cantidad de cada reactivo se especifica que se añade a cada tubo de PCR individuales se indica.

Reactivo	Para agregar por Reacción
Segundo cebador Ronda LTR (15 M):	2,5 l
-Enlazador cebador específico (15 M):	0,5 l
tampón 10x PCR:	2,5 l
dNTPs 2,5 mM (cada uno)	0,5 l
ADN polimerasa mezcla:	0,5 l
Primera ronda de PCR: 100 ng
agua libre de nucleasa:	hasta 25 l

Tabla 3:. Segunda ronda de PCR Receta La cantidad de cada reactivo que se añade a cada tubo de PCR se indica.

<td> Recopilación, 1: 125

Biblioteca	Sitios #Unique	% RefSeq ^una	CpG% +/- 2,5 kb ^b	TSS% +/- 2,5 kb ^c	Avg. Densidad gen +/- 500 kb ^d
Sonicación, aseado	3.169	71.2	5.1	3.7	15.8
La sonicación, 1: 5	366	75.1	2.7	3	16.3
254	74	7.1	5.1	16.7
La sonicación, 1: 125	430	69.8	6.9	6	14.6
La sonicación, 1: 625	314	65.6	5.6	6,7	13.5
La sonicación, 1: 3125	116	73.6	3.5	2.5	13.1
La sonicación, 1: 15.625	72	62.5	0	1.4	14.7
Recopilación, aseado	7428	69.8	3.6	2.9	15.2
Recopilación, 1: 5	1.460	71.4	4.4	3.4	14.9
Recopilación, 01:25	394	68.8	4.3	3.3	15.8
172	71	0	3	14
Recopilación, 1: 625	134	73.9	3.7	3.7	14.1
Recopilación, 1: 3.125	100	83.1	6.4	5.2	19.1
Recopilación, 1: 15.625	73	74	4.1	1.4	9.7
MRC ^e _enz	50.000	44.7	4.2	4	8.7
MRC ^f _aleatoria	10.000	41.3	5.3	4.2	8.6

Tabla 4: Distribución de los sitios de integración genómica del Representante serie de titulación El porcentaje de los sitios de integración total de TH.al caer dentro de ^un RefSeq genes, ^b dentro de las 2,5 kb de las islas CpG, ^yc menos de 2,5 kb de DST ^d La densidad de genes dentro de 1 Mb que rodean el sitio de integración del medio ^e MRC _enz:.. igualado control aleatorio; un conjunto de 50.000 sitios de integración únicas fue producido por selección aleatoria de las posiciones en las proximidades de los sitios de restricción MseI / BglII en hg19 ^f _aleatoria MRC:. igualado control aleatorio que contiene 10.000 sitios de integración únicos producidos por selección aleatoria de posiciones en hg19 sin normalización a posiciones fijas.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Un protocolo para el análisis de los sitios de integración retroviral, de la etapa inicial de infección por el virus a través de mapeo de los patrones de distribución genómicas, se describe. Este protocolo es aplicable a cualquier retrovirus y cualquier tipo de célula infectable. Además, la tubería de ensayo es muy sensible, con el potencial para recuperar un número satisfactorio de los sitios de integración únicas de diluciones seriadas de ADN genómico equivalente a la de una infección iniciado con una MOI de 6,4 x 10 ^-5. Esta sensibilidad hace que el protocolo especialmente útil cuando se aplica a muestras de pacientes infectados que pueden contener una carga viral baja, en el que sólo una pequeña fracción de células va a albergar un provirus integrado. En consonancia con documentos de metodología anterior en este campo ^36,38,41-43, múltiples pasos en la parte de la bioinformática de este protocolo se beneficiarán del desarrollo de scripts personalizados para el procesamiento de grandes archivos de datos de secuencias. Mientras Blat ⁵⁸ es el mapping utilidad se describe en este protocolo, los usuarios pueden encontrar Bowtie ⁶⁷ (http://bowtie-bio.sourceforge.net/index.shtml) para ser una alternativa adecuada.

Una tubería de bioinformática alternativa se informó recientemente para la determinación de los sitios de integración Moloney virus de leucemia murina (MoMLV) ^19. Esa tubería es útil, ya que fue desarrollado en software independiente que está disponible públicamente, y es bastante potente en el que se utilizó originalmente para mapear cientos de miles de sitios de integración MoMLV únicas. Sin embargo, el software disponible fue diseñado originalmente para específicamente volver a analizar el conjunto de datos MoMLV informado, y así reprogramando sería necesario para personalizar la tubería a fin de alternar diseños experimentales (la funcionalidad de la herramienta fue recientemente ampliado para incluir virus adeno-asociado y Tol2 y ac / Ds transposón vectores ^68). Además, el protocolo se describe la generación del sitio de integración preliminar .bedarchivo, pero no extendió a cabo pasos específicos necesarios para los sitios de mapas para las anotaciones pertinentes genómicas. Los lectores pueden encontrar el "vector de integración Análisis del sitio" servidor ^69, que fue lanzado durante la revisión del manuscrito actual, útil para analizar las secuencias de NGS generados utilizando el protocolo descrito aquí.

Ciertos puntos hay que destacar al usar cualquier protocolo para analizar conjuntos de datos retrovirales sitio de integración. En la preparación de varias bibliotecas en conjunto, existe un importante potencial de contaminación cruzada de la muestra. Incluso un nivel muy pequeño de la diafonía de la muestra puede oscurecer los resultados con el nivel de prestación de una carrera NGS inutilizable. Por lo tanto, todo el trabajo en húmedo banco debe ser completada en un, campana de flujo laminar dedicado esterilizada o estación de trabajo PCR. Un conjunto de pipetas y reactivos tales como agua libre de nucleasa debe dedicarse exclusivamente a la amplificación del sitio de integración. El uso de enlazadores únicos para cada preparación de biblioteca puede limitar el potencialpara cross-amplificación y también permitir la identificación de cruce lee dentro de cada biblioteca en los archivos FASTA primas.

Es importante tener en cuenta los pros y los contras de la utilización de ultrasonidos contra de la restricción digestión con endonucleasas de fragmentar el ADN genómico. Por un lado, sonicación proporciona una distribución relativamente aleatoria de los puntos de corte, pero los pasos de reparación del ADN y A-tizón posteriormente requeridos reducir consistentemente el rendimiento de productos de la ligación del enlazador, en comparación con ligaduras realizados con extremos cohesivos generados por la enzima de restricción. Por otra parte, la digestión con enzimas de restricción proporciona una población menos desembolsado de puntos de corte, que invariablemente introducir algún sesgo en los datos recuperados. Utilizando una endonucleasa de restricción para descartar secuencias LTR aguas arriba será en ambos casos (Figura 1) como resultado la pérdida de una pequeña fracción de los sitios de integración que se encuentran aguas arriba de ese sitio en el genoma. Cualquier sesgo de los datos que pueden resultar opción se puede ajustaratendido por la omisión de la digestión enzimática del protocolo durante la preparación de la biblioteca y el filtrado de la multitud de secuencias LTR resultante aguas arriba de la secuencia de datos.

Aunque el protocolo actual es bastante sensible y capaz de generar millones de sitios de integración únicas ^21,40, sólo alrededor de un tercio de todas las integraciones disponibles se podría esperar que se amplifica en un experimento dado, incluso con la mejor de las preparaciones de la biblioteca (ref. ⁷⁰ y observaciones no publicadas). Esto puede causar complicaciones en el análisis de muestras de infecciones o pacientes MOI bajos que albergan carga viral baja. Esta limitación se puede superar, en parte, mediante la secuenciación repetidamente la misma preparación de la biblioteca y / o la secuenciación de múltiples bibliotecas de derivados de la misma muestra de ADN en paralelo. Los futuros aumentos en la sensibilidad del ensayo en consecuencia va a ser muy beneficioso para las aplicaciones de traslación de la promoción de la secuenciación del sitio de integración retroviral.

Subscription Required. Please recommend JoVE to your librarian.

Acknowledgments

Estamos muy agradecidos a nuestros colegas Stephen Hughes y Henry Levin para el consejo de que era fundamental para establecer el protocolo de NGS para la secuenciación del sitio de integración retroviral en el laboratorio Engelman. Este trabajo fue apoyado por los Institutos Nacionales de Salud de Estados Unidos otorga AI039394 y AI052014 (a ANE) y AI060354 (Centro de la Universidad de Harvard para la Investigación del SIDA).

Materials

Name	Company	Catalog Number	Comments
DMEM	Gibco	11965-084	Standard cell culture medium, compatible with HEK293T cells
Fetal Bovine Serum	Thermo Scientific	SH 30088.03	Different lots of serum may need to be pre-screened for optimal viral production
Penicillin/Streptomycin	Corning	30-002-Cl	Antibiotics to be added to DMEM
Phosphate-Buffered saline	Mediatech	21-040-CV	Used to wash cells
Trypsin EDTA	Corning	25-053-CI	Used to detach adherent cells from tissue culture plates
PolyJet	SignaGen Laboratories	SL100688	DNA transfection reagent
0.45 µm Filters	Thermo Scientific	09-740-35B	Used to filter virus particle-containing cell culture media
Turbo DNase	Ambion	AM2239	Used to degrade carryover plasmid DNA from virus stocks
HIV-1 p24 Antigen Capture Assay	ABL Inc.	5447	Used to quantify yield of virus production
DNeasy Blood & Tissue Kit	Qiagen	69506	Used to purify genomic DNA from cells
Sonicator	Covaris	S2	With this model of sonicator perform two rounds of duty cycle, 5%; intensity, 3; cycles per burst, 200; time, 80 sec
Nuclease-Free Water	GeneMate	G-3250-125	Commercially-available water is recommended to reduce the possibility of sample cross-contamination
QIAQuick PCR Purification Kit	Qiagen	28106	Used to purify DNA during library construction
End-It DNA End-Repair Kit	Epicentre	ER81050	Used to repair DNA ends of sonicated DNA samples
Klenow Fragment (3'-5' exo–)	New England Biolabs (NEB)	M0212S	Used with dATP to A-tail repaired DNA fragments
dATP	Thermo Scientific	R0141	Deoxyadenosine triphosphate
MseI	NEB	R0525L	Restriction endonuclease for genomic DNA cleavage
BglII	NEB	R0144L	Restriction endonuclease to suppress amplification of upstream HIV-1 U5 sequence
T4 DNA Ligase	NEB	M0202L/6218	Enzyme for covalent joining of compatible DNA ends
DNA Oligonucleotides	Integrated DNA Technologies	custom	Have the company purify the oligos. HPLC purification suffices for DNAs <30 nucleotides; PAGE purify longer DNAs
Advantage 2 Polymerase Mix	Clontech	639202	Commercial mix containing DNA polymerase for PCR
dNTPs (100 mM solutions)	Thermo Scientific	R0181	Dilute the four chemicals on ice with sterile water to reach the intermediate worrking concentrations of 2.5 mM each dNTP
NanoDrop	Thermo Scientific	NanoDrop 2000	Spectrophotometer for determination of DNA concentration
Qubit Fluorimeter	Life Technologies	Qubit® 3.0	Fluorometer used to confirm integration site library DNA concentration
2200 TapeStation System	Agilent	G2964AA	Tape-based assay to confirm integration site library DNA size distribution
MiSeq	Illumina	SY-410-1003	Used for NGS