Biology

Extremo 3' secuencia biblioteca elaboración con Sec2 A

Published: October 10, 2017 doi: 10.3791/56129

Georges Martin¹, Ralf Schmidt¹, Andreas J. Gruber¹, Souvik Ghosh¹, Walter Keller¹, Mihaela Zavolan^1,2

¹Computational and Systems Biology, Biozentrum, University of Basel, ²Swiss Institute of Bioinformatics, Biozentrum, University of Basel

Summary

Este protocolo describe un método para asignación pre-mRNA 3' final sitios de procesamiento.

Abstract

Estudios en la última década han revelado una variedad compleja y dinámica de reacciones de poliadenilación y escote de pre-mRNA. mRNAs con largas regiones 3' no traducidas (UTRs) se generan en las células diferenciadas que proliferar las células expresan preferentemente transcripciones con corta 3' UTRs. Describimos el protocolo A-seq, ahora en su segunda versión, que fue desarrollado para asignar sitios de poliadenilación genoma y estudiar la regulación del proceso de pre-mRNA 3' final. También aprovecha este protocolo actual de Poliadenilato (colas de poly(A)) que se agregan durante la biogénesis de los mRNAs mamíferos más para enriquecer de mRNAs completamente procesados. Un adaptador de ADN con deoxyuracil en su cuarta posición permite que el proceso exacto de mRNA 3' final fragmentos de la secuencia. No incluye el cultivo de células y las trompas durante la noche, el protocolo requiere unos 8 h tiempo práctica. Junto con él, se proporciona un paquete de software fácil de usar para el análisis de los datos derivados de la secuencia. A-Sec2 y el software de análisis asociadas proporcionan una solución eficiente y confiable para la asignación del pre-mRNA 3' termina en una amplia gama de condiciones del 10⁶ o menos células.

Introduction

La captura y la secuencia de mRNA 3' extremos permite el estudio del procesamiento de mRNA y la cuantificación de la expresión génica. Debido a sus colas poly(A), mRNAs eucarióticos puede ser eficazmente purificado de lysates de la célula total con cuentas inmovilizadas oligo-deoxythymidine (moléculas de oligo(dT)), que también puede cebar la síntesis de cDNA. Sin embargo, este enfoque tiene dos inconvenientes. Tramos de la A que es internos de las transcripciones pueden también primer síntesis de cDNA, dando por resultado falsas poly(A) sitios. Tramos de poly(A) segundo, homogéneo plantean desafíos específicos para la secuencia, además de no ser informativo para la identificación de la transcripción. Se han propuesto diversos enfoques para sortear estas limitaciones, tales como transcripción reversa a través de poly(A) colas seguidas de digestión Rnasa H ( ¹de 3P-seq), el uso de una cartilla de secuenciación personalizada terminando en 20 Ts ( ²de 2P-seq), preselección de Fragmentos de ARN con poly(A) colas de más de 50 nucleótidos con una cartilla de₄₅ CU₅T seguido por digestión Rnasa H (3' Lee ³) y el uso de una cartilla de oligo-dT que contiene el adaptador de 3' en una horquilla (seq de A ⁴).

El recientemente desarrollado A Sec2 método ⁵ pretende eludir la secuencia a través de poly(A) y al mismo tiempo reducir al mínimo la proporción de dímeros que se generan por la uno mismo-ligadura de adaptadores, que ocurren particularmente cuando la concentración molar de adaptadores compensa la concentración de insertar. Este problema puede eliminarse cuando se unen ambos adaptadores al mismo tipo de Polinucleótido extremos como en A-Sec2, donde los adaptadores de 3' se unen al extremo 5' de fragmentos de ARN y los adaptadores de 5' a 5' extremos de los cDNAs después de reversa de la transcripción. El método es más conveniente que nuestro anteriormente propuesto A-seq - en que la secuencia estaba en el 5'-a-3' dirección por lo que requiere precisamente controlada RNA fragmentación-, manteniendo una alta exactitud de la identificación del sitio de poly(A). Alrededor del 80% de las lecturas secuenciadas en muestras típicas mapa únicamente al genoma y llevar a la identificación de más de 20.000 grupos de sitio poly(A), más del 70% de que se superponen con anotación 3' UTRs.

En Resumen, el protocolo A Sec2 comienza con fragmentación de mRNA y la ligadura de reversa-complemento 3' adaptadores a los extremos 5' de fragmentos de ARN. Poly (A)-que contienen ARN es entonces inversa transcrito con una cartilla de oligo(dT) largo de 25 nucleótidos (nt) que contiene un nucleótido de anclaje en el extremo 3', dU en la posicion 4 y biotina en el extremo 5', permitiendo que enlace del cDNA a granos magnéticos estreptavidina. La mayor parte de la cartilla, incluyendo biotina, se extrae el cDNA por clivaje en dU por la mezcla de enzima de usuario, que contiene uracilo ADN glicosilasa (UDG) y el ADN glicosilasa-liasa Endonuclease VIII. Esta reacción deja intactos extremos de la ligadura de un adaptador de 5' y la izquierda Ts tres después del escote quedan marcar la ubicación de la cola de poly(A). Porque los adaptadores de 5' y 3' se unen por la ligadura a los receptores de 5' extremos, no dímeros de adaptador se generan. Cuatro nucleótidos al azar-mers introducidos en principio Lee permite resolución de cluster en los instrumentos de la secuencia de vanguardia y también puede servir como identificador molecular único (UMI) para la detección y eliminación de artefactos de amplificación de PCR. El tamaño de la UMI puede aumentar más lejos como hace en otros estudios ⁶. El protocolo genera lecturas que son inversa complementaria al mRNA 3' extremos, todo comienza con un tetrámero aleatorio seguido por 3 Ts. procesamiento de lecturas que tiene el 3 Ts diagnóstico en su 5' final comienza con la corrección de artefactos de amplificación de PCR por explotando las UMIs, eliminación de secuencias 3' de adaptador y revertir la complementación. Dice que pudo haber originado de oligo(dT) cebado en sitios ricos en A internos también se identifican computacionalmente y desechados. Los sitios falsos suelen carecen de uno de los 18 bien caracterizado y poly(A) conservado señales que deben ser ubicado ~ 21 nucleótidos corriente arriba del escote aparente sitio ⁷.

El protocolo requiere unos 8 h tiempo práctica, sin contar el cultivo celular y las trompas durante la noche. El asociado lee análisis software permite una identificación de sitio de alta precisión poly(A). Desde el sitio de poly(A) clusters crearon basados en 4 muestras más destacadas en esta superposición de 84% del manuscrito (dos réplicas biológicas de siRNA control y células tratadas con si-HNRNPC) con un gen anotado y de éstos, superposición de 75% con un 3' UTR y 86% ya sea con un 3' UTR o un exón terminal. El coeficiente de correlación de Pearson de expresión de los extremos 3' de las muestras replicadas es 0,92, y por lo general se obtienen valores de sobre 0.9 con el método. Así, A-Sec2 es un método práctico que da resultados muy reproducibles.

Protocol

1. crecimiento de la célula y mRNA aislamiento

crecer las células según su diseño experimental en placas de 6 pocillos hasta ~ 1 x 10 ⁶ células por pocillo en 80% de confluencia.
Retire el medio de crecimiento y lave las células una vez con tampón fosfato salina. Lisan directamente las células en la placa añadiendo 1 mL de tampón de lisis del kit del aislamiento del mRNA. Transferir el viscoso lisado en un tubo de plástico de 15 mL con una pipeta de 1 mL. Use una espátula de goma para separar totalmente el material celular de la superficie de la placa.
De esquileo el lisado contiene ADN viscoso con una jeringa de 1 mL conectada a una aguja de hipodérmica 23 G por varios vigoroso bajada del émbolo hasta que el lisado es no viscoso. Punto de la aguja de la jeringa en el centro de la parte inferior para evitar expulsión de lisado del tubo.
Transferir el lisado en un tubo de 1,5 mL utilizando la jeringa. La vuelta 5 minutos a 20.000 x g y 4 ° C para eliminar los desechos. Utilizar DNA atar bajo 1,5 mL viales en todo el protocolo de.
Mientras la centrifugadora está funcionando, lavar 300 μL de resuspendidos oligo (dT) ₂₅ granos magnéticos en un soporte magnético con 500 μl de tampón de lisis. Mezcle los tubos 2 a 3 veces en la rejilla. Eliminar el buffer después de que la solución es clara. Recoger el sobrenadante del paso 1.4 y añadir a los granos. Suspender y colocar tubos en una rueda giratoria para 10 minutos
Colocar los tubos en una parrilla magnética. Retire el líquido claro después de 2 minutos agregar 0,8 mL buffer A del kit del aislamiento del mRNA. Gire el tubo 180° grados sobre la rejilla, 2 - 3 veces. Repita este paso de lavado con buffer A.
Lave los granos 2 veces con 0,8 mL de tampón B como se describe en el paso 1.6.
a fin de eluir el ARNm dependiente de los granos, añadir 33 μl de H ₂ O y resuspender los granos. Calentar a 75 ° C por 5 min en un bloque calentado. Inmediatamente girar los tubos para 1 s y el lugar en la rejilla magnética. Transferir el sobrenadante a un tubo nuevo. Las muestras pueden almacenarse a-80 ° C hasta su posterior uso.
66 añadir μl de tampón de hidrólisis alcalina a los 33 μl mRNA (paso 1.8), mezclar y calentar durante exactamente 5 minutos a 95 ° C en un bloque de calefacción. Inmediatamente enfriar los tubos en hielo.
Aislar ARN con un kit de limpieza de RNA.
Nota: Confirmar el volumen; debe ser 100 μl. Etanol de
1. añadir 350 μl de tampón de RLT del kit y 250 μl. Carga sobre la columna y exprimido por 30 s a 8.000 x g a temperatura ambiente (RT). Lavar con 500 μl de tampón RPE del kit. Lavar con 500 μl 80% de etanol. Girar durante 5 minutos a 20.000 x g para secar la columna. Añadir 36 μl de H ₂ O a la columna y centrifugar 1 min a 20.000 x g. Deseche el columna y guardar el eluído.

2. 5 ' fin la fosforilación y el tratamiento de DNasa

añadir 5 μl Polinucleótido buffer, 5 μl 10 mM ATP, 1 μl ribonucleasa inhibidor de la cinasa, 1 μl de DNasa y 2 μl Polinucleótido quinasa a muestras e incubar a 37 ° C para 30 min opcionalmente preparar mezclas de reacción principal en el protocolo mezclando volúmenes de 1,1 x n (n = número de muestras) de cada componente.
Cambiar el tampón y retire el ATP en una columna de giro para evitar que poly(A) además en el siguiente paso.
1. Prespin vuelta-columnas a 735 x g durante 1 minuto transferir las columnas a nuevos viales de 1,5 mL y las reacciones de la quinasa en las columnas de carga. Vuelta las columnas 2 min a 735 x g. Deseche las columnas y coloque los tubos con las reacciones recogidas en hielo o almacenan a -80 ° C.

3. Bloqueo de 3 ' termina con Cordycepin trifosfato

Nota: es indispensable para bloquear los 3 ' extremos de fragmentos de ARN para evitar su concatemerization en las reacciones de ligadura posterior. 3 ' extremos que ya no están bloqueados por un ( fosfato cíclico) después de hidrólisis son tratados por la adición de 3 ' dATP (cordycepin trifosfato) nucleótidos de terminación de cadena con la ayuda de la polimerasa poly(A). Aquí, la polimerasa de poly(A) levadura (yPAP), que fue expresado y purificado como se describe en ⁸ fue utilizado en una concentración de 0.5 mg/mL. Levadura o e. coli PAP ambos tienen casi la misma actividad para la adición de 3 ' dATP y puede ser comprado comercialmente (véase la tabla de materiales).

Tampón de reacción de polimerasa

13.5 añadir μl 5 x poly(A) concentrado, 2 μl de 10 mM 3 ' dATP, inhibidor de Rnasa de 1 μl y polimerasa de poly(A) de 1 μL para la reacción de paso 2.2.1. Mezcla y vuelta para 1 s. incubar a 37 ° C durante 30 minutos agregar 32.5 μl de H ₂ O para cada reacción. Purificar el RNA como en el paso 1.10.1. Eluir el RNA con 14 μl de H ₂ O.

4. Ligadura de 3 atrás ' adaptadores para los 5 ' final de fragmentos de ARN

colocar las reacciones en un concentrador de vacío durante 10 min para reducir el volumen a 6 μl. Agregar 3 μl 10 x tampón ligadura del RNA T4 de 3 μl 10 mM ATP , 15 μl PEG-8000, inhibidor de Rnasa de 1 μl, 1 μl de complemento reverso de 0.1 mM 3 ' adaptador " revRA3 " (véase la tabla de materiales) y ligasa de RNA de alta concentración de 1 μL 1.
Incubar las reacciones a 24 ° C por 16 h de una mezcla calentada con mezcla intermitente a 1.000 rpm. Añadir 70 μl de H ₂ O para cada reacción y mezclar. Purificar el RNA como en el paso 1.10.1. Eluir el RNA con 14 μl de H ₂ o. las muestras pueden almacenarse a-80 ° C en este momento.

5. Reversa de la transcripción (RT)

lugar los eluatos en un concentrador de vacío durante 3 min para reducir el volumen a 11 μl. reacciones de transferencia de a 200 μL PCR tubos. Añadir 1 μl 0,05 mM RT la cartilla " Bio-dU-dT25 ". Calentar durante 5 minutos a 70 ° C en un ciclador PCR y dejar a temperatura ambiente durante 5 minutos
Agregar 1 μl 10 mM dNTPs, 4 μL de tampón de la transcriptasa reversa 5 x, 1 μl de 0,1 M TDT, inhibidor de Rnasa de 1 μl y 1 μl de la transcriptasa reversa. Mezclar y calentar las reacciones durante 10 min a 55 ° C y a 10 minutos a 80 ° C en un ciclador PCR. Mantener en hielo o a-80 ° C para un almacenaje más largo.

6. Digestión con mezcla de enzima Uracil ADN glicosilasa

pipeta 100 μl estreptavidina-granos en un vial de 1.5 mL, resuspender en 800 μl de tampón de Unión biotina y colocar sobre una rejilla magnética. Invertir los tubos 2 - 3 veces. Eliminar el buffer cuando claro. Repetir el lavado. Resuspender los granos en 200 μL de tampón de Unión biotina.
Añadir la reacción reversa de la transcripción a la solución de los abalorios e Incube 20 min a 4 ° C en un disco giratorio. Lavar los granos x 2 con el atascamiento del biotin del almacenador intermediario como en paso 6.1 y 2 x con tampón de diez sobre una rejilla magnética. Resuspender los granos en 50 μl de tampón de diez y añadir 2 μl Uracil ADN glicosilasa enzima mezclar, incubar 1 h a 37 ° C en un mezclador con mezcla intermitente.
Añadir 50 μl de H ₂ O, 11 μl de ARNasa H buffer y 1 μl de Rnasa H de las reacciones. Incubar a 37 ° C para tubos de lugar de 20 minutos sobre una rejilla magnética y transferir el líquido que contiene el cDNA cortado a un tubo nuevo
purificar el cDNA exfoliado.
1. Añadir 550 μl de buffer PB del kit de purificación de polimerización en cadena de las reacciones de escote. Añadir 10 μl de acetato de sodio de 3 M pH 5.2 para bajar el pH. Las reacciones de carga en columnas de giro mínimo de elución y vuelta a 17.000 x g durante 1 minuto
2. Añadir 750 μl de tampón de PE a columnas y vuelta a 17.000 x g durante 1 minuto deseche el flujo a través. Girar las columnas a 17.000 x g durante 1 min secar. Transferir las columnas a un vial de 1.5 mL, agregue 16 μl de H ₂ O y vuelta a 17.000 x g durante 1 minuto colocan las reacciones en un concentrador de vacío durante 8 min a concentrado a un volumen de 7 μl.

7. Ligadura de 5 ' adaptadores para 5 ' extremos del cDNA de

para el cDNA aislado, agregar 3 μl 10 x tampón T4 RNA ligasa 1 3 μl 10 mM ATP, 15 μl PEG-8000, 1 μl 50 μm " revDA5 " oligo y 1 ligasa de T4 RNA de alta concentración μL 1. Incubar a 24 ° C por 20 h. Añadir 70 μl de H ₂ O para cada reacción. Las muestras pueden conservarse a-20 ° C en este momento.

8. Piloto de PCR, amplificación de bibliotecas y selección del tamaño

en una reacción piloto, determinar el número óptimo de PCR ciclos para alcanzar la amplificación de la biblioteca dentro de la fase exponencial.
1. Pipetee 25 μl mezclar ADN polimerasa, reacción de la ligadura de 20 μl 2 μl de H ₂ O, 1.5 μl 10 μm hacia adelante PCR primer (RP1) y 1,5 μl 10 μm reversa PCR índice primer en tubo PCR de 200 μl.
2. Ejecutar el cycler con el siguiente programa: 3 min 95 ° C, seguido por 20 ciclos de 20 s 98 ° C, 20 s 67 ° C y 30 s, 72 ° C. recoger 7 μl partes alícuotas después de ciclos de 6, 8, 10, 12, 14, 16 y 18 de la cycler. Añadir 1 μl de 10 x buffer (glicerol 50%, 0.05% xileno cyanol) del cargamento. Nota: Por favor siga las recomendaciones del proveedor si utiliza multiplexación al combinar códigos de barras.
3. Productos separados en pequeñas ranuras en un gel de agarosa 2% en buffer de x TBE 1 que contiene un 1:10, 00 dilución de colorante verde fluorescente.
  1. Alícuotas de carga en una agarosa 2% gel y el gel en 100 voltios durante 15 minutos visualiza migración de productos de la PCR en un sistema de documentación de gel.
Utilizar el número de ciclos al principio de la amplificación exponencial de la reacción experimental para una reacción de polimerización en cadena a gran escala con dos veces los volúmenes según lo utilizado para la reacción del piloto ( figura 2).
1. Para reacciones de polimerización en cadena a gran escala, concentrado y desalar las reacciones primero con un kit de purificación de PCR y los productos en las ranuras anchas en geles de agarosa al 2% en buffer de x TBE 1.
Cortar rodajas de gel que contiene 200-350 nt ADN productos. Derretir el gel en el búfer de caotrópico a temperatura ambiente por hasta 30 minutos. Extraer ADN de los trozos de gel con un kit de extracción de gel. No calentar a 50 ° C para evitar sesgo en el enlace de ADN rico en A ⁹.
Enviar para secuenciación.
Nota: Por lo general, son suficientes 50 ciclos de solo-lectura (SR50) (véase, por ejemplo, https://www.illumina.com/technology/next-generation-sequencing.html).

9. Procesamiento de datos

Nota: los datos de la secuencia resultante (formato fastq) son procesados con el software disponible en el repositorio de gitlab (https://git.scicore.unibas.ch/zavolan_public/A-seq2-processing). El análisis incluye cuatro pasos principales: (1) Descargar el repositorio de git, (2) instalación de un entorno virtual (3) ajustando los parámetros específicos en el archivo de configuración y (4) lanzar el análisis a través de ‘ snakemake ’ ¹⁰. el análisis completo hecho en el paso 4 requiere un único comando. Una descripción detallada paso a paso del análisis puede encontrarse en el archivo README en el repositorio de gitlab y está disponible a continuación una breve descripción. Todos los pasos de procesamiento individuales son logrados por la ejecución de herramientas disponibles al público, ya sea desde fuentes externas o preparados en casa. La tubería computacional depende de un entorno virtual de base anaconda ¹¹ python 3 con el paquete snakemake disponible ¹⁰. Funciona en máquinas con sistema operativo Unix y fue probado en un entorno Linux con CentOS 6,5 sistema operativo instalado y 40 GB de RAM disponible. Las dependencias de software son controladas automáticamente dentro del entorno virtual. Las siguientes herramientas de software disponible para el público son necesarios y lo instala junto con el medio ambiente: snakemake (v3.9.1) ¹⁰, fastx toolkit (v0.0.14) ¹², estrellas (v2.5.2a) ¹³, cutadapt (v1.12) ¹⁴, samtools (v1.3.1) ¹⁴ ^, ¹⁵, bedtools (v2.26.0) ¹⁶ ^, ¹⁷.

Pre-procesamiento de datos Lee a cDNAs
Nota: la profundidad de la secuencia puede variar entre corridas y, dependiendo del instrumento, los datos de una muestra se pueden dividir en varios archivos de secuencia. Si este es el caso, concatenar los archivos que corresponden a una muestra en un único archivo de entrada que se utiliza en los siguientes pasos.
1. Convertir el archivo a formato fasta fastq.
2. Extracto de Lee con una estructura correcta (3 thymidines en las posiciones 5, 6 y 7 de la lectura).
  Nota: Una lectura correctamente preparado según el protocolo experimental descrito arriba debe tener la estructura (de los 5 ' final): código de barras de 4 nucleótidos - 3 thymidines - invertir complemento de transcripción 3 ' final.
3. Almacenar la información sobre el tetrámero de partida en la línea de la descripción de la secuencia.
  Nota: El tetrámero sirve como identificador único molecular (UMI) que facilita la corrección de artefactos de amplificación más adelante en el análisis.
4. Quitar los siete primeros nucleótidos de la lectura ' s 5 ' final.
5. Corregir para artefactos de amplificación por mantener sólo una copia de la lee con el mismo introduzca la secuencia y UMI.
6. Quitar la parte de los 3 ' final que coincide con la secuencia del adaptador y luego inversa complemento la secuencia. Proceder sólo con lecturas que tienen una longitud mínima (por defecto: 15 nt).
  Nota: dependiendo de la longitud del fragmento de ARNm original y el número de ciclos de secuencia, los 3 ' final de la lectura puede contener parte de los 3 ' adaptador, que se quita en este paso.
Extracto de todas las lecturas que cumplan con los siguientes criterios: máximo 2 nucleótidos desconocidos (' N '), máximo 80% y el último nucleótido de la lectura no A. Estas lecturas son consideradas de suficiente calidad para ser utilizado en el análisis.
Mapa la lee al genoma con una herramienta que maneja Lee empalmado y genera un archivo de salida en formato BAM.
1. Estrella si se utiliza, crear un archivo con el índice del genoma al que debe asignarse la Lee. Para el genoma humano, este paso requiere 35 GB de memoria (RAM).
2. Mapa de las lecturas al genoma.
  Nota: (notas de estrellas específicas) Soft-clipping se deshabilita para forzar la asignación de los 3 ' final de cada lectura es el nucleótido inmediatamente aguas arriba del sitio de clivaje.
Convertir la matriz en un archivo de cama. Si una lectura mapas a varias ubicaciones, mantener sólo aquellos con la menor edición distancia.
Nota: El número de copias de la lectura asignada en una ubicación específica se utiliza como marcador. Lee a varias ubicaciones que se cuenta fraccionario en cada lugar con un peso igual a 1/número de localizaciones que una lectura mapas.
Colapso lecturas que varían por un error probable de la secuencia. Si dos lecturas distintas mapa en la misma ubicación (posición inicial y final de las asignaciones son idénticos) y comparten el mismo UMI, considerar como PCR duplicados y mantener sólo un.
Inferir todos los pre-mRNA 3 ' fin sitios de procesamiento.
Nota: Una lectura individual proporciona la evidencia para una 3 ' finalizan sus últimos cuatro nucleótidos se asignan al genoma sin error. La posición a la que los 3 ' final de los mapas de lectura se almacena como sitio de la hendidura.
Detectar 3 ' fin sitios que podrían haberse originado de cebado interno. Definir el sitio como artefacto de cebado interno cuando los 10 nt aguas abajo del sitio de clivaje del genoma satisfacer uno de los siguientes criterios: contiene más de seis que contiene seis consecutivos como y comienza con uno de los siguientes tetrámeros: AAAA, AGAA, AAGA, AAAG .
Generar una tabla de 3 individuales ' fin sitios de procesamiento en formato cama.
Identificar independientemente regulado grupos de sitio de poly(A).
Nota: Los pasos descritos aquí siguen el procedimiento que se introdujo en una publicación previa ⁵.
1. Empezar por recoger cada 3 ' fin sitios de procesamiento que se obtuvieron en las muestras del estudio.
2. Anotar poly(A) conocido señales ⁷ en la región de 9:00 nucleótidos alrededor de cada 3 individuales ' sitio de procesamiento final.
3. Poly(A) de identificar sitios expresados sobre el fondo en cada muestra como sigue.
  1. Ordenar los sitios por su expresión cruda dentro de la muestra actual. Recorrer la lista de sitios de arriba a abajo, asociar sitios ordenados inferiores con un sitio más ordenado si se encuentran dentro de una distancia predefinida en el genoma (por defecto: 25 nt para arriba - o abajo) desde el alto sitio.
    Nota: Todos los sitios de bajo nivel asociados con un sitio de alto rango definen un cluster cuya expresión es el número de lecturas que documenta todos estos sitios.
  2. Clasificar estos grupos de expresión y recorrer la lista de los grupos de mayor a menor expresión, determinar la expresión umbral c en que el porcentaje de racimos con una poly(A) comentada de señal cae por debajo de un umbral predefinido ( por defecto: 90%).
  3. Descartar sitios de cualquier grupo por debajo del corte de.
4. Racimo estrechamente espaciados 3 ' fin sitios obtenidos a través de muestras de.
  Nota: Tipo 3 ' final proceso sitios en primer lugar por el número de muestras de apoyo y luego por la suma de la normalizada Lee cuenta (Lee por millones (RPM)) a través de las muestras. Recorriendo la lista de arriba a abajo, asociar sitios más bajos del ranking con los sitios más altos del ranking cuando su distancia al sitio de rango superior no es más grande que un límite predefinido (por defecto: 12 nt). Cuando cualquiera de los 3 que representen ' final coincide con una señal de poly(A) anotada o tiene una señal de poly(A) directamente aguas abajo, el cluster correspondiente está marcado para que la posterior inspección detectar cebado interno.
5. Combinación de poly(A) sitio grupos.
  Nota: Cuando un clúster está marcado como un candidato supuesto oscurecimiento interno, combinado en un clúster de abajo si los dos grupos comparten sus señales de poly(A) o retenido si el sitio más abajo en el cluster tiene una señal de poly(A) a un mínimo distancia aguas arriba (por defecto: 15 nt). Por último, se combinan grupos espaciados si: (i) comparten las mismas señales de poly(A), o (ii) la duración de la agrupación resultante no supere un máximo (por defecto: 25 nt).
6. Almacenar grupos en formato de archivo de cama con total normalizado leer la cuenta de los 3 ' fin sitios en cada cluster como score.

Representative Results

Poly (A)-que contiene el RNA fue aislado de las células cultivadas, fragmentadas por hidrólisis alcalina y cDNAs se hicieron por revertir la transcripción con las cartillas de oligo(dT). El ADNc resultante fue inmovilizada en granos de estreptavidina, dU fue hendida en la reacción de supresión específica de uracilo, adaptadores fueron ligados a 5' y 3' extremos del fragmento troceado y los rellenos fueron ordenados. La figura 1 muestra un esquema gráfico del experimento.

Para las células HeLa y HEK293, 10⁶ células fueron suficientes para identificar los lugares de poly(A) para la gran mayoría de genes de la proteína-codificación al final del procedimiento. Sin embargo, para otros tipos de células o tejidos puede ser necesario probar la saturación en el número de sitios identificados poly(A) como el número de células utilizadas en el experimento aumenta. Resultados representativos de la PCR piloto paso y del fragmento de ADN, análisis de la muestra antes de la secuencia se muestran en la figura 2.

La figura 3 muestra los pasos de preprocesamiento del análisis computacional, a partir del fichero fastq obtenidos desde el secuenciador y terminando con la marcada calidad, tapizados en adaptador Lee que están dispuesta a asignar al genoma. La figura 4 muestra los pasos de análisis que comienza con la asignación de las lecturas al genoma correspondiente y al final con el catálogo de lugares que se identifican en una muestra particular de procesamiento extremo 3' mRNA. Cuando se analizan las muestras múltiples, pasos adicionales se llevan a cabo a coincida con el extremo 3' sitios que fueron encontrados en las muestras individuales de procesamiento e informe su abundancia a través de las muestras. Estos pasos se muestran en la figura 5.

Así, una vez que las muestras han sido secuenciadas, el análisis de la secuencia que resulta leer los archivos (en formato fastq) a través de la canalización de procesamiento disponible es sencillo. Después de agregar la información sobre las muestras para el archivo de configuración, la ejecución del gasoducto dará como resultado dos tipos principales de archivos de salida: 1) cama-archivos con todos 3' extremo procesamiento de sitios identificados en muestras individuales (p. ej. " sample1.3pSites.noIP.Bed.gz") y 2) un archivo de cama con los racimos de sitio poly(A) (clusters.merged.bed) a través de todas las muestras del estudio. La salida también incluye las coordenadas de genoma de todas las lecturas de cada muestra individual (e.g. "sample1. STAR_out/aligned.sortedByCoord.out.Bam") que luego podrás visualizar en un navegador de genoma como IGV¹⁶. Inspección visual de los perfiles leerlas generalmente proporciona un primer vistazo de la distribución de los sitios de poly(A) en el genoma y los cambios que ocurren en las perturbaciones específicas que se llevaron a cabo en el estudio. Por ejemplo, en la figura 6 se muestra la respuesta de un gen específico a la precipitación de la proteína HNRNPC.

Resúmenes de estas distribuciones del genoma también se ofrecen (cuadro 1). Específicamente, los archivos de salida en el directorio "cuentas/annotation_overlap" contienen fracciones de sitios que se solapan con las características anotadas (desde el archivo gtf proporcionado como entrada, anotado son: 3' UTR, exón terminal, exón, intrón, intergénico). Finalmente, para cada muestra, resultados de pasos de proceso individuales también se guardan (por ejemplo, "sample1.summary.tsv"). Esto incluye los números de: Lee cruda en cada muestra, dice que tienen la estructura esperada del extremo 5', dice que quedan tras sufrir un colapso completos duplicados de la polimerización en cadena, alta calidad Lee según los criterios definidos en el paso 9.2, lee el mapa únicamente para el genoma (tras sufrir un colapso que dio como resultado de errores de secuencia, ver paso 9.5), asignación de múltiples Lee (tras sufrir un colapso que dio como resultado de errores de secuencia, ver paso 9.5), crudo (no agrupado) 3' extremo sitios en cada muestra, cruda 3' extremo sitios de procesamiento de procesamiento sin candidatos de oscurecimiento interno, único 3' extremo sitios de procesamiento de las muestras sin candidatos cebado interno y el conjunto final de grupos de sitio de poly(A).

Figura 1: pasos principales del Protocolo A Sec2. Pasos individuales se indican en el lado izquierdo de la figura. Insertar fragmentos de ARN se representan como líneas verdes que rojos de cDNA después transcripción inversa; adaptadores son de color azul claro o naranja. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: piloto de PCR y el perfil del producto final. (un) alícuotas de la reacción de PCR se recolectaron en diferentes ciclos y separaron en geles de agarosa al 2%. Números a la izquierda indican el tamaño en nucleótidos de las respectivas bandas en la escalera de ADN. En este experimento se eligieron 12 ciclos (*) para la reacción de polimerización en cadena a gran escala. (b) ejemplo de una muestra después de la preselección en un analizador de tamaño de fragmento revela un tamaño medio de unos 280 nucleótidos. Números a la izquierda [FU] indican la intensidad relativa de la señal. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: esquema de tratamiento previo de la secuenciación Lee. Se procesan los archivos fastq con lecturas que son generados por el software de secuenciación asociadas instrumento para identificar lecturas de alta calidad que se asignan al genoma correspondiente. La figura muestra la especificación de entrada y salida de cada paso en la tubería, con enlaces a cada paso del protocolo descrito en la sección "Procesamiento de datos". Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: esquema de la secuencia Lee proceso, del paso de asignación el genoma a la generación del extremo 3' individuales sitios de procesamiento. La figura muestra la especificación de entrada y salida de cada paso en la tubería, con enlaces a la iindividual pasos del protocolo que se describe en la sección "Procesamiento de datos". El archivo de salida principal que se entrega al usuario está marcado en negrita. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: esquema de los pasos que se toman para generar racimos de extremo Co regulada 3' secuencia sitios. La figura muestra la especificación de entrada y salida de cada paso en la tubería, con enlaces a cada paso del protocolo descrito en la sección "Procesamiento de datos". El archivo de salida principal está marcado en negrita. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: resultados del ejemplo del perfil de 3' extremo procesamiento Lee a lo largo del terminal exón del gene de NUP214, se muestra en el navegador de genoma IGV ¹⁶ . Se prepararon A Sec2 Lee de dos muestras de células de HEK 293, tratadas con un siRNA control o con un siRNA HNRNPC. La lee que poly(A) sitios que fueron anotados por la tubería del análisis se guarda en formato BAM que se utilizó como entrada para el browser del genoma IGV. Los extremos 3' de los picos de lectura mapa al mRNA 3' extremos que se anotan en el Ensembl. Los perfiles indican un uso creciente de la isoforma larga 3' UTR con HNRNPC precipitación. Haga clic aquí para ver una versión más grande de esta figura.

	Si Control repetición 1	repetición si Control 2
	ID: 29765	ID: 32682
número de lecturas raws	44210258	68570640
número de lecturas válidas después de recortar y filtrado	14024538	21211793
número de asignación únicamente Lee	6953674	13946436
número de lecturas a múltiples loci	2040646	2925839
número de los 3' extremo sitios de procesamiento	1107493	1710353

Tabla 1: ejemplo de salida de la tubería análisis. Resúmenes de lecturas que se obtuvieron en pasos individuales.

Discussion

La multitud de base y factores auxiliares que intervienen en el proceso de pre-mRNA 3' final se refleja en un paisaje de poliadenilación proporcionalmente complejo. Además, también es sensible a los cambios en otros procesos como la transcripción y splicing de poliadenilación. 3' extremo escote sitios pre-mRNAs se identifican típicamente basado en las colas de poly(A) características que se agregan a los productos de escote 5'. Mayoría de los métodos utiliza iniciadores oligo(dT) de longitudes variables que permiten la conversión específica de poli (A)-que contienen mRNAs a cADN en una reacción de transcripción reversa. Un problema común de este enfoque es cebado interno a las secuencias de A ricos en sitios de clivaje artifactual. Se han propuesto dos métodos que intentan eludir este artefacto en la etapa de preparación de la muestra. En el método de 3P-seq ¹, adaptadores se unen específicamente a los extremos de las colas de poly(A) de con ayuda de un oligo de férula seguida parcial digestión Rnasa T1 y transcripción reversa con TTP en la reacción como los Deoxinucleótidos solamente. El heterodúplex resultantes de poly(A)-poly(dT) luego es digeridos con Rnasa H y los restantes fragmentos de RNA aislados, ligados a los adaptadores y secuenciados. Un método más simple y elegante, 2P-seq, que utiliza una cartilla de secuenciación personalizada omitiendo el tramo restante de oligo(dT) en la reacción de secuenciación se informó por los mismo autores ². En un método relacionado, 3' Lee ³, una cartilla inusualmente larga de 5 nosotros y 45 Ts, que también contiene una biotina es recocidos ARN fragmentado, seguido de lavados rigurosos para seleccionar moléculas de ARN con poly(A) colas de más de 50 nucleótidos. Aunque 3' Lee reduce drásticamente la frecuencia de cebado interno, no completamente elimina lo ³. Protocolos para la secuencia directa del RNA también se han propuesto, pero las lecturas resultantes son cortas y tienen una alta tasa de error y este enfoque no ha sido más desarrollado ¹⁸^,¹⁹^,²⁰. La Seq de PolyA y de los protocolos de Quant Seq comercializados combinan oligo(dT) base de cebado con un paso de cebado al azar para el cDNA segunda hebra síntesis ²⁰. El uso de la reacción de transcripción reversa interruptor de plantilla con la transcriptasa reversa de los Virus de la leucemia murina de Moloney (MMLV) conduce a la generación de cDNAs con conectores en un solo paso y así no dímeros adaptador pueden aparecer en los métodos SAPAS y PAS-Seq ²¹ ^, ²².

El método A-Sec2 presentamos destaca en su utilización de un nucleótido escindibles (dU) dentro de una cartilla de oligo(dT) biotinilado. Esta modificación combina la utilidad de enriquecer oligo(dT) cruzado por hibridación, contra objetivos con el retiro de la mayoría de la secuencia₂₅ de oligo (dT) de los fragmentos aislados antes de que las bibliotecas están preparadas y la preservación de tres t, que indican la presencia previa de la cola de poly(A). En contraste, los métodos que utilizan la Rnasa H para quitar poly(A) de las moléculas de ARN al azar dejan varios como. Ya que en A-Sec2, la secuencia se realiza desde el extremo 3' de la anti-sentido, sitios de clivaje se predicen que se encuentra después el motivo NNNNTTT al principio de la secuencia cruda Lee. Los tetrámeros aleatorios no sólo sirven para permitir llamar sino también en la eliminación de artefactos de amplificación de PCR de base. UMIs más largas también pueden ser acomodados. La posibilidad de oscurecimiento interno permanece en A-Sec2 y trata de cómputo, en primer lugar descartando 3' termina con una secuencia descendente genómicamente codificados, A ricos y luego descartando 3' final clusters, lo que podrían explicarse por oscurecimiento interno en el Señal de poly(A) ricos A sí mismo. Un análisis reciente de sitios de poly(A) inferida únicamente por un gran número de protocolos indica que los sitios que son únicos a Sec2 A tengan el nucleótido esperado distribución y ubicación dentro de genes, similares a otros 3' extremo protocolos de secuenciación.

Un paso crítico en A-Sec2 es la selección de cofia RNA y el retiro de RNAs ribosomal y varios ARNs pequeños. Esto se hace más fácilmente por un kit de mRNA aislamiento con Perlas magnéticas de oligo (dT)₂₅ . En principio, ARN total aislado con fenol que contienen soluciones también da alta calidad RNA que puede ser más sometido a la selección por el kit de aislamiento de mRNA o agarosa oligo (dT). Un paso que puede variar en A-Sec2 es el tratamiento con hidrólisis alcalina que pueden acortar o extender para obtener fragmentos de ARN de diferentes tamaños. Crítico es también que la adición de dATP 3' a 3' extremos de los fragmentos de RNA por la polimerasa de la poly(A) es eficaz. En el protocolo descrito aquí, este tratamiento se aplica a todos los fragmentos del RNA, para evitar concatemerization durante la reacción de ligadura. Por último, observamos que aunque ligasa RNA 1 se utiliza normalmente como una ligasa de RNA, también ligates eficientemente solo trenzado DNA, como lo hemos hecho aquí para ligar un adaptador en el extremo 5' de las moléculas de cDNA.

Así, A-Sec2 es un eficiente y fácil de implementar el protocolo para la identificación de sitios de procesamiento extremo 3' pre-mRNA. Desarrollos futuros podrían incluir reducir aún más la complejidad del protocolo y la cantidad de material necesario. El conjunto asociado de más herramientas de análisis de datos computacionales permiten el tratamiento homogéneo del extremo 3' secuencia de lecturas obtenidas con una amplia gama de protocolos.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Los autores agradecen la Sra. Béatrice Dimitriades para ayuda con el cultivo celular. Este trabajo fue financiado por la Fundación Nacional Suiza de ciencia becas #31003A_170216 y 51NF40_141735 (NCCR ARN & enfermedad).

Materials

Name	Company	Catalog Number	Comments
Materials
Agarose, ultra pure	Invitrogen	16500-500
2100 Bioanalyzer	Agilent	G2940CA
Cordycepin triphosphate (3’ dATP)	SIGMA	C9137
DNA low bind vials, 1.5 ml	Eppendorf	22431021
Dulbecco’s Phosphate Buffered Saline	SIGMA	D8637
Dynabeads mRNA-DIRECT Kit	Ambion	AM61012
GR-Green dye	Excellgen	EG-1071	use 1:10,000 dillution
HiSeq 2500 or NextSeq 500 next generation sequencers	Illumina	inquire with supplier
KAPA HiFi Hotstart DNA polymerase mix	KAPA/Roche	KK2602
Nuclease free water	Ambion	AM9937
Poly(A) polymerase, yeast	Thermo Fisher Scientific	74225Z25KU
Poly(A) polymerase, E.coli	New England Biolabs	M0276L
Polynucleotide kinase	Thermo Fisher Scientific	EK0032
QIAEX II Gel Extraction Kit	Qiagen	20021
QIAquick PCR Purification Kit	Qiagen	28104
QIAquick Gel Extraction Kit	Qiagen	28704
RNA ligase 1, high concentration	New England Biolabs	M0437M	includes PEG-8000
RNeasy MinElute RNA Cleanup kit	Qiagen	74204
RNase H	New England Biolabs	M0279
RNasin Plus, ribonuclease inhibitor	Promega	N2618
Superscript IV reverse transcriptase	Thermo Fisher Scientiific	18090050
Turbo DNase	Ambion	AM2238
USER enzyme mix	New England Biolabs	M5505
Dyna-Mag-2 magnetic rack	Thermo Fisher Scientific	12321D
Thermomixer C	Eppendorf	5382000015	Heated mixer with heated lid
MicroSpin columns	GE-Healthcare	27-5325-01
Name	Company	Catalog Number	Comments
Buffers
Alkaline hydrolysis buffer, 1.5 x			Mix 1 part 0.1 M Na2CO3 and 9 parts 0.1 M NaHCO3. Add EDTA to 1 mM. Adjust pH to 9.2. Store aliquots at -20 °C.
5x poly(A) polymerase buffer	Thermo Fisher Scientiific		100 mM Tris-HCl, pH 7.0, 3 mM MnCl2, 0.1 mM EDTA, 1 mM DTT, 0.5 mg/ml acetylated BSA, 50% glycerol
Biotin binding buffer			20 mM TrisCl pH 7.5, 2 M NaCl, 0.1% NP40
TEN buffer			10 mM TrisCl, pH 7.5, 1 mM EDTA, 0.02% NP40
Name	Company	Catalog Number	Sequence
Oligonucleotides according to Illumina TruSeq Small RNA Sample Prep Kits, for GA-IIx and Hiseq2000/2500 sequencers	Microsynth
revRA3 (RNA)	Microsynth		5’ amino CCUUGGCACCCGAGAAUUCCA 3’
revDA5	Microsynth		5’ amino GTTCAGAGTTCTACAGTCCGAC GATCNNNN-3’
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3' (V = G, A or C)
PCR primer forward, RP1	Microsynth		5' AATGATACGGCGACCACCGAGA TCTACACGTTCAGAGTTCTACAG TCCGA 3'
PCR primer reverse, RPI1, barcode in bold	Microsynth		5' CAAGCAGAAGACGGCATACGAG ATCGTGATGTGACTGGAGTTCCT TGGCACCCGAGAATTCCA 3'
Name	Company	Catalog Number	Comments
Oligonucleotides according to Illumina TruSeq HT-Small RNA Sample Prep Kits, for HiSeq2000/2500 and NextSeq500 sequencers
HT-rev3A (DNA/RNA)	Microsynth		5'-amino-GTGACTGGAGTTCAGACGTGTG CTCTTCCrGrAUrC-3'
HT-rev5A	Microsynth		5' amino-ACACTCTTTCCCTACACGACGCT CTTCCGATCTNNNN 3'
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3'
PCR primers forward (D501-506)	Microsynth or Illumina		5'-AATGATACGGCGACCACCGAGAT CTACAC[i5]ACACTCTTTCCCTACA CGACGCTCTTCCGATCT -3'
PCR primers reverse (D701-D712)	Microsynth or Illumina		5'-CAAGCAGAAGACGGCATACGAG A[i7]GTGACTGGAGTTCAGACGTG TGCTCTTCCGATC-3'
Documentation for Illumina multiplexing:	Illumina		https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf

DOWNLOAD MATERIALS LIST

References

Jan, C. H., Friedman, R. C., Ruby, J. G., Bartel, D. P. Formation, regulation and evolution of Caenorhabditis elegans 3'UTRs. Nature. 469 (7328), 97-101 (2011).
Spies, N., Burge, C. B., Bartel, D. P. 3' UTR-isoform choice has limited influence on the stability and translational efficiency of most mRNAs in mouse fibroblasts. Genome Res. 23 (12), 2078-2090 (2013).
Hoque, M., Ji, Z., et al. Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing. Nat. methods. 10 (2), 133-139 (2013).
Martin, G., Gruber, A. R., Keller, W., Zavolan, M. Genome-wide analysis of pre-mRNA 3’ end processing reveals a decisive role of human cleavage factor I in the regulation of 3' UTR length. Cell Rep. 1 (6), 753-763 (2012).
Gruber, A. R., Martin, G., et al. Global 3' UTR shortening has a limited effect on protein abundance in proliferating T cells. Nat. Commun. 5, 5465 (2014).
Kivioja, T., Vähärautio, A., et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat. methods. 9 (1), 72-74 (2011).
Gruber, A. J., Schmidt, R., et al. A comprehensive analysis of 3' end sequencing data sets reveals novel polyadenylation signals and the repressive role of heterogeneous ribonucleoprotein C on cleavage and polyadenylation. Genome Res. 26 (8), 1145-1159 (2016).
Lingner, J., Keller, W. 3'-end labeling of RNA with recombinant yeast poly(A) polymerase. Nucleic Acids Res. 21 (12), 2917-2920 (1993).
Quail, M. A., Kozarewa, I., et al. A large genome center's improvements to the Illumina sequencing system. Nat. methods. 5 (12), 1005-1010 (2008).
Rahmann, S. Snakemake--a scalable bioinformatics workflow engine. Bioinformatics. 28 (19), 2520-2522 (2012).
Analytics, C. Anaconda Software Distribution. , Available from: https://continuum.io (2016).
Lab, H. FASTX-Toolkit - Hannon Lab. , Available from: http://hannonlab.cshl.edu/fastx_toolkit/index.html (2017).
Dobin, A., Davis, C. A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Li, H., Handsaker, B., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
Robinson, J. T., Thorvaldsdóttir, H., et al. Integrative genomics viewer. Nat. Biotechnol. 29 (1), 24-26 (2011).
Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
Ozsolak, F., Platt, A. R., et al. Direct RNA sequencing. Nature. 461 (7265), 814-818 (2009).
Yao, C., Biesinger, J., et al. Transcriptome-wide analyses of CstF64-RNA interactions in global regulation of mRNA alternative polyadenylation. Proc. Natl. Acad. Sci. U. S. A. 109 (46), 18773-18778 (2012).
Lin, Y., Li, Z., et al. An in-depth map of polyadenylation sites in cancer. Nucleic Acids Res. 40 (17), 8460-8471 (2012).
Shepard, P. J., Choi, E. -A., Lu, J., Flanagan, L. A., Hertel, K. J., Shi, Y. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. RNA. 17 (4), 761-772 (2011).
Fu, Y., Sun, Y., et al. Differential genome-wide profiling of tandem 3' UTRs among human breast cancer and normal cells by high-throughput sequencing. Genome Res. 21 (5), 741-747 (2011).

Biology

Extremo 3' secuencia biblioteca elaboración con Sec2 A

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.