Genetics

Optimización para la secuenciación y el análisis de muestras de FFPE-ARN degradadas

Published: June 8, 2020 doi: 10.3791/61060

Yelena Levin*¹, Keyur Talsania*^1,2, Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao^1,2, Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* These authors contributed equally

Summary

Este método describe los pasos para mejorar la calidad y la cantidad de datos de secuencia que se pueden obtener a partir de muestras de ARN incrustadas de parafina fija de formalina (FFPE). Describimos la metodología para evaluar con mayor precisión la calidad de las muestras de FFPE-RNA, preparar bibliotecas de secuenciación y analizar los datos de muestras de ARN FFPE.

Abstract

El análisis de la expresión génica mediante la secuenciación de ARN (RNA-seq) permite obtener información única sobre muestras clínicas que pueden conducir potencialmente a una comprensión mecanicista de la base de diversas enfermedades, así como mecanismos de resistencia y/o susceptibilidad. Sin embargo, los tejidos FFPE, que representan el método más común para preservar la morfología tisular en muestras clínicas, no son las mejores fuentes para el análisis de perfiles de expresión génica. El ARN obtenido de tales muestras a menudo se degrada, fragmenta y se modifica químicamente, lo que conduce a bibliotecas de secuenciación subóptimas. A su vez, estos generan datos de secuencia de mala calidad que pueden no ser confiables para el análisis de expresión génica y el descubrimiento de mutaciones. Con el fin de aprovechar al máximo las muestras de FFPE y obtener los mejores datos posibles de muestras de baja calidad, es importante tomar ciertas precauciones mientras se planifica el diseño experimental, se preparan bibliotecas de secuenciación y durante el análisis de datos. Esto incluye el uso de métricas adecuadas para un control preciso de la calidad de la muestra (QC), la identificación de los mejores métodos para varios pasos durante la generación de la biblioteca de secuenciación y el control de calidad cuidadoso de la biblioteca. Además, la aplicación de herramientas y parámetros de software correctos para el análisis de datos de secuencia es fundamental para identificar artefactos en los datos de ARN-seq, filtrar la contaminación y lecturas de baja calidad, evaluar la uniformidad de la cobertura génica y medir la reproducibilidad de los perfiles de expresión génica entre réplicas biológicas. Estos pasos pueden garantizar una alta precisión y reproducibilidad para el perfilado de muestras de ARN muy heterogéneas. Aquí describimos los diversos pasos para el control de calidad de la muestra, la preparación de la biblioteca y el control de calidad, la secuenciación y el análisis de datos que pueden ayudar a aumentar la cantidad de datos útiles obtenidos de ARN de baja calidad, como el obtenido de los tejidos FFPE-RNA.

Introduction

El uso de enfoques de secuenciación de próxima generación nos ha permitido obtener una gran cantidad de información de varios tipos de muestras. Sin embargo, las muestras antiguas y mal conservadas siguen siendo inviables para los métodos de uso común para generar datos de secuencia y a menudo requieren modificaciones en protocolos bien establecidos. Los tejidos FFPE representan un tipo de muestra que ha sido ampliamente utilizado para muestras clínicas¹^,²^,³. Mientras que la preservación de FFPE mantiene la morfología tisular, los ácidos nucleicos en los tejidos FFPE generalmente exhiben una amplia gama de daño y degradación, lo que dificulta la recuperación de la información genómica que puede conducir a información importante sobre los mecanismos moleculares subyacentes a diversos trastornos.

Los datos de expresión génica generados por la secuenciación de ARN a menudo son fundamentales para estudiar los mecanismos de enfermedad y resistencia y complementan el análisis de mutaciones del ADN. Sin embargo, el ARN es más susceptible a la degradación, lo que hace más difícil generar datos precisos de expresión génica a partir de tejidos FFPE. Además, debido a que la amplia disponibilidad y asequibilidad de la secuenciación es relativamente reciente, los especímenes más antiguos a menudo no se almacenaban en condiciones necesarias para preservar la integridad del ARN. Algunos de los problemas de las muestras de FFPE incluyen la degradación del ARN debido a la incrustación en la parafina, la modificación química del ARN que conduce a la fragmentación o refractoridad a los procesos enzimáticos necesarios para la secuenciación, y la pérdida de las colas de poli-A, limitando la aplicabilidad del oligo-dT como imprimación para la transcriptasa inversa⁴. Otro desafío es la manipulación/almacenamiento de muestras de FFPE en condiciones subóptimas, lo que puede conducir a una mayor degradación de moléculas lábiles como el ARN en los tejidos^5. Esto es especialmente relevante para muestras más antiguas que pueden haber sido recogidas en un momento en que no se anticipó el análisis de expresión génica mediante secuenciación de ARN para las muestras. Todo esto conduce a una menor calidad y cantidad del ARN extraído disponible para generar datos de secuencia útiles. La baja probabilidad de éxito, combinada con el alto costo de secuenciación, ha disuadido a muchos investigadores de tratar de generar y analizar datos de expresión génica a partir de muestras de FFPE potencialmente útiles. Algunos estudios realizados en los últimos años han demostrado la usabilidad de los tejidos FFPE para el análisis de expresión génica²^,⁶^,⁷^,⁸^,⁹, aunque para menos y / o muestras más recientes.

Como estudio de viabilidad, utilizamos ARN extraído de muestras de tejido tumoral FFPE de tres repositorios de tejidos residuales de registros de cáncer de vigilancia, epidemiología y resultados finales (SEER) para la secuenciación de ARN y el análisis de expresión génica¹⁰. Adquiridos en laboratorios de patología clínica, los tejidos FFPE de adenocarcinomas monovariesos ováricos de alto grado se almacenaron de 7 a 32 años en condiciones variables antes de la extracción de ARN. Debido a que en la mayoría de los casos estos bloques se habían almacenado en diferentes sitios durante años sin la expectativa de ningún análisis genético sensible en el futuro, no se había tenido mucho cuidado para preservar los ácidos nucleicos. Por lo tanto, la mayoría de las muestras exhibieron ARN de mala calidad, con una gran proporción de muestras contaminadas con bacterias. Sin embargo, pudimos realizar la cuantificación genética, medir la uniformidad y continuidad de la cobertura génica, y realizar el análisis de correlación de Pearson entre réplicas biológicas para medir la reproducibilidad. Basándonos en un conjunto de paneles genéticos de firma clave, comparamos las muestras de nuestro estudio con los datos de The Cancer Genome Atlas (TCGA) y confirmamos que aproximadamente el 60% de las muestras tenían perfiles de expresión génica^{comparables 11}. Basándonos en la correlación entre varios resultados de control de calidad y metadatos de ejemplo, identificamos métricas clave de control de calidad que tienen un buen valor predictivo para identificar muestras que son más propensas a generar datos de secuencia utilizables¹¹.

Aquí describimos la metodología utilizada para la evaluación de la calidad del FFPE-ARN, la generación de bibliotecas de secuenciación a partir de muestras de ARN extraídos y el análisis bioinformático de los datos de secuenciación.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Evaluación de la cantidad y calidad del ARN

Seleccione las muestras FFPE según criterios predefinidos y extraiga el ARN utilizando un método adecuado (por ejemplo, kit de extracción de ácido FFPE-nuclei, Tabla de materiales).
NOTA: Hay varios métodos diferentes disponibles para la extracción de ARN FFPE, incluyendo los nuevos métodos de microdisección que pueden trabajar con muy poco tejido y extraer ARN^12,^13,^,¹⁴de buena calidad.^,
Se debe tener el máximo cuidado de preservar la integridad del ARN en todas las etapas. Esto incluye trabajar con agua desionizada libre de RNase, usar plastificería libre de RNase y limpiar todos los instrumentos que entren en contacto con los bloques FFPE con reactivos de descontaminación RNase.
El ARN siempre debe manipularse con cuidado y mantenerse en hielo a menos que se especifique lo contrario para minimizar la degradación durante el manejo.
Si hay suficiente material disponible, extraiga ARN de más de una región en el bloque FFPE para generar réplicas biológicas a partir de tantas muestras como sea posible. Para algunas de las muestras con un amplio rendimiento de ARN, divida el ARN extraído en dos para procesarlo como réplicas técnicas.
Si es posible, recoja una pequeña cantidad de muestra por separado después de la extracción de QC (es decir, una alícuota de control de calidad) para evitar la manipulación repetida y los ciclos de congelación y descongelación de la muestra que probablemente conducirán a la degradación del ARN.
Compruebe la calidad del ARN (preferiblemente de la alícuota QC) ejecutándolo en un sistema de ARN QC (por ejemplo, el sistema Agilent Bioanalyzer utilizando un chip RNA Nano, Tabla de materiales) deacuerdo con las instrucciones del fabricante.
Analice la distribución de fragmentos de ARN en las muestras (por ejemplo, utilizando el software Bioanalyzer 2100 Expert) calculando los valores DV₂₀₀ y DV₁₀₀ como el porcentaje de fragmentos de más de 200 nt (DV₂₀₀) o 100 nt (DV₁₀₀) en tamaño.
Entre DV₂₀₀ y DV₁₀₀, identificar la métrica que tiene una mayor dispersión de valores para el conjunto de muestras dado, y elegir eso para agrupar las muestras de acuerdo con su grado de intacta.
NOTA: Para conjuntos de muestras con moléculas de ARN más intactas (es decir, valores DV₂₀₀ altos, todos o la mayoría con DV₂₀₀ > 40%), DV₂₀₀ es probable que sea una métrica de control de calidad útil. Sin embargo, para conjuntos de muestras con transcripciones más degradadas (es decir, valores DV₂₀₀ bajos, todos o la mayoría con DV₂₀₀ < 40%), DV₁₀₀ es más probable que sea útil.
En función de las métricas de control de calidad, identifique las muestras que tienen DV₁₀₀ < 40%. Debido a que es muy probable que este grado de degradación no genere datos de secuenciación útiles^11,es aconsejable evitar el procesamiento de dichas muestras. Si hay reemplazos para tales muestras disponibles, su calidad debe comprobarse para incluir idealmente solo muestras con DV₁₀₀ > 50%.

2. Preparación de la biblioteca de secuenciación

Sobre la base de la calidad de las muestras evaluadas en la sección 1, identifique un método adecuado para generar las bibliotecas de secuenciación.
1. Para conjuntos de muestras con muy baja degradación y valores DV₂₀₀ altos, utilice la secuenciación de ARNm (es decir, captura de transcripciones poliadeniladas), secuenciación de ARN dirigida (es decir, uso de sondas de captura para genes específicos de interés), secuenciación de exomas de ARN (es decir, uso de sondas de captura para enriquecer para el transcriptoma de codificación) o secuenciación total de ARN (es decir, uso de imprimaciones aleatorias para la transcripción inversa para secuenciar toda la población de ARN después de eliminar la eliminación de la población ribomal de las muestras). Sin embargo, es importante tener en cuenta que el proceso de fijación puede introducir sesgo en el ARN extraído. Por lo tanto, los enfoques de captura pueden no funcionar bien en todos los casos, incluso con valores DV₂₀₀ altos.
2. Si el conjunto de muestras incluye muestras con alta degradación (DV₂₀₀ < 30%), utilice un método total de preparación de la biblioteca de ARN y no uno que dependa de la captura de regiones específicas de las transcripciones, ya que esas regiones específicas pueden faltar en muestras degradadas. El uso de imprimaciones aleatorias para la generación de ADNc conduce a una mayor representación del ARN utilizable en la biblioteca final y, por lo tanto, es más adecuado para muestras de ARN FFPE.
3. Para el agotamiento del ARN ribosomal para conjuntos de muestras con alta degradación, utilice métodos basados en RNaseH. Estos son métodos en los que las sondas de ADN específicas del ARNR se unen al ARNr, las moléculas de doble cadena son digeridas por RNaseH, y las sondas sobrantes son limpiadas por DNase (por ejemplo, kit de agotamiento de ARNN NEBNext, Tabla de materiales). Estos métodos funcionan mejor para muestras degradadas que algunos otros métodos⁸.
Para generar bibliotecas de secuenciación, utilice cantidades de entrada más altas (si es posible) para muestras que tengan ARN más degradado (DV₁₀₀ < 60%). Mientras que las muestras con ARN de calidad razonable (DV₁₀₀ > 60%) puede producir buenos datos de secuencia incluso en cantidades de entrada más bajas (la prueba más baja para este protocolo con ARN FFPE fue de 20 ng), para ARN más degradado (DV₁₀₀ < 60%), es mejor comenzar con cantidades de entrada más altas (por ejemplo, >100 ng).
NOTA: Si hay suficiente (por ejemplo, >500 ng) de muestra disponible, es aconsejable guardar al menos la mitad de la muestra para repetir la preparación de la biblioteca, si es necesario. Para muestras de entrada baja (por ejemplo, <100 ng), normalmente es mejor utilizar toda la cantidad y generar una biblioteca de suficiente diversidad.
Después de seleccionar un kit de preparación de biblioteca adecuado para generar bibliotecas de RNA seq totales a partir de muestras con alta degradación (por ejemplo, NEBNext Ultra II RNA Library Prep Kit for Illumina, ver Tabla de materiales), siga las instrucciones del fabricante para generar las bibliotecas.
NOTA: Durante la preparación de la biblioteca, es importante omitir el paso de fragmentación del ARN para muestras degradadas y asegurar el uso de imprimaciones aleatorias para la síntesis de ADNc de primera hebra.
Para mejorar la eficiencia y la velocidad, especialmente para las muestras de baja entrada, utilice bastidores magnéticos apropiados con imanes fijos fuertes para la purificación basada en cuentas y los pasos de selección de tamaño (ver Tabla de materiales).
Para el enriquecimiento de PCR del ADN ligado adaptador, ajuste el número de ciclos de amplificación en función de la cantidad de ADN de entrada para garantizar la máxima representación evitando la duplicación innecesaria de las moléculas de la biblioteca. Para muestras de ARN FFPE de baja entrada (<100 ng), recomendamos 16–18 ciclos de amplificación, mientras que las muestras de entrada alta (1.000 ng) suelen generar suficientes cantidades de biblioteca en 12-14 rondas de amplificación.
Después de la amplificación y limpieza de PCR según las instrucciones del fabricante, evalúe la calidad de la biblioteca mediante el análisis de la concentración de la biblioteca y la distribución de moléculas en una plataforma adecuada (por ejemplo, Agilent Bioanalyzer DNA Chip, ver Tabla de materiales). Para muestras con picos de imprimación (80 bp) o picos de adaptador-dimer (128 bp), repita la limpieza para eliminar esos picos.
Calcule el tamaño medio de la biblioteca para cada biblioteca (por ejemplo, utilizando el software Bioanalyzer 2100 Expert).

3. Secuenciación de la biblioteca QC

Una vez comprobado que las bibliotecas están libres de exceso de imprimación y adaptador-dimers y tienen suficiente concentración para la secuenciación posterior, cantidad adicional por qPCR.
NOTA: Debido a la sensibilidad de la generación de racimos hacia la concentración de la biblioteca, la cuantificación precisa es vital para evitar que las costosas ejecuciones de secuenciación se vean con un bajo rendimiento o una sobrecarga. Los métodos cuantitativos de PCR en tiempo real (qPCR) son útiles para mejorar la densidad de clústeres en plataformas Illumina sin dar lugar a sobreclustering. El método qPCR es más preciso y más sensible que los métodos basados en el análisis cualitativo y/o cuantitativo de todas las moléculas de la biblioteca (por ejemplo, Agilent Bioanalyzer), ya que mide las plantillas que tienen ambas secuencias de adaptadores en cada extremo que formarán clústeres en la célula de flujo. Sin embargo, el tamaño de la biblioteca debe conocerse de antemano, ya que se debe aplicar una corrección de tamaño a todas las muestras para que los resultados se puedan comparar con una curva estándar.
ADVERTENCIA: Los abrigos y guantes de laboratorio siempre deben usarse al realizar qPCR, y el procedimiento debe realizarse en un gabinete de bioseguridad siguiendo las instrucciones del fabricante.
1. Configure una placa de 96 pozos con tres réplicas para cada muestra para la prevención de errores utilizando un kit adecuado (por ejemplo, KAPA SYBR FAST qPCR Master Mix for Illumina libraries, una parte del kit de cuantificación de bibliotecas, véase Tabla de materiales),junto con los estándares, un control positivo (por ejemplo, control PhiX, véase Tabla de materiales)y un control sin plantilla (NTC). El NTC es qPCR mezcla sin biblioteca de ADN. El control positivo puede ser cualquier biblioteca con concentración conocida y tamaño de fragmento.
  1. Prepare un mínimo de seis diluciones de los estándares siguiendo el protocolo de proveedor.
2. Después de añadir todos los componentes (es decir, mezcla maestra qPCR, bibliotecas, estándares), cubra la placa con película de sellado y utilice una escobilla para asegurarse de que la película hace contacto uniforme y seguro con la placa.
3. Vórtice y gire hacia abajo la placa a 1.500 rpm durante al menos 1 min. Inspeccione visualmente la placa para asegurarse de que no haya burbujas de aire en la parte inferior de los pozos.
4. Configure la placa en el ciclor térmico (por ejemplo, CFX96 Touch System, consulte Tabla de materiales) utilizando los ajustes recomendados por el fabricante.
5. Guarde la carpeta de ejecución a la que se puede acceder para el análisis de datos.
6. Durante el análisis de datos, compruebe que la pendiente está en el rango de -3,1 a -3,6, la eficiencia del 90% al 110% y la R² (coeficiente de correlación obtenida para la curva estándar) no inferior a 0,98.
Agrupación: Una vez que se obtiene la concentración qPCR de las bibliotecas listas para secuenciación, la agrupación de cantidades equimolares de cada una de las bibliotecas, dependiendo del número de lecturas de secuenciación requeridas por muestra y la salida de secuenciación del instrumento.
QC de las agrupaciones: Cantidadar las agrupaciones de bibliotecas de nuevo por qPCR siguiendo el mismo protocolo como se describe en el paso 3.1.

4. Secuenciación

Dependiendo de los parámetros de ejecución, tire de los kits de secuenciación de reactivos y descongelarlos siguiendo la guía del usuario. Consulte el sitio web de Illumina para ver las últimas versiones de todas las guías de usuario para la secuenciación de instrumentos Illumina.
Asegúrese de que los reactivos estén completamente descongelados y coloque la bandeja de reactivos a 4 oC. La carrera debe iniciarse a más tardar 2 h después de que los reactivos se hayan descongelado. No hacerlo podría afectar a la calidad de los resultados de la ejecución.
Invierta el cartucho 5x para mezclar reactivos y toque suavemente en el banco para reducir las burbujas de aire.
Deje el paquete de celda de flujo sin envolver a temperatura ambiente durante 30 min.
Desenvuelva el paquete de celda de flujo y limpie la superficie de vidrio de la celda de flujo con una toallita de alcohol sin pelusas. Seque el vaso con un tejido de laboratorio de baja pelusa.
Abra la aplicación Illumina "Experiment Manager". Elija "Crear hoja de muestra", a continuación, elija el secuenciador y haga clic en "Siguiente".
Cree y cargue la hoja de muestra en función de los criterios del secuenciador de Illumina (por ejemplo, Illumina Experiment Manager, guía de software).
En las indicaciones, escanee en el código de barras del kit de reactivos e introduzca la ejecución de parámetros de configuración (por ejemplo, para una única ejecución de ciclo PE 75 indexada, escriba 76-8-76).
Desnaturalizar y diluir el grupo de bibliotecas en función de la recomendación de la guía del usuario del secuenciador (por ejemplo, NextSeq 500 System guide from Illumina, ver Tabla de materiales).
Desnaturalizar y diluir la biblioteca de control PhiX (ver Tabla de materiales)a la concentración adecuada (por ejemplo, 1,8 pM para NextSeq).
Mezcle la biblioteca de muestras y el control PhiX para dar como resultado una relación de volumen de control PhiX del 1%.
Cargue la muestra desnaturalada y diluida en el cartucho de reactivo en el depósito designado.
Cargue la celda de flujo, el cartucho de búfer y el cartucho de reactivo.
Realice una comprobación y revisión automatizadas para asegurarse de que los parámetros de ejecución pasan la comprobación del sistema.
Una vez completada la comprobación automatizada, seleccione Iniciar para iniciar la ejecución de secuenciación.

5. Análisis de datos y evaluación de la calidad

NOTA: Un flujo de trabajo de análisis de datos típico de ARN-seq (Figura 1) incluye preprocesamiento y control de calidad, alineación con el genoma y la alineación posterior QC, cuantificación de genes y transcripciones, análisis de correlación de muestras, análisis diferencial entre diferentes grupos de muestras, condiciones de tratamiento y enriquecimiento de conjuntos genéticos y análisis de vías.

Los datos de ARN-seq pueden tener problemas de calidad que pueden afectar a la precisión del perfilado de genes y conducir a conclusiones erróneas. Por lo tanto, las comprobaciones iniciales de control de calidad para la secuenciación, la contaminación, el sesgo de cobertura de secuenciación y otras fuentes de artefactos son muy importantes. Se recomienda aplicar una canalización de QC de ARN-Seq similar al flujo de trabajo descrito aquí para detectar artefactos y aplicar filtrado o corrección antes del análisis posterior.

Preprocesamiento
NOTA: Esto incluye desmultiplexación, evaluación de la calidad de lectura de secuencia, contenido de GC, presencia de adaptadores de secuenciación, k-mers sobrerrepresentados y lecturas duplicadas de PCR. Esta información ayuda a detectar errores de secuenciación, artefactos de PCR o contaminación.
1. La secuenciación de Demultiplex Illumina se ejecuta utilizando la herramienta de software Illumina bcl2fastq2 para generar archivos FASTQ sin procesar para cada muestra definida en la hoja de muestra. Permita que una discordancia en los códigos de barras del índice de muestra tolere errores de secuenciación si no hay colisión de código de barras.
2. Ejecute la herramienta de software FASTQC¹⁵ para realizar una comprobación de calidad en archivos FASTQ sin procesar para detectar cualquier mala calidad o anomalías en las lecturas de secuenciación.
3. Para el recorte de bases de adaptador y baja calidad, recorte los adaptadores de secuenciación y las bases de baja calidad con herramientas de software Cutadapt¹⁶ o Trimmomatic^17. Guarde las lecturas recortadas en los archivos fastq del par.
4. Pantalla de contaminación
  1. Ejecute FASTQ_screen¹⁸ para detectar una posible contaminación cruzada con otras especies.
  2. Ejecute miniKraken de Kraken2¹⁹ para identificar las taxonomías de las especies contaminantes.
Alineación con el genoma de referencia y el control de calidad posterior a la alineación
1. Las lecturas recortadas se pueden alinear con una secuencia del genoma de referencia (GRCh Build hg19 o hg38) utilizando el alineador STAR²⁰. Aplique el archivo GTF de anotación Gencode para guiar la alineación de transcripción empalmada. Se recomienda ejecutar STAR 2-pass para aumentar la sensibilidad a nuevas uniones de empalme. En el segundo paso, todas las lecturas serán reasignadas usando genes anotados y transcripciones y nuevos cruces desde el primer paso.
2. Realice el control de calidad posterior a la alineación.
  1. Ejecute²¹MarkDuplicates de Picard para evaluar la complejidad de la biblioteca determinando la cantidad de lecturas únicas o no duplicadas en los ejemplos.
  2. Ejecute el programa CollectRnaSeqMetrics de Picard para recopilar porcentajes de mapeo sobre la codificación, las regiones intrónicas, intergénicas, las regiones UTR y la cobertura del cuerpo del gen.
  3. Ejecute RSeQC²² para determinar la distancia interna del par de lectura, la distribución de lectura entre exones CDS, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, leer contenido de GC, saturación de cruces e información de hilo de biblioteca.
  4. Ejecute multi-QC²³ para generar un informe agregado en formato HTML.
Análisis de cuantificación y corrección de genes
1. Ejecute RSEM²⁴ para obtener recuento bruto, así como recuento de lectura normalizado en genes y transcripciones. La medición del recuento de lecturas, como RPKM (lecturas por kilobase del modelo exón por millón de lecturas), FPKM (fragmentos por kilobase del modelo exón por millón de lecturas asignadas) y TPM (transcripciones por millón) son los valores de expresión del gen arn-seq notificados con mayor frecuencia. Los genes expresados por debajo de un umbral noizado (como TPM < 1 o recuento sin procesar <5) se pueden filtrar.
2. Realice la cuantificación de transcripciones para agregar recuentos sin procesar de lecturas asignadas a cada secuencia de transcripción mediante programas como HTSeq-count o featureCounts.
3. Ejecute Análisis de componentes principales (PCA) mediante un script de R para determinar los efectos por lotes y evaluar un mapa de calidad del conjunto de datos^{especificado 25}. El análisis de correlación de muestras se puede llevar a cabo utilizando la correlación de Pearson entre diferentes métricas.
Análisis de expresión génica diferencial
1. Realizar análisis diferenciales genéticos entre las condiciones de la muestra utilizando el programa edgeR²⁶^,²⁷ y/o limma-Voom²⁸ y utilizar métodos de normalización como TPM, TMM, DESeqo UpperQuartile.
2. Se recomienda ejecutar al menos dos herramientas de software de análisis diferencial para llamar a dos conjuntos de listas de DEG para la comparación y obtener los DEG finales para mejorar la sensibilidad y precisión de la detección.
Enriquecimiento de conjuntos genéticos y análisis de caminos
1. Realizar análisis de enriquecimiento de conjuntos genéticos (GSEA)²⁹^,³⁰ basado en la clasificación de las transcripciones de acuerdo con una lista de medición de genes expresados diferencialmente (DEG) para determinar si los DEG muestran diferencias concordantes estadísticamente significativas entre las condiciones biológicas.
2. Realice análisis de funciones utilizando recursos como Gene Ontology^31, DAVID^32,^,³³u otras herramientas de software disponibles.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La metodología descrita anteriormente se aplicó a 67 muestras de FFPE que se habían almacenado en una variedad de condiciones diferentes durante 7 a 32 años (la mediana de tiempo de almacenamiento de muestras fue de 17,5 años). Los resultados del conjunto de datos y el análisis presentados aquí fueron descritos y publicados previamente en Zhao et al.¹¹. Al comprobar la calidad de la muestra como se describió anteriormente (es decir, los seguimientos de ejemplo en la Figura 2),DV₁₀₀ se encontró más útil que DV₂₀₀ porque es más sensible medir con precisión la proporción de tamaños de fragmentos más pequeños para muestras de ARN altamente degradadas.

En el conjunto de muestras dado, menos del 10% de las muestras (7 de 67) estaban por encima del DV₂₀₀ cortado del 30%, según lo recomendado por Illumina³⁴. Alrededor del 26% de las muestras (19 de 67) tenían un DV₁₀₀ > 60% (es decir, mayor probabilidad de generar buenos datos de secuencia), el 40% (27 de 67) estaban en el rango del 40%-60% para DV₁₀₀ (es decir, aceptable, pero con una menor probabilidad de generar buenos datos de secuencia), y alrededor del 10% (7 de 67) tenía un DV₁₀₀ de <40% (es decir, muy baja probabilidad de dar como resultado buenos datos de secuencia). Para 14 de 67 muestras, el software no pudo determinar los valores DV. La Tabla 1 muestra un resumen de las métricas de control de calidad para las muestras en diferentes categorías DV_100. Para un análisis detallado de QC y correlación de datos para las 67 muestras, consulte Zhao et al.¹¹.

Dado el alto grado de degradación en el conjunto de muestras, se eligió un método de preparación de la biblioteca de ARN total, y se prepararon bibliotecas de secuenciación utilizando el kit de preparación de la biblioteca de ARN NEBNext Ultra II para Illumina (Tabla de materiales). Con el fin de mejorar la representación de las bibliotecas de secuenciación a pesar del alto grado de degradación de la muestra, se utilizó la cantidad máxima posible de ARN (1.000 ng cuando está disponible) como entrada para la preparación de la biblioteca. Además, la alta degradación de las muestras de ARN FFPE requirió el método de agotamiento del ARN, porque es probable que las transcripciones degradadas no tuvieran las colas de poli-A para la captura de ARNm. Tras el agotamiento del ARN ribosomal por hibridación a sondas específicas y la digestión de las transcripciones hibridadas utilizando RNaseH, las transcripciones restantes se convirtieron en ADNnr utilizando imprimaciones aleatorias. También se evitó la selección de tamaño para las bibliotecas preparadas a partir de muestras de entrada más bajas. Los seguimientos de ejemplo de las bibliotecas finales se muestran en la Figura 3.

Las muestras de FFPE altamente degradadas representan un gran desafío para el perfilado de expresión génica en muestras de tumores. Por lo tanto, la aplicación de métodos de análisis bioinformáticos y herramientas de software correctos es fundamental para detectar artefactos o anomalías en conjuntos de datos para garantizar una alta precisión y reproducibilidad de la cuantificación genética. Las herramientas de software utilizadas en este estudio se enumeran en la Tabla suplementaria. En el conjunto de muestras dado, realizamos la secuenciación y la evaluación de la calidad de la biblioteca, con algunas métricas de ejemplo que se muestran en la figura 4. En la Figura 4A y la Figura 4B , respectivamente, se muestra información general sobre la calidad de secuenciación de archivos fastq sin procesar y el contenido del adaptador deejemplo. La pantalla Fastqc puede ayudar a detectar la contaminación, como la contaminación bacteriana y del ratón, en las muestras como se muestra en la Figura 4C. En el conjunto de muestras dado, 41 de 67 muestras tenían una contaminación bacteriana del 5% al 48%, y seis muestras tenían una contaminación de ratón del 4% al 11%(Figura 4C). Los resultados de la alineación DE STAR (Figura 4D) mostraron la proporción de lecturas asignadas al genoma de referencia, el porcentaje de lecturas asignadas de forma única al genoma de referencia y la proporción de lecturas que no se asignaron ni asignaron a varios loci. Picard CollectRNAStatistics se utilizó para determinar el porcentaje de mRNA, intronic, y bases intergénicas presentes en los archivos de alineación (Figura 4E). Con el fin de evaluar la uniformidad de la cobertura de lectura en genes y transcripciones, utilizamos la herramienta de software Picard para generar una gráfica de cobertura corporal genética, que mide el porcentaje de lecturas que cubren cada posición de nucleótido de todos los genes escalados en contenedores de 5o UTR a 3o UTR. La figura 4F muestra que algunas bibliotecas degradadas tenían un sesgo de 3', donde más lecturas se asignan más cerca del extremo de 3' que del extremo de 5'.

Las muestras de FFPE suelen tener una gran variabilidad en los perfiles de expresión génica que pueden surgir debido a la degradación variable durante el almacenamiento de muestras, la extracción de ARN o el procesamiento de muestras. Es importante utilizar métodos estadísticos adecuados para descubrir los patrones subyacentes y medir la variación y correlación entre las muestras. Aplicamos el Análisis de Componentes Principales (PCA) para seis pares de réplicas biológicas de un subconjunto de las 67 muestras de FFPE. Una gráfica de PCA mostró que el 26% de la variación total fue capturado por el primer componente principal y el 19% del segundo y tercer componente combinado (Figura 5). Entre los seis pares de réplicas, dos pares de réplicas tenían variaciones más altas (correlaciones por debajo de 0,22) que las últimas cuatro muestras (valores de correlación entre 0,7-0,8) al comparar los valores de expresión génica entre los pares de réplicas. Debido a que las réplicas se generaron mediante la extracción de ARN de dos rizos de tejido diferentes cortados de los mismos bloques FFPE, la edad del tejido no fue un factor en la varianza más alta aquí, y probablemente fue causada por la diferente cantidad de contaminación bacteriana (1%–55%) así como diferentes contenidos de ARNm (diferencia de 2-3 veces) entre las réplicas. La aleatoriedad de la degradación del ARNm después de la extracción también podría contribuir a la mayor varianza entre muestras de origen similar.

Figura 1: Flujo de trabajo de análisis RNaseq. El diagrama de flujo describe los pasos de análisis para el preprocesamiento, la evaluación de la calidad, el mapeo a referencia, la cuantificación genética y el análisis diferencial entre diferentes grupos de muestras. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Ejemplo de rastros de bioanalizador de seis muestras diferentes de FFPE-ARN. El eje horizontal denota el peso molecular (bp) y las unidades de fluorescencia (FU) y el eje vertical muestra la concentración de fragmentos de diferentes tamaños. Los valores de los números de integridad de ARN (RIN), DV₂₀₀ (es decir, porcentaje de fragmentos >200 bp) y DV₁₀₀ (es decir, porcentaje de fragmentos >100 bp) se indican en cada perfil. Un pico de 25 bp en cada perfil indica el marcador de peso molecular. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Ejemplo de rastros de Bioanalyzer de bibliotecas finales preparadas a partir de cuatro muestras diferentes. El eje horizontal denota que las unidades de peso molecular (bp) y fluorescencia (FU) en el eje vertical indican la concentración de fragmentos de diferentes tamaños. Los picos inferiores (35 bp o 50 bp) y superiores (10.380 bp) están etiquetados en verde y púrpura, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Ejemplo de informe multi-QC para el preprocesamiento de resultados de control de calidad. (A) Gráfico de líneas que muestra los porcentajes de bases Q30 de todas las lecturas de secuenciación en cada muestra. (B) Contenido del adaptador de secuenciación en archivos fastq sin procesar. (C) Pantalla de contaminación para comprobar las especies coincidentes. (D) Estadísticas de mapeo del genoma. (E) Leer distribución basada en la anotación del gen Gencode. (F) Cobertura del cuerpo del gen/transcripción Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Ejemplo de análisis de PCA para mostrar la concordancia del grupo de muestras. Análisis de PCA para réplicas biológicas. Trazado PCA con muestras trazadas en dos dimensiones utilizando sus proyecciones sobre los dos primeros componentes principales. Las réplicas biológicas se muestran en el mismo color. Haga clic aquí para ver una versión más grande de esta figura.

	Número de muestras	Entrada mediana para la preparación de lib (ng)	Mediana RIN	Mediana DV₂₀₀	Mediana DV₁₀₀	Tamaño medio Lib (bp)	Rendimiento de Lib Mediana (ng)	Mediana de molaridad Lib (nM)	Tiempo medio de almacenamiento de muestras (Años)	Mediana % de contaminación	Recuento medio de genes
DV100 <40%	7	237.6	2.5	6	34	445	24.5	7	22	27.4	14,759
DV100 40-60%	27	1000	2.5	12	51	408	19.8	5.9	18	9.9	10,202
DV100 >60%	19	1000	2.3	26	73	355	84.9	24	13	3.2	9,993

Tabla 1: Resumen de las métricas de control de calidad del conjunto de muestras. La tabla muestra las métricas de control de calidad de los ejemplos, agrupadas según sus valores DV_100. Se muestra el número de muestras de cada grupo y se muestran los valores medios de cada métrica.

Tabla complementaria: Herramientas de software de análisis, parámetros y referencia de software. La tabla enumera las herramientas de software de análisis y los parámetros utilizados en cada paso del análisis RNA-seq. Las referencias de herramientas de software se enumeran en la tabla. Haga clic aquí para descargar esta tabla.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

El método descrito aquí describe los pasos principales necesarios para obtener buenos datos de secuencia de muestras de ARN FFPE. Los principales puntos a tener en cuenta con este método son: (1) Asegúrese de que el ARN se conserva lo mejor posible después de la extracción minimizando el manejo de la muestra y los ciclos de congelación y descongelación. Las alícuotas de control de calidad separadas son muy útiles. (2) Utilice una métrica de control de calidad que sea mejor para el conjunto de muestras dado. Los valores RIN y DV₂₀₀ a menudo no son útiles para muestras degradadas, y DV₁₀₀ puede ser la métrica de elección para evaluar la calidad en un conjunto de muestras determinado. (3) Para muestras más degradadas, lo mejor es utilizar una entrada de muestra alta. Mayores cantidades de entrada conducen a una mejor diversidad y menor duplicación en la biblioteca final, lo que conduce a una mejor calidad de los datos. Debido a que no todo el ARN en las muestras de ARN FFPE es utilizable debido a la alta degradación y refractoridad a los procesos enzimáticos, estos efectos son más pronunciados en el ARN FFPE en comparación con el ARN congelado fresco. (4) Utilice el cebado aleatorio para el paso de transcripción inversa en lugar del uso de oligo-dT o secuencias específicas como imprimaciones. A menos que el conjunto de sondas específicas sea capaz de cubrir tanta secuencia como sea posible para todas las transcripciones de interés, las imprimaciones aleatorias son una apuesta segura para asegurar la conversión de un número máximo de transcripciones (o fragmentos de las mismas) en ADNr. Por lo tanto, los métodos de preparación de la biblioteca de ARN total son más útiles para las muestras degradadas que los métodos de ARNm, que se basan en la presencia de colas poli-A. (5) La cuantificación precisa de las bibliotecas por PCR cuantitativa en tiempo real (qPCR) es importante para evitar el bajo rendimiento o la sobrecarga de los secuenciadores. (6) Evaluar la posible contaminación del ARN como parte de los protocolos estándar posterior a la secuenciación de RNA-Seq QC. La contaminación bacteriana y la contaminación del ADN genómico son comunes para las muestras de FFPE debido a las condiciones de almacenamiento y los procedimientos de preparación de muestras. Las muestras contaminadas con especies extrañas pueden desperdiciar la cobertura de secuenciación, dependiendo del grado de contaminación. Además, la contaminación interna puede surgir del agotamiento incompleto del ARNR, lo que lleva a un alto porcentaje de lecturas que se mapean a los ARNR. La eliminación ineficiente del ADN genómico durante la digestión de DNase podría conducir a la detección de expresiones positivas falsas de transcripciones o al ensamblaje erróneo de las transcripciones. La contaminación del adaptador introducida durante la preparación de la biblioteca también es un problema común para los ARN altamente degradados con fragmentos de ARN muy cortos. La contaminación puede afectar la precisión del perfil de genes y transcripciones y conducir a un descubrimiento falso. Por lo tanto, es importante identificar con precisión las fuentes de contaminación y eliminar la contaminación, si es posible, durante los pasos de preparación de la muestra o biblioteca, o filtrar las lecturas contaminantes durante la etapa de procesamiento de datos. (7) El preprocesamiento y el control de calidad posterior a la alineación son importantes para detectar muestras de mala calidad y bajo contenido de ARNm. Esas muestras deben eliminarse de un análisis posterior. Los datos de expresión génica de muestras que generan recuentos de genes bajos, la cobertura deficiente debe utilizarse con precaución. (8) Es una buena práctica incluir réplicas biológicas para medir la varianza y correlación de muestras para garantizar la reproducibilidad de los datos.

Las muestras de FFPE representan un recurso muy valioso para un gran número de enfermedades. La capacidad de obtener información de secuencia confiable de tales muestras ayudaría a una gran cantidad de estudios dirigidos a entender los mecanismos moleculares detrás de diversos trastornos, resistencia y susceptibilidad. Aunque las limitaciones impuestas por la calidad frecuentemente subóptima del ARN extraído de tales muestras obstaculizan esos esfuerzos, los pasos descritos aquí ayudan a mitigar esas limitaciones en cierta medida y nos permiten aprovechar al máximo el ARN FFPE para obtener información fiable sobre la expresión génica.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Este trabajo fue financiado por el Instituto Nacional del Cáncer (NCI), Institutos Nacionales de Salud (NIH). Leidos Biomedical Research, Inc. es el contratista de operaciones y soporte técnico para el Laboratorio Nacional Frederick para la Investigación del Cáncer que está totalmente financiado por NIH. Varios autores (YZ, MM, KT, YL, JS, BT) están afiliados a Leidos Biomedical Research, Inc., pero todos los autores están totalmente financiados por el Instituto Nacional del Cáncer, incluidos los salarios de los autores y materiales de investigación. Leidos Biomedical Research, Inc. no proporcionó salario para los autores (YZ, MM, KT, YL, JS, BT) ni material para el estudio, ni tuvo ningún papel en el diseño del estudio, la recopilación de datos, el análisis, la decisión de publicar o la preparación del manuscrito.

Acknowledgments

Estamos agradecidos a la Dra. Danielle Carrick (División de Control del Cáncer y Ciencias de la Población, Instituto Nacional del Cáncer) por su ayuda continua, especialmente para iniciar este estudio, proporcionarnos las muestras, y por sugerencias útiles durante el análisis de datos. Agradecemos sinceramente a todos los miembros del Centro de Secuenciación de CCR en el Laboratorio Nacional Frederick para la Investigación del Cáncer por su ayuda durante la preparación y secuenciación de muestras, especialmente a Brenda Ho por su ayuda en la muestra de control de calidad, Oksana Alemán para la biblioteca QC, Tatyana Smirnova para ejecutar los secuenciadores. También nos gustaría agradecer a Tsai-wei Shen y Ashley Walton en Sequencing Facility Bioinformatics Group por ayudar con el análisis de datos y la implementación del oleoducto RNA-seq. También agradecemos a CCBR y NCBR por la asistencia con el desarrollo de la canalización de análisis de RNaseq y las mejores prácticas.

Materials

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871