Genetics

Optimisation du séquençage et de l’analyse des échantillons d’ARN FFPE dégradés

Published: June 8, 2020 doi: 10.3791/61060

Yelena Levin*¹, Keyur Talsania*^1,2, Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao^1,2, Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* These authors contributed equally

Summary

Cette méthode décrit les étapes pour améliorer la qualité et la quantité de données de séquence qui peuvent être obtenues à partir d’échantillons d’ARN formalin-fixes paraffin-embedded (FFPE). Nous décrivons la méthodologie pour évaluer plus précisément la qualité des échantillons FFPE-ARN, préparer des bibliothèques de séquençage et analyser les données des échantillons FFPE-ARN.

Abstract

L’analyse de l’expression génique par séquençage de l’ARN (ARN-seq) permet un aperçu unique des échantillons cliniques qui peuvent potentiellement mener à une compréhension mécaniste de la base de diverses maladies ainsi que des mécanismes de résistance et/ou de susceptibilité. Cependant, les tissus ffPE, qui représentent la méthode la plus commune pour préserver la morphologie des tissus dans les spécimens cliniques, ne sont pas les meilleures sources pour l’analyse de profilage d’expression génique. L’ARN obtenu à partir de tels échantillons est souvent dégradé, fragmenté et chimiquement modifié, ce qui conduit à des bibliothèques de séquençage sous-optimales. À leur tour, ceux-ci génèrent des données de séquence de mauvaise qualité qui peuvent ne pas être fiables pour l’analyse de l’expression des gènes et la découverte de la mutation. Afin de tirer le meilleur parti des échantillons de la FFPE et d’obtenir les meilleures données possibles à partir d’échantillons de mauvaise qualité, il est important de prendre certaines précautions tout en planifiant la conception expérimentale, en préparant les bibliothèques de séquençage et lors de l’analyse des données. Cela comprend l’utilisation de mesures appropriées pour un contrôle précis de la qualité de l’échantillon (QC), l’identification des meilleures méthodes pour diverses étapes au cours de la génération de bibliothèque de séquençage, et la bibliothèque soigneuse QC. En outre, l’application d’outils logiciels et de paramètres corrects pour l’analyse des données de séquence est essentielle afin d’identifier les artefacts dans les données ARN-seq, filtrer la contamination et les lectures de faible qualité, évaluer l’uniformité de la couverture génétique et mesurer la reproductibilité des profils d’expression génique parmi les répliques biologiques. Ces étapes peuvent assurer une grande précision et une reproductibilité pour le profilage d’échantillons d’ARN très hétérogènes. Ici, nous décrivons les différentes étapes pour l’échantillon QC, la préparation de bibliothèque et QC, le séquençage, et l’analyse de données qui peuvent aider à augmenter la quantité de données utiles obtenues à partir de l’ARN de mauvaise qualité, comme celui obtenu à partir de tissus FFPE-ARN.

Introduction

L’utilisation d’approches de séquençage de nouvelle génération nous a permis de glaner une mine d’informations provenant de divers types d’échantillons. Cependant, les échantillons anciens et mal conservés restent inapplicables pour les méthodes couramment utilisées pour générer des données de séquence et nécessitent souvent des modifications à des protocoles bien établis. Les tissus FFPE représentent un tel type d’échantillon qui a été largement utilisé pour les spécimens cliniques¹^,²^,³. Tandis que la préservation de FFPE maintient la morphologie de tissu, les acides nucléiques dans les tissus de FFPE présentent habituellement un large éventail de dommages et de dégradation, rendant difficile de récupérer l’information génomique qui peut mener aux informations importantes au sujet des mécanismes moléculaires sous-jacents à divers désordres.

Les données d’expression génique générées par le séquençage de l’ARN sont souvent déterminantes dans l’étude des mécanismes de maladie et de résistance et complètent l’analyse de mutation de l’ADN. Cependant, l’ARN est plus sensible à la dégradation, ce qui rend plus difficile de générer des données précises d’expression génique à partir de tissus FFPE. De plus, étant donné que la grande disponibilité et l’abordabilité du séquençage sont relativement récentes, les spécimens plus anciens n’étaient souvent pas entreposés dans des conditions nécessaires pour préserver l’intégrité de l’ARN. Certains des problèmes pour les échantillons ffPE comprennent la dégradation de l’ARN due à l’intégration dans la paraffine, la modification chimique de l’ARN conduisant à la fragmentation ou la réfractabilité aux processus enzymatiques nécessaires pour le séquençage, et la perte des queues poly-A, limitant l’applicabilité de l’oligo-dT comme amorce pour la transcriptase inverse⁴. Un autre défi est la manipulation /stockage des échantillons FFPE dans des conditions sous-optimales, ce qui peut conduire à une dégradation supplémentaire des molécules de laboratoire telles que l’ARN dans les tissus⁵. Ceci est particulièrement pertinent pour les échantillons plus anciens qui peuvent avoir été prélevés à un moment où l’analyse de l’expression génique par séquençage de l’ARN n’était pas prévue pour les échantillons. Tous ces éléments conduisent à une diminution de la qualité et de la quantité de l’ARN extrait disponible pour générer des données de séquence utiles. La faible probabilité de succès, combinée au coût élevé du séquençage, a dissuadé de nombreux chercheurs d’essayer de générer et d’analyser les données sur l’expression des gènes à partir d’échantillons potentiellement utiles de la FFPE. Certaines études menées ces dernières années ont démontré la facilité d’utilisation des tissus FFPE pour l’analyse de l’expression génique²^,⁶^,⁷^,⁸^,⁹, mais pour des échantillons moins nombreux et/ou plus récents.

Comme étude de faisabilité, nous avons utilisé l’ARN extrait des spécimens de tissu tumoral FFPE de trois dépôts de tissus résiduels de surveillance, d’épidémiologie et de résultats finaux (SEER) registres du cancer pour le séquençage de l’ARN et l’analyse de l’expression génique¹⁰. Achetés des laboratoires cliniques de pathologie, les tissus de FFPE des adénocarcinomes séreux ovariens de haute qualité ont été stockés de 7 à 32 ans dans des conditions variables avant l’extraction d’ARN. Parce que dans la plupart des cas, ces blocs avaient été stockés dans différents sites pendant des années sans attendre une analyse génétique sensible à l’avenir, peu de soin n’avait été pris pour préserver les acides nucléiques. Ainsi, la plupart des échantillons présentaient de l’ARN de mauvaise qualité, avec une grande proportion d’échantillons contaminés par des bactéries. Néanmoins, nous avons été en mesure d’effectuer la quantification des gènes, de mesurer l’uniformité et la continuité de la couverture génétique et d’effectuer l’analyse de corrélation Pearson entre les répliques biologiques pour mesurer la reproductibilité. Sur la base d’un ensemble de panneaux génétiques de signature clé, nous avons comparé les échantillons de notre étude avec les données de l’Atlas du génome du cancer (TCGA) et confirmé qu’environ 60 % des échantillons avaient des profils d’expression génique^{comparables 11}. En nous basant sur la corrélation entre les divers résultats de QC et les métadonnées de l’échantillon, nous avons identifié des mesures clés de QC qui ont une bonne valeur prédictive pour identifier les échantillons qui sont plus susceptibles de générer des données de séquence utilisables¹¹.

Ici, nous décrivons la méthodologie utilisée pour l’évaluation de la qualité de l’ARN FFPE, la génération de bibliothèques de séquençage à partir d’échantillons d’ARN extraits, et l’analyse bioinformatique des données de séquençage.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Évaluation de la quantité et de la qualité de l’ARN

Sélectionnez les échantillons FFPE selon des critères prédéfinis et extrayez l’ARN selon une méthode appropriée (p. ex., kit d’extraction d’acide FFPE-nuclei, Tableau des matériaux).
REMARQUE: Il existe plusieurs méthodes différentes disponibles pour l’extraction FFPE-ARN, y compris les méthodes de microdissection plus récentes qui peuvent travailler avec très peu de tissu et d’extraire l’ARN de bonne qualité¹²^,¹³^,¹⁴.
Il faut faire le plus grand soin de préserver l’intégrité de l’ARN à toutes les étapes. Il s’agit notamment de travailler avec de l’eau déionisée gratuite RNase, d’utiliser des plastiques sans RNase, et de nettoyer tous les instruments qui entrent en contact avec les blocs FFPE avec des réactifs de décontamination RNase.
L’ARN doit toujours être manipulé avec soin et conservé dans la glace à moins qu’il ne soit spécifié autrement pour minimiser la dégradation pendant la manipulation.
Si suffisamment de matériel est disponible, extraire l’ARN de plus d’une région du bloc FFPE pour générer des répliques biologiques à partir du plus grand nombre possible d’échantillons. Pour certains des échantillons avec un rendement suffisant d’ARN, divisez l’ARN extrait en deux pour traiter comme réplique technique.
Si possible, recueillir une petite quantité d’échantillon séparément après l’extraction pour QC (c.-à-d., un aliquot DE QC) pour éviter les cycles répétés de manipulation et de gel-dégel de l’échantillon qui mèneront probablement à la dégradation de l’ARN.
Vérifiez la qualité de l’ARN (de préférence à partir de l’aliquot QC) en l’exécutant sur un système d’ARN QC (p. ex., système Agilent Bioanalyzer à l’aide d’une puce Nano ARN, Tableau des matériaux)selon les instructions du fabricant.
Analyser la distribution de fragments d’ARN dans les échantillons (p. ex., à l’aide du logiciel Bioanalyzer 2100 Expert) en calculant les valeurs DV₂₀₀ et DV₁₀₀ comme le pourcentage de fragments de plus de 200 nt (DV₂₀₀) ou 100 nt (DV₁₀₀) de taille.
Parmi DV₂₀₀ et DV₁₀₀, identifier la mesure qui a une plus grande propagation des valeurs pour l’ensemble d’échantillons donnés, et choisir que pour regrouper les échantillons en fonction de leur degré de intacte.
REMARQUE : Pour les ensembles d’échantillons avec des molécules d’ARN plus intactes (c.-à-d. des valeurs élevées de DV_200, la totalité ou la plupart avec DV₂₀₀ 'gt; 40%), DV₂₀₀ est susceptible d’être une mesure utile QC. Toutefois, pour les ensembles d’échantillons avec des relevés de notes plus dégradés (c.-à-d. les valeurs basses DV_200, la totalité ou la plupart avec DV₂₀₀ 'lt; 40%), DV₁₀₀ est plus susceptible d’être utile.
Sur la base des mesures QC, identifier les échantillons qui ont DV₁₀₀ 'lt; 40%. Étant donné que ce degré de dégradation est très susceptible de ne pas générer de données de séquençage^{utiles 11}, il est conseillé d’éviter le traitement de tels échantillons. Si des remplacements pour de tels échantillons sont disponibles, leur qualité devrait être vérifiée pour inclure idéalement seulement des échantillons avec DV₁₀₀ 'gt; 50%.

2. Préparation de la bibliothèque de séquençage

En fonction de la qualité des échantillons évalués à la section 1, identifiez une méthode appropriée pour générer les bibliothèques de séquençage.
1. Pour les ensembles d’échantillons avec une dégradation très faible et des valeurs élevées DV_200, utilisez le séquençage de l’ARNm (c.-à-d. capture de transcriptions polyadenylated), séquençage ciblé de l’ARN (c.-à-d. l’utilisation de sondes de capture pour des gènes spécifiques d’intérêt), le séquençage d’exome d’ARN (c.-à-d. l’utilisation de sondes de capture pour enrichir pour le transcriptome de codage), ou le séquençage total d’ARN (c.-à-d. l’utilisation d’amorçage aléatoires pour la transcription inverse pour séquencer toute la population d’ARN après avoir retiré l’ARN ribosomal des échantillons). Cependant, il est important de noter que le processus de fixation peut introduire un biais dans l’ARN extrait. Ainsi, les approches de capture peuvent ne pas fonctionner bien dans tous les cas, même avec des valeurs élevées DV_200.
2. Si l’ensemble de l’échantillon comprend des échantillons à forte dégradation (DV₂₀₀ et 30 %), utilisez une méthode totale de préparation de la bibliothèque d’ARN et non une méthode qui dépend de la capture de régions spécifiques des transcriptions, parce que ces régions spécifiques peuvent manquer dans des échantillons dégradés. L’utilisation d’amorces aléatoires pour la génération de l’ADNC conduit à une plus grande représentation de l’ARN utilisable dans la bibliothèque finale, et est, par conséquent, plus adapté pour les échantillons FFPE-ARN.
3. Pour l’épuisement de l’ARN ribosomal pour les ensembles d’échantillons avec une dégradation élevée, utilisez des méthodes basées sur RNaseH. Ce sont des méthodes où les sondes d’ADN spécifiques à l’ARR se lient à l’ARR, les molécules à double brin sont digérées par RNaseH, et les sondes restantes sont nettoyées par DNase (par exemple, kit d’épuisement de l’ARNNNnext NEBNext, Tableau des matériaux). Ces méthodes fonctionnent mieux pour les échantillons dégradés que certaines autres méthodes⁸.
Pour générer des bibliothèques de séquençage, utiliser des montants d’intrants plus élevés (si possible) pour les échantillons qui ont plus d’ARN dégradé (DV₁₀₀ et lt; 60%). Alors que les échantillons avec l’ARN de qualité raisonnable (DV₁₀₀ -gt; 60%) peut donner de bonnes données de séquence, même à des quantités d’entrée plus faibles (le plus bas testé pour ce protocole avec FFPE-ARN était de 20 ng), pour plus dégradée ARN (DV₁₀₀ 'lt; 60%), il est préférable de commencer avec des quantités d’entrée plus élevées (par exemple, 'gt;100 ng).
REMARQUE : Si suffisamment d’échantillons (p. ex., 500 ng) sont disponibles, il est conseillé d’économiser au moins la moitié de l’échantillon pour répéter la préparation de la bibliothèque, si nécessaire. Pour les échantillons à faible entrée (p. ex., lt;100 ng), il est généralement préférable d’utiliser la totalité de la quantité et de générer une bibliothèque d’une diversité suffisante.
Après avoir sélectionné une trousse de préparation de bibliothèque appropriée pour générer des bibliothèques totales de seq d’ARN à partir d’échantillons à forte dégradation (p. ex., kit de préparation de bibliothèque d’ARN Ultra II de NEBNext Ultra II pour Illumina, voir Tableau des matériaux), suivez les instructions du fabricant pour générer les bibliothèques.
REMARQUE : Pendant la préparation de la bibliothèque, il est important de sauter l’étape de fragmentation de l’ARN pour les échantillons dégradés et d’assurer l’utilisation d’amorces aléatoires pour la synthèse de l’ADNC de premier brin.
Pour améliorer l’efficacité et la vitesse, en particulier pour les échantillons à faible entrée, utiliser des supports magnétiques appropriés avec des aimants fixes forts pour la purification à base de perles et les étapes de sélection de la taille (voir Tableau des matériaux).
Pour l’enrichissement PCR de l’ADN ligaté adaptateur, ajustez le nombre de cycles d’amplification en fonction de la quantité d’ADN d’entrée pour assurer une représentation maximale tout en évitant la duplication inutile des molécules de la bibliothèque. Pour les échantillons d’ARN FFPE-100 ng à faible entrée, nous recommandons des cycles d’amplification de 16 à 18, tandis que les échantillons d’intrants élevés (1 000 ng) génèrent généralement suffisamment de quantités de bibliothèque en 12 à 14 cycles d’amplification.
Suite à l’amplification et au nettoyage de PCR selon les instructions du fabricant, évaluez la qualité de la bibliothèque en analysant la concentration de la bibliothèque et la distribution de molécules sur une plate-forme appropriée (p. ex., puce d’ADN Agilent Bioanalyzer, voir Tableau des matériaux). Pour les échantillons avec des pics d’amorce (80 bp) ou des pics adaptateur-dimer (128 bp), répétez le nettoyage pour enlever ces pics.
Calculez la taille moyenne de la bibliothèque pour chaque bibliothèque (p. ex., à l’aide du logiciel Bioanalyzer 2100 Expert).

3. Bibliothèque de séquençage QC

Une fois qu’il a été établi que les bibliothèques sont exemptes d’apprêt excessif et adaptateurs-dimers et ont une concentration suffisante pour le séquençage ultérieur, quantifier davantage par qPCR.
REMARQUE : En raison de la sensibilité de la génération de grappes à la concentration des bibliothèques, une quantification précise est essentielle pour éviter que les séquences coûteuses ne sous-performance ou la surcharge. Les méthodes quantitatives de PCR en temps réel (qPCR) sont utiles pour améliorer la densité des grappes sur les plates-formes Illumina sans entraîner de sur-aclusion. La méthode qPCR est plus précise et plus sensible que les méthodes basées sur l’analyse qualitative et/ou quantitative de toutes les molécules de bibliothèque (p. ex., Agilent Bioanalyzer), parce qu’elle mesure les modèles qui ont les deux séquences d’adaptateurs à chaque extrémité qui formeront des grappes sur la cellule de débit. La taille de la bibliothèque doit toutefois être connue à l’avance comme une correction de taille doit être appliquée à tous les échantillons afin que les résultats puissent être comparés à une courbe standard.
CAUTION : Les blouses et les gants de laboratoire doivent toujours être portés lors de l’exécution du QPCR, et la procédure doit être effectuée dans une armoire de biosécurité suivant les instructions du fabricant.
1. Configurez une plaque de 96 puits avec trois répliques pour chaque échantillon pour la prévention des erreurs à l’aide d’un kit approprié (p. ex., KAPA SYBR FAST qPCR Master Mix for Illumina libraries, une partie de la trousse de quantification des bibliothèques, voir Tableau des matériaux),ainsi que les normes, un contrôle positif (p. ex., contrôle PhiX, voir Tableau des matériaux),et un contrôle sans modèle (CNT). Le CNT est mix qPCR sans bibliothèque d’ADN. Le contrôle positif peut être n’importe quelle bibliothèque avec la concentration connue et la taille de fragment.
  1. Préparer un minimum de six dilutions des normes suivant le protocole du fournisseur.
2. Après avoir ajouté tous les composants (c.-à-d. le mélange de maître qPCR, les bibliothèques, les normes), couvrez la plaque avec du film d’étanchéité et utilisez un squeegee pour s’assurer que le film établit un contact égal et sécurisé avec la plaque.
3. Vortex et tourner vers le bas de la plaque à 1500 tr/min pendant au moins 1 min. Inspectez visuellement la plaque pour s’assurer qu’il n’y a pas de bulles d’air au fond des puits.
4. Installez la plaque sur le cycleur thermique (p. ex. SYSTÈME tactile CFX96, voir Tableau des matériaux)à l’aide des paramètres recommandés par le fabricant.
5. Enregistrez le dossier d’exécution où il peut être consulté pour l’analyse des données.
6. Au cours de l’analyse des données, vérifiez que la pente se situe entre -3,1 et -3,6, l’efficacité de 90 % à 110 % et le R² (coefficient de corrélation obtenu pour la courbe standard) pas moins de 0,98.
Mise en commun: Une fois la concentration qPCR des bibliothèques prêtes à séquençage obtenue, les montants équmaires de la piscine de chacune des bibliothèques, selon le nombre de lectures de séquençage requises par échantillon et la sortie de séquençage de l’instrument.
QC des piscines: Quantifier les piscines de bibliothèque à nouveau par qPCR suivant le même protocole que décrit dans l’étape 3.1.

4. Séquençage

Selon les paramètres d’exécution, tirez les kits de réactifs de séquençage et décongeler en suivant le guide utilisateur. Veuillez consulter le site Illumina pour les dernières versions de tous les guides utilisateurs pour le séquençage sur les instruments Illumina.
Assurez-vous que les réactifs sont complètement décongelés et placez le plateau des réactifs à 4 oC. La course doit être commencée au plus tard 2 h après que les réactifs ont été décongelés. Ne pas faire cela pourrait affecter la qualité des résultats de course.
Inverser la cartouche 5x pour mélanger les réactifs et appuyez doucement sur le banc pour réduire les bulles d’air.
Mettre l’emballage de cellules d’écoulement non emballés de côté à température ambiante pendant 30 min.
Déballez l’emballage des cellules d’écoulement et nettoyez la surface en verre de la cellule d’écoulement avec une lingette d’alcool sans peluche. Séchez le verre avec un tissu de laboratoire à faible teneur en peluche.
Ouvrez l’application Illumina "Experiment Manager« . Choisissez "Créer une feuille d’échantillon« , puis choisissez le Séquenceur et cliquez sur "Next« .
Créez et téléchargez la feuille d’échantillon en fonction des critères du séquenceur Illumina (p. ex., Illumina Experiment Manager, guide logiciel).
Aux invites, numérisez dans le code-barres du kit réactif et entrez les paramètres Set Up run (p. ex., pour une seule course de cycle PE 75 indexée, entrez 76-8-76).
Denature et diluer le pool de la bibliothèque en fonction de la recommandation de guide utilisateur séquenceur (p. ex., guide nextSeq 500 System d’Illumina, voir Tableau des matériaux).
Denature et diluer la bibliothèque de contrôle PhiX (voir tableau des matériaux) à la concentration appropriée (p. ex., 1,8 pM pour NextSeq).
Mélangez la bibliothèque d’échantillons et le contrôle de PhiX pour aboutir à un rapport de volume de contrôle PhiX de 1 %.
Chargez l’échantillon dénaturé et dilué dans la cartouche de réactif dans le réservoir désigné.
Chargez le flowcell, la cartouche tampon et la cartouche de réactif.
Effectuez une vérification et un examen automatisés pour vous assurer que les paramètres d’exécution passent la vérification du système.
Lorsque la vérification automatisée est terminée, sélectionnez Démarrer pour commencer la course de séquençage.

5. Analyse des données et évaluation de la qualité

REMARQUE : Un flux de travail typique d’analyse de données d’ARN-seq(figure 1) comprend le prétraitement et le QC, l’alignement au génome et au poteau d’alignement QC, la quantification de gène et de transcription, l’analyse de corrélation d’échantillon, l’analyse différentielle entre les différents groupes d’échantillon, les conditions de traitement, et l’enrichissement et l’analyse de voie d’ensemble de gène.

Les données ARN-seq peuvent avoir des problèmes de qualité qui peuvent affecter l’exactitude du profilage génétique et conduire à des conclusions erronées. Par conséquent, les vérifications initiales de QC pour la qualité de séquençage, la contamination, le biais de couverture de séquençage, et d’autres sources d’artefacts sont très importantes. L’application d’un pipeline ARN-Seq QC semblable au flux de travail décrit ici est recommandée pour détecter les artefacts et appliquer le filtrage ou la correction avant l’analyse en aval.

Prétraitement
REMARQUE : Cela comprend la dmultiplexation, l’évaluation de la qualité de lecture de séquences, le contenu de GC, la présence d’adaptateurs de séquençage, les k-merssurreprésentés et les lectures dupliquées de PCR. Ces informations aident à détecter les erreurs de séquençage, les artefacts PCR ou la contamination.
1. Demultiplex Illumina séquençage exécuté à l’aide de l’outil logiciel Illumina bcl2fastq2 pour générer des fichiers FASTQ bruts pour chaque échantillon défini dans la feuille d’échantillon. Laissez un décalage dans les codes-barres de l’index de l’échantillon pour tolérer les erreurs de séquençage s’il n’y a pas de collision de code à barres.
2. Exécutez l’outil logiciel FASTQC¹⁵ pour effectuer une vérification de qualité des fichiers FASTQ bruts afin de détecter toute mauvaise qualité ou anomalie dans les lectures de séquençage.
3. Pour les bases adaptatrices et de faible qualité, coupez les adaptateurs de séquençage et les bases de faible qualité à l’aide d’outils logiciels Cutadapt¹⁶ ou Trimmomatic^17. Enregistrez les lectures coupées dans les fichiers fastq de deux bouts.
4. Écran de contamination
  1. Exécuter FASTQ_screen¹⁸ pour détecter une contamination croisée possible avec d’autres espèces.
  2. Exécuter miniKraken de Kraken2¹⁹ pour identifier les taxonomies des espèces contaminantes.
Alignement pour référencer le génome et l’alignement post QC
1. Les lectures parées peuvent être alignées sur une séquence de génome de référence (GRCh Build hg19 ou hg38) à l’aide de STAR aligner²⁰. Appliquer le fichier Gencode annotation GTF pour guider l’alignement de transcription épissé. Il est recommandé d’exécuter STAR 2-pass pour augmenter la sensibilité aux jonctions d’épissage nouvelle. Dans le deuxième passage, toutes les lectures seront remapped à l’aide de gènes annotés et de transcriptions et de nouvelles jonctions de la première passe.
2. Effectuez QC post-alignement.
  1. Exécutez^{les 21}MarkDuplicates de Picard pour évaluer la complexité de la bibliothèque en déterminant la quantité de lectures uniques ou non encadrées dans les échantillons.
  2. Exécuter le programme CollectRnaSeqMetrics de Picard pour recueillir des pourcentages de cartographie sur le codage, l’intronique, l’intergénique, les régions UTR et la couverture du corps génétique.
  3. Exécuter RSeQC²² pour déterminer la distance intérieure de paire de lecture, lire la distribution entre les exons DE CDS, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, lire le contenu de GC, la saturation de la jonction, et l’information de brin de bibliothèque.
  4. Exécuter multi-QC²³ pour générer un rapport agrégé en format HTML.
Analyse de la quantification et de la correction des gènes
1. Exécutez RSEM²⁴ pour obtenir le nombre brut ainsi que le compte de lecture normalisé sur les gènes et les transcriptions. La mesure du compte de lecture comme RPKM (lit par kilobase de modèle exon par million de lectures), FPKM (fragments par kilobase de modèle exon par million de lectures cartographiées), et TPM (transcriptions par million) sont les valeurs d’expression du gène RNA-seq les plus souvent déclarées. Les gènes exprimés en dessous d’un seuil de bruit (tels que TPM 'lt; 1 ou compte brut 'lt;5) peuvent être filtrés.
2. Effectuez la quantification de transcription pour agréger les nombres bruts de lectures cartographiées à chaque séquence de transcription à l’aide de programmes tels que HTSeq-compte ou featureComptes.
3. Exécuter l’analyse principale des composants (PCA) à l’aide d’un script R pour déterminer les effets de lots et évaluer une carte de qualité du jeu de données donné²⁵. L’analyse de corrélation des échantillons peut être effectuée à l’aide de la corrélation Pearson entre les différentes mesures.
Analyse différentiele de l’expression des gènes
1. Effectuer l’analyse différentielle de gène entre les conditions d’échantillon utilisant le programme edgeR²⁶^,²⁷ et/ou limma-Voom²⁸ et utiliser des méthodes de normalisation, y compris TPM, TMM, DESeq, ou UpperQuartile.
2. Il est recommandé d’exécuter au moins deux outils logiciels d’analyse différentielle afin d’appeler deux ensembles de listes de DEG pour la comparaison et d’obtenir les DG finales pour améliorer la sensibilité et la précision de détection.
Enrichissement et analyse des voies de l’ensemble génétique
1. Effectuer l’analyse de l’enrichissement de l’ensemble de gènes (GSEA)²⁹^,³⁰ sur la base du classement des transcriptions selon une mesure des gènes exprimés différentiellement (DEG) liste pour déterminer si les DEG montrent statistiquement significative, différences concordantes entre les conditions biologiques.
2. Effectuez l’analyse de fonction à l’aide de ressources telles que Gene Ontology³¹, DAVID³²^,³³, ou d’autres outils logiciels disponibles.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La méthodologie décrite ci-dessus a été appliquée à 67 échantillons de FFPE qui avaient été stockés dans une variété de conditions différentes pendant 7 à 32 ans (le délai médian d’entreposage de l’échantillon était de 17,5 ans). Le jeu de données et les résultats d’analyse présentés ici ont déjà été décrits et publiés dans Zhao et coll.¹¹. En vérifiant la qualité de l’échantillon telle que décrite précédemment (c.-à-d. des traces par exemple dans la figure 2),le DV₁₀₀ s’est avéré plus utile que le DV₂₀₀ parce qu’il est plus sensible à mesurer avec précision la proportion de plus petites tailles de fragments pour les échantillons d’ARN très dégradés.

Dans l’ensemble d’échantillons donné, moins de 10 % des échantillons (7 sur 67) étaient supérieurs à la DV₂₀₀ coupée de 30 %, comme le recommande Illumina³⁴. Environ 26 % des échantillons (19 sur 67) avaient un DV₁₀₀ et 60 % (c.-à-d. plus forte probabilité de générer de bonnes données séquences), 40 % (27 sur 67) se situaient dans la fourchette de 40 % à 60 % pour le DV₁₀₀ (c.-à-d. acceptable, mais avec une probabilité moindre de générer de bonnes données séquences), et environ 10 % (7 sur 67) avaient un DV₁₀₀ de 40 % (c.-à-d., très faible probabilité de données résultantes). Pour 14 des 67 échantillons, le logiciel n’a pas été en mesure de déterminer les valeurs DV. Le tableau 1 présente un résumé des mesures du QC pour les échantillons dans différentes catégories DV_100. Pour une analyse approfondie de QC et une corrélation des données pour les 67 échantillons, veuillez consulter Zhao et coll.¹¹.

Compte tenu du degré élevé de dégradation de l’ensemble d’échantillons, une méthode de préparation de la bibliothèque « ARN total » a été choisie, et des bibliothèques de séquençage ont été préparées à l’aide de la trousse de préparation de la bibliothèque d’ARN Ultra II de l’ONNC pour Illumina(Tableau des matériaux). Afin d’améliorer la représentation des bibliothèques de séquençage malgré le degré élevé de dégradation de l’échantillon, la quantité maximale possible d’ARN (1 000 ng lorsqu’elle est disponible) a été utilisée comme entrée pour la préparation de la bibliothèque. En outre, la dégradation élevée des échantillons FFPE-ARN a nécessité la méthode d’épuisement de l’ARNR, parce que les transcriptions dégradées étaient susceptibles de ne pas avoir les queues poly-A pour la capture d’ARNm. Après l’épuisement de l’ARN ribosomal par hybridation à des sondes spécifiques et la digestion des transcriptions hybrides à l’aide de RNaseH, les transcriptions restantes ont été converties en cDNA à l’aide d’amorces aléatoires. La sélection de taille a également été évitée pour les bibliothèques préparées à partir d’échantillons d’intrants inférieurs. Des traces d’exemples de bibliothèques finales sont indiquées à la figure 3.

Les échantillons de FFPE fortement dégradés représentent un grand défi pour le profilage d’expression génique dans des échantillons de tumeur. Ainsi, l’application de méthodes d’analyse bioinformatiques correctes et d’outils logiciels est essentielle pour détecter les artefacts ou les anomalies dans les ensembles de données afin d’assurer une grande précision et la reproductibilité de la quantification des gènes. Les outils logiciels utilisés dans cette étude sont répertoriés dans le tableau supplémentaire. Dans l’ensemble d’échantillons donné, nous avons effectué le séquençage et l’évaluation de la qualité des bibliothèques, avec quelques indicateurs d’exemple indiqués dans la figure 4. Un aperçu de la qualité brute de séquençage des fichiers fastq et du contenu de l’adaptateur d’échantillons sont indiqués dans la figure 4A et la figure 4B, respectivement. L’écran Fastqc peut aider à détecter la contamination, comme la contamination bactérienne et la souris, dans les échantillons comme indiqué dans la figure 4C. Dans l’ensemble d’échantillons donné, 41 des 67 échantillons présentaient une contamination bactérienne de 5 % à 48 %, et six échantillons présentaient une contamination par la souris de 4 % à 11 %(figure 4C). Les résultats de l’alignement DESTAR (figure 4D) ont montré la proportion de lectures cartographiées au génome de référence, le pourcentage de lectures cartographiées uniquement au génome de référence, et la proportion de lectures qui n’ont pas été cartographiées ou cartographiées à plusieurs loci. Picard CollectRNAStatistics a été utilisé pour déterminer le pourcentage d’ARNm, intronique et les bases intergéniques présentes dans les dossiers d’alignement(figure 4E). Afin d’évaluer l’uniformité de la couverture de lecture sur le gène et les transcriptions, nous avons utilisé l’outil logiciel Picard pour générer une parcelle de couverture du corps génétique, qui mesure le pourcentage de lectures qui couvrent chaque position nucléotide de tous les gènes mis à l’échelle dans les bacs de 5 UTR à 3 UTR. La figure 4F montre que certaines bibliothèques dégradées avaient un parti pris de 3', où plus de lectures sont cartographiées plus près de la fin de 3' qu’à la fin de 5'.

Les échantillons de FFPE ont généralement une grande variabilité dans les profils d’expression génique qui peuvent survenir en raison de la dégradation variable pendant le stockage de l’échantillon, l’extraction de l’ARN ou le traitement de l’échantillon. Il est important d’utiliser des méthodes statistiques appropriées pour découvrir les modèles sous-jacents et mesurer la variation et la corrélation entre les échantillons. Nous avons appliqué l’analyse principale des composants (PCA) pour six paires de répliques biologiques à partir d’un sous-ensemble des 67 échantillons ffPE. Une parcelle de PCA a montré que 26 % de la variation totale a été capturée par le premier composant principal et 19 % des deuxième et troisième composantes combinées(figure 5). Parmi les six paires de répliques, deux paires de répliques présentaient des variations plus élevées (corrélations inférieures à 0,22) que les quatre derniers échantillons (valeurs de corrélation entre 0,7 et 0,8) en comparant les valeurs d’expression génique entre les paires de répliques. Étant donné que les répliques ont été générées par l’extraction de l’ARN de deux boucles de tissus différentes coupées des mêmes blocs ffPE, l’âge des tissus n’était pas un facteur dans la variance plus élevée ici, et il a probablement été causé par la quantité différente de contamination bactérienne (1% à 55%) ainsi que la différence de contenu d’ARNm (2 à 3 plis) entre les répliques. Le caractère aléatoire de la dégradation de l’ARNm après l’extraction pourrait également contribuer à la variance plus élevée entre les échantillons d’origine similaire.

Figure 1 : Flux de travail d’analyse RNaseq. Le groupe d’écoulement décrit les étapes d’analyse pour le prétraitement, l’évaluation de la qualité, la cartographie de référence, la quantification des gènes et l’analyse différentielle entre les différents groupes d’échantillons. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 2 : Exemple Bioanalyzer traces de six échantillons différents de FFPE-ARN. L’axe horizontal désigne le poids moléculaire (bp) et les unités de fluorescence (FU) et l’axe vertical montre la concentration de différents fragments de taille. Les numéros d’intégrité de l’ARN (RIN), DV₂₀₀ (c.-à-d., pour cent des fragments de 200 bp), et DV₁₀₀ (c.-à-d., pour cent des fragments de 100 bp) valeurs sont indiquées sur chaque profil. Un pic de 25 bp dans chaque profil indique le marqueur de poids moléculaire. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 3 : Exemple Bioanalyzer traces de bibliothèques finales préparées à partir de quatre échantillons différents. L’axe horizontal désigne le poids moléculaire (bp) et les unités de fluorescence (FU) sur l’axe vertical indiquent la concentration de différents fragments de taille. Les pics de marqueurs inférieurs (35 bp ou 50 bp) et supérieurs (10 380 bp) sont étiquetés en vert et violet, respectivement. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

Figure 4 : Exemple de rapport multi-QC pour le prétraitement des résultats de QC. (A) Graphique de ligne indiquant les pourcentages de bases Q30 de tous les séquençages se lit dans chaque échantillon. (B) Contenu adaptateur de séquençage dans les fichiers fastq bruts. (C) Écran de contamination pour vérifier les espèces étroitement appariées. (D) Statistiques de cartographie du génome. (E) Lire la distribution basée sur l’annotation du gène Gencode. (F) Couverture du corps/transcription des gènes Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 5 : Exemple d’analyse de l’ACP pour montrer la concordance du groupe d’échantillons. L’analyse pcA pour les répliques biologiques. Parcelle PCA avec des échantillons tracés en deux dimensions à l’aide de leurs projections sur les deux premiers composants principaux. Les répliques biologiques sont montrées dans la même couleur. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.

	Nombre d’échantillons	Entrée médiane pour la préparation de lib (ng)	RIN médian	DV_{médian 200}	DV_{médian 100}	Taille médiane lib (bp)	Rendement médian lib (ng)	Médiane Lib Molarity (nM)	Temps médian de stockage des spécimens (années)	Contamination médiane en %	Nombre médian de gènes
DV100 et lt;40%	7	237.6	2.5	6	34	445	24.5	7	22	27.4	14,759
DV100 40-60%	27	1000	2.5	12	51	408	19.8	5.9	18	9.9	10,202
DV100 -gt;60%	19	1000	2.3	26	73	355	84.9	24	13	3.2	9,993

Tableau 1 : Résumé des paramètres de l’ensemble de l’échantillon QC. Le tableau montre les mesures QC des échantillons, regroupés en fonction de leurs valeurs DV_100. Le nombre d’échantillons dans chaque groupe est répertorié, et les valeurs médianes pour chaque mesure sont indiquées.

Table supplémentaire : Outils logiciels d’analyse, paramètres et référence logicielle. Le tableau répertorie les outils logiciels d’analyse et les paramètres utilisés à chaque étape de l’analyse ARN-seq. Les références d’outils logiciels sont répertoriées dans le tableau. S’il vous plaît cliquez ici pour télécharger cette table.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La méthode décrite ici décrit les principales étapes nécessaires pour obtenir de bonnes données de séquence à partir d’échantillons FFPE-ARN. Les principaux points à considérer avec cette méthode sont les suivants : (1) Assurez-vous que l’ARN est conservé le mieux possible après l’extraction en minimisant les cycles de manipulation et de congélation et de décongélation de l’échantillon. Les aliquots de QC séparés sont très utiles. (2) Utilisez une mesure QC qui est la meilleure pour l’ensemble d’échantillons donné. Les valeurs RIN et DV₂₀₀ ne sont souvent pas utiles pour les échantillons dégradés, et DV₁₀₀ peut être la mesure de choix pour évaluer la qualité dans un ensemble d’échantillons donnés. (3) Pour les échantillons plus dégradés, il est préférable d’utiliser un échantillon élevé. Des quantités d’intrants plus élevées entraînent une meilleure diversité et une diminution des chevauchements dans la bibliothèque finale, ce qui améliore la qualité des données. Parce que tous les ARN dans les échantillons d’ARN FFPE ne sont pas utilisables en raison de la dégradation élevée et de la réfractabilité aux processus enzymatiques, ces effets sont plus prononcés dans l’ARN FFPE par rapport à l’ARN congelé frais. (4) Utilisez l’amorçage aléatoire pour l’étape de transcription inverse par opposition à l’utilisation d’oligo-dT ou de séquences spécifiques comme amorces. À moins que l’ensemble de sondes spécifiques ne puisse couvrir autant de séquences que possible pour toutes les transcriptions d’intérêt, les amorces aléatoires sont une valeur sûre pour assurer la conversion d’un nombre maximum de transcriptions (ou de fragments de celui-ci) en CDNA. Ainsi, les méthodes totales de préparation de bibliothèque d’ARN sont plus utiles pour les échantillons dégradés que les méthodes d’ARNm, qui s’appuient sur la présence de queues poly-A. (5) Il est important d’éviter la sous-performance ou la surcharge des bibliothèques par PCR quantitatif en temps réel (QPCR) afin d’éviter la sous-performance ou la surcharge des séquenceurs. (6) Évaluer la contamination potentielle de l’ARN dans le cadre des protocoles standard de séquençage de l’ARN-Seq QC. La contamination bactérienne et la contamination par l’ADN génomique sont fréquentes pour les échantillons de FFPE en raison des conditions d’entreposage et des procédures de préparation des échantillons. Les échantillons contaminés par des espèces étrangères peuvent gaspiller la couverture de séquençage, selon l’étendue de la contamination. En outre, la contamination interne peut résulter d’un appauvrissement incomplet de l’ARR, ce qui entraîne un pourcentage élevé de lectures cartographiques aux ARR. L’ablation inefficace de l’ADN génomique pendant la digestion de DNase pourrait mener à la détection fausse positive d’expression des transcriptions ou à l’assemblage erroné de de novo des transcriptions. La contamination d’adaptateur introduite pendant la préparation de la bibliothèque est également un problème commun pour les ARN fortement dégradés avec des fragments d’ARN très courts. La contamination peut affecter l’exactitude du profilage génétique et de la transcription et mener à une fausse découverte. Par conséquent, il est important d’identifier avec précision les sources de contamination et d’éliminer la contamination, si possible, pendant les étapes de préparation de l’échantillon ou de la bibliothèque, ou de filtrer les lectures contaminantes pendant l’étape de traitement des données. (7) Le prétraitement et le contrôle de la qualité après l’alignement sont importants pour détecter des échantillons de mauvaise qualité et de faible teneur en ARNm. Ces échantillons devraient être éliminés à partir d’une analyse plus approfondie. Les données d’expression génique à partir d’échantillons qui génèrent de faibles comptes de gènes, une mauvaise couverture doivent être utilisées avec prudence. (8) Il est de bonne pratique d’inclure des répliques biologiques afin de mesurer la variance et la corrélation des échantillons afin d’assurer la reproductibilité des données.

Les échantillons de la FFPE représentent une ressource très précieuse pour un grand nombre de maladies. La capacité d’obtenir des informations fiables sur la séquence à partir de tels échantillons aiderait beaucoup d’études visant à comprendre les mécanismes moléculaires derrière divers désordres, résistance, et susceptibilité. Bien que les limitations imposées par la qualité souvent sous-optimale de l’ARN extrait de ces échantillons entravent de tels efforts, les étapes décrites ici aident à atténuer ces limitations dans une certaine mesure et nous permettent de tirer le meilleur parti de l’ARN FFPE pour obtenir des informations fiables sur l’expression des gènes.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Ces travaux ont été financés par le National Cancer Institute (NCI), les National Institutes of Health (NIH). Leidos Biomedical Research, Inc. est l’entrepreneur en opérations et en soutien technique du Laboratoire national de recherche sur le cancer de Frederick, qui est entièrement financé par les NIH. Plusieurs auteurs (YZ, MM, KT, YL, JS, BT) sont affiliés à Leidos Biomedical Research, Inc., mais tous les auteurs sont entièrement financés par l’Institut national du cancer, y compris les salaires des auteurs et le matériel de recherche. Leidos Biomedical Research, Inc. n’a pas fourni de salaire aux auteurs (YZ, MM, KT, YL, JS, BT) ou du matériel pour l’étude, ni dans la conception de l’étude, la collecte de données, l’analyse, la décision de publier ou la préparation du manuscrit.

Acknowledgments

Nous remercions la Dre Danielle Carrick (Division de la lutte contre le cancer et des sciences de la population, Institut national du cancer) d’avoir continué à aider, en particulier pour le lancement de cette étude, pour nous fournir les échantillons et pour des suggestions utiles au cours de l’analyse des données. Nous remercions sincèrement tous les membres de l’installation de séquençage du CCR au Laboratoire national de recherche sur le cancer de Frederick pour leur aide pendant la préparation et le séquençage de l’échantillon, en particulier Brenda Ho pour l’aide dans l’échantillon QC, Oksana Allemand pour la bibliothèque QC, Tatyana Smirnova pour la gestion des séquenceurs. Nous tenons également à remercier Tsai-wei Shen et Ashley Walton de Sequencing Facility Bioinformatics Group d’avoir aidé à l’analyse des données et à la mise en œuvre du pipeline RNA-seq. Nous remercions également le CCBR et le NCBR pour leur aide à l’élaboration du pipeline d’analyse RNaseq et de l’élaboration des meilleures pratiques.

Materials

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871