Genetics

Détection des événements rares en utilisant l’erreur corrigée ADN et le séquençage de l’ARN

Published: August 3, 2018 doi: 10.3791/57509

Wing H. Wong*^1,2, R. Spencer Tong*^1,2, Andrew L. Young^1,2, Todd E. Druley^1,2

¹Department of Pediatrics, Division of Hematology and Oncology, Washington University School of Medicine, ²Center for Genome Sciences and Systems Biology, Washington University School of Medicine

* These authors contributed equally

Summary

Le séquençage de prochaine génération (NGS) est un outil puissant pour la caractérisation génomique qui est limité par le taux élevé d’erreurs de la plateforme (~0.5–2.0%). Nous décrivons nos méthodes de séquençage de l’erreur-corrigé qui nous permettent d’éviter le taux d’erreur NGS et détecter les mutations aux fractions d’allèle variant aussi rares que 0,0001.

Abstract

Techniques de séquençage de prochaine génération conventionnelle (NGS) ont permis d’immense caractérisation génomique pour plus d’une décennie. Plus précisément, NGS a été utilisé pour analyser le spectre de mutations clonales dans une tumeur maligne. Bien que beaucoup plus efficace que les méthodes traditionnelles de Sanger, NGS luttes avec l’identification des mutations clonales et subclonal rares en raison de son taux élevé d’erreurs de ~0.5–2.0 %. Ainsi, NGS standard a une limite de détection pour les mutations qui sont > 0,02 fraction allèle variant (VAF). Tandis que la signification clinique des mutations de ce rares chez les patients sans maladie connue ne sait pas, les patients traités pour une leucémie ont considérablement amélioré résultats lorsque la maladie résiduelle est < 0,0001 par cytométrie en flux. Afin d’atténuer ce contexte artéfact de NGS, plusieurs méthodes ont été développées. Nous décrivons ici une méthode pour l’erreur-corrigé ADN et ARN séquençage (ECS), qui implique le marquage des molécules individuelles avec un indice aléatoire de 16 bp pour correction d’erreur et un 8 index spécifique au patient de bp pour le multiplexage. Notre méthode peut détecter et suivre les mutations clonales allèle variant fractions (VAFs) deux ordres de grandeur inférieures à la limite de détection de la NGS et aussi rares que 0,0001 VAF.

Introduction

Comme nous l’avons âge, l’exposition aux agents mutagènes et stochastiques erreurs pendant le résultat de la division cellulaire dans l’accumulation des aberrations somatiques dans le génome et cela sous-tend la pathogenèse fondamentale de la transformation maligne, maladies neuro-développementale, pédiatriques troubles et vieillissement normal¹^,². Des mutations somatiques avec un potentiel de maladie au volant sont importants biomarqueurs diagnostiques et pronostiques pour la détection précoce et le risque de gestion³^,⁴^,⁵. Afin de mieux comprendre la clonogenesis physiologique, qui informera clinique et recherche de décisions, la quantification précise et la caractérisation de ces mutations est d’une importance primordiale. Séquençage de prochaine génération (NGS) sert actuellement à l’étude des mutations clonales dans des échantillons d’ADN hétérogènes ; NGS est toutefois limitée à l’identification de mutations au > 0,02 fraction allèle variant (VAF) — en raison du taux d’erreur inhérent de 0,5 à 2,0 % du séquençage plates-formes⁶^,⁷^,⁸. En conséquence, suivi diagnostique et points importantes variantes somatiques au VAF inférieur sont impossibles à l’aide de NGS standard.

Récemment, diverses méthodes ont été développées afin de contourner le taux d’erreur de NGS⁸^,⁹^,¹⁰^,¹¹. Ces méthodes utilisent le marquage moléculaire, qui permet la correction d’erreurs après le séquençage. Chaque molécule ou fragment génomique dans la bibliothèque de séquençage est étiquetée avec un aléatoire Unique moléculaire identificateur (UMI) qui est spécifique à cette molécule. Les UMIs sont construits par permutations d’une chaîne de nucléotides randomisés (N 8 – 16). Un deuxième code-barres échantillon spécifique est également intégré dans le flux de travail qui permet le multiplexage des échantillons multiples dans le séquençage de NGS même courir. L’amplification par PCR est effectuée sur la bibliothèque moléculairement étiquetée, et la bibliothèque est envoyée par la suite pour le séquençage. Au cours de la préparation de la bibliothèque, il est prévu qu’Erreurs seront introduits au hasard au fragment génomique au cours de l’amplification par PCR et séquençage⁸. Pour supprimer les erreurs de séquençage aléatoire, lectures de séquençage brutes sont regroupés selon l’UMI. Artefacts du séquençage ne devraient pas être présents dans toutes les lectures avec l’UMI même à la même position génomique en raison de la nature stochastique de l’introduction, alors qu’une vraie variante sera fidèlement amplifiée et séquencée dans toutes les lectures qui partagent le même UMI. Les artefacts sont bioinformatically supprimé. Nous décrivons ici trois méthodes de correction erreur séquençage (ECS) optimisé dans le laboratoire d’ADN identifier les variantes de nucléotide (SNVs) et petites insertion-délétions (Indels) et pour l’ARN faciliter la quantification de l’expression génique ci-dessous le Seuil d’erreur NGS.

La première méthode décrit une manière de chercher rare événement somatique en utilisant des amorces spécifiques de gène conçus par les chercheurs. Avant la préparation de la bibliothèque, chercheurs devraient concevoir des amorces pour cibler les fragments d’intérêt. Nous avons utilisé le Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons de 200 – 250 bp sont idéales pour la réaction en chaîne par polymérase (PCR) que ceux-ci seront, une fois que UMIs ont été incorporés, générer chevauchement lectures bout jumelé avec 150 lectures jumelé-fin de bp. Les conditions de conception d’amorce optimale à utiliser sont : taille minimale de l’amorce : 19 ; Taille optimale de l’apprêt = 25 ; Taille maximale de l’apprêt = 30 ; Tm minimale = 64 ° C ; Tm optimale = 70 ° C ; Tm maximale = 74 ° C ; Différence maximale de Tm = 5 ° C ; Teneur minimale en GC = 45 ; Teneur maximale en GC = 80 ; Numéro pour renvoyer = 20 ; Fin stabilité maximale 3' = 100.

Dans la méthode 2, nous décrivons une méthode combinant le protocole ECS-ADN avec Illumina chimie pour enquête aux SNVs clonales et petit Indels aussi rare que 0,0001 VAF en utilisant des panneaux de gène commercialement disponibles qui incluent des centaines des amplicons. Nous avons utilisé le panneau de séquençage myéloïde de TruSight (Illumina) pour notre expérience et conçu un panel élargi afin d’inclure d’autres gènes d’intérêt pour les maladies pédiatriques myéloïdes. Ces panneaux ont offert pas les identificateurs moléculaires uniques (UMIs) qui faciliteraient la correction d’erreurs, nous avons ajouté notre propre stratégie d’adaptateur à ces panneaux. ECS devrait fonctionner aussi bien avec n’importe lequel des autres panneaux conçus pour enrichir des gènes associés à des maladies différentes. Après isolement d’ADN et quantification ultérieure des tissus ou échantillon d’intérêt, il est recommandé d’avoir au moins 500 ng de stock ADN par spécimen. Nous faisons régulièrement une bibliothèque unique de séquençage à l’aide de 250 ng d’ADN afin de capturer dans le fragment génomique unique autant que possible pour en aval lit la déduplication et calcul de VAF. Une bibliothèque de séquençage de répliquer en option peut être faite avec les 250 restants ng d’ADN. Nous faisons toujours deux bibliothèques répétées par spécimen, et nous ne considérons que ces événements détectés indépendamment dans les deux réplicats comme vrais positifs. Nous avons également mis en œuvre un modèle génomique erreur binomial de poste spécifique pour accroître la précision de la variante de l’appel⁴^,¹³.

Enfin, nous décrivons une méthode de couplage ECS au séquençage de RNA pour la quantification de transcription en utilisant des panneaux de QIAseq ciblés RNA sur étagère (Qiagen). Les UMIs requis pour la déduplication et correction d’erreur ont été incorporés dans les kits de chercheurs peuvent faire suite aux recommandations du fabricant de bibliothèques. Bioinformatically, les chercheurs peuvent suivre le pipeline décrit pour l’ECS-ADN, qui est expliquée en détail dans la section protocole.

Protocol

1. cible erreur corrigée de séquençage d’ADN

Amplification par PCR des fragments génomiques d’intérêt.
1. Une haute fidélité ADN polymérase permet d’amplifier les amplicons (Table des matières, article 1). Amplifier la réaction de PCR avec les conditions suivantes dans un thermocycleur : 30 s à 98 ° C ; 18 – 40 cycles de 10 s à 98 ° C, 30 s à 66 ° C et 30 s à 72 ° C ; 2 min à 72 ° C ; tenir à 4 ° C.
2. Purifier les produits PCR avec des billes paramagnétiques (Table des matières, point 2). Ajouter la réaction PCR aux talons dans un ratio de 1 : 1,8 (volume de réaction PCR : volume de billes) selon le protocole du fabricant. Éluer avec 20 µL de ddH₂O.
3. Quantifier la concentration de l’ADN (Table des matières, point 3) afin de déterminer une concentration finale de l’ADN.
4. Exécuter une partie aliquote d’ADN sur un gel d’agarose 2 % (Table des matières, point 4) pour confirmer la taille des amplicons.
  Remarque : Vous pouvez également chercheurs peuvent opter pour effectuer une analyse Bioanalyzer sur les produits PCR pour déterminer la taille des fragments amplifiés de génomiques, ainsi que la concentration des produits.
Séquençage adaptateur recuit
1. Obtenir des adaptateurs i7 (Table des matières, point 5). Utilisez-les comme ils sont fournis pour les étapes suivantes.
2. Acheter des adaptateurs i5 16N commercialement avec la séquence suivante d’oligo (matériaux Table point 6) : ACACTCTTTCCCTACACGACGCTCTTCCGATCT AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1)
  NOTE : Les adaptateurs d’i5 16N remplacent les adaptateurs standard i5 et ils sont les adaptateurs avec une chaîne de nucléotides aléatoire 16 pour faciliter l’ECS.
3. Faire la solution de travail adaptateur 16N i5 : 40 µL de stock d’adaptateur 100 µM 16N i5, 10 µL de tampon TE et 10 µL de solution de NaCl à 500 µM.
4. Aliquote 7,5 µL de la solution de travail i5 préparée à l’étape 1.2.3 dans puits séparés de PCR.
5. Ajouter 5 µL de l’échantillon spécifique i7 adaptateur dans les puits correspondants.
6. Incuber à 95 ° C pendant 5 minutes puis refroidir de 1 ° C toutes les 30 s à 4 ° C dans un thermocycleur.
7. Tenir à 4 ° C.
Fin-réparation & dA-tailing des bibliothèques
Remarque : En parallèle avec adaptateur recuit, on peut effectuer réparation fin et dA-tailing sur les amplicons PCR d’étape 1.1. Après avoir terminé ces étapes, ligature des adaptateurs recuits de 1,2 Step sur la fin réparé et les amplicons PCR à queue dA est effectuée. Après la ligature de l’adaptateur, la construction de bibliothèque ECS est terminée.
1. BEGIN au plus 1 µg d’ADN de départ (minimum de 200 ~ ng)
2. Effectuer fin-réparation et dA-queue sur amplicons (Table des matières, point 7).
  1. Ajouter 3,0 µL du mélange de préparation enzymatique de fin et 6,5 µL de tampon de réparation de fin.
  2. Incuber le mélange pendant 30 min à 20 ° C, puis pendant 30 min à 65 ° C et maintenez à 4 ° C.
3. Effectuer la ligature sur les adaptateurs de recuit (Table des matières, point 8).
  1. Ajouter 2,5 µL des adaptateurs recuits de l’étape 2 et 15 µL de Blunt/TA Ligase Mastermix 1 µL de renforceur de ligature.
  2. Incuber le mélange pendant 15 min à 20 ° C, puis pendant 15 min à 37 ° C.
4. Nettoyer les bibliothèques avec billes magnétiques (point 2 du tableau de matériaux) : ajouter la réaction PCR à billes dans un rapport mis à jour le 1 : 0,75 (volume de réaction PCR : volume de billes magnétiques) :
  1. Pipetter 62,6 µL de solution de billes magnétiques dans les 83,5 µL des produits PCR de l’étape 1.2.7.
  2. Transférer le mélange dans un tube de liaison basse de 1,5 mL.
  3. Bien mélanger en pipettant également, haut en bas, au moins 10 fois.
  4. Laissez le mélange reposer à température ambiante pendant 5 minutes.
  5. Placer le tube sur un support magnétique. Incuber pendant 2 minutes à température ambiante ou jusqu'à surnageant est clair.
  6. Retirez le surnageant.
  7. Laver les billes avec 200 µL d’éthanol à 70 %.
  8. Incuber pendant 30 s. Remove éthanol.
  9. Répéter une fois pas de lavage de l’éthanol.
  10. Sécher les perles.
  11. Éluer avec 20 µL de ddH₂O.
    Remarque : Cette modification dans la réaction de PCR au ratio de billes magnétiques supprimera préférentiellement des fragments d’ADN qui sont inférieurs à 200 bp.
Quantification par gouttelettes PCR numérique
Remarque : Quantification précise de mutation nécessite un respect strict du nombre de molécules de chaque bibliothèque qui sont chargés sur le séquenceur. Pour y parvenir, quantifier le nombre de molécules pour les bibliothèques individuelles par unité de volume est effectué à l’aide de la plate-forme numérique de PCR (ddPCR) QX200 goutte — PCR quantitative est une option alternative. Après analyse de la ddPCR, la lecture précisera le nombre de molécules par µL par bibliothèque.
1. Diluer ECS bibliothèques 1 : 1 000 en diluant par incrément d’un facteur 10 en bande-tubes PCR.
2. Préparer le mastermix suivant ddPCR en tube 1,5 mL : 10 µL de PCR Mix (Table des matières, point 9), 0.2 µL d’apprêt P5, 0.2 µL d’apprêt P7, 5 µL de produit de nettoyage des ECS de l’étape 1.4.1. et 4,5 µL de ddH₂O.
3. Aliquote 20 µL de le mastermix dans chaque échantillon faisant bien sûr qu’il existe de multiples de 8.
  1. Aliquote 70 µL d’huile de génération de gouttelettes (Table des matières, point 10) dans chaque puits de pétrole. Couvrir la cassette avec un joint en caoutchouc.
4. Faire des gouttelettes en utilisant le générateur de gouttelettes (Table des matières, point 11).
5. À l’aide d’une pipette multicanaux, charger les gouttelettes générés à l’étape 1.4.4 en une sorte de plaque PCR qui le pipetage de l’échantillon se fait lentement sur une période de 5 secondes pour éviter le cisaillement de l’ADN.
6. Amplifier le signal dans les gouttelettes pendant 40 cycles dans un thermocycleur en utilisant les conditions suivantes : 5 min à 95 ° C ; 40 cycles de 30 s à 95 ° C, 1 min à 63 ° C ; 5 min à 4 ° C, 5 min à 90 ° C ; et puis tenir à 4 ° C.
7. Préparer ddPCR modèle goutte lecteur machine (Table des matières, point 11). Spécification des paramètres de Quantification absolue et d’utilisation de garantir la QX200 ddPCR Eva Green Supermix.
8. Une fois terminée l’analyse ddPCR, veillez à définir le même seuil qui sème la discorde dans l’ensemble de tous les échantillons.
9. À l’aide de l’affichage de la concentration du lecteur QX200 Droplet, partie aliquote le volume approprié d’introduire le nombre désiré de molécules dans une étape ultérieure.
Amplification par PCR des bibliothèques pour le séquençage
1. Préparer le mastermix suivant la quantité désirée de molécules de l’étape 1.4.9 : 25 µL de Q5 Mastermix (Table des matières, point 1), 2,5 µL d’apprêt P5 (10 µM), 2,5 µL d’apprêt P7 (10 µM), X µL de l’ADN-X 20 µL de ddH₂O.
2. Amplifier les bibliothèques de l’étape 1.5.1 dans un thermocycleur en utilisant les conditions suivantes : 30 s à 98 ° C ; 20 cycles de 10 s à 98 ° C, 30 s à 63 ° C, 30 s à 72 ° C ; 2 min à 72 ° C ; et puis tenir à 4 ° C.
3. Nettoyer les bibliothèques avec des billes magnétiques (Table des matières, point 2) : ajouter à la réaction de PCR à magnétique perles dans une mis à jour le ratio 1 : 0,75 (volume de réaction PCR : volume de billes magnétiques).
  1. Pipetter 37,5 µL de solution de billes magnétiques dans les produits PCR 50 µL de l’étape 1.5.2.
  2. Transférer le mélange dans un tube de liaison basse de 1,5 mL.
  3. Bien mélanger en pipettant également, haut en bas, au moins 10 fois.
  4. Laissez le mélange reposer à température ambiante pendant 5 min.
  5. Placer le tube sur un support magnétique. Incuber pendant 2 minutes à température ambiante ou jusqu'à surnageant est clair.
  6. Retirez le surnageant.
  7. Laver les billes avec 200 µL d’éthanol à 70 %.
  8. Incuber pendant 30 s. Remove éthanol.
  9. Répéter une fois pas de lavage de l’éthanol.
  10. Sécher les perles.
  11. Éluer avec 20 µL de ddH₂O.
4. Exécuter une partie aliquote d’ADN sur un gel d’agarose à 2 % pour confirmer la taille des amplicons.
5. Quantifier la concentration de l’ADN (Table des matières, point 3) pour déterminer la concentration des bibliothèques ECS séparés.
6. Mettre en commun les bibliothèques en quantités équimoléculaires.
  NOTE : par exemple, les chercheurs peuvent mettre huit bibliothèques dans un groupe équimolaire⁴ avec 4 millions à partir de molécules pour l’ordonnancement à l’aide d’une plate-forme de séquençage qui génère jusqu'à 400 millions de lectures. Au bas mot, il est recommandé d’utiliser une moyenne de dix lectures brutes pour correction d’erreur par des molécules. Cela prendrait place lectures 360 millions (4 millions de molécules * 8 bibliothèques * 10 lit pour corriger des erreurs). Avec 4 millions de molécules uniques par la bibliothèque, les chercheurs peuvent s’attendre à obtenir un consensus de moyenne théorique lire la couverture de 7042 x par amplicon (4 millions/568 amplicons depuis le panneau de gène).
7. Quantifier la concentration de l’ADN (Table des matières, point 3) pour déterminer la concentration de bibliothèque d’ECS mis en commun.
8. Présenter la bibliothèque ECS regroupée à environ 4 nM.
9. Fournir les paramètres de séquencement suivants aux plateformes de séquençage Illumina (MiSeq, HiSeq ou NextSeq) : 2 x 144 paires-fin lit, 8 cycles Index 1 et 16 cycles Index 2.

2. Gene panneaux avec erreur corrigée de séquençage de l’ADN

Hybridation des oligos de panneaux de gène
Remarque : Dans cette étape, on construira des bibliothèques de séquençage en utilisant un protocole modifié de Illumina TruSight ou TruSeq pour incorporer les UMIs (Table des matières, point 17).
1. Hybrider les oligos sur fragment génomique suivant le protocole du fabricant. Utilisation 250 ng d’ADN (ou n’importe quel quantité désirée de la matière première).
2. Supprimer les oligos indépendants suivant le protocole du fabricant.
3. Effectuer la ligature-extension suivant le protocole du fabricant.
  Remarque : Les Modifications au protocole du fabricant commencent au-dessous.
Incorporation d’i5 et i7 adaptateur via PCR
1. Préparer le mastermix PCR en pipettant également, dans un tube de taille de volume approprié, les réactifs suivants : 37,5 µL de Q5 Mastermix (Table des matières, point 1), 6 µL d’adaptateurs d’i5 10 µM 16N (méthode détaillée dans 1, étape 1.2.2), 6 µL d’adaptateurs i7 (utilisation différents i7 adaptateurs pour des échantillons distincts pour le multiplexage) et 22 µL de solution d’extension-ligature avec des perles de l’étape 2.1.3.
  NOTE : Le Q5 Mastermix remplace la polymérase mastermix fournie par les Illumina. La polymérase Q5 amplifie le fragment génomique avec une fidélité et moins d’erreurs introduites.
2. Exécutez le programme PCR sur un thermocycleur en utilisant les paramètres suivants : 30 s à 98 ° C, 4 à 6 cycles de 10 s à 98 ° C, 30 s à 66 ° C, 30 s à 72 ° C ; 2 min à 72 ° C et puis maintenez à 4 ° C.
  Remarque : Le nombre de cycles dépend de la taille de l’écran. D’après notre expérience, un 4-cycle PCR est suffisante si le panneau de gène possède environ 1 500 paires différentes de gènes spécifiques oligos, alors qu’un panneau avec 500 – 600 paires d’oligos nécessite 6 cycles de PCR.
3. Nettoyer les réactions de PCR avec des billes magnétiques (Table des matières, point 2) : ajouter la réaction PCR à billes magnétiques dans une réaction de PCR 1 mis à jour le : 0,75 ratio de billes magnétiques :
  1. Pipetter 56,25 µL de solution de billes magnétiques dans les 75 µL des produits PCR de l’étape 2.2.2.
  2. Transférer le mélange dans un tube de liaison basse de 1,5 mL.
  3. Bien mélanger en pipettant également, haut en bas, au moins 10 fois.
  4. Laissez le mélange reposer à température ambiante pendant 5 min.
  5. Placer le tube sur un support magnétique. Incuber pendant 2 min à température ambiante ou jusqu'à surnageant est clair.
  6. Retirez le surnageant.
  7. Laver les billes avec 200 µL d’éthanol à 70 %.
  8. Incuber pendant 30 s. Remove éthanol.
  9. Répéter une fois pas de lavage de l’éthanol.
  10. Sécher les perles.
  11. Éluer avec 20 µL de ddH₂O.
Quantifier les bibliothèques à l’aide de la plateforme de ddPCR de QX200.
1. Suivez l’étape 1.4 dans la méthode 1.
  NOTE : 4 millions de molécules ont été normalisées par exemple bibliothèque⁴ au résultat représentatif (Figure 2) afin d’obtenir une moyenne théorique de 7 042 molécules indexés de manière unique (4 millions divisé par 568 oligos de gène-spécifique).
Amplifier et normaliser des librairies pour le séquençage.
1. Amplifier le nombre désiré de molécules à l’aide de la mastermix suivant pour la PCR final pour un total de 50 µL : 25 µL de Q5 Mastermix, 2 µL de Primer P5 (1 µM), 2 µL de Primer P7 (1 µM) et 21 µL de molécules d’ADN.
2. Exécutez le programme PCR sur un thermocycleur en utilisant le paramètre suivant : 30 s à 98 ° C ; 16 cycles de 10 s à 98 ° C, 30 s à 66 ° C, 30 s à 72 ° C ; 2 min à 72 ° C ; et puis tenir à 4 ° C.
3. Nettoyer les bibliothèques de séquençage à l’aide de billes magnétiques (Table des matières, point 2) : ajouter la réaction PCR à billes magnétiques dans une réaction de PCR 1 mis à jour le : 0,75 ratio de billes magnétiques :
  1. Pipetter 37,5 µL de solution de billes magnétiques dans les produits PCR 50 µL de l’étape 2.4.2.
  2. Transférer le mélange dans un tube de liaison basse de 1,5 mL.
  3. Bien mélanger en pipettant également, haut en bas, au moins 10 fois.
  4. Laissez le mélange reposer à température ambiante pendant 5 min.
  5. Placer le tube sur un support magnétique. Incuber pendant 2 min à température ambiante ou jusqu'à surnageant est clair.
  6. Retirez le surnageant.
  7. Laver les billes avec 200 µL d’éthanol à 70 %.
  8. Incuber pendant 30 s. Remove éthanol.
  9. Répéter une fois pas de lavage de l’éthanol.
  10. Sécher les perles.
  11. Éluer avec 20 µL de ddH₂O.
4. Exécuter une partie aliquote d’ADN éluée (~ 3 µL) sur un gel d’agarose à 2 % pour confirmer la taille des amplicons.
5. Quantifier la concentration de l’ADN (Table des matières, point 3) pour déterminer la concentration des bibliothèques ECS séparés.
6. Mettre en commun les bibliothèques en quantités équimoléculaires. Reportez-vous à l’étape de méthode 1 1.5.6. et aussi une Discussion pour plus de détails sur la mise en commun.
7. Présenter la bibliothèque ECS regroupée à environ 4 nM.
8. Fournir les paramètres de séquencement suivants aux plateformes de séquençage Illumina (MiSeq, HiSeq ou NextSeq) : 2 x 144 paires-fin lit, 8 cycles Index 1 et 16 cycles Index 2.
Analyse et traitement de Bioinformatic ECS
1. Obtenir l’échantillon-démultiplexage lectures depuis le séquenceur ou effectuer le démultiplexage de séquence brute se lit dans les différents échantillons à l’aide d’i7 adaptateur séquences bioinformatically avec un script personnalisé.
2. Coupez les 30 premiers nucléotides de chaque lecture demultiplexed pour supprimer des séquences oligo depuis le panneau de gène.
3. Aligner les lectures qui partagent les mêmes UMIs entre eux pour former des familles de lecture.
  NOTE : Les chercheurs peuvent utiliser logiciel prenant en charge les UMI comme MAGERI¹³ pour extraire familles lire. Aucune distance de hamming a été autorisé au sein de la séquence de l’UMI dans cette expérience pour augmenter la spécificité de la méthode.
4. Effectuer la déduplication et la correction des erreurs à l’aide de paramètres a recommandé ce qui suit.
  1. ≥ 5 utilisation Lire lire de paires dans la même famille. Un minimum de trois paires de lecture est recommandé.
  2. Comparer des nucléotides à chaque position dans toutes les lectures de la même famille lire et générer un nucléotide d’un consensus, s’il y a au moins 90 % concordance entre les lectures pour les nucléotides particulière. Appelez une N s’il y a moins de 90 % d’accord pour le poste de nucléotides.
  3. Jetez les lectures de consensus qui ont > 10 % du nombre total de nucléotides de consensus appelé à N.
5. Aligner toutes les lectures de consensus conservés localement au génome humain référence hg19 ou hg38 à l’aide préféré aligner(s) du chercheur tels que Bowtie2 et BWA.
6. Processus alignés lectures avec Mpileup à l’aide des paramètres – BQ0 – d 10,000,000,000,000 pour enlever les seuils de couverture pour assurer une sortie correcte carambolage indépendamment de VAF.
7. Filtrer les positions avec moins de 1000 x consensus lire la couverture.
  Remarque : Le chercheur détermine la couverture minimale pour chaque poste de nucléotides arbitrairement, il est recommandé d’avoir au moins 500 consensus x lire la couverture pour l’analyse en aval.
8. Utiliser loi binomiale pour appeler des variantes de nucléotide simple (SNP) en données conservées de l’étape 2.5.7 avec les paramètres suivants. La statistique binomiale s’appuiera sur un modèle d’erreur de position spécifique génomique. Chaque poste génomique s’inspire indépendamment additionnant les taux d’erreur de tous les échantillons pour ce poste particulier. L’exemple suivant :
  Probabilité de profil de nucléotides à une position donnée génomique, p
  RF2 Variant de ∑ ∑ Total RFs
  = 26/255505
  = 0.000101759
  Une probabilité binomiale de 24 variante RFs hors 35911 totales RFs, P(X ≥ x) dans l’échantillon K
  = 1 - binomial(24, 35911, 0.000101759)
  = 2.26485E-13
  Remarque : Pour chaque poste génomique interrogé, il y aurait trois changements de mutations possibles (par exemple,A > T, A > C, A > G), et dont chacun serait représenté comme artefact de fond. Les manifestations somatiques qui diffèrent sensiblement de l’arrière-plan, après correction de Bonferroni sont conservées. Dans l’exemple illustré dans le tableau 1, le nombre de tests réalisés était 11, d'où un Bonferroni corrigé p-valeur ≤0.00454545 (0,05/11) devait appeler un événement comme statistiquement significative.
9. Manifestations somatiques sont tenues d’être présents dans les deux répétitions du même spécimen ; dans le cas contraire, considérer comme des faux positifs.

Table 1
Tableau 1 : Exemple démontrant la façon de construire un modèle binomial erreur de position spécifique.

3. erreur corrigée de séquençage de l’ARN

Outre l’évaluation des mutations au niveau de l’ADN, intégrer l’ECS avec divers panneaux de séquençage de RNA ciblées pour détecter la transcription abondance rare ou faible au niveau du RNA. En combinant ECS avec les panneaux de séquençage de Qiagen RNA sur étagère, nous avons démontré une quantification numérique de l’expression génique de transcriptions avec aussi peu que dix copies sans un besoin de normalisation contre un gène de ménage. Les UMIs requis pour corriger des erreurs ont été intégrés dans le panneau.
1. Effectuer l’extraction de l’ARN totale (Table des matières, point 20).
2. Procéder à la préparation de bibliothèque d’ECS-ARN selon le protocole du fabricant (Table des matières, point 19).
3. Effectuer la bioinformatique pipeline selon l’étape 2.5.1–2.5.6. Méthode 2 décrite dans la section précédente. Après l’étape 2.5.6, le nombre de lectures de consensus alignés par gène représente le niveau d’expression du gène sans la nécessité d’une normalisation de longueur de gène.

Representative Results

Avec Targeted Error-Corrected, séquençage d’ADN, nous avons effectué une preuve d’expérience principe diluant mutant patient ADN dans l’ADN génomique commerciale. Le patient a subi une mutation dans GATA1 (chrX:48650264, C > G) avec VAF original de 0,19. Nous avons démontré à la Figure 1 que ECS quantitative à un niveau de 1/10 000 pour la variante de nucléotide.

Figure 1 : série de dilutions de SNV GATA1 démontrant que l’ECS est quantitative au niveau de 1/10 000. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Nous montrons également que l’ADN de ECS détecte avec fiabilité rares mutations clonales dans les gènes de façon récurrente dans la leucémie myéloïde aiguë (AML) adulte en bonne santé personnes âgées⁴. Nous avons obtenu des échantillons de la couche leuco-plaquettaire de 20 personnes en bonne santé dans l’étude sur la santé de l’infirmière s’est incliné à peu près environ 10 ans d’intervalle. Nous avons appliqué le protocole du groupe ECS-ADN sur ces échantillons. Pour cette expérience, nous avons adapté les Illumina TruSight myéloïde séquençage panneau qui se compose des 568 amplicons (plus d’informations sur liste de gène sur https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html) et séquencé 80 bibliothèques à partir de 20 personnes (2 collections à des moments différents, 2 répétitions par personne par heure point) en utilisant la plate-forme Illumina NextSeq, qui a généré une moyenne de 47,7 millions de lectures jumelé en bout et une moyenne de 3,4 millions erreur-corrigé séquences consensus par bibliothèque⁴. La couverture moyenne des nucléotides par bibliothèque était d’environ 6 000 x (3,4 millions divisées par 568). Pour chaque échantillon, nous avons construit un profil erreur position spécifique en utilisant les librairies séquencées qui ne sont pas du même échantillon. Nous avons trouvé 109 mutations somatiques clonales qui n’existaient pas dans les deux séries de point dans le temps au moins une collection. Ces mutations ont VAF allant de 0,0003 – 0.1451. Nous sélectionné 21 mutations avec représentations connues de cosmique et validé toutes les 21 mutations dans un ou deux temps point d’émergence à l’aide de ddPCR (n = 34, Figure 2, adapté du jeune al 2016⁴).

Figure 2 : Mutations identifiées par ECS ont été vérifiées par l’intermédiaire de ddPCR avec VAFs très concordantes. (n = 34, modifiée du jeune al 2016⁴). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

En ce qui concerne le niveau d’expression erreur corrigée à l’aide du protocole d’ECS-ARN, nous avons adapté un panel de gène à l’aide de la chimie de QIAseq qui se compose de 416 gènes connus pour être associés aux divers cancers (adaptés de QIAseq humain Cancer Transcriptome panneau) et nous amplifié l’exon plus couramment exprimé d’un gène donné (liste de gène dans 1 de matériel supplémentaire). Nous avons séquencé les bibliothèques avec plate-forme Illumina MiSeq au format jumelé-fin qui donne une moyenne de 8,3 millions de lectures par la bibliothèque, et nous avons réussi à capturer des séquences consensus erreur corrigée 0,417 millions en moyenne. Nous avons démontré que le niveau d’expression de transcription de faible abondance (< comte de transcription de 1 000 à 50 ng d’ARN total) est hautement reproductible entre les répétitions (données point n = 300, Figure 3). Validation de ddPCR (six gènes sélectionnés de degré variable de l’expression) a démontré que le niveau d’expression de gènes avait été correctement capturé par le protocole ECS sans la nécessité d’une normalisation.

Figure 3 : haut, corrélation de transcription compte par ECS-ARN entre les répétitions d’un même échantillon (n = 300). Bas, transcription chefs identifiés par ECS ont été vérifiés par la ddPCR (n = 6). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Discussion

Ici, nous démontrons une suite de protocoles de séquençage de l’erreur-corrigé pouvant être facilement mises en œuvre afin d’étudier les mutations avec VAFs faibles dans différentes maladies. Le facteur le plus important est l’incorporation de UMIs avec chaque molécule avant séquençage car ils permettent la correction d’erreurs des lectures brutes. Les méthodes décrites ici permettent aux chercheurs d’incorporer UMIs personnalisés aux panneaux de gène commercialement disponibles et individu-conçues oligos de gène-spécifique.

Protocole standard de NGS s’oppose à la détection des mutations avec VAF inférieure à 2 % en raison du taux d’erreur de séquençage, et cela limite l’application de NGS dans les études où la détection de variants rares est cruciale. En contournant le taux d’erreur standard de NGS, ECS permet la détection sensible de ces variantes brutes. Par exemple, détection de mutations pathogènes lorsque ces mutations surviennent tout d’abord (donc avoir VAF faible) est impérative d’informer l’intervention précoce de la maladie¹⁴^,¹⁵. Dans la recherche sur la leucémie, la détection du résiduel minimal maladie (après le traitement des cellules leucémiques résiduelles) informe la stratification du risque et pourrait être utilisée pour informer des options de traitement de manière que les évaluations de cytométrie en flux binaire ne peut pas. En outre, ECS s’applique pour détecter des acides nucléiques tumorales circulantes et d’évaluer le potentiel métastatique chez les patients de tumeur solide en évaluant la présence/absence, ainsi la charge variant de certaines mutations qui sont caractéristiques du primaire ¹⁶de tumeur.

Comme le montre le tableau 1, le pouvoir d’utiliser le modèle d’erreur de position spécifique axée sur la distribution binomiale pour appeler les variantes dépend en grande partie le nombre de bibliothèques séquencés ainsi que la profondeur du séquençage utilisée pour construire le modèle de l’erreur. La robustesse du modèle erreur augmente avec le nombre plus élevé d’échantillons et plus en profondeur le séquençage. Il est recommandé d’utiliser au moins 10 échantillons séquencés avec une moyenne de correction erreur lecture couverture de 3000 x par exemple pour créer un profil d’erreur pour chaque échantillon. L’approche axée sur la position est similaire à MAGERI, mais au lieu d’utiliser un taux d’erreur global pour tous les six types différents de substitution (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)¹³, nous modélisons chaque substitution indépendamment à chaque position. Par exemple, un taux d’erreur de C > T à une position donnée génomique est différent d’un autre poste. Notre démarche tienne également compte un effet de lot de séquençage, comme le taux de substitution base observé en un seul passage de séquençage pourrait être différent d’une autre course. C’est pourquoi il est important de modéliser chaque poste pour tous les types de substitution, surtout quand les échantillons de séquençage différents cycles d’essai sont mis en commun pour construire le modèle.

Une considération importante lors de la conception d’une expérience de l’ECS est le seuil de détection souhaitée. La beauté des études NGS est qu’ils peuvent être facilement redimensionnées en ce qui concerne les gènes et les objectifs d’intérêt, seuil de détection (dépend de la profondeur de séquençage) et nombre de personnes interrogées. Par exemple, si les chercheurs s’intéressent à trouver des mutations rares dans deux amplicons avec un seuil de détection de 0,0001, ils peuvent mettre au maximum 75 échantillons en une séquence unique exécuté à l’aide de chimie MiSeq V2 qui génère jusqu'à 15 millions de lectures (2 amplicons * 10 000 molécules * 10 lit pour corriger des erreurs * 75 échantillons = 15 millions séquençage lectures). Les chercheurs peuvent varier le nombre de molécules d’entrer dans la séquence ou le nombre d’échantillons groupés en une séquence unique pour régler le seuil de détection. Dans nos études, nous avons cherché à trouver avec un seuil de détection des mutations de 0,0001 VAF (01:10, 000) en utilisant le panneau de gène Illumina. Nous utilisons systématiquement 250 ng de démarrage ADN pour s’assurer que les molécules suffisantes sont saisis afin d’atteindre le seuil de détection susmentionnés. Les chercheurs peuvent choisir de commencer par la plus faible quantité d’ADN (50 ng est recommandé) si la limite de détection souhaitée est > 0,001 VAF.

Comme les UMIs sont ajoutés sur les index d’i5, paramètres de séquencement doivent être modifiées en conséquence. Par exemple, nous avons utilisé 16 N UMIs et les réglages de séquençage étaient fin paires 2 x 144 lectures, 8 cycles d’Index 1 et 16 d’indice 2 au lieu de l’habituels 8 cycles d’Index 2. L’augmentation de l’indice 2 cycle est compensée par une diminution du nombre total de cycles alloués pour le lit. Si chercheurs choisissent d’utiliser 12N UMIs¹⁰^,¹⁷, les paramètres doivent être changés en 12 cycles de Index 2.

Cette méthode de séquençage de l’UMI-basé est optimisée pour corriger les erreurs de séquençage. Il reste sous-optimal en traitant de jackpotting PCR, qui est un problème pour toute méthode basée sur l’amplification. Nous avons effectué des séances d’après séquençage et validation post-bio-informatique à l’aide de ddPCR, et nous peine détecter des faux positifs en raison de jackpotting PCR. Néanmoins, il est recommandé que les chercheurs mener les expériences à l’aide de haute-fidélité polymérase pour s’assurer que les erreurs de l’amplification basse.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Nous remercions les participants à l’étude de Oncology Group AAML1531 de l’enfance et de la Nurses' Health Study pour leurs contributions sous forme d’échantillons de patients. Ce travail a été financé par le National Institutes of Health (UM1 CA186107, CA49449 RO1 et RO1 CA149445), Discovery Institute de Washington University l’enfance et hôpital (MC-II-2015-461) pour enfants de Saint-Louis et Eli Seth Matthews leucémie Fondation.

Materials

Name	Company	Catalog Number	Comments
Q5 High Fidelity Hot Start Master Mix	New England BioLabs	M0492S
Agencourt AMPure XP	Beckman Coulter	A63880
Qubit dsDNA HS Assay Kit	Thermo Fisher Scientific	Q32854
SYBR Safe DNA Gel Stain	Thermo Fisher Scientific	S33102
Truseq Custom Amplicon Index Kit	Illumina	FC-130-1003
UMI i5 adapter sequences	Integrated DNA Technologies	-
NEBNext Ultra End Repair/dA-Tailing Module	New England BioLabs	E7442S
NEBNext Ultra II Ligation Module	New England BioLabs	E7595S
QX200 ddPCR EvaGreen Supermix	Bio-Rad	1864034
QX200 Droplet Generation Oil for EvaGreen	Bio-Rad	1864005
QX200 Droplet Digital PCR System	Bio-Rad	1864001
ddPCR 96-Well Plates	Bio-Rad	12001925
DG8 Cartridges for QX200/QX100 Droplet Generator	Bio-Rad	1864008
DG8 Gaskets for QX200/QX100 Droplet Generator	Bio-Rad	1863009
Bioanalyzer	Agilent Genomics	G2939BA
TapeStation	Agilent Genomics	G2991AA
TruSight Myeloid Sequencing Panel	Illumina	FC-130-1010
Bowtie 2	Johns Hopkins University	-
Customized QIAseq Targeted RNA Panel	Qiagen	-
Rneasy Plus Mini Kit (50)	Qiagen	74134