Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Détection de rares variantes génomiques à partir de séquençage regroupés à l'aide SPLINTER

Published: June 23, 2012 doi: 10.3791/3943

Summary

Séquençage de l'ADN groupé est une stratégie rapide et rentable de détecter les variants rares associés à des phénotypes complexes dans de grandes cohortes. Nous décrivons ici l'analyse computationnelle de mise en commun, séquençage de prochaine génération de 32 gènes liés au cancer en utilisant le logiciel SPLINTER. Cette méthode est évolutive, et applicable à tout phénotype d'intérêt.

Abstract

Comme la technologie de séquençage d'ADN a nettement progressé ces dernières années 2, il est devenu de plus en plus évident que le montant de la variation génétique entre deux individus quelconques est supérieure qu'on ne le pensait 3. En revanche, basée sur la baie de génotypage n'a pas réussi à identifier une contribution significative de variantes de séquences communes à la variabilité phénotypique de la maladie commune 4,5. Pris ensemble, ces observations ont conduit à l'évolution de la maladie commune / hypothèse variante rare ce qui suggère que la majorité de la «héritabilité manquant» dans phénotypes communs et complexe est plutôt due à profil personnel d'un individu de variants d'ADN rares ou privé 6-8 . Toutefois, caractériser la manière dont la variation influe rares phénotypes complexes nécessite l'analyse de nombreuses personnes touchées à de nombreux loci génomiques, et est idéalement par rapport à une enquête similaire dans une cohorte affectée. Malgré la puissance offerte par les plates-formes de séquençage d'aujourd'hui, unbasée sur la population des loci génomiques de nombreux et l'analyse subséquente de calcul nécessaire reste prohibitif pour de nombreux chercheurs.

Pour répondre à ce besoin, nous avons développé une approche de séquençage en commun 1,9 et un paquet de nouveaux logiciels de détection de 1 pour la variante haute précision rare à partir des données qui en résultent. La capacité de génomes piscine à partir des populations entières de personnes touchées et de l'enquête du degré de variation génétique au niveau de plusieurs régions ciblées dans une bibliothèque de séquençage simple offre d'excellentes économies de temps et à la méthodologie de séquençage traditionnel échantillon unique. Avec une couverture moyenne par séquençage de l'allèle de 25 fois, notre algorithme personnalisé, SPLINTER, utilise une stratégie de variante de contrôle interne appelant à appeler des insertions, des suppressions et les substitutions jusqu'à quatre paires de bases en longueur avec une grande sensibilité et la spécificité de piscines allant jusqu'à 1 allèle mutant dans 500 individus. Nous décrivons ici la méthode pour la préparation de la mise en commun sequencing bibliothèque suivie d'une étape-par-étape sur la façon d'utiliser le package SPLINTER pour l'analyse de séquençage en commun ( http://www.ibridgenetwork.org/wustl/splinter ). Nous montrons une comparaison entre le séquençage commun de 947 personnes, qui ont tous également subi l'échelle du génome tableau, à plus de 20kb de séquençage par personne. Concordance entre le génotypage de marquage et de nouveaux variants appelés dans l'échantillon cumulé étaient excellents. Cette méthode peut être facilement mise à l'échelle jusqu'à un certain nombre de loci génomiques et n'importe quel nombre de personnes. En intégrant les contrôles internes amplicons positifs et négatifs à des taux qui imitent la population à l'étude, l'algorithme peut être calibré pour des performances optimales. Cette stratégie peut également être modifié pour une utilisation avec la capture d'hybridation ou spécifiques à l'individu des codes à barres et peut être appliquée au séquençage d'échantillons naturellement hétérogènes, tels que l'ADN tumoral.

Protocol

Cette méthode a été utilisée dans la recherche rapportés dans Vallania FML et al recherche. Génome 2010.

1. Exemple de mise en commun et de capture de PCR de loci génomiques ciblées

  1. Combinez un montant normalisé de l'ADN génomique de chaque individu dans votre piscine (s). Utilisation de 0,3 ng de l'ADN par personne et par réaction de PCR intégrera environ 50 génomes diploïdes par personne dans chaque réaction de PCR, ce qui améliore la probabilité d'amplification uniforme par allèle dans la piscine.
  2. Les séquences génomiques peuvent être obtenues auprès du NCBI ( http://www.ncbi.nlm.nih.gov/ ) ou UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Assurez-vous d'utiliser le "RepeatMasker" (marqué "N") lors de l'obtention de la séquence d'éviter de concevoir une amorce dans une région répétitive.
  3. Utilisez le Primer3 Web (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) l'utilité de concevoir des amorces en coupant et collant les régions génomiques d'intérêt ainsi que quelques séquences flanquantes (amplicons de 600-2000 pb sont généralement idéal) Les conditions optimales de conception d'amorces pour Primer 3 à être utilisés sont de 10: la taille minimum d'apprêt = 19; taille amorce optimale = 25; taille maximale d'apprêt = 30; minimum Tm = 64 ° C; Optimum Tm. = 70 ° C; maximum Tm = 74 ° C; maximum Tm = différence de 5 ° C; contenu minimum GC = 45; maximum la teneur en GC = 80; Nombre de retourner = 20 (ce qui est arbitraire), la stabilité extrémité 3 maximum "= 100 amorces de conception. pour amplifier tous les loci génomiques d'intérêt. Lors de la réception des amorces, des stocks lyophilisés peuvent être dilués dans 10 mM Tris, pH 7,5 + 0,1 mM EDTA à une concentration finale de 100 uM suivi par un supplément de 10h01 dilution dans le trou DDH 2 O à 10 um.
  4. Amplification par PCR: Nous recommandons l'utilisation d'une ADN polymérase haute fidélité pour amplifier génomique à grandeamplicons en raison de la faible taux d'erreur (10 -7) et la génération de produits terminés (émoussés cela est nécessaire pour l'étape de ligation en aval). Nous avons utilisé PfuUltra haute-fidélité, mais les enzymes présentant des caractéristiques similaires (telles que Phusion) devrait fournir des résultats comparables. Chaque réaction PCR contient une concentration finale de 2,5 U PfuUltra haute fidélité polymérase, une bétaïne M, 400 nM de chaque amorce, 200 pM dNTP, 1x PfuUltra tampon (ou un tampon contenant ≥ 2 mM de Mg 2 +, afin de maintenir enzymatique fidélité) , 5-50 ng d'ADN en commun dans un volume final de 50 ul. Utiliser les conditions de PCR suivantes: 1. 93-95 ° C pendant 2 minutes; 2. 93-95 ° C pendant 30 secondes; 3. 58-60 ° C pendant 30 secondes; 4. 65-70 ° C pendant 60-90 secondes pour amplicons de 250-500 pb / 1,5-3 minutes pour amplicons 500-1000 pb / 3-5 minutes pour amplicons> 1 kb; 5. Répétez les étapes 2-4 pour 25-40 cycles; 6. 65 ° C pendant 10 minutes; 7. 4 ° C en attente. Si nécessaire, les résultats de PCR peuvent généralement être améliorée par: 1)abaisser la température de recuit pour amplicons petites; 2) élévation de la température de recuit pour amplicons grandes; 3. l'allongement de la durée d'extension pour un amplicon.
  5. Préparation des contrôles SPLINTER: Chaque expérience SPLINTER nécessite la présence d'un contrôle positif et négatif d'obtenir une précision optimale. Un contrôle négatif peut être constitué de toutes les positions de base homozygotes dans tout individu, à code à barres échantillon qui a été précédemment séquencés (par exemple un échantillon HapMap). Le contrôle positif alors constitués d'un mélange de deux ou plusieurs de tels échantillons. Pour ce rapport, le contrôle négatif est une région 1934 pb amplifié à partir de l'épine dorsale du vecteur M13mp18 ADNsb. Le produit de PCR a été séquencé Sanger avant son utilisation afin de confirmer qu'aucune variation de la séquence existe du matériel d'origine ou de l'amplification par PCR. Le contrôle positif est constitué d'un panel de vecteurs pGEM-T Facile à quelques 72 pb clonés insérer conçu avec des insertions, des suppressions spécifiques substitutions (Tableau 1). Mixer les vecteurs ensemble contre un fond de type sauvage dans des rapports molaires tels que les mutations sont présents à la fréquence d'un seul allèle dans la piscine (par exemple pour une piscine de 100 allèle, la fréquence d'un seul allèle est de 1%). Nous avons ensuite amplifier par PCR le modèle de contrôle mixte en utilisant les sites d'amorce M13 CSP dans pGEM-T Easy, générant une finale 355bp produit PCR longue.

2. Pooled Préparation Bibliothèque PCR et séquençage

  1. Produit de PCR mise en commun: Chaque produit de PCR doivent être nettoyés des amorces en excès. Nous avons utilisé la purification Qiagen colonne Qiaquick ou 96 puits filtrants avec rampe à vide à grande échelle de nettoyage. Après purification, chaque produit doit être quantifiée par PCR en utilisant des techniques standard. Combiner chaque produit de PCR (y compris les contrôles) dans une piscine normalisé par le nombre molécule mise en commun par la concentration se traduira par la surreprésentation des petites amplicons ovproduits er grandes. Concentrations sont convertis en le nombre absolu de molécules d'ADN par volume en utilisant la formule: (g / pi) x (1 x mole pb / 660 g) x (1 / # pb dans amplicon) x (6 x 10 23 molécules / 1 mol molécules) = / ul. Nous avons ensuite déterminer le volume de chaque réaction nécessaire de mettre en commun un certain nombre normalisée de molécules par amplicon. Ce nombre est arbitraire, peut être ajustée et dépend vraiment de prélever des volumes assez grands pour maintenir la précision. Nous rassemblent généralement les 1-2 x 10 10 molécules de chaque amplicon.
  2. La ligature des produits de PCR: Cette étape est nécessaire pour atteindre une couverture de séquençage uniforme sonication des amplicons petites biaisé leur représentation vers leurs extrémités. Pour surmonter cette difficulté, nous ligaturer les produits mélangés PCR dans concatémères grandes (> = 10 Ko) avant la fragmentation. Pfu Ultra HF polymérase génère des extrémités franches, ce qui conduit à la ligature efficace (une Taq polymérase basée sur ajoutera une 3p "A" faux qui n'est pas unligature llow sans l'accord préalable fill-in ou émousser). Cette réaction peut être mise à l'échelle jusqu'à 2-3 fois si nécessaire. La réaction de ligature contient 10 U T4 polynucléotide kinase, 200 U de ligase T4, 15% w / v polyéthylène, 1X tampon de ligase T4, glycol 8000 MW, en hausse de 2 ug de mise en commun des produits de PCR dans un volume final de 50 ul. Les réactions sont incubées à 22 ° C pendant 16 heures, suivi par 65 ° C pendant 20 minutes et maintenue à 4 ° C par la suite. Le succès de cette étape peut être vérifié par le chargement de 50 ng d'échantillons dans un gel d'agarose 1%. Ligature réussie entraînera dans une bande présents poids moléculaire élevé dans la voie (voir la figure 2, piste 3).
  3. Fragmentation de l'ADN: A ce stade, vous devriez avoir concatémères grandes (> 10ko) de produits de PCR. Nous avons une stratégie sonication aléatoire en utilisant un échantillon de 24 Diagenode Bioruptor sonicateur susceptibles de fragmenter ces concatémères en 25 minutes (40 sec "sur" / 20 sec "off" par minute). Sonication est inhibée par la viscosité introduit par le PEG, de sortecela peut être surmonté en diluant l'échantillon 10:1 dans Qiagen tampon PB. Les résultats peuvent être vérifiés sur un gel d'agarose 2% (voir la figure 2, lignes 4 & 5).
  4. L'échantillon est prêt à intégrer directement dans la bibliothèque génomique début Illumina protocole de préparation d'échantillon avec le "Réparer End" étape. Les données rapportées ici sont tirées seule fin de lit sur le IIx Illumina Genome Analyzer, mais nous avons utilisé le HiSeq 2000 et réalisée unique ou de paires de fin lit avec des résultats comparables. Étant donné l'ampleur de la bibliothèque créée, nous avons également utilisé des adaptateurs personnalisés à code-barres afin de multiplexer plusieurs bibliothèques regroupées pour accueillir la bande passante fournie par la plate-forme HiSeq (données non présentées). Suivez le protocole du fabricant et les recommandations qui viennent avec le kit. Afin d'atteindre une sensibilité et une spécificité optimales pour la détection variante, la couverture cible de 25 fois ou plus par allèle est recommandé (Figure 3). Cette estimation est indépendante de la taille du poolet le type de la variante à détecter. Si nécessaire, plusieurs voies et des pistes peuvent être combinés pour atteindre une couverture adéquate.

3. Séquençage Lit alignement et de l'analyse

  1. La compression de fichiers et de mise en forme: premières fichiers lus séquençage devrait être soit convertis en format comprimé ou FOULARD. La compression est facultative car elle fait gagner du temps et d'espace pour les étapes ultérieures d'analyse sans pour autant perdre toute information pertinente. Ce résultat est obtenu en utilisant le script inclus RAPGAP_read_compressor_v2.pl avec la commande suivante:
    ./RAPGAP_read_compressor_v2.pl [Fichier Lire]> [Lire le fichier compressé]
    Acceptés lire les formats d'entrée de fichiers sont FOULARD et FASTQ, soit compressé ou non compressé:
    Par exemple le format FOULARD:
    HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
    Format de FASTQ par exemple:
    @ HWI-EAS440_7_1_0_410 # 0/1
    NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
    +
    Et / 8888888888888888888854588767777666!
  2. Brute alignement suit: Le lectures brut peut maintenant être aligné avec la séquence de référence FASTA annotée, spécifiques des régions cibles incluses dans les réactions de PCR, ainsi que l'positives et les contrôles négatifs. L'alignement peut être réalisée en utilisant le RAPGAPHASH5d alignement, outil. Le format d'entrée à ce point doit être FOULARD ou compressé. La commande pour l'alignement est la suivante:
    ./RAPGAPHASH5d [Lire comprimé fichier] [fichier FASTA] [nombre de modifications a permis]> [alignés fichier]
    Le nombre de décalages par lecture qui sont autorisés par rapport à la séquence de référence est un paramètre défini par l'utilisateur. Lectures qui ont un trop grand nombre de mésappariements seront rejetées. Nous recommandons de prévoir 2 décalages pour 36 lectures bp, 4 décalages pour 76 pb lit et 5 pour 101 pb inadéquations lit. Permettre plus de décalages augmentera la probabilité de permettre aux excès des erreurs de séquençage dans le aligned données. Comme longueurs lire continueront à devenir plus, cette valeur peut être augmentée.
  3. Étiquetage aligné fichiers à partir de la cuve à circulation même: A ce stade, l'ensemble aligné de lire le fichier doit être un identificateur unique («tag») afin d'identifier les fichiers lus appartenant à la course séquençage même (c.-à-plusieurs voies de la cuve à circulation même peuvent être agrégées et étant donné une seule étiquette). La balise est nécessaire parce que chaque marche de la machine génère un profil d'erreur unique qui peut être caractérisé par l'intermédiaire de la balise. Une balise est une chaîne alphanumérique de caractères utilisé pour distinguer un ensemble de lectures (le caractère de soulignement "_" ne devrait pas être utilisé pour des questions d'analyse). Différentes balises devrait être utilisé pour les fichiers de lecture alignés générés sur flowcells différentes pistes ou de la machine. Les tags peuvent être ajoutés à l'aide de la RAPGAP_alignment_tagger.pl inclus avec la commande suivante:
    . / RAPGAP_alignment_tagger.pl [fichier alignés] [TAG]> [alignés fichier balisé]
    Après ce point, alignéfichiers de la bibliothèque même généré sur plusieurs flowcells différents peuvent être combinés ensemble comme leurs étiquettes respectives va les garder séparés.
  4. La génération du modèle d'erreur: Comme mentionné ci-dessus, chaque marche de la machine génère un profil unique d'erreur de séquençage qui doit être caractérisé pour les appels variante précise. Pour modéliser ces erreurs pour chaque marche de la machine, une séquence de contrôle interne connu pour être dépourvu de variation de séquence est incluse dans chaque bibliothèque échantillonnée. A partir du fichier aligné marqués, un fichier modèle d'erreur peuvent être générés en utilisant le EMGENERATOR4 outil inclus avec la séquence de référence de contrôle négatif. Tout la séquence de contrôle négatif peut être utilisé ou bien seulement un sous-ensemble de celui-ci, spécifiés par le 5 'et 3' la plupart des bases de l'entrée. Unique lit et pseudocounts doit toujours être utilisé:
    ./EMGENERATOR4 [Fichier alignés étiqueté] [séquence de contrôle négatif] [nom du fichier de sortie] [5 'plus de base du contrôle négatif doit être utilisé] [3' plus de base dele contrôle négatif doit être utilisé] [uniques incluent lit uniquement? = Y] l'alignement [éditions de coupure] [entrez pseudocounts? = Y]
    L'outil va générer EMGENERATOR4 3 fichiers nommés en tant que paramètre de sortie nom du fichier suivie par _0, _1 _2 ou. Ces fichiers correspondent à un 0e, 1ère et 2ème modèle d'erreur afin, respectivement. Pour la variante de l'appel avec SPLINTER, le modèle d'ordre 2 d'erreur doit toujours être utilisé.
  5. Pour visualiser le profil de taux d'erreur d'une course, le error_model_tabler_v4.pl peut être utilisé pour générer une parcelle d'erreur sur le fichier PDF afin de modèle d'erreur 0th (Figure 4):
    ./error_model_tabler_v4.pl [modèle d'erreur pour le fichier 0e] [nom du fichier de sortie]
    Le fichier de tracé sera de dégager des tendances d'erreur d'exécution spécifiques et peut être utilisé pour en déduire le nombre maximal de bases de la lecture à être utilisées pour l'analyse, ce qui est expliqué dans la section suivante.

4. Détection variante rare Utilisation SPLINTER

  1. Variante calling par SPLINTER: La première étape de l'analyse consiste à exécuter l'outil SPLINTER sur le fichier alignées en utilisant le modèle d'erreur et la séquence de référence. La commande de le faire est la suivante:
    ./SPLINTER6r [Alignés fichier balisé] [fichier FASTA] [2e fichier modèle afin d'erreur] [nombre de bases de lire à être utilisés] [lire des bases ou des cycles à exclure] [p-valeur de coupure = -1,301] [usage unique lit = Y] l'alignement [éditions de coupure] taille du pool [parmi les options disponibles] [imprimer la couverture absolue par brin = Y]> fichier SPLINTER []
    Le nombre de bases de lecture à être utilisés varie et doit être évaluée en fonction de chaque course. En général, nous recommandons d'utiliser les 2/3rds premiers de la lecture, car ils représentent les données de haute qualité (les 24 première lecture bases d'une longue 36bp lire, par exemple). Simple bases de lecture peuvent être exclus de l'analyse si elle est jugée défectueuse (séparées par une virgule ou par exemple N ou N 5,7,11). Le seuil de p-valeur dicte la façon dont l'analyse rigoureuse d'appel variante va être. Nous nenormalement commencer l'analyse en permettant une coupure minimum de -1.301 (correspondant à une valeur de p ≤ 0,05 log10 dans l'échelle). L'option de la taille du pool optimise l'algorithme "signal-bruit" discrimination en éliminant les variantes possibles avec la fréquence des allèles mineures inférieure à celle d'un seul allèle dans la piscine réelle. Par exemple, dans une piscine de 50 individus, le plus bas observé variante on peut s'attendre à 0,01 fréquence ou 1 sur 100 allèles. Ainsi, l'option de taille de la piscine doit être réglé à la valeur la plus proche qui est plus grand que le nombre réel d'allèles analysés dans l'expérience (par exemple, si 40 personnes sont interrogées, nous nous attendons à 80 allèles de sorte que le plus proche option serait une taille de pool de 100) . Variantes appelés à des fréquences <0,01 seront alors ignorées comme du bruit. Ce fichier renvoie tous les résultats qui sont statistiquement significatives à travers l'échantillon, avec une description de la position de la variante, le type de variante, p-valeur par brin d'ADN, la fréquence de la variante et la couverture totale par des brins d'ADN (
  2. La normalisation de couverture pour les variantes dites: les fluctuations de la couverture à travers l'échantillon peut générer coups parasites. Cela peut être corrigé en appliquant le script splinter_filter_v3.pl comme suit:
    ./splinter_filter_v3.pl [fichier SPLINTER] [Liste des fichiers] [rigueur]> [SPLINTER fichier normalisé]
    où le fichier contenant la liste est une liste de hits témoins positifs sous la forme d'un fichier délimité par des tabulations.
    Le premier champ indique l'amplicon d'intérêt, tandis que le deuxième champ indique la position dans laquelle la mutation est présente. N signifie que le reste de la séquence ne contient pas une mutation.
  3. Déterminer les meilleures p-valeur des seuils en utilisant les données de contrôle positif: Après la normalisation, l'analyse du contrôle positif est indispensable pour maximiser la sensibilité et la spécificité d'une analyse de l'échantillon particulier. Cela peut être obtenu en trouvant la valeur de p optimale de coupure en utilisant l'informationtion du contrôle positif. Très probablement, la première p-valeur de -1,301 ne sera pas suffisamment rigoureuses, ce qui le cas échéant, se traduira par la convocation de faux positifs du contrôle positif ou négatif. Toute analyse SPLINTER montrera la réelle valeur de p pour chaque variante dite (voir les colonnes 5 et 6 dans le tableau 2), qui ne pouvait pas être prévu a priori. Cependant, toute l'analyse peut être répétée en utilisant le moins strictes p-valeur affichée sur la sortie initiale pour les vrais connues les positions de base positifs. Cela servira à conserver tous les vrais positifs alors que la plupart hors, sinon la totalité, des faux positifs et ils ont généralement p-valeurs beaucoup moins importante par rapport à de vrais positifs. Pour automatiser ce processus, le cutoff_tester.pl peut être utilisé cutoff_tester.pl nécessite un fichier de sortie SPLINTER et une liste des hits de contrôle positifs sous la forme d'un fichier délimité par des tabulations que celui utilisé pour la normalisation.:
    . / Cutoff_tester.pl filtre SPLINTER [fichier ed] [liste des fichiers]
    Le résultat obtenu sera une liste des seuils qui, progressivement, d'atteindre la solution optimale (voir tableau 3). Le format est le suivant:
    [Distance de la sensibilité et la spécificité max] [sensibilité] [spécificité] [coupure]
    par exemple:
    7.76946294170104e-07 1 0.999118554429264 -16.1019999999967
    La dernière ligne représente le seuil de la plus optimale pour la course et peut donc être utilisé pour l'analyse des données. Le résultat optimal est d'atteindre une sensibilité et une spécificité de 1. Dans le cas où ce résultat n'est pas atteint, l'analyse peut être répétée SPLINTER en changeant le nombre de bases constituée lire jusqu'à ce que la condition la plus optimum est atteint.
  4. Dernière variante filtrage: Le coupure définitive peut être appliquée à des données à l'aide de script cutoff_cut.pl, qui filtrent le fichier de sortie de résultat SPLINTER-dessous de la coupure optimale,
    . / Cutoff_cut.pl [SPLINTER fichier filtré] [coupure]> [SPLINTER finalefichier]
    Cette étape va générer le fichier de sortie définitive SPLINTER, qui contiendra les SNP et les indels présents dans l'échantillon. S'il vous plaît noter que la sortie pour les insertions est légèrement différente de celle des substitutions ou des délétions (tableau 2).

5. Les résultats représentatifs

Nous avons regroupé une population de 947 individus et ciblée de plus de 20 ko pour le séquençage. Nous avons appliqué SPLINTER pour la détection de variants rares à la suite de notre protocole standard. Chaque individu avait déjà avait génotypage effectué par l'ensemble du génome génotypage tableau. Concordance entre le génotypage de marquage et de nouveaux variants appelés dans l'échantillon cumulé étaient excellents (Figure 6). Trois variantes, dont deux (rs3822343 et rs3776110) étaient rares dans la population, ont été appelés de novo à partir des résultats de séquençage et ont été validés par pyroséquençage individuelle. La fréquence des allèles mineurs (CRG) dans la piscine étaient semblables au CRG rapporté dans dbSNP build 129. La concordance entre les CRG pyroséquençage et le séquençage en commun était excellente (Tableau 3).

Tableau une
Tableau 1. Séquences oligonucléotidiques d'ADN pour le contrôle positif. Chaque séquence se compose d'un fragment d'ADN différente de la référence de type sauvage soit par deux substitutions ou une insertion et une suppression. Cliquez ici pour agrandir l'image .

Tableau 2
Tableau 2. Exemple de sortie SPLINTER. Les deux premières lignes représentent la sortie SPLINTER standard pour une substitution ou une délétion (en-tête bleu). La dernière ligne représente la sortie standard pour SPLINTER une insertion (en-tête violet).rget = "_blank"> Cliquez ici pour agrandir l'image.

Tableau 3
Tableau 3. Cinq connu et trois nouveaux variants ont été identifiés à partir de grandes populations et validés par génotypage individuel. Validation individuelle a été réalisée par pyroséquençage (lignes 1-3), Taqman (lignes 4-6) ou de séquençage Sanger (lignes 7,8). Pour une large gamme de fréquences des allèles et dont cinq positions avec CRG <1%, la concordance entre l'estimation allèle commun fréquence séquençage et de génotypage individuel a été forte. Positions marquées d'un astérisque (*) sont adaptés à partir de données antérieurement déclarées 9.

Figure 1
Figure 1. Pooled-séquençage de l'ADN et l'analyse aperçu SPLINTER. L'ADN du patient est mis en communet amplifié à des loci sélectionnés. Les produits finaux de PCR sont regroupés avec un contrôle positif et négatif à des rapports équimolaires. Le mélange est mis en commun puis séquencés et les lectures qui en résulte sont mappés à leur référence. Mappé lectures témoin négatif sont utilisés pour générer un modèle d'erreur d'exécution spécifique. SPLINTER peut alors être utilisé pour détecter les SNP rare et indels en intégrant l'information à partir du modèle d'erreur et le contrôle positif. [Adapté de Vallania FLM et al, Genome Research 2010] Cliquez ici pour agrandir l'image .

Figure 2
Figure 2. Ligature Pooled amplicon PCR et sonication. Comme une démonstration de la ligature et la fragmentation des mesures aléatoires dans le protocole de préparation bibliothèque, vecteur pUC19 a été une digestion enzymatique pour les fragments indiqués dans la voie 2. Ces fragments ont été normabilisées par le nombre molécule, combinée au hasard et ligaturé selon l'étape 1.7 ci-dessus. Les concatémères résultant grandes sont présentés dans le couloir 3. Les concatémères ligaturées étaient également divisés et soumis à sonication comme décrit à l'étape 1.8 ci-dessus. Le frottis résultant de fragments d'ADN pour chaque répétition technique sont présentés dans les couloirs 4 et 5. Le support met en lumière la gamme de taille utilisé pour l'extraction de gel et de création de bibliothèques de séquençage.

Figure 3
Figure 3. Précision en fonction de la couverture pour un seul allèle dans un groupe d'échantillons. La précision est estimée comme l'aire sous la courbe (ASC) d'une courbe Receiver Operator (ROC), qui varie de 0,5 (au hasard) à 1,0 (la précision parfaite). ASC est tracée en fonction de la couverture par allèle pour la détection des allèles mutants simples dans les piscines d'allèles 200, 500 et 1000 (A). ASC est tracée en fonction de la couverture totale pour les substitutions, insertions et deletions (B). [Adapté de Vallania FLM et al, Genome Research 2010].

Figure 4 Figure 4. Terrain d'erreur indique la probabilité d'intégrer une base erronée à une position donnée. Le profil d'erreur montre les taux d'erreur faible avec une tendance croissante vers l'extrémité 3 'du séquençage lire. Notamment, les nucléotides de référence différentes d'afficher les probabilités d'erreur différents (voir par exemple la probabilité d'intégrer une donnée C un G comme référence). [Adapté de Vallania FLM et al, Genome Research 2010].

Figure 5
Figure 5. Précision de SPLINTER dans l'estimation de la fréquence des allèles pour les postes qui avaient une couverture supérieure à 25 fois par allèle. Basé sur les résultats dans le Panneau de A, Figure 3, montrant une sensibilité optimale pour la détection seule variante avec ≥ 25 fois la couverture, uncomparaison entre la fréquence des allèles en commun d'ADN-estimés par SPLINTER avec les chiffres mesurés par les résultats des allèles GWAS en très forte corrélation (r = 0,999). [Adapté de Vallania FLM et al, Genome Research 2010].

Figure 6
Figure 6. Comparaison entre la fréquence des allèles mesurées par rapport aux estimations GWAS éclat de séquençage en commun de 974 personnes. Il y avait 19 positions communes entre les loci génotypés et les régions de séquences pour la comparaison. La corrélation obtenue est très élevée (r = 0,99538). Cliquez ici pour agrandir la figure .

Discussion

Il ya des preuves croissantes que l'incidence et la réponse thérapeutique des communes, des phénotypes complexes et des maladies comme l'obésité 8, l'hypercholestérolémie 4, 7 et l'hypertension que d'autres peuvent être animée par des profils personnels de variation rare. Identifier les gènes et les voies où ces variantes globales dans les populations touchées ont de profondes implications diagnostiques et thérapeutiques, mais l'analyse les personnes touchées séparément peut prendre du temps et de coûts prohibitifs. Basée sur la population d'analyse offre une méthode plus efficace pour l'arpentage variation génétique à des loci multiples.

Nous présentons une nouvelle mise en commun d'ADN protocole de séquençage jumelé avec le logiciel SPLINTER conçu pour identifier ce type de variation génétique entre les populations. Nous démontrons l'exactitude de cette méthode dans l'identification et la quantification des allèles mineurs au sein d'une population importante mise en commun de 947 personnes, y compris les variantes rares qui étaientappelé de novo à partir du séquençage commun et validé par pyroséquençage individuelle. Notre stratégie se différencie principalement de protocoles autres par l'incorporation d'un positif et un contrôle négatif au sein de chaque expérience. Cela permet d'atteindre une précision SPLINTER beaucoup plus élevé et la puissance par rapport à d'autres approches 1. La couverture optimale de 25 fois par allèle est fixé indépendamment de la taille de la piscine, faisant l'analyse de grands bassins possible que cette condition que les échelles de façon linéaire avec la taille du pool. Notre approche est très flexible et peut être appliquée à n'importe quel phénotype d'intérêt, mais aussi à des échantillons qui sont naturellement hétérogènes, tels que des populations de cellules mixtes et des biopsies tumorales. Compte tenu de l'intérêt sans cesse croissant dans le séquençage de mise en commun des régions cibles importantes telles que la exome ou du génome, notre préparation bibliothèque et de l'analyse SPLINTER est compatible avec mesure de capture et l'ensemble de exome séquençage, mais l'utilité d'alignement dans le paquet SPLINTER n'était pas conçu pour grandséquences de références. Par conséquent, nous avons utilisé avec succès l'alignement de la programmation dynamique, Novoalign, pour l'ensemble du génome alignements suivies par la variante d'appel de l'échantillon global (Ramos et al., Soumis). Ainsi, notre stratégie de séquençage en commun peut évoluer avec succès à de plus grandes piscines avec des quantités croissantes de la séquence cible.

Disclosures

Pas de conflits d'intérêt déclarés.

Acknowledgments

Ce travail a été financée par la subvention des enfants Discovery Institute MC-II-2006-1 (RDM et TED), le NIH épigénétique feuille de route de subvention [1R01DA025744-01 et 3R01DA025744-02S1] (RDM et FLMV), U01AG023746 (SC), le Saigh Fondation (FLMV et TED), 1K08CA140720-01A1 et Lemonade Alex Stand "Une" de soutien Prix (TED). Nous remercions le Centre d'accès Genome Technology dans le département de génétique de l'Université de Washington School of Medicine de l'aide pour l'analyse génomique. Le Centre est financé en partie par le NCI Cancer Support Centre Grant # P30 CA91842 au Centre du cancer Siteman et par ICTS / CSTC Grant # UL1RR024992 de la NationalCenter des ressources de recherche (NCRR), une composante de la National Institutes of Health (NIH), et NIH Roadmap for Medical Research. Cette publication est la seule responsabilité de leurs auteurs et ne représentent pas nécessairement l'opinion officielle de NCRR ou NIH.

Materials

Name Company Catalog Number Comments
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

DOWNLOAD MATERIALS LIST

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Tags

Génétique numéro 64 la génomique la biologie du cancer la bioinformatique séquençage de l'ADN Pooled SPLINTER rares variantes génétiques le dépistage génétique le phénotype à haut débit l'analyse computationnelle l'ADN la PCR des amorces
Détection de rares variantes génomiques à partir de séquençage regroupés à l&#39;aide SPLINTER
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vallania, F., Ramos, E., Cresci, S., More

Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter