Summary

Le dépistage de la fonctionnelle non-codant des variants génétiques utilisant mobilité électrophorétique Maj Assay (EMSA) et l'ADN-affinité Précipitations Assay (DAPA)

Published: August 21, 2016
doi:

Summary

We present a strategic plan and protocol for identifying non-coding genetic variants affecting transcription factor (TF) DNA binding. A detailed experimental protocol is provided for electrophoretic mobility shift assay (EMSA) and DNA affinity precipitation assay (DAPA) analysis of genotype-dependent TF DNA binding.

Abstract

Population and family-based genetic studies typically result in the identification of genetic variants that are statistically associated with a clinical disease or phenotype. For many diseases and traits, most variants are non-coding, and are thus likely to act by impacting subtle, comparatively hard to predict mechanisms controlling gene expression. Here, we describe a general strategic approach to prioritize non-coding variants, and screen them for their function. This approach involves computational prioritization using functional genomic databases followed by experimental analysis of differential binding of transcription factors (TFs) to risk and non-risk alleles. For both electrophoretic mobility shift assay (EMSA) and DNA affinity precipitation assay (DAPA) analysis of genetic variants, a synthetic DNA oligonucleotide (oligo) is used to identify factors in the nuclear lysate of disease or phenotype-relevant cells. For EMSA, the oligonucleotides with or without bound nuclear factors (often TFs) are analyzed by non-denaturing electrophoresis on a tris-borate-EDTA (TBE) polyacrylamide gel. For DAPA, the oligonucleotides are bound to a magnetic column and the nuclear factors that specifically bind the DNA sequence are eluted and analyzed through mass spectrometry or with a reducing sodium dodecyl sulfate polyacrylamide gel electrophoresis (SDS-PAGE) followed by Western blot analysis. This general approach can be widely used to study the function of non-coding genetic variants associated with any disease, trait, or phenotype.

Introduction

Des études de séquençage et de génotypage à base d'études, y compris l'ensemble du génome des études d'association (GWAS), des études de locus candidat, et profond de séquençage, ont identifié de nombreuses variantes génétiques qui sont statistiquement associés à une maladie, trait, ou d'un phénotype. Contrairement aux prévisions initiales, la plupart de ces variantes (85-93%) sont situées dans des régions non codantes et ne changent pas la séquence d'acides aminés des protéines 1,2. L' interprétation de la fonction de ces variantes non codantes et déterminer les mécanismes biologiques qui les relient à la maladie associée, trait ou un phénotype a révélé difficile 3-6. Nous avons développé une stratégie générale visant à identifier les mécanismes moléculaires qui lient les variantes à une importante phénotype intermédiaire – l'expression du gène. Ce pipeline est spécifiquement conçu pour identifier la modulation de la liaison par des variants génétiques TF. Cette stratégie combine les approches de calcul et des techniques de biologie moléculaire visant à prédireeffets biologiques des variants candidats in silico, et vérifier ces prédictions empiriquement (Figure 1).

Figure 1
Figure 1:.. Approche stratégique pour l'analyse des étapes non codantes variantes génétiques qui ne sont pas inclus dans le protocole détaillé associé à ce manuscrit sont en gris S'il vous plaît cliquer ici pour voir une version plus grande de cette figure.

Dans de nombreux cas, il est important de commencer en élargissant la liste des variantes à inclure tous ceux en haute liaison-déséquilibre (LD) avec chaque variante statistiquement associée. LD est une mesure d'association non aléatoire des allèles à deux positions chromosomiques différentes, qui peut être mesurée par la r 2 statistique 7. r 2 est une mesure du linkage déséquilibre entre deux variantes, avec un r 2 = 1 désignant liaison parfaite entre deux variantes. Allèles en haute LD se trouvent à la co-ségrégation sur le chromosome à travers les populations ancestrales. tableaux de génotypage actuels ne comprennent pas toutes les variantes connues dans le génome humain. Au lieu de cela, ils exploitent la LD dans le génome humain et comprennent un sous – ensemble des variantes connues qui agissent comme substituts pour les autres variantes dans une région particulière de LD 8. Ainsi, une variante sans aucune conséquence biologique peut être associée à une maladie particulière, car il est en LD avec la variante-causal variante avec un effet biologique significatif. La procédure, il est recommandé de convertir la dernière version de 1000 génomes projeter 9 fichiers variante d'appel (VCF) dans des fichiers binaires compatibles avec PLINK 10,11, un outil open-source pour toute analyse d'association du génome. Par la suite, toutes les autres variantes génétiques avec LD r 2> 0,8 avec chacun va génétique d'entréeRiant peut être identifié en tant que candidats. Il est important d'utiliser la population de référence appropriée pour ce beau – par exemple, si un variant a été identifié chez les sujets d'origine européenne, des données provenant de sujets d'ascendance similaires devraient être utilisés pour l' expansion de LD.

l'expansion LD se traduit souvent par des dizaines de variantes de candidats, et il est probable que seule une petite fraction de ceux-ci contribuent au mécanisme de la maladie. Souvent, il est impossible d'étudier expérimentalement chacune de ces variantes individuellement. Il est donc utile de tirer parti des milliers de jeux de données accessibles au public de génomique fonctionnelle comme un filtre pour prioriser les variantes. Par exemple, le consortium ENCODE 12 a effectué des milliers d'expériences de ChIP-seq décrivant la liaison de TFs et co-facteurs, et les marques de histones dans un large éventail de contextes, ainsi que des données chromatine d'accessibilité des technologies telles que DNase-seq 13, ATAC -seq 14 et suivants 15-FAIRE. Databases et les serveurs Web tels que le navigateur UCSC Genome 16, Feuille de route Epigenomics 17, Blueprint Epigénome 18, cistrome 19 et ReMap 20 offrent un accès gratuit aux données produites par ces autres techniques expérimentales et à travers un large éventail de types et conditions cellulaires. Quand il y a trop de variantes pour examiner expérimentalement, ces données peuvent être utilisées pour établir des priorités de ceux situés dans les régions régulatrices probables dans les types de cellules et de tissus concernés. En outre, dans les cas où une variante est dans un pic de ChIP-seq pour une protéine spécifique, ces données peuvent fournir des pistes potentielles à la TF (s) spécifique ou co-facteurs dont la liaison pourrait affecter.

Ensuite, les variants résultants en priorité sont sélectionnés expérimentalement pour valider la liaison en utilisant EMSA 21,22 prédit une protéine dépendante du génotype. EMSA mesure la variation de la migration de l'oligonucléotide sur un gel TBE non réducteur. oligo- marqué par fluorescence est mis en incubation avec lelysat nucléaire, et la liaison des facteurs nucléaires retarder le mouvement de l'oligo sur le gel. De cette manière, oligo qui a lié des facteurs plus nucléaires présentera comme un signal fluorescent plus fort lors de la numérisation. Notamment, l'EMSA ne nécessite pas des prédictions sur les protéines spécifiques dont la liaison sera affectée.

Une fois que les variantes sont identifiées qui sont situés dans des régions régulatrices prévues et sont capables de facteurs nucléaires différentiellement contraignants, les méthodes de calcul sont utilisées pour prédire la TF spécifique (s) dont la liaison qu'ils pourraient affecter. Nous préférons utiliser CIS-BP 23,24, RegulomeDB 25, UNIProbe 26 et JASPAR 27. Une fois que le candidat TFs sont identifiés, ces prévisions peuvent être spécifiquement testées en utilisant des anticorps contre ces TFs (EMSA-supershifts et DAPA-Westerns). Une EMSA-supershift implique l'addition d'un anticorps spécifique TF au lysat nucléaire et oligo. Un résultat positif dans un EMSA-supershift est réédesented comme un nouveau changement dans la bande EMSA, ou une perte de la bande (examiné en référence 28). Dans le DAPA complémentaire, d'un duplex oligonucléotidique 5'-biotinylée contenant de la variante et la 20 paire de bases de nucléotides flanquantes sont mises en incubation avec un lysat nucléaire du type de cellule approprié (s) pour capturer des facteurs nucléaires se liant spécifiquement oligos. Le complexe facteur nucléaire duplex oligonucléotide est immobilisé par des microbilles de streptavidine dans une colonne magnétique. Les facteurs liés nucléaires sont collectés directement par élution 29,48. prédictions de liaison peuvent alors être évalués par un transfert de Western en utilisant des anticorps spécifiques de la protéine. Dans les cas où il n'y a pas de prédictions évidentes, ou trop de prédictions, les élutions de variantes pull-downs des expériences de DAPA peuvent être envoyés à un noyau de protéomique pour identifier les TFs candidats en utilisant la spectrométrie de masse, qui peuvent ensuite être validées en utilisant ces décrits précédemment méthodes.

Dans la suite de l'article, le protocole détaillé pour EMSA et DAPA analyse des variants génétiques est fourni.

Protocol

1. Préparation des solutions et réactifs Commandez des sondes ADN d'oligonucléotides personnalisés pour une utilisation dans EMSA et DAPA. Pour réduire la protéine liaison non spécifique, concevoir des oligos courts (entre 35-45 paires de bases (pb) de longueur) 30, et placer la variante d'intérêt dans le centre flanqué de sa séquence génomique endogène 17 pb. Pour oligos EMSA, ajoutez un 'fluorophore 5. Pour oligos DAPA, ajouter une balise 5 'de la biotine. </…

Representative Results

Dans cette section, les résultats représentatifs de ce qui les attend sont fournies lors de l'exécution d'un EMSA ou DAPA, et la variabilité en ce qui concerne la qualité de lysat est caractérisé. Par exemple, il a été suggéré que le gel et les échantillons de protéines de décongélation plusieurs fois peut entraîner une dénaturation. Afin d'explorer la reproductibilité de l'analyse EMSA dans le contexte de ces cycles "gel-dégel", deux 35 oligo…

Discussion

Bien que les progrès dans les technologies de séquençage et de génotypage ont grandement amélioré notre capacité à identifier les variants génétiques associés à la maladie, notre capacité à comprendre les mécanismes fonctionnels impactés par ces variantes est à la traîne. Une source importante du problème est que de nombreuses variantes associées à la maladie sont situés dans n sur le codage des régions du génome, qui affectent probablement plus difficiles à prédire-mécanismes qui contr?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

We thank Erin Zoller, Jessica Bene, and Lindsey Hays for input and direction in protocol development. MTW was supported in part by NIH R21 HG008186 and a Trustee Award grant from the Cincinnati Children’s Hospital Research Foundation. ZHP was supported in part by T32 GM063483-13.

Materials

Custom DNA Oligonucleotides Integrated DNA Technologies http://www.idtdna.com/site/order/oligoentry
Potassium Chloride Fisher Scientific BP366-500 KCl, for CE buffer
HEPES (1M) Fisher Scientific 15630-080 For CE and NE buffer
EDTA (0.5M), pH 8.0 Life Technologies R1021 For CE, NE, and annealing buffer
Sodium Chloride Fisher Scientific BP358-1 NaCl, for NE buffer
Tris-HCl (1M), pH 8.0 Invitrogen BP1756-100 For annealing buffer
Phosphate Buffered Saline (1X) Fisher Scientific MT21040CM PBS, for cell wash
DL-Dithiothreitol solution (1M) Sigma 646563 Reducing agent
PMSF Thermo Scientific 36978 Protease Inhibitor
Phosphatase Inhibitor Cocktail  Thermo Scientific 78420 Prevents dephosphorylation of TFs
Nonidet P-40 Substitute IBI Scientific IB01140 NP-40, for nuclear extraction
BCA Protein Assay Kit Thermo Scientific 23225 For measuring protein concentration
Odyssey EMSA Buffer Kit Licor 829-07910 Contains all necessary EMSA buffers
TBE Gels, 6%, 12 Wells Invitrogen EC6265BOX For EMSA
TBE Buffer (10X) Thermo Scientific B52 For EMSA
FactorFinder Starting Kit Miltenyi Biotec 130-092-318 Contains all necessary DAPA buffers
Licor Odyssey CLx Licor Recommended scanner for DAPA/EMSA
Antibiotic-Antimycotic Gibco 15240-062 Contains 10,000 units/mL of penicillin, 10,000 µg/mL of streptomycin, and 25 µg/mL of Fungizone® Antimycotic
Fetal Bovine Serum Gibco 26140-079 FBS, for culture media
RPMI 1640 Medium Gibco 22400-071 Contains L-glutamine and 25mM HEPES

References

  1. Hindorff, L. A., et al. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci U S A. 106 (23), 9362-9367 (2009).
  2. Maurano, M. T., et al. Systematic localization of common disease-associated variation in regulatory DNA. Science. 337 (6099), 1190-1195 (2012).
  3. Ward, L. D., Kellis, M. Interpreting noncoding genetic variation in complex traits and human disease. Nat Biotechnol. 30 (11), 1095-1106 (2012).
  4. Paul, D. S., Soranzo, N., Beck, S. Functional interpretation of non-coding sequence variation: concepts and challenges. Bioessays. 36 (2), 191-199 (2014).
  5. Zhang, F., Lupski, J. R. Non-coding genetic variants in human disease. Hum Mol Genet. , (2015).
  6. Lee, T. I., Young, R. A. Transcriptional regulation and its misregulation in disease. Cell. 152 (6), 1237-1251 (2013).
  7. Slatkin, M. Linkage disequilibrium–understanding the evolutionary past and mapping the medical future. Nat Rev Genet. 9 (6), 477-485 (2008).
  8. Bush, W. S., Moore, J. H. Chapter 11: Genome-wide association studies. PLoS Comput Biol. 8 (12), e1002822 (2012).
  9. 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  10. Chang, C. C., et al. Second-generation PLINK: rising to the challenge of larger and richer datasets. Gigascience. 4, 7 (2015).
  11. Purcell, S., et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet. 81 (3), 559-575 (2007).
  12. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489 (7414), 57-74 (2012).
  13. Crawford, G. E., et al. Genome-wide mapping of DNase hypersensitive sites using massively parallel signature sequencing (MPSS). Genome Res. 16 (1), 123-131 (2006).
  14. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y., Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods. 10 (12), 1213-1218 (2013).
  15. Giresi, P. G., Kim, J., McDaniell, R. M., Iyer, V. R., Lieb, J. D. FAIRE Formaldehyde-Assisted Isolation of Regulatory Elements) isolates active regulatory elements from human chromatin. Genome Res. 17 (6), 877-885 (2007).
  16. Kent, W. J., et al. The human genome browser at UCSC. Genome Res. 12 (6), 996-1006 (2002).
  17. Roadmap Epigenomics Consortium. Integrative analysis of 111 reference human epigenomes. Nature. 518 (7539), 317-330 (2015).
  18. Martens, J. H., Stunnenberg, H. G. BLUEPRINT: mapping human blood cell epigenomes. Haematologica. 98 (10), 1487-1489 (2013).
  19. Liu, T., et al. Cistrome: an integrative platform for transcriptional regulation studies. Genome Biol. 12 (8), R83 (2011).
  20. Griffon, A., et al. Integrative analysis of public ChIP-seq experiments reveals a complex multi-cell regulatory landscape. Nucleic Acids Res. 43 (4), e27 (2015).
  21. Staudt, L. M., et al. A lymphoid-specific protein binding to the octamer motif of immunoglobulin genes. Nature. 323 (6089), 640-643 (1986).
  22. Singh, H., Sen, R., Baltimore, D., Sharp, P. A. A nuclear factor that binds to a conserved sequence motif in transcriptional control elements of immunoglobulin genes. Nature. 319 (6049), 154-158 (1986).
  23. Weirauch, M. T., et al. Determination and inference of eukaryotic transcription factor sequence specificity. Cell. 158 (6), 1431-1443 (2014).
  24. Ward, L. D., Kellis, M. HaploReg: a resource for exploring chromatin states, conservation, and regulatory motif alterations within sets of genetically linked variants. Nucleic Acids Res. 40 (Database issue), D930-D934 (2012).
  25. Boyle, A. P., et al. Annotation of functional variation in personal genomes using RegulomeDB. Genome Res. 22 (9), 1790-1797 (2012).
  26. Hume, M. A., Barrera, L. A., Gisselbrecht, S. S., Bulyk, M. L. UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions. Nucleic Acids Res. 43 (Database issue), D117-D122 (2015).
  27. Mathelier, A., et al. JASPAR 2014: an extensively expanded and updated open-access database of transcription factor binding profiles. Nucleic Acids Res. 42 (Database issue), 142-147 (2014).
  28. Smith, M. F., Delbary-Gossart, S. Electrophoretic Mobility Shift Assay (EMSA). Methods Mol Med. 50, 249-257 (2001).
  29. Franza, B. R., Josephs, S. F., Gilman, M. Z., Ryan, W., Clarkson, B. Characterization of cellular proteins recognizing the HIV enhancer using a microscale DNA-affinity precipitation assay. Nature. 330 (6146), 391-395 (1987).
  30. . BCA Protein Assay Kit: User Guide Available from: https://tools.thermofisher.com/content/sfs/manuals/MAN0011430_Pierce_BCA_Protein_Asy_UG.pdf (2014)
  31. Wijeratne, A. B., et al. Phosphopeptide separation using radially aligned titania nanotubes on titanium wire. ACS Appl Mater Interfaces. 7 (21), 11155-11164 (2015).
  32. Silva, J. M., McMahon, M. The Fastest Western in Town: A Contemporary Twist on the Classic Western Blot Analysis. J. Vis. Exp. (84), (2014).
  33. Lu, X., et al. Lupus Risk Variant Increases pSTAT1 Binding and Decreases ETS1 Expression. Am J Hum Genet. 96 (5), 731-739 (2015).
  34. Ramana, C. V., Chatterjee-Kishore, M., Nguyen, H., Stark, G. R. Complex roles of Stat1 in regulating gene expression. Oncogene. 19 (21), 2619-2627 (2000).
  35. Fillebeen, C., Wilkinson, N., Pantopoulos, K. Electrophoretic Mobility Shift Assay (EMSA) for the Study of RNA-Protein Interactions: The IRE/IRP Example. J. Vis. Exp. (94), e52230 (2014).
  36. Heng, T. S., Painter, M. W. Immunological Genome Project, C. The Immunological Genome Project: networks of gene expression in immune cells. Nat Immunol. 9 (10), 1091-1094 (2008).
  37. Wu, C., et al. BioGPS: an extensible and customizable portal for querying and organizing gene annotation resources. Genome Biol. 10 (11), R130 (2009).
  38. Wu, C., Macleod, I., Su, A. I. BioGPS and MyGene.info: organizing online, gene-centric information. Nucleic Acids Res. 41 (Database issue), D561-D565 (2013).
  39. Wang, J., et al. Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors. Genome Res. 22 (9), 1798-1812 (2012).
  40. Holden, N. S., Tacon, C. E. Principles and problems of the electrophoretic mobility shift assay. J Pharmacol Toxicol Methods. 63 (1), 7-14 (2011).
  41. Xu, J., Liu, H., Park, J. S., Lan, Y., Jiang, R. Osr1 acts downstream of and interacts synergistically with Six2 to maintain nephron progenitor cells during kidney organogenesis. Development. 141 (7), 1442-1452 (2014).
  42. Yang, T. -. P., et al. Genevar: a database and Java application for the analysis and visualization of SNP-gene associations in eQTL studies. Bioinformatics. 26 (19), 2474-2476 (2010).
  43. Fort, A., et al. A liver enhancer in the fibrinogen gene cluster. Blood. 117 (1), 276-282 (2011).
  44. Solberg, N., Krauss, S. Luciferase assay to study the activity of a cloned promoter DNA fragment. Methods Mol Biol. 977, 65-78 (2013).
  45. Rahman, M., et al. A repressor element in the 5′-untranslated region of human Pax5 exon 1A. Gene. 263 (1-2), 59-66 (2001).
  46. Mali, P., et al. RNA-Guided Human Genome Engineering via Cas9. Science. 339 (6121), 823-826 (2013).

Play Video

Cite This Article
Miller, D. E., Patel, Z. H., Lu, X., Lynch, A. T., Weirauch, M. T., Kottyan, L. C. Screening for Functional Non-coding Genetic Variants Using Electrophoretic Mobility Shift Assay (EMSA) and DNA-affinity Precipitation Assay (DAPA). J. Vis. Exp. (114), e54093, doi:10.3791/54093 (2016).

View Video