Genetics

क्रोमेटिन विन्यास के कम्प्यूटेशनल विश्लेषण का उपयोग करके अल्जाइमर रोग वेरिएंट को उनके लक्ष्य जीन के लिए मैपिंग

Published: January 9, 2020 doi: 10.3791/60428

Nana Matoba^1,2, Ivana Y. Quiroga³, Douglas H. Phanstiel*^3,4, Hyejung Won*^1,2

¹Department of Genetics, University of North Carolina, ²Neuroscience Center, University of North Carolina, ³Thurston Arthritis Research Center, University of North Carolina, ⁴Department of Cell Biology and Physiology, University of North Carolina

* These authors contributed equally

Summary

हम तीन आयामी क्रोमेटिन इंटरैक्शन का उपयोग करके जीनोम-वाइड एसोसिएशन स्टडीज (जीडब्ल्यूएएस) द्वारा पहचाने गए गैर-कोडिंग वेरिएंट के कार्यात्मक प्रभावों की पहचान करने के लिए एक प्रोटोकॉल प्रस्तुत करते हैं।

Abstract

जीनोम-वाइड एसोसिएशन स्टडीज (जीडब्ल्यूएएस) ने सैकड़ों जीनोमिक लोकी की सफलतापूर्वक पहचान की है जो मानव लक्षणों और बीमारी से जुड़े हुए हैं। हालांकि, क्योंकि जीनोम-वाइड महत्वपूर्ण (जीडब्ल्यूएस) लोकी का अधिकांश हिस्सा गैर-कोडिंग जीनोम पर पड़ता है, इसलिए कई का कार्यात्मक प्रभाव अज्ञात रहता है। हाई-सी या इसके डेरिवेटिव द्वारा पहचाने गए त्रि-आयामी क्रोमेटिन इंटरैक्शन गैर-कोडिंग वेरिएंट को उनके क्रियात्मक जीन से जोड़कर इन लोकी को एनोटेट करने के लिए उपयोगी उपकरण प्रदान कर सकते हैं। यहां, हम मानव वयस्क मस्तिष्क ऊतक से अल्जाइमर रोग (विज्ञापन) जीडब्ल्यूएएस और हाय-सी डेटासेट का उपयोग करके अपने ख्यात जीन के लिए जीडब्ल्यूएएस गैर-कोडिंग वेरिएंट को मैप करने के लिए एक प्रोटोकॉल की रूपरेखा तैयार करते हैं। ख्यात कारण एकल-न्यूक्लियोटाइड बहुरूपता (SNPs) की पहचान फाइन-मैपिंग एल्गोरिदम के आवेदन द्वारा की जाती है। इसके बाद एसएनपी को हाय-सी के आधार पर एन्हांस्ड-प्रमोटर इंटरैक्शन का उपयोग करके अपने ख्यात लक्ष्य जीन के लिए मैप किया जाता है । परिणामस्वरूप जीन सेट विज्ञापन जोखिम जीन का प्रतिनिधित्व करता है, क्योंकि वे संभावित विज्ञापन जोखिम वेरिएंट द्वारा विनियमित कर रहे हैं । विज्ञापन अंतर्निहित आणविक तंत्र में आगे जैविक अंतर्दृष्टि जुटाने के लिए, हम विकासात्मक मस्तिष्क अभिव्यक्ति डेटा और मस्तिष्क एकल सेल अभिव्यक्ति प्रोफाइल का उपयोग कर विज्ञापन जोखिम जीन की विशेषता है । इस प्रोटोकॉल को विभिन्न मानव लक्षणों और रोगों में अंतर्निहित ख्यात लक्ष्य जीन और आणविक तंत्र की पहचान करने के लिए किसी भी जीडब्ल्यूए और हाई-सी डेटासेट में विस्तारित किया जा सकता है।

Introduction

जीनोम-वाइड एसोसिएशन अध्ययन (जीडब्ल्यूएएस) ने मानव लक्षणों और बीमारियों की एक श्रृंखला के आनुवंशिक आधार को उजागर करने में महत्वपूर्ण भूमिका निभाई है। इस बड़े पैमाने पर जोनोटाइपिंग ने ऊंचाई से लेकर सिजोफ्रेनिया जोखिम तक फेनोटाइप से जुड़े हजारों जीनोमिक वेरिएंट का पर्दाफाश किया है । हालांकि, रोग और विशेषता जुड़े loci की पहचान करने में GWAS की भारी सफलता के बावजूद, कैसे इन वेरिएंट फेनोटाइप में योगदान की एक यंत्रवादी समझ चुनौतीपूर्ण रहा है क्योंकि सबसे फेनोटाइप जुड़े वेरिएंट गैर कोडिंग में रहते है मानव जीनोम का अंश। चूंकि ये वेरिएंट अक्सर भविष्यवाणी किए गए नियामक तत्वों के साथ ओवरलैप होते हैं, इसलिए वे पास के जीन के प्रतिलेखन नियंत्रण को बदलने की संभावना रखते हैं। हालांकि, गैर कोडिंग loci एक मेगाबेस से अधिक रैखिक दूरी पर जीन के प्रतिलेखन को प्रभावित कर सकते हैं, प्रत्येक संस्करण से प्रभावित जीन की पहचान करने के लिए मुश्किल बना रही है । त्रि-आयामी (3 डी) क्रोमेटिन संरचना दूर के नियामक लोकी और जीन प्रमोटरों के बीच कनेक्शन मध्यस्थता करने में महत्वपूर्ण भूमिका निभाती है और इसका उपयोग फेनोटाइप संबद्ध एकल-न्यूक्लियोटाइड बहुरूपता (एसएनपी) से प्रभावित जीन की पहचान करने के लिए किया जा सकता है।

जीन विनियमन एक जटिल प्रक्रिया द्वारा मध्यस्थता की जाती है, जिसमें वृद्धि सक्रियण और क्रोमेटिन लूप गठन शामिल है जो जीन प्रमोटरों से शारीरिक रूप से बढ़ाने वालों को जोड़ता है जिससे प्रतिलेखन मशीनरी को^1,^2,³निर्देशित किया जा सकता है। क्योंकि क्रोमेटिन छोरों अक्सर कई सौ किलोकुर्सियां (केबी) अवधि, जीन नियामक तंत्र को समझने के लिए 3 डी क्रोमेटिन वास्तुकला के विस्तृत नक्शे की आवश्यकता होती है। 3 डी क्रोमेटिन आर्किटेक्चर⁴की पहचान करने के लिए कई क्रोमेटिन संरचना कैप्चर प्रौद्योगिकियों का आविष्कार किया गया है। इन प्रौद्योगिकियों में, हाय-सी सबसे व्यापक वास्तुकला प्रदान करता है, क्योंकि यह जीनोम-वाइड 3 डी क्रोमेटिन इंटरैक्शन प्रोफाइल को कैप्चर करता है। हाई-सी डेटासेट को गैर-कोडिंग जीनोम-वाइड महत्वपूर्ण (जीडब्ल्यूएस) लोकी^5,^6,^7,^8,^9,^10,^11,^12,¹³की व्याख्या करने के लिए जल्दी से अनुकूलित किया गया है, क्योंकि यह क्रोमेटिन इंटरैक्शन प्रोफाइल के आधार पर गैर-कोडिंग वेरिएंट को उनके ख्यात लक्ष्य जीन से जोड़ सकता है।

इस लेख में, हम क्रोमेटिन इंटरैक्शन प्रोफाइल का उपयोग करके जीडब्ल्यूए जोखिम वेरिएंट के ख्यात लक्ष्य जीन की गणना करने के लिए एक प्रोटोकॉल की रूपरेखा तैयार करते हैं। हम वयस्क मानव मस्तिष्क⁹में हाय-सी डेटासेट का उपयोग करके अपने लक्षित जीन के लिए विज्ञापन जीडब्ल्यूएस लोकी¹⁴ को मैप करने के लिए इस प्रोटोकॉल को लागू करते हैं। परिणामस्वरूप विज्ञापन जोखिम जीन अन्य कार्यात्मक जीनोमिक डेटासेट की विशेषता है जिसमें एकल सेल ट्रांसक्रिप्टोमिक और विकासात्मक अभिव्यक्ति प्रोफाइल शामिल हैं।

Protocol

1. वर्कस्टेशन सेटअप

आर (संस्करण 3.5.0) और आरस्टूडियो डेस्कटॉप स्थापित करें। ओपन आरस्टूडियो।
आरस्टूडियो में कंसोल विंडो में निम्नलिखित कोड टाइप करके आर में निम्नलिखित पुस्तकालयों को स्थापित करें।
अगर (!" बायोमैनेजर "% रोनाम (इंस्टॉल.पैकेज ()) में%
इंस्टॉल.पैकेज ("बायोमैनेजर", रिपो ="https://cran.r-project.org")
बायोमैनेजर::इंस्टॉल ("जीनोमिकरेंज")
बायोमैनेजर::इंस्टॉल ("बायोमार्ट")
बायोमैनेजर::इंस्टॉल ("WGCNA")
इंस्टॉल.पैकेज ("रीशेप")
इंस्टॉल.पैकेज ("ggplot2")
इंस्टॉल.पैकेज ("कॉर्प्लॉट")
इंस्टॉल.पैकेज ("gProfileR")
इंस्टॉल.पैकेज ("साफ-सुथरे")
इंस्टॉल.पैकेज ("ggpubr")
फाइलें डाउनलोड करें।
नोट: इस प्रोटोकॉल में, सभी फ़ाइलों को ~/काम निर्देशिका में डाउनलोड करना आवश्यक है।
1. सामग्री की तालिका में दिए गए लिंक पर क्लिक करके निम्नलिखित फ़ाइलों को डाउनलोड करें।
  1. विज्ञापन के लिए ठीक मैप किए गए विश्वसनीय एसएनपी डाउनलोड करें (जनसेन एट अल से सप्लीमेंट्री टेबल⁸⁾।
    नोट: विश्लेषण से पहले, 41588_2018_311_MOESM3_ESM.xlsx में खुली शीट आठ, पहले तीन पंक्तियों को हटा दें और टैब अलग प्रारूप के साथ Supplementary_Table_8_Jansen.txt के रूप में शीट को बचाएं।
  2. साइकेनकोड (नीचे प्रमोटर-anchored_chromatin_loops.बिस्तर के रूप में वर्णित) से वयस्क मस्तिष्क में 10 केबी रिज़ॉल्यूशन हाय-सी इंटरैक्शन प्रोफाइल डाउनलोड करें।
    नोट: इस फ़ाइल में निम्नलिखित प्रारूप है: गुणसूत्र, TSS_start, TSS_end, Enhancer_start और Enhancer_end। यदि अन्य हाय-सी डेटासेट का उपयोग किया जाता है, तो इस प्रोटोकॉल के लिए उच्च रिज़ॉल्यूशन (5−20 केबी) पर संसाधित हाई-सी डेटासेट की आवश्यकता होती है।
  3. साइकेनकोड से सिंगल सेल एक्सप्रेशन डेटासेट डाउनलोड करें।
    नोट: ये न्यूरोठेठ नियंत्रण नमूनों से हैं।
  4. ब्रेनस्पैन से विकासात्मक अभिव्यक्ति डेटासेट डाउनलोड करें (नीचे devExpr.rda के रूप में वर्णित)।
    नोट: 267666527 एक ज़िपित फ़ाइल है, इसलिए "columns_metadata.सीएसवी", "expression_matrix.सीएसवी", और "rows_metadata.csv" को निकालने के लिए 267666527 को खोलना है ताकि devExpr.rda (अनुभाग 3 देखें) उत्पन्न किया जा सके।
2. जेनकोड संस्करण 19 से एक्सोनिक निर्देशांक डाउनलोड करें (पूरक फाइलेंदेखें, Gencode19_exon.बिस्तर और Gencode19_promoter.बिस्तर नीचे) के रूप में वर्णित हैं।
  नोट: प्रमोटरों को ट्रांसक्रिप्शन स्टार्ट साइट (टीएसएस) के 2 केबी अपस्ट्रीम के रूप में परिभाषित किया गया है। इन फ़ाइलों में निम्नलिखित प्रारूप है: गुणसूत्र, प्रारंभ, अंत और जीन।
3. बायोमार्ट से जीन एनोटेशन फाइल डाउनलोड करें (पूरक फाइलेंदेखें, जिसका वर्णन नीचे geneAnno.rda के रूप में वर्णित है) ।
  नोट: इस फ़ाइल का उपयोग Ensembl जीन IDs और ह्यूगो जीन नामकरण समिति (HGNC) प्रतीक के आधार पर जीन मैच के लिए किया जा सकता है।

2. विश्वसनीय SNPs के लिए एक GRanges वस्तु की पीढ़ी

RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके आर में सेट करें।
पुस्तकालय (जीनोमिकरेंज)
विकल्प (स्ट्रिंग्सफैक्टर = एफ)
setwd ("~/काम") # यह काम करने वाली निर्देशिका का रास्ता है ।
credSNP = read.delim ("Supplementary_Table_8_Jansen.txt", हेडर = टी)
credSNP = credSNP [credSNP $विश्वसनीय. कारण = = "हां",]
RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके एक ग्रेंज ऑब्जेक्ट बनाएं।
credranges = GRanges (credSNP $Chr, IRanges (credSNP $bp, credSNP $bp), rsid = credSNP $SNP, P = credSNP $P)
सेव (credranges, फ़ाइल="AD_credibleSNP.rda")

3. स्थितीय मानचित्रण

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

आर में स्थापित करें।
विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
पुस्तकालय (जीनोमिकरेंज)
लोड ("AD_credibleSNP.rda") # (देखें 2)
जीन के लिए प्रमोटर/एक्सोनिक SNPs की स्थितीय मानचित्रण
1. प्रमोटर और एक्सोनिक क्षेत्र लोड करें और एक GRange ऑब्जेक्ट उत्पन्न करें।
  exon = read.table ("Gencode19_exon.बिस्तर")
  exonranges = GRanges (exon [, 1], IRanges (exon [, 2], exon [,3]), जीन = exon [,4])
  प्रमोटर = read.table ("Gencode19_promoter.bed")
  प्रमोटररेंज = GRanges (प्रमोटर [,1], IRanges (प्रमोटर [,2], प्रमोटर [,3]), जीन = प्रमोटर [,4])
2. एक्सोनिक क्षेत्रों के साथ विश्वसनीय SNPs ओवरलैप।
  ओलेप = findOverlaps (credranges, exonranges)
  क्रेडेक्सन = क्रेडरेंज [क्वेरीहिट्स (ओलैप)]
  mcols (credexon) = cbind (mcols (credexon), mcols (exonranges [विषयों (olap)))
3. प्रमोटर क्षेत्रों के साथ विश्वसनीय SNPs ओवरलैप ।
  ओलेप = findOverlaps (credranges, प्रमोटर पर्वतमाला)
  credप्रमोटर = credranges [queryHits (olap)]
  mcols (credप्रमोटर) = cbind (mcols (credप्रमोटर), mcols (प्रमोटर रेंज [विषयों (olap)))
क्रोमेटिन इंटरैक्शन का उपयोग करके उनके ख्यात लक्ष्य जीन से एसएनपी लिंक करें।
1. हाय-सी डेटासेट लोड करें और एक GRange ऑब्जेक्ट उत्पन्न करें।
  hic = read.table("प्रमोटर-anchored_chromatin_loops.बिस्तर", छोड़ = 1)
  कोलनाम (hic) = सी ("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
  हिकरेंज = GRanges (hic$chr, IRanges (hic $TSS_start, hic $TSS_end), बढ़ाने = hic $Enhancer_start)
  ओलेप = findOverlaps (hicranges, प्रमोटर पर्वतमाला)
  हिप्रमोटर = हिकरेंज [क्वेरीहिट्स (ओलैप)]
  mcols (hicप्रमोटर) = cbind (mcols (hicप्रमोटर), mcols (प्रमोटर पर्वतमाला [विषयों (olap)))
  हिकेंजर = ग्रेंज (सीक्यूनेम (हिकोप्रमोटर), IRanges (hicप्रमोटर $ एन्हांसर, हिप्रमोटर $ एन्हांसर +10000), जीन = हिकोप्रमोटर $जीन)
2. हाय-सी GRange वस्तु के साथ विश्वसनीय SNPs ओवरलैप।
  ओलेप = findOverlaps (credranges, हिचकी)
  क्रेधीक = क्रेडरेंज [क्वेरीहिट्स (ओलैप)]
  mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer [विषयों (olap)))
स्थितीय मानचित्रण और क्रोमेटिन इंटरैक्शन प्रोफाइल द्वारा परिभाषित विज्ञापन उम्मीदवार जीन संकलित करें।
### विज्ञापन के लिए परिणामी उम्मीदवार जीन:
एडजीन = कम (संघ, सूची (credhic $जीन, credexon $जीन, credप्रमोटर $जीन))
### Ensembl जीन आईडी को HGNC प्रतीक में परिवर्तित करने के लिए
लोड ("geneAnno.rda")
ADhgnc = geneAnno1 [मैच (ADgenes, geneAnno1 $ensembl_gene_id), "hgnc_symbol"]
Adhgnc = Adhgnc [Adhgnc!="]।
सेव (Adgenes, Adhgnc, फ़ाइल ="Adgenes.rda")
write.table (ADhgnc, फ़ाइल ="ADgenes.txt", row.name=F, col.name=F, quote=F, sep="\t")

4. विकासात्मक अभिव्यक्ति प्रक्षेप पथ

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

आर में स्थापित करें।
पुस्तकालय (पुनर्आकार); पुस्तकालय (ggplot2); पुस्तकालय (जीनोमिकरेंज); पुस्तकालय (बायोमार्ट)
पुस्तकालय ("WGCNA")
विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
अभिव्यक्ति और मेटा डेटा की प्रक्रिया करें।
datExpr = read.csv ("expression_matrix.csv", हेडर = झूठी)
datExpr = datExpr [,-1]
datMeta = read.csv ("columns_metadata.csv")
datProbes = read.csv ("rows_metadata.csv")
datExpr = datExpr [datProbes $ensembl_gene_id!=",]।
datProbes = datProbes [datProbes $ensembl_gene_id!=",]।
datExpr.cr = पतन Rows (datExpr, rowGroup = datProbes $ensembl_gene_id, rowID = rowname (datExpr))
datExpr = datExpr.cr $datETढह
gename = data.frame (datExpr.cr$group2row)
रोनाम (datExpr) = gename $समूह
1. विकास के चरणों को निर्दिष्ट करना।
  datMeta $ यूनिट = "प्रसवोत्तर"
  idx = grep ("pcw", datMeta $आयु)
  datMeta $ यूनिट [idx] = "जन्म के पूर्व"
  idx = grep ("yrs", datMeta $आयु)
  datMeta $ यूनिट [idx] = "प्रसवोत्तर"
  datMeta $ यूनिट = कारक (datMeta $ इकाई, स्तर = सी ("जन्म के पूर्व", "प्रसवोत्तर"))
2. कॉर्टिकल क्षेत्रों का चयन करें।
  datMeta $ क्षेत्र = "SubCTX"
  आर = सी ("A1C", "एसटीसी", "आईटीसी", "टीसीएक्स", "ओएफसी", "डीएफसी", "वीएफसी", "एमएफसी", "एम1सी", "एस1सी", "आईपीसी", "M1C-S1C", "पीसीएक्स", "V1C", "Ocx")
  datMeta $ क्षेत्र [datMeta % आर में structure_acronym% $] = "CTX"
  datExpr = datExpr[, जो (datMeta $region=="CTX")]
  datMeta = datMeta [जो (datMeta $क्षेत्र =="CTX"),]
  सेव (datExpr, datMeta, फ़ाइल="devExpr.rda")
विज्ञापन जोखिम जीन की विकासात्मक अभिव्यक्ति प्रोफाइल निकालें।
लोड ("ADgenes.rda")
exprdat = लागू करें (datExpr [मैच (ADgenes, rowname (datExpr)),],2,मतलब, na.rm=T)
dat = data.frame (क्षेत्र=datMeta $ क्षेत्र, यूनिट =datMeta $ इकाई, Expr =exprdat)
विज्ञापन जोखिम जीन के प्रसव पूर्व बनाम प्रसवोत्तर अभिव्यक्ति के स्तर की तुलना करें ।
पीडीएफ (फ़ाइल="developmental_expression.pdf")
ggplot (dat, aes (x=यूनिट, y=Expr, fill=Unit, alpha=Unit)) + ylab ("सामान्यीकृत अभिव्यक्ति") + geom_boxplot (outlier.size= NA) + ggtitle ("मस्तिष्क अभिव्यक्ति") + xlab ("") + scale_alpha_manual (मूल्य=c (0.2, 1)) + theme_classic () + विषय (legend.position="na" )
देव.ऑफ ()

5. सेल-प्रकार अभिव्यक्ति प्रोफाइल

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

आर में स्थापित करें।
विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
लोड ("ADgenes.rda")
लोड ("geneAnno.rda")
लक्ष्यनाम = "विज्ञापन"
लक्ष्यजीन = Adhgnc
cellexp = read.table ("DER-20_Single_cell_expression_processed_TPM_backup.tsv", हेडर = टी, भरें = टी)
सेल्एक्सपी [1121,1] = सेल्एक्सपी [1120,1]
सेल्एक्सपी = सेल्एक्सप[-1120,]
रोनाम (सेलेक्सप) = सेल्क्सप [,1]
सेल्एक्सपी = सेल्एक्सपी [,-1]
datExpr = पैमाने (cellexp, केंद्र = टी, पैमाने = एफ)
datExpr = datExpr [,789:ncol (datExpr)]
विज्ञापन जोखिम वाले जीन की सेलुलर अभिव्यक्ति प्रोफाइल निकालें।
exprdat = लागू करें (datExpr [मैच (targetgene, rowname (datExpr),],2,मतलब, na.rm=T)
dat = data.frame (Group=targetname, cell=name (exprdat), Expr=exprdat)
डैट $सेलटाइप = अनलिस्ट (lapply (strsplit (dat$सेल, विभाजन ="[.]), '[[',1))
dat = dat[-grep ("पूर्व। में ", dat $ सेलटाइप),]
dat $ सेलटाइप = gsub ("देव", भ्रूण", dat $सेलटाइप)
डैट $सेलटाइप = फैक्टर (डैट $सेलटाइप, लेवल = सी ("न्यूरॉन्स", एस्ट्रोसाइट्स ","माइक्रोग्लिया","एंडोथेलियल",
ओलिगोडेन्रोसाइट्स ","ओपीएलसी", भ्रूण"))
पीडीएफ (फ़ाइल="singlecell_expression_ADgenes.pdf")
ggplot (dat, aes (x=celltype, y=Expr, भरें = सेलटाइप)) +
ylab ("सामान्यीकृत अभिव्यक्ति") + xlab ("") + geom_violin () + विषय (axis.text.x=element_text (कोण = 90, hjust=1)) + विषय (legend.position="कोई नहीं") +
ggtitle (पेस्ट0 ("विज्ञापन जोखिम जीन के सेलुलर अभिव्यक्ति प्रोफाइल"))
देव.ऑफ ()

6. विज्ञापन जोखिम जीन के जीन एनोटेशन संवर्धन विश्लेषण

टर्मिनल में नीचे दिए गए आदेशों को टाइप करके होमर डाउनलोड करें और कॉन्फ़िगर करें।
एमकेडीर होमर
सीडी होमर
http://homer.ucsd.edu/homer/configureHomer.pl
पर्ल ./configureHomer.pl-स्थापित करें
पर्ल ./configureHomer.pl-स्थापित मानव-पी
पर्ल ./configureHomer.pl-मानव-o स्थापित करें
टर्मिनल में नीचे दिए गए आदेशों को टाइप करके होमर चलाएं।
निर्यात पथ = $PATH:~/काम/होमर/बिन
findMotifs.pl ~/काम/ADgenes.txt मानव ~/काम/
RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके समृद्ध शर्तों को प्लॉट करें।
पुस्तकालय (ggpubr)
विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
पीडीएफ ("GO_enrichment.पीडीएफ", चौड़ाई=15,ऊंचाई =8)
plot_barplot = समारोह (dbname, नाम, रंग){
इनपुट = read.delim (पेस्ट0 (dbname,".txt"), हेडर =T)
इनपुट = इनपुट [, सी (-1,-10,-11)]
इनपुट = अद्वितीय (इनपुट)
इनपुट $एफडीआर = p.समायोजित (exp (इनपुट $logP))
input_sig = इनपुट [इनपुट $एफडीआर & 0.1,]
input_sig $FDR = -log10 (input_sig $FDR)
input_sig = input_sig [आदेश (input_sig $FDR),]
p = ggbarplot (input_sig, एक्स = "टर्म", वाई = "एफडीआर", भरें = रंग, रंग = "सफेद", sort.val = "एएससी", ylab = अभिव्यक्ति (-लॉग [10](italic (FDR)), xlab = पेस्ट0 (नाम,"शर्तें"), घुमाओ = सच है, लेबल = पेस्ट0 (input_sig $Target.Genes.in.Term,"/",input_sig $Genes.in.Term), font.label = सूची (रंग = "सफेद", आकार = 9), प्रयोगशाला.vjust = 0.5, प्रयोगशाला
पी = पी + geom_hline (yरोकना = -log10 (0.05), लाइनटाइप = 2, रंग = "lightgray")
रिटर्न (पी)
}
p1 = plot_barplot ("biological_process", "जाओ जैविक प्रक्रिया", "#00AFBB")
p2 = plot_barplot ("kegg","KEGG","#E7B800")
p3 = plot_barplot ("reactome", "reactome", "#FC4E07")
ggarrange (p1, p2, p3, लेबल = c ("A", "बी", "सी"), ncol = 2, नाउ = 2)
देव.ऑफ ()

Representative Results

यहां वर्णित प्रक्रिया को 800 विश्वसनीय एसएनपी के एक सेट पर लागू किया गया था जिसे मूल अध्ययन¹⁴द्वारा परिभाषित किया गया था । स्थितीय मानचित्रण से पता चला है कि १०३ SNPs प्रमोटरों (४३ अद्वितीय जीन) और ४२ SNPs exons (27 अद्वितीय जीन) के साथ छा के साथ छा । स्थितीय मानचित्रण के बाद, 84% (669) एसएनपी अनोटेट रहे। वयस्क मस्तिष्क में हाय-सी डेटासेट का उपयोग करके, हम शारीरिक निकटता के आधार पर 64 जीन के लिए एक अतिरिक्त 208 SNPs को जोड़ने में सक्षम थे। कुल मिलाकर, हमने 284 विज्ञापन विश्वसनीय SNPs को 112 विज्ञापन जोखिम जीन(चित्रा 1ए)में मैप किया। विज्ञापन जोखिम जीन एमिलॉयड अग्रदूत प्रोटीन, एमिलॉयड-बीटा गठन, और प्रतिरक्षा प्रतिक्रिया के साथ जुड़े थे, विज्ञापन^15,^16,^17,¹⁸ (चित्रा 1बी-डी)के ज्ञात जीव विज्ञान को दर्शाती है । विज्ञापन जोखिम जीन के विकासात्मक अभिव्यक्ति प्रोफाइल चिह्नित प्रसवोत्तर संवर्धन, विज्ञापन(चित्रा 2ए)के उंर से जुड़े ऊंचा जोखिम का संकेत दिखाया । अंत में, विज्ञापन जोखिम जीन अत्यधिक माइक्रोग्लिया, मस्तिष्क में प्राथमिक प्रतिरक्षा कोशिकाओं(चित्रा 2बी)में व्यक्त किए गए थे । यह आवर्ती निष्कर्षों से सहमत है कि विज्ञापन का प्रतिरोधक आधार है और माइक्रोग्लिया विज्ञापन रोगजनन¹⁴^,¹⁹^,²⁰में केंद्रीय खिलाड़ी हैं .

चित्रा 1: विज्ञापन जीडब्ल्यूएस लोकी के ख्यात लक्ष्य जीन को परिभाषित करना। (A)शीर्ष 29 ईस्वी लोकी से प्राप्त विश्वसनीय एसएनपीएस को प्रमोटर एसएनपीएस, एक्सोनिक एसएनपी और अननोटेटेड नॉन-कोडिंग एसएनपी में वर्गीकृत किया गया था । प्रमोटर और एक्सोनिक SNPs सीधे स्थितीय मानचित्रण द्वारा अपने लक्ष्य जीन को सौंपा गया था, जबकि वयस्क मस्तिष्क में क्रोमेटिन बातचीत प्रोफाइल अतिरिक्त शारीरिक बातचीत के आधार पर SNPs नक्शा करने के लिए इस्तेमाल किया गया । (बी-डी) विज्ञापन जोखिम जीन में जीओ(बी),केजीईजी(सी),और प्रतिक्रिया(डी)शब्दों का संवर्धन प्रोटोकॉल धारा 6 में वर्णित होमर का उपयोग करके किया गया था। एक्स एक्सिस झूठी खोज दर (एफडीआर) सही-log10 (पी-वैल्यू) का प्रतिनिधित्व करता है। एफडीआर और एलटी; 0.1 के साथ समृद्ध शर्तों की साजिश रची गई थी। ग्रे वर्टिकल लाइनें एफडीआर = 0.05 का प्रतिनिधित्व करती हैं। एपीपी एमिलॉयड अग्रदूत प्रोटीन। संख्यात्मक, प्रत्येक शब्द में प्रतिनिधित्व विज्ञापन जोखिम जीन की संख्या; भाजक, प्रत्येक शब्द में जीन की संख्या। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

चित्रा 2: विज्ञापन जोखिम जीन का लक्षण वर्णन। (A)विज्ञापन जोखिम जीन प्रसव पूर्व प्रांतस्था की तुलना में प्रसवोत्तर प्रांतस्था में अत्यधिक व्यक्त कर रहे हैं । (ख)वायलिन भूखंड प्रांतस्था से विभिन्न कोशिका प्रकारों में जीन अभिव्यक्ति मूल्यों (सामान्यीकृत अभिव्यक्ति) के वितरण को दर्शाती है। इन परिणामों से पता चलता है कि विज्ञापन जोखिम जीन अत्यधिक माइक्रोग्लिया में व्यक्त कर रहे हैं, पिछले अध्ययन¹⁴के अनुरूप । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

अनुपूरक फाइल 1. कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

अनुपूरक फाइल 2. कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

अनुपूरक फाइल 3। कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

Discussion

यहां हम एक विश्लेषणात्मक ढांचे का वर्णन करते हैं जिसका उपयोग स्थितीय मानचित्रण और क्रोमेटिन इंटरैक्शन के आधार पर जीडब्ल्यूएस लोकी को कार्यात्मक रूप से एनोटेट करने के लिए किया जा सकता है। इस प्रक्रिया में कई चरण शामिल हैं (अधिक जानकारी के लिए इस समीक्षा¹³को देखें)। सबसे पहले, यह देखते हुए कि क्रोमेटिन इंटरैक्शन प्रोफाइल अत्यधिक सेल-प्रकार विशिष्ट हैं, उपयुक्त कोशिका/ऊतक प्रकारों से प्राप्त हाय-सी डेटा जो विकार के अंतर्निहित जीव विज्ञान को सबसे अच्छा कैप्चर करते हैं। यह देखते हुए कि विज्ञापन एक न्यूरोडीजेनेरेटिव डिसऑर्डर है, हमने जीडब्ल्यूएस लोकी को एनोटेट करने के लिए वयस्क मस्तिष्क हाय-सी डेटा⁹ का उपयोग किया। दूसरा, प्रत्येक जीडब्ल्यूएस लोकस में अक्सर सैकड़ों एसएनपीएस होते हैं जो लिंकेज डिजिलिब्रियम (एलडी) के कारण विशेषता से जुड़े होते हैं, इसलिए गणनात्मक कारण की भविष्यवाणी करके ख्यात कारण ('विश्वसनीय') एसएनपी प्राप्त करना महत्वपूर्ण है फाइन-मैपिंग एल्गोरिदम^21,²² के उपयोग के माध्यम से या प्रायोगिक रूप से उच्च-थ्रूपुट दृष्टिकोणों का उपयोग करके नियामक गतिविधियों का परीक्षण करना जैसे बड़े पैमाने पर समानांतर रिपोर्टर परख (एमपीआरए)²³ या सक्रिय नियामक क्षेत्र अनुक्रमण को आत्म-पार करना ( स्टार-seq)²⁴। यहां वर्णित काम के लिए, हम विश्वसनीय SNPs Jansen एट अल¹⁴में रिपोर्ट का इस्तेमाल किया । तीसरा, प्रमोटर और एक्सोनिक एसएनपी स्थितीय मानचित्रण के आधार पर एनोटेट किया जाता है। हमने एक सरल स्थितीय मानचित्रण रणनीति का उपयोग किया जिसमें एसएनपीएस को जीन के लिए मैप किया गया था जब वे प्रमोटरों के साथ छा गए थे (ट्रांसक्रिप्शन स्टार्ट साइट के 2 केबी अपस्ट्रीम के रूप में परिभाषित) या exons। हालांकि, इस दृष्टिकोण को एक्सोनिक एसएनपी के कार्यात्मक परिणामों का आकलन करके और विस्तार से बताया जा सकता है, जैसे कि क्या एसएनपी बकवास मध्यस्थता क्षय, गलत भिन्नता या बकवास भिन्नता को प्रेरित करता है। चौथा, उपयुक्त ऊतक/कोशिका प्रकार से क्रोमेटिन इंटरैक्शन प्रोफाइल का उपयोग भौतिक निकटता के आधार पर अपने ख्यात लक्ष्य जीन को एसएनपी असाइन करने के लिए किया जा सकता है । हमने प्रमोटरों के लिए लंगर डाले गए इंटरैक्शन प्रोफाइल का उपयोग किया, लेकिन हम एन्हांसियर गतिविधियों (हिस्टोन एच3 के27 एसिटिलेशन या क्रोमेटिन एक्सेसिबिलिटी द्वारा निर्देशित) या एक्सोनिक इंटरैक्शन को ध्यान में रखकर इंटरैक्शन प्रोफाइल को और परिष्कृत या विस्तारित कर सकते हैं। इस प्रक्रिया में एक महत्वपूर्ण विचार लगातार मानव जीनोम निर्माण का उपयोग करना है। उदाहरण के लिए, यदि सारांश आंकड़ों की जीनोमिक स्थितियां एचजी19 (यानी एचजी18 या एचजी38) पर आधारित नहीं हैं, तो संदर्भ जीनोम का एक उपयुक्त संस्करण प्राप्त किया जाना चाहिए या सारांश आंकड़ों को^{लिफ्टओवर 25}का उपयोग करके एचजी19 में परिवर्तित करने की आवश्यकता है।

हमने विज्ञापन जीडब्ल्यूए के लिए ख्यात लक्ष्य जीन की पहचान करने के लिए इस ढांचे को लागू किया, ११२ विज्ञापन जोखिम जीन के लिए २८४ SNPs निर्दिष्ट । विकासात्मक अभिव्यक्ति प्रोफाइल²⁶ और सेल-प्रकार विशिष्ट अभिव्यक्ति प्रोफाइल⁹का उपयोग करते हुए, हमने तब दिखाया कि यह जीन सेट विज्ञापन विकृति के बारे में जाना जाता है, सेल प्रकार (माइक्रोग्लिया), जैविक कार्यों (प्रतिरक्षा प्रतिक्रिया और एमिलॉयड बीटा) और उम्र पर ऊंचा जोखिम का खुलासा करने के अनुरूप था।

जब तक हम एक रूपरेखा है कि विज्ञापन और उसके अंतर्निहित जीव विज्ञान के संभावित लक्ष्य जीन चित्रित प्रस्तुत किया, यह ध्यान दें कि हाय सी आधारित एनोटेशन किसी भी गैर कोडिंग भिन्नता एनोटेट करने के लिए विस्तारकिया जा सकता है । के रूप में और अधिक पूरे जीनोम अनुक्रमण डेटा उपलब्ध हो जाता है और गैर कोडिंग दुर्लभ भिन्नता के बारे में हमारी समझ बढ़ता है, हाय सी रोग से जुड़े आनुवंशिक वेरिएंट की व्याख्या के लिए एक महत्वपूर्ण संसाधन प्रदान करेगा । इसलिए कई ऊतकों और कोशिका प्रकारों से प्राप्त हाय-सी संसाधनों का एक संग्रह विभिन्न मानव लक्षणों और रोग में जैविक अंतर्दृष्टि जुटाने के लिए इस ढांचे के एक विस्तृत अनुप्रयोग को सुविधाजनक बनाने के लिए महत्वपूर्ण होगा।

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

इस काम को NIH अनुदान R00MH113823 (H.W.) और R35GM128645 (D.H.P.), NARSAD युवा अन्वेषक पुरस्कार (H.W.), और सिमंस फाउंडेशन आत्मकेंद्रित अनुसंधान पहल (SFARI, एनएम और एचडब्ल्यू) से स्पार्क अनुदान द्वारा समर्थित किया गया था ।

Materials

Name	Company	Catalog Number	Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode			http://adult.psychencode.org/
Developmental expression datasets			http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.¹⁴)			https://static-content.springer.com/
HOMER			http://homer.ucsd.edu/
R (version 3.5.0)			https://www.r-project.org/
RStudio Desktop			https://www.rstudio.com/
Single cell expression datasets			http://adult.psychencode.org/