क्रोमेटिन विन्यास के कम्प्यूटेशनल विश्लेषण का उपयोग करके अल्जाइमर रोग वेरिएंट को उनके लक्ष्य जीन के लिए मैपिंग

* These authors contributed equally
Genetics
 

Summary

हम तीन आयामी क्रोमेटिन इंटरैक्शन का उपयोग करके जीनोम-वाइड एसोसिएशन स्टडीज (जीडब्ल्यूएएस) द्वारा पहचाने गए गैर-कोडिंग वेरिएंट के कार्यात्मक प्रभावों की पहचान करने के लिए एक प्रोटोकॉल प्रस्तुत करते हैं।

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

जीनोम-वाइड एसोसिएशन स्टडीज (जीडब्ल्यूएएस) ने सैकड़ों जीनोमिक लोकी की सफलतापूर्वक पहचान की है जो मानव लक्षणों और बीमारी से जुड़े हुए हैं। हालांकि, क्योंकि जीनोम-वाइड महत्वपूर्ण (जीडब्ल्यूएस) लोकी का अधिकांश हिस्सा गैर-कोडिंग जीनोम पर पड़ता है, इसलिए कई का कार्यात्मक प्रभाव अज्ञात रहता है। हाई-सी या इसके डेरिवेटिव द्वारा पहचाने गए त्रि-आयामी क्रोमेटिन इंटरैक्शन गैर-कोडिंग वेरिएंट को उनके क्रियात्मक जीन से जोड़कर इन लोकी को एनोटेट करने के लिए उपयोगी उपकरण प्रदान कर सकते हैं। यहां, हम मानव वयस्क मस्तिष्क ऊतक से अल्जाइमर रोग (विज्ञापन) जीडब्ल्यूएएस और हाय-सी डेटासेट का उपयोग करके अपने ख्यात जीन के लिए जीडब्ल्यूएएस गैर-कोडिंग वेरिएंट को मैप करने के लिए एक प्रोटोकॉल की रूपरेखा तैयार करते हैं। ख्यात कारण एकल-न्यूक्लियोटाइड बहुरूपता (SNPs) की पहचान फाइन-मैपिंग एल्गोरिदम के आवेदन द्वारा की जाती है। इसके बाद एसएनपी को हाय-सी के आधार पर एन्हांस्ड-प्रमोटर इंटरैक्शन का उपयोग करके अपने ख्यात लक्ष्य जीन के लिए मैप किया जाता है । परिणामस्वरूप जीन सेट विज्ञापन जोखिम जीन का प्रतिनिधित्व करता है, क्योंकि वे संभावित विज्ञापन जोखिम वेरिएंट द्वारा विनियमित कर रहे हैं । विज्ञापन अंतर्निहित आणविक तंत्र में आगे जैविक अंतर्दृष्टि जुटाने के लिए, हम विकासात्मक मस्तिष्क अभिव्यक्ति डेटा और मस्तिष्क एकल सेल अभिव्यक्ति प्रोफाइल का उपयोग कर विज्ञापन जोखिम जीन की विशेषता है । इस प्रोटोकॉल को विभिन्न मानव लक्षणों और रोगों में अंतर्निहित ख्यात लक्ष्य जीन और आणविक तंत्र की पहचान करने के लिए किसी भी जीडब्ल्यूए और हाई-सी डेटासेट में विस्तारित किया जा सकता है।

Introduction

जीनोम-वाइड एसोसिएशन अध्ययन (जीडब्ल्यूएएस) ने मानव लक्षणों और बीमारियों की एक श्रृंखला के आनुवंशिक आधार को उजागर करने में महत्वपूर्ण भूमिका निभाई है। इस बड़े पैमाने पर जोनोटाइपिंग ने ऊंचाई से लेकर सिजोफ्रेनिया जोखिम तक फेनोटाइप से जुड़े हजारों जीनोमिक वेरिएंट का पर्दाफाश किया है । हालांकि, रोग और विशेषता जुड़े loci की पहचान करने में GWAS की भारी सफलता के बावजूद, कैसे इन वेरिएंट फेनोटाइप में योगदान की एक यंत्रवादी समझ चुनौतीपूर्ण रहा है क्योंकि सबसे फेनोटाइप जुड़े वेरिएंट गैर कोडिंग में रहते है मानव जीनोम का अंश। चूंकि ये वेरिएंट अक्सर भविष्यवाणी किए गए नियामक तत्वों के साथ ओवरलैप होते हैं, इसलिए वे पास के जीन के प्रतिलेखन नियंत्रण को बदलने की संभावना रखते हैं। हालांकि, गैर कोडिंग loci एक मेगाबेस से अधिक रैखिक दूरी पर जीन के प्रतिलेखन को प्रभावित कर सकते हैं, प्रत्येक संस्करण से प्रभावित जीन की पहचान करने के लिए मुश्किल बना रही है । त्रि-आयामी (3 डी) क्रोमेटिन संरचना दूर के नियामक लोकी और जीन प्रमोटरों के बीच कनेक्शन मध्यस्थता करने में महत्वपूर्ण भूमिका निभाती है और इसका उपयोग फेनोटाइप संबद्ध एकल-न्यूक्लियोटाइड बहुरूपता (एसएनपी) से प्रभावित जीन की पहचान करने के लिए किया जा सकता है।

जीन विनियमन एक जटिल प्रक्रिया द्वारा मध्यस्थता की जाती है, जिसमें वृद्धि सक्रियण और क्रोमेटिन लूप गठन शामिल है जो जीन प्रमोटरों से शारीरिक रूप से बढ़ाने वालों को जोड़ता है जिससे प्रतिलेखन मशीनरी को1,2,3निर्देशित किया जा सकता है। क्योंकि क्रोमेटिन छोरों अक्सर कई सौ किलोकुर्सियां (केबी) अवधि, जीन नियामक तंत्र को समझने के लिए 3 डी क्रोमेटिन वास्तुकला के विस्तृत नक्शे की आवश्यकता होती है। 3 डी क्रोमेटिन आर्किटेक्चर4की पहचान करने के लिए कई क्रोमेटिन संरचना कैप्चर प्रौद्योगिकियों का आविष्कार किया गया है। इन प्रौद्योगिकियों में, हाय-सी सबसे व्यापक वास्तुकला प्रदान करता है, क्योंकि यह जीनोम-वाइड 3 डी क्रोमेटिन इंटरैक्शन प्रोफाइल को कैप्चर करता है। हाई-सी डेटासेट को गैर-कोडिंग जीनोम-वाइड महत्वपूर्ण (जीडब्ल्यूएस) लोकी5,6,7,8,9,10,11,12,13की व्याख्या करने के लिए जल्दी से अनुकूलित किया गया है, क्योंकि यह क्रोमेटिन इंटरैक्शन प्रोफाइल के आधार पर गैर-कोडिंग वेरिएंट को उनके ख्यात लक्ष्य जीन से जोड़ सकता है।

इस लेख में, हम क्रोमेटिन इंटरैक्शन प्रोफाइल का उपयोग करके जीडब्ल्यूए जोखिम वेरिएंट के ख्यात लक्ष्य जीन की गणना करने के लिए एक प्रोटोकॉल की रूपरेखा तैयार करते हैं। हम वयस्क मानव मस्तिष्क9में हाय-सी डेटासेट का उपयोग करके अपने लक्षित जीन के लिए विज्ञापन जीडब्ल्यूएस लोकी14 को मैप करने के लिए इस प्रोटोकॉल को लागू करते हैं। परिणामस्वरूप विज्ञापन जोखिम जीन अन्य कार्यात्मक जीनोमिक डेटासेट की विशेषता है जिसमें एकल सेल ट्रांसक्रिप्टोमिक और विकासात्मक अभिव्यक्ति प्रोफाइल शामिल हैं।

Protocol

1. वर्कस्टेशन सेटअप

  1. आर (संस्करण 3.5.0) और आरस्टूडियो डेस्कटॉप स्थापित करें। ओपन आरस्टूडियो।
  2. आरस्टूडियो में कंसोल विंडो में निम्नलिखित कोड टाइप करके आर में निम्नलिखित पुस्तकालयों को स्थापित करें।
    अगर (!" बायोमैनेजर "% रोनाम (इंस्टॉल.पैकेज ()) में%
    इंस्टॉल.पैकेज ("बायोमैनेजर", रिपो ="https://cran.r-project.org")
    बायोमैनेजर::इंस्टॉल ("जीनोमिकरेंज")
    बायोमैनेजर::इंस्टॉल ("बायोमार्ट")
    बायोमैनेजर::इंस्टॉल ("WGCNA")
    इंस्टॉल.पैकेज ("रीशेप")
    इंस्टॉल.पैकेज ("ggplot2")
    इंस्टॉल.पैकेज ("कॉर्प्लॉट")
    इंस्टॉल.पैकेज ("gProfileR")
    इंस्टॉल.पैकेज ("साफ-सुथरे")
    इंस्टॉल.पैकेज ("ggpubr")
  3. फाइलें डाउनलोड करें।
    नोट: इस प्रोटोकॉल में, सभी फ़ाइलों को ~/काम निर्देशिका में डाउनलोड करना आवश्यक है।
    1. सामग्री की तालिका में दिए गए लिंक पर क्लिक करके निम्नलिखित फ़ाइलों को डाउनलोड करें।
      1. विज्ञापन के लिए ठीक मैप किए गए विश्वसनीय एसएनपी डाउनलोड करें (जनसेन एट अल से सप्लीमेंट्री टेबल8)
        नोट: विश्लेषण से पहले, 41588_2018_311_MOESM3_ESM.xlsx में खुली शीट आठ, पहले तीन पंक्तियों को हटा दें और टैब अलग प्रारूप के साथ Supplementary_Table_8_Jansen.txt के रूप में शीट को बचाएं।
      2. साइकेनकोड (नीचे प्रमोटर-anchored_chromatin_loops.बिस्तर के रूप में वर्णित) से वयस्क मस्तिष्क में 10 केबी रिज़ॉल्यूशन हाय-सी इंटरैक्शन प्रोफाइल डाउनलोड करें।
        नोट: इस फ़ाइल में निम्नलिखित प्रारूप है: गुणसूत्र, TSS_start, TSS_end, Enhancer_start और Enhancer_end। यदि अन्य हाय-सी डेटासेट का उपयोग किया जाता है, तो इस प्रोटोकॉल के लिए उच्च रिज़ॉल्यूशन (5−20 केबी) पर संसाधित हाई-सी डेटासेट की आवश्यकता होती है।
      3. साइकेनकोड से सिंगल सेल एक्सप्रेशन डेटासेट डाउनलोड करें।
        नोट: ये न्यूरोठेठ नियंत्रण नमूनों से हैं।
      4. ब्रेनस्पैन से विकासात्मक अभिव्यक्ति डेटासेट डाउनलोड करें (नीचे devExpr.rda के रूप में वर्णित)।
        नोट: 267666527 एक ज़िपित फ़ाइल है, इसलिए "columns_metadata.सीएसवी", "expression_matrix.सीएसवी", और "rows_metadata.csv" को निकालने के लिए 267666527 को खोलना है ताकि devExpr.rda (अनुभाग 3 देखें) उत्पन्न किया जा सके।
    2. जेनकोड संस्करण 19 से एक्सोनिक निर्देशांक डाउनलोड करें (पूरक फाइलेंदेखें, Gencode19_exon.बिस्तर और Gencode19_promoter.बिस्तर नीचे) के रूप में वर्णित हैं।
      नोट: प्रमोटरों को ट्रांसक्रिप्शन स्टार्ट साइट (टीएसएस) के 2 केबी अपस्ट्रीम के रूप में परिभाषित किया गया है। इन फ़ाइलों में निम्नलिखित प्रारूप है: गुणसूत्र, प्रारंभ, अंत और जीन।
    3. बायोमार्ट से जीन एनोटेशन फाइल डाउनलोड करें (पूरक फाइलेंदेखें, जिसका वर्णन नीचे geneAnno.rda के रूप में वर्णित है) ।
      नोट: इस फ़ाइल का उपयोग Ensembl जीन IDs और ह्यूगो जीन नामकरण समिति (HGNC) प्रतीक के आधार पर जीन मैच के लिए किया जा सकता है।

2. विश्वसनीय SNPs के लिए एक GRanges वस्तु की पीढ़ी

  1. RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके आर में सेट करें।
    पुस्तकालय (जीनोमिकरेंज)
    विकल्प (स्ट्रिंग्सफैक्टर = एफ)
    setwd ("~/काम") # यह काम करने वाली निर्देशिका का रास्ता है ।
    credSNP = read.delim ("Supplementary_Table_8_Jansen.txt", हेडर = टी)
    credSNP = credSNP [credSNP $विश्वसनीय. कारण = = "हां",]
  2. RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके एक ग्रेंज ऑब्जेक्ट बनाएं।
    credranges = GRanges (credSNP $Chr, IRanges (credSNP $bp, credSNP $bp), rsid = credSNP $SNP, P = credSNP $P)
    सेव (credranges, फ़ाइल="AD_credibleSNP.rda")

3. स्थितीय मानचित्रण

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

  1. आर में स्थापित करें।
    विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
    पुस्तकालय (जीनोमिकरेंज)
    लोड ("AD_credibleSNP.rda") # (देखें 2)
  2. जीन के लिए प्रमोटर/एक्सोनिक SNPs की स्थितीय मानचित्रण
    1. प्रमोटर और एक्सोनिक क्षेत्र लोड करें और एक GRange ऑब्जेक्ट उत्पन्न करें।
      exon = read.table ("Gencode19_exon.बिस्तर")
      exonranges = GRanges (exon [, 1], IRanges (exon [, 2], exon [,3]), जीन = exon [,4])
      प्रमोटर = read.table ("Gencode19_promoter.bed")
      प्रमोटररेंज = GRanges (प्रमोटर [,1], IRanges (प्रमोटर [,2], प्रमोटर [,3]), जीन = प्रमोटर [,4])
    2. एक्सोनिक क्षेत्रों के साथ विश्वसनीय SNPs ओवरलैप।
      ओलेप = findOverlaps (credranges, exonranges)
      क्रेडेक्सन = क्रेडरेंज [क्वेरीहिट्स (ओलैप)]
      mcols (credexon) = cbind (mcols (credexon), mcols (exonranges [विषयों (olap)))
    3. प्रमोटर क्षेत्रों के साथ विश्वसनीय SNPs ओवरलैप ।
      ओलेप = findOverlaps (credranges, प्रमोटर पर्वतमाला)
      credप्रमोटर = credranges [queryHits (olap)]
      mcols (credप्रमोटर) = cbind (mcols (credप्रमोटर), mcols (प्रमोटर रेंज [विषयों (olap)))
  3. क्रोमेटिन इंटरैक्शन का उपयोग करके उनके ख्यात लक्ष्य जीन से एसएनपी लिंक करें।
    1. हाय-सी डेटासेट लोड करें और एक GRange ऑब्जेक्ट उत्पन्न करें।
      hic = read.table("प्रमोटर-anchored_chromatin_loops.बिस्तर", छोड़ = 1)
      कोलनाम (hic) = सी ("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      हिकरेंज = GRanges (hic$chr, IRanges (hic $TSS_start, hic $TSS_end), बढ़ाने = hic $Enhancer_start)
      ओलेप = findOverlaps (hicranges, प्रमोटर पर्वतमाला)
      हिप्रमोटर = हिकरेंज [क्वेरीहिट्स (ओलैप)]
      mcols (hicप्रमोटर) = cbind (mcols (hicप्रमोटर), mcols (प्रमोटर पर्वतमाला [विषयों (olap)))
      हिकेंजर = ग्रेंज (सीक्यूनेम (हिकोप्रमोटर), IRanges (hicप्रमोटर $ एन्हांसर, हिप्रमोटर $ एन्हांसर +10000), जीन = हिकोप्रमोटर $जीन)
    2. हाय-सी GRange वस्तु के साथ विश्वसनीय SNPs ओवरलैप।
      ओलेप = findOverlaps (credranges, हिचकी)
      क्रेधीक = क्रेडरेंज [क्वेरीहिट्स (ओलैप)]
      mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer [विषयों (olap)))
  4. स्थितीय मानचित्रण और क्रोमेटिन इंटरैक्शन प्रोफाइल द्वारा परिभाषित विज्ञापन उम्मीदवार जीन संकलित करें।
    ### विज्ञापन के लिए परिणामी उम्मीदवार जीन:
    एडजीन = कम (संघ, सूची (credhic $जीन, credexon $जीन, credप्रमोटर $जीन))
    ### Ensembl जीन आईडी को HGNC प्रतीक में परिवर्तित करने के लिए
    लोड ("geneAnno.rda")
    ADhgnc = geneAnno1 [मैच (ADgenes, geneAnno1 $ensembl_gene_id), "hgnc_symbol"]
    Adhgnc = Adhgnc [Adhgnc!="]।
    सेव (Adgenes, Adhgnc, फ़ाइल ="Adgenes.rda")
    write.table (ADhgnc, फ़ाइल ="ADgenes.txt", row.name=F, col.name=F, quote=F, sep="\t")

4. विकासात्मक अभिव्यक्ति प्रक्षेप पथ

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

  1. आर में स्थापित करें।
    पुस्तकालय (पुनर्आकार); पुस्तकालय (ggplot2); पुस्तकालय (जीनोमिकरेंज); पुस्तकालय (बायोमार्ट)
    पुस्तकालय ("WGCNA")
    विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
  2. अभिव्यक्ति और मेटा डेटा की प्रक्रिया करें।
    datExpr = read.csv ("expression_matrix.csv", हेडर = झूठी)
    datExpr = datExpr [,-1]
    datMeta = read.csv ("columns_metadata.csv")
    datProbes = read.csv ("rows_metadata.csv")
    datExpr = datExpr [datProbes $ensembl_gene_id!=",]।
    datProbes = datProbes [datProbes $ensembl_gene_id!=",]।
    datExpr.cr = पतन Rows (datExpr, rowGroup = datProbes $ensembl_gene_id, rowID = rowname (datExpr))
    datExpr = datExpr.cr $datETढह
    gename = data.frame (datExpr.cr$group2row)
    रोनाम (datExpr) = gename $समूह
    1. विकास के चरणों को निर्दिष्ट करना।
      datMeta $ यूनिट = "प्रसवोत्तर"
      idx = grep ("pcw", datMeta $आयु)
      datMeta $ यूनिट [idx] = "जन्म के पूर्व"
      idx = grep ("yrs", datMeta $आयु)
      datMeta $ यूनिट [idx] = "प्रसवोत्तर"
      datMeta $ यूनिट = कारक (datMeta $ इकाई, स्तर = सी ("जन्म के पूर्व", "प्रसवोत्तर"))
    2. कॉर्टिकल क्षेत्रों का चयन करें।
      datMeta $ क्षेत्र = "SubCTX"
      आर = सी ("A1C", "एसटीसी", "आईटीसी", "टीसीएक्स", "ओएफसी", "डीएफसी", "वीएफसी", "एमएफसी", "एम1सी", "एस1सी", "आईपीसी", "M1C-S1C", "पीसीएक्स", "V1C", "Ocx")
      datMeta $ क्षेत्र [datMeta % आर में structure_acronym% $] = "CTX"
      datExpr = datExpr[, जो (datMeta $region=="CTX")]
      datMeta = datMeta [जो (datMeta $क्षेत्र =="CTX"),]
      सेव (datExpr, datMeta, फ़ाइल="devExpr.rda")
  3. विज्ञापन जोखिम जीन की विकासात्मक अभिव्यक्ति प्रोफाइल निकालें।
    लोड ("ADgenes.rda")
    exprdat = लागू करें (datExpr [मैच (ADgenes, rowname (datExpr)),],2,मतलब, na.rm=T)
    dat = data.frame (क्षेत्र=datMeta $ क्षेत्र, यूनिट =datMeta $ इकाई, Expr =exprdat)
  4. विज्ञापन जोखिम जीन के प्रसव पूर्व बनाम प्रसवोत्तर अभिव्यक्ति के स्तर की तुलना करें ।
    पीडीएफ (फ़ाइल="developmental_expression.pdf")
    ggplot (dat, aes (x=यूनिट, y=Expr, fill=Unit, alpha=Unit)) + ylab ("सामान्यीकृत अभिव्यक्ति") + geom_boxplot (outlier.size= NA) + ggtitle ("मस्तिष्क अभिव्यक्ति") + xlab ("") + scale_alpha_manual (मूल्य=c (0.2, 1)) + theme_classic () + विषय (legend.position="na" )
    देव.ऑफ ()

5. सेल-प्रकार अभिव्यक्ति प्रोफाइल

नोट: प्रत्येक चरण के लिए, RStudio में कंसोल विंडो में इसी कोड को टाइप करें।

  1. आर में स्थापित करें।
    विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
    लोड ("ADgenes.rda")
    लोड ("geneAnno.rda")
    लक्ष्यनाम = "विज्ञापन"
    लक्ष्यजीन = Adhgnc
    cellexp = read.table ("DER-20_Single_cell_expression_processed_TPM_backup.tsv", हेडर = टी, भरें = टी)
    सेल्एक्सपी [1121,1] = सेल्एक्सपी [1120,1]
    सेल्एक्सपी = सेल्एक्सप[-1120,]
    रोनाम (सेलेक्सप) = सेल्क्सप [,1]
    सेल्एक्सपी = सेल्एक्सपी [,-1]
    datExpr = पैमाने (cellexp, केंद्र = टी, पैमाने = एफ)
    datExpr = datExpr [,789:ncol (datExpr)]
  2. विज्ञापन जोखिम वाले जीन की सेलुलर अभिव्यक्ति प्रोफाइल निकालें।
    exprdat = लागू करें (datExpr [मैच (targetgene, rowname (datExpr),],2,मतलब, na.rm=T)
    dat = data.frame (Group=targetname, cell=name (exprdat), Expr=exprdat)
    डैट $सेलटाइप = अनलिस्ट (lapply (strsplit (dat$सेल, विभाजन ="[.]), '[[',1))
    dat = dat[-grep ("पूर्व। में ", dat $ सेलटाइप),]
    dat $ सेलटाइप = gsub ("देव", भ्रूण", dat $सेलटाइप)
    डैट $सेलटाइप = फैक्टर (डैट $सेलटाइप, लेवल = सी ("न्यूरॉन्स", एस्ट्रोसाइट्स ","माइक्रोग्लिया","एंडोथेलियल",
    ओलिगोडेन्रोसाइट्स ","ओपीएलसी", भ्रूण"))
    पीडीएफ (फ़ाइल="singlecell_expression_ADgenes.pdf")
    ggplot (dat, aes (x=celltype, y=Expr, भरें = सेलटाइप)) +
    ylab ("सामान्यीकृत अभिव्यक्ति") + xlab ("") + geom_violin () + विषय (axis.text.x=element_text (कोण = 90, hjust=1)) + विषय (legend.position="कोई नहीं") +
    ggtitle (पेस्ट0 ("विज्ञापन जोखिम जीन के सेलुलर अभिव्यक्ति प्रोफाइल"))
    देव.ऑफ ()

6. विज्ञापन जोखिम जीन के जीन एनोटेशन संवर्धन विश्लेषण

  1. टर्मिनल में नीचे दिए गए आदेशों को टाइप करके होमर डाउनलोड करें और कॉन्फ़िगर करें।
    एमकेडीर होमर
    सीडी होमर
    http://homer.ucsd.edu/homer/configureHomer.pl
    पर्ल ./configureHomer.pl-स्थापित करें
    पर्ल ./configureHomer.pl-स्थापित मानव-पी
    पर्ल ./configureHomer.pl-मानव-o स्थापित करें
  2. टर्मिनल में नीचे दिए गए आदेशों को टाइप करके होमर चलाएं।
    निर्यात पथ = $PATH:~/काम/होमर/बिन
    findMotifs.pl ~/काम/ADgenes.txt मानव ~/काम/
  3. RStudio में कंसोल विंडो में निम्नलिखित कोड टाइप करके समृद्ध शर्तों को प्लॉट करें।
    पुस्तकालय (ggpubr)
    विकल्प (स्ट्रिंग्सफैक्टर्स = एफ)
    पीडीएफ ("GO_enrichment.पीडीएफ", चौड़ाई=15,ऊंचाई =8)
    plot_barplot = समारोह (dbname, नाम, रंग){
    इनपुट = read.delim (पेस्ट0 (dbname,".txt"), हेडर =T)
    इनपुट = इनपुट [, सी (-1,-10,-11)]
    इनपुट = अद्वितीय (इनपुट)
    इनपुट $एफडीआर = p.समायोजित (exp (इनपुट $logP))
    input_sig = इनपुट [इनपुट $एफडीआर & 0.1,]
    input_sig $FDR = -log10 (input_sig $FDR)
    input_sig = input_sig [आदेश (input_sig $FDR),]
    p = ggbarplot (input_sig, एक्स = "टर्म", वाई = "एफडीआर", भरें = रंग, रंग = "सफेद", sort.val = "एएससी", ylab = अभिव्यक्ति (-लॉग [10](italic (FDR)), xlab = पेस्ट0 (नाम,"शर्तें"), घुमाओ = सच है, लेबल = पेस्ट0 (input_sig $Target.Genes.in.Term,"/",input_sig $Genes.in.Term), font.label = सूची (रंग = "सफेद", आकार = 9), प्रयोगशाला.vjust = 0.5, प्रयोगशाला
    पी = पी + geom_hline (yरोकना = -log10 (0.05), लाइनटाइप = 2, रंग = "lightgray")
    रिटर्न (पी)
    }
    p1 = plot_barplot ("biological_process", "जाओ जैविक प्रक्रिया", "#00AFBB")
    p2 = plot_barplot ("kegg","KEGG","#E7B800")
    p3 = plot_barplot ("reactome", "reactome", "#FC4E07")
    ggarrange (p1, p2, p3, लेबल = c ("A", "बी", "सी"), ncol = 2, नाउ = 2)
    देव.ऑफ ()

Representative Results

यहां वर्णित प्रक्रिया को 800 विश्वसनीय एसएनपी के एक सेट पर लागू किया गया था जिसे मूल अध्ययन14द्वारा परिभाषित किया गया था । स्थितीय मानचित्रण से पता चला है कि १०३ SNPs प्रमोटरों (४३ अद्वितीय जीन) और ४२ SNPs exons (27 अद्वितीय जीन) के साथ छा के साथ छा । स्थितीय मानचित्रण के बाद, 84% (669) एसएनपी अनोटेट रहे। वयस्क मस्तिष्क में हाय-सी डेटासेट का उपयोग करके, हम शारीरिक निकटता के आधार पर 64 जीन के लिए एक अतिरिक्त 208 SNPs को जोड़ने में सक्षम थे। कुल मिलाकर, हमने 284 विज्ञापन विश्वसनीय SNPs को 112 विज्ञापन जोखिम जीन(चित्रा 1ए)में मैप किया। विज्ञापन जोखिम जीन एमिलॉयड अग्रदूत प्रोटीन, एमिलॉयड-बीटा गठन, और प्रतिरक्षा प्रतिक्रिया के साथ जुड़े थे, विज्ञापन15,16,17,18 (चित्रा 1बी-डी)के ज्ञात जीव विज्ञान को दर्शाती है । विज्ञापन जोखिम जीन के विकासात्मक अभिव्यक्ति प्रोफाइल चिह्नित प्रसवोत्तर संवर्धन, विज्ञापन(चित्रा 2ए)के उंर से जुड़े ऊंचा जोखिम का संकेत दिखाया । अंत में, विज्ञापन जोखिम जीन अत्यधिक माइक्रोग्लिया, मस्तिष्क में प्राथमिक प्रतिरक्षा कोशिकाओं(चित्रा 2बी)में व्यक्त किए गए थे । यह आवर्ती निष्कर्षों से सहमत है कि विज्ञापन का प्रतिरोधक आधार है और माइक्रोग्लिया विज्ञापन रोगजनन14,19,20में केंद्रीय खिलाड़ी हैं .

Figure 1
चित्रा 1: विज्ञापन जीडब्ल्यूएस लोकी के ख्यात लक्ष्य जीन को परिभाषित करना। (A)शीर्ष 29 ईस्वी लोकी से प्राप्त विश्वसनीय एसएनपीएस को प्रमोटर एसएनपीएस, एक्सोनिक एसएनपी और अननोटेटेड नॉन-कोडिंग एसएनपी में वर्गीकृत किया गया था । प्रमोटर और एक्सोनिक SNPs सीधे स्थितीय मानचित्रण द्वारा अपने लक्ष्य जीन को सौंपा गया था, जबकि वयस्क मस्तिष्क में क्रोमेटिन बातचीत प्रोफाइल अतिरिक्त शारीरिक बातचीत के आधार पर SNPs नक्शा करने के लिए इस्तेमाल किया गया । (बी-डी) विज्ञापन जोखिम जीन में जीओ(बी),केजीईजी(सी),और प्रतिक्रिया(डी)शब्दों का संवर्धन प्रोटोकॉल धारा 6 में वर्णित होमर का उपयोग करके किया गया था। एक्स एक्सिस झूठी खोज दर (एफडीआर) सही-log10 (पी-वैल्यू) का प्रतिनिधित्व करता है। एफडीआर और एलटी; 0.1 के साथ समृद्ध शर्तों की साजिश रची गई थी। ग्रे वर्टिकल लाइनें एफडीआर = 0.05 का प्रतिनिधित्व करती हैं। एपीपी एमिलॉयड अग्रदूत प्रोटीन। संख्यात्मक, प्रत्येक शब्द में प्रतिनिधित्व विज्ञापन जोखिम जीन की संख्या; भाजक, प्रत्येक शब्द में जीन की संख्या। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

Figure 2
चित्रा 2: विज्ञापन जोखिम जीन का लक्षण वर्णन। (A)विज्ञापन जोखिम जीन प्रसव पूर्व प्रांतस्था की तुलना में प्रसवोत्तर प्रांतस्था में अत्यधिक व्यक्त कर रहे हैं । (ख)वायलिन भूखंड प्रांतस्था से विभिन्न कोशिका प्रकारों में जीन अभिव्यक्ति मूल्यों (सामान्यीकृत अभिव्यक्ति) के वितरण को दर्शाती है। इन परिणामों से पता चलता है कि विज्ञापन जोखिम जीन अत्यधिक माइक्रोग्लिया में व्यक्त कर रहे हैं, पिछले अध्ययन14के अनुरूप । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

अनुपूरक फाइल 1. कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

अनुपूरक फाइल 2. कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

अनुपूरक फाइल 3। कृपया इस फ़ाइल को देखने के लिए यहां क्लिक करें (डाउनलोड करने के लिए सही क्लिक करें)।

Discussion

यहां हम एक विश्लेषणात्मक ढांचे का वर्णन करते हैं जिसका उपयोग स्थितीय मानचित्रण और क्रोमेटिन इंटरैक्शन के आधार पर जीडब्ल्यूएस लोकी को कार्यात्मक रूप से एनोटेट करने के लिए किया जा सकता है। इस प्रक्रिया में कई चरण शामिल हैं (अधिक जानकारी के लिए इस समीक्षा13को देखें)। सबसे पहले, यह देखते हुए कि क्रोमेटिन इंटरैक्शन प्रोफाइल अत्यधिक सेल-प्रकार विशिष्ट हैं, उपयुक्त कोशिका/ऊतक प्रकारों से प्राप्त हाय-सी डेटा जो विकार के अंतर्निहित जीव विज्ञान को सबसे अच्छा कैप्चर करते हैं। यह देखते हुए कि विज्ञापन एक न्यूरोडीजेनेरेटिव डिसऑर्डर है, हमने जीडब्ल्यूएस लोकी को एनोटेट करने के लिए वयस्क मस्तिष्क हाय-सी डेटा9 का उपयोग किया। दूसरा, प्रत्येक जीडब्ल्यूएस लोकस में अक्सर सैकड़ों एसएनपीएस होते हैं जो लिंकेज डिजिलिब्रियम (एलडी) के कारण विशेषता से जुड़े होते हैं, इसलिए गणनात्मक कारण की भविष्यवाणी करके ख्यात कारण ('विश्वसनीय') एसएनपी प्राप्त करना महत्वपूर्ण है फाइन-मैपिंग एल्गोरिदम21,22 के उपयोग के माध्यम से या प्रायोगिक रूप से उच्च-थ्रूपुट दृष्टिकोणों का उपयोग करके नियामक गतिविधियों का परीक्षण करना जैसे बड़े पैमाने पर समानांतर रिपोर्टर परख (एमपीआरए)23 या सक्रिय नियामक क्षेत्र अनुक्रमण को आत्म-पार करना ( स्टार-seq)24। यहां वर्णित काम के लिए, हम विश्वसनीय SNPs Jansen एट अल14में रिपोर्ट का इस्तेमाल किया । तीसरा, प्रमोटर और एक्सोनिक एसएनपी स्थितीय मानचित्रण के आधार पर एनोटेट किया जाता है। हमने एक सरल स्थितीय मानचित्रण रणनीति का उपयोग किया जिसमें एसएनपीएस को जीन के लिए मैप किया गया था जब वे प्रमोटरों के साथ छा गए थे (ट्रांसक्रिप्शन स्टार्ट साइट के 2 केबी अपस्ट्रीम के रूप में परिभाषित) या exons। हालांकि, इस दृष्टिकोण को एक्सोनिक एसएनपी के कार्यात्मक परिणामों का आकलन करके और विस्तार से बताया जा सकता है, जैसे कि क्या एसएनपी बकवास मध्यस्थता क्षय, गलत भिन्नता या बकवास भिन्नता को प्रेरित करता है। चौथा, उपयुक्त ऊतक/कोशिका प्रकार से क्रोमेटिन इंटरैक्शन प्रोफाइल का उपयोग भौतिक निकटता के आधार पर अपने ख्यात लक्ष्य जीन को एसएनपी असाइन करने के लिए किया जा सकता है । हमने प्रमोटरों के लिए लंगर डाले गए इंटरैक्शन प्रोफाइल का उपयोग किया, लेकिन हम एन्हांसियर गतिविधियों (हिस्टोन एच3 के27 एसिटिलेशन या क्रोमेटिन एक्सेसिबिलिटी द्वारा निर्देशित) या एक्सोनिक इंटरैक्शन को ध्यान में रखकर इंटरैक्शन प्रोफाइल को और परिष्कृत या विस्तारित कर सकते हैं। इस प्रक्रिया में एक महत्वपूर्ण विचार लगातार मानव जीनोम निर्माण का उपयोग करना है। उदाहरण के लिए, यदि सारांश आंकड़ों की जीनोमिक स्थितियां एचजी19 (यानी एचजी18 या एचजी38) पर आधारित नहीं हैं, तो संदर्भ जीनोम का एक उपयुक्त संस्करण प्राप्त किया जाना चाहिए या सारांश आंकड़ों कोलिफ्टओवर 25का उपयोग करके एचजी19 में परिवर्तित करने की आवश्यकता है।

हमने विज्ञापन जीडब्ल्यूए के लिए ख्यात लक्ष्य जीन की पहचान करने के लिए इस ढांचे को लागू किया, ११२ विज्ञापन जोखिम जीन के लिए २८४ SNPs निर्दिष्ट । विकासात्मक अभिव्यक्ति प्रोफाइल26 और सेल-प्रकार विशिष्ट अभिव्यक्ति प्रोफाइल9का उपयोग करते हुए, हमने तब दिखाया कि यह जीन सेट विज्ञापन विकृति के बारे में जाना जाता है, सेल प्रकार (माइक्रोग्लिया), जैविक कार्यों (प्रतिरक्षा प्रतिक्रिया और एमिलॉयड बीटा) और उम्र पर ऊंचा जोखिम का खुलासा करने के अनुरूप था।

जब तक हम एक रूपरेखा है कि विज्ञापन और उसके अंतर्निहित जीव विज्ञान के संभावित लक्ष्य जीन चित्रित प्रस्तुत किया, यह ध्यान दें कि हाय सी आधारित एनोटेशन किसी भी गैर कोडिंग भिन्नता एनोटेट करने के लिए विस्तारकिया जा सकता है । के रूप में और अधिक पूरे जीनोम अनुक्रमण डेटा उपलब्ध हो जाता है और गैर कोडिंग दुर्लभ भिन्नता के बारे में हमारी समझ बढ़ता है, हाय सी रोग से जुड़े आनुवंशिक वेरिएंट की व्याख्या के लिए एक महत्वपूर्ण संसाधन प्रदान करेगा । इसलिए कई ऊतकों और कोशिका प्रकारों से प्राप्त हाय-सी संसाधनों का एक संग्रह विभिन्न मानव लक्षणों और रोग में जैविक अंतर्दृष्टि जुटाने के लिए इस ढांचे के एक विस्तृत अनुप्रयोग को सुविधाजनक बनाने के लिए महत्वपूर्ण होगा।

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

इस काम को NIH अनुदान R00MH113823 (H.W.) और R35GM128645 (D.H.P.), NARSAD युवा अन्वेषक पुरस्कार (H.W.), और सिमंस फाउंडेशन आत्मकेंद्रित अनुसंधान पहल (SFARI, एनएम और एचडब्ल्यू) से स्पार्क अनुदान द्वारा समर्थित किया गया था ।

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7, (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489, (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55, (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14, (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538, (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13, (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362, (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51, (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51, (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51, (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129, (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125, (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14, (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136, (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217, (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518, (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32, (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198, (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165, (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339, (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12, (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478, (7370), 483-489 (2011).

Comments

2 Comments

  1. Hello Nana Matoba et al, can you please tell me what is the geneAnno1 object? I can't figure it out. I will be waiting for your kind response, below is the error message. Thank you
    > load("geneAnno.rda")
    > ADhgnc = geneAnno1[match(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    Error: object 'geneAnno1' not found

    Reply
    Posted by: Aamir F.
    February 3, 2020 - 6:03 PM
  2. Thank you for pointing this out!
    We noticed that the original Supplementary file 3 (geneAnno.rda) did not have the right object, so we replaced it with a new file (geneAnno2.rda; https://www.jove.com/files/ftp_upload/60428/geneAnno2.rda).
    This file should contain geneAnno1.

    Reply
    Posted by: Nana M.
    February 7, 2020 - 9:44 AM

Post a Question / Comment / Request

You must be signed in to post a comment. Please or create an account.

Usage Statistics