Kortlægning af Alzheimers sygdom varianter til deres Målgener ved hjælp af beregningsmæssige analyse af kromatin konfiguration

* These authors contributed equally
Genetics
 

Summary

Vi præsenterer en protokol til at identificere funktionelle konsekvenser af ikke-kodning varianter identificeret ved genomdækkende Association undersøgelser (GWAS) ved hjælp af tredimensionelle kromatin interaktioner.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genomstudier (GWAS) har med succes identificeret hundredvis af genomisk loci, der er forbundet med menneskelige træk og sygdom. Men da størstedelen af det Genome-store signifikante (GWS) loci falder på det ikke-kodende genom, er den funktionelle virkning af mange stadig ukendt. Tredimensionelle kromatin interaktioner identificeret ved Hi-C eller dets derivater kan give nyttige værktøjer til at anmærkning disse loci ved at forbinde ikke-kodning varianter til deres handlingsrettede gener. Her skitserer vi en protokol til at kortlægge GWAS ikke-kodning varianter til deres formodede gener ved hjælp af Alzheimers sygdom (AD) GWAS og Hi-C datasæt fra humant voksen hjernevæv. Formodede kausale enkelt-nukleotidpolymorfier (SNPs) identificeres ved anvendelse af finkortlægnings algoritmer. SNPs er derefter knyttet til deres formodede målgener ved hjælp af Enhancer-Promoter interaktioner baseret på Hi-C. Det resulterende gensæt repræsenterer annonce risiko gener, da de potentielt reguleres af annonce risiko varianter. For at samle yderligere biologisk indsigt i molekylære mekanismer underliggende annonce, karakteriserer vi AD Risk gener ved hjælp af udviklingsmæssige hjerne ekspression data og hjernen enkelt celle ekspressions profiler. Denne protokol kan udvides til alle GWAS-og Hi-C-datasæt for at identificere formodede målgener og molekylære mekanismer, der underliggende forskellige menneskelige egenskaber og sygdomme.

Introduction

De mange forenings studier (GWAS) har spillet en afgørende rolle i afsløringen af det genetiske grundlag for en række menneskelige træk og sygdomme. Denne store genotypebestemmelse har afdækket tusinder af genomiske varianter forbundet med fænotyper, der spænder fra højde til skizofreni risiko. Men på trods af GWAS enorme succes med at identificere sygdom og træk associeret loci, en mekanistisk forståelse af, hvordan disse varianter bidrager til fænotype har været udfordrende, fordi de fleste fænotype associerede varianter bor i ikke-kodning del af det menneskelige genom. Da disse varianter ofte overlapper med forudsete regulatoriske elementer, vil de sandsynligvis ændre transkriptional kontrol af et nærliggende gen. Ikke-kodende loci kan dog påvirke transkriptionen af gener ved lineære afstande, som overstiger en megabase, hvilket gør de gener, som berøres af hver variant, svære at identificere. Tredimensionel (3D) kromatin struktur spiller en vigtig rolle i at formidle forbindelser mellem Fjern regulerende loci og gene promotorer og kan bruges til at identificere gener påvirket af fænotype associeret enkelt-nukleotid polymorfier (SNPs).

Gen regulering er medieret af en kompleks proces, som involverer forstærker aktivering og kromatin loop dannelse, der fysisk forbinder smagsforstærkere til gene promotorer, som transkriptionelle maskiner kan rettes1,2,3. Fordi kromatin loops ofte spænder over flere hundrede kilobaser (KB), detaljerede kort af 3D kromatin arkitektur er forpligtet til at dechifrere gen regulerende mekanismer. Flere kromatin konstellation Capture teknologier er blevet opfundet for at identificere 3D kromatin arkitektur4. Blandt disse teknologier, Hi-C giver den mest omfattende arkitektur, da det fanger Genome-dækkende 3D kromatin interaktion profiler. Hi-C datasæt er blevet hurtigt tilpasset til at fortolke ikke-kodning Genome-Wide signifikant (GWS) loci5,6,7,8,9,10,11,12,13, da det kan forbinde ikke-kodning varianter til deres formodede mål gener baseret på kromatin interaktion profiler.

I denne artikel skitserer vi en protokol til beregningsmæssigt forudsige formodede målgener af GWAS risiko varianter ved hjælp af kromatin interaktions profiler. Vi anvender denne protokol til at kort sætte AD GWS loci14 til deres målgener ved hjælp af Hi-C datasæt i den voksne menneskelige hjerne9. De resulterende annonce risiko gener er karakteriseret ved andre funktionelle genomdatasæt, der omfatter enkelt celle transkriptomic og udviklingsmæssige udtryks profiler.

Protocol

1. opsætning af arbejdsstation

  1. Installer R (version 3.5.0) og RStudio desktop. Åbn RStudio.
  2. Installer følgende biblioteker i R ved at skrive følgende kode i konsolvinduet i RStudio.
    Hvis (! " BiocManager "% i% rownames (installeret. Packages ()))
    Installer. pakker ("BiocManager", Repos = "https://Cran.r-Project.org")
    BiocManager:: Installer ("GenomicRanges")
    BiocManager:: Installer ("biomaRt")
    BiocManager:: install ("WGCNA")
    Installer. pakker ("Omform")
    Installer. pakker ("ggplot2")
    Installer. pakker ("corrplot")
    Installer. pakker ("gProfileR")
    Installer. pakker ("tidyverse")
    Installer. pakker ("ggpubr")
  3. Hent filer.
    Bemærk: i denne protokol skal alle filer downloades til ~/Work Directory.
    1. Hent fà ̧lgende filer ved at klikke pà ¥ de hyperlinks, der findes i tabel over materialer.
      1. Download fine kortlagte troværdige SNPs for AD (supplerende tabel 8 fra Jansen et al.14).
        NOTER: før analyse, Åbn ark otte i 41588_2018_311_MOESM3_ESM. xlsx, Fjern de første tre rækker og Gem arket som Supplementary_Table_8_Jansen. txt med tabulatorsepareret format.
      2. Hent 10 KB resolution Hi-C interaktions profiler i voksen hjernen fra psychencode (beskrevet som Promoter-anchored_chromatin_loops. Bed nedenfor).
        Bemærk: denne fil har følgende format: kromosom, TSS_start, TSS_end, Enhancer_start og Enhancer_end. Hvis der anvendes andre Hi-C-datasæt, kræver denne protokol Hi-C-datasæt behandlet ved høj opløsning (5 − 20 kb).
      3. Hent datasæt for enkelt celle udtryk fra PsychENCODE.
        Bemærk: disse er fra neurotypical kontrolprøver.
      4. Download data om udviklings udtryk fra BrainSpan (beskrevet som Devexpr. RDA nedenfor).
        Bemærk: 267666527 er en zippet fil, så pak 267666527 ud for at udtrække "columns_metadata. csv", "expression_matrix. csv" og "rows_metadata. csv" for at generere devExpr. RDA (Se afsnit 3).
    2. Download exonic koordinater (Se supplerende filer, beskrevet som Gencode19_exon. Bed and Gencode19_promoter. Bed nedenfor) fra GenCode version 19.
      Bemærk: initiativtagerne defineres som 2 KB opstrøms for transkriptionsstart stedet (TSS). Disse filer har følgende format: kromosom, start, ende og gen.
    3. Download gen annotation fil (Se supplerende filer, beskrevet som geneanno. RDA nedenfor) fra biomart.
      Bemærk: denne fil kan bruges til at matche gener baseret på Ensembl gene IDs og HUGO gene nomenklatur Committee (HGNC) symbol.

2. generering af en GRanges-genstand til troværdige SNP

  1. Konfigurer i R ved at skrive følgende kode i konsolvinduet i RStudio.
    bibliotek (GenomicRanges)
    indstillinger (stringsAsFactors = F)
    setwd ("~/Work") # Dette er stien til arbejdsmappen.
    credSNP = Læs. delim ("Supplementary_Table_8_Jansen. txt", header = T)
    credSNP = credSNP [credSNP $ troværdig. kausal = = "ja",]
  2. Gør et GRanges-objekt ved at skrive følgende kode i konsolvinduet i RStudio.
    credranges = GRanges (credSNP $ Chr, IRanges (credSNP $ BP, credSNP $ BP), rsid = credSNP $ SNP, P = credSNP $ P)
    Gem (credranges, File = "AD_credibleSNP. RDA")

3. positions kortlægning

Bemærk: for hvert trin, Skriv den tilsvarende kode i konsolvinduet i RStudio.

  1. Oprettet i R.
    indstillinger (stringsAsFactors = F)
    bibliotek (GenomicRanges)
    belastning ("AD_credibleSNP. RDA") # (Se 2)
  2. Positionelle kortlægning af promotor/exonic SNPs til gener
    1. Indlæs promoter og exonic region og generere en GRange objekt.
      exon = Læs. table ("Gencode19_exon. Bed")
      exonranges = GRanges (exon [, 1], IRanges (exon [, 2], eXoN [, 3]), gen = exon [, 4])
      Promoter = Læs. table ("Gencode19_promoter. Bed")
      promoterranges = GRanges (Promoter [, 1], IRanges (Promoter [, 2], Promoter [, 3]), Gene = Promoter [, 4])
    2. Overlappe troværdige SNPs med exoniske regioner.
      OLAP = Findoverlap (credranges, exonranges)
      credexon = credranges [queryHits (OLAP)]
      mcols (credexon) = cbind (mcols (credexon), mcols (exonranges [Subjekecthits (OLAP)]))
    3. Overlappe troværdige SNP'er med promotor-regioner.
      OLAP = Findoverlap (credranges, promoterranges)
      credpromoter = credranges [queryHits (OLAP)]
      mcols (credpromoter) = cbind (mcols (credpromoter), mcols (promoterranges [Subjekecthits (OLAP)]))
  3. Link SNPs til deres formodede målgener ved hjælp af kromatin interaktioner.
    1. Indlæs Hi-C-datasæt, og Generer et GRange-objekt.
      HIC = Læs. table ("promotor-anchored_chromatin_loops. Bed ", Skip = 1)
      kolnames (HIC) = c ("Chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      hicranges = GRanges (HIC $ Chr, IRanges (HIC $ TSS_start, HIC $ TSS_end), Enhancer = HIC $ Enhancer_start)
      OLAP = Findoverlap (hicranges, promoterranges)
      hicpromoter = hicranges [queryHits (OLAP)]
      mcols (hicpromoter) = cbind (mcols (hicpromoter), mcols (promoterranges [Subjekecthits (OLAP)]))
      hicenhancer = Granger (seqnames (hicpromoter), Iranger (hicpromoter $ Enhancer, hicpromoter $ Enhancer + 10000), Gene = hicpromoter $ Gene)
    2. Overlappe troværdige SNPs med hi-C GRange-objekt.
      OLAP = Findoverlap (credranges, hicenhancer)
      credhic = credranges [queryHits (OLAP)]
      mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer [Subjekecthits (OLAP)]))
  4. Kompiler annonce kandidat gener defineret ved positions kortlægning og kromatin-interaktions profiler.
    # # # De resulterende kandidat gener for annonce:
    ADgenes = Reducer (Union, List (credhic $ gene, credexon $ gene, credpromoter $ Gene))
    # # # at konvertere Ensembl gene ID til HGNC symbol
    belastning ("geneAnno. RDA")
    ADhgnc = geneAnno1 [match (ADgenes, geneAnno1 $ ensembl_gene_id), "hgnc_symbol"]
    ADhgnc = ADhgnc [ADhgnc! = ""]
    Gem (ADgenes, ADhgnc, File = "ADgenes. RDA")
    Skriv. table (ADhgnc, fil = "ADgenes. txt", Row. Names = F, Col. navne = F, quote = F, sep = "\t")

4. udviklingsmæssige udtryks Forløbskurver

Bemærk: for hvert trin, Skriv den tilsvarende kode i konsolvinduet i RStudio.

  1. Oprettet i R.
    bibliotek (omforme); bibliotek (ggplot2); bibliotek (GenomicRanges); bibliotek (biomaRt)
    bibliotek ("WGCNA")
    indstillinger (stringsAsFactors = F)
  2. Proces udtryk og metadata.
    datExpr = Read. csv ("expression_matrix. csv", header = FALSE)
    datExpr = datExpr [,-1]
    datMeta = Read. csv ("columns_metadata. csv")
    datProbes = Read. csv ("rows_metadata. csv")
    datExpr = datExpr [datProbes $ ensembl_gene_id! = "",]
    datProbes = datProbes [datProbes $ ensembl_gene_id! = "",]
    datExpr.cr = Skjul (datExpr, rowGroup = datProbes $ ensembl_gene_id, rowID = rownames (datExpr))
    datExpr = datExpr. CR $ Datetkollapset
    gename = data. frame (datExpr. CR $ group2row)
    rownames (data expr) = gename $ Group
    1. Angiv udviklingsstadier.
      datMeta $ Unit = "postnatal"
      IDX = GREP ("PCW", datMeta $ Age)
      datMeta $ Unit [IDX] = "prænatal"
      IDX = GREP ("yrs", datMeta $ Age)
      datMeta $ Unit [IDX] = "postnatal"
      datMeta $ Unit = faktor (datMeta $ enhed, niveauer = c ("prænatal", "postnatal"))
    2. Vælg kortikale områder.
      datMeta $ region = "SubCTX"
      r = c ("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "OCX")
      datMeta $ region [datMeta $ structure_acronym% i% r] = "CTX"
      datExpr = datExpr [, som (datMeta $ region = = "CTX")]
      datMeta = datMeta [som (datMeta $ region = = "CTX"),]
      Gem (datExpr, datMeta, File = "devExpr. RDA")
  3. Udpak udviklings udtryks profiler for annonce risiko gener.
    belastning ("ADgenes. RDA")
    exprdat = Anvend (datExpr [match (ADgenes, rownames (data expr)),], 2, Mean, na. RM = T)
    dat = data. frame (region = datMeta $ region, enhed = datMeta $ Unit, expr = exprdat)
  4. Sammenlign prænatal versus postnatale ekspressionsniveauer for annonce risiko gener.
    PDF (fil = "developmental_expression. pdf")
    ggplot (DAT, AES (x = enhed, y = udtryk, fyld = enhed, alpha = enhed)) + YLAB ("normaliseret udtryk") + geom_boxplot (outlier. Size = NA) + ggtitle ("Brain Expression") + XLAB ("") + scale_alpha_manual (værdier = c (0,2, 1)) + theme_classic () + tema (Legend. position = "na" )
    dev. off ()

5. celle-type udtryks profiler

Bemærk: for hvert trin, Skriv den tilsvarende kode i konsolvinduet i RStudio.

  1. Oprettet i R.
    indstillinger (stringsAsFactors = F)
    belastning ("ADgenes. RDA")
    belastning ("geneAnno. RDA")
    destinations = "ad"
    Target gene = ADhgnc
    cellexp = Læs. table ("DER-20_Single_cell_expression_processed_TPM_backup. tsv", headeren = T, fill = T)
    cellexp [1.121, 1] = cellexp [1120, 1]
    cellexp = cellexp [-1120,]
    rownames (cellexp) = cellexp [, 1]
    cellexp = cellexp [,-1]
    datExpr = skala (cellexp, Center = T, Scale = F)
    datExpr = datExpr [, 789: ncol (datExpr)]
  2. Uddrag cellulære udtryks profiler af AD Risk gener.
    exprdat = apply (datExpr [match (targetgen, rownames (data expr)),], 2, Mean, na. RM = T)
    dat = data. frame (gruppe = targetname, celle = Names (exprdat), expr = exprdat)
    dat $ CellType = unlist (lapply (strsplit (dat $ Cell, split = "[.]"), ' [', 1))
    dat = dat [-GREP ("ex | I ", DAT $ CellType),]
    dat $ CellType = gsub ("dev", "fetal", DAT $ CellType)
    dat $ CellType = Factor (dat $ CellType, niveauer = c ("neuroner", "astrocytter", "Microglia", "Endothelial",
    Oligodendrocytter "," OPC "," føtal "))
    PDF (fil = "singlecell_expression_ADgenes. pdf")
    ggplot (DAT, AES (x = CellType, y = expr, fill = CellType)) +
    YLAB ("normaliseret udtryk") + XLAB ("") + geom_violin () + tema (akse. Text. x = element_text (vinkel = 90, hjust = 1)) + tema (Legend. position = "ingen") +
    ggtitle (paste0 ("mobil udtryks profiler for annonce risiko gener"))
    dev. off ()

6. genanmærknings berigelse analyse af AD Risk gener

  1. Download og Konfigurer HOMER ved at skrive kommandoerne nedenfor i Terminal.
    mkdir Homer
    CD Homer
    wget http://homer.ucsd.edu/homer/configureHomer.pl
    Perl./configureHomer.pl-Installer
    Perl./configureHomer.pl-Installer Human-p
    Perl./configureHomer.pl-Installer Human-o
  2. Kør HOMER ved at skrive kommandoerne nedenfor i Terminal.
    Eksporter sti = $PATH: ~/Work/Homer/bin
    findMotifs.pl ~/work/ADgenes.txt Human ~/Work/
  3. Afbild de forbedrede termer ved at skrive følgende kode i konsolvinduet i RStudio.
    bibliotek (ggpubr)
    indstillinger (stringsAsFactors = F)
    PDF ("GO_enrichment. pdf", bredde = 15, højde = 8)
    plot_barplot = funktion (dbname, navn, farve) {
    input = Read. delim (paste0 (dbnavn, ". txt"), header = T)
    input = indgang [, c (-1,-10,-11)]
    input = Unique (input)
    input $ FDR = p. Adjust (exp (input $ logP))
    input_sig = indgang [indgang $ FDR < 0,1,]
    input_sig $ FDR =-log10 (input_sig $ FDR)
    input_sig = input_sig [Order (input_sig $ FDR)]
    p = ggbarplot (input_sig, x = "term", y = "FDR", fyld = farve, Color = "hvid", sort. Val = "ASC", YLAB = Expression (-Log [10] (kursiv (FDR))), XLAB = paste0 (navn, "vilkår"), Roter = TRUE, etiket = paste0 (input_sig $ Target. Genes. in. term, "/", input_sig $ gener. in. term), Font. label = liste (farve = "hvid", størrelse = 9), Lab. vjust = 0,5, Lab. hjust = 1)
    p = p + geom_hline (yskæring =-log10 (0,05), linje = 2, Color = "lightgray")
    afkast (p)
    }
    P1 = plot_barplot ("biological_process", "GO biologisk proces", "#00AFBB")
    P2 = plot_barplot ("kegg", "KEGG", "#E7B800")
    P3 = plot_barplot ("reactome", "Reactome", "#FC4E07")
    ggarrange (P1, P2, P3, etiketter = c ("A", "B", "C"), ncol = 2, nrow = 2)
    dev. off ()

Representative Results

Den proces, der er beskrevet her, blev anvendt på et sæt på 800 troværdige SNP, som blev defineret i den oprindelige undersøgelse14. Positions kortlægning afslørede, at 103 SNPs overlappede med promotorer (43 unikke gener) og 42 SNPs overlappede med exons (27 unikke gener). Efter positions mapping forblev 84% (669) SNPs ikke kommenteret. Ved hjælp af Hi-C datasæt i den voksne hjerne, vi var i stand til at knytte en ekstra 208 SNPs til 64 gener baseret på fysisk nærhed. I alt kortlagde vi 284 AD troværdige SNPs til 112 AD Risk gener (figur 1A). Ad Risk gener var forbundet med amyloid prækursorer, amyloid-beta dannelse og immunrespons, hvilket afspejlede den kendte biologi i ad15,16,17,18 (figur 1B-D). Udviklingsmæssige udtryks profiler for AD-risiko gener viste markant postnatalt berigelse, hvilket indikerer den aldersrelaterede forhøjede risiko for AD (figur 2A). Endelig blev AD Risk gener stærkt udtrykt i microglia, primære immunceller i hjernen (figur 2B). Dette er i forståelse med de tilbagevendende fund, at annoncen har et stærkt immun grundlag, og microglia er den centrale aktør i ad patogenesen14,19,20.

Figure 1
Figur 1: definering af formodede målgener for ad GWS loci. A) troværdige SNP'er afledt af top 29 ad loci blev kategoriseret i promotor SNPs, Exonic SNPs og ikke-annoterede ikke-kodnings-SNPs. promotor og Exonic SNPs blev direkte tildelt deres målgener ved positions kortlægning, mens kromatin interaktions profiler i voksen hjernen også blev brugt til at kortlægge SNPs baseret på fysiske interaktioner. (B-D) Tilsætning af GO (B), kegg (C) og Reactome (D) udtryk i ad Risk gener blev udført ved hjælp af HOMER som beskrevet i protokol afsnit 6. X-aksen repræsenterer falsk Discovery rate (FDR) korrigeret-log10 (P-værdi). Forbedrede termer med FDR < 0,1 blev afbildet. Grå lodrette linjer repræsenterer FDR = 0,05. APP amyloid forløber protein. Tæller, antallet af annonce risiko gener, som er repræsenteret i hvert udtryk nævner, antallet af gener i hvert udtryk. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2: karakterisering af annonce risiko gener. A) ad Risk-gener udtrykkes i høj grad i den postnatale cortex sammenlignet med den prænatal cortex. (B) violin plots, som skildrer fordelinger af genekspressions værdier (normaliseret udtryk) i forskellige celletyper fra cortex. Disse resultater viser, at annonce risiko gener udtrykkes meget i microglia i overensstemmelse med tidligere undersøgelser14. Venligst klik her for at se en større version af dette tal.

Supplerende fil 1. Klik venligst her for at se denne fil (Højreklik for at downloade).

Supplerende fil 2. Klik venligst her for at se denne fil (Højreklik for at downloade).

Supplerende fil 3. Klik venligst her for at se denne fil (Højreklik for at downloade).

Discussion

Her beskriver vi en analytisk ramme, der kan bruges til funktionelt at ankommentere GWS loci baseret på positions kortlægning og kromatin-interaktioner. Denne proces involverer flere trin (yderligere oplysninger findes i denne anmeldelse13). For det første, da kromatin interaktions profiler er meget celle specifikke, skal der anvendes Hi-C-data fra de relevante celle/vævstyper, der bedst fanger underliggende biologi af uorden. I betragtning af at ANNONCEN er en neurodegenerativ lidelse, brugte vi voksne Brain Hi-C data9 til at ANNOERE GWS loci. For det andet, hver GWS locus ofte har op til hundredvis af SNPs, der er forbundet med træk på grund af sammenkædning uligevægt (LD), det er derfor vigtigt at opnå formodede årsagssammenhæng (» troværdige «) SNPs ved at beregne årsagssammenhængen ved at anvende finkortlægnings algoritmer21,22 eller eksperimentelt teste reguleringsaktiviteter ved hjælp af tilgange med høj dataoverførselshastighed såsom massivt parallelle reporter assays (mpra)23 eller selv transskriberende aktiv reguleringsområde sekvensering ( STARR-SEQ)24. For det arbejde, der er beskrevet her, brugte vi troværdige SNPs rapporteret i Jansen et al.14. Tredje, promotor og exonic SNPs er kommenteret baseret på positions mapping. Vi brugte en simpel positions kortlægnings strategi, hvor SNPs blev knyttet til generne, når de overlappede med promotorer (defineret som 2 KB opstrøms for transskription start site) eller exons. Denne fremgangsmåde kan imidlertid uddybes yderligere ved at vurdere de funktionelle konsekvenser af exonic SNPs, såsom om SNP inducerer nonsens medierede forfald, missense variation eller nonsens variation. For det fjerde kan kromatin interaktions profiler fra den relevante vævs/celletype bruges til at tildele SNPs til deres formodede målgener baseret på fysisk nærhed. Vi brugte interaktions profiler forankret til initiativtagere, men vi kan yderligere forfine eller udvide interaktions profilerne ved at tage forstærker-aktiviteter (styret af Histon H3 K27 acetylering eller kromatin Accessibility) eller exonic interaktioner i betragtning. En vigtig overvejelse i denne proces er at bruge konsistent menneskelig genom Build. For eksempel, hvis de genomiske positioner i summariske statistikker ikke er baseret på hg19 (dvs. hg18 eller hg38), skal der indhentes en passende version af reference genomet, eller de summariske statistikker skal konverteres til hg19 ved hjælp af liftover25.

Vi anvendte denne ramme til at identificere formodede målgener for AD GWAS, tildele 284 SNPs til 112 AD risiko gener. Ved hjælp af udviklings udtryks profiler26 og celletype specifikke udtryks profiler9, viste vi derefter, at dette gensæt var i overensstemmelse med, hvad der vides om ad patologi, afslører celle typerne (microglia), biologiske funktioner (immunrespons og amyloid beta) og forhøjet risiko efter alder.

Mens vi præsenterede en ramme, der afgrænse potentielle mål gener af AD og dens underliggende biologi, det er af Bemærk, at Hi-C baseret annotation kan udvides til at anmærke enhver ikke-kodning variation. Efterhånden som flere data om hele genomsekvensering bliver tilgængelige, og vores forståelse af den ikke-kodende sjældne variation vokser, vil Hi-C udgøre en vigtig ressource til fortolkning af sygdoms associerede genetiske varianter. Et kompendium af Hi-C ressourcer fra flere vævs-og celletyper vil derfor være afgørende for at fremme en bred anvendelse af denne ramme til at samle biologisk indsigt i forskellige menneskelige træk og sygdom.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde blev støttet af NIH Grant R00MH113823 (til H.W.) og R35GM128645 (til D.H.P.), NARSAD Young Investigator Award (til H.W.), og SPARK Grant fra Simons Foundation autisme Research Initiative (SFARI, til N.M. og H.W.).

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7, (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489, (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55, (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14, (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538, (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13, (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362, (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51, (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51, (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51, (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129, (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125, (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14, (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136, (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217, (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518, (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32, (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198, (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165, (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339, (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12, (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478, (7370), 483-489 (2011).

Comments

2 Comments

  1. Hello Nana Matoba et al, can you please tell me what is the geneAnno1 object? I can't figure it out. I will be waiting for your kind response, below is the error message. Thank you
    > load("geneAnno.rda")
    > ADhgnc = geneAnno1[match(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    Error: object 'geneAnno1' not found

    Reply
    Posted by: Aamir F.
    February 3, 2020 - 6:03 PM
  2. Thank you for pointing this out!
    We noticed that the original Supplementary file 3 (geneAnno.rda) did not have the right object, so we replaced it with a new file (geneAnno2.rda; https://www.jove.com/files/ftp_upload/60428/geneAnno2.rda).
    This file should contain geneAnno1.

    Reply
    Posted by: Nana M.
    February 7, 2020 - 9:44 AM

Post a Question / Comment / Request

You must be signed in to post a comment. Please or create an account.

Usage Statistics