Kartlegging Alzheimers sykdom varianter til deres mål gener bruke beregningsorientert analyse av Kromatin Configuration

* These authors contributed equally
Genetics
 

Summary

Vi presenterer en protokoll for å identifisere funksjonelle implikasjoner av ikke-koding varianter identifisert av Genova-brede foreningen studier (GWAS) ved hjelp av tredimensjonale kromatin interaksjoner.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genova-brede forening studier (GWAS) har identifisert hundrevis av genomisk Loci som er forbundet med menneskelige egenskaper og sykdom. Imidlertid, fordi flertallet av det Genova-bred betydelig (GWS) Loci falle på det ingen-kodingen Genova, det funksjonell innvirkningen av mange være igjen ubekjent. Tredimensjonale kromatin interaksjoner identifisert av hi-C eller dets derivater kan gi nyttige verktøy for å kommentere disse Loci ved å koble ikke-koding varianter til deres nyttige gener. Her skisserer vi en protokoll for å kartlegge GWAS ikke-koding varianter til deres antatte gener ved hjelp av Alzheimers sykdom (AD) GWAS og Hi-C datasett fra humant voksen hjernevev. Antatte årsakssammenheng enkelt-nukleotid polymorfismer (SNPs) identifiseres ved anvendelse av fin-kartlegging algoritmer. SNPs blir deretter kartlagt til deres antatte mål gener ved hjelp av Enhancer-promoter interaksjoner basert på Hi-C. Det resulterende genet sett representerer AD risiko gener, som de er potensielt regulert av AD risiko varianter. For å samle ytterligere biologisk innsikt i molekylære mekanismer underliggende AD, karakteriserer vi AD risiko gener ved hjelp av utviklingsmessige hjernen uttrykk data og hjernen enkelt celle uttrykk profiler. Denne protokollen kan utvides til alle GWAS og Hi-C datasett for å identifisere antatte mål gener og molekylære mekanismer underliggende ulike menneskelige egenskaper og sykdommer.

Introduction

Genova-Wide foreningen studier (GWAS) har spilt en avgjørende rolle i å avsløre det genetiske grunnlaget for en rekke menneskelige egenskaper og sykdommer. Denne stor-skalaen genotyperingteknologi har avdekket tusenvis av genomisk varianter forbundet med fenotyper oppstiller fra høyde å schizofreni risk. Til tross for den enorme suksessen til GWAS for å identifisere sykdom og egenskap forbundet med Loci, har imidlertid en mekanistisk forståelse av hvordan disse variantene bidrar til fenotype, vært utfordrende fordi de fleste fenotype assosierte variantene bor i ikke-koding brøkdel av den menneskelige Genova. Siden disse variantene ofte overlapper med anslåtte regulatoriske elementer, vil de sannsynligvis endre transcriptional kontroll over et nærliggende gen. Men ikke-koding Loci kan påvirke transkripsjon av gener på lineær avstander som overstiger en megabase, noe som gjør genene påvirkes av hver variant vanskelig å identifisere. Tredimensjonal (3D) kromatin struktur spiller en viktig rolle i formidling forbindelser mellom fjernt regulatoriske Loci og gen arrangører og kan brukes til å identifisere gener berørt av fenotype knyttet enkelt-nukleotid polymorfismer (SNPs).

Gen regulering er formidlet av en kompleks prosess, som innebærer Enhancer aktivisering og kromatin loop formasjon som fysisk koble enhancers til genet arrangører som transcriptional maskiner kan rettes1,2,3. Fordi kromatin looper ofte spenner over flere hundre kilobases (KB), detaljerte kart over 3D kromatin arkitektur er nødvendig for å dechiffrere genet regulatoriske mekanismer. Flere kromatin konformasjon fangst teknologier har blitt oppfunnet for å identifisere 3D kromatin arkitektur4. Blant disse teknologiene, Hi-C gir den mest omfattende arkitekturen, som det fanger opp Genova-brede 3D kromatin interaksjon profiler. Hi-C datasett har blitt raskt tilpasset til å tolke ikke-koding Genova-Wide signifikant (GWS) Loci5,6,7,8,9,10,11,12,13, som det kan koble ikke-koding varianter til deres antatte mål gener basert på kromatin samspill profiler.

I denne artikkelen skisserer vi en protokoll for å beregningsmessig forutsi antatte mål gener av GWAS risiko varianter ved hjelp av kromatin samhandlings profiler. Vi bruker denne protokollen for å kartlegge AD GWS Loci14 til deres mål gener ved hjelp av hi-C datasett i den voksne menneskelige hjernen9. Den resulterende AD risiko gener er preget av andre funksjonelle genomisk datasett som inkluderer enkelt celle transcriptomic og utviklingsmessige uttrykks profiler.

Protocol

1. oppsett av arbeidsstasjon

  1. Installere R (versjon 3.5.0) og RStudio desktop. Åpne RStudio.
  2. Installere det fulgte biblioteker inne R ved å skrive det fulgte koden inn i konsollen vindu inne RStudio.
    if (! " BiocManager "% i% rownames (installert. Packages ()))
    Install. Packages ("BiocManager", Repos = "https://Cran.r-Project.org")
    BiocManager:: install ("GenomicRanges")
    BiocManager:: install ("biomaRt")
    BiocManager:: install ("WGCNA")
    Install. Packages ("endre form")
    Install. Packages ("ggplot2")
    Install. Packages ("corrplot")
    Install. Packages ("gProfileR")
    Install. Packages ("tidyverse")
    Install. Packages ("ggpubr")
  3. Last ned filer.
    Merk: i denne protokollen, er alle filer som kreves for å bli lastet ned til ~/Work katalog.
    1. Last ned følgende filer ved å klikke koblingene i tabell over materialer.
      1. Last ned fin kartlagt troverdig SNPs for AD (supplerende tabell 8 fra Jansen et al.14).
        Merk: før analyse, åpne ark åtte i 41588_2018_311_MOESM3_ESM. xlsx, Fjern de tre første radene og lagre arket som Supplementary_Table_8_Jansen. txt med fane separert format.
      2. Last ned 10 kB oppløsning Hi-C interaksjon profiler i den voksne hjernen fra psychencode (beskrevet som promoter-anchored_chromatin_loops. seng nedenfor).
        Merk: denne filen har følgende format: kromosom, TSS_start, TSS_end, Enhancer_start og Enhancer_end. Hvis andre Hi-C-datasett brukes, vil denne protokollen kreve at Hi-C-datasett behandles med høy oppløsning (5 − 20 KB).
      3. Last ned datasett med enkelt celle uttrykk fra PsychENCODE.
        Merk: disse er fra neurotypical kontroll prøver.
      4. Last ned utviklingsmessige uttrykk datasett fra BrainSpan (beskrevet som devExpr. RDA nedenfor).
        Merk: 267666527 er en zippet fil, så Pakk ut 267666527 for å pakke ut "columns_metadata. csv", "expression_matrix. csv" og "rows_metadata. csv" for å generere devExpr. RDA (se avsnitt 3).
    2. Last ned exonic koordinater (se utfyllende filer, beskrevet som Gencode19_exon. Bed og Gencode19_promoter. Bed nedenfor) fra Gencode versjon 19.
      Merk: arrangører er definert som 2 KB oppstrøms av transkripsjon Start site (TSS). Disse filene har følgende format: kromosom, Start, slutt, og genet.
    3. Last ned gen merknads filen (se utfyllende filer, beskrevet som geneAnno. RDA nedenfor) fra biomart.
      Merk: denne filen kan brukes til å matche gener basert på Ensembl genet IDer og HUGO Gene nomenklatur Committee (HGNC) symbol.

2. generering av en GRanges objekt for troverdig SNPs

  1. Sett opp i R ved å skrive inn følgende kode i konsollvinduet i RStudio.
    bibliotek (GenomicRanges)
    valg (stringsAsFactors = F)
    setwd ("~/work") # Dette er banen til arbeidsmappen.
    credSNP = Les. delim ("Supplementary_Table_8_Jansen. txt", header = T)
    credSNP = credSNP [credSNP $ troverdig. årsakssammenheng = = "ja",]
  2. Lag en GRanges objekt ved å skrive inn følgende kode i konsollen vinduet i RStudio.
    credranges = GRanges (credSNP $ Chr, IRanges (credSNP $ BP, credSNP $ BP), rsid = credSNP $ SNP, P = credSNP $ P)
    lagre (credranges, file = "AD_credibleSNP. RDA")

3. posisjons kartlegging

Merk: for hvert trinn skriver du inn den tilsvarende koden i konsollvinduet i RStudio.

  1. Sett opp i R.
    Options (stringsAsFactors = F)
    bibliotek (GenomicRanges)
    Load ("AD_credibleSNP. RDA") # (se 2)
  2. Posisjons kartlegging av promoter/exonic SNPs til gener
    1. Load promoter og exonic regionen og generere en GRange objekt.
      ekson = Les. tabell ("Gencode19_exon. Bed")
      exonranges = GRanges (ekson [, 1], IRanges (ekson [, 2], ekson [, 3]), Gene = ekson [, 4])
      promoter = Les. Table ("Gencode19_promoter. Bed")
      promoterranges = GRanges (promoter [, 1], IRanges (promoter [, 2], promoter [, 3]), Gene = promoter [, 4])
    2. Overlapping troverdig SNPs med exonic regioner.
      OLAP = findOverlaps (credranges, exonranges)
      credexon = credranges [queryHits (OLAP)]
      mcols (credexon) = cbind (mcols (credexon), mcols (exonranges [subjectHits (OLAP)]))
    3. Overlapp troverdig SNPs med promoter regioner.
      OLAP = findOverlaps (credranges, promoterranges)
      credpromoter = credranges [queryHits (OLAP)]
      mcols (credpromoter) = cbind (mcols (credpromoter), mcols (promoterranges [subjectHits (OLAP)]))
  3. Link SNPs til deres antatte mål gener ved hjelp av kromatin interaksjoner.
    1. Load Hi-C datasett og generere en GRange objekt.
      hic = Les. tabell ("promoter-anchored_chromatin_loops. Bed ", hopp over = 1)
      colnames (hic) = c ("Chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      hicranges = GRanges (hic $ Chr, IRanges (hic $ TSS_start, hic $ TSS_end), Enhancer = hic $ Enhancer_start)
      OLAP = findOverlaps (hicranges, promoterranges)
      hicpromoter = hicranges [queryHits (OLAP)]
      mcols (hicpromoter) = cbind (mcols (hicpromoter), mcols (promoterranges [subjectHits (OLAP)]))
      hicenhancer = GRanges (seqnames (hicpromoter), IRanges (hicpromoter $ Enhancer, hicpromoter $ Enhancer + 10000), Gene = hicpromoter $ Gene)
    2. Overlapp troverdig SNPs med Hi-C GRange objekt.
      OLAP = findOverlaps (credranges, hicenhancer)
      credhic = credranges [queryHits (OLAP)]
      mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer [subjectHits (OLAP)]))
  4. Kompiler AD kandidat gener definert av posisjons kartlegging og kromatin samhandlings profiler.
    # # # Den resulterende kandidat gener for AD:
    ADgenes = Reduser (Union, liste (credhic $ gen, credexon $ gen, credpromoter $ gen))
    # # # å konvertere Ensembl Gene ID til HGNC symbol
    Load ("geneAnno. RDA")
    ADhgnc = geneAnno1 [match (ADgenes, geneAnno1 $ ensembl_gene_id), "hgnc_symbol"]
    ADhgnc = ADhgnc [ADhgnc! = ""]
    lagre (ADgenes, ADhgnc, file = "ADgenes. RDA")
    Write. Table (ADhgnc, fil = "ADgenes. txt", rad. Names = F, Col. navn = F, sitat = F, Sep = "\t")

4. utvikling Expression baner

Merk: for hvert trinn skriver du inn den tilsvarende koden i konsollvinduet i RStudio.

  1. Sett opp i R.
    biblioteket (omforme); bibliotek (ggplot2); bibliotek (GenomicRanges); bibliotek (biomaRt)
    Library ("WGCNA")
    Options (stringsAsFactors = F)
  2. Behandle uttrykk og meta-data.
    datExpr = Read. csv ("expression_matrix. csv", overskrift = USANN)
    datExpr = datExpr [,-1]
    datMeta = Read. csv ("columns_metadata. csv")
    datProbes = Read. csv ("rows_metadata. csv")
    datExpr = datExpr [datProbes $ ensembl_gene_id! = "",]
    datProbes = datProbes [datProbes $ ensembl_gene_id! = "",]
    datExpr.cr = collapseRows (datExpr, rowGroup = datProbes $ ensembl_gene_id, rowID = rownames (datExpr))
    datExpr = datExpr. CR $ datETcollapsed
    gename = data. Frame (datExpr. CR $ group2row)
    rownames (datExpr) = gename $ gruppe
    1. Angi utviklingstrinn.
      datMeta $ Unit = "postnatal"
      IDX = grep ("pcw", datMeta $ alder)
      datMeta $ Unit [IDX] = "prenatal"
      IDX = grep ("år", datMeta $ Age)
      datMeta $ Unit [IDX] = "postnatal"
      datMeta $ Unit = faktor (datMeta $ enhet, nivåer = c ("prenatal", "postnatal"))
    2. Velg kortikale områder.
      datMeta $ region = "SubCTX"
      r = c ("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "ocx")
      datMeta $ region [datMeta $ structure_acronym% i% r] = "CTX"
      datExpr = datExpr [, som (datMeta $ region = = "CTX")]
      datMeta = datMeta [som (datMeta $ region = = "CTX"),]
      lagre (datExpr, datMeta, file = "devExpr. RDA")
  3. Utdrag utviklingsmessige uttrykks profiler av AD risiko gener.
    Load ("ADgenes. RDA")
    exprdat = Apply (datExpr [samsvar (ADgenes, rownames (datExpr)),], 2, gjennomsnitt, na. RM = T)
    dat = data. Frame (region = datMeta $ region, enhet = datMeta $ enhet, uttr = exprdat)
  4. Sammenlign prenatal versus postnatal uttrykks nivåer for AD risiko gener.
    PDF (fil = "developmental_expression. pdf")
    ggplot (dat, AES (x = enhet, y = uttr, fyll = enhet, alpha = enhet)) + ylab ("normalisert uttrykk") + geom_boxplot (avvikende. size = NA) + ggtitle ("Brain Expression") + XLAB ("") + scale_alpha_manual (verdier = c (0.2, 1)) + theme_classic () + Theme (Legend. position = "na" )
    dev. off ()

5. celle-type uttrykks profiler

Merk: for hvert trinn skriver du inn den tilsvarende koden i konsollvinduet i RStudio.

  1. Sett opp i R.
    Options (stringsAsFactors = F)
    Load ("ADgenes. RDA")
    Load ("geneAnno. RDA")
    målnavn = "AD"
    targetgene = ADhgnc
    cellexp = Les. tabell ("DER-20_Single_cell_expression_processed_TPM_backup. TSV", header = T, fyll = T)
    cellexp [1121, 1] = cellexp [1120, 1]
    cellexp = cellexp [-1120,]
    rownames (cellexp) = cellexp [, 1]
    cellexp = cellexp [,-1]
    datExpr = Skaler (cellexp, midten = T, Skaler = F)
    datExpr = datExpr [, 789: ncol (datExpr)]
  2. Trekk ut cellulære uttrykks profiler av AD risiko gener.
    exprdat = Apply (datExpr [samsvar (targetgene, rownames (datExpr)),], 2, gjennomsnitt, na. RM = T)
    dat = data. Frame (gruppe = målnavn, Cell = navn (exprdat), uttr = exprdat)
    dat $ celltype = unlist (lapply (strsplit (dat $ Cell, Split = "[.]"), ' [[', 1))
    dat = dat [-grep ("ex | I ", dat $ celltype),]
    dat $ celltype = gsub ("Dev", "fosterets", dat $ celltype)
    dat $ celltype = faktor (dat $ celltype, nivåer = c ("neurons", "astrocytter", "Mikroglia", "endothelial",
    Oligodendrocytes "," OPC "," Foster "))
    PDF (fil = "singlecell_expression_ADgenes. pdf")
    ggplot (dat, AES (x = celltype, y = uttr, fyll = celltype)) +
    ylab ("normalisert uttrykk") + XLAB ("") + geom_violin () + Theme (akse. text. x = element_text (vinkel = 90, dhevn = 1)) + Theme (Legend. position = "ingen") +
    ggtitle (paste0 ("cellulære uttrykks profiler av AD risiko gener"))
    dev. off ()

6. Gene merknad berikelse analyse av AD risiko gener

  1. Last ned og Konfigurer HOMER ved å skrive inn kommandoene nedenfor i Terminal.
    mkdir Homer
    CD Homer
    wget http://homer.ucsd.edu/homer/configureHomer.pl
    Perl./configureHomer.pl-installere
    Perl./configureHomer.pl-installere menneskelige-p
    Perl./configureHomer.pl-installere Human-o
  2. Kjør HOMER ved å skrive inn kommandoene nedenfor i terminalen.
    Eksporter bane = $PATH: ~/Work/Homer/bin
    findMotifs.pl ~/work/ADgenes.txt menneskelig ~/Work/
  3. Plot de beriket begrepene ved å skrive inn følgende kode i konsollen vinduet i RStudio.
    bibliotek (ggpubr)
    Options (stringsAsFactors = F)
    PDF ("GO_enrichment. pdf", bredde = 15, høyde = 8)
    plot_barplot = funksjon (dbname, navn, farge) {
    input = Les. delim (paste0 (dbname, ". txt"), header = T)
    input = inngang [, c (-1,-10,-11)]
    input = unik (inngang)
    inn data $ FDR = p. adjust (exp (inn data $ logP))
    input_sig = input [inngang $ FDR < 0,1,]
    input_sig $ FDR =-log10 (input_sig $ FDR)
    input_sig = input_sig [rekkefølge (input_sig $ FDR),]
    p = ggbarplot (input_sig, x = "term", y = "FDR", fyll = farge, farge = "hvit", sort. Val = "ASC", ylab = uttrykk (-log [10] (kursiv (FDR))), XLAB = paste0 (navn, "vilkår"), Roter = sann, etikett = paste0 (input_sig $ Target. gener. in. term, "/", input_sig $ gener. in. term), font. label = liste (farge = "hvit", størrelse = 9), Lab. vjust = 0,5, Lab. dhevn = 1)
    p = p + geom_hline (yintercept =-log10 (0,05), linetype = 2, farge = "lightgray")
    tilbake (p)
    }
    P1 = plot_barplot ("biological_process", "gå til biologisk prosess", "#00AFBB")
    P2 = plot_barplot ("kegg", "KEGG", "#E7B800")
    P3 = plot_barplot ("reactome", "Reactome", "#FC4E07")
    ggarrange (P1, P2, P3, etiketter = c ("A", "B", "C"), ncol = 2, nrow = 2)
    dev. off ()

Representative Results

Prosessen som er beskrevet her ble brukt på et sett av 800 troverdig SNPs som ble definert av den opprinnelige studien14. Posisjons kartlegging avslørte at 103 SNPs overlappet medarrangører (43 unike gener) og 42 SNPs overlappet med exoner (27 unike gener). Etter posisjons kartlegging, 84% (669) SNPs forble unannotated. Ved hjelp av hi-C datasett i den voksne hjernen, var vi i stand til å knytte en ekstra 208 SNPs til 64 gener basert på fysisk nærhet. I alt kartlagt vi 284 AD troverdig SNPs til 112 AD risiko gener (figur 1A). Ad risiko gener ble assosiert med amyloid forløper proteiner, amyloid-beta formasjon, og immunrespons, som reflekterer den kjente biologi avAd 15,16,17,18 (figur 1B-D). Utvikling uttrykks profiler av AD risiko gener viste merket postnatal berikelse, indikasjon på alder-assosiert forhøyet risiko for AD (figur 2A). Til slutt, AD risiko gener var svært uttrykt i mikroglia, primære immunceller i hjernen (figur 2B). Dette er i overensstemmelse med de tilbakevendende funnene at annonsen har en sterk immun basis og mikroglia er den sentrale aktør i AD patogenesen14,19,20.

Figure 1
Figur 1: definere antatte mål gener for ad GWS-Loci. (A) troverdig SNPs avledet fra toppen 29 ad Loci ble kategorisert i promoter SNPs, exonic SNPs, og unannotated ikke-koding SNPs. arrangøren og exonic SNPs ble direkte tildelt sine mål gener ved posisjons kartlegging, mens kromatin interaksjon profiler i den voksne hjernen ble i tillegg brukt til å kartlegge SNPs basert på fysiske interaksjoner. (B-D) Berikelse av GO (B), KEGG (C) og Reactome (D) vilkår i AD risiko GENER ble utført ved hjelp av HOMER som beskrevet i protokoll § 6. X-aksen representerer den falske oppdagelses raten (FDR) korrigert-log10 (P-Value). Beriket termer med FDR < 0,1 ble plottet. Grå vertikale linjer representerer FDR = 0,05. APP amyloid forløper protein. Teller, antall AD risiko gener representert i hver term; nevner, antall gener i hvert semester. Vennligst klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: karakterisering av ad risiko gener. (A) ad risiko gener er svært uttrykt i postnatal cortex i forhold til prenatal cortex. (B) fiolin tomter som viser distribusjoner av gen uttrykks verdier (normalisert uttrykk) i forskjellige celletyper fra cortex. Disse resultatene viser at AD risiko gener er svært uttrykt i mikroglia, i samsvar med tidligere studier14. Vennligst klikk her for å se en større versjon av dette tallet.

Tilleggsfil 1. Vennligst klikk her for å se denne filen (Høyreklikk for å laste ned).

Tilleggsfil 2. Vennligst klikk her for å se denne filen (Høyreklikk for å laste ned).

Tilleggsfil 3. Vennligst klikk her for å se denne filen (Høyreklikk for å laste ned).

Discussion

Her beskriver vi et analytisk rammeverk som kan brukes til å funksjonelt kommentere GWS Loci basert på posisjons kartlegging og kromatin interaksjoner. Denne prosessen omfatter flere trinn (for mer informasjon se denne anmeldelsen13). For det første, gitt det kromatin vekselvirkningen profiler er høylig cellen-type spesifikk, Hei-C data oppnådd fra det passende cellen/tissue typer det best fange underliggende Biology av lidelsen nødvendig å bli anvendt. Gitt at AD er en nevrodegenerative lidelse, brukte vi voksen hjernen Hi-C data9 til å kommentere GWS Loci. For det andre har hvert GWS geometriske har ofte opp til hundrevis av SNPs som er forbundet med trekket på grunn av forbindelses hormonelle (ld), så det er viktig å få antatte årsakssammenheng ("troverdig") SNPs av beregningsmessig forutsi årsakssammenheng gjennom bruk av fin-kartlegging algoritmer21,22 eller eksperimentelt testing regulatoriske aktiviteter ved hjelp av høy gjennomstrømming tilnærminger som massivt parallell reporter analyser (MPRA)23 eller selv-transkribere aktive regulatoriske området sekvensering ( STARR-SEQ)24. For arbeidet som er beskrevet her, brukte vi troverdig SNPs rapportert i Jansen et al.14. For det tredje er arrangøren og exonic SNPs kommentert basert på posisjons kartlegging. Vi brukte en enkel posisjons kartlegging strategi der SNPs ble kartlagt til genene når de overlappes medarrangører (definert som 2 KB oppstrøms av transkripsjon Start site) eller exoner. Imidlertid kan denne tilnærmingen bli ytterligere utarbeidet ved å vurdere de funksjonelle konsekvensene av exonic SNPs, for eksempel om SNP induserer tull mediert forfall, missense variasjon, eller tull variasjon. Fjerde, kromatin samspill profiler fra den aktuelle vev/celle type kan brukes til å tildele SNPs til sine antatte mål gener basert på fysisk nærhet. Vi brukte samhandlings profiler forankret til arrangører, men vi kan videreutvikle eller utvide samhandlings profilene ved å ta forbedrings aktiviteter (veiledet av histone H3 K27 acetylering eller kromatin tilgjengelighet) eller exonic interaksjoner i betraktning. Ettall betydelig betraktning i denne forarbeide er å bruk gjennomført Human Genova bygge. For eksempel, hvis genomisk posisjoner er ikke basert på hg19 (dvs. hg18 eller hg38), en passende versjon av referansen Genova skal innhentes eller sammendraget statistikken må konverteres til hg19 ved hjelp av liftover25.

Vi brukte denne rammen for å identifisere antatte mål gener for AD GWAS, tilordne 284 SNPs til 112 AD risiko gener. Ved hjelp av utviklings uttrykks profiler26 og celle-type spesifikke uttrykks profiler9, vi da viste at dette genet sett var forenlig med det som er kjent om ad patologi, avslører celletyper (mikroglia), biologiske funksjoner (immunrespons og amyloid Beta), og forhøyet risiko på alder.

Mens vi presenterte et rammeverk som delineates potensielle mål gener av AD og dens underliggende biologi, er det av notatet at Hi-C basert Merknad kan utvides til å kommentere noen ikke-koding variasjon. Som mer hele-Genova sekvensering data blir tilgjengelig og vår forståelse om ikke-koding sjelden variasjon vokser, Hi-C vil gi en viktig ressurs for tolkning av sykdom-tilknyttede genetiske varianter. En samling av hi-C ressurser Hentet fra flere vev og celletyper vil være derfor avgjørende for å tilrettelegge en bred anvendelse av dette rammeverket for å få biologisk innsikt i ulike menneskelige egenskaper og sykdom.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble støttet av NIH Grant R00MH113823 (til HW) og R35GM128645 (til D.H.P.), NARSAD Young etterforsker Award (til HW), og SPARK stipend fra Simons Foundation Autism Research Initiative (SFARI, til NM og HW).

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7, (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489, (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55, (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14, (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538, (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13, (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362, (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51, (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51, (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51, (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129, (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125, (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14, (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136, (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217, (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518, (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32, (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198, (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165, (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339, (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12, (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478, (7370), 483-489 (2011).

Comments

2 Comments

  1. Hello Nana Matoba et al, can you please tell me what is the geneAnno1 object? I can't figure it out. I will be waiting for your kind response, below is the error message. Thank you
    > load("geneAnno.rda")
    > ADhgnc = geneAnno1[match(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    Error: object 'geneAnno1' not found

    Reply
    Posted by: Aamir F.
    February 3, 2020 - 6:03 PM
  2. Thank you for pointing this out!
    We noticed that the original Supplementary file 3 (geneAnno.rda) did not have the right object, so we replaced it with a new file (geneAnno2.rda; https://www.jove.com/files/ftp_upload/60428/geneAnno2.rda).
    This file should contain geneAnno1.

    Reply
    Posted by: Nana M.
    February 7, 2020 - 9:44 AM

Post a Question / Comment / Request

You must be signed in to post a comment. Please or create an account.

Usage Statistics