Mapping Alzheimer-Krankheit Varianten zu ihren Zielgenen mit Hilfe der Berechnung der Chromatin-Konfiguration

* These authors contributed equally
Genetics
 

Summary

Wir präsentieren ein Protokoll zur Identifizierung funktioneller Implikationen nicht-kodierender Varianten, die durch genomweite Assoziationsstudien (GWAS) anhand dreidimensionaler Chromatin-Wechselwirkungen identifiziert wurden.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genomweite Assoziationsstudien (GWAS) haben erfolgreich Hunderte von genomischen Loci identifiziert, die mit menschlichen Merkmalen und Krankheiten in Verbindung gebracht werden. Da jedoch der Großteil der genomweiten signifikanten (GWS) Loci auf das nicht-kodierende Genom fällt, bleiben die funktionellen Auswirkungen vieler unbekannt. Dreidimensionale Chromatin-Wechselwirkungen, die von Hi-C oder seinen Derivaten identifiziert werden, können nützliche Werkzeuge liefern, um diese Loci zu kommentieren, indem sie nicht-kodierbare Varianten mit ihren umsetzbaren Genen verknüpfen. Hier skizzieren wir ein Protokoll, um GWAS-Nicht-Kodierungsvarianten ihren vermeintlichen Genen unter Verwendung von GWAS-Datensätzen der Alzheimer-Krankheit (AD) und Hi-C-Datensätzen aus menschlichem erwachsenem Gehirngewebe zuzuordnen. Vermeintliche kausale Singlenukleotidpolymorphismen (SNPs) werden durch Anwendung von Fine-Mapping-Algorithmen identifiziert. SNPs werden dann ihren vermeintlichen Zielgenen mithilfe von Enhancer-Promoter-Interaktionen basierend auf Hi-C zugeordnet. Der resultierende Gensatz stellt AD-Risikogene dar, da sie potenziell durch AD-Risikovarianten reguliert werden. Um weitere biologische Erkenntnisse über molekulare Mechanismen zu gewinnen, die AD zugrunde liegen, charakterisieren wir AD-Risikogene anhand von Entwicklungsdaten der Gehirnexpression und Einzelzellexpressionsprofilen des Gehirns. Dieses Protokoll kann auf alle GWAS- und Hi-C-Datensätze erweitert werden, um vermeintliche Zielgene und molekulare Mechanismen zu identifizieren, die verschiedenen menschlichen Merkmalen und Krankheiten zugrunde liegen.

Introduction

Genomweite Assoziationsstudien (GWAS) haben eine zentrale Rolle bei der Aufdeckung der genetischen Grundlage einer Reihe menschlicher Merkmale und Krankheiten gespielt. Diese groß angelegte Genotypisierung hat Tausende von genomischen Varianten aufgedeckt, die mit Phänotypen von der Höhe bis zum Schizophrenierisiko assoziiert sind. Trotz des enormen Erfolgs von GWAS bei der Identifizierung von Krankheit und Merkmal assoziierten Loci, war ein mechanistisches Verständnis, wie diese Varianten zum Phänotyp beitragen, eine Herausforderung, da die meisten phänotypassoziierten Varianten in der nicht-kodierenden Anteil des menschlichen Genoms. Da sich diese Varianten oft mit vorhergesagten regulatorischen Elementen überschneiden, werden sie wahrscheinlich die Transkriptionskontrolle eines nahegelegenen Gens verändern. Nicht-kodierende Loci können jedoch die Transkription von Genen in linearen Entfernungen von mehr als einer Megabasis beeinflussen, wodurch die von jeder Variante betroffenen Gene schwer zu identifizieren sind. Die dreidimensionale (3D) Chromatinstruktur spielt eine wichtige Rolle bei der Vermittlung von Verbindungen zwischen entfernten regulatorischen Loci und Genpromotoren und kann verwendet werden, um Gene zu identifizieren, die von phänotypassoziierten Single-Nukleotid-Polymorphismen (SNPs) betroffen sind.

Die Genregulation wird durch einen komplexen Prozess vermittelt, der die Enhanceraktivierung und Chromatinschleifenbildung beinhaltet, die Enhancer physikalisch mit Genpromotoren verbinden, zu denen die Transkriptionsmaschinerie1,2,3gerichtet werden kann. Da Chromatin-Loops oft mehrere hundert Kilobasen (kb) umfassen, sind detaillierte Karten der 3D-Chromatinarchitektur erforderlich, um Genregulierungsmechanismen zu entschlüsseln. Mehrere Chromatin-Konformationsaufnahmetechnologien wurden erfunden, um die 3D-Chromatin-Architektur4zu identifizieren. Unter diesen Technologien bietet Hi-C die umfassendste Architektur, da es genomweite 3D-Chromatin-Interaktionsprofile erfasst. Hi-C-Datensätze wurden schnell angepasst, um nicht-kodienliche genomweite signifikante (GWS) loci5,6,7,8,9,10,11,12,13, zu interpretieren, da sie nicht-kodierende Varianten mit ihren vermeintlichen Zielgenen auf der Grundlage von Chromatinprofilen verbinden können.

In diesem Artikel skizzieren wir ein Protokoll zur berechnungsgemäßen Vorhersage vermeintlicher Zielgene von GWAS-Risikovarianten mithilfe von Chromatin-Interaktionsprofilen. Wir wenden dieses Protokoll an, um AD GWS loci14 ihren Zielgenen mit Hi-C-Datensätzen im erwachsenen menschlichen Gehirn9zuzuordnen. Die resultierenden AD-Risikogene werden durch andere funktionelle genomische Datensätze charakterisiert, die einzelzellige transkriptomische und entwicklungsbildende Expressionsprofile enthalten.

Protocol

1. Workstation-Einrichtung

  1. Installieren Sie R (Version 3.5.0) und RStudio Desktop. Öffnen Sie RStudio.
  2. Installieren Sie die folgenden Bibliotheken in R, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
    wenn (!" BiocManager" %in% rownames(installed.packages()))
    install.packages("BiocManager", repos="https://cran.r-project.org")
    BiocManager::install("GenomicRanges")
    BiocManager::install("biomaRt")
    BiocManager::install("WGCNA")
    install.packages("reshape")
    install.packages("ggplot2")
    install.packages("corrplot")
    install.packages("gProfileR")
    install.packages("tidyverse")
    install.packages("ggpubr")
  3. Dateien herunterladen.
    HINWEIS: In diesem Protokoll müssen alle Dateien in das Verzeichnis ./work heruntergeladen werden.
    1. Laden Sie die folgenden Dateien herunter, indem Sie auf die Links in Tabelle der Materialienklicken.
      1. Laden Sie fein kartierte glaubwürdige SNPs für AD herunter (Supplementary Table 8 von Jansen et al.14).
        HINWEIS: Öffnen Sie vor der Analyse Blatt acht in 41588_2018_311_MOESM3_ESM.xlsx, entfernen Sie die ersten drei Zeilen und speichern Sie das Blatt als Supplementary_Table_8_Jansen.txt mit registerkartengetrenntem Format.
      2. Laden Sie 10 kb Auflösung Hi-C Interaktionsprofile im erwachsenen Gehirn von Psychencode (beschrieben als Promoter-anchored_chromatin_loops.bed unten).
        HINWEIS: Diese Datei hat das folgende Format: Chromosom, TSS_start, TSS_end, Enhancer_start und Enhancer_end. Falls andere Hi-C-Datasets verwendet werden, erfordert dieses Protokoll Hi-C-Datasets, die mit hoher Auflösung (5 x 20 kb) verarbeitet werden.
      3. Laden Sie einzelne Zellausdrucksdatensätze aus dem PsychENCODE herunter.
        HINWEIS: Diese stammen aus neurotypischen Kontrollproben.
      4. Laden Sie Entwicklungsausdrucksdatensätze aus dem BrainSpan herunter (unten als devExpr.rda beschrieben).
        HINWEIS: 267666527 ist eine gezippte Datei, also entpacken Sie die 267666527, um "columns_metadata.csv", "expression_matrix.csv" und "rows_metadata.csv" zu extrahieren, um devExpr.rda zu generieren (siehe Abschnitt 3).
    2. Laden Sie exonic-Koordinaten (siehe Ergänzende Dateien, beschrieben als Gencode19_exon.bed und Gencode19_promoter.bed unten) von Gencode Version 19 herunter.
      HINWEIS: Promoter sind definiert als 2 kb vor der Transkriptionsstartseite (TSS). Diese Dateien haben das folgende Format: Chromosom, Start, Ende und Gen.
    3. Laden Sie die Genanmerkungsdatei (siehe Ergänzende Dateien, unten als geneAnno.rda beschrieben) von biomart herunter.
      HINWEIS: Diese Datei kann verwendet werden, um Gene auf der Grundlage von Ensembl-Gen-IDs und dem HUGO-Gen-Nomenklatur-Komitee(HGNC)-Symbol abzugleichen.

2. Generierung eines GRanges-Objekts für glaubwürdige SNPs

  1. Richten Sie in R ein, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
    Bibliothek(GenomicRanges)
    optionen(stringsAsFactors = F)
    setwd("/work") - Dies ist der Pfad zum Arbeitsverzeichnis.
    credSNP = read.delim("Supplementary_Table_8_Jansen.txt", header=T)
    credSNP = credSNP[credSNP-Credible.Causal=="Ja",]
  2. Erstellen Sie ein GRanges-Objekt, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
    credranges = GRanges(credSNP-Chr, IRanges(credSNP-bp, credSNP-bp), rsid=credSNP-SNP, P=credSNP-P)
    save(credranges, file="AD_credibleSNP.rda")

3. Positionszuordnung

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

  1. Einrichten in R.
    optionen(stringsAsFactors=F)
    Bibliothek(GenomicRanges)
    load("AD_credibleSNP.rda") (siehe 2)
  2. Positionszuordnung von Promoter/Exonic SNPs zu Genen
    1. Laden Sie Denmotor und den exonic-Bereich, und generieren Sie ein GRange-Objekt.
      exon = read.table("Gencode19_exon.bed")
      exonranges = GRanges(exon[,1],IRanges(exon[,2],exon[,3]),gene=exon[,4])
      Promoter = read.table("Gencode19_promoter.bed")
      Promoterranges = GRanges(Promoter[,1], IRanges(promoter[,2], promoter[,3]), gene=promoter[,4])
    2. Überlappen Sie glaubwürdige SNPs mit exonic Regionen.
      olap = findOverlaps(credranges, exonranges)
      credexon = credranges[queryHits(olap)]
      mcols(credexon) = cbind(mcols(credexon), mcols(exonranges[subjectHits(olap)]))
    3. Überlappen Sie glaubwürdige SNPs mit Projektträgerregionen.
      olap = findOverlaps(credranges, promoterranges)
      credpromoter = credranges[queryHits(olap)]
      mcols(credpromoter) = cbind(mcols(credpromoter), mcols(promoterranges[subjectHits(olap)])
  3. Verknüpfen Sie SNPs mit ihren vermeintlichen Zielgenen mithilfe von Chromatin-Wechselwirkungen.
    1. Laden Sie das Hi-C-Dataset, und generieren Sie ein GRange-Objekt.
      hic = read.table("Promoter-anchored_chromatin_loops.bed ", skip=1)
      colnames(hic) = c("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      hicranges = GRanges(hic-chr, IRanges(hic-TSS_start, hic-TSS_end), enhancer=hic-Enhancer_start)
      olap = findOverlaps(hicranges, promoterranges)
      hicpromoter = hicranges[queryHits(olap)]
      mcols(hicpromoter) = cbind(mcols(hicpromoter), mcols(promoterranges[subjectHits(olap)]))
      hicenhancer = GRanges(seqnames(hicpromoter), IRanges(hicpromoter-enhancer, hicpromoter-enhancer+10000), gene=hicpromoter-gene)
    2. Überlappen Sie glaubwürdige SNPs mit dem Hi-C GRange-Objekt.
      olap = findOverlaps(credranges, hicenhancer)
      credhic = credranges[queryHits(olap)]
      mcols(credhic) = cbind(mcols(credhic), mcols(hicenhancer[subjectHits(olap)])
  4. Kompilieren Sie AD-Kandidatengene, die durch Positionskartierung und Chromatin-Interaktionsprofile definiert sind.
    Die resultierenden Kandidatengene für AD:
    ADgenes = Reduce(Union, list(credhic-gen, credexon-gene, credpromoter-gene))
    Um Ensembl Gene ID in HGNC-Symbol zu konvertieren
    last("geneAnno.rda")
    ADhgnc = geneAnno1[match(ADgenes, geneAnno1-ensembl_gene_id), "hgnc_symbol"]
    ADhgnc = ADhgnc[ADhgnc!=""]
    save(ADgenes, ADhgnc, file="ADgenes.rda")
    write.table(ADhgnc, file="ADgenes.txt", row.names=F, col.names=F, quote=F, sep="'t")

4. Entwicklungsausdrucksbahnen

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

  1. Einrichten in R.
    Bibliothek (Umformung); Bibliothek(ggplot2); Bibliothek (GenomicRanges); Bibliothek(biomaRt)
    Bibliothek("WGCNA")
    optionen(stringsAsFactors=F)
  2. Verarbeiten Sie Ausdrucks- und Metadaten.
    datExpr = read.csv("expression_matrix.csv", Header = FALSE)
    datExpr = datExpr[,-1]
    datMeta = read.csv("columns_metadata.csv")
    datProbes = read.csv("rows_metadata.csv")
    datExpr = datExpr[datProbes-ensembl_gene_id!="",]
    datProbes = datProbes[datProbes-ensembl_gene_id!="",]
    datExpr.cr= collapseRows(datExpr, rowGroup = datProbes-ensembl_gene_id, rowID= rownames(datExpr))
    datExpr = datExpr.cr-datETcollapsed
    gename = data.frame(datExpr.cr-group2row)
    rownames(datExpr) = gename-group
    1. Geben Sie Entwicklungsphasen an.
      datMeta-Unit = "Postnatal"
      idx = grep("pcw", datMeta-age)
      datMeta-Unit[idx] = "Pränatal"
      idx = grep("yrs", datMeta-age)
      datMeta-Unit[idx] = "Postnatal"
      datMeta-Unit = faktor(datMeta-Unit, levels=c("Prenatal", "Postnatal"))
    2. Wählen Sie kortikale Bereiche aus.
      datMeta-Region = "SubCTX"
      r = c("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "Ocx")
      datMeta-Region[datMeta-structure_acronym %in% r] = "CTX"
      datExpr = datExpr[,which(datMeta-Region=="CTX")]
      datMeta = datMeta[which(datMeta-Region=="CTX"),]
      speichern(datExpr, datMeta, file="devExpr.rda")
  3. Extrahieren Sie Entwicklungsexpressionsprofile von AD-Risikogenen.
    last("ADgenes.rda")
    exprdat = apply(datExpr[match(ADgenes, rownames(datExpr)),],2,mean,na.rm=T)
    dat = data.frame(Region=datMeta-Region, Unit=datMeta-Unit, Expr=exprdat)
  4. Vergleichen Sie pränatale und postnatale Expressionsniveaus von AD-Risikogenen.
    pdf(datei="developmental_expression.pdf")
    ggplot(dat,aes(x=Unit, y=Expr, fill=Unit, alpha=Unit)) + ylab("Normalized expression") + geom_boxplot(auslier.size = NA) + ggtitle("Brain Expression") + xlab("") + scale_alpha_manual(values=c(0.2, 1)) + theme_classic() + theme(legend.position="na" )
    dev.off()

5. Zelltyp-Ausdrucksprofile

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

  1. Einrichten in R.
    optionen(stringsAsFactors=F)
    last("ADgenes.rda")
    last("geneAnno.rda")
    Zielname = "AD"
    targetgene = ADhgnc
    cellexp = read.table("DER-20_Single_cell_expression_processed_TPM_backup.tsv",header=T,fill=T)
    cellexp[1121,1] = cellexp[1120,1]
    cellexp = cellexp[-1120,]
    rownames(cellexp) = cellexp[,1]
    cellexp = cellexp[,-1]
    datExpr = scale(cellexp,center=T, scale=F)
    datExpr = datExpr[,789:ncol(datExpr)]
  2. Extrahieren Sie zelluläre Expressionsprofile von AD-Risikogenen.
    exprdat = apply(datExpr[match(targetgene, rownames(datExpr)),],2,mean,na.rm=T)
    dat = data.frame(Group=targetname, cell=names(exprdat), Expr=exprdat)
    dat-celltype = unlist(lapply(strsplit(dat-cell, split="[.]"),'[',1))
    dat = dat[-grep("Ex| In",dat-zelltyp),]
    dat-celltype = gsub("Dev","Fetal",dat-celltype)
    dat-celltype = factor(dat-celltype, levels=c("Neurons","Astrocytes","Microglia","Endothelal",
    Oligodendrocytes","OPC","Fetal"))
    pdf(datei="singlecell_expression_ADgenes.pdf")
    ggplot(dat,aes(x=zelltyp, y=Expr, fill=celltype)) +
    ylab("Normalisierter Ausdruck") + xlab("") + geom_violin() + theme(axis.text.x=element_text(angle = 90, hjust=1)) + theme(legend.position="none") +
    ggtitle(paste0("Cellular expression profiles of AD risk genes"))
    dev.off()

6. Genannotation Anreicherung Analyse von AD-Risiko-Genen

  1. Laden Sie HOMER herunter und konfigurieren Sie es, indem Sie die unten stehenden Befehle in terminal eingeben.
    mkdir homer
    cd homer
    wget http://homer.ucsd.edu/homer/configureHomer.pl
    perl ./configureHomer.pl -installieren
    perl ./configureHomer.pl -installieren human-p
    perl ./configureHomer.pl -installieren human-o
  2. Führen Sie HOMER aus, indem Sie die folgenden Befehle in terminal eingeben.
    PATH=$PATH exportieren:'/work/homer/bin
    findMotifs.pl '/work/ADgenes.txt human '/work/
  3. Zeichnen Sie die angereicherten Begriffe, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
    Bibliothek(ggpubr)
    optionen(stringsAsFactors=F)
    pdf("GO_enrichment.pdf",width=15,height=8)
    plot_barplot = funktion(dbname,name,color)"
    eingang = read.delim(paste0(dbname,".txt"),header=T)
    Eingang = Eingang[,c(-1,-10,-11)]
    Eingang = eindeutig(Eingang)
    Eingabe-FDR = p.adjust(exp(input-logP))
    input_sig = Eingang[Eingang-FDR < 0,1,]
    input_sig-FDR = -log10(input_sig-FDR)
    input_sig = input_sig[order(input_sig-FDR),]
    p = ggbarplot(input_sig, x = "Term", y = "FDR", fill = farbe, color = "white", sort.val = "asc", ylab = expression(-log[10](italic(FDR)))), xlab = paste0(name," Terms"), rotate = TRUE, label = paste0(input_sig-Target.Genes.in.Term,"/",input_sig.genes.in.Term), font.label = list(color = "white", size = 9), lab.vjust = 0.5, lab.vjust =
    p = p+geom_hline(yintercept = -log10(0.05), linetype = 2, color = "lightgray")
    return(p)
    }
    p1 = plot_barplot("biological_process","GO Biological Process","#00AFBB")
    p2 = plot_barplot("kegg","KEGG","#E7B800")
    p3 = plot_barplot("reactome","Reactome","#FC4E07")
    ggarrange(p1, p2, p3, labels = c("A", "B", "C"), ncol = 2, nrow = 2)
    dev.off()

Representative Results

Das hier beschriebene Verfahren wurde auf eine Gruppe von 800 glaubwürdigen SNPs angewendet, die in der ursprünglichen Studie14definiert wurden. Die Positionskartierung ergab, dass sich 103 SNPs mit Promotoren (43 einzigartige Gene) und 42 SNPs mit Exons (27 einzigartige Gene) überschnitten. Nach Positionszuordnung blieben 84% (669) SNPs unannotet. Mithilfe von Hi-C-Datensätzen im erwachsenen Gehirn konnten wir zusätzliche 208 SNPs mit 64 Genen basierend auf physischer Nähe verknüpfen. Insgesamt haben wir 284 AD glaubwürdige SNPs 112 AD-Risikogenen zugeordnet (Abbildung 1A). AD-Risikogene wurden mit Amyloid-Vorläuferproteinen, Amyloid-Beta-Bildung und Immunantwort assoziiert, was die bekannte Biologie von AD15,16,17,18 (Abbildung 1B-D) widerspiegelt. Entwicklungsexpressionsprofile von AD-Risikogenen zeigten eine ausgeprägte postnatale Anreicherung, die auf das altersassoziierte erhöhte Risiko von AD hindeutet (Abbildung 2A). Schließlich wurden AD-Risikogene stark in Mikroglia, primären Immunzellen im Gehirn exprimiert (Abbildung 2B). Dies stimmt mit den wiederkehrenden Erkenntnissen überein, dass AD eine starke Immunbasis hat und Mikroglia der zentrale Akteur bei der AD-Pathogenese14,19,20ist.

Figure 1
Abbildung 1: Definieren von vermeintlichen Zielgenen von AD GWS loci. (A) Glaubwürdige SNPs, die von den Top 29 AD-Loci abgeleitet wurden, wurden in Promoter-SNPs, exonic SNPs und nicht-kodierte nicht-kodierende SNPs kategorisiert. Promoter und exonic SNPs wurden ihren Zielgenen direkt durch Positionskartierung zugewiesen, während Chromatin-Interaktionsprofile im erwachsenen Gehirn zusätzlich verwendet wurden, um SNPs basierend auf physikalischen Interaktionen zu kartieren. (B-D) Die Anreicherung von GO -B), KEGG (C) und Reactome (D) Begriffen in AD-Risikogenen wurde mit HOMER durchgeführt, wie in Protokollabschnitt 6 beschrieben. Die x-Achse stellt die falsche Erkennungsrate (FDR) korrigiert -log10 (P-Wert) dar. Angereicherte Begriffe mit FDR < 0.1 wurden geplottet. Graue vertikale Linien stellen FDR = 0,05 dar. APP Amyloid-Vorläuferprotein. Zähler, die Anzahl der AD-Risikogene, die in jedem Begriff dargestellt werden; Nenner, die Anzahl der Gene in jedem Begriff. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 2
Abbildung 2: Charakterisierung von AD-Risikogenen. (A) AD-Risikogene sind im postnatalen Kortex im Vergleich zum pränatalen Kortex stark exprimiert. (B) Violindiagramme, die Verteilungen von Genexpressionswerten (normalisierte Expression) in verschiedenen Zelltypen aus dem Kortex darstellen. Diese Ergebnisse zeigen, dass AD-Risikogene in Mikroglia stark exprimiert sind, im Einklang mit früheren Studien14. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Ergänzende Datei 1. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Datei 2. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Datei 3. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Discussion

Hier beschreiben wir ein analytisches Framework, das verwendet werden kann, um GWS-Loci auf der Grundlage von Positionsmapping und Chromatin-Wechselwirkungen funktionell zu kommentieren. Dieser Prozess umfasst mehrere Schritte (weitere Details finden Sie in dieser Überprüfung13). Erstens, da Chromatin-Interaktionsprofile hochzelltypspezifische Hi-C-Daten sind, die aus den entsprechenden Zell-/Gewebetypen gewonnen werden, die die zugrunde liegende Biologie der Störung am besten erfassen, müssen verwendet werden. Da AD eine neurodegenerative Störung ist, verwendeten wir die Hi-C-Daten des erwachsenen Gehirns9, um GWS-Loci zu kommentieren. Zweitens: jeder GWS-Lokus hat oft bis zu Hunderte von SNPs, die aufgrund eines Verbindungsungleichgewichts (LD) mit dem Merkmal assoziiert sind, daher ist es wichtig, vermeintliche kausale ("glaubwürdige") SNPs zu erhalten, indem die kausalen durch den Einsatz von Fine-Mapping-Algorithmen21,22 oder experimentell testen regulatorische Aktivitäten mit Hochdurchsatzansätzen wie massiv parallelen Reporter-Assays (MPRA)23 oder selbsttranskribierenden aktiven regulatorischen Regionssequenzierungen ( STARR-seq)24. Für die hier beschriebene Arbeit haben wir glaubwürdige SNPs verwendet, die in Jansen et al.14berichtet wurden. Drittens werden Promoter- und exonic SNPs auf der Grundlage der Positionszuordnung kommentiert. Wir verwendeten eine einfache Positions-Mapping-Strategie, bei der SNPs den Genen zugeordnet wurden, wenn sie sich mit Promotoren (definiert als 2 kb vor der Transkriptionsstartseite) oder Exons überlappten. Dieser Ansatz kann jedoch weiter ausgearbeitet werden, indem die funktionellen Folgen von exonic SNPs bewertet werden, z. B. ob die SNP unsinnigen vermittelten Zerfall, Fehleinschätzungen oder Unsinnvariationen induziert. Viertens können Chromatin-Interaktionsprofile aus dem entsprechenden Gewebe-/Zelltyp verwendet werden, um Ihren vermeintlichen Zielgenen basierend auf physischer Nähe SNPs zuzuweisen. Wir verwendeten Interaktionsprofile, die an Promotoren verankert sind, aber wir können die Interaktionsprofile weiter verfeinern oder erweitern, indem wir Enhancer-Aktivitäten (geführt durch Histon H3 K27-Acetylierung oder Chromatin-Zugänglichkeit) oder exonische Interaktionen berücksichtigen. Eine wichtige Überlegung in diesem Prozess ist die Verwendung konsistenter menschlicher Genombildung. Wenn z. B. genomische Positionen von zusammenfassenden Statistiken nicht auf hg19 (d. h. hg18 oder hg38) basieren, sollte eine geeignete Version des Referenzgenoms erhalten oder die zusammenfassenden Statistiken mit Liftover25in hg19 konvertiert werden.

Wir haben diesen Rahmen angewendet, um vermeintliche Zielgene für AD GWAS zu identifizieren, indem wir 112 AD-Risikogenen 284 SNPs zuweist. Anhand der Entwicklungsexpressionsprofile26 und der zellspezifischen Expressionsprofile9zeigten wir dann, dass dieser Gensatz mit dem übereinstimmt, was über AD-Pathologie bekannt ist, wobei die Zelltypen (Mikroglia), biologische Funktionen (Immunantwort und Amyloid-Beta) und erhöhtes Risiko im Alter aufgedeckt wurden.

Während wir einen Rahmen präsentierten, der potenzielle Zielgene von AD und seiner zugrunde liegenden Biologie abgrenzt, ist es bemerkenswert, dass Hi-C-basierte Anmerkungen erweitert werden können, um jede nicht-kodienäre Variation zu kommentieren. Da mehr Vollgenom-Sequenzierungsdaten verfügbar werden und unser Verständnis über die nicht-kodierende seltene Variation wächst, wird Hi-C eine Schlüsselressource für die Interpretation von krankheitsassoziierten genetischen Varianten bieten. Ein Kompendium von Hi-C-Ressourcen aus mehreren Gewebe- und Zelltypen wird daher entscheidend sein, um eine breite Anwendung dieses Rahmens zu erleichtern, um biologische Einblicke in verschiedene menschliche Merkmale und Krankheiten zu gewinnen.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wurde durch das NIH-Stipendium R00MH113823 (an H.W.) und R35GM128645 (zu D.H.P.), den NARSAD Young Investigator Award (an H.W.) und das SPARK-Stipendium der Simons Foundation Autism Research Initiative (SFARI, an N.M. und H.W.) unterstützt.

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7, (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489, (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55, (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14, (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538, (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13, (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362, (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51, (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51, (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51, (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129, (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125, (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14, (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136, (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217, (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518, (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32, (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198, (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165, (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339, (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12, (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478, (7370), 483-489 (2011).

Comments

2 Comments

  1. Hello Nana Matoba et al, can you please tell me what is the geneAnno1 object? I can't figure it out. I will be waiting for your kind response, below is the error message. Thank you
    > load("geneAnno.rda")
    > ADhgnc = geneAnno1[match(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    Error: object 'geneAnno1' not found

    Reply
    Posted by: Aamir F.
    February 3, 2020 - 6:03 PM
  2. Thank you for pointing this out!
    We noticed that the original Supplementary file 3 (geneAnno.rda) did not have the right object, so we replaced it with a new file (geneAnno2.rda; https://www.jove.com/files/ftp_upload/60428/geneAnno2.rda).
    This file should contain geneAnno1.

    Reply
    Posted by: Nana M.
    February 7, 2020 - 9:44 AM

Post a Question / Comment / Request

You must be signed in to post a comment. Please or create an account.

Usage Statistics