Genetics

Mapping Alzheimer-Krankheit Varianten zu ihren Zielgenen mit Hilfe der Berechnung der Chromatin-Konfiguration

Published: January 9, 2020 doi: 10.3791/60428

Nana Matoba^1,2, Ivana Y. Quiroga³, Douglas H. Phanstiel*^3,4, Hyejung Won*^1,2

¹Department of Genetics, University of North Carolina, ²Neuroscience Center, University of North Carolina, ³Thurston Arthritis Research Center, University of North Carolina, ⁴Department of Cell Biology and Physiology, University of North Carolina

* These authors contributed equally

Summary

Wir präsentieren ein Protokoll zur Identifizierung funktioneller Implikationen nicht-kodierender Varianten, die durch genomweite Assoziationsstudien (GWAS) anhand dreidimensionaler Chromatin-Wechselwirkungen identifiziert wurden.

Abstract

Genomweite Assoziationsstudien (GWAS) haben erfolgreich Hunderte von genomischen Loci identifiziert, die mit menschlichen Merkmalen und Krankheiten in Verbindung gebracht werden. Da jedoch der Großteil der genomweiten signifikanten (GWS) Loci auf das nicht-kodierende Genom fällt, bleiben die funktionellen Auswirkungen vieler unbekannt. Dreidimensionale Chromatin-Wechselwirkungen, die von Hi-C oder seinen Derivaten identifiziert werden, können nützliche Werkzeuge liefern, um diese Loci zu kommentieren, indem sie nicht-kodierbare Varianten mit ihren umsetzbaren Genen verknüpfen. Hier skizzieren wir ein Protokoll, um GWAS-Nicht-Kodierungsvarianten ihren vermeintlichen Genen unter Verwendung von GWAS-Datensätzen der Alzheimer-Krankheit (AD) und Hi-C-Datensätzen aus menschlichem erwachsenem Gehirngewebe zuzuordnen. Vermeintliche kausale Singlenukleotidpolymorphismen (SNPs) werden durch Anwendung von Fine-Mapping-Algorithmen identifiziert. SNPs werden dann ihren vermeintlichen Zielgenen mithilfe von Enhancer-Promoter-Interaktionen basierend auf Hi-C zugeordnet. Der resultierende Gensatz stellt AD-Risikogene dar, da sie potenziell durch AD-Risikovarianten reguliert werden. Um weitere biologische Erkenntnisse über molekulare Mechanismen zu gewinnen, die AD zugrunde liegen, charakterisieren wir AD-Risikogene anhand von Entwicklungsdaten der Gehirnexpression und Einzelzellexpressionsprofilen des Gehirns. Dieses Protokoll kann auf alle GWAS- und Hi-C-Datensätze erweitert werden, um vermeintliche Zielgene und molekulare Mechanismen zu identifizieren, die verschiedenen menschlichen Merkmalen und Krankheiten zugrunde liegen.

Introduction

Genomweite Assoziationsstudien (GWAS) haben eine zentrale Rolle bei der Aufdeckung der genetischen Grundlage einer Reihe menschlicher Merkmale und Krankheiten gespielt. Diese groß angelegte Genotypisierung hat Tausende von genomischen Varianten aufgedeckt, die mit Phänotypen von der Höhe bis zum Schizophrenierisiko assoziiert sind. Trotz des enormen Erfolgs von GWAS bei der Identifizierung von Krankheit und Merkmal assoziierten Loci, war ein mechanistisches Verständnis, wie diese Varianten zum Phänotyp beitragen, eine Herausforderung, da die meisten phänotypassoziierten Varianten in der nicht-kodierenden Anteil des menschlichen Genoms. Da sich diese Varianten oft mit vorhergesagten regulatorischen Elementen überschneiden, werden sie wahrscheinlich die Transkriptionskontrolle eines nahegelegenen Gens verändern. Nicht-kodierende Loci können jedoch die Transkription von Genen in linearen Entfernungen von mehr als einer Megabasis beeinflussen, wodurch die von jeder Variante betroffenen Gene schwer zu identifizieren sind. Die dreidimensionale (3D) Chromatinstruktur spielt eine wichtige Rolle bei der Vermittlung von Verbindungen zwischen entfernten regulatorischen Loci und Genpromotoren und kann verwendet werden, um Gene zu identifizieren, die von phänotypassoziierten Single-Nukleotid-Polymorphismen (SNPs) betroffen sind.

Die Genregulation wird durch einen komplexen Prozess vermittelt, der die Enhanceraktivierung und Chromatinschleifenbildung beinhaltet, die Enhancer physikalisch mit Genpromotoren verbinden, zu denen die Transkriptionsmaschinerie¹^,²^,³gerichtet werden kann. Da Chromatin-Loops oft mehrere hundert Kilobasen (kb) umfassen, sind detaillierte Karten der 3D-Chromatinarchitektur erforderlich, um Genregulierungsmechanismen zu entschlüsseln. Mehrere Chromatin-Konformationsaufnahmetechnologien wurden erfunden, um die 3D-Chromatin-Architektur⁴zu identifizieren. Unter diesen Technologien bietet Hi-C die umfassendste Architektur, da es genomweite 3D-Chromatin-Interaktionsprofile erfasst. Hi-C-Datensätze wurden schnell angepasst, um nicht-kodienliche genomweite signifikante (GWS) loci⁵^,⁶^,⁷^,⁸^,⁹^,¹⁰^,¹¹^,¹²^,¹³, zu interpretieren, da sie nicht-kodierende Varianten mit ihren vermeintlichen Zielgenen auf der Grundlage von Chromatinprofilen verbinden können.

In diesem Artikel skizzieren wir ein Protokoll zur berechnungsgemäßen Vorhersage vermeintlicher Zielgene von GWAS-Risikovarianten mithilfe von Chromatin-Interaktionsprofilen. Wir wenden dieses Protokoll an, um AD GWS loci¹⁴ ihren Zielgenen mit Hi-C-Datensätzen im erwachsenen menschlichen Gehirn⁹zuzuordnen. Die resultierenden AD-Risikogene werden durch andere funktionelle genomische Datensätze charakterisiert, die einzelzellige transkriptomische und entwicklungsbildende Expressionsprofile enthalten.

Protocol

1. Workstation-Einrichtung

Installieren Sie R (Version 3.5.0) und RStudio Desktop. Öffnen Sie RStudio.
Installieren Sie die folgenden Bibliotheken in R, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
wenn (!" BiocManager" %in% rownames(installed.packages()))
install.packages("BiocManager", repos="https://cran.r-project.org")
BiocManager::install("GenomicRanges")
BiocManager::install("biomaRt")
BiocManager::install("WGCNA")
install.packages("reshape")
install.packages("ggplot2")
install.packages("corrplot")
install.packages("gProfileR")
install.packages("tidyverse")
install.packages("ggpubr")
Dateien herunterladen.
HINWEIS: In diesem Protokoll müssen alle Dateien in das Verzeichnis ./work heruntergeladen werden.
1. Laden Sie die folgenden Dateien herunter, indem Sie auf die Links in Tabelle der Materialienklicken.
  1. Laden Sie fein kartierte glaubwürdige SNPs für AD herunter (Supplementary Table 8 von Jansen et al.¹⁴).
    HINWEIS: Öffnen Sie vor der Analyse Blatt acht in 41588_2018_311_MOESM3_ESM.xlsx, entfernen Sie die ersten drei Zeilen und speichern Sie das Blatt als Supplementary_Table_8_Jansen.txt mit registerkartengetrenntem Format.
  2. Laden Sie 10 kb Auflösung Hi-C Interaktionsprofile im erwachsenen Gehirn von Psychencode (beschrieben als Promoter-anchored_chromatin_loops.bed unten).
    HINWEIS: Diese Datei hat das folgende Format: Chromosom, TSS_start, TSS_end, Enhancer_start und Enhancer_end. Falls andere Hi-C-Datasets verwendet werden, erfordert dieses Protokoll Hi-C-Datasets, die mit hoher Auflösung (5 x 20 kb) verarbeitet werden.
  3. Laden Sie einzelne Zellausdrucksdatensätze aus dem PsychENCODE herunter.
    HINWEIS: Diese stammen aus neurotypischen Kontrollproben.
  4. Laden Sie Entwicklungsausdrucksdatensätze aus dem BrainSpan herunter (unten als devExpr.rda beschrieben).
    HINWEIS: 267666527 ist eine gezippte Datei, also entpacken Sie die 267666527, um "columns_metadata.csv", "expression_matrix.csv" und "rows_metadata.csv" zu extrahieren, um devExpr.rda zu generieren (siehe Abschnitt 3).
2. Laden Sie exonic-Koordinaten (siehe Ergänzende Dateien, beschrieben als Gencode19_exon.bed und Gencode19_promoter.bed unten) von Gencode Version 19 herunter.
  HINWEIS: Promoter sind definiert als 2 kb vor der Transkriptionsstartseite (TSS). Diese Dateien haben das folgende Format: Chromosom, Start, Ende und Gen.
3. Laden Sie die Genanmerkungsdatei (siehe Ergänzende Dateien, unten als geneAnno.rda beschrieben) von biomart herunter.
  HINWEIS: Diese Datei kann verwendet werden, um Gene auf der Grundlage von Ensembl-Gen-IDs und dem HUGO-Gen-Nomenklatur-Komitee(HGNC)-Symbol abzugleichen.

2. Generierung eines GRanges-Objekts für glaubwürdige SNPs

Richten Sie in R ein, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
Bibliothek(GenomicRanges)
optionen(stringsAsFactors = F)
setwd("/work") - Dies ist der Pfad zum Arbeitsverzeichnis.
credSNP = read.delim("Supplementary_Table_8_Jansen.txt", header=T)
credSNP = credSNP[credSNP-Credible.Causal=="Ja",]
Erstellen Sie ein GRanges-Objekt, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
credranges = GRanges(credSNP-Chr, IRanges(credSNP-bp, credSNP-bp), rsid=credSNP-SNP, P=credSNP-P)
save(credranges, file="AD_credibleSNP.rda")

3. Positionszuordnung

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

Einrichten in R.
optionen(stringsAsFactors=F)
Bibliothek(GenomicRanges)
load("AD_credibleSNP.rda") (siehe 2)
Positionszuordnung von Promoter/Exonic SNPs zu Genen
1. Laden Sie Denmotor und den exonic-Bereich, und generieren Sie ein GRange-Objekt.
  exon = read.table("Gencode19_exon.bed")
  exonranges = GRanges(exon[,1],IRanges(exon[,2],exon[,3]),gene=exon[,4])
  Promoter = read.table("Gencode19_promoter.bed")
  Promoterranges = GRanges(Promoter[,1], IRanges(promoter[,2], promoter[,3]), gene=promoter[,4])
2. Überlappen Sie glaubwürdige SNPs mit exonic Regionen.
  olap = findOverlaps(credranges, exonranges)
  credexon = credranges[queryHits(olap)]
  mcols(credexon) = cbind(mcols(credexon), mcols(exonranges[subjectHits(olap)]))
3. Überlappen Sie glaubwürdige SNPs mit Projektträgerregionen.
  olap = findOverlaps(credranges, promoterranges)
  credpromoter = credranges[queryHits(olap)]
  mcols(credpromoter) = cbind(mcols(credpromoter), mcols(promoterranges[subjectHits(olap)])
Verknüpfen Sie SNPs mit ihren vermeintlichen Zielgenen mithilfe von Chromatin-Wechselwirkungen.
1. Laden Sie das Hi-C-Dataset, und generieren Sie ein GRange-Objekt.
  hic = read.table("Promoter-anchored_chromatin_loops.bed ", skip=1)
  colnames(hic) = c("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
  hicranges = GRanges(hic-chr, IRanges(hic-TSS_start, hic-TSS_end), enhancer=hic-Enhancer_start)
  olap = findOverlaps(hicranges, promoterranges)
  hicpromoter = hicranges[queryHits(olap)]
  mcols(hicpromoter) = cbind(mcols(hicpromoter), mcols(promoterranges[subjectHits(olap)]))
  hicenhancer = GRanges(seqnames(hicpromoter), IRanges(hicpromoter-enhancer, hicpromoter-enhancer+10000), gene=hicpromoter-gene)
2. Überlappen Sie glaubwürdige SNPs mit dem Hi-C GRange-Objekt.
  olap = findOverlaps(credranges, hicenhancer)
  credhic = credranges[queryHits(olap)]
  mcols(credhic) = cbind(mcols(credhic), mcols(hicenhancer[subjectHits(olap)])
Kompilieren Sie AD-Kandidatengene, die durch Positionskartierung und Chromatin-Interaktionsprofile definiert sind.
Die resultierenden Kandidatengene für AD:
ADgenes = Reduce(Union, list(credhic-gen, credexon-gene, credpromoter-gene))
Um Ensembl Gene ID in HGNC-Symbol zu konvertieren
last("geneAnno.rda")
ADhgnc = geneAnno1[match(ADgenes, geneAnno1-ensembl_gene_id), "hgnc_symbol"]
ADhgnc = ADhgnc[ADhgnc!=""]
save(ADgenes, ADhgnc, file="ADgenes.rda")
write.table(ADhgnc, file="ADgenes.txt", row.names=F, col.names=F, quote=F, sep="'t")

4. Entwicklungsausdrucksbahnen

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

Einrichten in R.
Bibliothek (Umformung); Bibliothek(ggplot2); Bibliothek (GenomicRanges); Bibliothek(biomaRt)
Bibliothek("WGCNA")
optionen(stringsAsFactors=F)
Verarbeiten Sie Ausdrucks- und Metadaten.
datExpr = read.csv("expression_matrix.csv", Header = FALSE)
datExpr = datExpr[,-1]
datMeta = read.csv("columns_metadata.csv")
datProbes = read.csv("rows_metadata.csv")
datExpr = datExpr[datProbes-ensembl_gene_id!="",]
datProbes = datProbes[datProbes-ensembl_gene_id!="",]
datExpr.cr= collapseRows(datExpr, rowGroup = datProbes-ensembl_gene_id, rowID= rownames(datExpr))
datExpr = datExpr.cr-datETcollapsed
gename = data.frame(datExpr.cr-group2row)
rownames(datExpr) = gename-group
1. Geben Sie Entwicklungsphasen an.
  datMeta-Unit = "Postnatal"
  idx = grep("pcw", datMeta-age)
  datMeta-Unit[idx] = "Pränatal"
  idx = grep("yrs", datMeta-age)
  datMeta-Unit[idx] = "Postnatal"
  datMeta-Unit = faktor(datMeta-Unit, levels=c("Prenatal", "Postnatal"))
2. Wählen Sie kortikale Bereiche aus.
  datMeta-Region = "SubCTX"
  r = c("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "Ocx")
  datMeta-Region[datMeta-structure_acronym %in% r] = "CTX"
  datExpr = datExpr[,which(datMeta-Region=="CTX")]
  datMeta = datMeta[which(datMeta-Region=="CTX"),]
  speichern(datExpr, datMeta, file="devExpr.rda")
Extrahieren Sie Entwicklungsexpressionsprofile von AD-Risikogenen.
last("ADgenes.rda")
exprdat = apply(datExpr[match(ADgenes, rownames(datExpr)),],2,mean,na.rm=T)
dat = data.frame(Region=datMeta-Region, Unit=datMeta-Unit, Expr=exprdat)
Vergleichen Sie pränatale und postnatale Expressionsniveaus von AD-Risikogenen.
pdf(datei="developmental_expression.pdf")
ggplot(dat,aes(x=Unit, y=Expr, fill=Unit, alpha=Unit)) + ylab("Normalized expression") + geom_boxplot(auslier.size = NA) + ggtitle("Brain Expression") + xlab("") + scale_alpha_manual(values=c(0.2, 1)) + theme_classic() + theme(legend.position="na" )
dev.off()

5. Zelltyp-Ausdrucksprofile

HINWEIS: Geben Sie für jeden Schritt den entsprechenden Code in das Konsolenfenster in RStudio ein.

Einrichten in R.
optionen(stringsAsFactors=F)
last("ADgenes.rda")
last("geneAnno.rda")
Zielname = "AD"
targetgene = ADhgnc
cellexp = read.table("DER-20_Single_cell_expression_processed_TPM_backup.tsv",header=T,fill=T)
cellexp[1121,1] = cellexp[1120,1]
cellexp = cellexp[-1120,]
rownames(cellexp) = cellexp[,1]
cellexp = cellexp[,-1]
datExpr = scale(cellexp,center=T, scale=F)
datExpr = datExpr[,789:ncol(datExpr)]
Extrahieren Sie zelluläre Expressionsprofile von AD-Risikogenen.
exprdat = apply(datExpr[match(targetgene, rownames(datExpr)),],2,mean,na.rm=T)
dat = data.frame(Group=targetname, cell=names(exprdat), Expr=exprdat)
dat-celltype = unlist(lapply(strsplit(dat-cell, split="[.]"),'[',1))
dat = dat[-grep("Ex| In",dat-zelltyp),]
dat-celltype = gsub("Dev","Fetal",dat-celltype)
dat-celltype = factor(dat-celltype, levels=c("Neurons","Astrocytes","Microglia","Endothelal",
Oligodendrocytes","OPC","Fetal"))
pdf(datei="singlecell_expression_ADgenes.pdf")
ggplot(dat,aes(x=zelltyp, y=Expr, fill=celltype)) +
ylab("Normalisierter Ausdruck") + xlab("") + geom_violin() + theme(axis.text.x=element_text(angle = 90, hjust=1)) + theme(legend.position="none") +
ggtitle(paste0("Cellular expression profiles of AD risk genes"))
dev.off()

6. Genannotation Anreicherung Analyse von AD-Risiko-Genen

Laden Sie HOMER herunter und konfigurieren Sie es, indem Sie die unten stehenden Befehle in terminal eingeben.
mkdir homer
cd homer
wget http://homer.ucsd.edu/homer/configureHomer.pl
perl ./configureHomer.pl -installieren
perl ./configureHomer.pl -installieren human-p
perl ./configureHomer.pl -installieren human-o
Führen Sie HOMER aus, indem Sie die folgenden Befehle in terminal eingeben.
PATH=$PATH exportieren:'/work/homer/bin
findMotifs.pl '/work/ADgenes.txt human '/work/
Zeichnen Sie die angereicherten Begriffe, indem Sie den folgenden Code in das Konsolenfenster in RStudio eingeben.
Bibliothek(ggpubr)
optionen(stringsAsFactors=F)
pdf("GO_enrichment.pdf",width=15,height=8)
plot_barplot = funktion(dbname,name,color)"
eingang = read.delim(paste0(dbname,".txt"),header=T)
Eingang = Eingang[,c(-1,-10,-11)]
Eingang = eindeutig(Eingang)
Eingabe-FDR = p.adjust(exp(input-logP))
input_sig = Eingang[Eingang-FDR < 0,1,]
input_sig-FDR = -log10(input_sig-FDR)
input_sig = input_sig[order(input_sig-FDR),]
p = ggbarplot(input_sig, x = "Term", y = "FDR", fill = farbe, color = "white", sort.val = "asc", ylab = expression(-log[10](italic(FDR)))), xlab = paste0(name," Terms"), rotate = TRUE, label = paste0(input_sig-Target.Genes.in.Term,"/",input_sig.genes.in.Term), font.label = list(color = "white", size = 9), lab.vjust = 0.5, lab.vjust =
p = p+geom_hline(yintercept = -log10(0.05), linetype = 2, color = "lightgray")
return(p)
}
p1 = plot_barplot("biological_process","GO Biological Process","#00AFBB")
p2 = plot_barplot("kegg","KEGG","#E7B800")
p3 = plot_barplot("reactome","Reactome","#FC4E07")
ggarrange(p1, p2, p3, labels = c("A", "B", "C"), ncol = 2, nrow = 2)
dev.off()

Representative Results

Das hier beschriebene Verfahren wurde auf eine Gruppe von 800 glaubwürdigen SNPs angewendet, die in der ursprünglichen Studie¹⁴definiert wurden. Die Positionskartierung ergab, dass sich 103 SNPs mit Promotoren (43 einzigartige Gene) und 42 SNPs mit Exons (27 einzigartige Gene) überschnitten. Nach Positionszuordnung blieben 84% (669) SNPs unannotet. Mithilfe von Hi-C-Datensätzen im erwachsenen Gehirn konnten wir zusätzliche 208 SNPs mit 64 Genen basierend auf physischer Nähe verknüpfen. Insgesamt haben wir 284 AD glaubwürdige SNPs 112 AD-Risikogenen zugeordnet (Abbildung 1A). AD-Risikogene wurden mit Amyloid-Vorläuferproteinen, Amyloid-Beta-Bildung und Immunantwort assoziiert, was die bekannte Biologie von AD¹⁵^,¹⁶,¹⁷^,¹⁸ (Abbildung 1B-D) widerspiegelt. Entwicklungsexpressionsprofile von AD-Risikogenen zeigten eine ausgeprägte postnatale Anreicherung, die auf das altersassoziierte erhöhte Risiko von AD hindeutet (Abbildung 2A). Schließlich wurden AD-Risikogene stark in Mikroglia, primären Immunzellen im Gehirn exprimiert (Abbildung 2B). Dies stimmt mit den wiederkehrenden Erkenntnissen überein, dass AD eine starke Immunbasis hat und Mikroglia der zentrale Akteur bei der AD-Pathogenese¹⁴^,¹⁹^,²⁰ist.

Abbildung 1: Definieren von vermeintlichen Zielgenen von AD GWS loci. (A) Glaubwürdige SNPs, die von den Top 29 AD-Loci abgeleitet wurden, wurden in Promoter-SNPs, exonic SNPs und nicht-kodierte nicht-kodierende SNPs kategorisiert. Promoter und exonic SNPs wurden ihren Zielgenen direkt durch Positionskartierung zugewiesen, während Chromatin-Interaktionsprofile im erwachsenen Gehirn zusätzlich verwendet wurden, um SNPs basierend auf physikalischen Interaktionen zu kartieren. (B-D) Die Anreicherung von GO -B), KEGG (C) und Reactome (D) Begriffen in AD-Risikogenen wurde mit HOMER durchgeführt, wie in Protokollabschnitt 6 beschrieben. Die x-Achse stellt die falsche Erkennungsrate (FDR) korrigiert -log10 (P-Wert) dar. Angereicherte Begriffe mit FDR < 0.1 wurden geplottet. Graue vertikale Linien stellen FDR = 0,05 dar. APP Amyloid-Vorläuferprotein. Zähler, die Anzahl der AD-Risikogene, die in jedem Begriff dargestellt werden; Nenner, die Anzahl der Gene in jedem Begriff. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Charakterisierung von AD-Risikogenen. (A) AD-Risikogene sind im postnatalen Kortex im Vergleich zum pränatalen Kortex stark exprimiert. (B) Violindiagramme, die Verteilungen von Genexpressionswerten (normalisierte Expression) in verschiedenen Zelltypen aus dem Kortex darstellen. Diese Ergebnisse zeigen, dass AD-Risikogene in Mikroglia stark exprimiert sind, im Einklang mit früheren Studien¹⁴. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Ergänzende Datei 1. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Datei 2. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Datei 3. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Discussion

Hier beschreiben wir ein analytisches Framework, das verwendet werden kann, um GWS-Loci auf der Grundlage von Positionsmapping und Chromatin-Wechselwirkungen funktionell zu kommentieren. Dieser Prozess umfasst mehrere Schritte (weitere Details finden Sie in dieser Überprüfung¹³). Erstens, da Chromatin-Interaktionsprofile hochzelltypspezifische Hi-C-Daten sind, die aus den entsprechenden Zell-/Gewebetypen gewonnen werden, die die zugrunde liegende Biologie der Störung am besten erfassen, müssen verwendet werden. Da AD eine neurodegenerative Störung ist, verwendeten wir die Hi-C-Daten des erwachsenen Gehirns^9, um GWS-Loci zu kommentieren. Zweitens: jeder GWS-Lokus hat oft bis zu Hunderte von SNPs, die aufgrund eines Verbindungsungleichgewichts (LD) mit dem Merkmal assoziiert sind, daher ist es wichtig, vermeintliche kausale ("glaubwürdige") SNPs zu erhalten, indem die kausalen durch den Einsatz von Fine-Mapping-Algorithmen²¹^,²² oder experimentell testen regulatorische Aktivitäten mit Hochdurchsatzansätzen wie massiv parallelen Reporter-Assays (MPRA)²³ oder selbsttranskribierenden aktiven regulatorischen Regionssequenzierungen ( STARR-seq)²⁴. Für die hier beschriebene Arbeit haben wir glaubwürdige SNPs verwendet, die in Jansen et al.¹⁴berichtet wurden. Drittens werden Promoter- und exonic SNPs auf der Grundlage der Positionszuordnung kommentiert. Wir verwendeten eine einfache Positions-Mapping-Strategie, bei der SNPs den Genen zugeordnet wurden, wenn sie sich mit Promotoren (definiert als 2 kb vor der Transkriptionsstartseite) oder Exons überlappten. Dieser Ansatz kann jedoch weiter ausgearbeitet werden, indem die funktionellen Folgen von exonic SNPs bewertet werden, z. B. ob die SNP unsinnigen vermittelten Zerfall, Fehleinschätzungen oder Unsinnvariationen induziert. Viertens können Chromatin-Interaktionsprofile aus dem entsprechenden Gewebe-/Zelltyp verwendet werden, um Ihren vermeintlichen Zielgenen basierend auf physischer Nähe SNPs zuzuweisen. Wir verwendeten Interaktionsprofile, die an Promotoren verankert sind, aber wir können die Interaktionsprofile weiter verfeinern oder erweitern, indem wir Enhancer-Aktivitäten (geführt durch Histon H3 K27-Acetylierung oder Chromatin-Zugänglichkeit) oder exonische Interaktionen berücksichtigen. Eine wichtige Überlegung in diesem Prozess ist die Verwendung konsistenter menschlicher Genombildung. Wenn z. B. genomische Positionen von zusammenfassenden Statistiken nicht auf hg19 (d. h. hg18 oder hg38) basieren, sollte eine geeignete Version des Referenzgenoms erhalten oder die zusammenfassenden Statistiken mit Liftover²⁵in hg19 konvertiert werden.

Wir haben diesen Rahmen angewendet, um vermeintliche Zielgene für AD GWAS zu identifizieren, indem wir 112 AD-Risikogenen 284 SNPs zuweist. Anhand der Entwicklungsexpressionsprofile²⁶ und der zellspezifischen Expressionsprofile⁹zeigten wir dann, dass dieser Gensatz mit dem übereinstimmt, was über AD-Pathologie bekannt ist, wobei die Zelltypen (Mikroglia), biologische Funktionen (Immunantwort und Amyloid-Beta) und erhöhtes Risiko im Alter aufgedeckt wurden.

Während wir einen Rahmen präsentierten, der potenzielle Zielgene von AD und seiner zugrunde liegenden Biologie abgrenzt, ist es bemerkenswert, dass Hi-C-basierte Anmerkungen erweitert werden können, um jede nicht-kodienäre Variation zu kommentieren. Da mehr Vollgenom-Sequenzierungsdaten verfügbar werden und unser Verständnis über die nicht-kodierende seltene Variation wächst, wird Hi-C eine Schlüsselressource für die Interpretation von krankheitsassoziierten genetischen Varianten bieten. Ein Kompendium von Hi-C-Ressourcen aus mehreren Gewebe- und Zelltypen wird daher entscheidend sein, um eine breite Anwendung dieses Rahmens zu erleichtern, um biologische Einblicke in verschiedene menschliche Merkmale und Krankheiten zu gewinnen.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wurde durch das NIH-Stipendium R00MH113823 (an H.W.) und R35GM128645 (zu D.H.P.), den NARSAD Young Investigator Award (an H.W.) und das SPARK-Stipendium der Simons Foundation Autism Research Initiative (SFARI, an N.M. und H.W.) unterstützt.

Materials

Name	Company	Catalog Number	Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode			http://adult.psychencode.org/
Developmental expression datasets			http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.¹⁴)			https://static-content.springer.com/
HOMER			http://homer.ucsd.edu/
R (version 3.5.0)			https://www.r-project.org/
RStudio Desktop			https://www.rstudio.com/
Single cell expression datasets			http://adult.psychencode.org/