Genetics

In kaart brengen van de ziekte van Alzheimer varianten op hun doel genen met behulp van computationele analyse van Chromatin configuratie

Published: January 9, 2020 doi: 10.3791/60428

Nana Matoba^1,2, Ivana Y. Quiroga³, Douglas H. Phanstiel*^3,4, Hyejung Won*^1,2

¹Department of Genetics, University of North Carolina, ²Neuroscience Center, University of North Carolina, ³Thurston Arthritis Research Center, University of North Carolina, ⁴Department of Cell Biology and Physiology, University of North Carolina

* These authors contributed equally

Summary

We presenteren een protocol voor het identificeren van functionele implicaties van niet-Codeer varianten geïdentificeerd door genoom-brede associatie studies (GWAS) met behulp van driedimensionale chromatine interacties.

Abstract

Genome-brede associatie studies (GWAS) hebben met succes honderden genomische loci geïdentificeerd die geassocieerd zijn met menselijke eigenschappen en ziekte. Echter, omdat de meerderheid van de genoom-brede belangrijke (GWS) loci vallen op het niet-codering genoom, de functionele impact van velen blijven onbekend. Driedimensionale chromatine interacties geïdentificeerd door Hi-C of derivaten daarvan kunnen nuttige hulpmiddelen bieden om deze loci te annoteren door niet-coderings varianten te koppelen aan hun bruikbare genen. Hier schetsen we een protocol om GWAS-niet-Codeer varianten aan hun putatieve genen met behulp van de ziekte van Alzheimer (AD) GWAS en Hi-C datasets van menselijk volwassen hersenweefsel in kaart te brengen. Putative causale single-nucleotide polymorfismen (Snp's) worden geïdentificeerd door toepassing van fijnmapping algoritmen. Snp's worden vervolgens toegewezen aan hun putatieve doel genen met behulp van Enhancer-Promoter interacties op basis van Hi-C. De resulterende genset vertegenwoordigt AD-Risk genen, omdat ze mogelijk worden gereguleerd door AD Risk varianten. Om verder biologisch inzicht te verwerven in moleculaire mechanismen die aan de basis van de advertentie liggen, karakteriseren we AD Risk genen met behulp van ontwikkelingshersen expressie gegevens en herseneencellige expressie profielen. Dit protocol kan worden uitgebreid naar alle GWAS-en Hi-C-gegevenssets om putatieve doel genen en moleculaire mechanismen te identificeren die aan verschillende menselijke eigenschappen en ziekten zijn verbonden.

Introduction

Genome-brede associatie studies (GWAS) hebben een cruciale rol gespeeld bij het onthullen van de genetische basis van een reeks menselijke eigenschappen en ziekten. Deze grootschalige genotype heeft ontdekt duizenden genomische varianten geassocieerd met fenotypes, variërend van hoogte tot schizofrenie risico. Echter, ondanks het enorme succes van gwas bij het identificeren van ziekte en eigenschap geassocieerd loci, een mechanistische begrip van hoe deze varianten bijdragen aan fenotype is uitdagend omdat de meeste fenotype geassocieerde varianten zich bevinden in de niet-codering Fractie van het menselijk genoom. Aangezien deze varianten vaak overlappen met voorspelde regelgevings elementen, zullen ze waarschijnlijk de Transcriptionele controle van een nabijgelegen gen veranderen. Niet-Codeer bare loci kan echter de transcriptie van genen beïnvloeden op lineaire afstanden van meer dan één megabyte, waardoor de genen die door elke variant worden beïnvloed, moeilijk te identificeren zijn. Driedimensionale (3D) chromatine structuur speelt een belangrijke rol bij het bemiddelen van verbindingen tussen afgelegen regelgevende loci en genpromoters en kan worden gebruikt om genen te identificeren die worden beïnvloed door fenotype geassocieerde enkelvoudige nucleotide polymorfismen (Snp's).

Genregulatie wordt gemedieerd door een complex proces, waarbij versterker activatie en chromatine lusvorming betrokken zijn die fysiek versterkers aan genpromoters verbinden, waaraan de transcriptionele machines¹^,²^,³kunnen worden gericht. Omdat chromatine lussen vaak meerdere honderden kilo basen (KB) beslaan, zijn gedetailleerde kaarten van 3D chromatine architectuur vereist om genregulerende mechanismen te ontcijferen. Er zijn meerdere technologieën voor het vastleggen van chromatine-conformatie uitgevonden om de 3D chromatine Architecture⁴te identificeren. Onder deze technologieën biedt Hi-C de meest uitgebreide architectuur, omdat het genoom-brede 3D chromatine interactie profielen vangt. Hi-C datasets zijn snel aangepast aan het interpreteren van niet-coderen genoom-breed significant (GWS) loci⁵^,⁶^,⁷^,⁸^,⁹^,¹⁰^,¹¹^,¹²^,¹³, omdat het niet-Codeer varianten kan koppelen aan hun putatieve doel genen op basis van chromatine interactie profielen.

In dit artikel beschrijven we een protocol voor het computationeel voorspellen van putatieve doel genen van GWAS-risico varianten met chromatine-interactie profielen. We passen dit protocol toe om AD GWS loci¹⁴ te laten toewijzen aan hun doel genen met behulp van Hi-C datasets in de Adult Human Brain⁹. De resulterende AD Risk-genen worden gekenmerkt door andere functionele genomische gegevenssets die single-cell transcriptomische en ontwikkelings expressie profielen bevatten.

Protocol

1. workstation instellen

Installeer R (versie 3.5.0) en RStudio Desktop. Open RStudio.
Installeer de volgende bibliotheken in R door de volgende code in het consolevenster in RStudio te typen.
Als (! " BiocManager "% in% rownames (geïnstalleerd. packages ()))
install. packages ("BiocManager", Repos = "https://cran.r-project.org")
BiocManager:: installeren ("GenomicRanges")
BiocManager:: install ("biomaRt")
BiocManager:: install ("WGCNA")
install. packages ("omvormen")
install. packages ("ggplot2")
Installeer. packages ("corrplot")
install. packages ("gProfileR")
install. packages ("tidyverse")
install. packages ("ggpubr")
Bestanden downloaden.
Opmerking: in dit protocol moeten alle bestanden worden gedownload naar ~/work Directory.
1. Download de volgende bestanden door te klikken op de koppelingen in de tabel met materialen.
  1. Download verfijnde geloofwaardige Snp's voor AD (aanvullende tabel 8 van Jansen et al.¹⁴).
    Notes: open vóór de analyse blad acht in 41588_2018_311_MOESM3_ESM. xlsx, verwijder de eerste drie rijen en sla het blad op als Supplementary_Table_8_Jansen. txt met door tabs gescheiden indeling.
  2. Download 10 KB resolutie Hi-C interactie profielen in de volwassen hersenen van psychencode (beschreven als Promoter-anchored_chromatin_loops. bed hieronder).
    Opmerking: dit bestand heeft de volgende indeling: chromosoom, TSS_start, TSS_end, Enhancer_start en Enhancer_end. In het geval dat andere Hi-C-gegevenssets worden gebruikt, vereist dit protocol Hi-C-gegevenssets die worden verwerkt met hoge resolutie (5 − 20 KB).
  3. Download single-cell Expression datasets uit de PsychENCODE.
    Opmerking: deze zijn van neurotypical controlemonsters.
  4. Download de gegevenssets van de ontwikkelings expressie van de Brain span (beschreven als Devexpr. RDA hieronder).
    Opmerking: 267666527 is een zip-bestand, dus unzip de 267666527 uitpakken "columns_metadata. csv", "expression_matrix. csv", en "rows_metadata. csv" voor het genereren van devExpr. RDA (zie sectie 3).
2. Download exonic coördinaten (Zie aanvullende bestanden, beschreven als Gencode19_exon. bed en Gencode19_promoter. bed hieronder) uit gencode versie 19.
  Opmerking: promotors worden gedefinieerd als 2 KB stroomopwaarts van de transcriptie Startsite (TSS). Deze bestanden hebben de volgende indeling: chromosoom, begin, einde, en gen.
3. Download Gene aantekening bestand (Zie aanvullende bestanden, beschreven als geneanno. RDA hieronder) van biomart.
  Opmerking: dit bestand kan worden gebruikt om genen te matchen op basis van ENSEMBL Genids en het HUGO Gene nomenclatuur Committee (HGNC)-symbool.

2. het genereren van een GRanges-object voor geloofwaardige Snp's

Instellen in R door de volgende code in het consolevenster in RStudio te typen.
bibliotheek (GenomicRanges)
opties (stringsAsFactors = F)
setwd ("~/work") # Dit is het pad naar de werkdirectory.
credSNP = read. Delim ("Supplementary_Table_8_Jansen. txt", header = T)
credSNP = credSNP [credSNP $ geloofwaardig. causaal = = "ja",]
Maak een GRanges-object door de volgende code in het consolevenster in RStudio te typen.
credranges = GRanges (credSNP $ Chr, IRanges (credSNP $ BP, credSNP $ BP), RSID = credSNP $ SNP, P = credSNP $ P)
Save (credranges, File = "AD_credibleSNP. RDA")

3. positionele mapping

Opmerking: voor elke stap typt u de corresponderende code in het consolevenster in RStudio.

Ingesteld in R.
opties (stringsAsFactors = F)
bibliotheek (GenomicRanges)
load ("AD_credibleSNP. RDA") # (Zie 2)
Positionele mapping van Promoter/exonic SNPs naar genen
1. Laad promotor en exonic Region en Genereer een GRange-object.
  Exon = lezen. table ("Gencode19_exon. bed")
  exonranges = GRanges (Exon [, 1], IRanges (Exon [, 2], exon [, 3]), Gene = Exon [, 4])
  promotor = Lees. table ("Gencode19_promoter. bed")
  promoterranges = GRanges (promotor [, 1], IRanges (promotor [, 2], promotor [, 3]), Gene = promotor [, 4])
2. Overlapt geloofwaardige Snp's met exonische regio's.
  OLAP = findOverlaps (credranges, exonranges)
  credexon = credranges [queryHits (OLAP)]
  mcols (credexon) = cbind (mcols (credexon), mcols (exonranges [subjectHits (OLAP)]))
3. Overlapt geloofwaardige Snp's met Promoter regio's.
  OLAP = findOverlaps (credranges, promoterranges)
  credpromoter = credranges [queryHits (OLAP)]
  mcols (credpromoter) = cbind (mcols (credpromoter), mcols (promoterranges [subjectHits (OLAP)]))
Koppel Snp's aan hun putatieve doel genen met chromatine interacties.
1. Hi-C-gegevensset laden en een GRange-object genereren.
  HIC = lezen. table ("promotor-anchored_chromatin_loops. bed ", Skip = 1)
  colNames (HIC) = c ("Chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
  hicranges = GRanges (HIC $ Chr, IRanges (HIC $ TSS_start, hic $ TSS_end), Enhancer = hic $ Enhancer_start)
  OLAP = findOverlaps (hicranges, promoterranges)
  hicpromoter = hicranges [queryHits (OLAP)]
  mcols (hicpromoter) = cbind (mcols (hicpromoter), mcols (promoterranges [subjectHits (OLAP)]))
  hicenhancer = GRanges (seqnames (hicpromoter), IRanges (hicpromoter $ Enhancer, hicpromoter $ Enhancer + 10000), gen = hicpromoter $-gen)
2. Overlap geloofwaardige Snp's met Hi-C GRange object.
  OLAP = findOverlaps (credranges, hicenhancer)
  credhic = credranges [queryHits (OLAP)]
  mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer [subjectHits (OLAP)]))
Compileer AD kandidaatgenen gedefinieerd door positionele mapping en chromatine interactie profielen.
# # # De resulterende kandidaatgenen voor advertentie:
ADgenes = verminderen (Union, List (credhic $ Gene, credexon $ Gene, credpromoter $ Gene))
# # # om ENSEMBL gen ID om te zetten naar HGNC symbool
load ("geneAnno. RDA")
ADhgnc = geneAnno1 [match (ADgenes, geneAnno1 $ ensembl_gene_id), "hgnc_symbol"]
ADhgnc = ADhgnc [ADhgnc! = ""]
Save (ADgenes, ADhgnc, bestand = "ADgenes. RDA")
write. table (ADhgnc, File = "ADgenes. txt", rij. names = F, Col. namen = F, quote = F, sep = "\t")

4. ontwikkelings expressie trajecten

Opmerking: voor elke stap typt u de corresponderende code in het consolevenster in RStudio.

Ingesteld in R.
bibliotheek (omvormen); bibliotheek (ggplot2); bibliotheek (GenomicRanges); bibliotheek (biomaRt)
Library ("WGCNA")
opties (stringsAsFactors = F)
Proces expressie en metagegevens.
datExpr = read. CSV ("expression_matrix. csv", header = FALSE)
datExpr = datExpr [,-1]
datMeta = read. CSV ("columns_metadata. csv")
Datsonen = read. CSV ("rows_metadata. csv")
datExpr = datExpr [datProbes $ ensembl_gene_id! = "",]
datProbes = Datsonen [datProbes $ ensembl_gene_id! = "",]
datExpr.cr = Instorserows (datExpr, rowGroup = datProbes $ ensembl_gene_id, rowID = rownames (datExpr))
datExpr = datExpr. CR $ Datetsamengevouwen
gename = data. frame (datExpr. CR $ group2row)
rownames (datExpr) = gename $ groep
1. Geef ontwikkelingsstadia op.
  datMeta $ Unit = "postnatale"
  idx = grep ("PCW", datMeta $ Age)
  datMeta $ unit [idx] = "prenataal"
  idx = grep ("yrs", datMeta $ leeftijd)
  datMeta $ unit [idx] = "postnatale"
  datMeta $ unit = factor (datMeta $ unit, niveaus = c ("Prenatal", "postnatale"))
2. Selecteer corticale regio's.
  datMeta $ Region = "SubCTX"
  r = c ("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "OCX")
  datMeta $ Region [datMeta $ structure_acronym% in% r] = "CTX"
  datExpr = datExpr [, die (datMeta $ Region = = "CTX")]
  datmeta = datMeta [die (datMeta $ Region = = "CTX"),]
  Save (datExpr, datMeta, File = "devExpr. RDA")
Extraheer ontwikkelings expressie profielen van AD Risk genen.
load ("ADgenes. RDA")
exprdat = apply (datExpr [match (ADgenes, rownames (datExpr)),], 2, mean, na. rm = T)
dat = data. frame (regio = datMeta $ Region, unit = datMeta $ unit, expr = exprdat)
Vergelijk prenatale versus postnatale expressieniveaus van AD Risk genen.
PDF (bestand = "developmental_expression. PDF")
ggplot (dat, AES (x = eenheid, y = expr, fill = eenheid, Alfa = eenheid)) + ylab ("genormaliseerde uitdrukking") + geom_boxplot (outlier. size = NA) + ggtitle ("hersen expressie") + xlab ("") + scale_alpha_manual (waarden = c (0.2, 1)) + theme_classic () + thema (Legend. position = "na" )
dev. off ()

5. cel-type expressie profielen

Opmerking: voor elke stap typt u de corresponderende code in het consolevenster in RStudio.

Ingesteld in R.
opties (stringsAsFactors = F)
load ("ADgenes. RDA")
load ("geneAnno. RDA")
TargetName = "AD"
targetgene = ADhgnc
cellexp = lezen. table ("DER-20_Single_cell_expression_processed_TPM_backup. TSV", koptekst = T, fill = T)
cellexp [1121, 1] = cellexp [1120, 1]
cellexp = cellexp [-1120,]
rownames (cellexp) = cellexp [, 1]
cellexp = cellexp [,-1]
datExpr = schaal (cellexp, Center = T, schaal = F)
datExpr = datExpr [, 789: ncol (datExpr)]
Extract cellulaire expressie profielen van AD Risk genen.
exprdat = apply (datExpr [match (targetgene, rownames (datExpr)),], 2, mean, na. rm = T)
dat = data. frame (groep = TargetName, Cell = names (exprdat), expr = exprdat)
dat $ celltype = Unlist (lapply (strsplit (dat $ Cell, Split = "[.]"), "[[', 1))
dat = dat [-grep ("ex | In ", dat $ celltype),]
dat $ celltype = gsub ("dev", "Fetal", dat $ celltype)
dat $ celltype = factor (dat $ celltype, niveaus = c ("neuronen", "astrocyten", "Microglia", "endothelial",
Oligodendrocyten "," OPC "," foetale "))
PDF (bestand = "singlecell_expression_ADgenes. PDF")
ggplot (dat, AES (x = celltype, y = expr, fill = celltype)) +
ylab ("genormaliseerde uitdrukking") + xlab ("") + geom_violin () + thema (Axis. Text. x = element_text (hoek = 90, hjust = 1)) + thema (Legend. position = "geen") +
ggtitle (paste0 ("cellulaire expressie profielen van AD Risk genen"))
dev. off ()

6. genaantekening verrijking analyse van AD Risk genen

Download en configureer HOMER door de onderstaande commando's in Terminal te typen.
mkdir Homer
CD Homer
wget http://homer.ucsd.edu/homer/configureHomer.pl
perl./configureHomer.pl-Installeer
perl./configureHomer.pl-Installeer Human-p
perl./configureHomer.pl-Installeer Human-o
Voer HOMER uit door de onderstaande commando's in Terminal te typen.
PAD exporteren = $PATH: ~/work/Homer/bin
findMotifs.pl ~/work/ADgenes.txt mens ~/work/
Plot de verrijkte termen door de volgende code in het consolevenster in RStudio te typen.
bibliotheek (ggpubr)
opties (stringsAsFactors = F)
PDF ("GO_enrichment. PDF", breedte = 15, hoogte = 8)
plot_barplot = functie (dbnaam, naam, kleur) {
input = read. Delim (paste0 (dbname, ". txt"), header = T)
input = input [, c (-1,-10,-11)]
input = Unique (input)
input $ FDR = p. adjust (exp (input $ logP))
input_sig = ingang [ingang $ FDR < 0,1,]
input_sig $ FDR =-log10 (input_sig $ FDR)
input_sig = input_sig [bestellen (input_sig $ FDR),]
p = ggbarplot (input_sig, x = "term", y = "FDR", fill = Color, Color = "wit", Sort. val = "ASC", ylab = expressie (-log [10] (cursief (FDR))), xlab = paste0 (naam, "voorwaarden"), roteren = waar, label = paste0 (input_sig $ target. genes. in. term, "/", input_sig $ genen. in. term), font. label = List (Color = "White", Size = 9), Lab. vjust = 0,5, Lab. hjust = 1)
p = p + geom_hline (yintercept =-log10 (0.05), type = 2, Color = "lightgray")
Return (p)
}
P1 = plot_barplot ("biological_process", "Ga biologisch proces", "#00AFBB")
P2 = plot_barplot ("KEGG", "KEGG", "#E7B800")
P3 = plot_barplot ("reactome", "Reactome", "#FC4E07")
ggarrange (P1, P2, P3, labels = c ("A", "B", "C"), ncol = 2, nrow = 2)
dev. off ()

Representative Results

Het hier beschreven proces werd toegepast op een set van 800 geloofwaardige Snp's die werden gedefinieerd door de originele studie¹⁴. Positionele mapping toonde aan dat 103 Snp's overlapt met promoters (43 unieke genen) en 42 SNPs overlapt met exonen sequentie (27 unieke genen). Na positionele toewijzing bleven 84% (669) Snp's ongeannoleerd. Met behulp van Hi-C datasets in het volwassen brein konden we een extra 208 SNPs koppelen aan 64 genen op basis van fysieke nabijheid. In totaal hebben we 284 AD geloofwaardige Snp's toegewezen aan 112 AD Risk-genen (Figuur 1A). AD Risk genen werden geassocieerd met amyloïde precursor eiwitten, amyloïde-Beta vorming, en immuunrespons, weerspiegelen de bekende biologie van AD¹⁵^,¹⁶^,¹⁷^,¹⁸ (Figuur 1B-D). Ontwikkelings uitdrukkings profielen van AD Risk-genen toonden een duidelijke postnatale verrijking aan, indicatief voor het leeftijdsgebonden verhoogd risico op AD (Figuur 2A). Ten slotte werden AD-Risk genen sterk uitgedrukt in Microglia, primaire immuuncellen in de hersenen (Figuur 2B). Dit is in overeenstemming met de terugkerende bevindingen dat AD een sterke immuunbasis heeft en Microglia zijn de centrale speler in AD pathogenese¹⁴^,¹⁹^,²⁰.

Figuur 1: definiëren van putatieve doel genen van AD GWS loci. A) geloofwaardige snp's die zijn afgeleid van de top 29 AD loci werden gecategoriseerd in Promoter SNPs, Exonic SNPs en niet-coderende snp's zonder codering. de Promoter en Exonic SNPs werden direct toegewezen aan hun doel genen door positionele mapping, terwijl chromatine interactie profielen in het volwassen brein ook werden gebruikt om snp's toe te wijzen op basis (B-D) Verrijking van GO (B), KEGG (C) en Reactome (D) termen in AD Risk genen werd uitgevoerd met HOMER zoals beschreven in Protocol sectie 6. De x-as vertegenwoordigt de False Discovery rate (FDR) gecorrigeerd-log10 (P-waarde). Verrijkte termen met FDR-< 0,1 werden getekend. Grijze verticale lijnen vertegenwoordigen FDR = 0,05. APP amyloïde precursor eiwit. Teller, het aantal AD-Risk genen dat in elke term wordt vertegenwoordigd; noemer, het aantal genen in elke term. Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 2: karakterisering van AD-Risk genen. A) de AD-Risk genen worden sterk uitgedrukt in de postnatale cortex in vergelijking met de prenatale cortex. B) viool plots die uitkeringen van genexpressie waarden (genormaliseerde uitdrukking) in verschillende celtypen uit de cortex afbeelden. Deze resultaten tonen aan dat de AD-Risk genen sterk worden uitgedrukt in Microglia, in overeenstemming met eerdere onderzoeken¹⁴. Klik hier om een grotere versie van dit cijfer te bekijken.

Aanvullend bestand 1. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Aanvullend bestand 2. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Aanvullend bestand 3. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Discussion

Hier beschrijven we een analytisch kader dat kan worden gebruikt om functioneel aantekeningen te maken bij GWS loci op basis van positionele mapping en chromatine-interacties. Dit proces omvat meerdere stappen (voor meer informatie zie deze beoordeling¹³). Ten eerste, gezien het feit dat chromatine-interactie profielen zeer specifiek zijn voor het celtype, moeten Hi-C-gegevens worden verkregen uit de juiste cel/weefsel typen die het beste de onderliggende biologie van de aandoening kunnen opvangen. Gezien het feit dat AD een neurodegeneratieve aandoening is, gebruikten we Adult Brain Hi-C data⁹ om GWS loci te annoteren. Ten tweede heeft elke GWS-Locus vaak tot honderden snp's die geassocieerd zijn met de eigenschap vanwege de binding van het is dus belangrijk om vermoedelijke causale ("geloofwaardige") snp's te verkrijgen door computationeel de causaliteit te voorspellen door middel van het gebruik van verfijnde algoritmen²¹^,²² of het experimenteel testen van regelgevende activiteiten met behulp van benaderingen met hoge doorvoer, zoals massaal parallelle reporter assays (mpra)²³ of het zelf transcriberen van actieve regelgevende regio sequencing ( STARR-SEQ)²⁴. Voor het hier beschreven werk gebruikten we geloofwaardige Snp's die werden gerapporteerd in Jansen et al.¹⁴. Ten derde zijn promoter en exonic Snp's geannoleerd op basis van positionele mapping. We gebruikten een eenvoudige positionele mapping-strategie waarin Snp's werden toegewezen aan de genen wanneer ze overlapt met promotors (gedefinieerd als 2 KB stroomopwaarts van de transcriptie Startsite) of exonen. Deze benadering kan echter verder worden uitgewerkt door de functionele gevolgen van exonische Snp's te beoordelen, bijvoorbeeld of de SNP nonsens gemedieerd verval, missense variatie of nonsens variatie induceert. Ten vierde kunnen chromatine-interactie profielen van het juiste weefsel/celtype worden gebruikt om Snp's toe te wijzen aan hun putatieve doel genen op basis van fysieke nabijheid. We gebruikten interactie profielen verankerd aan promotors, maar we kunnen de interactie profielen verder verfijnen of uitbreiden door het nemen van Enhancer activiteiten (begeleid door Histon H3 K27 acetylering of chromatine toegankelijkheid) of exonische interacties rekening. Een belangrijke overweging in dit proces is het gebruik van consistente menselijke genoom build. Als de genomische posities van samenvattings statistieken bijvoorbeeld niet gebaseerd zijn op hg19 (d.w.z. hg18 of hg38), moet een geschikte versie van het referentie genoom worden verkregen of moeten de samenvattings statistieken worden geconverteerd naar hg19 met behulp van liftover²⁵.

We hebben dit kader toegepast om putatieve doel genen voor AD GWAS te identificeren, 284 Snp's toe te wijzen aan 112 AD Risk genen. Met behulp van ontwikkelings expressie profielen²⁶ en cel-type specifieke expressie profielen⁹, we hebben toen aangetoond dat dit gen set consistent was met wat bekend is over AD pathologie, het onthullen van de celtypen (Microglia), biologische functies (immuunrespons en amyloïde Beta), en verhoogd risico op leeftijd.

Hoewel we een raamwerk presenteerden dat mogelijke doel genen van AD en de onderliggende biologie afbakenen, is het merk op dat op Hi-C gebaseerde aantekening kan worden uitgebreid om eventuele niet-Codeer variaties te annoteren. Naarmate meer whole-genoom sequentie gegevens beschikbaar komen en ons begrip over de niet-Codeer zeldzame variatie toeneemt, zal Hi-C een belangrijke bron bieden voor de interpretatie van ziektegebonden genetische varianten. Een compendium van Hi-C-middelen verkregen uit meerdere weefsel-en celtypen zal daarom van cruciaal belang zijn om een brede toepassing van dit kader te faciliteren om biologische inzichten in verschillende menselijke eigenschappen en ziekten te Garner.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gesteund door de NIH Grant R00MH113823 (naar H.W.) en R35GM128645 (to D.H.P.), de NARSAD Young Investigator Award (aan H.W.) en de SPARK Grant van de Simons Foundation Autisme Research Initiative (SFARI, to N.M. en H.W.).

Materials

Name	Company	Catalog Number	Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode			http://adult.psychencode.org/
Developmental expression datasets			http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.¹⁴)			https://static-content.springer.com/
HOMER			http://homer.ucsd.edu/
R (version 3.5.0)			https://www.r-project.org/
RStudio Desktop			https://www.rstudio.com/
Single cell expression datasets			http://adult.psychencode.org/