Genetics

크로마틴 구성의 전산 분석을 사용하여 알츠하이머 병 변이체를 대상 유전자에 매핑

Published: January 9, 2020 doi: 10.3791/60428

Nana Matoba^1,2, Ivana Y. Quiroga³, Douglas H. Phanstiel*^3,4, Hyejung Won*^1,2

¹Department of Genetics, University of North Carolina, ²Neuroscience Center, University of North Carolina, ³Thurston Arthritis Research Center, University of North Carolina, ⁴Department of Cell Biology and Physiology, University of North Carolina

* These authors contributed equally

Summary

우리는 3차원 염색질 상호 작용을 사용하여 게놈 전체 협회 연구 (GWAS)에 의해 확인된 비 코딩 이체의 기능적인 연루를 확인하기 위하여 프로토콜을 제시합니다.

Abstract

게놈 전체 협회 연구 (GWAS)는 성공적으로 인간의 특성 및 질병과 관련된 게놈 loci의 수백을 확인했습니다. 그러나, 대부분의 게놈 전체 유의한(GWS) loci가 비코딩 게놈상에 빠지기 때문에, 많은 사람들의 기능적 영향은 알려지지 않았다. Hi-C 또는 그 유도체에 의해 확인된 3차원 염색질 상호 작용은 그들의 실행 가능한 유전자에 비 코딩 이체를 연결하여 이 loci를 비기술하는 유용한 공구를 제공할 수 있습니다. 여기에서, 우리는 인간 적인 성인 두뇌 조직에서 알츠하이머 병 (AD) GWAS 및 Hi-C 데이터 세트를 사용하여 그들의 putative 유전자에 GWAS 비 코딩 이체를 지도로 하는 프로토콜을 개략적으로 설명합니다. 가부장적 인플루엔자 단일 뉴클레오티드 다형성(SNPs)은 미세 매핑 알고리즘의 적용에 의해 식별됩니다. SNPs는 Hi-C에 근거를 둔 증강 프로모터 상호 작용을 사용하여 그들의 putative 표적 유전자에 그 때 매핑됩니다. 결과 유전자 세트는 AD 위험 이체에 의해 잠재적으로 통제되기 때문에 AD 위험 유전자를 나타냅니다. AD의 근본적인 분자 메커니즘에 대한 생물학적 통찰력을 더 얻기 위해, 우리는 발달 뇌 발현 데이터와 뇌 단세포 발현 프로필을 사용하여 AD 위험 유전자를 특성화합니다. 이 프로토콜은 다양한 인간의 특성과 질병의 근간이 되는 가양성 표적 유전자 및 분자 메커니즘을 식별하기 위해 모든 GWAS 및 Hi-C 데이터 세트로 확장될 수 있습니다.

Introduction

게놈 전체 협회 연구 (GWAS)는 인간 적인 특성 및 질병의 범위의 유전 기초를 드러내는에 있는 중추적인 역할을 했습니다. 이 대규모 유전형질은 고도에서 정신 분열증 리스크에 구역 수색하는 표현형과 관련되었던 게놈 이체의 수천을 밝혔습니다. 그러나, 질병과 특성 관련 loci를 확인하는 GWAS의 엄청난 성공에도 불구하고, 대부분의 표현형 관련 이체가 비 코딩에 상주하기 때문에 이 변이체가 표현형에 기여하는 방법의 기계론적인 이해는 도전적이었습니다 인간 게놈의 분수. 이 이체는 수시로 예측한 규정하는 요소와 겹치기 때문에, 가까운 유전자의 전사 통제를 바꾸기 위하여 확률이 높습니다. 그러나, 비 코딩 loci는 1메가베이스를 초과하는 선형 거리에서 유전자의 전사에 영향을 미칠 수 있어 각 변이체에 의해 영향을 받는 유전자를 식별하기 어렵게 만듭니다. 3차원 (3D) 염색질 구조는 먼 조절 성 궤체와 유전자 프로모터 사이의 연결을 중재하는 데 중요한 역할을하며 표현형 관련 단일 뉴클레오티드 다형성 (SNPs)에 의해 영향을받는 유전자를 식별하는 데 사용할 수 있습니다.

유전자 조절은 인핸서 활성화 및 염색질 루프 형성을 수반하는 복잡한 과정에 의해 매개되며, 이는 전사 기계가^1,^2,^3으로지시될 수 있는 유전자 프로모터에 인핸서를 물리적으로 연결한다. 염색질 루프는 종종 수백 킬로베이스 (kb)에 걸쳐 있기 때문에, 3D 크로마틴 아키텍처의 상세한지도는 유전자 조절 메커니즘을 해독하는 데 필요합니다. 3D 크로마틴 아키텍처^4를식별하기 위해 여러 크로마틴 형태 캡처 기술이 개발되었습니다. 이러한 기술 중 Hi-C는 게놈 전체의 3D 크로마틴 상호작용 프로파일을 캡처하므로 가장 포괄적인 아키텍처를 제공합니다. Hi-C 데이터세트는 염색질 상호작용 프로파일에 기초한 비코딩 변이체를 그들의 가양성 표적 유전자에 연결할 수 있기 때문에 비코딩 게놈 전체 유의한(GWS) loci^5,^6,^7,^8,^9,^11,^11,^13을해석하기 위하여 신속하게 적응되었습니다.

이 문서에서는, 우리는 염색질 상호 작용 단면도를 사용하여 GWAS 리스크 이체의 putative 표적 유전자를 계산적으로 예측하는 프로토콜을 개략적으로 설명합니다. 우리는 성인 인간의 두뇌에 있는 Hi-C 데이터 세트를 사용하여 그들의 표적 유전자에 AD GWS loci^14를 지도로 이^{프로토콜을 적용합니다 9.} 생성된 AD 위험 유전자는 단일 세포 전사체 및 발달 발현 프로파일을 포함하는 다른 기능적 게놈 데이터 세트를 특징으로 한다.

Protocol

1. 워크스테이션 설정

R(버전 3.5.0) 및 RStudio 데스크톱을 설치합니다. 오픈 RStudio.
RStudio의 콘솔 창에 다음 코드를 입력하여 R에 다음 라이브러리를 설치합니다.
만약 (!" BiocManager" %in% 행 이름(installed.packages()) )
install.packages("BiocManager", 리포지토리="https://cran.r-project.org")
BiocManager::설치("게놈 범위")
BiocManager::설치("바이오마트")
BiocManager::설치("WGCNA")
install.packages("모양 변경")
설치.패키지("ggplot2")
install.packages("코르플롯")
설치.패키지("gProfileR")
설치.패키지("깔끔한")
설치.패키지("ggpubr")
파일을 다운로드합니다.
참고: 이 프로토콜에서는 모든 파일을 ~/work 디렉토리에 다운로드해야 합니다.
1. 재료 표에제공된 링크를 클릭하여 다음 파일을 다운로드합니다.
  1. AD에 대한 세밀하게 매핑 된 신뢰할 수있는 SNP를 다운로드하십시오 (Jansen 외^14의보충 표 8).
    참고: 분석하기 전에 41588_2018_311_MOESM3_ESM.xlsx에서 시트 8을 열고 처음 세 행을 제거하고 시트를 탭 분리 형식으로 Supplementary_Table_8_Jansen.txt로 저장합니다.
  2. psychencode에서 성인 두뇌에 있는 10 kb 해상도 Hi-C 상호 작용 단 면도 다운로드 (아래 프로모터-anchored_chromatin_loops.bed로 설명).
    참고: 이 파일에는 염색체, TSS_start, TSS_end, Enhancer_start 및 Enhancer_end 형식이 있습니다. 다른 Hi-C 데이터 집합을 사용하는 경우 이 프로토콜에는 고해상도(5−20kb)로 처리된 Hi-C 데이터 집합이 필요합니다.
  3. PsychENCODE에서 단일 셀 표현 식 데이터 집합을 다운로드합니다.
    참고: 이들은 신경 전형적인 통제 견본에서 입니다.
  4. BrainSpan에서 개발 식 데이터 집합을 다운로드합니다(아래 devExpr.rda로 설명).
    참고: 267666527은 압축이 있는 파일이므로 267666527의 압축을 풀면 "columns_metadata.csv", "expression_matrix.csv", "rows_metadata.csv"를 추출하여 devExpr.rda를 생성합니다(섹션 3 참조).
2. 젠코드 버전 19에서 엑소닉 좌표(Gencode19_exon.bed 및 아래 Gencode19_promoter.bed로 설명된 추가 파일참조)를 다운로드합니다.
  참고: 프로모터는 전사 시작 사이트(TSS)의 2kb 상류로 정의됩니다. 이 파일은 염색체, 시작, 끝 및 유전자와 같은 형식을 갖습니다.
3. biomart에서 유전자 추가 파일 (아래 geneAnno.rda로 설명 된 보충 파일참조)을 다운로드하십시오.
  참고: 이 파일은 Ensembl 유전자 아이디 및 HUGO 유전자 명명위원회 (HGNC) 기호에 근거를 둔 유전자를 일치시키기 위하여 이용될 수 있습니다.

2. 신뢰할 수 있는 SP를 위한 그레인지 오브젝트 생성

RStudio의 콘솔 창에 다음 코드를 입력하여 R에서 설정합니다.
라이브러리(게놈 레인지)
옵션(문자열AsFactors = F)
setwd("~/work") # 작업 디렉토리에 대한 경로입니다.
credSNP = read.delim("Supplementary_Table_8_Jansen.txt", 헤더=T)
credSNP = credSNP[credSNP$Credible.인과 관계="예"]]
RStudio의 콘솔 창에 다음 코드를 입력하여 GRanges 개체를 만듭니다.
크레레드레인지 = 그레인지 (credSNP$Chr, IRanges(credSNP$bp, credSNP$bp), rsid=credSNP$SNP, P=크레레드SNP$P)
저장(credranges, 파일="AD_credibleSNP.rda")

3. 위치 매핑

참고: 각 단계에 대해 해당 코드를 RStudio의 콘솔 창에 입력합니다.

R에서 설정합니다.
옵션(문자열AsFactors=F)
라이브러리(게놈 레인지)
로드("AD_credibleSNP.rda") # (2참조)
유전자에 프로모터/엑소닉 SNPs의 위치 매핑
1. 로드 프로모터 및 엑소닉 영역을 및 GRange 개체를 생성한다.
  엑슨 = read.table("Gencode19_exon.bed")
  exonranges = 그레인지 (엑슨[1], IRanges (엑슨[,2]), 엑슨[,3]), 유전자=엑슨[,4])
  프로모터 = read.table("Gencode19_promoter.bed")
  프로모터 범위 = 그레인지(프로모터[,1], IRanges(프로모터[,2], 프로모터[,3]), 유전자=프로모터[,4])
2. 신뢰할 수 있는 SNP와 엑소닉 영역이 겹칩니다.
  올랩 = findOverlaps (크레레드 레인지, 엑온레인지)
  크레덱슨 = 크레레드레인지[쿼리히트(올랩)]
  mcols(크레데슨) = cbind(mcols(크레데슨), mcols(엑시온레인지[subjectHits[올랩)]))) ) ) ) )
3. 신뢰할 수 있는 SNP를 프로모터 영역과 겹칩니다.
  올랩 = findOverlaps (크레레드레인지, 프로모터레인지)
  크레게프로어 = 크레레드레인지[쿼리히트(올랩)]
  mcols(크레드프로어러) = cbind(mcols(크레드프로모터), mcols(프로모터레인지[subjectHits(올랩)])) ) ) ) )
염색질 상호 작용을 사용하여 그들의 putative 표적 유전자에 SNPs를 연결하십시오.
1. Hi-C 데이터 집합을 로드하고 GRange 개체를 생성합니다.
  hic =read.table("프로모터-anchored_chromatin_loops.bed", 건너뛰기=1)
  colnames(hic) = c("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
  hicranges = GRanges (hic$chr, IRanges(hic$TSS_start, hic$TSS_end), 인핸서=hic$Enhancer_start)
  올랩 = findOverlaps (히크레인지, 프로모터 레인지)
  hicpromoter = hicranges[쿼리히트(올랩)]
  mcols(히크프로모터) = cbind(mcols(히크프로모터), mcols(프로모터레인지[subjectHits(올랩)]))) ) ) )
  hicenhancer = GRanges (seqnames (히크프로저 (히크프로저), IRanges (히크프로저 $ 증강, 히크프로저 $ 증강 + 10000), 유전자 = 히크 프로버 $ 유전자)
2. 신뢰할 수 있는 SNP와 Hi-C GRange 개체가 겹칩니다.
  올랩 = findOverlaps (크레레드 레인지, 히크 강화제)
  credhic = 크레레드레인지[쿼리히트(올랩)]
  mcols(credhic) = cbind(mcols(크레딕), mcols(히크강화제[subjectHits[올랩)]))) ) ) ) ) ) )
위치 매핑 및 크로마틴 상호작용 프로파일에 의해 정의된 AD 후보 유전자를 컴파일합니다.
### AD의 결과 후보 유전자:
ADgenes = 감소 (유니온, 목록 (credhic $ 유전자, credexon $ 유전자, credpromoter $유전자))
### 엔셈블 유전자 ID를 HGNC 기호로 변환
로드("제네안노.rda")
ADhgnc = geneAnno1[일치(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
ADhgnc = ADhgnc[ADhgnc!=""]
저장(ADgenes, ADhgnc, 파일="ADgenes.rda")
write.table(ADhgnc, 파일="ADgenes.txt", row.names=F, col.names=F, 따옴표=F, 9월="\t")

4. 발달 표현 궤적

참고: 각 단계에 대해 해당 코드를 RStudio의 콘솔 창에 입력합니다.

R에서 설정합니다.
라이브러리(모양 변경); 라이브러리(ggplot2); 라이브러리(게놈 레인지); 라이브러리(바이오마트)
라이브러리("WGCNA")
옵션(문자열AsFactors=F)
프로세스 식 및 메타 데이터입니다.
datExpr = read.csv ("expression_matrix.csv", 헤더 = FALSE)
datExpr = datExpr[,-1]
datMeta = read.csv ("columns_metadata.csv")
datProbes = read.csv("rows_metadata.csv")
datExpr = datExpr[datProbes$ensembl_gene_id!=","]
datProbes = datProbes[datProbes$ensembl_gene_id!=","]
datExpr.cr = 붕괴행 (datExpr, 행 그룹 = datProbes $ ensembl_gene_id, rowID = 행 이름 (datExpr))
datExpr = datExpr.cr$datETcollapsed
gename = data.frame(datExpr.cr$group2row)
행 이름(datExpr) = 게나메$그룹
1. 개발 단계를 지정합니다.
  datMeta$단위 = "산후"
  IDX = grep ("pcw", datMeta $나이)
  datMeta$Unit[idx] = "산전"
  idx = grep ("yrs", datMeta$나이)
  datMeta$Unit[idx] = "산후"
  datMeta$단위 = 요인(datMeta$단위, 레벨=c("산전", "산후"))
2. 피질 영역을 선택합니다.
  datMeta$리전 = "SubCTX"
  r = c("A1C", "ITC", "TC", "TC", "OFC", "DFC", "VFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "Ocx")
  datMeta$지역[datMeta$structure_acronym % % r] = "CTX"
  datExpr = datExpr[,,,](datMeta$Region=="CTX")]
  datMeta = datMeta[[(datMeta$리전=="CTX"),]
  저장 (datExpr, datMeta, 파일 = "devExpr.rda")
AD 위험 유전자의 발달 발현 프로파일을 추출합니다.
로드("ADgenes.rda")
exprdat = 적용 (datExpr[일치(ADgenes, 행 이름(datExpr)),],2,평균, na.rm=T)
dat = data.frame(지역=datMeta$리전, 단위=datMeta$단위, Expr=exprdat)
AD 위험 유전자의 산전 발현 수준과 산전 을 비교합니다.
pdf(파일="developmental_expression.pdf")
ggplot(dat, aes(x=단위, y=Expr, fill=Unit, 알파=단위)) + ylab("정규화된 표현식") + geom_boxplot(이상값= NA) + ggtitle("뇌 표현") + scale_alpha_manual(값=c(0.2, 1)) + theme_classic(범례=위치="나" )
dev.off()

5. 셀 유형 표현 프로필

참고: 각 단계에 대해 해당 코드를 RStudio의 콘솔 창에 입력합니다.

R에서 설정합니다.
옵션(문자열AsFactors=F)
로드("ADgenes.rda")
로드("제네안노.rda")
대상 이름 = "AD"
대상 유전자 = ADhgnc
셀랩스 = read.table("DER-20_Single_cell_expression_processed_TPM_backup.tsv", 헤더=T, 채우기=T)
셀랩스[1121,1] = 셀랩스프[1120,1]
셀랩스 = 셀랩스[-1120,]
행 이름(셀익스프) = 셀랩스[,1]
셀랩스 = 셀랩스프[,-1]
datExpr = 눈금(셀익스프, 중심=T, 스케일=F)
datExpr = datExpr[,789:ncol(datExpr)]
AD 위험 유전자의 세포 발현 프로필을 추출합니다.
exprdat = 적용 (datExpr[일치(대상 유전자, 행 이름(datExpr)),],2,평균, na.rm=T)
dat = data.frame(그룹=대상 이름, 셀=이름(exprdat), Expr=exprprdat)
dat$셀 유형 = 목록 해제(lapply(strsplit(분할(dat$cell, split="[]"),[[',1))
dat = dat[-grep("Ex| 에서",, dat$셀타입)]
dat$세포형 = gsub("데브","태아", dat$세포형)
dat$세포형 = 요인(dat$세포형, 레벨=c("뉴런","성상세포","마이크로글리아"," 내피",
올리고엔드로시테스","OPC","태아"))
pdf(파일="singlecell_expression_ADgenes.pdf")
ggplot (dat, aes (x = 셀 타입, y = Expr, 채우기 = 셀 타입)) +
ylab("정규화된 표현") + xlab("""""") + geom_violin() + 테마(축.text.x=element_text(각도 = 90, hjust=1)) + 테마(legend.position="none") +
ggtitle(붙여넣기0("AD 위험 유전자의 세포 발현 프로필"))
dev.off()

6. AD 위험 유전자의 유전자 별표 농축 분석

터미널에서 아래 명령을 입력하여 HOMER를 다운로드하고 구성합니다.
mkdir 호머
CD 호머
wget http://homer.ucsd.edu/homer/configureHomer.pl
펄 ./configureHomer.pl -설치
펄 ./configureHomer.pl -설치 인간-p
펄 ./configureHomer.pl -설치 인간-o
터미널에서 아래 명령을 입력하여 HOMER를 실행합니다.
내보내기 PATH=$PATH:~/작업/호머/빈
findMotifs.pl ~/작업/ADgenes.txt 인간 ~/작업/
RStudio의 콘솔 창에 다음 코드를 입력하여 보강된 용어를 플로팅합니다.
라이브러리(게푸버)
옵션(문자열AsFactors=F)
pdf("GO_enrichment.pdf", 너비=15, 높이=8)
plot_barplot = 기능 (dbname, 이름, 색상){
입력 = read.delim (붙여 넣기0 (dbname,.txt"), 헤더 = T)
입력 = 입력[,c(-1,-10,-11)]
입력 = 고유(입력)
입력$FDR = p.adjust(익스펙(입력$logP))
input_sig = 입력[입력$FDR & 0.1,]
input_sig$FDR = -log10(input_sig$FDR)
input_sig = input_sig[주문(input_sig$FDR)]]
p = ggbarplot (input_sig, x = "기간", y = "FDR", 채우기 = 색상, 색상 = "흰색", sort.val = "asc", ylab = 식(-log[10](기울임꼴(기울임꼴(기울임꼴)),xlab = paste0(이름, 용어"), 회전 = TRUE, 레이블 = 붙여넣기(input_sig$Target.Genes.in.Term,"/",input_sig$Genes.in.Term), font.label = 목록(색상 = "흰색", 크기 = 9), 랩.v.v.5.s
p = p+geom_hline(yintercept = -log10(0.05), 선유형 = 2, 색상 = "lightgray")
리턴(p)
}
p1 = plot_barplot ("biological_process",GO 생물학적 과정", #00AFBB")
p2 = plot_barplot ("kegg","KEGG", #E7B800")
p3 = plot_barplot("reactome","Reactome", #FC4E07")
ggarrange (p1, p2, p3, 라벨 = c ("A", "B", "C"), ncol = 2, nrow = 2)
dev.off()

Representative Results

여기서 설명된 프로세스는 원래 연구^14에의해 정의된 800개의 신뢰할 수 있는 SP 집합에 적용되었습니다. 위치 매핑은 103개의 SP가 프로모터(43개의 고유 유전자)와 중첩되었고 42개의 SP가 엑소(27개의 고유 유전자)와 중첩된 것으로 나타났습니다. 위치 매핑 후 84%(669) SP는 비하여 유지되었습니다. 성인 뇌의 Hi-C 데이터 세트를 사용하여 물리적 근접성에 따라 추가208개의 SNPs를 64개의 유전자에 연결할 수 있었습니다. 총 284개의 AD 신뢰할 수 있는 SNPs를 112개의 AD 위험 유전자에 매핑했습니다(그림1A). AD 위험유전자는 AD^15,^16,^17,^18의 공지된 생물학을 반영하여 아밀로이드 전구체 단백질, 아밀로이드 베타 형성 및 면역 반응과 연관되었다(도1B-D). AD 위험 유전자의 발달 발현 프로필은 AD의 연령 관련 높은 위험을 나타내는 현저한 산후 농축을보였다(도 2A). 마지막으로, AD 위험 유전자는 뇌의 1차 면역 세포인 마이크로글리아에서 고도로 발현되었다(도2B). 이것은 AD가 강한 면역 기초를 가지고 있고 microglia가 AD 병인증^14,^19,^20의중심 플레이어라는 재발사실과 일치합니다.

그림 1: AD GWS 로시의 가적 표적 유전자 정의. (A)상위 29개 AD 로시로부터 유래된 신뢰할 수 있는 SNPs는 프로모터 SNPs, 엑소닉 NPs 및 unannotated 비코딩 SNPs로 분류되었고, 프로모터 및 엑소닉 SNPs는 위치 매핑에 의해 그들의 표적 유전자에 직접 할당되었고, 성인 뇌의 크로마틴 상호작용 프로파일은 물리적 상호작용에 기초하여 SNPs를 매핑하는데 추가적으로 사용되었다. (B-D) AD 위험 유전자에서GO(B),KEGG(C) 및 리액절(D) 용어의 농축은 프로토콜 섹션 6에 기재된 바와 같이 HOMER를 사용하여 수행하였다. x축은 잘못된 검색 속도(FDR) 수정-log10(P-값)을 나타냅니다. FDR & 0.1로 농축된 용어가 플롯되었다. 회색 세로선은 FDR = 0.05를 나타냅니다. APP 아밀로이드 전구체 단백질. 분자, 각 기간에 표현된 AD 위험 유전자의 수; 분모, 각 기간에 유전자의 수. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 2: AD 위험 유전자의 특성화. (A)AD 위험 유전자는 산전 피질에 비해 산후 피질에서 고도로 발현된다. (B)바이올린 플롯은 피질로부터의 상이한 세포 유형에서 유전자 발현 값(정규화된 발현)의 분포를 묘사한다. 이 결과는 AD 리스크 유전자가 이전 연구 결과^14와일치하는 microglia에서 높게 표현된다는 것을 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 파일 1. 이 파일을 보려면 여기를 클릭하십시오 (다운로드 오른쪽 버튼을 클릭하십시오).

보충 파일 2. 이 파일을 보려면 여기를 클릭하십시오 (다운로드 오른쪽 버튼을 클릭하십시오).

보충 파일 3. 이 파일을 보려면 여기를 클릭하십시오 (다운로드 오른쪽 버튼을 클릭하십시오).

Discussion

여기서는 위치 매핑 및 크로마틴 상호 작용을 기반으로 GWS loci에 기능적으로 추가하는 데 사용할 수 있는 분석 프레임워크를 설명합니다. 이 프로세스에는 여러 단계가 포함됩니다(자세한 내용은 이 검토¹³참조). 첫째, 염색질 상호 작용 단면도가 높게 세포 모형 특정인 것을 감안할 때, 무질서의 근본적인 생물학을 가장 잘 붙잡는 적당한 세포/조직 모형에서 장악된 Hi-C 데이터는 이용될 필요가 있습니다. AD가 신경 퇴행성 질환이라는 점을 감안할 때, 우리는 성인 뇌 Hi-C 데이터^9를 사용하여 GWS 상소에 추가했습니다. 둘째, 각 GWS 궤적에는 종종 연결 불균형 (LD)으로 인해 특성과 관련된 수백 개의 SP가 있으므로 인과 관계를 계산적으로 예측하여 가산 ('신뢰할 수있는') SNP를 얻는 것이 중요합니다. 정밀 매핑^{알고리즘(21,}^22)의 사용을 통한 정밀도 또는 실험적으로 테스트된 규제 활동은 대규모 병렬 리포터 분석(MPRA)²³ 또는 자체 전사 활성 규제 영역 시퀀싱과 같은 높은 처리량 접근법을 사용하여 STARR-seq)²⁴. 여기에 설명된 작업을 위해 Jansen 등^14에보고된 신뢰할 수 있는 SNPs를 사용했습니다. 셋째, 프로모터 및 엑소닉 SP는 위치 매핑에 기초하여 비고를 낸다. 우리는 SP가 프로모터 (전사 시작 사이트의 2 kb 상류로 정의) 또는 엑소와 겹칠 때 유전자에 매핑되는 간단한 위치 매핑 전략을 사용했습니다. 그러나, 이러한 접근법은 SNP가 말도 안되는 매개 부패, 오해의 변형 또는 말도 안되는 변화를 유도하는지 여부와 같은 엑소닉 SNP의 기능적 결과를 평가함으로써 더욱 정교해질 수 있다. 넷째, 적절한 조직/세포 유형으로부터의 염색질 상호작용 프로파일은 물리적 근접성에 기초하여 그들의 가양성 표적 유전자에 SNPs를 할당하는데 사용될 수 있다. 우리는 프로모터에 고정 된 상호 작용 프로필을 사용, 하지만 우리는 더 구체화 하거나 증강 활동을 복용 하 여 상호 작용 프로필을 확장할 수 있습니다 (histone H3 K27 아 세 틸 화 또는 크로 마틴 접근성에 의해 유도) 또는 외향성 상호 작용 계정. 이 프로세스에서 중요한 고려 사항 중 하나는 일관된 인간 게놈 빌드를 사용하는 것입니다. 예를 들어, 요약 통계의 게놈 위치가 hg19(즉, hg18 또는 hg38)를 기반으로 하지 않는 경우, 적절한 버전의 기준 게놈을 획득하거나 요약 통계를 리프트오버^25를사용하여 hg19로 변환해야 합니다.

우리는 AD GWAS를 위한 putative 표적 유전자를 확인하기 위하여 이 틀을 적용했습니다, 112AD 리스크 유전자에 284의 SNPs를 할당하. 발달 발현 단면도²⁶ 및 세포 형 특이적 발현 프로파일^9를사용하여, 우리는 이 유전자 세트가 AD 병리학에 대해 알려진 것과 일치한다는 것을 입증하고, 세포 유형 (microglia), 생물학적 기능 (면역 반응 및 아밀로이드 베타) 및 나이에 따른 위험도상승하였다.

우리는 AD와 그것의 근본적인 생물학의 잠재적인 표적 유전자를 기술하는 틀을 제시하는 동안, Hi-C 기지를 둔 항추가 어떤 비 코딩 변이든지 추가하기 위하여 확장될 수 있다는 것을 주의합니다. 더 많은 전체 게놈 시퀀싱 데이터가 사용 가능해지고 비코딩 희귀 변형에 대한 이해가 증가함에 따라 Hi-C는 질병 관련 유전 적 변이체의 해석을위한 핵심 리소스를 제공 할 것입니다. 따라서 여러 조직 및 세포 유형에서 얻은 Hi-C 자원의 보상은 다양한 인간의 특성과 질병에 대한 생물학적 통찰력을 얻기 위해이 프레임 워크의 광범위한 응용 프로그램을 촉진하는 데 중요합니다.

Disclosures

저자는 공개 할 것이 없다.

Acknowledgments

이 작품은 NIH 교부금 R00MH113823 (H.W.에) 및 R35GM128645 (D.H.P.), 나르사드 젊은 구도자 상 (H.W.에), 그리고 사이먼스 재단 자폐증 연구 이니셔티브 (SFARI, N.M. 및 H.W.)에서 SPARK 교부금에 의해 지원되었다.

Materials

Name	Company	Catalog Number	Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode			http://adult.psychencode.org/
Developmental expression datasets			http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.¹⁴)			https://static-content.springer.com/
HOMER			http://homer.ucsd.edu/
R (version 3.5.0)			https://www.r-project.org/
RStudio Desktop			https://www.rstudio.com/
Single cell expression datasets			http://adult.psychencode.org/