Mapeamento variantes da doença de Alzheimer para seus genes-alvo usando análise computacional da configuração de cromatina

* These authors contributed equally
Genetics
 

Summary

Apresentamos um protocolo para identificar implicações funcionais de variantes não codificadoras identificadas por estudos de associação em todo o genoma (GWAS) usando interações tridimensionais de cromatina.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Estudos de associação em todo o genoma (GWAS) identificaram com sucesso centenas de loci genômicos que estão associados a características humanas e doenças. No entanto, como a maioria dos loci significativos (GWS) em todo o genoma caem no genoma não codificador, o impacto funcional de muitos permanece desconhecido. Interações tridimensionais de cromatina identificadas pelo Hi-C ou seus derivados podem fornecer ferramentas úteis para anotar esses loci, ligando variantes não codificadoras aos seus genes acionáveis. Aqui, descrevemos um protocolo para mapear variantes não codificadoras do GWAS para seus genes putativos usando a doença de Alzheimer (DA) GWAS e conjuntos de dados Hi-C do tecido cerebral adulto humano. Polimorfismos de nucleotídeo único (SNPs) causais putativos são identificados pela aplicação de algoritmos de mapeamento fino. SNPs são então mapeados para seus genes-alvo putativo usando interações enhancer-promotor com base no Hi-C. O conjunto de genes resultante representa genes de risco de DA, pois são potencialmente regulados por variantes de risco de DA. Para angariar mais insights biológicos sobre os mecanismos moleculares subjacentes a DA, caracterizamos genes de risco de DA usando dados de expressão cerebral de desenvolvimento e perfis de expressão de células únicas cerebrais. Este protocolo pode ser expandido para quaisquer conjuntos de dados GWAS e Hi-C para identificar genes-alvo putativos e mecanismos moleculares subjacentes a várias características e doenças humanas.

Introduction

Estudos de associação em todo o genoma (GWAS) têm desempenhado um papel fundamental na revelação da base genética de uma série de características e doenças humanas. Esta genotipagem em grande escala descobriu milhares de variantes genômicas associadas a fenótipos que variam de altura a risco de esquizofrenia. No entanto, apesar do enorme sucesso da GWAS na identificação de loci associados a doenças e traços, uma compreensão mecanicista de como essas variantes contribuem para o fenótipo tem sido desafiadora porque a maioria das variantes associadas ao fenótipo reside na não codificação fração do genoma humano. Uma vez que essas variantes muitas vezes se sobrepõem com elementos regulatórios previstos, é provável que alterem o controle transcricional de um gene próximo. No entanto, loci não codificação pode influenciar a transcrição de genes em distâncias lineares superiores a uma megabase, tornando os genes afetados por cada variante difícil de identificar. A estrutura tridimensional (3D) de cromatina desempenha um papel importante na mediação de conexões entre loci regulatórios distantes e promotores de genes e pode ser usada para identificar genes afetados por polimorfismos de nucleotídeo único associados ao fenótipo (SNPs).

A regulação gênica é mediada por um processo complexo, que envolve ativação melhoradora e formação de loop de cromatina que conecta fisicamente potenciadores a promotores genéticos aos quais a maquinaria transcricional pode ser direcionada1,2,3. Como os loops de cromatina muitas vezes abrangem várias centenas de quilobases (kb), mapas detalhados da arquitetura de cromatina 3D são necessários para decifrar mecanismos regulatórios genéticos. Várias tecnologias de captura de conformação de cromatina foram inventadas para identificar a arquitetura de cromatina 3D4. Entre essas tecnologias, a Hi-C fornece a arquitetura mais abrangente, pois captura perfis de interação de cromatocromina 3D em todo o genoma. Os conjuntos de dados Hi-C foram rapidamente adaptados para interpretar loci significativos (GWS) significativos (GWS) não codificadores (GWS) com base em perfis de interação com cromatina.

Neste artigo, descrevemos um protocolo para prever computacionalmente genes-alvo putativos de variantes de risco GWAS usando perfis de interação de cromatina. Aplicamos este protocolo para mapear a D.C. GWS loci14 aos seus genes-alvo usando conjuntos de dados Hi-C no cérebro humano adulto9. Os genes de risco de DA resultantes são caracterizados por outros conjuntos de dados genômicos funcionais que incluem perfis de expressão transcriptômica e de desenvolvimento de células únicas.

Protocol

1. Configuração de estação de trabalho

  1. Instale R (versão 3.5.0) e RStudio Desktop. RStudio aberto.
  2. Instale as seguintes bibliotecas em R digitando o seguinte código na janela do console no RStudio.
    se (!" BiocManager" %in% rownames (installed.packages())
    install.packages ("BiocManager", repos="https://cran.r-project.org")
    BiocManager::instalar ("GenomicRanges")
    BiocManager::instalar ("biomaRt")
    BiocManager::instalar ("WGCNA")
    install.packages ("remodelar")
    install.packages ("ggplot2")
    install.packages ("corrplot")
    install.packages ("gProfileR")
    install.packages ("tidyverse")
    install.packages ("ggpubr")
  3. Baixe arquivos.
    NOTA: Neste protocolo, todos os arquivos são obrigados a ser baixados para ~/diretório de trabalho.
    1. Baixe os seguintes arquivos clicando nos links fornecidos na Tabela de Materiais.
      1. Baixe SNPs credíveis finos para AD (Tabela Suplementar 8 de Jansen et al.14).
        NOTA: Antes da análise, a folha aberta oito em 41588_2018_311_MOESM3_ESM.xlsx, remova as três primeiras fileiras e salve a folha como Supplementary_Table_8_Jansen.txt com formato separado da aba.
      2. Baixe 10 perfis de interação de resolução Hi-C no cérebro adulto a partir do psychencode (descrito como Promoter-anchored_chromatin_loops.bed abaixo).
        NOTA: Este arquivo tem o seguinte formato: cromossomo, TSS_start, TSS_end, Enhancer_start e Enhancer_end. Caso outros conjuntos de dados Hi-C sejam usados, esse protocolo requer conjuntos de dados Hi-C processados em alta resolução (5 a 20 kb).
      3. Baixe conjuntos de dados de expressão de célula única do PsychENCODE.
        NOTA: Estes são de amostras de controle neurotípicas.
      4. Baixe conjuntos de dados de expressão de desenvolvimento do BrainSpan (descrito como devExpr.rda abaixo).
        NOTA: 267666527 é um arquivo fechado, então descompacte o 267666527 para extrair "columns_metadata.csv", "expression_matrix.csv" e "rows_metadata.csv" para gerar devExpr.rda (ver seção 3).
    2. Baixe coordenadas exônicas (ver Arquivos Suplementares, descrito como Gencode19_exon.bed e Gencode19_promoter.bed abaixo) da versão Gencode 19.
      NOTA: Os promotores são definidos como 2 kb a montante do site de início de transcrição (TSS). Esses arquivos têm o seguinte formato: cromossomo, início, fim e gene.
    3. Baixe o arquivo de anotação gênica (ver Arquivos Suplementares, descrito como geneAnno.rda abaixo) da biomart.
      NOTA: Este arquivo pode ser usado para combinar genes baseados em IDs do gene Ensembl e símbolo do Comitê de Nomenclatura HUGO Gene (HGNC).

2. Geração de um objeto gamas para SNPs credíveis

  1. Configurado em R digitando o seguinte código na janela do console no RStudio.
    biblioteca (GenômicaRanges)
    opções (stringsAsFactors = F)
    setwd ("~/work") # Este é o caminho para o diretório de trabalho.
    credSNP = read.delim ("Supplementary_Table_8_Jansen.txt", header=T)
    credSNP = credSNP[credSNP$Credible.Causal=="Sim",]
  2. Faça um objeto GRanges digitando o seguinte código na janela do console no RStudio.
    credranges = GRanges (credSNP$Chr, IRanges (credSNP$bp, credSNP$bp), rsid=credSNP$SNP, P=credSNP$P)
    salvar (credranges, file="AD_credibleSNP.rda")

3. Mapeamento posicional

NOTA: Para cada etapa, digite o código correspondente na janela do console no RStudio.

  1. Criado em R.
    opções (stringsAsFactors=F)
    biblioteca (GenômicaRanges)
    carga ("AD_credibleSNP.rda") # (ver 2)
  2. Mapeamento posicional de SNPs exônicos para genes
    1. Carregar promotor e região exônica e gerar um objeto GRange.
      exon = read.table ("Gencode19_exon.bed")
      exonranges = GRanges (exon[,1],IRanges (exon[,2],exon[,3]),gene=exon[,4])
      promotor = read.table ("Gencode19_promoter.bed")
      promoterranges = GRanges (promotor[,1], IRanges (promotor[,2], promotor[,3]), gene=promotor[,4])
    2. Sobreponha SNPs credíveis com regiões exônicas.
      olap = findOverlaps (credranges, exonranges)
      credexon = credranges[consultaHits (olap)]
      mcols (credexon) = cbind (mcols (credexon), mcols (exonranges[subjectHits(olap))))
    3. Sobreponha SNPs credíveis com regiões promotoras.
      olap = findOverlaps (credranges, promoterranges)
      credpromoter = credranges[consultaHits (olap)]
      mcols (credpromoter) = cbind (mcols (credpromoter), mcols (promoterranges[subjectHits (olap)))
  3. Vincule SNPs aos seus genes-alvo putativos usando interações com cromatina.
    1. Carregue o conjunto de dados Hi-C e gere um objeto GRange.
      hic = read.table ("Promoter-anchored_chromatin_loops.bed ", skip=1)
      colnames (hic) = c("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      hicranges = GRanges (hic$chr, IRanges (hic$TSS_start, hic$TSS_end), enhancer=hic$Enhancer_start)
      olap = findOverlaps (hicranges, promoterranges)
      hicpromoter = hicranges[consultaHits (olap)]
      mcols (hicpromoter) = cbind (mcols (hicpromoter), mcols (promoterranges[subjectHits (olap)))
      hicenhancer = GRanges (seqnames (hicpromoter), IRanges (hicpromoter$enhancer, hicpromoter$enhancer+10000), gene=hicpromoter$gene)
    2. Sobreponha SNPs credíveis com objeto Hi-C GRange.
      olap = findOverlaps (credranges, hicenhancer)
      credhic = credranges[consultaHits (olap)]
      mcols (credhic) = cbind (mcols (credhic), mcols (hicenhancer[subjectHits (olap)]))
  4. Compile genes candidatos a da dada definidos por mapeamento posicional e perfis de interação com cromatina.
    ### Os genes candidatos resultantes para a DA:
    ADgenes = Reduzir (união, lista (credhic$gene, credexon$gene, credpromoter$gene))
    ### para converter o Gene ID do Ensembl em símbolo HGNC
    carga ("geneAnno.rda")
    ADhgnc = geneAnno1[jogo (ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    ADhgnc = ADhgnc[ADhgnc!="]
    salvar (ADgenes, ADhgnc, file="ADgenes.rda")
    write.table (ADhgnc, file="ADgenes.txt", row.names=F, col.names=F, quote=F, sep="\t")

4. Trajetórias de expressão de desenvolvimento

NOTA: Para cada etapa, digite o código correspondente na janela do console no RStudio.

  1. Criado em R.
    biblioteca (remodelação); biblioteca (ggplot2); biblioteca (GenômicaRanges); biblioteca (biomaRt)
    biblioteca ("WGCNA")
    opções (stringsAsFactors=F)
  2. Expressão de processo e meta dados.
    datExpr = read.csv ("expression_matrix.csv", cabeçalho = FALSE)
    datExpr = datExpr[,-1] datExpr = datExpr[,-1]
    datMeta = read.csv ("columns_metadata.csv")
    datProbes = read.csv ("rows_metadata.csv")
    datExpr = datExpr[datProbes$ensembl_gene_id!=""]
    datProbes = datProbes[datProbes$ensembl_gene_id!="""]
    datExpr.cr = collapseRows (datExpr, rowGroup = datProbes$ensembl_gene_id, rowID= rownames (datExpr))
    datExpr = datExpr.cr$datETcollapsed datExpr = datExpr.cr$datETcollapsed datExpr = datExpr.cr$datETcollapsed dat
    gename = data.frame (datExpr.cr$group2row) gename = data.frame (datExpr.cr$group2row)
    rownames (datExpr) = gename$group rownames (datExpr) = gename$group
    1. Especifique estágios de desenvolvimento.
      datMeta$Unit = "Pós-Natal"
      idx = grep ("pcw", datMeta$age)
      datMeta$Unit[idx] = "Pré-Natal"
      idx = grep ("yrs", datMeta$age)
      datMeta$Unit[idx] = "Pós-Natal"
      datMeta$Unit = fator (datMeta$Unit, levels=c("Pré-natal", "Pós-Natal"))
    2. Selecione regiões corticais.
      datMeta$Região = "SubCTX"
      r = c("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "Ocx")
      datMeta$Region[datMeta$structure_acronym %in% r] = "CTX"
      datExpr = datExpr[,que (datMeta$Region=="CTX")]
      datMeta = datMeta[que (datMeta$Region=="CTX"),]
      salvar (datExpr, datMeta, file="devExpr.rda")
  3. Extrair perfis de expressão de desenvolvimento de genes de risco de DA.
    carga ("ADgenes.rda")
    exprdat = aplicar (datExpr[match(ADgenes, rownames (datExpr)],,2,mean,na.rm=T)
    dat = data.frame (Região=datMeta$Region, Unit=datMeta$Unit, Expr=exprdat)
  4. Compare os níveis de pré-natal versus expressão pós-natal de genes de risco de DA.
    pdf (file="developmental_expression.pdf")
    ggplot (dat,aes(x=Unit, y=Expr, fill=Unit, alpha=Unit)) + ylab ("Expressão normalizada") + geom_boxplot (outlier.size = NA) + ggtitle ("Brain Expression") + xlab ("") + scale_alpha_manual (valores=c=c(0,2, 1)) + theme_classic () + tema (legend.position="na" )
    dev.off()

5. Perfis de expressão do tipo célula

NOTA: Para cada etapa, digite o código correspondente na janela do console no RStudio.

  1. Criado em R.
    opções (stringsAsFactors=F)
    carga ("ADgenes.rda")
    carga ("geneAnno.rda")
    nome do alvo = "Anúncio"
    targetgene = ADhgnc targetgene = ADhgnc
    cellexp = read.table ("DER-20_Single_cell_expression_processed_TPM_backup.tsv", cabeçalho=T,fill=T)
    cellexp[1121,1] = cellexp[1120,1]
    cellexp = cellexp[-1120,]
    rownames (cellexp) = cellexp[,1]
    cellexp = cellexp[,-1]
    datExpr = escala (cellexp,center=T, scale=F)
    datExpr = datExpr[,789:ncol (datExpr)]
  2. Extrair perfis de expressão celular de genes de risco de DA.
    exprdat = aplicar (datExpr[match(targetgene, rownames (datExpr)],,2,mean,na.rm=T)
    dat = data.frame (Group=targetname, cell=names (exprdat), Expr=exprdat)
    dat$celltype = unlist (lapply (strsplit (dat$cell, split=".],"'[[',1))
    dat = dat[-grep("Ex| In",dat$celltype),]
    dat$celltype = gsub ("Dev", "Fetal", dat$celltype)
    dat$celltype = fator (dat$celltype, levels=c("Neurons", "Astrocytes", "Microglia", "Endotelial",
    Oligodendrócitos", "OPC", "Fetal"))
    pdf (file="singlecell_expression_ADgenes.pdf")
    ggplot (dat,aes(x=celltype, y=Expr, fill=celltype)) +
    ylab ("Expressão normalizada") + xlab ("") + geom_violin () + tema (axis.text.x=element_text (ângulo = 90, hjust=1)) + tema (legend.position="none") +
    ggtitle (paste0 ("Perfis de expressão celular de genes de risco de AD"))
    dev.off()

6. Análise de enriquecimento de anotação gênica de genes de risco de dad

  1. Baixe e configure homer digitando os comandos abaixo no terminal.
    mkdir homer mkdir homer
    cd homer cd homer
    wget http://homer.ucsd.edu/homer/configureHomer.pl
    perl ./configureHomer.pl -instalar
    perl ./configureHomer.pl -instalar humano-p
    perl ./configureHomer.pl -instalar humano-o
  2. Executar HOMER digitando os comandos abaixo no terminal.
    exportação PATH=$PATH:~/work/homer/bin
    findMotifs.pl ~/work/ADgenes.txt human ~/work/
  3. Trace os termos enriquecidos digitando o seguinte código na janela do console no RStudio.
    biblioteca (ggpubr)
    opções (stringsAsFactors=F)
    pdf ("GO_enrichment.pdf",width=15,height=8)
    plot_barplot = função (dbname, nome,cor){
    entrada = read.delim (paste0 (dbname,".txt"),header=T)
    entrada = entrada[,c(-1,-10,-11)]
    entrada = original (entrada)
    entrada$FDR = p.adjust (exp (entrada$logP))
    input_sig = entrada [entrada $FDR < 0,1,]
    input_sig$FDR = -log10 (input_sig$FDR)
    input_sig = input_sig [ordem (input_sig$FDR)]
    p = ggbarplot (input_sig, x = "Termo", y = "FDR", preencher = cor, cor = "branco", sort.val = "asc", ylab = expressão (-log[10](itálico (FDR)),xlab = paste0 (nome), girar = TRUE, rótulo = paste0 (input_sig$Target.Genes.in.Term,"/input_sig$Genes.in.Term), font.label = list (color = "white", size = 9), lab.vjust = 0.5, lab.hjust= 1)
    p = p+geom_hline (yintercept = -log10 (0,05), linetype = 2, cor = "cinza claro")
    retorno (p)
    }
    p1 = plot_barplot ("biological_process", "GO Processo Biológico", "#00AFBB")
    p2 = plot_barplot ("kegg", "KEGG", "#E7B800")
    p3 = plot_barplot ("reactome", "Reactome", "#FC4E07")
    ggarrange (p1, p2, p3, rótulos = c("A", "B", "C"), ncol = 2, nrow = 2)
    dev.off()

Representative Results

O processo descrito aqui foi aplicado a um conjunto de 800 SNPs credíveis que foram definidos pelo estudo original14. O mapeamento posicional revelou que 103 SNPs se sobrepunham aos promotores (43 genes únicos) e 42 SNPs se sobrepunham a exons (27 genes únicos). Após o mapeamento posicional, 84% (669) SNPs permaneceram sem annotado. Usando conjuntos de dados Hi-C no cérebro adulto, fomos capazes de ligar um adicional de 208 SNPs para 64 genes com base na proximidade física. No total, mapeamos 284 SNPs credíveis para 112 genes de risco de DaD (Figura 1A). Os genes de risco de DA foram associados a proteínas precursoras amilóides, formação amilóide-beta e resposta imune, refletindo a conhecida biologia de15d.C.,16,17,18 ( Figura1B-D). Perfis de expressão de desenvolvimento de genes de risco de DA apresentaram enriquecimento pós-parto acentuado, indicativo do risco elevado associado à idade da DA (Figura 2A). Finalmente, os genes de risco de DA foram altamente expressos na microglia, células imunes primárias no cérebro (Figura 2B). Isto está de acordo com os resultados recorrentes de que a DA tem uma forte base imunológica e microglia são o jogador central na patogênese da DA14,19,20.

Figure 1
Figura 1: Definição de genes-alvo putativos de loci GWS da AD. (A)SNPs credíveis derivados dos 29 melhores loci de DA foram categorizados em SNPs promotores, SNPs exônicos e SNPs não codificados não codificados. Promotor e SNPs exônicos foram diretamente atribuídos aos seus genes-alvo por mapeamento posicional, enquanto perfis de interação com cromatina no cérebro adulto foram adicionalmente usados para mapear SNPs com base em interações físicas. (B-D) O enriquecimento de TERMOS GO (B),KEGG (C),e Reactome (D)em genes de risco de Da Foi realizado usando HOMER conforme descrito na seção de protocolo 6. O eixo x representa a falsa taxa de descoberta (FDR) corrigida -log10 (P-valor). Termos enriquecidos com FDR < 0,1 foram traçados. As linhas verticais cinzentas representam FDR = 0,05. Proteína precursora amilóide APP. Numerador, o número de genes de risco de DA representados em cada termo; denominador, o número de genes em cada termo. Clique aqui para ver uma versão maior deste número.

Figure 2
Figura 2: Caracterização de genes de risco de DA. (A)Os genes de risco da DA são altamente expressos no córtex pós-natal em comparação com o córtex pré-natal. (B) Parcelas de violino que retratam distribuições de valores de expressão gênica (expressão normalizada) em diferentes tipos de células do córtex. Estes resultados mostram que os genes de risco de DA são altamente expressos na microglia, consistente com estudos anteriores14. Clique aqui para ver uma versão maior deste número.

Arquivo Suplementar 1. Clique aqui para ver este arquivo (Clique certo para baixar).

Arquivo Suplementar 2. Clique aqui para ver este arquivo (Clique certo para baixar).

Arquivo Suplementar 3. Clique aqui para ver este arquivo (Clique certo para baixar).

Discussion

Aqui descrevemos uma estrutura analítica que pode ser usada para anotar funcionalmente os loci GWS com base no mapeamento posicional e interações com cromatina. Este processo envolve várias etapas (para mais detalhes veja esta revisão13). Primeiro, dado que os perfis de interação com cromatina são altamente específicos do tipo célula, os dados hi-C obtidos a partir dos tipos adequados de células/tecidos que melhor capturam a biologia subjacente do transtorno precisam ser usados. Dado que a DA é uma doença neurodegenerativa, usamos dados hi-C do cérebro adulto9 para anotar os loci GWS. Em segundo lugar, cada locus GWS muitas vezes tem até centenas de SNPs que estão associados com o traço por causa do desequilíbrio de ligação (LD), por isso é importante obter putative causal ('credível') SNPs por computacionalmente prevendo o causalidade através do uso de algoritmos de mapeamento fino21,22 ou experimentalmente testar atividades regulatórias usando abordagens de alta produtividade, como ensaios de repórters maciçamente paralelos (MPRA)23 ou sequenciamento de região regulatória ativa autotranscrever ( STARR-seq)24. Para o trabalho descrito aqui, usamos SNPs credíveis relatados em Jansen et al.14. Em terceiro lugar, os SNPs promotores e exônicos são anotados com base no mapeamento posicional. Usamos uma estratégia de mapeamento posicional simples em que os SNPs foram mapeados para os genes quando se sobrepunham com os promotores (definidos como 2 kb a montante do site de início de transcrição) ou exons. No entanto, essa abordagem pode ser elaborada, avaliando as consequências funcionais dos SNPs exônicos, como se o SNP induz a decadência mediada sem sentido, variação missense ou variação sem sentido. Em quarto lugar, os perfis de interação com cromatina do tipo tecido/célula apropriado podem ser usados para atribuir SNPs aos seus genes-alvo putativos com base na proximidade física. Usamos perfis de interação ancorados aos promotores, mas podemos refinar ou expandir ainda mais os perfis de interação, levando em conta as atividades de aprimorador (guiadas por acetilação h3 k27 de histona ou acessibilidade à cromatina) ou interações exônicas. Uma consideração importante neste processo é usar a configuração humana consistente do genoma. Por exemplo, se as posições genômicas das estatísticas sumárias não forem baseadas em hg19 (ou seja, hg18 ou hg38), uma versão apropriada do genoma de referência deve ser obtida ou as estatísticas sumárias precisam ser convertidas para hg19 usando liftover25.

Aplicamos essa estrutura para identificar genes-alvo putativos para AD GWAS, atribuindo 284 SNPs a 112 genes de risco de DA. Usando perfis de expressão de desenvolvimento26 e perfis de expressão específicos do tipo celular9,demonstramos então que esse conjunto genético era consistente com o que se sabe sobre a patologia da DA, revelando os tipos celulares (microglia), funções biológicas (resposta imune e beta amilóide) e risco elevado após a idade.

Embora tenhamos apresentado uma estrutura que delineia potenciais genes-alvo da DA e sua biologia subjacente, é de notar que a anotação baseada em Hi-C pode ser expandida para anotar qualquer variação não codificante. À medida que mais dados de sequenciamento de genoma inteiro se tornam disponíveis e nosso entendimento sobre a variação rara não codificante cresce, o Hi-C fornecerá um recurso fundamental para a interpretação de variantes genéticas associadas à doença. Um compêndio de recursos Hi-C obtidos de vários tipos de tecidos e células será, portanto, fundamental para facilitar uma ampla aplicação deste quadro para angariar insights biológicos sobre várias características humanas e doenças.

Disclosures

Os autores não têm nada a divulgar.

Acknowledgments

Este trabalho foi apoiado pela concessão do NIH R00MH113823 (para H.W.) e R35GM128645 (para D.H.P.), NARSAD Young Investigator Award (para H.W.) e concessão SPARK da Simons Foundation Autism Research Initiative (SFARI, para N.M. e H.W.).

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7, (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489, (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55, (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14, (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538, (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13, (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362, (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51, (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51, (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51, (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129, (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125, (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14, (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136, (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217, (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518, (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32, (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198, (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165, (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339, (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12, (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478, (7370), 483-489 (2011).

Comments

2 Comments

  1. Hello Nana Matoba et al, can you please tell me what is the geneAnno1 object? I can't figure it out. I will be waiting for your kind response, below is the error message. Thank you
    > load("geneAnno.rda")
    > ADhgnc = geneAnno1[match(ADgenes, geneAnno1$ensembl_gene_id), "hgnc_symbol"]
    Error: object 'geneAnno1' not found

    Reply
    Posted by: Aamir F.
    February 3, 2020 - 6:03 PM
  2. Thank you for pointing this out!
    We noticed that the original Supplementary file 3 (geneAnno.rda) did not have the right object, so we replaced it with a new file (geneAnno2.rda; https://www.jove.com/files/ftp_upload/60428/geneAnno2.rda).
    This file should contain geneAnno1.

    Reply
    Posted by: Nana M.
    February 7, 2020 - 9:44 AM

Post a Question / Comment / Request

You must be signed in to post a comment. Please or create an account.

Usage Statistics