Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Mappare le varianti della malattia di Alzheimer ai loro geni bersaglio utilizzando l'analisi computazionale della configurazione della cromatina

Published: January 9, 2020 doi: 10.3791/60428
* These authors contributed equally

Summary

Presentiamo un protocollo per identificare le implicazioni funzionali delle varianti non codificanti identificate dagli studi di associazione a livello di genoma (GWAS) utilizzando interazioni tridimensionali della cromatina.

Abstract

Gli studi di associazione a livello di genoma (GWAS) hanno identificato con successo centinaia di loci genomici associati a i tratti umani e alle malattie. Tuttavia, poiché la maggior parte dei loci significativi a livello di genoma (GWS) ricadono sul genoma non codificante, l'impatto funzionale di molti rimane sconosciuto. Le interazioni tridimensionali della cromatina identificate da Hi-C o dai suoi derivati possono fornire strumenti utili per annotare questi loci collegando varianti non codificanti ai loro geni utilizzabili. Qui, delineamo un protocollo per mappare le varianti GWAS non codificanti ai loro geni putativi usando i set di dati GWAS e Hi-C del morbo di Alzheimer (AD) GWAS e Hi-C dal tessuto cerebrale umano adulto. I polimorfismi a singolo nucleotide causale putativo (SNP) sono identificati mediante l'applicazione di algoritmi di mappatura fine. Gli SNP vengono quindi mappati ai loro geni bersaglio putativi utilizzando interazioni potenziatore-promotore basate su Hi-C. Il set genico risultante rappresenta i geni a rischio di AD, in quanto sono potenzialmente regolati da varianti di rischio AD. Per ottenere ulteriori approfondimenti biologici sui meccanismi molecolari alla base dell'AD, caratterizzamo i geni del rischio di AD utilizzando i dati di espressione cerebrale dello sviluppo e i profili di espressione a cella singola del cervello. Questo protocollo può essere esteso a qualsiasi set di dati GWAS e Hi-C per identificare i geni bersaglio putativi e i meccanismi molecolari alla base di vari tratti e malattie umane.

Introduction

Gli studi di associazione a livello di genoma (GWAS) hanno svolto un ruolo fondamentale nel rivelare la base genetica di una serie di tratti e malattie umane. Questa genotipizzazione su larga scala ha scoperto migliaia di varianti genomiche associate ai fenotipi che vanno dall'altezza al rischio di schizofrenia. Tuttavia, nonostante l'enorme successo di GWAS nell'identificare i loci associati alla malattia e ai tratti associati, una comprensione meccanicistica di come queste varianti contribuiscano al fenotipo è stata difficile perché la maggior parte delle varianti associate al fenotipo risiedono nella non codificazione frazione del genoma umano. Poiché queste varianti spesso si sovrappongono agli elementi regolatori previsti, è probabile che alterino il controllo trascrizionale di un gene vicino. Tuttavia, i loci non codificanti possono influenzare la trascrizione dei geni a distanze lineari superiori a una megabase, rendendo i geni colpiti da ogni variante difficili da identificare. La struttura della cromatina tridimensionale (3D) svolge un ruolo importante nella mediazione delle connessioni tra loci regolatori distanti e promotori genici e può essere utilizzata per identificare i geni colpiti dai polimorfismi mononucleotidi associati al fenotipo (SNP).

La regolazione genica è mediata da un processo complesso, che comporta l'attivazione dell'potenziatore e la formazione del loop della cromatina che collegano fisicamente gli esaltatori ai promotori genici a cui il macchinario trascrizionale può essere diretto1,2,3. Poiché i loop di cromatina spesso si estendono su diverse centinaia di kilobase (kb), sono necessarie mappe dettagliate dell'architettura della cromatina 3D per decifrare i meccanismi regolatori genici. Sono state inventate molteplici tecnologie di cattura della conformazione della cromatina per identificare l'architettura della cromatina 3D4. Tra queste tecnologie, Hi-C fornisce l'architettura più completa, in quanto cattura profili di interazione della cromatina 3D a livello di genoma. I set di dati Hi-C sono stati rapidamente adattati per interpretare le varianti non codificanti significative (GWS) significative (GWS)loci 5,6,7,8,9,10,11,12,13, in quanto possono collegare varianti non codificanti ai loro geni bersaglio putativi basati su profili di interazione cromatina.

In questo articolo viene descritto un protocollo per prevedere computazionalmente i geni bersaglio putativi delle varianti di rischio GWAS utilizzando profili di interazione della cromatina. Applichiamo questo protocollo per mappare AD GWS loci14 ai loro geni target utilizzando set di dati Hi-C nel cervello umano adulto9. I geni del rischio di AD risultanti sono caratterizzati da altri set di dati genomici funzionali che includono profili trascrittomici a singola cellula e di espressione dello sviluppo.

Protocol

1. Configurazione workstation

  1. Installare R (versione 3.5.0) e RStudio Desktop. Aprire RStudio.
  2. Installare le librerie seguenti in R digitando il codice seguente nella finestra della console in RStudio.Install the following libraries in R by typing the following code into the console window in RStudio.
    se (!" BiocManager" %in% nomi di riga(installato.pacchetti()))
    install.packages("BiocManager", repos-"https://cran.r-project.org")
    BiocManager::install("GenomicRanges")
    BiocManager::install("biomaRt")
    BiocManager::install("WGCNA")
    install.packages(reshape")
    install.packages("ggplot2")
    install.packages("corrplot")
    install.packages("gProfileR")
    install.packages("tidyverse")
    install.packages("ggpubr")
  3. Scaricare i file.
    NOTA: in questo protocollo, tutti i file devono essere scaricati nella directory di lavoro.
    1. Scaricare i seguenti file facendo clic sui collegamenti forniti nella Tabella dei materiali.
      1. Scaricare SNP credibili con mappe fine per AD (Tabella supplementare 8 di Jansen et al.14).
        NOTA: prima dell'analisi, aprire il foglio otto in 41588_2018_311_MOESM3_ESM.xlsx, rimuovere le prime tre righe e salvare il foglio come Supplementary_Table_8_Jansen.txt con formato separato da tabulazioni.
      2. Scarica i profili di interazione Hi-C con risoluzione di 10 kb nel cervello adulto da psychencode (descritto come Promoter-anchored_chromatin_loops.bed qui sotto).
        NOTA: questo file ha il seguente formato: cromosoma, TSS_start, TSS_end, Enhancer_start e Enhancer_end. Se si utilizzano altri set di dati Hi-C, questo protocollo richiede set di dati Hi-C elaborati ad alta risoluzione (5,20 kb).
      3. Scaricare set di dati di espressione a cella singola da PsychENCODE.
        NOTA: Questi sono da campioni di controllo neurotipici.
      4. Scaricare i set di dati delle espressioni di sviluppo da BrainSpan (descritto come devExpr.rda di seguito).
        NOTA: 267666527 è un file compresso, quindi decomprimere il 267666527 per estrarre "columns_metadata.csv", "expression_matrix.csv" e "rows_metadata.csv" per generare devExpr.rda (vedere la sezione 3).
    2. Scaricare le coordinate esotiche (vedere File supplementari, descritti come Gencode19_exon.bed e Gencode19_promoter.bed di seguito) da Gencode versione 19.
      NOTA: i promotori sono definiti come 2 kb a monte del sito di avvio della trascrizione (TSS). Questi file hanno il seguente formato: cromosoma, inizio, fine e gene.
    3. Scaricare il file di annotazione genica (vedere File supplementari, descritto come geneAnno.rda di seguito) da biomart.
      NOTA: Questo file può essere utilizzato per abbinare geni basati su ID geni Cimbo e simbolo DEL comitato di nomenclatura gene HUGO (HGNC).

2. Generazione di un oggetto GRanges per SNP credibili

  1. Configurare in R digitando il codice seguente nella finestra della console in RStudio.Set up in R by typing the following code into the console window in RStudio.
    library(GenomicRanges)
    options(stringsAsFactors - F)
    setwd("/work") - Questo è il percorso della directory di lavoro.
    credSNP - read.delim("Supplementary_Table_8_Jansen.txt", intestazione-T)
    credSNP - credSNP[credSNP'Credible.Causal'"Sì",]
  2. Creare un oggetto GRanges digitando il codice seguente nella finestra della console in RStudio.Make a GRanges object by typing the following code into the console window in RStudio.
    credranges : GRanges(credSNP, Chr, IRanges(credSNP, bp, credSNP, bp), rsid,credSNP, SNP, P'credSNP,P)
    save(credranges, file"AD_credibleSNP.rda")

3. Mappatura di posizione

NOTA: per ogni passaggio, digitare il codice corrispondente nella finestra della console in RStudio.

  1. Configurazione in R.
    opzioni(stringsAsFactors-F)
    library(GenomicRanges)
    load("AD_credibleSNP.rda") (vedere 2)
  2. Mappatura posizionale dei Promotori/SNP esonici ai geni
    1. Caricare l'oggetto promotore e l'area esonica e generare un oggetto GRange.
      eson - read.table("Gencode19_exon.bed")
      exonranges - GRanges(eson[,1],IRanges(eson[,2],eson[,3]),gene-eon[,4])
      promotore - read.table("Gencode19_promoter.bed")
      promoterranges - GRanges(promoter[,1], IRanges(promoter[,2], promoter[,3]), gene-promoter[,4])
    2. Sovrapposizione di SNP credibili con regioni esotiche.
      olap - findOverlaps(credranges, exonranges)
      credexon - credranges[queryHits(olap)]
      mcols(credexon) : cbind(mcols(credexon), mcols(exonranges[subjectHits(olap)]))
    3. Sovrapposizione di SNP credibili con regioni promotrici.
      olap - findOverlaps(credranges, promoterranges)
      credpromoter - credranges[queryHits(olap)]
      mcols(credpromoter) : cbind(mcols(credpromoter), mcols(promoterranges[subjectHits(olap)]))
  3. Collegare gli SNP ai loro geni bersaglio putativi usando interazioni con la cromatina.
    1. Caricare il set di dati Hi-C e generare un oggetto GRange.Load Hi-C dataset and generate a GRange object.
      hic - read.table("Promoter-anchored_chromatin_loops.bed ", salta 1)
      connames(hic) : c("chr", "TSS_start", "TSS_end", "Enhancer_start", "Enhancer_end")
      hicranges : GRanges(hic,chr, IRanges(hic-TSS_start, hic'TSS_end), enhancer'hic'Enhancer_start)
      olap - findOverlaps(hicranges, promoterranges)
      hicpromoter - hicranges[queryHits(olap)]
      mcols(hicpromoter) : cbind(mcols(hicpromoter), mcols(promoterranges[subjectHits(olap)]))
      hicenhancer : GRanges(seqnames(hicpromoter), IRanges(hicpromoter,enhancer, hicpromoter,enhancer-enhancer,10000), gene-hicpromoter-gene)
    2. Sovrapposizione di SNP credibili con oggetto Hi-C GRange.
      olap - findOverlaps(credranges, hicenhancer)
      credhic - credranges[queryHits(olap)]
      mcols(credhic) : cbind(mcols(credhic), mcols(hicenhancer[subjectHits(olap)]))
  4. Compilare i geni candidati AD definiti dalla mappatura posizionale e dai profili di interazione della cromatina.
    I geni candidati risultanti per l'AD:
    ADgenes - Ridurre (unione, elenco(credhic-gene, credexon-gene, credpromoter-gene))
    Per convertire l'ID del gene Ensembl in simbolo HGNC
    load("geneAnno.rda")
    ADhgnc - geneAnno1[match(ADgenes, geneAnno1-ensembl_gene_id), "hgnc_symbol"]
    ADhgnc - ADhgnc[ADhgnc!
    save(ADgenes, ADhgnc, file" "ADgenes.rda")
    write.table(ADhgnc, file"ADgenes.txt", row.names, F, col.names, F, quote, F, sep "

4. Traiettorie di espressione dello sviluppo

NOTA: per ogni passaggio, digitare il codice corrispondente nella finestra della console in RStudio.

  1. Configurazione in R.
    libreria(rimodella); libreria(ggplot2); library(GenomicRanges); biblioteca (biomaRt)
    library("WGCNA")
    opzioni(stringsAsFactors-F)
  2. Espressione di processo e metadati.
    datExpr - read.csv("expression_matrix.csv", intestazione : FALSE)
    datExpr : datExpr[,-1]
    datMeta - read.csv("columns_metadata.csv")
    datProbes - read.csv("rows_metadata.csv")
    datExpr : datExpr[datProbesensembl_gene_id!
    datProbes - datProbes[datProbes'ensembl_gene_id!"",]
    datExpr.cr, comprimirighe(datExpr, rowGroup , datProbes, ensembl_gene_id, ROWID, nomi di riga(datExpr))
    datExpr (datExpr)/datETcollapsed (datExpr)
    gename : data.frame(datExpr.cr-group2row)
    rownames(datExpr) - gename
    1. Specificare le fasi di sviluppo.
      datMeta - "Postnatale"
      idx : grep("pcw", datMeta-age)
      datMeta:Unità[idx] - "Prenatale"
      idx : grep("yrs", datMeta-age)
      datMeta:Unità[idx] - "Postnatale"
      datMeta- Unità - fattore(datMeta:Unità, livelli: c("Prenatale", "Postnatale"))
    2. Selezionare le regioni corticali.
      datMeta - Regione - "SubCTX"
      r c("A1C", "STC", "ITC", "TCx", "OFC", "DFC", "VFC", "MFC", "M1C", "S1C", "IPC", "M1C-S1C", "PCx", "V1C", "Ocx")
      datMeta, regione[datMeta, structure_acronym %in% r] - "CTX"
      datExpr - datExpr[,che(datMeta " Region " CTX ")]
      datMeta - datMeta[che(datMeta " , Regione , "CTX"),]
      save(datExpr, datMeta, file"devExpr.rda")
  3. Estrarre i profili di espressione dello sviluppo dei geni del rischio AD.
    load("ADgenes.rda")
    exprdat - apply(datExpr[match(ADgenes, rownames(datExpr)),],2,mean,na.rm
    dat - data.frame(Regione'datMeta'Regione, Unità'datMeta'Unità, Expr'exprdat)
  4. Confrontare i livelli di espressione prenatale e postnatale dei geni del rischio DI AD.
    PDF(file"developmental_expression.pdf")
    ggplot(dat,aes(x , unità, y , expr, fill , unità, alfa, unità)) - ylab("espressione normalizzata") - geom_boxplot(outlier.size ) , ggtitle("Espressione Brain") , xlab("") , scale_alpha_manual (valori ) c(0.2, 1)theme_classic) )
    dev.off()

5. Profili di espressione di tipo cella

NOTA: per ogni passaggio, digitare il codice corrispondente nella finestra della console in RStudio.

  1. Configurazione in R.
    opzioni(stringsAsFactors-F)
    load("ADgenes.rda")
    load("geneAnno.rda")
    targetname - "AD"
    targetgene - ADhgnc
    cellexp - read.table("DER-20_Single_cell_expression_processed_TPM_backup.tsv",header
    cellexp[1121,1] - cellexp[1120,1]
    cellexp - cellexp[-1120,]
    rownames(cellexp) - cellexp[,1]
    cellexp - cellexp[,-1]
    datExpr : scala(cellexp, centro)
    datExpr : datExpr[,789:ncol(datExpr)]
  2. Estrarre i profili di espressione cellulare dei geni a rischio di AD.
    exprdat - apply(datExpr[match(targetgene, rownames(datExpr)),],2,mean,na.rm
    dat - data.frame(Gruppo/nomedestinazione, cella/nomi(comprdat), Expr/exprdat)
    dat-tipodicella : unlist(lapply(strsplit(dat, split,"[.]"),'[',1))
    dat - dat[-grep("Ex In", tipodi cella)]]
    dat-tipodicella : gsub("Dev","Fetale",dat-tipocellulare)
    dat-tipodicellule : fattore (dat-tipo di cellule, livelli, c("Neuroni","Astrociti","Microglia","Endothelial",
    Oligodendrociti","OPC","Fetale"))
    PDF(file"singlecell_expression_ADgenes.pdf")
    ggplot(dat, aes(x -tipo di cella, y,Expr, riempimento, tipo di cella))
    ylab("espressione normalizzata") - xlab("") - geom_violin() - tema (axis.text.x element_text (angolo ) 90, hjust-1)) - tema(legend.position-"none")
    ggtitle(incolla0("Profili di espressione cellulare dei geni del rischio AD"))
    dev.off()

6. Analisi dell'arricchimento delle annotazioni genetiche dei geni del rischio AD

  1. Scaricare e configurare HOMER digitando i comandi riportati di seguito nel terminale.
    mkdir homer
    cd homer
    wget http://homer.ucsd.edu/homer/configureHomer.pl
    perl ./configureHomer.pl -install
    perl ./configureHomer.pl -installare human-p
    perl ./configureHomer.pl -install human-o
  2. Eseguire HOMER digitando i comandi riportati di seguito nel terminale.
    percorso di esportazione PATH:$PATH:
    findMotifs.pl di lavoro/ADgenes.txt umano /lavoro/
  3. Stampare i termini arricchiti digitando il codice seguente nella finestra della console in RStudio.
    library(ggpubr)
    opzioni(stringsAsFactors-F)
    pdf("GO_enrichment.pdf",larghezza 15, altezza 8)
    plot_barplot funzione(dbname,nome,colore)
    input : read.delim(paste0(dbname,".txt"),header-T)
    ingresso : input[,c(-1,-10,-11)]
    ingresso - univoco (ingresso)
    input-FDR - p.adjust(exp(input-logP))
    input_sig di seguito: input[input-FDR < 0,1,]
    input_sig: FDR e -log10(input_sig
    input_sig input_sig[order(input_sig/FDR)]
    p - ggbarplot(input_sig, x : "Term", y - "FDR", riempimento , colore, "bianco", sort.val - "asc", ylab : espressione (-log[10](italic(FDR)), xlab , paste0(name," Terms"), ruotare : TRUE, etichetta , , input_sig .Target.Genes.in.Term,"/",input_sig , genes.in.Term), font.label , list(color
    p : p geom_hline(yintercetta - -log10(0,05), tipo di linea - 2, colore - "lightgray")
    ritorno(p)
    }
    p1 - plot_barplot("biological_process","GO Biological Process","#00AFBB")
    p2 - plot_barplot("kegg","KEGG","#E7B800")
    p3 - plot_barplot("reactome","Reactome","#FC4E07")
    ggarrange(p1, p2, p3, etichette c("A", "B", "C"), ncol
    dev.off()

Representative Results

Il processo qui descritto è stato applicato a una serie di 800 SNP credibili definiti dallo studio originale14. La mappatura posizionale ha rivelato che 103 SNP si sovrapponevano ai promotori (43 geni unici) e 42 SNP sovrapposti a esoni (27 geni unici). Dopo la mappatura posizionale, l'84% (669) degli SNP è rimasto senza annotato. Utilizzando set di dati Hi-C nel cervello adulto, siamo stati in grado di collegare altri 208 SNP a 64 geni in base alla prossimità fisica. In totale, abbiamo mappato 284 SNP credibili AD a 112 geni a rischio AD (Figura 1A). I geni a rischio DI AD sono stati associati a proteine precursori dell'amiloide, formazione amiloide-beta e risposta immunitaria, riflettendo la biologia nota diAD 15,16,17,18 (Figura 1B-D). I profili di espressione dello sviluppo dei geni del rischio DI AD hanno mostrato un marcato arricchimento postnatale, indicativo del rischio elevato associato all'età di AD (Figura 2A). Infine, i geni a rischio di AD sono stati altamente espressi nelle microglia, cellule immunitarie primarie nel cervello (Figura 2B). Questo è in accordo con i risultati ricorrenti che l'AD ha una forte base immunitaria e microglia sono il giocatore centrale nella patogenesi AD14,19,20.

Figure 1
Figura 1: Definizione dei geni bersaglio putativi del Loci AD GWS. (A) Gli SNP credibili derivati dai primi 29 AD sono stati classificati in SNP promotori, SNP esonici e SNP non codificati. (B-D) L'arricchimento dei termini GO (B), KEGG (C) e Reactome (D) nei geni a rischio AD è stato eseguito utilizzando HOMER come descritto nella sezione di protocollo 6. L'asse x rappresenta il falso tasso di individuazione (FDR) corretto -log10 (P-value). Sono stati tracciati termini arricchiti con FDR < 0.1. Le linee verticali grigie rappresentano l'FDR : 0,05. Proteina precursore APP amiloide. Numeratore, il numero di geni a rischio DI AD rappresentati in ciascun termine; denominatore, il numero di geni in ogni termine. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Caratterizzazione dei geni a rischio DI AD. (A) I geni del rischio di AD sono altamente espressi nella corteccia postnatale rispetto alla corteccia prenatale. (B) Le trame di violino raffiguranti distribuzioni di valori di espressione genica (espressione normalizzata) in diversi tipi di cellule dalla corteccia. Questi risultati mostrano che i geni del rischio di AD sono altamente espressi in microglia, in coerenza con studi precedenti14. Fare clic qui per visualizzare una versione più grande di questa figura.

File supplementare 1. Fare clic qui per visualizzare questo file (fare clic con il pulsante destro del mouse per scaricare).

File supplementare 2. Fare clic qui per visualizzare questo file (fare clic con il pulsante destro del mouse per scaricare).

File supplementare 3. Fare clic qui per visualizzare questo file (fare clic con il pulsante destro del mouse per scaricare).

Discussion

Qui descriviamo un framework analitico che può essere utilizzato per annotare funzionalmente i loci GWS in base alla mappatura posizionale e alle interazioni della cromatina. Questo processo prevede più passaggi (per ulteriori dettagli vedere questa recensione13). In primo luogo, dato che i profili di interazione della cromatina sono altamente specifici del tipo di cellula, devono essere utilizzati dati Hi-C ottenuti dai tipi di cellule/tessuti appropriati che meglio catturano la biologia sottostante del disturbo. Dato che l'AD è un disturbo neurodegenerativo, abbiamo usato i dati Hi-C del cervello adulto9 per annotare i loci GWS. In secondo luogo, ogni locus GWS ha spesso fino a centinaia di SNP associati al tratto a causa dello squilibrio di collegamento (LD), quindi è importante ottenere SNP causalmente ('credibile') predicendo computazionalmente il causalità attraverso l'uso di algoritmi di mappatura fine21,22 o test sperimentalmente di attività normative utilizzando approcci ad alta velocità di mediazione come massicciamente parallelo reporter assays (MPRA)23 o auto-trascrittura di sequenziamento di aree di regolazione attive ( STARR-seq)24. Per il lavoro qui descritto, abbiamo utilizzato SNP credibili riportati in Jansen et al.14. In terzo luogo, i SNP promotori ed esonici sono annotati in base alla mappatura posizionale. Abbiamo usato una semplice strategia di mappatura posizionale in cui gli SNP venivano mappati ai geni quando si sovrapponevano ai promotori (definiti come 2 kb a monte del sito di inizio trascrizione) o estratti. Tuttavia, questo approccio può essere ulteriormente elaborato valutando le conseguenze funzionali degli SNP esonici, ad esempio se l'SNP induce decadimento mediato senza senso, variazione di senso o variazione senza senso. Quarto, i profili di interazione della cromatina del tipo di tessuto/cellula appropriato possono essere utilizzati per assegnare gli SNP ai loro geni bersaglio putativi in base alla vicinanza fisica. Abbiamo usato profili di interazione ancorati ai promotori, ma possiamo perfezionare o espandere ulteriormente i profili di interazione prendendo in considerazione le attività di potenziamento (guidate dall'acetilazione dell'istone H3 K27 o dall'accessibilità alla cromatina) o dalle interazioni esotiche. Una considerazione importante in questo processo è quella di utilizzare la costruzione coerente del genoma umano. Ad esempio, se le posizioni genomiche delle statistiche di riepilogo non si basano su hg19 (cioè hg18 o hg38), è necessario ottenere una versione appropriata del genoma di riferimento o convertire le statistiche di sintesi in hg19 utilizzando liftover25.

Abbiamo applicato questo quadro per identificare i geni bersaglio putativi per AD GWAS, assegnando 284 SNP a 112 geni a rischio AD. Utilizzando profili di espressione dello sviluppo26 e profili di espressione specifici di tipo cellulare9, abbiamo quindi dimostrato che questo insieme di geni era coerente con quanto si sa sulla patologia ad Esempio, rivelando i tipi di cellule (microglia), le funzioni biologiche (risposta immunitaria e beta amiloide) e il rischio elevato all'età.

Mentre abbiamo presentato un quadro che delinea i potenziali geni target dell'AD e la sua biologia sottostante, è di nota che l'annotazione basata su Hi-C può essere espansa per annotare qualsiasi variazione non codificante. Man mano che diventano disponibili più dati di sequenziamento dell'intero genoma e cresce la nostra comprensione della variazione rara non codificante, Hi-C fornirà una risorsa chiave per l'interpretazione delle varianti genetiche associate alla malattia. Un compendio di risorse Hi-C ottenute da più tipi di tessuti e cellule sarà quindi fondamentale per facilitare un'ampia applicazione di questo quadro per raccogliere informazioni biologiche su vari tratti umani e malattie.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato sostenuto dalla sovvenzione NIH R00MH113823 (a H.W.) e R35GM128645 (a D.H.P.), dal NARSAD Young Investigator Award (a H.W.) e dalla sovvenzione SPARK della Simons Autism Foundation Research Initiative (SFARI, a N.M. e H.W.).

Materials

Name Company Catalog Number Comments
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode http://adult.psychencode.org/
Developmental expression datasets http://www.brainspan.org/
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) https://static-content.springer.com/
HOMER http://homer.ucsd.edu/
R (version 3.5.0) https://www.r-project.org/
RStudio Desktop https://www.rstudio.com/
Single cell expression datasets http://adult.psychencode.org/

DOWNLOAD MATERIALS LIST

References

  1. Dekker, J., Misteli, T. Long-Range Chromatin Interactions. Cold Spring Harbor Perspectives in Biology. 7 (10), a019356 (2015).
  2. Sanyal, A., Lajoie, B. R., Jain, G., Dekker, J. The long-range interaction landscape of gene promoters. Nature. 489 (7414), 109-113 (2012).
  3. Plank, J. L., Dean, A. Enhancer function: mechanistic and genome-wide insights come together. Molecular Cell. 55 (1), 5-14 (2014).
  4. Dekker, J., Marti-Renom, M. A., Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics. 14 (6), 390-403 (2013).
  5. Martin, P., et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature Communications. 6, 10069 (2015).
  6. Won, H., et al. Chromosome conformation elucidates regulatory relationships in developing human brain. Nature. 538 (7626), 523-527 (2016).
  7. Jäger, R., et al. Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nature Communications. 6, 6178 (2015).
  8. Chen, J. A. A., et al. Joint genome-wide association study of progressive supranuclear palsy identifies novel susceptibility loci and genetic correlation to neurodegenerative diseases. Molecular Neurodegeneration. 13 (1), 41 (2018).
  9. Wang, D., et al. Comprehensive functional genomic resource and integrative model for the adult brain. Science. 362 (6420), eaat8464 (2018).
  10. Demontis, D., et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature Genetics. 51 (1), 63-75 (2019).
  11. Grove, J., et al. Identification of common genetic risk variants for autism spectrum disorder. Nature Genetics. 51 (3), 431-444 (2019).
  12. Lee, P. H., et al. Genome wide meta-analysis identifies genomic relationships, novel loci, and pleiotropic mechanisms across eight psychiatric disorders. bioRxiv. , 528117 (2019).
  13. Mah, W., Won, H. The three-dimensional landscape of the genome in human brain tissue unveils regulatory mechanisms leading to schizophrenia risk. Schizophrenia Research. , In press (2019).
  14. Jansen, I. E., et al. Genome-wide meta-analysis identifies new loci and functional pathways influencing Alzheimer's disease risk. Nature Genetics. 51 (3), 404-413 (2019).
  15. Viola, K. L., Klein, W. L. Amyloid β oligomers in Alzheimer's disease pathogenesis, treatment, and diagnosis. Acta Neuropathologica. 129 (2), 183-206 (2015).
  16. Mroczko, B., Groblewska, M., Litman-Zawadzka, A., Kornhuber, J., Lewczuk, P. Amyloid β oligomers (AβOs) in Alzheimer's disease. Journal of Neural Transmission. 125 (2), 177-191 (2018).
  17. Heneka, M. T., et al. Neuroinflammation in Alzheimer's disease. Lancet Neurology. 14 (4), 388-405 (2015).
  18. Minter, M. R., Taylor, J. M., Crack, P. J. The contribution of neuroinflammation to amyloid toxicity in Alzheimer's disease. Journal of Neurochemistry. 136 (3), 457-474 (2016).
  19. Hansen, D. V., Hanson, J. E., Sheng, M. Microglia in Alzheimer's disease. The Journal of Cell Biology. 217 (2), 459-472 (2018).
  20. Gjoneska, E., et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer's disease. Nature. 518 (7539), 365-369 (2015).
  21. Benner, C., et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies. Bioinformatics. 32 (10), 1493-1501 (2016).
  22. Hormozdiari, F., Kostem, E., Kang, E. Y., Pasaniuc, B., Eskin, E. Identifying causal variants at loci with multiple signals of association. Genetics. 198 (2), 497-508 (2014).
  23. Tewhey, R., et al. Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell. 165 (6), 1519-1529 (2016).
  24. Arnold, C. D., et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science. 339 (6123), 1074-1077 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  26. Kang, H. J., et al. Spatio-temporal transcriptome of the human brain. Nature. 478 (7370), 483-489 (2011).

Tags

Genetica Numero 155 Hi-C GWAS varianti non codificanti mappatura genica genomica funzionale morbo di Alzheimer
Mappare le varianti della malattia di Alzheimer ai loro geni bersaglio utilizzando l'analisi computazionale della configurazione della cromatina
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Matoba, N., Quiroga, I. Y.,More

Matoba, N., Quiroga, I. Y., Phanstiel, D. H., Won, H. Mapping Alzheimer's Disease Variants to Their Target Genes Using Computational Analysis of Chromatin Configuration. J. Vis. Exp. (155), e60428, doi:10.3791/60428 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter