我々は、三次元クロマチン相互作用を用いてゲノム全体の関連研究(GWAS)によって同定される非コード変異体の機能的影響を同定するプロトコルを提示する。
ゲノム全体の関連研究(GWAS)は、ヒトの形質や疾患に関連する何百ものゲノム遺伝子座を同定しました。しかしながら、ゲノムワイド有意(GWS)遺伝子座の大部分は非コードゲノム上に落ちるので、多くの機能的影響は未知のままである。Hi-Cまたはその誘導体によって同定される3次元クロマチン相互作用は、非コード変異体をそれらの作用可能な遺伝子に連結することによってこれらの遺伝子座に注釈を付ける有用なツールを提供することができる。ここでは、アルツハイマー病(AD)GWASおよびヒト成人脳組織からのHi-Cデータセットを用いて、GWAS非コード変異体をその遺伝子にマッピングするプロトコルの概要を説明する。位置因果単一ヌクレオチド多型(SP)は、微細マッピングアルゴリズムの適用によって同定される。次に、Hi-Cに基づくエンハンサー・プロモーター相互作用を用いて、SPをその可組み標的遺伝子にマッピングします。得られた遺伝子セットはADリスク遺伝子を表し、ADリスク変異体によって調節される可能性がある。ADの基礎となる分子機構に関する生物学的洞察をさらに得るために、発達脳発現データと脳単細胞発現プロファイルを用いてADリスク遺伝子を特徴付ける。このプロトコルは、任意のGWASおよびHi-Cデータセットに拡張して、様々なヒトの形質や疾患の根底にある可愛い標的遺伝子や分子機構を特定することができます。
ゲノム全体の関連研究(GWAS)は、人間の形質や疾患の範囲の遺伝的基礎を明らかにする上で極めて重要な役割を果たしてきました。この大規模なジェノタイピングは、高さから統合失調症のリスクに至るまで、表現型に関連する何千ものゲノム変異体を発見しました。しかし、GWASが疾患および形質関連遺伝子座を同定することに大きな成功を収めたにもかかわらず、これらの変異体が表現型にどのように寄与するかについての機械的理解は、ほとんどの表現型関連変異体が非コーディングに存在するため、困難であった。ヒトゲノムの一部。これらの変異体は予測される調節要素と重なり合うことが多いため、近くの遺伝子の転写制御を変化させる可能性が高い。しかし、非コードロチは、1メガベースを超える直線距離での遺伝子の転写に影響を与え、各変異体の影響を受ける遺伝子を同定することが困難になります。三次元(3D)クロマチン構造は、遠くの調節遺伝子遺伝子遺伝子基数との間の接続を媒次的に媒役とし、フェノタイプ関連の一塩基多型(SN)の影響を受ける遺伝子を同定するために使用することができる。
遺伝子調節は、転写機構が1、2、3に向けることができる遺伝子プロモーターにエンハンサーを物理的に接続するエンハンサー活性化およびクロマチンループ形成を含む複雑なプロセスによって媒介される。クロマチンループは数百キロベース(kb)に及ぶことが多いため、遺伝子調節機構を解読するには3Dクロマチンアーキテクチャの詳細な地図が必要です。複数のクロマチン立体構造捕捉技術が発明され、3Dクロマチンアーキテクチャ4を同定した。これらの技術の中で、Hi-Cはゲノム全体の3Dクロマチン相互作用プロファイルをキャプチャするので、最も包括的なアーキテクチャを提供します。Hi-Cデータセットは、クロマチン相互作用プロファイルに基づいて非コード化変異体をその可因標的遺伝子にリンクできるため、非コードゲノムワイド有意(GWS)loci5、6、7、8、9、10、11、12、13を解釈するように迅速に適応されています。
この記事では、クロマチン相互作用プロファイルを用いてGWASリスク変異体の可計算的標的遺伝子を計算的に予測するプロトコルの概要を説明する。このプロトコルを適用して、成人脳9のHi-Cデータセットを用いてAD GWS loci14を標的遺伝子にマッピングします。得られたADリスク遺伝子は、単一細胞転写および発達発現プロファイルを含む他の機能ゲノムデータセットによって特徴付けられます。
ここでは、位置マッピングとクロマチン相互作用に基づいてGWS遺伝子座に機能的に注釈を付けるために使用できる分析フレームワークについて説明します。このプロセスには複数の手順が含まれます (詳細については、このレビュー13を参照してください)。まず、クロマチン相互作用プロファイルが高度に細胞特異的であることを考えると、疾患の基礎となる生物学を最もよく捕捉する適切な細胞/組織型から得られたHi-Cデータを使用する必要がある。ADが神経変性疾患であることを考えると、成人脳Hi-Cデータ9を使用してGWS遺伝子座に注釈を付けた。第二に、 各GWS軌跡は、多くの場合、結合不衡(LD)のために形質に関連する数百のSNを持っているので、因果関係を計算的に予測することによって、形質的因果関係(「信頼できる」)SNを得ることが重要です ファインマッピングアルゴリズム21、22、または超並列レポーターアッセイ(MPRA)23または自己転写アクティブな規制領域シーケンシング()などのハイスループットアプローチを使用して、規制活動を実験的にテストすることによるSTARR-seq)24.ここで説明した作業では、Jansen et al.14で報告された信頼できる SP を使用しました。第3に、プロモーターおよびエキサニックSNPsは、位置マッピングに基づいてアテンショナル・マッピングに基づいてアテンションされる。我々は、SNがプロモーター(転写開始部位の2kb上流として定義される)またはエキソンと重なったときに遺伝子にマッピングされる単純な位置マッピング戦略を使用した。ただし、このアプローチは、SNP がナンセンス仲介減衰、誤った意味の変動、またはナンセンス変動を誘発するかどうかなど、エキソニック SNP の機能的な結果を評価することによってさらに詳しく説明できます。第4に、適切な組織/細胞型からのクロマチン相互作用プロファイルを使用して、物理的近接性に基づいてSPをその位置付け標的遺伝子に割り当てることができます。プロモーターに固定された相互作用プロファイルを使用しましたが、エンハンサー活性(ヒストンH3 K27アセチル化またはクロマチンアクセシビリティによって導かれる)またはエキソン相互作用を考慮に入れて、相互作用プロファイルをさらに改良または拡張することができます。このプロセスにおける重要な考慮事項の1つは、一貫したヒトゲノム構築を使用することです。例えば、要約統計量のゲノム位置がhg19(すなわちhg18またはhg38)に基しくない場合、参照ゲノムの適切なバージョンを取得するか、リフトオーバー25を使用して要約統計量をhg19に変換する必要がある。
このフレームワークを適用してAD GWASの可分標的遺伝子を同定し、284個のSNを112個のADリスク遺伝子に割り当てた。発達発現プロファイル26および細胞型特異的発現プロファイル9を用いて、この遺伝子セットがAD病理について知られているものと一致し、細胞型(ミクログリア)、生物学的機能(免疫応答およびアミロイドベータ)、および年齢時のリスクの上昇を明らかにした。
ADとその基礎となる生物学の潜在的な標的遺伝子を描くフレームワークを提示しましたが、Hi-Cベースのアノテーションを拡張して非コーディングのバリエーションに注釈を付けることができることに注意してください。より多くの全ゲノムシーケンシングデータが利用可能になり、非コーディング希少変動に関する理解が高まるにつれて、Hi-Cは疾患関連遺伝的変異体の解釈に重要なリソースを提供します。したがって、複数の組織および細胞型から得られたHi-Cリソースのコンペンディウムは、様々なヒトの形質や疾患に生物学的洞察を得るために、このフレームワークの広範な適用を促進するために重要である。
The authors have nothing to disclose.
この研究は、NIH助成金R00MH113823(H.W.へ)とR35GM128645(D.H.P.へ)、NARSAD若手研究者賞(H.W.へ)、サイモンズ財団自閉症研究イニシアチブ(SFARI、N.M.およびH.W.へ)からのSPARK助成金によって支援されました。
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |