Summary
アミノ酸レベル信号対雑音解析では、特定の人口の遺伝の変化を背景に正規化された特定アミノ酸位置に遺伝的変異の有病率を決定します。これにより、バリアント「ホット スポット」内人口 (ノイズ) は、稀な変形の頻度を超えるタンパク質シーケンス (信号) を識別するため。
Abstract
コストと速度の次世代遺伝子解析の進歩は、臨床全エキソームと全ゲノム検査の爆発を生成しています。一方、これは遺伝的症候群に関連付けられている可能性が高い病原性突然変異の増加の同定につながっている、それも大幅に増えた数不明な意義 (VU) の遺伝的変異を偶然発見されました。科学者や臨床医の両方の主要な課題は、これらの変異体の臨床的意義を決定します。病原性の可能性を決定するを支援するためのアプローチは、タンパク質のシーケンス レベルで信号対雑音分析です。このプロトコル記述を可能性が高い一次配列の領域を識別するために知られていた蛋白質のトポロジーをもつタンパク質の各アミノ酸の位置で周波数を活用してアミノ酸レベル信号のノイズ解析手法(人口「背景」のバリエーション) を基準にして病理学的変化は。このメソッドは、次世代遺伝子検査によって同定されたものなど VUSs の診断の重量を改良するため高の病理学的信号のアミノ酸残基位置「ホット スポット」を特定できます。
Introduction
遺伝子解析プラットフォームの急速な改善をもたらしましたアクセシビリティと遺伝医学の役割。コストの削減、次世代遺伝子解析は、ゲノムの全体のルーチンの配列をつながっているの速度の増加のシーケンス (全エキソーム配列、ウェス) をコーディング単一の遺伝子または遺伝子の一握りに限られて、一度、全体のゲノム (全ゲノム配列、WGS) 臨床設定で。ウェスと WGS が頻繁に使用されて重症の新生児、遺伝的症候群の心配の子供の設定で臨床管理1,2を変更することができます実績のある診断ツールです。偶然発見遺伝子変異または不明な診断の予想外の肯定的な結果の数も大幅に増加している中、これは遺伝的症候群に関連付けられている可能性が高い病原性突然変異の増加の同定につながっている、意義 (VU)。これらの変形のいくつかが無視、不詳、亜種にローカライズする可能性のある致命的なまたは非常に病的な疾患に関連する遺伝子はしばしば報告されています。現在のガイドラインで推奨して付随的亜種心筋症など突然心臓死素因疾患の発症に関連する遺伝子を含む、患者への医療の給付がありますが特定の遺伝子の発見の報告とchannelopathies3。この勧告は、SCD 素因疾患のリスクで個人をキャプチャする設計された、バリアント検出の感度はずっと特異性を超過します。これは VUSs の増加に反映され、偶然与えられた人口4のそれぞれの疾患の頻度をはるかに超える不明の診断ユーティリティで亜種を識別しました。このような病気は、qt 延長症候群 (LQTS) は、心臓のイオン チャネルをエンコードする遺伝子にローカライズする突然変異によって引き起こされる標準的な心臓チャネロパチーまたはチャネルの結果、タンパク質の相互作用遅延心筋再分極5。この再分極遅延、安静時心電図上 QT 間隔の延長が見られる心室頻拍などの潜在的に致命的な心室性不整脈の電気的素因で起因します。遺伝子の数は、この病気、 KCNQ1の突然変異の開発にリンクされている間-エンコード私Ksカリウム チャネル (KCNQ1, Kv7.1) LQTS タイプ 1 の原因であるし、6以下の例として活用されています。バリアント解釈の複雑さを示す、LQTS の遺伝子、「背景遺伝的変動」と呼ばれる稀な変形の存在は前述78をされています。
知られている病原性変異の大規模な大要スタイル データベースに加えていくつかの戦略は効果別の亜種になります予測に存在します。いくつかは、ふるいにかけると Polyphen 2 deleteriousness9,10を予測する新規の非同義バリアントの数が多いをフィルターできるようなアルゴリズムに基づいています。これらのツールの広範な使用にもかかわらず低特異性は、「呼び出し」臨床 VUSs11になったら適用性を制限します。「信号対雑音」分析は、問題の軌跡で知られている病理学的変化人口からまれな遺伝的変異に対する正規化周波数に基づく疾患に関連付けられている変形の可能性を識別するツールです。遺伝子座にローカライズする亜種に比べて人口ベースのバリエーション、高い信号対雑音、疾患に関連する変異の高い有病率があるがより自分自身をする疾患に関連する可能性があります。さらに、珍しい亜種発見ちなみに珍しい人口亜種の高頻度遺伝子にローカライズする疾患に関連する周波数、低信号に騒音と比較して、疾患関連をされる可能性が低い場合があります。信号対雑音解析の診断の有用性の心筋症と channelopathies; の遺伝子検査の最新のガイドラインで示されています。ただし、全遺伝子レベルまたはドメイン固有のレベル12でのみ採用されています。最近では、病理学的亜種 (疾患データベース、文献におけるコホート研究) と人口に基づく制御亜種 (エキソーム集計コンソーシアム、負荷インピー ダンスとゲノム集計データベース、GnomAD13) の両方の可用性の向上を与えこれは、タンパク質の一次配列内の個々 のアミノ酸の位置に適用されています。アミノ酸レベル信号対雑音解析は、遺伝子疾患に関連するのではなく、可能性が高い遺伝的変異を「背景」として LQTS と関連付けられているちなみに識別されたバリアントを分類するのに役立っています。ちなみに特定のこれらの亜種KCNQ1を含む LQTS と関連付けられている 3 つの主要な遺伝子間で個々 のアミノ酸の位置にこれらの変異体の周波数を珍しい反映している示唆している重要な信号対雑音比を欠いていた人口変動ではなく、疾患に関連する変異。さらに、タンパク質固有のドメイン トポロジが高い信号対雑音、病理学的突然変異タンパク質14のキーの機能ドメインにローカライズされた「ホット スポット」の領域に対してオーバーレイだった。この方法論は、1) 可能性バリアントは疾患または人口関連の決定と 2) ヒトの疾患に関連付けられているタンパク質の重要な新規の機能ドメインを識別する可能性を秘めています。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 特定の遺伝子および興味の特定のスプライス ・ アイソ フォーム
注: ここでは、紹介は Ensembl15興味の病気の病因に関連付けられている興味の遺伝子のコンセンサス配列を識別するために使用 (すなわちKCNQ1 遺伝子変異は LQTS に関連付けられて)。Ensembl の代わりに、生物工学情報 (NCBI)16のナショナル センターとカリフォルニア大学サンタクルス (UCSC) 人間のゲノムのブラウザー17を介して RefSeq (材料の表を参照してください)。
- Ensembl のホームページでは、ドロップ ダウン メニューで (すなわち人間) の種を選択し、頭字語興味の遺伝子を (すなわちKCNQ1)」フィールドに入力します。"Go"をクリックします。
- 興味の遺伝子に対応するリンクを選択 (すなわち「KCNQ1 (遺伝子)"
- 「成績テーブル」から興味の関心 ID のトラン スクリプトに対応するリンクを選択 (すなわちTranscriptID ENST00000155840.10 NM_000218 [RNA 転写産物]、NP_000209 [RNA 転写産物蛋白質の製品]).
注: 関連する文献のレビューは正しいトラン スクリプト一致シーケンスが選択されていることを確認する必要です。 - 「成績テーブル」の「RefSeq」列は、今後の参考のためトラン スクリプト固有 NM と NP の識別番号に注意してください。
- NCBI タンパク質データベースから新しい web ページを開くには NP ID 番号に関連付けられたリンクを選択します。
- 興味の遺伝子転写のタンパク質 (プライマリ) シーケンスを取得する「起源」セクションまで下にスクロールします。
- タンパク質機能 (機能ドメイン、結合ドメイン、翻訳後修飾サイト) のリストを取得する「機能」セクションまでスクロールします。
注: この情報は NCBI 蛋白質のデータベース、または文献の主要な情報源から取得も。これは 5 の手順でさらに説明しました。
2. 実験的遺伝子バリアント データベース (以下、「信号」という) を作成する
注: ここでは、関心の病の個人間で疾患に関連する変形の頻度と興味の遺伝子に疾患に関連する変形のデータベースを作成する方法を示します。このデータベースは、多くの形態を取ることができる、「信号」(表現型陽性遺伝的変異) コントロール バリアント データベースに対して正規化されますを表します。これは、ような疾患に関連する変形の可能性を決定する比較する、ちなみに特定蛋白質および/または 2) VUSs などの新規の機能ドメイン VUSs を識別するために VUSs との比較のため 1) 疾患に関連する変形病原性。KCNQ1 の疾患に関連する変異がイラストとして表示されます。ただし、メソッドはちなみに識別 VUSs の解析や実験的亜種の他のセットのための同じであります。
- 興味の興味の遺伝子がすべての発端の総合的に誘因の病気と関係のないインデックスの場合/名の発端者の cohort(s) を識別する (すなわち研究 200 人 KCNQ1 の亜種をホスティング 24 無関係な発端者を識別します。人 lqts KCNQ1 遺伝子の尋問を受けた)。
注: これらのコホートは、実験遺伝学的解析から、文学や両方の組み合わせから識別できます。- コホート ベースではない研究を除外する (すなわち単一突然変異陽性の個人を記述するケース レポート)、興味の遺伝子の個人データの総数を指定しないまたは包括的に遺伝子遺伝子 (を分析しません。すなわちだけ KCNQ1 エクソン 2 4 の「ターゲット」遺伝学的スクリーニング) これらはバリアントの周波数の計算を排除します。
- 無関係な発端であり (すなわち研究 20 LQTS 患者のコホートにおける KCNQ1 遺伝子変異を有する 4 無関係な個人識別バリアントの周波数を過大評価することができますこれと関連個人を除外者を含めます。これらの発端者の 1 つは、5 の他の突然変異陽性の親族と家族の一員です。家族全員をエクスクルードまたはインクルードする 4 の無関係な発端者のみ)。
- 識別された cohort(s) は、すべての実験遺伝的変異をコンパイルします。
- 野生型アミノ酸、アミノ酸の位置、およびバリアント アミノ酸 (すなわちアラニンのアミノ酸数 212 バリン、Ala212Val または A212V に変更) が含まれている名称を割り当てます。命名法のようなの 1 つのタイプは、図 1に示されています。
- すべての実験遺伝的変異のバリアントの名称が 1.4 の手順で説明したように同じ参照の遺伝子の転写に基づいていることを確認します。トラン スクリプトの配置を使用して参照のトラン スクリプトにバリアントの位置が、reannotate 実験遺伝的変異は、同じ参照遺伝子転写に指定のない場合 (手順 1.2 を参照してください)
- 検討されている質問によって適用されないバリアントを除外します。
- ゲノムやタンパク質を変更しないバリアントの非コーディング領域にローカライズする除外亜種シーケンス コード領域、5' または 3' 非翻訳領域 [UTR] 同義、イントロンの亜種などの亜種 (すなわちの報告された病的5' にある KCNQ1 のバリアント UTR はコーディング領域の除外される蛋白質シーケンスを変更する予測しないと)。
- 研究の包含の規準を満たしていないバリアントを除外します。疾患関連のバリエーションの場合は、もはや病的と思われるバリエーションが含まれます。
- 確認、各バリエーション現在考えられている病原性、可能性が高い病原性、または少なくともない良性、ClinVar データベースとバリエーションを相互参照によって (材料の表を参照してください)。
- ClinVar 検索フィールド (すなわちKCNQ1 Y111C) に遺伝子と関心のバリアントを入力し、「検索」を選択
- 「バリエーション/場所」列の下で目的のバリアント型を識別します。
- 「臨床的意義」列の下で病原性のコンセンサス解釈に注意してください (すなわちKCNQ1 Y111C「病原性」として解釈されます).
- ある変形を含んで」可能性が高い病原性"または「病原性」で。
- 」、病原性の矛盾している解釈」の指定と変形を含んで「不確かな意義、「レコードが利用できない場合 (「提供されていない」) または研究によって保証されている場合。
- バリエーションとして指定を除外する"可能性が高い良性」(すなわちKCNQ1 A62T)。
- 各実験のバリアントの位置のマイナーアレル頻度 (MAF) を計算します。
- 計算方法すべての対立遺伝子 (すなわちKCNQ1 Y111C のヘテロ接合体変異が見つかった 2 無関係な個人、バリアント肯定的な対立遺伝子の数が 2 の場合) それぞれバリエーションごとに陽性であった。
- コホート内でシーケンスの対立遺伝子数の合計を計算します。
- 各コホート研究 (ステップ 2.1) でシーケンスの個人の合計数に注意してください。
- 対立遺伝子の総数を決定する 2 を総個体数を掛けます。
注: この仮定二倍体ゲノムという各対立遺伝子のそれぞれの個々 のホスト 2。
- 各アミノ酸の位置 (2.4.2 の手順でステップ 2.4.1/alleles の対立遺伝子) のバリアント陽性者数の合計を計算します。たとえば、2 は関係のない個人各ホストそれぞれ 100 と 200 LQTS 被災個人のコホートにおける KCNQ1 Y111C 変異、アミノ酸位置 111 実験的バリエーションの周波数は 2 亜種/((100+200 individuals) * 2 対立遺伝子/個人) (すなわちMAF 0.0033 を結合)。
- 各実験するバリアントのそれぞれの MAF としてバリエーションごとにこの値を計算します。詳細は、4.2 の手順を参照してください。
3 制御遺伝子バリアント データベース (「ノイズ」) を作成します。
注: ここでは、対照群の周波数が関連する興味の遺伝子の制御の亜種のデータベースを作成する方法を示します。このデータベースでは、「ノイズ」(表現型負、人口に基づく遺伝的変異) 実験的バリアント データベースの正規化となる背景であるを表します。これは、「コントロール」のバリエーションとして呼ばれます。
- 健康的な無関係な発端者の cohort(s) を識別または特定の人口間の稀な変形を識別するために大規模な人口ベースの研究を利用します。
注: このデータベースのソースは多様なが含まれます: 1) 健康的な個人および/またはそうでなければ表現型負個人サンガーを受けるシーケンス、または問題のある病気が、人口に基づく個人の公開データベース2 などの周波数では珍しい) 1000 ゲノム プロジェクト (N = 1,094 科目)183) 国立心臓、肺、血液研究所行くエキソーム配列プロジェクト (ESP、N = 被験者 5,379)194) エキソーム集計コンソーシアム (負荷インピー ダンス、N = 60,706 科目)13、および/または 5) ゲノム集計データベース (GnomAD, N = 138,632 個人)13 (材料の表を参照してください)。GnomAD データベースは、具体例として活用されます。- GnomAD ホームページ (すなわちKCNQ1) 検索ボックスに興味の遺伝子を入力します。
- ブラウザーに正しい遺伝子と関心 (手順 1.4) の成績証明書が選択されていることを確認します。
- 「平均報道」と「報道プロット」を確認して軌跡のシーケンスの適切な適用範囲があることを確認します。
- 「ミスセンス + lof を使用」を選択することによって一連の遺伝的変異符号化の選択
- "エクスポート テーブルを選択して csv 形式で「テキストエディット ファイルが生成されますが"不明"という名前
- ファイルのラベル付けと新しい拡張子「*.csv」(すなわち「KCNQ1 コントロール Variation.csv」) が含まれます。
- *.Csv ファイル (材料の表参照) の分析のための適切なソフトウェア プログラムを使用してファイルを開きます。
- 「タンパク質結果」というラベルの付いた列の遺伝的変異を変更するタンパク質を特定
- これらのコントロールの遺伝的変異に実験的遺伝的変異 (ステップ 2.3.1) として同じ除外基準を適用します。
- 各コントロールのバリアントの MAF を識別します。
- バリアントを港に対立遺伝子の個数を「対立遺伝子数」列を見つけます。
- このアミノ酸位置、順序の対立遺伝子の総数を示す「対立遺伝子数」列を見つけます。
注: シーケンスの対立遺伝子の総数はその場所での報道によって異なります。高い範囲が 2 に近づく * GnomAD 内の個人の合計数 (すなわち、138,632 個人の完全なカバレッジを包含する誘因の 277,264 の合計の対立遺伝子)。 逆に、下位のカバレッジの領域が減らされた総対立遺伝子数 - 事前に「アレル頻度」列計算は、「対立遺伝子数」「対立遺伝子数」で割った値を表す MAF バリアントを検索します。
注: ヒト ・ ゲノム各対立遺伝子の 2 つがある (すなわち1 件名発見 10 人のヘテロ接合体のバリアントを持っているが 1/20 の MAF) - 各コントロールのバリエーションのそれぞれの MAF として各バリアントの MAF に注意してください。
注: GnomAD を構成する各人種/民族グループのバリアント特定 MAF の「対立遺伝子頻度」右側列を見ることができます。
- 上記制御のバリエーション「共通」として除外される稀な変形の MAF しきい値を適用します。
- すべて本当に病気に関連する亜種 (手順 2 を参照)、管理データベースにおいてもがしきい値以下含まれて値をこえる MAF しきい値を設定 (つまりGnomAD にも、すべての疾患に関連する KCNQ1 亜種の中で、最も一般的なバリアント MAF は 0.009、0.01 のしきい値を超えるすべての GnomAD の亜種を除外する必要があります) です。
- 実験のバリアントの名称がコントロールと同じであることを確認 (手順 2.2 参照)。
- ファイルを保存します。場合によっては、これはファイルの拡張子を変更する必要があります。
4. アミノ酸レベル信号対雑音計算とマッピング
- 制御の変形と各アミノ酸の位置 MAF を計算 (例 KCNQ1 GnomAD 変形を含む図 1参照)。
- グラフ化できるスプレッドシートで実験のすべてのバリエーションの位置の列を作成します。
- バリアントの位置のみを残してバリアントのテキストを削除します。
注: (図 1列 C; 参照材料の表) のセル内にあるこれらのテキスト要素を自動的に削除するのには様々 な関数/数式を利用できます。 - 位置が関連付けられている (図 1列 E; それ以上 1 のバリアントを持っている識別する昇順の値のバリアントを並べ替えるすなわちアミノ酸位置 10 に掲げる二度列 E の位置 2 のユニークなバリエーションを示します)。
- 指定位置 (図 1、G および H 列) のすべての MAFs の合計を取っての特定の位置に関連付けられている各バリアントの MAF を組み合わせます。
- 実験的バリエーションと各アミノ酸位置 MAF を計算 (モック KCNQ1 病理学的亜種を含む図 2参照)。
- 4.1.1 に同様の方法で実験的変形 (図 2列 B) を持つアミノ酸位置の列を作成します。
- 各バリアントの位置では、2.4 (図 2列 C G) の段階からその位置に関連付けられているすべての亜種の MAF を計算します。
- ローリングを作成両方の実験の MAF とコントロールの亜種の平均。
- 4.1 と 4.2 バリアントとして、MAF を持たないアミノ酸位置のセルを含めるために作成した列を展開し 0 を =。(図 3)。
- (すなわち1 に 676 KCNQ1、図 3、列 C と私) の興味の遺伝子のすべてのアミノ酸位置を含む列を作成します。
- コントロールと実験のデータ セットの両方のバリアントを持っていないすべての位置に対しては 0 の MAF を追加します。
注: この実行できます自動的に (図 3列 D と J の参照テーブルの材料) 一般利用ソフトウェア プログラムで「検索」機能を利用しています。
- ローリングを作成するごとに平均実験とコントロール有病率の列。
注: これにより、隣接する位置病原性の推定のためとも変更、やも除外、研究のニーズに合わせて。- 両方の MAF のローリング平均を表す列を作成、コントロールと実験データ セット (図 3列 E、K) の両方の。
- ローリング平均列の N 末端および 5 変形指定された位置に C ターミナルに移動 5 バリアント ポジションそれぞれ MAF の平均を配置します。
注: これはローリング作成されます 5 +/-の平均。未満 5 アミノ酸残基の前、または後、ローリング平均位置 (すなわちN 末端または C 領域) のポジションにローリング平均値のみ考慮されますがあるそれらの残基 (すなわち圧延で平均8、しかし、3 はアミノ酸の位置 1 で MAF の平均になりますアミノ酸位置はこれらの MAFs を 8 で割った値の合計として計算。)
- 4.1 と 4.2 バリアントとして、MAF を持たないアミノ酸位置のセルを含めるために作成した列を展開し 0 を =。(図 3)。
- 低転がり MAF を 2 で割ることによって、コントロールの最小周波数を計算します。
- 信号対雑音比を計算するときに、0 で割ることを避けるために最小周波数 0 の MAF のコントロールで任意のセルに変更します。
- アミノ酸レベル信号対雑音比 (図 4) を計算します。
- 各アミノ酸位置それぞれの制御圧延平均平均圧延実験を分割します。
- この比率 (y 軸)とアミノ酸の位置 (x 軸) をグラフ化します。
5. タンパク質ドメイン トポロジ オーバーレイ
- 機能ドメイン ・ コンセンサス アミノ酸場所または興味 (ステップ 1.7) の蛋白質の翻訳後の修飾のエリアを識別します。
注: リソースの数は、これらのドメインを識別するために利用できます。新規タンパク質の推定されるドメインを識別するためのリソースと同様に、これらのリソースは、文献20にも検討されています。このプロトコルは広く利用される NCBI と堅牢な (材料の表を参照) から利用できる蛋白質のデータベースを説明します。 - タンパク質ドメイン/機能に関連するアミノ酸の位置を識別します。
- NCBI のウェブページを開きます。
- 興味の蛋白質の NP を検索フィールドに入力します。
- 知られていた蛋白質のドメインを識別し、機能は「機能」下のカタログ
- 特定し、ドメイン名/種類とアミノ酸の位置に注意してください。
- 関心の一次配列の蛋白質の領域を視覚化する機能に対応するリンクを選択します。
- ドメインの機能の境界を含む列を作成します。
- アミノ酸位置列ができるように、雑音: 列の隣に列を作成する (図 5AC 列) を参照します。
- /機能ごとのドメインの N 末端または C 末端の側面に対応するセルを識別し、各細胞 (すなわちアミノ酸位置 122 であり、C 末端ドメインは位置 KCNQ1 の S1 の膜貫通ドメインの N 末端ドメインの場所、1142、それから、1 に配置されますアミノ酸位置 122 と 142 の行)。
- ドメイン/機能を重複のための 1 を (すなわち1.5、2、2.5)。 その他の値に変更することで複数のドメインを表示します。これはドメインを区別するに役立ちます。
- これらの境界で (図 5B) x 軸 y 軸とアミノ酸の位置としてグラフを作成します。
- 4.4 手順で作成した信号対雑音グラフこのグラフをオーバーレイします。
- 知られていた蛋白質のドメイン/機能と信号対雑音解析の相関関係を識別します。
6 バリアント位置オーバーレイ
- 4.4 および 5.4 の手順で生成されるグラフのオーバーレイの個々 のバリアントの位置をマップします。
- 作成ドメイン/特色機能の列の横にある列の行の列はアミノ酸の位置 (図 5A列 D) に対応しますです。
- それぞれの変種を含む位置に対応する追加の行の各セルに、1 を配置します。
- (図 5C) x 軸 y 軸とアミノ酸の位置としてこのコラムでグラフを作成します。
- 4.4 手順で作成した信号対雑音グラフとステップ 5.4 で作成したドメイン グラフこのグラフをオーバーレイします。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
KCNQ1 のアミノ酸レベル信号のノイズ解析する代表的な結果は、図 6に描かれています。この例では、稀な変形 GnomAD コホート (コントロール コホート) で識別されるちなみに識別ウェス亜種 (実験的コホート #1)、および LQTS の場合関連付けられている亜種は、可能性が高い疾患に関連する (実験的コホート #2) が描かれているとみなされます。さらに、ウェスと LQTS のコホートのバリアントの周波数を比較する信号のノイズ解析は、周波数が描かれている GnomAD に対して正規化されます。LQTS の亜種は、チャネルの気孔、選択性フィルター、および KCNE1 結合ドメインに対応するドメインの高い信号対雑音比を示した。ウェス コホートでちなみに識別された亜種がこれらの亜種が背景の遺伝的変異を反映することを示唆している信号のノイズ高の特定の領域を明確に実証していない比較、でした。この例は、バリアント MAFs 上述のように; を利用しなかったためただし、これは前述の同じ原則のすべてを示しています。
図 1: MAF 計算制御バリアント データベースの例です。列 A は、GnomAD コントロールの稀な変形を直接輸入。列 B、文字の除去のための例の数式を使用してバリアントの名称から左サイド、位置に関連のテキストの削除 (すなわち: B2 の「右 = (A2、LEN (A2)-5」、材料表を参照してください)。列 C、関連式を使用してバリアントの名称から、右サイドの位置に関連型テキストの削除 (すなわち: C2 に「= LEFT(B2,LEN(B2)-3")。列 D、結果内容を並べ替えずにアミノ酸の位置。列 E、アミノ酸位置重複する位置の同定は、昇順に並べ替えられます。GnomAD から輸入、F 列は各バリアントの MAF を関連付けられています。G と H の列は、特定のアミノ酸の位置 (各々 の特定の位置に MAF の合計) の MAF を組み合わせます。この図の拡大版を表示するのにはここをクリックしてください。
図 2: MAF 計算と実験的バリアント データベースの例です。列 A のリスト模擬 LQTS 性遺伝子 KCNQ1 疾患関連遺伝子変異による実験データベースを表します。列 B、それぞれのバリエーションに対応する突然変異位置。列 C、モックの研究 1 内変異陽性の人の数。各は、ヘテロ接合体の突然変異キャリアであると推定。個人における誘因の総数は、シートの下部に位置しています。列 D、モックの研究 2 では個々 の突然変異陽性の数。列 E、モック研究 3 の個々 の突然変異陽性の数。F は、すべての研究で観察された突然変異をホスティング総突然変異陽性の人の列。同じアミノ酸位置に関連付けられている個別の変異を組み合わせる必要がありますに注意してください。G 列の例の式を使用して各突然変異とアミノ酸の位置の MAF (すなわち: G2「=2/(176*2)」、材料表を参照してください)。すべての個人の heterozygous であると推定されており、KCNQ1 遺伝子座の 2 対立遺伝子を運ぶと推定される個々 は、対立遺伝子の頻度の 2 によって総個人をかける必要が注意してください。この図の拡大版を表示するのにはここをクリックしてください。
図 3: 圧延制御と実験的バリエーションの平均計算の例です。列 A と B、GnomAD バリアントの位置とそれぞれの MAFs を制御します。列 C、アミノ酸から KCNQ1 のすべてのアミノ酸の位置の最終的な位置します。列 D、GnomAD バリアント MAF 位置の代わりに 0 の MAF とすべてのポジションのバリエーションなし。VLOOKUP 関数を使用してこの自動的に計算することができます (すなわちD2 の"= IFERROR(VLOOKUP(C2,A:B,2,),0)、材料の表を参照してください)。列 E、ローリングの平均位置 MAF (すなわち「SUM(D2:D7)/6 =」E2、E7,"SUM(D2:D12)/11") = 例数式を使用する.G と H の列、LQTS 実験するバリアントは、それぞれ MAFs が配置されます。列は KCNQ1 のすべてのアミノ酸の位置。列 J、LQTS 変形すべてのポジションの MAF。列 K、LQTS MAF をローリングします。灰色塗りつぶしをセルが列 B と H の MAF 値が列 D、J にそれぞれ展開されます、適切な数式のすべてのセルが「数字」としてフォーマットされているが重要です C/I. メモの列にそれぞれの立場でどの相関の例機能しています。この図の拡大版を表示するのにはここをクリックしてください。
図 4: 信号対雑音分析とグラフ作成の例です。左、サンプル データベースと計算。列 A、KCNQ1 のすべてのアミノ酸の位置。列 B、LQTS 実験 MAF ローリング平均であり、各位置のため。列 C、GnomAD、MAF 各位置のためのローリング平均値を制御します。D: 信号対雑音比 (すなわち「B2 ・ C2 =」D2 の)。アミノ酸位置 (x 軸) と信号対雑音比 (y 軸) のグラフの右の例。この図の拡大版を表示するのにはここをクリックしてください。
図 5: 蛋白質およびバリアント位置のマッピングの例です。A、サンプル データベースと計算。列 A、KCNQ1 のすべてのアミノ酸の位置。列 B、KCNQ1 の位置 GnomAD で識別されるまれな制御の変形があります。列 C、KCNQ1 蛋白質の領域または機能に、値を含むセルが N または C 末端の側面に対応ドメイン マッピング列が識別されます。ほとんどの N 末端ドメインは、S1 ドメインは、アミノ酸 122 N 末端の境界は、値もここで記載されています。列 D、セル、1 が KCNQ1 に対応バリアント マッピングの列は、稀な変形、どのローカライズを配置します。灰色塗りつぶしをセルが列 A に、それぞれの立場とを関連付ける列 B のバリアントの位置が列 D に展開される場所の 2 つの例この図の拡大版を表示するのにはここをクリックしてください。
図 6: KCNQ1のアミノ酸レベル信号対雑音解析事例-KCNQ1 をエンコードされた (Kv7.1).珍しい GnomAD コホートの亜種 (黒)、ちなみに識別を含む垂直の線でトップ、バリアントの位置を示したウェス紹介 (青) の変種と亜種 LQTS cases(green) で識別されます。機能領域が記載されています。LQTS ケース亜種 GnomAD 亜種 (緑のライン) に正規化の相対頻度は、ウェス (青線) と比較して描かれています。S1-S6、膜貫通ドメイン;SF、イオン選択性フィルター;KCNE1、AKAP9、それぞれのタンパク質結合ドメイン。以前の作品14からで再録し変更されたアクセス許可。この図の拡大版を表示するのにはここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
ハイスループット遺伝子検査は高度な劇的にアプリケーションの可用性過去 10 年間。ただし、心筋症などの確立された遺伝的基盤と疾患で多くを失敗して、診断率21を改善するために拡張されたテストしました。さらに、多くの識別された亜種の診断ユーティリティに関する重要な不確実性があります。これは部分的にウェスで WGS22誤診につながることができる発見ちなみに特定の稀な変形の数が成長しているためです。アミノ酸レベル信号対雑音解析バリアント病原性を予測するための確立された戦略に基づくバリアント解釈するのに大規模な集団ベースのゲノム研究を活用することの利点を提供しています。
名前このプロトコルに最も重要な手順の 1 つは制御と実験的コホートの選択。公開大規模なゲノム研究の多くは、代表の現在の日付に 138,632 個人と同じ大きさにこのプロトコルで制御コホートにできる GnomAD など、集計データベースをアクセスできます。これらの集計のコホートでないすべての科目は、表向きは健全なまれな疾患の設定の大規模なサンプル サイズは非常に貴重なリソースになります、厳しい MAF 除外しきい値できます。一般的な変種の除外は、高浸透のメンデルの病気の原因となる可能性が高いではないため必要です。前の仕事に基づいて、チャネロパチー関連遺伝子の 0.01 と心筋症の遺伝子を 0.0001 MAF しきい値は、適切な場合があり、独立したグループ23,24によって検証されています。重要なは、MAF しきい値の重要性を考えると、この設定、独立してそれぞれの研究の検証されます。MAF しきい値は必要がある channelopathies と心筋症の創始者変異の確立された存在を与え、実験のコホートには適用されません。どこの亜種のクラスター可能性があります; 領域を識別するための十分なする必要があります実験コホートのサイズただし、厳密なサイズはありません。さらに、実験的コホートは、これは病原性信号の信憑性を減少させるだろうと、文学の中で良性であると知られているバリエーションを含めないでください。
解釈と結果の適用性のために重要なも除外基準を正しく選択します。このプロトコルは、同義の亜種など特定の突然変異のクラスを除くを推奨しているが、これらは動けなかった、劇物同義バリエーションが識別された25,26をされている病気プロセスに含まれているかもしれません。様々 な除外基準は、実験の両方に適用され、グループを制御、また、突然変異 (亜種を切り捨てすなわち比較ミスセンス) サブクラスによって信号のノイズ マッピングのため許可できます。
MAFs のローリング平均する近隣アミノ酸の関与の推論を可能にする設定。たとえば、アミノ酸位置 35 病理学的亜種が含まれていて、重要なタンパク質ドメイン、36 は病原性変異時の学位を持っている可能性があります位置に存在します。同様に、一次配列のストレッチも必要大量珍しいコントロール亜種の稀な変形をホストしていないこの地域内のアミノ酸はまだ人口の稀な変形を含む可能性が高いを持っているかもしれませんし。このプロトコルのローリング平均は 5 +/-が、この範囲が異なりますユーザーの解像度の信号対雑音比と検討している特定の蛋白質のレベルを希望します。LQTS の, interrogated KCNQ1の例-エンコードされた KCNQ1 チャネルはいくつかの膜貫通ドメインをまたがる 〜 10 アミノ酸、そのスケール14に関する重要な知見を反映して、目的の解像度を調整する著者を求めます。もはや一次配列と蛋白質の長さが付いている蛋白質、ローリング平均値の範囲蛋白質シーケンス制御変化なしの大きい範囲のために増加する必要があります。
このメソッドのいくつかの制限があります。前述したように、明確な病理学的信号を駆動するために十分な表現型陽性人口は推定される病理学的亜種をホスティングを識別しなければなりません。また、本当に病的変異が病気の表現型をマニフェスト可能性がありますいない従ってやそれ以外ない完全に浸透剤や病気を引き起こしている可能性これらの病理学的亜種は変数の浸透度にあります。多くは、GnomAD などのデータベース「健康コホート」と見なされる上場、遺伝性疾患の有病率可能性が高い人口調査としてこのデータベースで類似しました。詳細は、このプロトコル特に病原性イントロンのスプライシング変異がイネの病気の再生の役割を除外するアミノ酸のコード exonic 遺伝子変異から生じるアミノ酸レベルの変更に焦点を当てください。これ解像度の拡張心筋症で最近示された役割を考えるアプローチは、遺伝子間の「スポット」をさらに識別するために正当化されるかもしれない。さらに、MAF しきい値のアプリケーション、しかし既存の MAF、病の有病率に貢献するかもしれない病気発症機序27,28より高いと人口の特定「リスク対立遺伝子」を見落とす可能性があります。これらの制限にもかかわらずこの分析は適応可能である、臨床医病病原性適切な場合の相対的確率の適用を提供する重要な役割を再生できます。
最後に、蛋白質内の重要な領域を識別するためにこの分析の好みを考えると、病理学的突然変異を利用したアミノ酸レベル信号対雑音計算蛋白質の新規機能ドメインの識別の可能性を提供されています。勉強しました。細孔ドメイン、選択性フィルター、S2 の膜貫通ドメイン、領域内の病原性の「ピーク」の同定 KCNQ1 の KCNE1 結合ドメインなどのイオン チャネルの主要な場所でノイズを高病原性の観察を与え知られている機能のないタンパク質の新規重要なドメインを提案するかもしれない。KCNH2のアミノ酸残基 912-930 にローカライズする LQTS 関連変異体の病原性の著しいピークが発見されましたなど-KCNH2 をエンコードされた (Kv11.1)。蛋白質のこの地域は個人の機能ドメインを持たないまだ LQTS 関連変異体14のマーク付きの傾向を示します。高度なプロテオミクスでしたその二次、三次を含むように蛋白質の一次構造に沿って信号対雑音比の分析から、将来的にこの方式の分解能を向上動けなかったとタンパク質トポロジーの知識の拡大、または第四紀構造。この分析は、機械学習、人工知能などに高度な計算科学添加 affords の中で小説のパターンを識別する機会人口に基づく遺伝的変異と病的堅牢な場合これらのデータベースバリエーションは、生成された29,30をすることができます。ターンでは、このメソッドより良い特徴と特定疾患の遺伝子型-表現型の関係を予測に役立つ可能性が、遺伝学的検査の診断率を向上させるために病気の個人の事前テストの確率と組み合わせて使用します。さらに、この分析は新規タンパク質の生物学を発見し、病に変更されるときマニフェスト人間のゲノム内で新規遺伝子座を特定する可能性があります。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者が明らかに何もありません。
Acknowledgments
APL は、によって、国家機関の健康 K08-HL136839 をサポートします。
Materials
Name | Company | Catalog Number | Comments |
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |
References
- Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
- Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
- Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
- Landstrom, A. P., Ackerman, M. J. The Achilles' heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
- Landstrom, A. P., Tester, D. J., Ackerman, M. J. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. Lawless, C. , Springer. New York, NY. (2011).
- Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
- Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
- Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
- Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
- Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , Chapter 7 (Unit 7.20) (2013).
- Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
- Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
- Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
- Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
- Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, Database issue 447-453 (2005).
- O'Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
- Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
- The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
- Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
- Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
- Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
- Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
- Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
- Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
- Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
- Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
- Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
- Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
- Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
- Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).