Genetics

Определение вероятности варианта патогенности, используя аминокислоты уровня сигнала к шуму анализ генетической изменчивости

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

Аминокислоты уровня сигнала к шуму анализ определяет распространенности генетической вариации в данной аминокислоты позиции нормированы фон генетической вариации населения. Это позволяет для идентификации вариант «горячих точек» в последовательности белка (сигнал), который поднимается выше частота редких вариантов в популяции (шум).

Abstract

Прогресс в стоимость и скорость следующего поколения генетическое секвенирование вызвали взрыв клинических весь exome и тестирования всего генома. Хотя это привело к увеличению идентификации вероятно патогенных мутаций, связанных с генетическими синдромами, он также резко возросло количество кстати нашел генетических вариантов неизвестное значение (VUS). Определение клиническое значение из этих вариантов является серьезной проблемой для ученых и клиницистов. Подход для оказания помощи в определении вероятности патогенности является анализ сигнал шум на уровне последовательности белка. Этот протокол описывает метод для анализа сигнал шум аминокислоты уровня, который использует вариант частоты в позиции каждой аминокислоты белка с топологией известных белков для выявления областей первичной последовательности с повышенной вероятностью патологические изменения (относительно населения «фон» вариант). Этот метод можно определить аминокислотных остатков местоположение «горячих точек» высокой патологический сигнал, который может использоваться для уточнения диагностических вес VUSs например тех, которые определены следующего поколения генетического тестирования.

Introduction

Быстрое улучшение генетического секвенирования платформ изменила доступности и роли генетики в медицине. После только одного гена, или горсть генов, сокращение расходов и увеличение скорости следующего поколения, генетического секвенирования привело обычной последовательности весь геном программирования последовательности (exome вся последовательность, Уэс) и весь геном ( всего генома, РГ) в клинических условиях. Уэс и WGS были использованы часто в параметре тяжелобольным новорожденных и детей с обеспокоенностью за генетическим синдромом где это доказано диагностический инструмент, который может изменить клинического управления¹^,². Хотя это привело к увеличению идентификации вероятно патогенных мутаций, связанных с генетическими синдромами, он также резко возросло количество случайно найденный генетических вариантов, или неожиданные положительные результаты, неизвестных диагностики значение (VUS). Хотя некоторые из этих вариантов не учитываются и не сообщается, варианты локализации для гены, связанные с потенциально смертельным или весьма болезненный заболеваний часто сообщают. Нынешние руководящие принципы рекомендуют отчетности непредвиденных вариантов в конкретных генов, которые могут быть медицинская польза для пациента, включая гены, связанные с развитием внезапной сердечной смерти предрасполагающие заболеваний, таких как кардиомиопатии и channelopathies³. Хотя эта рекомендация была разработана для захвата людей риску заболевания SCD-предрасполагающие, чувствительность вариант определения намного превышает специфичности. Это находит свое отражение в растущее число VUSs и кстати выявлены варианты с неясными диагностики Утилита, которая намного превышает частоту соответствующих заболеваний в данной популяции⁴. Один такой болезни, долго QT синдром (LQTS), является каноническим сердечной channelopathy, вызванных мутациями, локализация генов, кодирующих сердца ионных каналов, или каналов взаимодействия белки, что приводит к задержки сердца реполяризации⁵. Эта задержка реполяризации, видели длительного интервала QT на отдыха электрокардиограмма, приводит к электрической предрасположенность к потенциально смертельным желудочковых аритмий, например torsades de pointes. Хотя количество генов были связаны в развитие этого заболевания, мутации в KCNQ1-кодировке я_Ks калия канал (KCNQ1, Kv7.1) является причиной LQTS типа 1 и используется в качестве примера ниже⁶. Иллюстрирующих сложность в вариант интерпретации, наличие редких вариантов в LQTS-связанных генов, так называемые «фон генетической вариации» был ранее описанных⁷^,⁸.

В дополнение к большой сборник стиль баз известных патогенных вариантов для предсказывая будет производить эффект различные варианты существуют несколько стратегий. Некоторые основаны на алгоритмы, такие как ПРОСЕЯТЬ и 2 Polyphen, которые можно отфильтровать большое количество роман не синонимами вариантов предсказать deleteriousness⁹^,¹⁰. Несмотря на широкое использование этих инструментов низкой специфичности ограничивает их применимости, когда дело доходит до «вызова» клинических VUSs¹¹. «Сигнал шум» анализ — инструмент, который определяет вероятность того вариант, связанный с болезнью, основываясь на частоте известных патологические изменения на локусов в вопросе нормализации против редких генетических отклонений от населения. Локализация для генетических локусов варианты там, где высокая распространенность болезней связанных мутаций, по сравнению с населения на основе вариации, высокий сигнал шум, являются скорее болезнь связанные сами. Кроме того, редкие варианты нашел кстати локализации к гену с высокой частотой редких населения вариантов по сравнению с болезнь связанные частоты, низкий сигнал шум, может быть меньше шансов быть связанных заболеваний. Утилиты диагностики сигнал шум анализа была показана в последних руководящих принципах генетического тестирования, кардиомиопатии и channelopathies; Однако он только работал на уровне весь ген или доменного уровня¹². Недавно учитывая увеличение объема патологической варианты (болезнь баз данных, когортные исследования в литературе) и варианты управления на основе населения (консорциум агрегации Exome, ExAC и агрегирования данных генома, GnomAD¹³), Это был применен к позиции отдельных аминокислот в рамках первичной последовательности белка. Аминокислоты уровня сигнала к шуму анализ оказался полезным в классификации кстати выявленных вариантов в генах, связанные с LQTS как вероятно генетической вариации «фон» вместо того, чтобы связанные заболевания. Среди трех основных генов, связанных с LQTS, включая KCNQ1эти кстати выявленных вариантов отсутствуют значительные соотношения сигнал шум, предполагая, что частота этих вариантов на позициях отдельных аминокислот отражают редкий населения вариации, а не связанных заболеваний мутации. Кроме того, когда белок доменного топологии был обложил против областях высокий сигнал шум, патологический мутации «горячих точек», локализованные в ключевых функциональных областях белки¹⁴. Эта методология является перспективным в определения что 1) вероятность того вариант болезни или населения, связанных и 2) роман критических функциональные домены белка, связанные с заболеваний человека.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Определите гена и конкретных Splice изоформы интереса

Примечание: Здесь мы продемонстрировать использование Ensembl¹⁵ определить последовательность консенсуса для гена интереса, который связан с патогенез заболевания интереса (то есть KCNQ1 мутации связаны с LQTS). Альтернативы Ensembl включают RefSeq через Национальный центр биотехнологии информации (NCBI)¹⁶ и в университете Калифорнии, Санта-Крус (UCSC) человеческого генома браузер¹⁷ (см. Таблицу материалы).

В Ensembl домашнюю страницу выберите вид (то есть человека) в раскрывающемся меню и ген интереса акроним, введите в поле (т.е. KCNQ1). Нажмите кнопку «Go»
Выберите ссылку, соответствующую гена интереса (то есть «KCNQ1 (человеческий ген)»
Выберите ссылку, соответствующую запись ID интерес интерес в таблице «транскрипт» (т.е. TranscriptID ENST00000155840.10, NM_000218 [РНК Стенограмма], NP_000209 [белковый продукт РНК Стенограмма]).
Примечание: Обзор соответствующей литературы необходимо убедиться, что выбран правильный Стенограмма последовательность консенсуса.
Обратите внимание, Стенограмма конкретных Нм и NP идентификационных номеров для использования в будущем, в столбце «RefSeq», «Транскрипт таблицы».
Выберите ссылку, связанные с NP идентификационный номер, чтобы открыть новую веб-страницу из базы данных NCBI белка.
Прокрутите вниз до раздела «Происхождение» для получения последовательности белка (первичный) для Транскрипт гена интереса.
Прокрутите раздел «Компоненты» для получения списка функций белков (функциональные домены, домены привязки, столб-поступательные изменения сайтов).
Примечание: Эта информация также может быть получен через базу данных NCBI белка или от первичных источников в литературе. Это будет обсуждаться далее в шаге 5.

2. Создайте экспериментальный вариант генетической базы данных («сигнал»)

Примечание: Здесь, мы продемонстрируем создание базы данных болезней связанных вариантов гена интереса с частотой заболевания связанных вариантов среди лиц с болезнью интерес. Эта база данных может принимать различные формы и представляет «сигнал» (фенотип положительных генетической вариации), который будет нормализовано против варианта базы данных управления. Это может включать 1) болезнь связанные варианты для сравнения против VUSs определить VUSs Роман функциональные домены белка и/или 2) VUSs, включая кстати выявлены, чтобы сравнить против болезни связанные варианты для определения вероятности патогенность. Болезни связанные варианты в KCNQ1 будет представлен для иллюстрации; Однако метод является одинаковым для анализа Кстати выявлены VUSs или любой другой набор экспериментальных вариантов.

Определить cohort(s) несвязанных индекс дела/членов с болезнью интерес, для которых ген интереса был всесторонне генотипируемого для всех членов (т.е. исследование определяет 24 несвязанных членов хостинга варианты в KCNQ1 из 200 лица с LQTS которые были подвергнуты допросу генетических KCNQ1).
Примечание: Эти когорты могут быть определены из литературы, от экспериментального генетического анализа, или комбинация обоих.
1. Исключить не на основе когортных исследований (т.е. дело отчет с описанием отдельного мутации позитивных), не обеспечивают общее количество лиц генотипируемого для гена интереса, или не генетически всесторонне анализировать (ген т.е. «целенаправленных» генетический скрининг только KCNQ1 экзонов 2-4) исключает эти вычисления частоты вариант.
2. Включать лиц, которые не связаны членов и исключения соответствующих лиц, как это может переоценить вариант частоты (т.е. исследование определяет 4 несвязанных особей с KCNQ1 мутации в когорте 20 пациентов с LQTS. Один из этих членов является частью семьи с 5 другими родственными мутации положительных. Исключить все члены семьи и включают только 4 отношения членов).
Скомпилируйте все экспериментальные генетических вариантов в определенных cohort(s)
1. Назначьте номенклатуры, содержащий одичал тип амино кислоты, аминокислоты позиции и вариант аминокислоты (т.е. аланина в аминокислоты номер 212 изменено на валина, Ala212Val или A212V). Один такой тип номенклатуры показана на рисунке 1.
2. Подтвердите, что вариант перечня всех экспериментальных генетических вариантов на основе же Транскрипт гена ссылку как отмечается в шаге 1.4. Если экспериментальные генетических вариантов не помечен на же Транскрипт гена ссылку, затем reannotate вариант позиции к стенограмме ссылку, с помощью выравнивания Стенограмма (см. шаг 1.2)
Исключают варианты, которые не применяются в зависимости от вопрос изучается.
1. Исключить варианты локализации некодирующих регионы геном или варианты, которые не изменяют белка последовательность таких вариантов синонимами, intronic, 5' и 3' непереведенные региона [UTR] и intergenic региона варианты (т.е. о патологической вариант в KCNQ1, которая локализуется в 5' УТР кодирования региона будут исключены как он не предсказал, чтобы изменить последовательность белка).
2. Исключают варианты, которые не отвечают критериям включения в исследование. Для вариантов, связанных с болезнью это включает в себя варианты, которые больше не считаются патологический.
  1. Убедитесь, что каждый вариант в настоящее время считается патогенных, вероятно патогенных, или по крайней мере не доброкачественной, по перекрестным ссылкам варианты с базой данных ClinVar (см. Таблицу материалы).
  2. Введите в поле поиска ClinVar (т.е. KCNQ1-Y111C) гена и вариант интерес, выберите «Поиск»
  3. Идентифицировать вариант интерес в столбце «Вариации/местоположение».
  4. Обратите внимание консенсус толкования патогенности колонке «Клиническое значение» (т.е. KCNQ1-Y111C интерпретируется как «патогенных»).
  5. Включить варианты, которые являются «вероятно патогенных» или «патогенных.»
  6. Включить варианты с обозначениями «противоречивых толкований патогенности,» «неопределенной значимости,» или когда отсутствует запись доступен («не предусмотрено») Если оправдано в исследовании.
  7. Исключить варианты, как «вероятно, доброкачественные» (т.е. KCNQ1-A62T).
Вычислите незначительные аллеля частоты (ТБР) каждой экспериментальный вариант позиции.
1. Рассчитайте, как любой аллели были положительными для каждого соответствующего варианта (т.е. если KCNQ1-Y111C гетерозиготных мутация встречается в 2 не связанных лиц, количество вариант положительных аллели 2).
2. Рассчитайте общее количество аллели, виртуализированных в пределах когорты
  1. Обратите внимание на общее количество лиц, виртуализированных в каждом когортное исследование (шаг 2.1)
  2. Общее количество лиц умножьте на 2, чтобы определить общее число аллелей.
    Примечание: Это предполагает геномы диплоидных, whereby каждый отдельных узлов 2 каждого аллеля.
3. Рассчитайте общее количество вариант позитивных людей для каждой позиции аминокислоты (аллелей в 2.4.1/alleles шаг в шаг 2.4.2). Например, если 2 несвязанные лица каждой принимающей гетерозиготных KCNQ1-Y111C мутации в когортах 100 и 200 лиц, страдающих LQTS, соответственно, то частота экспериментальные варианты аминокислоты позиции 111 2 варианты/((100+200 individuals ) * 2 аллели/индивидуальные) (т.е. комбинированный ТБР 0.0033).
4. Вычислить это значение для каждого варианта как соответствующих ТБР каждого экспериментальный вариант. Для получения дополнительной информации смотрите шаг 4.2.

3. Создание генетических вариант базы данных системы управления («шума»)

Примечание: Здесь, мы продемонстрируем создание базы данных вариантов управления в ген интереса с частотой связанного в популяции управления. Эта база данных представляет собой «шума» (фенотип отрицательные, Популяционно ориентированные генетической вариации), который является фоном, против которого будут нормализованы экспериментальный вариант базы данных. Это именуется как «контроль» вариант.

Определить cohort(s) здорового, несвязанных членов или использовать большие популяционные исследования для выявления редких вариантов среди данной группы населения.
Примечание: Источники для этой базы данных, разнообразны и включают в себя: 1) здоровых лиц и/или иначе фенотип отрицательные люди подвергаются Сэнгер последовательности или публичных баз данных на основе населения лиц, для которых эта болезнь является редкой частоты например 2) 1000 проект генома (N = 1094 субъектов)¹⁸, 3) национальные сердца, легких и крови института GO Exome виртуализации проекта (ESP, N = 5379 субъектов)¹⁹, 4) Exome агрегации консорциума (ExAC, N = 60,706 предметов)¹³, или 5) генома статистической базы данных (GnomAD, N = 138,632 человек)¹³ (см. Таблицу материалы). GnomAD база данных будет использоваться в качестве примера.
1. Гена интереса в поле поиска введите на главной странице GnomAD (т.е. KCNQ1).
2. Убедитесь, что браузер выбран правильный гена и Стенограмма интерес (шаг 1.4).
3. Подтвердить, что надлежащего охвата последовательности локуса просмотрев «среднее покрытие» и «освещение сюжет.»
4. Выберите для кодирования генетической вариации последовательности, выбрав «Миссенс + LoF.»
5. Выберите «таблицы экспорта в CSV, «которая будет генерировать файл TextEdit именем «Неизвестно».
6. Переименовали файл и включают в себя новое расширение «*.csv» (т.е. «KCNQ1 управления Variation.csv»).
7. Откройте файл с помощью соответствующего программного обеспечения для анализа файлов *.csv (см. Таблицу материалы).
Определение белка, изменения генетической вариации в столбце под названием «Белка следствием.»
Применить же критерии исключения этих генетических вариантов управления как экспериментальный генетических вариантов (шаг 2.3.1).
Идентифицировать ТБР каждого варианта управления.
1. Найдите столбец «Аллеля граф», который обозначает число аллелей, нашли в гавани вариант.
2. Найдите столбец «Аллеля номер», который обозначает общее количество аллели виртуализации на данной позиции амино кислоты.
  Примечание: Общее число аллелей виртуализации будет варьироваться в зависимости от покрытия в этом месте. Районы высокого охвата будет подход 2 * Общее количество людей в GnomAD (т.е. для лиц, 138,632, полный охват охватывает 277,264 всего аллели генотипируемого). И наоборот области охвата ниже будет иметь снижение общей аллеля номер
3. Найдите вариант ТБР, который предварительно рассчитывается в столбце «Частота аллеля» и представляет собой «Аллеля отсчет» разделены «Число аллелей».
  Примечание: Человеческих геномов имеют два из каждого аллеля (т.е. 1, находятся у гетерозиготных вариант в 10 человек имеет ТБР 1/20)
4. Обратите внимание ТБР для каждого варианта, как соответствующие ТБР каждого варианта управления.
  Примечание: Вариант конкретных ТБР для каждой расовой/этнической группы в составе GnomAD можно увидеть в столбцах справа от «Частота аллеля.»
Применять ТБР порог для редких вариантов, над которыми вариантов управления исключаются как «общее».
1. Установить максимальное значение, на котором включены все действительно болезней связанных вариантов, (см. шаг 2) также наблюдается в базе данных управления ниже порога порог ТБР (т.е., среди всех болезней связанные KCNQ1 варианты также найдены в GnomAD высокий общий вариант ТБР является 0,009, то должны быть исключены все варианты GnomAD выше порога 0.01).
Убедитесь, что экспериментальный вариант номенклатуры идентичен управления (см. шаг 2.2).
Сохраните файл. В некоторых случаях это может потребовать изменения типа/расширения файла.

4. аминокислоты уровня сигнала к шуму расчет и сопоставление

Рассчитать ТБР для каждой позиции аминокислоты с вариантом управления (см. рис. 1 , содержащий пример KCNQ1 GnomAD варианты).
1. В графиков способных таблицу Создайте столбец позиций всех экспериментальных вариантов.
2. Удаление вариант текста оставить только вариант позиции.
  Примечание: Различные функции/формулы могут быть использованы для автоматического удаления эти текстовые элементы внутри клетки (рис. 1, столбец C; см. Таблицу материалы).
3. Сортировка вариантов в восходящем значение, чтобы определить, что позиции у более чем 1 вариант, связанный с ним (рис. 1, колонка E; т.е. аминокислоты позиции 10 указан дважды в столбце E обозначает 2 уникальные варианты на позиции).
4. Объединить ТБР для каждого варианта, связанного с данной позицией, взяв сумма всех ТБР для данной позиции (рис. 1, столбец G и H).
Рассчитать ТБР для каждой позиции аминокислоты с экспериментальный вариант (см. рис. 2 , содержащий макет KCNQ1 патологического варианты).
1. Аналогичным образом, в 4.1.1 Создайте столбец позиций аминокислоты, которые имеют экспериментальные варианты (рис. 2, столбец B).
2. Для каждого варианта положения Вычислите ТБР все варианты, связанные с этой позиции от шаг 2.4 (рис. 2, столбец C-G).
Создайте скользящее среднее ТБР для обеих экспериментальных и вариантов управления.
1. Разверните узел столбцы, созданные в 4.1 и 4.2 включить клетки для аминокислоты позиций, которые имеют не вариант как MAF = 0. (Рис. 3).
  1. Создайте столбец, содержащий все аминокислоты позиции гена интереса (т.е. 1 в 676 для столбца KCNQ1, рис. 3, C и I).
  2. Добавление ТБР 0 для всех позиций, которые не имеют варианты для управления и экспериментальных наборов данных.
    Примечание: Это может быть сделано автоматически, используя функцию «ВПР» обычно используются программы (рис. 3, столбец D и J, смотрите Таблицу материалы).
2. Создайте скользящее среднее для каждой экспериментальной и распространенности столбца элемента управления.
  Примечание: Это позволяет для вывода прилегающих позиции патогенности и можно изменить или даже исключить, чтобы соответствовать потребностям исследования.
  1. Создайте столбец, представляющий скользящее среднее ТБР для обеих управления и экспериментальных наборов данных (рис. 3, столбец E и K).
  2. В столбце скользящего среднего место в среднем соответствующих ТБР для 5 вариант позиции N-стержня и 5 вариант должности C-терминал для данной позиции.
    Примечание: Это создает скользящее среднее + /-5. Для позиций с менее чем 5 аминокислотных остатков предыдущего, или после, переходящего среднее положение (т.е. N - или C-отель terminus), скользящее среднее будет только принимать во внимание тех остатков, которые присутствуют (т.е. скользящее среднее на Амино кислоты позицию что 3 будет в среднем ТБР аминокислоты позиции 1, хотя 8, рассчитывается как сумма этих ТБР, разделенное на 8).
Вычислить Минимальное управляющее частотой путем деления низкие подвижного ТБР, 2.
1. Измените любую ячейку с элементом управления ТБР 0 Минимальная частота, чтобы избежать деления на 0 при расчете соотношения сигнал шум.
Рассчитайте аминокислоты уровня отношение сигнал шум (рис. 4).
1. Разделите каждой аминокислоты позиции экспериментальной скользящего среднего значения, соответствующего элемента управления скользящего среднего значения.
2. График этот коэффициент (ось y) vs. аминокислоты позиции (ось x).

5. белка домена топологии оверлея

Идентифицировать консенсуса аминокислот расположения функциональности домены, или областей столб-поступательные изменения, протеина интереса (шаг 1.7).
Примечание: Количество ресурсов могут быть использованы для идентификации этих доменов. Эти ресурсы, а также ресурсы для выявления предполагаемого доменов в романе белков, также были рассмотрены в литературе²⁰. Этот протокол будет описывать базу белка через NCBI, которая широко используется и надежные (см. Таблицу материалы).
Определение позиции аминокислоты, связанные с белка домены/особенности.
1. Откройте веб-страницу NCBI.
2. В поле поиска введите NP протеина интереса.
3. Определение доменов известных белков и особенности являются каталоги под «Возможности».
4. Определить и отметить положения доменное имя/тип и аминокислоты.
5. Выберите ссылку, соответствующую функцию, чтобы визуализировать региона на протеин интереса первичной последовательности.
Создайте столбец, содержащий границы доменов/функций.
1. Создание столбца рядом со столбцом, сигнал: шум, так что аминокислоты позицию столбца может быть ссылка на (рис. 5A, столбец C).
2. Определить ячейки, соответствующие на N-терминала или C-терминал аспект каждой функция домена и 1 место в каждой ячейке (т.е. если N-концевой домен S1 трансмембранных доменов KCNQ1 аминокислоты позиция 122, а C-терминала домен — это позиция 142, затем 1 помещается в строке для позиции аминокислоты 122 и 142).
3. Для перекрытия домены/особенности, отображать несколько доменов, изменив 1 другие значения (т.е. 1.5, 2, 2.5); Это может оказывать содействие в распознавании доменов.
Создание графа с этими границами как y и аминокислоты положение на оси x (рис. 5B).
Наложение этот график с графом сигнал шум, созданный на шаге 4.4.
Определение корреляции между известных белков домены/особенности и анализа сигнала к шуму.

6. вариант позиции оверлея

Карта индивидуальный вариант позиции для наложения графиков производства в шагах 4.4 и 5.4.
1. Создание столбца рядом со столбцом, функция домена таким образом, что строки в столбце будет соответствовать позиции аминокислоты (рис. 5A, столбец D).
2. 1 место в каждой ячейке в строке добавлены соответствующие положения, содержащие соответствующие вариант.
3. Создание графа с этой колонке как y и аминокислоты положение на оси x (рис. 5C).
Наложение этот график с граф сигнал шум, созданный на шаге 4.4 и граф домена, созданный в шаге 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Представитель результат аминокислоты уровень сигнала анализ шума для KCNQ1 изображен на рисунке 6. В этом примере, редких вариантов, определенных в GnomAD когорты (когорта управления), кстати выявлены варианты Уэс (экспериментальная когорты #1) и LQTS дело связанных вариантов считается что вероятно связанных заболеваний (экспериментальная когорты #2) изображены. Кроме того анализ сигнал шум, сравнивая Уэс и LQTS когорты вариант частоты нормированный против GnomAD изображен вариант частоты. LQTS-связанные варианты продемонстрировал высокое соотношение сигнал шум в доменах с поровых каналов, избирательность фильтра и KCNE1-связывающий домен. В сравнении кстати выявленных вариантов в когорте Уэс не демонстрируют ясно конкретных регионов высокогорные сигнал шум, предполагая, что эти варианты отражают фон генетической вариации. В этом примере не использовать вариант ТБР, как указано выше; Однако он демонстрирует все те же принципы, как описано.

Рисунок 1 : Пример управления вариант базы данных с расчетом ТБР. Столбец A, напрямую импортированных GnomAD редких вариантов управления. Столбец B, удаление левосторонней, не связанных с позиции текста от варианта номенклатуры, с помощью примера формулы для удаления символов (то есть: для B2» = правый (A2, LEN (А2) -5», смотрите Таблицу материалы). Столбец C, удаление правосторонняя, не связанных с позиции текста от варианта номенклатуры, с использованием соответствующих формулы (то есть: C2» = LEFT(B2,LEN(B2)-3"). Столбец D, результирующая несортированные аминокислоты позиции. Колонка E, аминокислоты позиции отсортированы по возрастанию моды для идентификации повторяющихся позиций. Колонке F, связанные ТБР для каждого варианта, как импортированные из GnomAD. Столбец, G и H, комбинированные ТБР для данной аминокислоты позиции (сумма каждого варианта MAF на определенной позиции). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 2 : Пример экспериментальный вариант базы данных с расчетом ТБР. Столбец A, список макет связанных LQTS мутации в KCNQ1 представляющих связанные заболевания мутация экспериментальной базы данных. Столбец B, мутация положении для каждого варианта. Столбец C, количество мутаций позитивных людей в макет исследование 1. Предполагается, что каждый гетерозиготных мутации перевозчиков. Общее количество лиц, генотипируемого в исследовании расположен в нижней части листа. Столбец D, количество мутации позитивные лица в макет 2 исследования. Колонка E, количество мутации позитивные лица в макет исследование 3. Колонке F, всего мутации-инфицированных хостинг наблюдаемых мутаций во всех исследованиях. Обратите внимание, что различные мутации, связанные с одной и той же позиции аминокислоты должны быть объединены. Колонка G, ТБР положение каждого мутации и аминокислоты, с помощью примера формулы (то есть: G2 «=2/(176*2)», см. Таблицу материалы). Обратите внимание, что поскольку предполагается, что все люди являются гетерозиготной и каждый человек, как предполагается, нести 2 аллелей локуса KCNQ1, общая лиц следует умножить на 2 для частоты аллеля. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 3 : Пример прокатки расчета среднего для управления и экспериментальные варианты. Столбец A и B, вариант позиции GnomAD элемента управления и соответствующих ТБР. Столбец C, все аминокислоты позиции KCNQ1 из аминокислоты позиции в финал. Столбец D, GnomAD вариант ТБР для всех позиций с ТБР 0 вместо должности без вариант. Это автоматически вычисляется с помощью функции ВПР (т.е. для D2, «= IFERROR(VLOOKUP(C2,A:B,2,),0), смотрите Таблицу материалы). Колонка E, скользящее среднее из позиции ТБР, с помощью примера формулы (т.е. для E2, «= SUM(D2:D7)/6» и E7, «= SUM(D2:D12)/11"). Столбец, G и H, LQTS экспериментальный вариант позиции с соответствующими ТБР. Колонке я, все аминокислоты позиции KCNQ1. Колонка J, LQTS вариант ТБР для всех позиций. Колонка K, Роллинг LQTS MAF. Серая заливка ячейки являются примерами где ТБР значения из столбца B и H расширяются в столбец D и J, соответственно, которые коррелируют с соответствующих позиций в колонке C/I. Обратите внимание, что очень важно, что все ячейки форматируются как «Номера» для надлежащей формулы функционирование. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 4 : Пример анализа сигнала к шуму и изображая диаграммой. Слева, пример базы данных и вычисления. Столбец A, все аминокислоты позиции KCNQ1. Столбец B, LQTS экспериментальной ТБР скользящее среднее для каждой позиции. Столбец C, GnomAD контроль ТБР скользящего среднего для каждой позиции. D: сигнал шум коэффициент (т.е. для D2, «= B2/C2»). Справа, пример графа соотношения сигнал шум (ось y) против позиции аминокислоты (ось x). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 5 : Пример белков и вариант позиции сопоставления. A, пример базы данных и вычисления. Столбец A, все аминокислоты позиции KCNQ1. Столбец B, KCNQ1 позиций, которые имеют вариант редкий управления определены в GnomAD. Столбец C, столбце сопоставления домена, где ячейки, содержащие значения соответствуют N или C-терминал аспект определенных доменов протеина KCNQ1 или функции. Как большинство N-концевой домен домен S1 имеет границы N-терминала на аминокислоты 122, значения не указаны здесь. Столбец D, вариант отображения столбца, где клетки, содержащие 1 соответствуют KCNQ1 позиции, которая локализовать редкие варианты. Серый заполнить клетки являются двумя примерами где вариант позиции в колонке B расширяются в столбец D которых коррелируют с соответствующих позиций в колонке A. пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 6 : Пример аминокислоты уровня сигнала к шуму анализа KCNQ1-кодировке KCNQ1 (Kv7.1). Топ, вариант позиции демонстрируются с вертикальными линиями, включая редкие варианты когорты GnomAD (черный), кстати выявлены варианты в WES рефералов (синий) и варианты, указанные в LQTS cases(green). Отмечены функциональные домены. Относительная частота LQTS случае вариантов нормированы GnomAD варианты (зеленая линия) изображен по сравнению с Уэс (синяя линия). S1-S6 трансмембранных доменов; SF, Ион избирательность фильтра; KCNE1 и AKAP9, соответствующих белков связывания доменов. Изменение и Перепечатано с разрешения от предыдущей работы¹⁴. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Высок объём генетическое тестирование передовые резко в ее применения и доступности в последнее десятилетие. Однако во многих заболеваний с устоявшейся генетических основ, таких как кардиомиопатии, расширенного тестирования не удалось улучшить диагностический выход²¹. Кроме того существует неопределенность относительно утилиты диагностики многих выявленных вариантов. Это частично объясняется растущее количество кстати выявленных редких вариантов, обнаружил на WES и РГ, которые могут привести к неправильной диагностике²². Анализ уровня сигнала к шуму аминокислоты основана на устоявшихся стратегий для прогнозирования вариант патогенности и обеспечивает преимущество привлечения крупномасштабных генома Популяционно ориентированные исследования для уточнения вариант интерпретации.

Следует, что один из наиболее важных шагов к настоящему протоколу выбор управления и экспериментальной когорты. Многие из публично доступных большой геном исследований доступны через статистические базы данных, например GnomAD, которая может позволить для представителя управления когорт в этом протоколе быть как большой, как 138,632 лица на сегодняшний день. Хотя не все предметы в этих совокупных когорты якобы здоровым, размер большой выборки в параметре редкое заболевание делает этот ресурс неоценимую и позволяет строгие порог исключений ТБР. Исключение общих вариантов является необходимым, поскольку они вряд ли может быть причиной высокой проникающей Менделевское болезни. На основе предыдущей работы, ТБР порог 0.01 для channelopathy связанных генов и 0,0001 кардиомиопатия генов могут потребоваться и был проверен независимой группы²³^,²⁴. Важно учитывая важное значение порога ТБР, это следует задать и проверяется для каждого исследования самостоятельно. ТБР порог не применяются к экспериментальной когорты, учитывая устоявшиеся присутствие основатель мутации в channelopathies и кардиомиопатии. Размер экспериментальной когорты должен быть достаточно для выявления областей, где может кластеров вариантов; Однако существует нет строгой размер. Кроме того экспериментальный когорты не должно включать варианты, известный быть доброкачественные в литературе, как это будет уменьшаться в достоверности патогенных сигнала.

Правильно выбрав критерии исключения также имеет решающее значение для толкования и применения результата. Хотя этот протокол рекомендует, исключая некоторые мутации классы, такие как синоним вариантов, они реально могут быть включены для болезни процессов, в которых пагубно синонимом варианты были определены²⁵^,²⁶. Кроме того когда различные критерии исключения применяются к обоим экспериментальных и контрольных групп, он может позволить для стратификации сигнал шум сопоставления подклассом мутация (т.е. сравнивая Миссенс для усечения варианты).

Параметр скользящее среднее для ТБР предусматривать вывод о причастности к соседней аминокислоты. Например если аминокислоты позицию 35 содержит патологических вариант и проживает в критических белков домена, а затем позицию 36 может иметь степень патогенности когда мутировал. Аналогичным образом участок первичной последовательности должен иметь большое количество вариантов редких управления, то аминокислоты в пределах этого региона, не принимающие редкие варианты могут еще выше вероятность содержащих редкие варианты в популяции. В то время как скользящее среднее в этом протоколе +/-5, этот диапазон может быть различаться в зависимости от пользователя желаемый уровень разрешения соотношение сигнал шум и специфического протеина изучается. В этом примере LQTS, допросили KCNQ1-шифрованный канал KCNQ1 имеет несколько трансмембранных доменов, охватывающих ~ 10 аминокислот, что побудило авторов скорректировать их желаемого резолюции отразить существенные выводы по этой шкале¹⁴. Для белков с больше первичной последовательности и длина белка интервал скользящего среднего может потребоваться увеличить за счет больших диапазонов белка последовательность без элементов управления.

Существует несколько ограничений для данного метода. Как отмечалось ранее достаточно фенотип позитивной популяции хостинг предполагаемого патологического варианты должны быть определены для того чтобы управлять ясно патологический сигнал. Кроме того эти патологические варианты могут иметь переменную пенетрантностью, таким образом поистине патологического мутации не могут проявляться болезнь фенотип или может в противном случае не быть полностью пенетрант и болезней причиной. Хотя многие публично провел, баз данных, таких как GnomAD, часто считаются «здоровый когорты», распространенность генетических заболеваний, вероятно, аналогичные в этой базе данных демографических исследований. Как подробно указано этот протокол конкретно нацелена на аминокислота уровня изменения, обусловленные варианты гена exonic это код для аминокислот, который исключает что патогенные intronic сращивания варианты могут играть роль в Моногенные заболевания. Учитывая их недавно продемонстрирована роль в кардиомиопатии, расширение резолюции, этот подход может быть оправдано для выявления intergenic «горячих точек» также. Кроме того применение порога ТБР может пропустить определенные «риск аллели», что, хотя существующие в популяции с ТБР, выше, чем, что болезни распространенности, может способствовать болезни патогенеза²⁷^,²⁸. Несмотря на эти ограничения этот анализ может быть адаптирована и может играть ключевую роль в обеспечении клиницистов, применяемые относительная вероятность заболевания патогенности при необходимости.

Наконец, учитывая склонность этого анализа для выявления критических областей внутри белка, аминокислоты уровня сигнала к шуму расчеты используя патологического мутации предлагает возможность выявления новых функциональных доменов белков, изучал. Учитывая замечание высокой патогенности сигнал шум в ключевых местах ионных каналов, например домен поры, избирательность фильтра, S2 трансмембранных доменов и KCNE1-связывающий домен KCNQ1, выявление «пик патогенности» в пределах области белка без известной функции может предложить Роман критических домена. К примеру, заметный пик патогенности мутаций, связанных с LQTS была обнаружена локализации аминокислотных остатков 912-930 по KCNH2-кодировке KCNH2 (Kv11.1). Этот регион белка имеет без самостоятельного функционального домена еще демонстрирует заметное склонность к мутации, связанные LQTS¹⁴. Как расширяет знания топологии белка, более сложные протеомики могут реально улучшить разрешение этого метода в будущем от анализа соотношения сигнал шум вдоль первичной структуры белка включить его среднего, высшего, или Четвертичная структура. Помимо современных вычислительных наук для этого анализа, таких как машинное обучение и искусственного интеллекта, дает возможность выявления новых моделей среди патологического против населения на основе генетической изменчивости, если надежные базы данных этих вариантов может быть созданный²⁹^,³⁰. В свою очередь этот метод может помочь лучше характеризующих и прогнозировать генотип фенотип отношения конкретных заболеваний и использоваться в сочетании с индивидуальной тестированием вероятность заболевания для улучшения диагностики доходность генетического тестирования. Кроме того этот анализ может обнаружить новый белок биологии и выявления роман локусов в геноме человека, которые проявляются с болезнью при изменении.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторы не имеют ничего сообщать.

Acknowledgments

APL поддерживается путем национальных институтов из здравоохранения K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu