Chemistry

Оптимизация синтетических белков: Идентификация Interpositional зависимостей индикации Конструктивно и / или функционально связанных остатков

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

Белковые выравнивания обычно используются для оценки сходства белковых остатков, и полученный консенсусной последовательности используется для идентификации функциональных блоков (например, домены). Традиционные модели формирования консенсуса не приходится interpositional зависимостей - функционально необходимого ковариации остатков, которые, как правило, появляются одновременно в ходе эволюции и через phylogentic дерева. Эти отношения могут выявить важную информацию о процессах сворачивания белков, термостабильность и формирования функциональных сайтов, которые, в свою очередь могут быть использованы для информирования инженерно синтетических белков. К сожалению, эти отношения существенно образуют суб-мотивы, которые не могут быть предсказана путем простой "большинством правило" или общепринятыми моделями даже СММ на основе, и результат может быть биологически недействительным "консенсус", который не является только не видел в природе, но менее жизнеспособны чем любой сохранившихся белка. Мы разработали визуальное апalytics инструмент, StickWRLD, которая создает интерактивную 3D представление выравнивания белка и четко отображает ковариации остатков. Пользователь имеет возможность панорамирования и масштабирования, а также динамически изменять статистический порог, лежащий в основе идентификации ковариантов. StickWRLD ранее были успешно использованы для выявления функционально-необходимые остатки ковариации в белков, таких как аденилаткиназы и в последовательностях ДНК, таких как эндонуклеазы целевых сайтов.

Introduction

Белковые выравнивания уже давно используется для оценки сходства остатков в семье белка. Часто наиболее интересные особенности белка (например, каталитические или другие сайты связывания) являются результатом сворачивания белка чего дистальных отделах линейной последовательности в контакт, и в результате эти, по-видимому, не связанные области в соответствие, как правило, развиваются и изменяются в скоординированной. В других случаях, функция белка может зависеть от его электростатического подписи, и мутации, которые влияют на электронный диполь компенсируются изменений в отдаленных заряженных остатков. Аллостерические эффекты могут также вызвать долгосрочные последовательные и пространственные зависимости между вычетов идентичностей. Независимо от их происхождения, эти функционально-необходимые ковариации остатков - между позиционные зависимости (IPDS) - не может быть очевидным с визуального осмотра выравнивания (рис 1). Идентификация IPDS - а такжекакие конкретные остатки в этих позиций, как правило, covary как единое целое - может выявить важную информацию о процессах сворачивания белка и образованию функциональных сайтов. Эта информация может быть использована для оптимизации синтетические (система) белки по термостабильности и активности. Давно известно, что не все точечные мутации в направлении консенсуса обеспечить улучшенную стабильность или активность. Совсем недавно, белки предназначен, чтобы воспользоваться известными IPDS в их последовательности, как было показано, чтобы привести к большей активностью, чем такой же белок, предназначенный исключительно из консенсусной ^1,2 (рукописи в процессе подготовки), похожего на идее стабилизации точечные мутации ^3.

К сожалению, традиционные модели формирования консенсуса (например, правило большинства) только захватить IPDS случайно. Консенсус и положение Удельная оценочная матрица методы не знают IPDS и только "правильно 'включить их в модели, когда зависимых остатковтакже являются наиболее популярными для остатков этих позиций в семье. Сеть модели Маркова могут захватить IPDS, когда они последовательно проксимальных, но их типичная реализация игнорирует все, кроме непосредственных соседей последовательных, и даже в лучшем случае, расчеты скрытой модели Маркова (см рисунок 2) становятся неразрешимыми, когда зависимостей разделены в последовательности более чем дюжины позиции ^4. Поскольку эти IPDS существу образуют "суб-мотивы", которые не могут быть предсказана путем простой "большинством" правило консенсуса или моделей даже ^СММ-5,6 на базе результат может быть биологически недействительным "консенсус", который не является только не видел в природе, но это менее жизнеспособными, чем любая сохранившихся белка. Системы, основанные на марковских случайных полей, таких как GREMLIN ^7, пытаются преодолеть эти проблемы. Кроме то время как сложные биологические / биохимические методы, такие как несмежный рекомбинации ^3,8 могут быть использованы для IDEntify существенные элементы белка по регионам, они требуют значительных затрат времени и слесарно для точной одного базового пара должны быть достигнуты.

StickWRLD ⁹ на основе программы на Python, что создает интерактивный 3D представление выравнивания белка, что делает IPDS ясно и легко понять. Каждая позиция в выравнивании представлена в виде столбца в дисплее, где каждый столбец состоит из стопки сфер, по одному для каждой из 20 аминокислот, которые могут присутствовать в таком положении в течение выравнивания. Размер сфера зависит от частоты встречаемости аминокислоты, так что пользователь может сразу подбирать консенсуса остаток или относительное распределение аминокислот в этом положении, просто посмотрев на размер сфер. Колонки, представляющие каждую позицию обернуты вокруг цилиндра. Это дает все сферы, представляющий возможную аминокислоту в каждом положении в створе, ясное 'прямой видимости "чтобы любой другой возможности аминокислоты в любом другом положении. До визуализации, StickWRLD вычисляет корреляции между прочность всех возможных комбинаций остатков для идентификации IPDS ^9. Для представления IPDS, линии проведены между остатками, которые в coevolving выше, или ниже, чем можно было бы ожидать, если остатки, присутствующие в положениях были независимыми (IPDS).

Это не только визуализации шоу, какие позиции последовательности взаимодействовать эволюционно, но, как краевые линии IPD рисуются между аминокислотными сфер в каждой колонке, пользователь может быстро определить, какие конкретные аминокислоты, как правило, coevolving в каждом положении. Пользователь имеет возможность поворота и исследовать структуру визуализировать IPD, а также динамически изменять статистические пороги управления отображением корреляций, делает StickWRLD мощный инструмент для обнаружения IPDS.

Такие приложения, как гном ⁷ similАрли отображать сложные реляционной информацией между остатками - но эти отношения вычисляются с помощью более традиционных моделей Маркова, которые не предназначены для определения любых условных связей. Таким образом, они способны быть отображены в виде 2D проекций. Напротив, StickWRLD можно вычислить и отобразить многоузловых условные зависимости, которые могут быть затемненный если оно вынесено в 2D графике (явление, известное как края окклюзии).

StickWRLD в 3D вид также имеет ряд других преимуществ. Позволяя пользователям управлять визуальных - панорамирование, вращение, и масштабирование - функции, которые могут быть затемненный или неинтуитивными в 2D представлении могут быть более легко увидеть в 3D цилиндра StickWRLD. StickWRLD существу визуальный инструмент аналитика, используя мощь способности распознавания человеческого мозга, чтобы увидеть закономерности и тенденции, и способность исследовать данные с различных точек зрения поддается на это.

Protocol

1. Скачать и установка

Используйте компьютер имеет i5 Intel процессор или выше, по крайней мере 4 Гб оперативной памяти, и работает Mac OS X или GNU / Linux (например, Ubuntu) ОС. Кроме того, Python 2.7.6 ¹⁰ и ¹¹ WxPython 2.8, SciPy ¹² и ¹³ PyOpenGL питон библиотеки требуется - загрузить и установить каждый из своих хранилищ.
Скачать StickWRLD как архив почтового содержащей все соответствующие сценарии Python. Скачать "fasta2stick.sh" сценарий для преобразования стандартных выравнивания последовательностей ДНК FASTA / белок в формат StickWRLD.
Распакуйте архив и поместите полученную папку StickWRLD на рабочем столе. Поместите "fasta2stick.sh" сценарий на рабочем столе, а также.

2. Подготовьте Выравнивание

Создать выравнивание белковых последовательностей, используя любой станDard программное обеспечение выравнивания (например, ClustalX ^14). Сохранить выравнивание на рабочем столе в формате FASTA.
Откройте приложение терминала на компьютере Mac или GNU / Linux и перейдите на рабочий стол (место нахождения "fasta2stick.sh" сценария оболочки), введя кд ~ / Desktop и нажать возвращение. Выполнить "fasta2stick.sh" сценарий, набрав ./fasta2stick.sh в терминале. Если сценарий не выполнить, убедитесь, что он исполняемый - в терминальной типа CHMOD + х fasta2stick.sh сделать скрипт исполняемым.
Следуйте инструкциям в скрипте, чтобы указать имя входного файла (файл, созданный в 1,2 выше) и желаемое имя выходного. Сохраните файл вывода (который сейчас находится в правильном формате для StickWRLD) на рабочем столе.

3. Запуск StickWRLD

Перейдите в папку StickWRLD исполняемых с помощью терминала Applicвания компьютера Mac или GNU / Linux. Например, если папка StickWRLD на рабочем столе, тип кд ~ / Desktop / StickWRLD / Exec в терминале.
Запустите StickWRLD набрав питон-32 stickwrld_demo.py в терминале.
Убедитесь, что панель StickWRLD погрузчик данных видно на экране (рис 3).

4. Загрузка данных

Загрузите выравнивание преобразованного последовательность белка, нажав кнопку "Load белка ..." кнопку.
Выберите файл, созданный в шаге 3 выше и нажмите "Открыть". StickWRLD откроется несколько новых окон, в том числе "StickWRLD Control" (рисунок 4) и "StickWRLD - OpenGL" (рисунок 5).
Выберите - окно "StickWRLD OpenGL". Выберите "Сброс Фото" из меню "OpenGL", чтобы отобразить визуализации по умолчанию StickWRLD в "сверху-вниз"Вид через цилиндр, представляющий данные в изменяемого размера окна OpenGL ..

5. Параметры просмотра

Установите флажки для столбцов "Ярлыки" и "Бал Ярлыки" в "StickWRLD управления" панели (рисунок 4), чтобы отобразить значения для столбцов и шары.
Снимите флажок "Column Края" в "StickWRLD управления" панели, чтобы скрыть столбец линии края.
Установите "Колонка" Толщина 0,1 в "StickWRLD управления" панели, чтобы нарисовать тонкую линию через колонки, что делает его легче ориентироваться в 3D-вид. Нажмите вернуться, чтобы принять изменения.
Сброс мнение в "StickWRLD - OpenGL" окна, как в шаге 5.3 выше, а затем нажмите кнопку "полный экран", чтобы максимизировать вид.

6. Навигация

Поверните дисплей 3D StickWRLD удерживая левую кнопку мыши WHIле перемещая мышь в любом направлении.
Осмотрите дисплей 3D StickWRLD, удерживая нажатой правую кнопку мыши, перемещая мышь вверх или вниз.

7. Нахождение Interpositional зависимости (IPDS)

Просмотрите результаты по панорамирование и масштабирование, как описано в шаге 6. Coevolving остатков, превышающих пороговые требования как р и остатка соединены через края линий, как показано на рисунке 6. Если есть слишком много или слишком мало ребер, соединяющих остатков, изменить Остаточная Порог (на "StickWRLD управления" панели), чтобы показать меньше или больше, края.
Увеличьте остаточного порог на StickWRLD управления панели до тех пор, нет IPD краевые линии не показаны, и медленно сползать вниз, пока не появятся отношения. Продолжить повышение остаточного пока у вас есть достаточное количество отношений для изучения.
Определить отношения, которые связаны либо остатки известного интереса (например, в мотиве или связывания / удовольствиеctional сайт) или остатки, которые дистальный друг с другом в выравнивании (предполагая, что они являются проксимальная в сложенном белке)

8. Выбор и сохранение Результаты

С помощью команды + левый клик на любых краев интерес. Панель управления StickWRLD укажет столбцы и подключить специфические остатки, например, "(124 | G) (136 | H)" (рисунок 7). Сплошные линии представляют положительные ассоциации; пунктирные линии представляют негативные ассоциации.
Нажмите кнопку "Выход" Edges на "StickWRLD управления" панели для сохранения отформатированный файл в обычный текст (edge_residual.csv) всех видимых кромок, в том числе присоединившихся остатков и их фактических значений остаточных, в / StickWRLD / Exec / Каталог.

Representative Results

StickWRLD был использован ранее для выявления зависимостей interpositional (IPDS) между остатками в обоих ДНК и белка ^{3 15-17} рядов. Эти ко-эволюции остатки, а часто дистальной друг от друга в выравнивания последовательностей, часто проксимальный друг с другом в сложенном белке. StickWRLD позволяет быстро обнаруживать остатков конкретных совместной встречаемости в таких сайтов, например., Аланин в положении "х" сильно коррелирует с треонина в положении "у". Такие корреляции могут свидетельствовать о доказательных структурных отношений, и, как правило, сайты, которые, по необходимости, совместно развиваются. StickWRLD способен обнаружить эти отношения, даже когда более "традиционный" подходы, используя ПММ, чтобы описать мотивы неудачу. Например, анализ выравнивания PFAM домена АДК крышки с помощью StickWRLD показывает сильную положительную корреляцию между остатками цистеина (С) в положениях 4 и 8 и скоординированныйПара С в положениях 35 и 38. В то же время, StickWRLD показали аналогичную сильную положительную взаимосвязь между гистидин (Н) и серина (S) на 4 и 8, с сильным отрицательным отношений между ними и C квартета на 4, 8, 35 и 38, и сильная положительная взаимосвязь с аспарагиновой кислотой (D) и треонин (T) в положениях 35 и 38 соответственно. Существуют дополнительные IPDS между H, S, D, T мотив и Т и G в положении **** 10 и 29 в б Сенная **** подчеркнув условный характер этих IPDS - tetracysteine мотив не "уход" о самобытности в этих двух позициях, в то время как гидрофильные H, S, D, Т триада требует определенных остатков в этих положениях почти абсолютно. Эти две совершенно разные мотивы остатков положение зависит от может выполнять ту же роль крышку ADK. Как можно видеть на фиг.6, большой кластер IPDS, в том числе объединения 3-узла между G (глицин) в положении 132, Y (тирозин) в положении 135, и P (ProLiпе) в положении 141, видна на переднем плане (6А). На рисунке 6B, вид был перекос в положение пользователя чуть выше цилиндра, открывая IPD между H (гистидин) в положении 136 и М (метионин) в положении 29, 107 остатков далекого. PFAM СММ полученных мотив тот же домен (рисунок 2), между тем, не только не обнаружить их как специально сотрудничество, происходящих варианты мотив, но и определяет общие группировки в биологически неподдерживаемый схеме ^16.

Фигура 1
Рисунок 1. "Метро Карта" представление В. Сенная аденозинкиназа доменная структура (АДК) Стекло. Стрелки указывают IPDS выявленных в расстановке PFAM из ADK области крышку, StickWRLD. StickWRLD способен правильно определить IPDS в кластерной OF остатки, которые находятся в непосредственной близости в сложенном белке. Особый интерес представляют пара Т и G в положениях 9 и 29, который только образуют IPD, когда тетрады остатков на 4, 7, 24 и 27 не C, C, C, C). Отображается число остаточных представляет В. Сенная положение и не PFAM позиции выравнивания. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 2. Skylign ¹⁸ скрытых Марков Модель (СММ) Последовательность Логотип домена АДК крышки. В то время как СММ являются мощными инструментами для определения вероятности в каждой позиции, а также вклад каждого сайта на общей модели, позиционная самостоятельность ПММ делает их непригодными для обнаружения IPDS. Эта модель не предполагает какой-либо изЗависимости видели в представлениях StickWRLD (рисунок 6). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 3. StickWRLD погрузчик данных. Пользователи могут выбирать из существующих демонстрационных данных или загрузить свои собственные данные в форме ДНК или белковой последовательности рядов.

Рисунок 4. Окно StickWRLD управления. Панель управления позволяет пользователю изменять различные свойства вид, а также регулировать пороги управления отображением краевых линий, указывающих отношения между остатками (IPDS). Обведены красным цветом по умолчанию, что, как правило, нуждаются в т О отрегулировать для лучшего просмотра любого набора данных. Остаточная стоимость устанавливает порог (наблюдаемое ожидалось), для которых разъем / объединение линий рисуются. Элементы управления для столбцов и мяч этикеток контролировать ли или нет (например, "" для аргинина) отображаются позиции столбца и значения остатков. В колонке Краевые переключает контроль линии и выключает дисплей краевых линий, соединяющих колонки - для плотных массивов данных это лучше выключен. Управление Колонка Толщина ли не сам столбец отображается -. Установка этого параметра в очень малой величины (например, 0,1) будет рисовать линию через сфер в колонке, что делает его легко отличить столбцы друг от друга Пожалуйста, нажмите здесь Чтобы смотреть большую версию этой фигуры.

ghres.jpg "ширина =" 600 "/>
Рисунок 5. Начальное вид окна StickWRLD OpenGL с домена крышка набора данных белков аденилаткиназы загружен. Первоначальный перспектива выглядит "вниз" через цилиндр, состоящий из выравнивания последовательности позиций. Пользователь может повернуть цилиндр с помощью левой мыши-клик-сопротивления, и увеличения / уменьшения масштаба с помощью правой кнопки мыши щелкните кнопкой мыши. Первоначальный вид вполне плотная, потому что дисплей показывает по умолчанию даже небольшие ставки коэволюции. Для многих белков, в этом месте, различные модули могут быть обнаружены, но даже в плотно совместно развивается белки дисплей может быть быстро и интерактивно упрощенные, чтобы найти наиболее важные IPDS, используя интерфейс StickWRLD. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этот показатель.

ghres.jpg "ширина =" 700 "/>
Рисунок 6. Крупным планом вид визуализации StickWRLD белка домена крышка аденилаткиназы. Здесь мы изменили по умолчанию остаточный до 0,2. Это увеличивает порог отображения между вычетов краев, показывая меньше края. Края, которые остаются указывают сильно связанные IPDS. Кроме того вид был повернут и увеличено, чтобы позволить для более удобного просмотра краев. (А) большой кластер IPDS видна на переднем плане, в том числе объединения 3-узла между G (глицин) в положении 132, Y (тирозин) в положении 135, и P (пролин) в положении 141. (B) Вид был перекос в положение пользователя чуть выше цилиндра, открывая IPD между H (гистидин) в положении 136 и М (метионин) в положении 29, 107 остатков далекого. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенную версию этого фигура.

Рисунок 7. Окно StickWRLD управления правый нижний просмотр информации. CTRL + левая нажав на объект (например, сферы или края) в окне OpenGL отображает информацию для объекта в правом нижнем углу окна StickWLRD управления. Здесь мы видим информацию для края IPD между метионина в положении 29 и гистидина в положении 136.

Discussion

StickWRLD успешно используется для выявления таких IPDS в крышке области аденилаткиназы ^16, а также связанные базы ДНК в Ро-зависимой терминаторов ⁹ и роман сплайсинга сайт специфика в архей тРНК эндонуклеазы интрон ⁶ целевых сайтов. Эти IPDS не были обнаружены с помощью прямого изучения рядах.

StickWRLD отображает каждую позицию в створе как колонны 20 «сферах», где каждая сфера представляет собой один из остатков 20 аминокислот и размера области указывает на частоту возникновения этой конкретной остатка в этом столбце (рисунок 4). Колонны расположены в цилиндре, с краевые линии соединения остатков в разных колонках (с указанием МПД). Эти краевые линии только обращается, если соответствующие остатки ковариации на частоте превосходства как р-значение (значения) и остаточные (ожидаемые - наблюдаемые) пороги.

Обнаружение сопутствующих взаимозависимых остатков, или IPDS, в дистальных отделах выравниванием ДНК или белка последовательности сложно с помощью стандартной последовательности выравнивания инструменты ^6. Хотя такие инструменты генерации консенсуса, или мотив, последовательности, этот консенсус во многих случаях простое большинство, правило усреднения и не передать ковариационными отношения, которые могут образовывать один или несколько суб-мотивы - группы остатков, которые, как правило, совместно развиваться. Даже НММ модели, которые способны обнаруживать соседние зависимостей, не может точно модель мотивы последовательности с дистальной IPDS ^5. Результатом является то, что рассчитывается консенсус в действительности может быть «синтетический» последовательность не встречается в природе - белки и сконструированные на основе такого вычислительного консенсуса не может, по сути, является оптимальным. В самом деле, Pfam СММ для ADK бы предположить, что химерный белок, содержащий половину tetracysteine мотив, и половина из Н, S, D, Т мотив, функционально как приемлемаякак и любой реально существующей ADK. Это не так, поскольку такие химеры (и многие другие купажи этих мотивов) каталитически мертвую ^4,19.

При поиске корреляций, важно, что остаточная порог регулировать, чтобы обеспечить открытие соответствующих корреляций установки над уровнем, на котором любые края видели, а затем постепенно наращивает порог обратно порог. Это гарантирует, что только наиболее значимые края считаются изначально.

Альтернативный подход, чтобы начать с остаточной порогового значения крайне низким. Это приводит к отображению всех существенных ребер. Отсюда остаточный порог постепенно может быть увеличена, что позволяет отказаться от кромки, пока образцы не возникают. В то время как этот подход менее полезен при поиске включения конкретных узлов (например, применение знаний в предметной области), это позволяет за открытие неожиданных отношений с использованием StickWRLD, как по отношениюUAL аналитический инструмент, чтобы обнаружить новые закономерности в визуализации данных.

StickWRLD ограничивается в первую очередь доступной памяти системы, на которой он выполняется, а также резолюции устройства отображения. Хотя нет никаких теоретических ограничений на количество точек данных StickWRLD может исследовать, а последовательности до 20000 позиций были протестированы на практике StickWRLD выполняет лучше с последовательностями примерно до 1000 позиций.

Основное преимущество StickWRLD заключается в его способности идентифицировать группы остатков, которые covary друг с другом. Это существенное преимущество по сравнению с традиционным подходом статистического консенсусной последовательности, которая просто статистическое усреднение и не принимать во внимание коэволюции. Хотя в некоторых случаях ковариации остатки могут быть просто артефакт филогении, даже эти остатки выдержали «испытание выбора", и, таким образом, вряд ли умаляет functionaмируемости любого белка инженерии, чтобы включить их.

При использовании StickWRLD для идентификации IPDS в канонической ДНК или белок консенсусной последовательности / Motif до инженерно синтетических вариантов позволит снизить вероятность ошибок и поддерживает быструю оптимизацию функции, следует отметить, что StickWRLD может быть использован в качестве обобщенного идентификации корреляция инструмента и не ограничивается исключительно данными белка. StickWRLD может быть использован, чтобы визуально обнаружить совместное вхождение любых переменных в любой должным кодированного набора данных.

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org