The Journal of Visualized Experiments (JoVE) is a peer reviewed, PubMed-indexed video journal. Our mission is to increase the productivity of scientific research.
This translation into Russian was automatically generated through Google Translate.
English Version | Other Languages
1Center for Computational Medicine and Bioinformatics, University of Michigan, 2Center for Bioinformatics and Department of Molecular Bioscience, University of Kansas
Roy, A., Xu, D., Poisson, J., Zhang, Y. A Protocol for Computer-Based Protein Structure and Function Prediction. J. Vis. Exp. (57), e3259, doi:10.3791/3259 (2011).
Секвенирование генома проектов зашифрованные миллионы белковой последовательности, которая требует знания их структуры и функции для улучшения понимания их биологическая роль. Хотя экспериментальные методы могут дать подробную информацию для небольшой части этих белков, численное моделирование необходимо для большинства белковых молекул, которые экспериментально неохарактеризованных. I-TASSER сервер он-лайн верстак с высоким разрешением моделирования структуры белка и функции. Учитывая белковой последовательности, типичный выход из I-TASSER сервер включает вторичные предсказания структуры, предсказал растворителя доступности каждого из остатков, гомологичный шаблон белки обнаружены потоки и структуру трассы, до пяти полнометражных третичной структурной модели и структуры основе функциональной аннотации к классификации ферментов, Джин Онтология сроки и белок-лиганд сайтов. Все предсказания с меткой показатель достоверности которыхрассказывает, как точные предсказания, не зная экспериментальных данных. Чтобы облегчить специальные запросы конечных пользователей, сервер предоставляет каналы, чтобы принять заданные пользователем между остаток расстояния и контактные карты для интерактивного изменения I-TASSER моделирования; он также позволяет пользователям задавать любые белки, как шаблон, или исключить любой шаблон белков в процессе моделирования структуры сборки. Структурная информация может быть собрана пользователей на основе экспериментальных доказательств или биологического понимания с целью улучшения качества I-TASSER прогнозы. Сервер был оценен как лучших программ для белковую структуру и функции прогнозы в последнее всей общины экспериментах CASP. Есть в настоящее время> 20 000 зарегистрированных ученых из более чем 100 стран мира, которые используют онлайн-I-TASSER сервера.
Метод обзор
После последовательность-к-структуры на функцию парадигмы, I-TASSER процедуру 1-4 для структуры и функции моделирования включает в себя четыре последовательных стадии: (а) шаблон идентификации LOMETS 5, (б) фрагмент структуры сборки на реплику- обмен Монте-Карло 6; (с) уточнение структуры атомного уровня, используя REMO 7 и FG-MD 8, и (г) структуры основе функции интерпретации использованием кофактора 9.
Шаблон идентификации: для запроса последовательность представленных пользователем, последовательность первых резьбовые через представителя PDB библиотеки структуру локально установленные LOMETS мета-Threading сервера. Threading представляет собой последовательность структуры выравнивание процедура, используемая для определения шаблонов белков, которые могут иметь подобные структуры или содержат аналогичные структурным мотивом, как запрос белка. Для увеличения охвата гомологичных Темплели обнаружений, LOMETS объединяет множество состоянии современных алгоритмов, охватывающих различные резьбы методологий. С другой потоковой программы имеют различные системы скоринга и выравнивания чувствительности, качество создаваемой потоками ряды с каждым резьбы программы оценивается нормированного Z-оценка, которая определяется как: 
где Z-оценка является оценка в единицах стандартного отклонения относительно среднестатистической цены всех выравнивания генерируются программой, и Z 0 является конкретным программам Z-счет отсечки определяется на основе крупномасштабных потоков тестах 5 отличить «хороший »и« плохими »шаблоны. Шаблона с высоким Z-счет означает, что топ шаблоны выравнивания оценка значительно выше, чем большинство других шаблонов, который обычно означает, что выравнивание соответствует хорошей моделью. Если большая часть верхней резьбы шаблоны приветGH нормированного Z-оценки, точность окончательного I-TASSER модели, как правило, высока. Однако, если белок крупных и охват резьбы выравнивания сводится к небольшой области запрос белка, высокое нормированного Z-оценка не обязательно означает высокую точность моделирования для полнометражного модели. Top две резьбы ряды с каждым резьбы программы собираются и используются для следующего шага структуры сборки.
Итерационные моделирования структуры сборки: После резьбы процедуры запроса последовательность разделяется на потоки выровнены и выровненным регионах. Непрерывная фрагментов в потоки выравнивания вырезали из шаблонов и использовать непосредственно для структуры сборки, в то время выровненным регионах цикла построены на основе моделирования первоначально. Процедура структуры Сборка осуществляется на решетке система руководствуется реплики обмена Монте-Карло 6. I-TASSER силовое поле включает в себя водород-бонахождении взаимодействий 10, основанной на знаниях статистической точки зрения энергии, получаемой из известных белковых структур в PDB-11, последовательный основе контактов с прогнозами SVMSEQ 12, и пространственных ограничений собраны из LOMETS 5 резьбы шаблонов. Конформационные приманки генерируется в низкотемпературной реплики во время моделирования сгруппированы по Spicker 13 для определения структуры низкой свободной энергией. Кластер центроиды верхней кластеров получены путем усреднения 3D-координаты всех кластерных структурных ложных целей и используются для окончательного поколения модели. Моделирования и кластеризации процедуру повторяют еще два раза для удаления стерических столкновения и дальнейшего совершенствования глобальной топологии.
Атомная уровне построения модели и уточнение: кластер центроиды, полученные после Spicker кластеризации сводятся белка модели (каждый остаток лице C α и боковой цепи центра масс) и чпр. ограниченной биологических приложений. Строительство полной атомной модели от моделей снижается осуществляется в два этапа. На первом этапе, REMO 7 используется для построения полной атомных моделей от C-альфа следы за счет оптимизации Н-связи сетей. На втором этапе, REMO полный атомных моделей дополнительно уточнены FG-MD 14, который улучшает позвоночник торсионных углов, длины связей и боковой цепи ориентации ротамер, по молекулярно-динамического моделирования, а руководствуются структурные фрагменты из искали PDB структур ТМ-выровнять. FG-MD изысканные модели используются в качестве окончательной модели для третичной структуры прогнозы по I-TASSER.
Качество создаваемой модели оцениваются на основе показатель достоверности (C-счет), который определяется на основе Z-счетом LOMETS резьбы выравнивания и сближения I-TASSER моделирования, математически сформулировать так: 
где
C-оценка имеет сильную корреляцию с качеством I-TASSER моделей. Объединив C-счет и белка длины, точность первых I-TASSER моделей можно оценить с Средняя ошибка 0,08 для ТМ-оценка и 2 Å для СКО 15. В общем, модели С-оценка> - 1.5 должны иметь правильную раза. Здесь, СКО и ТМ-оценка оба хорошо известные меры топологического сходства между моделью и нативной структуры. ТМ-оценка ценныеэс-диапазоне в интервале [0, 1], где более высокий балл указывает лучшей структуре соответствуют 16,17. Однако для более низким рейтингом модели (т.е. 2-й модели -5 е место), соотношение C-счет с ТМ-счет и СКО гораздо слабее (~ 0,5), и не могут быть использованы для надежной оценки абсолютного качества модели.
Это первая модель всегда лучшая модель в I-TASSER симуляции? Ответ на этот вопрос зависит от типа цели. Для легкой мишенью, первой моделью, как правило, лучшая модель и ее C-оценка, как правило, намного выше, чем остальные модели. Тем не менее, для твердых мишенях, где потоки не имеют значительные хиты шаблон, первая модель не обязательно лучшая модель, и я-TASSER на самом деле испытывает трудности в выборе лучших шаблонов и моделей. В этой связи рекомендуется, чтобы проанализировать все 5 моделей для жестких задач и выберите их на основе экспериментальных данных и биологических знаний.
Функция PREDictions: На последнем этапе, окончательный 3D-моделей, созданных с FG-MD используются для прогнозирования три аспекта функции белка, а именно: а) фермент комиссия (ЕК) числа 18 и (б) Гена Онтология (GO) 19 условий и ( в) сайты связывания для малых лигандов молекулы. Для всех трех аспектов, функциональные интерпретации генерируются с использованием кофактором, который является новым подходом, чтобы предсказать функцию белка, основанный на глобальном и локальном сходство с шаблоном белков в PDB с известной структурой и функциями. Во-первых, глобальной топологии предсказал модели сравнивается с функциональной библиотеки шаблонов с помощью программы структурных выравнивание ТМ-20 выровнять. Далее, набор белков наиболее близок к целевой модели выбираются из библиотеки на основе сходства их глобальные структуры, а также обширный локальный поиск производится для определения структуры и последовательности сходство рядом активных / сайт связывания региона. Результирующее глобальных и локальных оценки сходства используются для ранжированияШаблон белков (функциональных гомологов) и передача аннотации (ЕК номера и Джин Онтология 19 терминов) на основе хитов скоринга. Кроме того, связывание лигандов остатков сайте и связывание лигандов режиме выводятся на основе местных выравнивание запрос с известными лиганд остатков сайта в топ забил шаблоны функций 9.
Качество функции (ЕС и GO термин) предсказания в I-TASSER оценивается на основе функциональных оценка гомологии (Fh-счет), которая является мерой глобального и локального сходства между запросом и шаблон, и определяется как: 
где С-оценка является оценкой качества предсказал модель, как это определено в формуле. (2); ТМ-оценка мер глобальные структурные сходства модели и шаблоны белков; СКО Али СКО между моделью и шаблон структуры в соответствие структурно региона от ТМ-20 выровнять; Cov представляет охвата структурных выравнивания (т.е. отношение структурно соответствие остатков, деленная на запрос длины); ID Али идентичности последовательности в ТМ-выравнивание выравнивание. Оценкам оценка доверия к прогнозам ЕС количество также включает в себя термин для оценки соответствия активных сайтов (ACM) между запросом и шаблонов в пределах определенной локальной области, рассчитывается следующим образом: 
где N т представляет собой количество шаблонов присутствующих отложений в пределах района, N Али числа выровнены запросов шаблон пары остатков, D II является расстояние между C α я ю пару выровнены остатков, D 0 = 3,0 А Расстояние среза, M II является BLOSUM счетов между г-й паре выравниваются остатков. В общем, FH-оценка находится в диапазоне [0, 5] и ACM оценка составляет от [0, 2], Где высокие деления указывают на более уверенно функциональных обязанностей. ACM оценка также используется для оценки локальной структуры и последовательности сходство возле лиганд-связывающие сайты, которые называют BS-счет.
1. Представление белковой последовательности
2. Наличие результатов
3. Вторичная структура и растворителя прогнозы доступности
4. Третичная структура прогнозы
5. LOMETS целевой шаблон выравнивания
6.Структурные аналоги в PDB
7. Функция прогноз с помощью кофактора
8. Фермент комиссии номер прогноз
9. Онтология гена (ГО) прогнозы срок
10. Белок-лиганд прогнозы сайт
11. Представитель результаты

Рисунок 1 выдержка из I-TASSER результате страница, показывающая () FASTA запроса в формате последовательности;. (B) предсказал вторичной структуры и связанные с ними оценки уверенности, и (C) предсказал растворителя доступности остатков. Анализируемой области ядра и потенциальное место гидратации в запросе выделены голубым и красным прямоугольниками, соответственно.

Рисунок 2.

Рисунок 3. Пример I-TASSER результате страница, показывающая десятку определили резьбы шаблонов и выравнивания по LOMETS 5 резьбы программ. Качество резьбы выравнивания оценивается на основе нормированных Z-счет (выделено зеленым), где значение> 1 отражает уверенность выравнивания. Унифицированные остатков в шаблоне, идентичные соответствующие вычеты запроса выделяются цветом для обозначения присутствия сохраняется остаток / мотив, а отсутствие согласования в большинстве топ шаблонов указывает на наличие нескольких доменов в белке запрос и выровненным остатки соответствуют областям домена компоновщика. Нажмите здесь, чтобы посмотреть полноразмерные версии рисунке 3.

Рисунок 4. Пример результата страница, показывающая десятку определили структурные аналоги и структурных трасс, определенных ТМ-20 выровнять структурные программы выравнивания. Рейтинг аналогов показано на основано на ТМ-оценка (выделены синим) структурного выравнивания. ТМ-оценка> 0,5 указывает, что два сравниваемых структур аналогичную топологию, а ТМ-оценка <0,3 означает сходство между двумя случайными структурами. Структурно соответствие пар остатков выделяются цветом в зависимости от их аминокислотного собственности, в то время как выровненным регионах, обозначены «-».ove.com/files/ftp_upload/3259/3259fig4large.jpg "> Нажмите здесь, чтобы посмотреть полноразмерные версии рисунке 4.

Рисунок 5. Пример I-TASSER результате страница, показывающая определены фермента гомологов запрос белка в PDB библиотеки. Уровень достоверности прогнозирования числа ЕС, анализируется на основе ЕС-оценка (выделены зеленым цветом), где EC-оценка> 1,1 указывает функциональное сходство (те же первые 3 цифры числа ЕК) между запросом и шаблон белка.

Рисунок 6. Пример I-TASSER результате страница, показывающая GO долгосрочные прогнозы для запроса белка. Функциональные гомологов для запроса белка в библиотеку шаблонов Онтология гена оцениваются на основе их Fh-счет (в прямоугольник оранжевого цвета). Общие функциональные особенности этих топ-скоринга хитов выводятся на GENER ели окончательного GO долгосрочные прогнозы для запроса белка. Качество предсказал GO условий определяется на основе GO-оценка (показаны зеленым цветом), где GO-оценка> 0,5 указывает надежные предсказания. Нажмите здесь, чтобы посмотреть полноразмерные версии рисунке 6.

Рисунок 7. Пример I-TASSER результате страница, показывающая десятку белок лиганд прогнозы сайт с помощью кофактора 9 алгоритма. Рейтинг предсказал сайты связывания на основе числа предсказали лиганд конформации, которые имеют общие связывающего кармана в запросе. BS-оценка (выделено красным) является мерой местных последовательность и структура сходство между предсказанным и сайт связывания шаблона, а также полезен при анализе сохранения обязательных карманы сайта.
les/ftp_upload/3259/3259fig8.jpg "/>
Рисунок 8. Пример внешних файлов сдержанность используется для для определения остатков остатков контакт / расстояние ограничений.

Рисунок 9. Пример сдержанности файлов, используемых для определения шаблонов белка I-TASSER сервера. Пользователь может указать запрос-шаблон выравнивания либо в () FASTA формате, или (B) 3D-формате.

Рисунок 10. Пример файла, используемого для исключения шаблона во время I-TASSER процедура моделирования структуры. Первый столбец содержит PDB идентификатор шаблона белки должны быть исключены. Вторая колонка используется для указания отсечки идентичности последовательности, которая будет использоваться для других подобных шаблонов в библиотеку шаблонов.
Протокол изложенная выше общего руководства для структуры и функции моделирования с использованием I-TASSER сервера. Хотя это автоматизированная процедура очень хорошо работает для большинства белков, вмешательство человека часто помогают значительно улучшить точность моделирования, особенно для белков, отсутствие близких шаблонов в PDB библиотеки. Пользователи могут выступать в ходе I-TASSER моделирования в следующих способов: (а) расщепление нескольких доменов белков, (б) предоставление внешних ограничений по совершенствованию структуры сборки и (в) удаление шаблонов во время моделирования.
Разделение нескольких доменов белка:
Многие длинные последовательности белка часто содержат несколько доменов, привязанных к гибким компоновщик регионах, что делает их структуру выяснение трудно с использованием как экспериментальных и расчетных методов. Тем не менее, как домены независимо складывания лицами и могут выполнять различные молекулярные функции, этоЖелательно разделить длинный нескольких доменов белков и модель каждого домена отдельно. Моделирование областей индивидуально не только ускорит процесс прогнозирования, но и повышает качество запросов шаблон выравнивания, что приводит к более надежной структурой и функцией предсказания.
Доменных границ в белковых последовательностей может быть предсказано использованием свободно доступных внешних онлайновых программ, таких как NCBI CDD 24, 25 или PFAM InterProScan 26. Кроме того, если LOMETS резьбы выравнивания доступны для запросов белка, доменные границы могут быть расположены по визуальной идентификации длинные отрезки выровненным остатков в верхней резьбы шаблонов (см. шаг 5.4). Эти выровненным регионах основном соответствуют областям домена компоновщика. Если несколько шаблонов доменов, которые уже доступны в шаблоне PDB библиотеку со всеми областями запроса выровнены, то запрос белка может быть смоделирована как всю длину.
Предоставление внешних ограничений
(ном. Z-оценка> 1) в библиотеку шаблонов, полученных пространственных ограничений в основном высокой точности и I-TASSER будет генерировать высокое разрешение структурных моделей для этих белков. Наоборот, по запросу белки, которые имеют слабые или нет резьбы хит (ном. Z-оценка <1), собранных пространственных ограничений, часто содержат ошибки из-за неопределенности шаблон и выравнивание. Для этих белковых мишеней, указанных пользователем пространственной информации может быть очень полезным для улучшения качества предсказанных моделью. Пользователи могут осуществлять внешний ограничений на I-TASSER сервера двумя способами:
А. Укажите контактный / расстояние ограничений
Экспериментально характеризуется между остатком контакты / расстояния, например из ЯМР илисшивания экспериментов, может быть указано, загрузив файл сдержанность. Файл примера показано на рисунке 8, где Колонка 1 определяет тип ограничения, то есть "DIST" или "CONTACT". Для расстояния сдержанность (DIST), столбцы 2 и 4 содержат остатки позиции (I, J), графы 3 и 5 содержат атом-типов в остатке и столбце 6 указывается расстояние между двумя заданными атомов. Для контакта ограничения (КОНТАКТ), столбцах 2 и 3 содержат положения (I, J) вычетов, которые должны быть в контакте. Расстояние между центром боковые цепи этих контактов пар Остаток решили на основе наблюдаемых расстояний в известных структур PDB. I-TASSER постараемся привлечь этих атомных пар вблизи указанного расстояния во время моделирования структуры утонченности.
Б. Укажите шаблона белковую структуру
LOMETS резьбы программы используют представитель PDB библиотеку, чтобы найти правдоподобное дворы для запроса протЭйн. Хотя использование библиотеки представитель структура помогает сократить время, необходимое для вычисления последовательности структуры трасс, вполне возможно, что хороший белок шаблон пропустили в библиотеке или шаблон, возможно, не были определены LOMETS резьбы программы, даже если это присутствует в библиотеке. В этих случаях пользователь должен указать желаемую структуру белка в качестве шаблона.
Чтобы определить структуру белка в качестве дополнительного шаблона, пользователи могут загрузить файл в формате PDB структуры или указать идентификатор PDB хранение структуры белка в PDB библиотеки. I-TASSER будет генерировать запрос-шаблон выравнивания использованием MUSTER программы 23 и будет собирать пространственные ограничения с обеих пользователя, указанного шаблона и LOMETS шаблоны для руководства моделирования структуры сборки. Поскольку точность LOMETS ограничений различна для разных целей, вес LOMETS ограничения сильнее в легкой (гомологичны) таrgets, чем в твердых (не гомологичны) цели, которые всесторонне настроены в нашем тесте обучения.
Пользователь может также указать свой запрос-шаблон выравнивания. Сервер принимает выравнивания в двух форматах: формат FASTA (рис. 9А) и формате 3D (рис. 9Б). Формат FASTA является стандартным и описан в http://zhanglab. ccmb.med.umich.edu / FASTA / . 3D формат похож на стандартный формат PDB ( http://www.wwpdb.org/documentation/format32/sect9.html ), но две дополнительные столбцы, производные от шаблонов добавляются ATOM записей (см. рис 9В):
Столбцы 1-30: Atom (С-альфа только) и остаток имен для запроса последовательность.
Столбцы 31-54: Координаты С-альфа атомов запрос скопированы из соответствующих атомов в шаблоне.
Столбцы 55-59: Соответствующий номер остатка в шаблон, основанный на выравнивание
Столбцы 60-64: Соответствующий имя остатков в шаблоне
Исключить шаблоны белков
Белки являются гибкие молекулы и может принять несколько конформационных состояний изменить свою биологическую активность. Например, структуры многих протеинкиназ и мембранных белков, были решены в активной и неактивной конформации. Кроме того, наличие или отсутствие связанного лиганда может привести к большим структурным движений. Хотя все конформационных состояний шаблон одинаковых для резьбы программ, желательно модель запроса с использованием шаблонов только в одном определенном состоянии. Новая опция на сервере позволяет пользователю исключить шаблон структуры белков в процессе моделирования. Эта функция также позволит пользователю выбрать гомологии уровне шаблонов, которые будут использоваться для моделирования. Пользователи могут исключить шаблон белков птОМ I-TASSER библиотеке:
А. Указание отсечки идентичности последовательности
Пользователи могут использовать эту опцию, чтобы исключить гомологичных белков из I-TASSER библиотеки шаблонов. Гомологии уровня устанавливается на основе отсечки идентичности последовательности, т.е. количество идентичных остатков между запросом и шаблон белок делится на последовательность длины запроса последовательности. Например, если пользователь вводит "70%" в соответствующем виде, все шаблоны белков, которые имеют идентичности последовательности> 70% до запроса белка I-будет исключен из I-TASSER библиотеки шаблонов.
Б. Исключение специфических белков шаблон
Специальные белки шаблон может быть исключен из I-TASSER библиотеки шаблонов, загружая список, содержащий идентификаторы PDB структур должны быть исключены. Пример файла показан на рисунке 10. Как же белка может существовать в виде нескольких записей в PDB библиотека, I-TASSER себеrver будет по умолчанию исключить указанные шаблоны (в Столбец1), а также все другие шаблоны из библиотеки, которые идентичности> 90% на указанный шаблонов. Пользователи также могут указать другой отсечки идентичности, например, 70%, где все шаблоны с единицей> 70% к указанным белкам шаблон будет исключена.
Нет конфликта интересов объявлены.
Проект осуществляется при поддержке, в частности Альфреда П. Слоуна, NSF Карьера премии (DBI 1027394), и Национальный Институт общей медицинских наук (GM083107, GM084222).
| Name | Company | Catalog Number | Comments |
| Material Name | Type | Company | Catalogue Number |
| FASTA formatted amino acid sequence of the protein to be modeled (see, http://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml). | |||
| A personal computer with access to the internet and a web browser. | |||
| Molecular visualizing software, e.g. RASMOL or PYMOL, for analyzing the predicted tertiary structure and functional sites. |
1
ReplyPosted by: Alexandre BuenoNovember 3, 2011, 2:35 PM