Biochemistry

Моделирование четвертичной структуры с помощью химической поперечной масс-спектрометрии: расширение отчетов TX-MS Jupyter

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

Целевая сшивающая масс-спектрометрия создает четвертичные модели структуры белка с использованием данных масс-спектрометрии, полученных с использованием до трех различных протоколов сбора. При выполнении в виде упрощенного рабочего процесса на веб-сервере Cheetah-MS результаты отображаются в записной книжке Jupyter. Здесь мы демонстрируем технические аспекты того, как Jupyter Notebook может быть расширен для более глубокого анализа.

Abstract

Белково-белковые взаимодействия могут быть сложными для изучения, но дают представление о том, как функционируют биологические системы. Целевая сшивающая масс-спектрометрия (TX-MS), метод, сочетающий моделирование четвертичной структуры белка и химическую сшивающую масс-спектрометрию, создает высокоточные структурные модели с использованием данных, полученных из сложных, нефракционированных образцов. Это устраняет одно из основных препятствий для анализа сложной структуры белка, потому что интересующие белки больше не нуждаются в очистке в больших количествах. Веб-сервер Cheetah-MS был разработан, чтобы сделать упрощенную версию протокола более доступной для сообщества. Учитывая тандемные данные MS /MS, Cheetah-MS генерирует Jupyter Notebook, графический отчет, обобщающий наиболее важные результаты анализа. Расширение Jupyter Notebook может дать более глубокое понимание и лучше понять модель и данные масс-спектрометрии, поддерживающие ее. Технический протокол, представленный здесь, демонстрирует некоторые из наиболее распространенных расширений и объясняет, какую информацию можно получить. Он содержит блоки, помогающие анализировать тандемные данные сбора MS / MS и общее влияние обнаруженных XL на сообщаемые четвертичные модели. Результат такого анализа может быть применен к структурным моделям, которые встроены в ноутбук с помощью NGLView.

Introduction

Белково-белковые взаимодействия лежат в основе структуры и функции биологических систем. Доступ к четвертичным структурам белков может дать представление о том, как два или более белка взаимодействуют, образуя структуры высокого порядка. К сожалению, получение четвертичных структур остается сложной задачей; это отражено в сравнительно небольшом числе записей¹ Банка белковых данных (PDB), содержащих более одного полипептида. Белково-белковые взаимодействия могут быть изучены с помощью таких технологий, как рентгеновская кристаллография, ЯМР и крио-ЭМ, но получение достаточного количества очищенного белка в условиях, где могут быть применены методы, может занять много времени.

Химическая сшивающая масс-спектрометрия была разработана для получения экспериментальных данных о белково-белковых взаимодействиях с меньшими ограничениями на пробоподготовку, поскольку масс-спектрометрия может быть использована для получения данных о произвольно сложных образцах ^{2,3,4,5,6,7,8,9} . Однако комбинаторный характер анализа данных и относительно небольшое количество сшитых пептидов требуют, чтобы образцы были фракционированы перед анализом. Чтобы устранить этот недостаток, мы разработали TX-MS, метод, который сочетает в себе вычислительное моделирование с химической сшивающей масс-спектрометрией¹⁰. TX-MS может быть использован на произвольно сложных образцах и является значительно более чувствительным по сравнению с предыдущими методами¹⁰. Он достигает этого, оценивая все данные, связанные с данным белково-белковым взаимодействием, как набор вместо того, чтобы интерпретировать каждый спектр MS независимо. TX-MS также использует до трех различных протоколов сбора MS: MS1 с высоким разрешением (hrMS1), сбор данных в зависимости от данных (DDA) и независимый от данных сбор (DIA), что дополнительно предоставляет возможности для идентификации сшитого пептида путем объединения нескольких наблюдений. Вычислительный рабочий процесс TX-MS сложен по нескольким причинам. Во-первых, он опирается на несколько программ анализа^MS 11,12,13 для создания моделей структуры белка ^14,15. Во-вторых, объем данных может быть значительным. В-третьих, этап моделирования может потреблять значительное количество вычислительной мощности компьютера.

Следовательно, TX-MS лучше всего использовать в качестве автоматизированного, упрощенного вычислительного рабочего процесса через веб-сервер Cheetah-MS¹⁶, который работает на больших вычислительных инфраструктурах, таких как компьютерные облака или кластеры. Чтобы облегчить интерпретацию результатов, мы создали интерактивный Jupyter Notebook¹⁷. Здесь мы демонстрируем, как отчет Jupyter Notebook может быть расширен для получения более глубокого анализа заданного результата.

Protocol

1. Отправьте рабочий процесс в https://txms.org.

Перейдите в https://txms.org и нажмите «Использовать Cheetah-MS».
Для отправки рабочего процесса необходимо предоставить два PDB-файла и один MS/MS mzML или MGF-файл. Вы также можете нажать на «Загрузить образцы данных», чтобы увидеть демо-версию рабочего процесса.
ПРИМЕЧАНИЕ: Пожалуйста, посмотрите на справочную страницу веб-сервера для получения подробной информации о том, как отправить заявку. Веб-сервер поддерживает различные нерасщепляемые агенты кросс-компоновки, до 12 посттрансляционных модификаций (PTM), опции, связанные с вычислительным моделированием и анализом данных MS. Небольшие кнопки справки также разработаны на странице отправки, чтобы показать дополнительную информацию о каждом варианте.

2. Беги Гепард-МС.

ПРИМЕЧАНИЕ: Преобразуйте форматы конкретного поставщика в mzML или MGF с помощью программного обеспечения ProteoWizard MSConvert¹⁹.

Загрузите данные MS в https://txms.org. Затем нажмите «Выбрать файл» и выберите данные MS, которые должны быть в форматах данных mzML/MGF¹⁸.
ПРИМЕЧАНИЕ: Примеры данных доступны на https://txms.org. Эти данные также доступны напрямую через zenodo.org, DOI 10.5281/zenodo.3361621.
Загрузите два PDB-файла в https://txms.org. Нажмите «Выбрать файл» и выберите файлы PDB для загрузки.
ПРИМЕЧАНИЕ: Если экспериментальных структур не существует, создайте модели, используя, например, SWISS-MODEL²⁰, если доступны гомологовые структуры, или веб-серверы trRosetta ^21,22 или Robetta ^23,24 для прогнозирования структуры de novo.
Отправьте новый рабочий процесс. Нажмите «Отправить», чтобы получить тег идентификатора задания. Затем перейдите по форме в раздел результатов, используя этот тег.
ПРИМЕЧАНИЕ: Вычисление результата требует времени, поэтому, пожалуйста, подождите, пока рабочий процесс не завершится, и сохраните тег идентификатора задания, чтобы вернуться на страницу результатов. Вычисления выполняются на удаленной вычислительной инфраструктуре. Если вы хотите запустить TX-MS локально, обратитесь к Hauri et ^al.10.
Проверьте отчет Jupyter Notebook с помощью интерактивного средства просмотра. Затем прокрутите вниз до «Отчет» в разделе результатов, используя тег идентификатора задания.

3. Установите JupyterHub.

Установите docker в соответствии с инструкциями, приведенными в https://docs.docker.com/install/.
Загрузите контейнер Docker JupyterHub с расширением Jupyter openBIS²⁵. Общая команда — «docker pull malmstroem/jove:latest», но может отличаться на других платформах.
ПРИМЕЧАНИЕ: Для общего обсуждения того, как загружать контейнеры, пожалуйста, обратитесь к https://www.docker.com/get-started. Также можно скачать контейнер из zenodo.org, DOI 10.5281/zenodo.3361621.
ПРИМЕЧАНИЕ: Исходный код расширения Jupyter openBIS доступен здесь: https://pypi.org/project/jupyter-openbis-extension/.
Запустите контейнер docker: docker run -p 8178:8000 malmstroem/jove:latest.
ПРИМЕЧАНИЕ: Порт, который JupyterHub использует по умолчанию, - 8000. Этот порт настраивается, и приведенные выше команды должны быть соответствующим образом скорректированы при изменении. Порт 8178 является произвольным выбором и может быть изменен. Приведенные ниже примеры URL-адресов необходимо соответствующим образом скорректировать.
Перейдите по следующему адресу: http://127.0.0.1:8178. Войдите в систему, используя имя пользователя «пользователь» и пароль «пользователь».
ПРИМЕЧАНИЕ: Адресная http://127.0.0.1 означает, что контейнер docker запущен на локальном компьютере. Если контейнер docker запущен на сервере, используйте IP-адрес или URL-адрес сервера (например, https://example.com). Контейнер docker основан на Ubuntu Bionic 18.04, JupyterHub 0.9.6 и расширении Jupyter openBIS 0.2. Это можно установить в других операционных системах, но это не было протестировано.

4. Скачайте отчет.

Создайте новую записную книжку, нажав кнопку Создать| Python 3 с помощью меню, расположенного в правой верхней части страницы. Откроется новая вкладка с записной книжкой под названием Untitled (или что-то подобное).
Нажмите «Настроить подключения openBIS» в меню инструментов Jupyter.
Заполните имя: txms; URL: https://txms.org; пользователь: гость; пароль: guestpasswd.
Нажмите «Подключиться».
Выберите новое подключение и нажмите «Выбрать подключение».
Найдите шаблон отчета (например, /CHEETAH/WF70) и нажмите кнопку Загрузить.
ПРИМЕЧАНИЕ: Вам нужно настроить шаблон отчета на основе результатов и отчета, полученных при выполнении задания на веб-сервере Cheetah-MS.
Повторно запустите отчет, щелкнув Ячейка | Запустите все.

5. Расширьте отчет.

Добавление новой ячейки внизу: | ячейки Вставить ниже.
Введите требуемый код. Для примера, пожалуйста, смотрите раздел Репрезентативные результаты ниже.
Выполните ячейку, нажав клавиши "Shift-Enter".

Representative Results

TX-MS обеспечивает структурные выходы, поддерживаемые экспериментальными ограничениями, полученными из MS. Он работает, комбинируя различные типы сбора данных MS с вычислительным моделированием. Поэтому полезно анализировать каждый MS-данный отдельно и обеспечивать визуализацию выходной структуры. Дополнительные данные 1 содержат пример записной книжки, которая может анализировать данные DDA и DIA, полученные на выходе TX-MS. Пользователи могут выбрать ИНТЕРЕСУЮЩИЙ XL. При запуске ноутбука будет показан спектр MS2 этого XL, где различные цвета помогают различать фрагменты, связанные с первым пептидом, вторым пептидом и комбинаторными ионами фрагментов. XL также можно сопоставить со структурой с помощью виджета NGLView, встроенного в записную книжку Jupyter.

Еще одна ячейка в этой записной книжке может помочь пользователям анализировать и визуализировать данные DIA. Однако визуализация данных DIA сложнее, поскольку анализируемые данные должны быть подготовлены в правильном формате.

На рисунке 1 показан пример структуры M1 и альбумина с верхними XL, нанесенными на структуру. TX-MS получил все XL после анализа данных hrMS1, DDA и DIA, а протокол RosettaDock предоставил вычислительные модели.

Поскольку этот отчет является записной книжкой Jupyter, любой допустимый код Python может быть добавлен в новые ячейки записной книжки. Например, приведенный ниже код создаст гистограмму по счетчикам MS2, указывая, насколько хорошо каждая перекрестная ссылка поддерживается базовыми данными.
импорт seaborn как sns
sns.distplot(ms2['count']);

Рисунок 1: Структурная модель белка Streptococcus pyogenes M1 и альбумина человека с XLs, нанесенными на структуру. Белок M1 показан серым цветом и представляет собой гомодимер. Шесть молекул альбумина представлены в виде пар в различных оттенках синего. Перекрестные ссылки и расстояния приведены красным цветом с черным текстом. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Дополнительный файл. Данные записной книжки Jupyter. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Discussion

Современные вычислительные рабочие процессы часто сложны, с несколькими инструментами от разных поставщиков, сложными взаимозависимостями, большими объемами данных и многогранными результатами. Следовательно, становится все труднее точно задокументировать все шаги, необходимые для получения результата, что затрудняет воспроизведение данного результата. Здесь мы демонстрируем общую стратегию, которая сочетает в себе автоматизацию и простоту автоматизированного рабочего процесса, создающего общий отчет, с гибкостью настройки отчета воспроизводимым образом.

Для работы протокола необходимо выполнить три требования: во-первых, белки, отобранные для анализа, должны взаимодействовать таким образом, чтобы эксперимент по химическому сшиванию мог производить сшитые виды в достаточно высокой концентрации, которая может быть обнаружена масс-спектрометром; различные масс-спектрометры имеют разные уровни обнаружения, а также зависят от протокола сбора, а также от выбора реагента для сшивания. Текущая версия протокола TX-MS допускает только DSS, гомобифункциональный реагент лизин-лизина. Тем не менее, это ограничение в первую очередь связано с возможностью того, что этап машинного обучения должен быть скорректирован для других реагентов. Это ограничение было улучшено на веб-сервере Cheetah-MS, поскольку можно рассмотреть еще два сшивающих реагента, но все три являются нерасщепляемыми реагентами. Во-вторых, эти два белка должны либо иметь экспериментально определенную структуру, либо моделироваться с использованием методов сравнительного моделирования или методов de novo . Не все белки могут быть смоделированы, но сочетание улучшенного программного обеспечения и постоянного осаждения экспериментальных структур в PDB расширяет количество белков, которые могут быть смоделированы. В-третьих, взаимодействующие белки должны оставаться достаточно похожими в своих связанных и несвязанных состояниях, чтобы алгоритмы стыковки, используемые TX-MS и Cheetah-MS, могли создавать четвертичные структуры адекватного качества для обеспечения оценки. Это требование относительно расплывчато, поскольку приемлемое качество сильно зависит от системы, где меньшие белки известной структуры, как правило, легче сравнивать, чем более крупные белки неизвестной структуры.

В случае отрицательного результата сначала проверьте, что TX-MS обнаружил внутрисвязи, поперечные связи между остатками, которые являются частью одной полипептидной цепи. Если ни один из них не обнаружен, наиболее вероятным объяснением является то, что что-то пошло не так с подготовкой образца или сбором данных. Если множественные ограничения расстояния не поддерживают модели, визуально проверьте модели, чтобы убедиться, что конформация поддерживается сшитыми остатками. Не существует очевидного способа повернуть один из интеракторов, не нарушив хотя бы одну перекрестную связь. Если для данного реагента имеются поперечные ссылки, превышающие допустимое расстояние, попробуйте улучшить моделирование интеракторов путем включения данных о перекрестных связях.

Возможно использование альтернативных программных приложений для достижения эквивалентных результатов при условии, что чувствительность выбранного программного обеспечения сопоставима с чувствительностью TX-MS. Например, существуют онлайн-версии RosettaDock, HADDOCK и другие. Также можно анализировать данные химических сшивок через xQuest/xProphet ^5,6, plink⁷ и SIM-XL²⁶.

Мы постоянно применяем TX-MS и Cheetah-MS к новым проектам ^27,28,29, тем самым улучшая отчеты, создаваемые этими подходами, чтобы обеспечить более подробный анализ результатов, не увеличивая отчеты.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Эта работа была поддержана Фондом Кнута и Алисы Валленберг (грант No 2016.0023) и Швейцарским национальным научным фондом (грант No. P2ZHP3_191289). Кроме того, мы благодарим S3IT, Цюрихский университет, за вычислительную инфраструктуру и техническую поддержку.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Моделирование четвертичной структуры с помощью химической поперечной масс-спектрометрии: расширение отчетов TX-MS Jupyter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.