Biochemistry

Modellazione della struttura quaternaria attraverso la spettrometria di massa a reticolazione chimica: estensione dei rapporti TX-MS Jupyter

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

La spettrometria di massa a reticolazione mirata crea modelli di struttura proteica quaternaria utilizzando i dati della spettrometria di massa acquisiti utilizzando fino a tre diversi protocolli di acquisizione. Quando viene eseguito come flusso di lavoro semplificato sul server Web Cheetah-MS, i risultati vengono riportati in un notebook Jupyter. Qui, dimostriamo gli aspetti tecnici di come il Jupyter Notebook può essere esteso per un'analisi più approfondita.

Abstract

Le interazioni proteina-proteina possono essere difficili da studiare, ma forniscono informazioni su come funzionano i sistemi biologici. La spettrometria di massa a reticolazione mirata (TX-MS), un metodo che combina la modellazione della struttura proteica quaternaria e la spettrometria di massa a reticolazione chimica, crea modelli di struttura ad alta precisione utilizzando dati ottenuti da campioni complessi e non frazionati. Questo rimuove uno dei maggiori ostacoli all'analisi della struttura del complesso proteico perché le proteine di interesse non hanno più bisogno di essere purificate in grandi quantità. Il server web Cheetah-MS è stato sviluppato per rendere la versione semplificata del protocollo più accessibile alla comunità. Considerando i dati MS/MS in tandem, Cheetah-MS genera un Jupyter Notebook, un report grafico che riassume i risultati delle analisi più importanti. L'estensione del Notebook Jupyter può fornire informazioni più approfondite e comprendere meglio il modello e i dati della spettrometria di massa che lo supportano. Il protocollo tecnico qui presentato dimostra alcune delle estensioni più comuni e spiega quali informazioni possono essere ottenute. Contiene blocchi per aiutare ad analizzare i dati di acquisizione MS / MS in tandem e l'impatto complessivo degli XL rilevati sui modelli quaternari segnalati. Il risultato di tali analisi può essere applicato a modelli strutturali incorporati nel notebook utilizzando NGLView.

Introduction

Le interazioni proteina-proteina sono alla base della struttura e della funzione dei sistemi biologici. Avere accesso a strutture quaternarie di proteine può fornire informazioni su come due o più proteine interagiscono per formare strutture di alto ordine. Sfortunatamente, ottenere strutture quaternarie rimane impegnativo; ciò si riflette nel numero relativamente piccolo di voci¹ della Protein DataBank (PDB) contenenti più di un polipeptide. Le interazioni proteina-proteina possono essere studiate con tecnologie come la cristallografia a raggi X, la NMR e la crio-EM, ma ottenere una quantità sufficiente di proteine purificate in condizioni in cui i metodi possono essere applicati può richiedere molto tempo.

La spettrometria di massa a reticolazione chimica è stata sviluppata per ottenere dati sperimentali sulle interazioni proteina-proteina con meno restrizioni sulla preparazione del campione in quanto la spettrometria di massa può essere utilizzata per acquisire dati su campioni arbitrariamente complessi 2,3,4,5,6,7,8,9 . Tuttavia, la natura combinatoria dell'analisi dei dati e il numero relativamente piccolo di peptidi reticolati richiedono che i campioni siano frazionati prima dell'analisi. Per affrontare questa lacuna, abbiamo sviluppato TX-MS, un metodo che combina la modellazione computazionale con la spettrometria di massa a reticolazione chimica¹⁰. TX-MS può essere utilizzato su campioni arbitrariamente complessi ed è significativamente più sensibile rispetto ai metodi precedenti¹⁰. Lo fa assegnando un punteggio a tutti i dati associati a una determinata interazione proteina-proteina come un insieme invece di interpretare ogni spettro MS in modo indipendente. TX-MS utilizza anche fino a tre diversi protocolli di acquisizione MS: MS1 ad alta risoluzione (hrMS1), acquisizione dipendente dai dati (DDA) e acquisizione indipendente dai dati (DIA), fornendo ulteriori opportunità per identificare un peptide reticolato combinando più osservazioni. Il flusso di lavoro computazionale TX-MS è complesso per diversi motivi. In primo luogo, si basa su più programmi software di analisi della SM ^11,12,13 per creare modelli di struttura proteica ^14,15. In secondo luogo, la quantità di dati può essere considerevole. In terzo luogo, la fase di modellazione può consumare quantità significative di potenza di elaborazione del computer.

Di conseguenza, TX-MS è meglio utilizzato come flusso di lavoro computazionale automatizzato e semplificato attraverso il server web Cheetah-MS¹⁶ che viene eseguito su grandi infrastrutture computazionali come cloud di computer o cluster. Per facilitare l'interpretazione dei risultati, abbiamo prodotto un Jupyter Notebook¹⁷ interattivo. Qui dimostriamo come il report Jupyter Notebook può essere esteso per produrre un'analisi più approfondita di un determinato risultato.

Protocol

1. Invia il flusso di lavoro a https://txms.org.

Vai a https://txms.org e fai clic su "Usa Cheetah-MS".
Per inviare il flusso di lavoro, è necessario fornire due file PDB e un file MS/MS mzML o MGF. Puoi anche fare clic su "carica dati di esempio" per vedere la versione demo del flusso di lavoro.
NOTA: Si prega di consultare la pagina di manuale del server web per informazioni dettagliate su come inviare un lavoro. Il server Web supporta diversi agenti cross-linker non scissibili, fino a 12 modifiche post-traduzionali (PTM), opzioni relative alla modellazione computazionale e all'analisi dei dati MS. Piccoli pulsanti di aiuto sono progettati anche nella pagina di invio per mostrare ulteriori informazioni su ciascuna opzione.

2. Esegui Cheetah-MS.

NOTA: convertire i formati specifici del fornitore in mzML o MGF utilizzando il software ProteoWizard MSConvert¹⁹.

Carica i dati MS su https://txms.org. Quindi, fai clic su "Scegli file" e seleziona i dati MS, che devono essere nei formati di dati mzML / MGF¹⁸.
NOTA: i dati di esempio sono disponibili su https://txms.org. Questi dati sono anche direttamente accessibili tramite zenodo.org, DOI 10.5281/zenodo.3361621.
Carica due file PDB su https://txms.org. Fai clic su "Scegli file" e seleziona i file PDB da caricare.
NOTA: Se non esistono strutture sperimentali, creare modelli utilizzando, ad esempio, SWISS-MODEL²⁰ se sono disponibili strutture omologo, o trRosetta^21,22 o Robetta^23,24 web server per previsioni di struttura de novo.
Invia un nuovo flusso di lavoro. Fai clic su "Invia" per ricevere un tag identificativo del lavoro. Quindi, segui il modulo nella sezione dei risultati utilizzando questo tag.
NOTA: l'elaborazione del risultato richiede tempo, pertanto attendere il completamento del flusso di lavoro e archiviare il tag identificatore del processo per tornare alla pagina dei risultati. Il calcolo viene effettuato su infrastruttura computazionale remota. Se si desidera eseguire TX-MS localmente, fare riferimento a Hauri et ^al.10.
Esaminare il report Jupyter Notebook utilizzando il visualizzatore online. Quindi, scorri verso il basso fino a "Report" nella sezione dei risultati utilizzando il tag identificatore del processo.

3. Installa JupyterHub.

Installare docker come indicato in https://docs.docker.com/install/.
Scarica il contenitore docker JupyterHub con l'estensione Jupyter openBIS²⁵. Il comando generale è "docker pull malmstroem/jove:latest", ma potrebbe differire su altre piattaforme.
NOTA: per una discussione generale su come scaricare i contenitori, fare riferimento a https://www.docker.com/get-started. È anche possibile scaricare il contenitore da zenodo.org, DOI 10.5281/zenodo.3361621.
NOTA: Il codice sorgente dell'estensione Jupyter openBIS è disponibile qui: https://pypi.org/project/jupyter-openbis-extension/.
Avviare il contenitore docker: docker run -p 8178:8000 malmstroem/jove:latest.
Nota : la porta utilizzata da JupyterHub per impostazione predefinita è 8000. Questa porta è configurabile e i comandi di cui sopra devono essere regolati di conseguenza se modificati. La porta 8178 è una scelta arbitraria e può essere modificata. Gli URL di esempio forniti di seguito devono essere regolati di conseguenza.
Vai al seguente indirizzo: http://127.0.0.1:8178. Accedi utilizzando il nome utente "utente" e la password "utente".
Nota : l'indirizzo http://127.0.0.1 implica che il contenitore docker è in esecuzione nel computer locale. Se il contenitore docker viene eseguito su un server, utilizzare l'indirizzo IP o l'URL del server (ad esempio, https://example.com). Il contenitore docker è basato su Ubuntu Bionic 18.04, JupyterHub 0.9.6 e Jupyter openBIS extension 0.2. È possibile installarlo in altri sistemi operativi, ma questo non è stato testato.

4. Scarica il report.

Creare un nuovo blocco appunti facendo clic su Nuovo| Python 3 utilizzando il menu situato vicino alla parte in alto a destra della pagina. Si aprirà una nuova scheda con un blocco appunti chiamato Senza titolo (o qualcosa di simile).
Fai clic su "Configura connessioni openBIS" nel menu degli strumenti Jupyter.
Inserisci il nome: txms; URL: https://txms.org; utente: ospite; password: guestpasswd.
Fai clic su "Connetti".
Scegli la nuova connessione e fai clic su "Scegli connessione".
Cercare il modello di report (ad esempio, /CHEETAH/WF70) e fare clic su Download.
NOTA: è necessario modificare il modello di report in base ai risultati e al report ottenuti eseguendo il processo sul server Web Cheetah-MS.
Eseguire nuovamente il report facendo clic su Cell | Esegui tutto.

5. Estendere il report.

Aggiungere una nuova cella in basso: Cella | Inserisci sotto.
Digitare il codice desiderato. Per un esempio, consulta la sezione Risultati rappresentativi di seguito.
Eseguire la cella premendo "Maiusc-Invio".

Representative Results

TX-MS fornisce output strutturali supportati da vincoli sperimentali derivati dalla SM. Funziona combinando diversi tipi di acquisizione dati MS con la modellazione computazionale. Pertanto, è utile analizzare separatamente ogni dato MS e fornire la visualizzazione della struttura di output. Il dato supplementare 1 contiene un notebook di esempio in grado di analizzare i dati DDA e DIA prodotti come output TX-MS. Gli utenti possono selezionare l'XL di interesse. Eseguendo il notebook, verrà mostrato lo spettro MS2 di quell'XL in cui diversi colori aiutano a discriminare tra frammenti relativi al primo peptide, al secondo peptide e agli ioni frammento combinatorio. L'XL può anche essere mappato alla struttura utilizzando il widget NGLView incorporato in un Jupyter Notebook.

Un'altra cella in questo notebook può aiutare gli utenti ad analizzare e visualizzare i dati DIA. Tuttavia, la visualizzazione dei dati DIA è più difficile perché i dati analizzati devono essere preparati nel formato corretto.

La Figura 1 mostra una struttura di esempio di M1 e albumina con i primi XL mappati sulla struttura. TX-MS ha ottenuto tutti gli XL dopo aver analizzato i dati hrMS1, DDA e DIA e il protocollo RosettaDock ha fornito i modelli computazionali.

Poiché questo report è un Jupyter Notebook, qualsiasi codice Python valido può essere aggiunto alle nuove celle del notebook. Ad esempio, il codice riportato di seguito creerà un istogramma sui conteggi MS2, indicando quanto è ben supportato ogni cross-link dai dati sottostanti.
importare seaborn come sns
sns.distplot(ms2['count']);

Figura 1: Modello strutturale della proteina Streptococcus pyogenes M1 e dell'albumina umana con XL mappati sulla struttura. La proteina M1 è mostrata in grigio e costituisce un omodimero. Le sei molecole di albumina sono presentate come coppie in varie tonalità di blu. I collegamenti incrociati e le distanze sono indicati in rosso con testo nero. Fare clic qui per visualizzare una versione più grande di questa figura.

File integrativo. Dati del notebook Jupyter. Fare clic qui per scaricare questo file.

Discussion

I moderni flussi di lavoro computazionali sono spesso complessi, con più strumenti di molti fornitori diversi, interdipendenze complesse, volumi di dati elevati e risultati sfaccettati. Di conseguenza, è sempre più difficile documentare con precisione tutti i passaggi necessari per ottenere un risultato, rendendo difficile la riproduzione del risultato dato. Qui, dimostriamo una strategia generale che combina l'automazione e la facilità di un flusso di lavoro automatizzato che produce un report generico, con la flessibilità di personalizzare il report in modo riproducibile.

Affinché il protocollo funzioni, devono essere soddisfatti tre requisiti: in primo luogo, le proteine selezionate per l'analisi devono interagire in modo tale che l'esperimento di reticolazione chimica possa produrre specie reticolate a una concentrazione sufficientemente elevata da essere rilevata dallo spettrometro di massa; diversi spettrometri di massa hanno diversi livelli di rilevamento e dipendono anche dal protocollo di acquisizione e dalla scelta del reagente reticolante. L'attuale versione del protocollo TX-MS consente solo DSS, un reagente di reticolazione omobifunzionale lisina-lisina. Tuttavia, questa limitazione è dovuta principalmente alla possibilità che la fase di apprendimento automatico debba essere regolata per altri reagenti. Questa limitazione è stata migliorata nel server web Cheetah-MS in quanto possono essere considerati altri due reagenti cross-linking, ma tutti e tre sono reagenti non scissibili. In secondo luogo, le due proteine devono avere una struttura determinata sperimentalmente o essere modellate utilizzando tecniche di modellazione comparativa o tecniche de novo . Non tutte le proteine possono essere modellate, ma una combinazione di software migliorato e una deposizione costante di strutture sperimentali nel PDB espande il numero di proteine che possono essere modellate. In terzo luogo, le proteine interagenti dovrebbero rimanere sufficientemente simili nei loro stati legati e non legati in modo che gli algoritmi di docking in uso da TX-MS e Cheetah-MS possano creare strutture quaternarie di qualità adeguata per consentire il punteggio. Questo requisito è relativamente vago, poiché la qualità accettabile è altamente dipendente dal sistema, dove le proteine più piccole di struttura nota sono generalmente più facili da confrontare rispetto alle proteine più grandi di struttura sconosciuta.

In caso di risultato negativo, verificare innanzitutto che TX-MS abbia trovato intra-collegamenti, legami incrociati tra residui che fanno parte della stessa catena polipeptidica. Se non ne viene scoperto nessuno, la spiegazione più probabile è che qualcosa sia andato storto con la preparazione del campione o l'acquisizione dei dati. Se i modelli non supportano vincoli di distanza multipli, ispezionare visivamente i modelli per assicurarsi che la conformazione sia supportata da residui reticolati. Non esiste un modo ovvio per ruotare uno degli interattori senza interrompere almeno un collegamento incrociato. Se ci sono collegamenti incrociati più lunghi della distanza consentita per il reagente di reticolazione dato, cercare di migliorare la modellazione degli interattori incorporando i dati di reticolazione.

È possibile utilizzare applicazioni software alternative per ottenere risultati equivalenti a condizione che la sensibilità del software scelto sia paragonabile alla sensibilità di TX-MS. Ad esempio, ci sono versioni online di RosettaDock, HADDOCK e altri. È anche possibile analizzare i dati di reticolazione chimica tramite xQuest/xProphet ^5,6, plink⁷ e SIM-XL²⁶.

Applichiamo continuamente TX-MS e Cheetah-MS a nuovi progetti^27,28,29, migliorando così i report prodotti da questi approcci per consentire un'analisi più dettagliata dei risultati senza ingrandire i report.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato sostenuto dalla Fondazione di Knut e Alice Wallenberg (sovvenzione n. 2016.0023) e dal Fondo nazionale svizzero per la ricerca scientifica (sovvenzione n. P2ZHP3_191289). Inoltre, ringraziamo S3IT, Università di Zurigo, per la sua infrastruttura computazionale e il supporto tecnico.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Modellazione della struttura quaternaria attraverso la spettrometria di massa a reticolazione chimica: estensione dei rapporti TX-MS Jupyter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.