Biochemistry

Kvaternær strukturmodellering gennem kemisk tværbinding af massespektrometri: Udvidelse af TX-MS Jupyter-rapporter

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

Målrettet tværbinding af massespektrometri skaber kvaternære proteinstrukturmodeller ved hjælp af massespektrometridata erhvervet ved hjælp af op til tre forskellige anskaffelsesprotokoller. Når de udføres som en forenklet arbejdsgang på Cheetah-MS-webserveren, rapporteres resultaterne i en Jupyter Notebook. Her demonstrerer vi de tekniske aspekter af, hvordan Jupyter Notebook kan udvides til en mere dybdegående analyse.

Abstract

Protein-protein-interaktioner kan være udfordrende at studere, men giver indsigt i, hvordan biologiske systemer fungerer. Målrettet tværbinding af massespektrometri (TX-MS), en metode, der kombinerer kvaternær proteinstrukturmodellering og kemisk tværbinding af massespektrometri, skaber strukturmodeller med høj nøjagtighed ved hjælp af data opnået fra komplekse, ufraktionerede prøver. Dette fjerner en af de største hindringer for proteinkompleks strukturanalyse, fordi proteinerne af interesse ikke længere behøver at blive renset i store mængder. Cheetah-MS webserver blev udviklet til at gøre den forenklede version af protokollen mere tilgængelig for samfundet. I betragtning af tandem MS / MS-dataene genererer Cheetah-MS en Jupyter Notebook, en grafisk rapport, der opsummerer de vigtigste analyseresultater. Udvidelse af Jupyter Notebook kan give mere dybdegående indsigt og bedre forstå modellen og de massespektrometridata, der understøtter den. Den tekniske protokol, der præsenteres her, demonstrerer nogle af de mest almindelige udvidelser og forklarer, hvilke oplysninger der kan fås. Den indeholder blokke, der hjælper med at analysere tandem MS / MS-erhvervelsesdata og den samlede virkning af de detekterede DL'er på de rapporterede kvaternære modeller. Resultatet af sådanne analyser kan anvendes på strukturelle modeller, der er indlejret i notesbogen ved hjælp af NGLView.

Introduction

Protein-protein-interaktioner understøtter strukturen og funktionen af biologiske systemer. At have adgang til kvaternære strukturer af proteiner kan give indsigt i, hvordan to eller flere proteiner interagerer for at danne strukturer af høj orden. Desværre er det fortsat udfordrende at opnå kvaternære strukturer; Dette afspejles i det forholdsvis lille antal Poster i Protein DataBank (PDB)¹, der indeholder mere end ét polypeptid. Protein-protein-interaktioner kan studeres med teknologier som røntgenkrystallografi, NMR og cryo-EM, men at opnå en tilstrækkelig mængde oprenset protein under betingelser, hvor metoderne kan anvendes, kan være tidskrævende.

Kemisk tværbinding af massespektrometri blev udviklet for at opnå eksperimentelle data om protein-protein-interaktioner med færre begrænsninger for prøveforberedelse, da massespektrometri kan bruges til at erhverve data om vilkårligt komplekse prøver 2,3,4,5,6,7,8,9 . Dataanalysens kombinatoriske karakter og det relativt lille antal tværbundne peptider kræver imidlertid, at prøverne fraktioneres inden analysen. For at afhjælpe denne mangel udviklede vi TX-MS, en metode, der kombinerer beregningsmodellering med kemisk tværbinding af massespektrometri¹⁰. TX-MS kan anvendes på vilkårligt komplekse prøver og er betydeligt mere følsom sammenlignet med tidligere metoder¹⁰. Det opnår dette ved at score alle data forbundet med en given protein-protein-interaktion som et sæt i stedet for at fortolke hvert MS-spektrum uafhængigt. TX-MS bruger også op til tre forskellige MS-erhvervelsesprotokoller: MS1 med høj opløsning (hrMS1), dataafhængig erhvervelse (DDA) og datauafhængig erhvervelse (DIA), hvilket yderligere giver mulighed for at identificere et tværbundet peptid ved at kombinere flere observationer. TX-MS beregningsarbejdsgangen er kompleks af flere grunde. For det første er den afhængig af flere MS-analysesoftwareprogrammer 11,12,13 for at skabe proteinstrukturmodeller ^14,15. For det andet kan mængden af data være betydelig. For det tredje kan modelleringstrinnet forbruge betydelige mængder computerbehandlingskraft.

Derfor bruges TX-MS bedst som en automatiseret, forenklet beregningsmæssig arbejdsgang gennem Cheetah-MS-webserver¹⁶, der kører på store beregningsinfrastrukturer såsom computerskyer eller klynger. For at lette fortolkningen af resultaterne producerede vi en interaktiv Jupyter Notebook¹⁷. Her demonstrerer vi, hvordan Jupyter Notebook-rapporten kan udvides til at give en mere dybdegående analyse af et givet resultat.

Protocol

1. Indsend arbejdsgang på https://txms.org.

Gå til https://txms.org og klik på "Brug Cheetah-MS."
Hvis du vil indsende arbejdsprocessen, skal du angive to PDB-filer og en MS/MS mzML- eller MGF-fil. Du kan også klikke på "indlæs eksempeldata" for at se demoversionen af arbejdsgangen.
BEMÆRK: Se venligst den manuelle side på webserveren for detaljerede oplysninger om, hvordan du indsender et job. Webserveren understøtter forskellige ikke-spaltbare cross-linker-agenter, op til 12 post-translationelle modifikationer (PTM'er), muligheder relateret til beregningsmodellering og MS-dataanalyse. Små hjælpeknapper er også designet på siden Send for at vise flere oplysninger om hver mulighed.

2. Kør Cheetah-MS.

BEMÆRK: Konverter de leverandørspecifikke formater til mzML eller MGF ved hjælp af ProteoWizard MSConvert-softwaren¹⁹.

Upload MS-dataene til https://txms.org. Klik derefter på "Vælg fil" og vælg MS-dataene, som skal være i mzML / MGF-dataformaterne¹⁸.
BEMÆRK: Eksempeldata er tilgængelige på https://txms.org. Disse data er også direkte tilgængelige via zenodo.org, DOI 10.5281/zenodo.3361621.
Upload to PDB filer til https://txms.org. Klik på "Vælg fil", og vælg de PDB-filer, der skal uploades.
BEMÆRK: Hvis der ikke findes eksperimentelle strukturer, skal du oprette modeller ved hjælp af for eksempel SWISS-MODEL²⁰, hvis homologstrukturer er tilgængelige, eller trRosetta^21,22 eller Robetta^23,24 webservere til de novo-strukturforudsigelser.
Indsend en ny arbejdsgang. Klik på "Send" for at modtage et job-id-tag. Følg derefter formularen til resultatafsnittet ved hjælp af dette tag.
BEMÆRK: Beregning af resultatet tager tid, så vent, indtil arbejdsgangen er færdig, og gem job-id-tagget for at vende tilbage til resultatsiden. Beregningen udføres på ekstern beregningsinfrastruktur. Hvis du vil køre TX-MS lokalt, henvises til Hauri et ^al.10.
Undersøg Jupyter Notebook-rapporten ved hjælp af onlinefremviseren. Rul derefter ned til "Rapportér" i resultatafsnittet ved hjælp af job-id-tagget.

3. Installer JupyterHub.

Installer docker som anvist i https://docs.docker.com/install/.
Download JupyterHub-dockercontaineren med Jupyter openBIS^{25-udvidelsen}. Den generelle kommando er "docker pull malmstroem/jove:latest", men kan variere på andre platforme.
BEMÆRK: For en generel diskussion om, hvordan du downloader containere, henvises til https://www.docker.com/get-started. Det er også muligt at downloade containeren fra zenodo.org, DOI 10.5281/zenodo.3361621.
BEMÆRK: Jupyter openBIS udvidelse kildekode er tilgængelig her: https://pypi.org/project/jupyter-openbis-extension/.
Start dockercontaineren: docker run -p 8178:8000 malmstroem/jove:latest.
BEMÆRK: Den port, som JupyterHub bruger som standard, er 8000. Denne port kan konfigureres, og kommandoerne ovenfor skal justeres i overensstemmelse hermed, hvis de ændres. Port 8178 er et vilkårligt valg og kan ændres. Eksempelwebadresserne nedenfor skal justeres i overensstemmelse hermed.
Gå til følgende adresse: http://127.0.0.1:8178. Log ind ved hjælp af brugernavnet "bruger" og adgangskoden "bruger".
BEMÆRK: Adressen http://127.0.0.1 indebærer, at dockercontaineren kører på den lokale computer. Hvis dockercontaineren køres på en server, skal du bruge serverens IP-adresse eller URL-adresse (f.eks. https://example.com). Dockercontaineren er baseret på Ubuntu Bionic 18.04, JupyterHub 0.9.6 og Jupyter openBIS-udvidelsen 0.2. Det er muligt at installere dette i andre operativsystemer, men dette blev ikke testet.

4. Download rapporten.

Opret en ny notesbog ved at klikke på Ny| Python 3 ved hjælp af menuen øverst til højre på siden. Dette åbner en ny fane med en notesbog kaldet Untitled (eller noget lignende).
Klik på "Konfigurer openBIS-forbindelser" i Jupyter-værktøjsmenuen.
Udfyld navnet: txms; URL: https://txms.org; bruger: gæst; adgangskode: guestpasswd.
Klik på "Opret forbindelse".
Vælg den nye forbindelse, og klik på "Vælg forbindelse."
Søg efter rapportskabelonen (f.eks. /CHEETAH/WF70), og klik på Download.
BEMÆRK: Du skal justere rapportskabelonen baseret på de resultater og den rapport, du har fået ved at køre dit job på Cheetah-MS-webserveren.
Gentag rapporten ved at klikke på Cell | Kør alle.

5. Udvid rapporten.

Tilføj en ny celle nederst: Celle | Indsæt nedenfor.
Indtast den ønskede kode. Du kan f.eks. se afsnittet Repræsentative resultater nedenfor.
Udfør cellen ved at trykke på "Shift-Enter."

Representative Results

TX-MS leverer strukturelle output understøttet af MS-afledte eksperimentelle begrænsninger. Det fungerer ved at kombinere forskellige MS-dataindsamlingstyper med beregningsmodellering. Derfor er det nyttigt at analysere hver MS-data separat og give visualisering af outputstrukturen. Supplerende data 1 indeholder et eksempel på en notesbog, der kan analysere DDA- og DIA-data, der er produceret som TX-MS-output. Brugere kan vælge XL af interesse. Ved at køre notesbogen vil MS2-spektret af den XL blive vist, hvor forskellige farver hjælper med at skelne mellem fragmenter relateret til det første peptid, det andet peptid og de kombinatoriske fragmentioner. XL kan også knyttes til strukturen ved hjælp af NGLView-widgetten, der er integreret i en Jupyter Notebook.

En anden celle i denne notesbog kan hjælpe brugerne med at analysere og visualisere DIA-data. Det er dog vanskeligere at visualisere DIA-data, fordi de analyserede data skal udarbejdes i det korrekte format.

Figur 1 viser en eksempelstruktur af M1 og albumin med top DL'er kortlagt på strukturen. TX-MS opnåede alle DL'er efter at have analyseret hrMS1-, DDA- og DIA-data, og RosettaDock-protokollen leverede beregningsmodellerne.

Da denne rapport er en Jupyter Notebook, kan enhver gyldig Python-kode føjes til nye notesbogsceller. For eksempel opretter koden nedenfor et histogram over MS2-tællingerne, der angiver, hvor godt understøttet hvert krydslink er af de underliggende data.
importere seaborn som sns
sns.distplot(ms2['count']);

Figur 1: Strukturel model af Streptococcus pyogenes M1 protein og humant albumin med DL'er kortlagt på strukturen. M1-proteinet er vist i gråt og udgør en homodimer. De seks albuminmolekyler præsenteres som par i forskellige nuancer af blåt. Tværgående links og afstande er angivet i rødt med sort tekst. Klik her for at se en større version af denne figur.

Supplerende sagsmappe. Jupyter notebook data. Klik her for at downloade denne fil.

Discussion

Moderne beregningsarbejdsgange er ofte komplekse med flere værktøjer fra mange forskellige leverandører, komplekse indbyrdes afhængigheder, høje datamængder og mangesidede resultater. Derfor bliver det stadig vanskeligere at dokumentere alle de trin, der kræves for at opnå et resultat, nøjagtigt, hvilket gør det vanskeligt at gengive det givne resultat. Her demonstrerer vi en generel strategi, der kombinerer automatisering og lethed ved en automatiseret arbejdsgang, der producerer en generisk rapport, med fleksibiliteten til at tilpasse rapporten på en reproducerbar måde.

Tre krav skal være opfyldt, for at protokollen kan fungere: For det første skal de proteiner, der udvælges til analyse, interagere på en sådan måde, at det kemiske tværbindingsforsøg kan producere tværbundne arter i en tilstrækkelig høj koncentration til, at massespektrometeret kan detekteres; forskellige massespektrometre har forskellige detektionsniveauer og er også afhængige af anskaffelsesprotokollen samt valget af tværbindingsreagens. Den nuværende version af TX-MS-protokollen tillader kun DSS, et lysin-lysin homobifunktionelt tværbindingsreagens. Alligevel skyldes denne begrænsning primært muligheden for, at maskinlæringstrinnet skal justeres for andre reagenser. Denne begrænsning er blevet forbedret i Cheetah-MS-webserveren, da yderligere to tværgående reagenser kan overvejes, men alle tre er ikke-spaltbare reagenser. For det andet skal de to proteiner enten have en eksperimentelt bestemt struktur eller modelleres ved hjælp af komparative modelleringsteknikker eller de novo-teknikker . Ikke alle proteiner kan modelleres, men en kombination af forbedret software og en konstant aflejring af eksperimentelle strukturer i PDB udvider antallet af proteiner, der kan modelleres. For det tredje bør de interagerende proteiner forblive tilstrækkeligt ens i deres bundne og ubundne tilstande, således at de dockingalgoritmer, der anvendes af TX-MS og Cheetah-MS, kan skabe kvaternære strukturer af tilstrækkelig kvalitet til at muliggøre scoring. Dette krav er relativt vagt, da acceptabel kvalitet er meget systemafhængig, hvor mindre proteiner med kendt struktur generelt er lettere at sammenligne end større proteiner med ukendt struktur.

I tilfælde af et negativt resultat skal du først kontrollere, at TX-MS fandt intralinks, tværbindinger mellem rester, der er en del af den samme polypeptidkæde. Hvis ingen opdages, er den mest sandsynlige forklaring, at noget gik galt med prøveforberedelsen eller dataindsamlingen. Hvis flere afstandsbegrænsninger ikke understøtter modellerne, skal du visuelt inspicere modellerne for at sikre, at konformationen understøttes af tværbundne rester. Der er ingen indlysende måde at dreje en af interaktorerne uden at forstyrre mindst et tværlink. Hvis der er tværbindinger, der er længere end den tilladte afstand for den givne tværbindingsreagens, skal du forsøge at forbedre modelleringen af interaktorerne ved at indarbejde tværgående data.

Det er muligt at anvende alternative softwareapplikationer til at opnå tilsvarende resultater, forudsat at følsomheden af den valgte software er sammenlignelig med TX-MS's følsomhed. For eksempel er der online versioner af RosettaDock, HADDOCK og andre. Det er også muligt at analysere kemiske tværbindingsdata gennem xQuest / xProphet ^5,6, plink⁷ og SIM-XL²⁶.

Vi anvender løbende TX-MS og Cheetah-MS på nye projekter ^27,28,29 og forbedrer derved rapporterne fra disse tilgange for at muliggøre en mere detaljeret analyse af resultaterne uden at gøre rapporterne større.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde blev støttet af Knut og Alice Wallenbergs Fond (bevilling nr. 2016.0023) og Swiss National Science Foundation (bevillingsnr. P2ZHP3_191289). Derudover takker vi S3IT, Zürich Universitet, for sin beregningsinfrastruktur og tekniske support.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Kvaternær strukturmodellering gennem kemisk tværbinding af massespektrometri: Udvidelse af TX-MS Jupyter-rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.