Biochemistry

Kvartær strukturmodellering gjennom kjemisk krysskobling av massespektrometri: Utvide TX-MS Jupyter-rapporter

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

Målrettet krysskobling av massespektrometri skaper kvartære proteinstrukturmodeller ved hjelp av massespektrometridata som er samlet inn ved hjelp av opptil tre forskjellige anskaffelsesprotokoller. Når resultatene utføres som en forenklet arbeidsflyt på Cheetah-MS-webserveren, rapporteres de i en Jupyter Notebook. Her demonstrerer vi de tekniske aspektene ved hvordan Jupyter Notebook kan utvides for en mer dyptgående analyse.

Abstract

Proteinproteininteraksjoner kan være utfordrende å studere, men gir innsikt i hvordan biologiske systemer fungerer. Målrettet krysskobling av massespektrometri (TX-MS), en metode som kombinerer kvartær proteinstrukturmodellering og kjemisk krysskobling av massespektrometri, skaper strukturmodeller med høy nøyaktighet ved hjelp av data hentet fra komplekse, ukfraksjonerte prøver. Dette fjerner en av de store hindringene for proteinkompleksstrukturanalyse fordi proteinene av interesse ikke lenger trenger å renses i store mengder. Cheetah-MS webserver ble utviklet for å gjøre den forenklede versjonen av protokollen mer tilgjengelig for samfunnet. Med tanke på tandem-MS/MS-dataene genererer Cheetah-MS en Jupyter Notebook, en grafisk rapport som oppsummerer de viktigste analyseresultatene. Utvidelse av Jupyter bærbar PC kan gi mer dyptgående innsikt og bedre forstå modellen og massespektrometridataene som støtter den. Den tekniske protokollen som presenteres her demonstrerer noen av de vanligste utvidelsene og forklarer hvilken informasjon som kan fås. Den inneholder blokker for å analysere tandem MS / MS-innsamlingsdata og den totale effekten av de oppdagede XLene på de rapporterte kvartære modellene. Resultatet av slike analyser kan brukes på strukturelle modeller som er innebygd i den bærbare PCen ved hjelp av NGLView.

Introduction

Proteinproteininteraksjoner underbygger strukturen og funksjonen til biologiske systemer. Å ha tilgang til kvartære strukturer av proteiner kan gi innsikt i hvordan to eller flere proteiner samhandler for å danne høyordensstrukturer. Dessverre er det fortsatt utfordrende å skaffe kvartærstrukturer; Dette gjenspeiles i det relativt små antallet PDB-oppføringer (Protein DataBank)^som inneholder mer enn ett polypeptid. Proteinproteininteraksjoner kan studeres med teknologier som røntgenkrystallografi, NMR og kryo-EM, men det kan være tidkrevende å oppnå tilstrekkelig mengde renset protein under forhold der metodene kan brukes.

Kjemisk krysskobling av massespektrometri ble utviklet for å innhente eksperimentelle data om proteinproteininteraksjoner med færre restriksjoner på prøvepreparering, da massespektrometri kan brukes til å skaffe data om vilkårlig komplekse prøver 2,3,4,5,6,7,8,9 . Imidlertid krever den kombinatoriske karakteren av dataanalysen og det relativt små antallet krysskoblede peptider at prøvene fraksjoneres før analyse. For å løse denne mangelen utviklet vi TX-MS, en metode som kombinerer beregningsmodellering med kjemisk krysskoblingsmassespektrometri¹⁰. TX-MS kan brukes på vilkårlig komplekse prøver og er betydelig mer følsom sammenlignet med tidligere metoder¹⁰. Det oppnår dette ved å score alle data knyttet til en gitt proteinproteininteraksjon som et sett i stedet for å tolke hvert MS-spektrum uavhengig. TX-MS bruker også opptil tre forskjellige MS-anskaffelsesprotokoller: høyoppløselig MS1 (hrMS1), dataavhengig anskaffelse (DDA) og datauavhengig anskaffelse (DIA), noe som ytterligere gir muligheter til å identifisere et krysskoblet peptid ved å kombinere flere observasjoner. Den beregningsbaserte arbeidsflyten TX-MS er kompleks av flere grunner. For det første er det avhengig av flere MS-analyseprogrammer 11,12,13 for å lage proteinstrukturmodeller ^14,15. For det andre kan datamengden være betydelig. For det tredje kan modelleringstrinnet bruke betydelige mengder databehandlingskraft.

TX-MS brukes derfor best som en automatisert, forenklet databehandlingsarbeidsflyt gjennom Cheetah-MS webserver¹⁶ som kjører på store databehandlingsinfrastrukturer som dataskyer eller klynger. For å lette tolkningen av resultatene produserte vi en interaktiv Jupyter Notebook¹⁷. Her demonstrerer vi hvordan Jupyter Notebook-rapporten kan utvides for å gi en mer dyptgående analyse av et gitt resultat.

Protocol

1. Send inn arbeidsflyt på https://txms.org.

Gå til https://txms.org og klikk Bruk Cheetah-MS.
Hvis du vil sende inn arbeidsflyt, må du oppgi to PDB-filer og én MS/MS mzML- eller MGF-fil. Du kan også klikke på "last inn eksempeldata" for å se demoversjonen av arbeidsflyten.
MERK: Se på den manuelle siden på webserveren for detaljert informasjon om hvordan du sender inn en jobb. Webserveren støtter forskjellige ikke-cleavable cross-linker agenter, opptil 12 post-oversettelsesendringer (PTMer), alternativer relatert til beregningsmodellering og MS-dataanalyse. Små hjelpeknapper er også utformet på send-siden for å vise mer informasjon om hvert alternativ.

2. Kjør Cheetah-MS.

MERK: Konverter de leverandørspesifikke formatene til mzML eller MGF ved hjelp av ProteoWizard MSConvert-programvaren¹⁹.

Last opp MS-dataene til https://txms.org. Klikk deretter på "Velg fil" og velg MS-dataene, som må være i mzML / MGF-dataformatene¹⁸.
MERK: Eksempeldata er tilgjengelige på https://txms.org. Disse dataene er også direkte tilgjengelige via zenodo.org, DOI 10.5281/zenodo.3361621.
Last opp to PDB-filer til https://txms.org. Klikk på "Velg fil" og velg PDB-filene som skal lastes opp.
MERK: Hvis det ikke finnes noen eksperimentelle strukturer, kan du lage modeller ved hjelp av for eksempel SWISS-MODEL²⁰ hvis homologstrukturer er tilgjengelige, eller trRosetta ^21,22 eller Robetta^23,24 webservere for de novo struktur spådommer.
Send inn en ny arbeidsflyt. Klikk på "Send" for å motta en jobbidentifikator-tag. Deretter følger du skjemaet til resultatinndelingen ved hjelp av denne koden.
MERK: Databehandling av resultatet tar tid, så vent til arbeidsflyten er ferdig, og lagre jobbidentifikatorkoden for å gå tilbake til resultatsiden. Beregningen utføres på ekstern databehandlingsinfrastruktur. Hvis du vil kjøre TX-MS lokalt, kan du se Hauri et ^al.10.
Undersøk Jupyter Notebook-rapporten ved hjelp av den elektroniske seeren. Bla deretter ned til «Rapport» i resultatdelen ved hjelp av jobbidentifikator-taggen.

3. Installer JupyterHub.

Monter dokkingstasjonen som anvist på https://docs.docker.com/install/.
Last ned JupyterHub docker-beholderen med Jupyter openBIS^{25-utvidelsen}. Den generelle kommandoen er "docker pull malmstroem/jove:latest", men kan variere på andre plattformer.
MERK: Hvis du vil ha en generell diskusjon om hvordan du laster ned beholdere, kan du se https://www.docker.com/get-started. Det er også mulig å laste ned beholderen fra zenodo.org, DOI 10.5281/zenodo.3361621.
MERK: Jupyter openBIS-kildekoden er tilgjengelig her: https://pypi.org/project/jupyter-openbis-extension/.
Start dockerbeholderen: docker run -p 8178:8000 malmstroem/jove:latest.
MERK: Porten som JupyterHub bruker som standard er 8000. Denne porten kan konfigureres, og kommandoene ovenfor må justeres tilsvarende hvis de endres. Port 8178 er et vilkårlig valg og kan endres. Eksempel-URL-adressene nedenfor må justeres tilsvarende.
Gå til følgende adresse: http://127.0.0.1:8178. Logg inn med brukernavnet "bruker" og passordet "bruker".
MERK: Adressen http://127.0.0.1 innebærer at dockerbeholderen kjører på den lokale datamaskinen. Hvis dockerbeholderen kjøres på en server, bruker du serverens IP-adresse eller URL-adresse (f.eks. https://example.com). Docker-beholderen er basert på Ubuntu Bionic 18.04, JupyterHub 0.9.6 og Jupyter openBIS-utvidelse 0.2. Det er mulig å installere dette i andre operativsystemer, men dette ble ikke testet.

4. Last ned rapporten.

Opprett en ny notatblokk ved å klikke Ny| Python 3 ved hjelp av menyen øverst til høyre på siden. Dette åpner en ny fane med en notatblokk som heter Uten navn (eller noe lignende).
Klikk på "Konfigurer openBIS Connections" i Jupyter-verktøymenyen.
Fyll ut navnet: txms; URL-adresse: https://txms.org; bruker: gjest; passord: guestpasswd.
Klikk koble til.
Velg den nye tilkoblingen og klikk på "Velg tilkobling."
Søk etter rapportmalen (for eksempel /CHEETAH/WF70), og klikk Last ned.
MERK: Du må justere rapportmalen basert på resultatene og rapporten du fikk fra å kjøre jobben din på Cheetah-MS-webserveren.
Kjøre rapporten på nytt ved å klikke Celle | Kjør alle.

5. Utvid rapporten.

Legge til en ny celle nederst: Celle | Sett inn nedenfor.
Skriv inn den ønskede koden. Se for eksempel delen Representative resultater nedenfor.
Utfør cellen ved å trykke SKIFT-ENTER.

Representative Results

TX-MS gir strukturelle utdata som støttes av MS-avledede eksperimentelle begrensninger. Det fungerer ved å kombinere forskjellige MS-datainnsamlingstyper med beregningsmodellering. Derfor er det nyttig å analysere hver MS-data separat og gi visualisering av utdatastrukturen. Tilleggsdata 1 inneholder en eksempelnotatblokk som kan analysere DDA- og DIA-data produsert som TX-MS-utdata. Brukere kan velge XL av interesse. Ved å kjøre den bærbare PCen vil MS2-spekteret av den XL vises der forskjellige farger bidrar til å diskriminere mellom fragmenter relatert til det første peptidet, det andre peptidet og kombinatoriske fragmentioner. XL kan også tilordnes strukturen ved hjelp av NGLView-kontrollprogrammet som er innebygd i en Jupyter Notebook.

En annen celle i denne notatblokken kan hjelpe brukere med å analysere og visualisere DIA-data. Det er imidlertid vanskeligere å visualisere DIA-data fordi de analyserte dataene må utarbeides i riktig format.

Figur 1 viser en eksempelstruktur på M1 og albumin med topp-XLer tilordnet strukturen. TX-MS fikk alle XLer etter analyse av hrMS1-, DDA- og DIA-data, og RosettaDock-protokollen leverte beregningsmodellene.

Siden denne rapporten er en Jupyter Notebook, kan alle gyldige Python-koder legges til i nye notatblokkceller. Koden nedenfor vil for eksempel opprette et histogram over MS2-tellingene, som angir hvor godt støttet hver krysskobling er av de underliggende dataene.
importere sjøbårne som sns
sns.distplot(ms2['count']);

Figur 1: Strukturell modell av Streptococcus pyogenes M1 protein og human albumin med XLs kartlagt på strukturen. M1-proteinet er vist i grått og utgjør en homodimer. De seks albuminmolekylene presenteres som par i forskjellige nyanser av blått. Krysskoblinger og avstander er gitt i rødt med svart tekst. Klikk her for å se en større versjon av denne figuren.

Tilleggsfil. Jupyter-data for notatblokker. Klikk her for å laste ned denne filen.

Discussion

Moderne databehandlingsarbeidsflyter er ofte komplekse, med flere verktøy fra mange forskjellige leverandører, komplekse gjensidige avhengigheter, høye datavolumer og mangefasetterte resultater. Følgelig blir det stadig vanskeligere å nøyaktig dokumentere alle trinnene som kreves for å oppnå et resultat, noe som gjør det vanskelig å reprodusere det gitte resultatet. Her demonstrerer vi en generell strategi som kombinerer automatiseringen og enkelheten til en automatisert arbeidsflyt som produserer en generisk rapport, med fleksibiliteten til å tilpasse rapporten på en reproduserbar måte.

Tre krav må oppfylles for at protokollen skal fungere: For det første må proteinene som er valgt for analyse samhandle på en slik måte at det kjemiske krysskoblingseksperimentet kan produsere krysskoblede arter med tilstrekkelig høy konsentrasjon for å bli oppdaget av massespektrometeret; forskjellige massespektrometre har forskjellige nivåer av deteksjon og er også avhengige av oppkjøpsprotokollen samt valget av krysskoblingsreagens. Den nåværende versjonen av TX-MS-protokollen tillater bare DSS, et lysin-lysin homobifunctional krysskoblingsreagens. Likevel skyldes denne begrensningen først og fremst muligheten for at maskinlæringstrinnet må justeres for andre reagenser. Denne begrensningen er forbedret i Cheetah-MS-webserveren, da ytterligere to krysskoblingsreagenser kan vurderes, men alle tre er ikke-cleavable reagenser. For det andre trenger de to proteinene enten å ha en eksperimentelt bestemt struktur eller modelleres ved hjelp av komparative modelleringsteknikker eller de novo-teknikker . Ikke alle proteiner kan modelleres, men en kombinasjon av forbedret programvare og en konstant avsetning av eksperimentelle strukturer i PDB utvider antall proteiner som kan modelleres. For det tredje bør de interagerende proteinene forbli tilstrekkelig like i sine bundne og ubundne tilstander, slik at dokkingalgoritmene som brukes av TX-MS og Cheetah-MS, kan skape kvartære strukturer av tilstrekkelig kvalitet for å muliggjøre poengregning. Dette kravet er relativt vagt, da akseptabel kvalitet er svært systemavhengig, hvor mindre proteiner av kjent struktur generelt er lettere å sammenligne enn større proteiner av ukjent struktur.

Ved et negativt resultat må du først kontrollere at TX-MS fant intrakoblinger, krysskoblinger mellom rester som er en del av samme polypeptidkjede. Hvis ingen blir oppdaget, er den mest sannsynlige forklaringen at noe gikk galt med prøveforberedelsen eller datainnsamlingen. Hvis flere avstandsbegrensninger ikke støtter modellene, må du visuelt inspisere modellene for å sikre at konformasjonen støttes av krysskoblede rester. Det er ingen åpenbar måte å dreie en av interaktivitetene uten å forstyrre minst en krysskobling. Hvis det er krysskoblinger lenger enn tillatt avstand for det gitte krysskoblingsreagenset, kan du prøve å forbedre modelleringen av interaktivitetene ved å inkorporere krysskoblingsdata.

Det er mulig å bruke alternative programmer for å oppnå tilsvarende resultater, forutsatt at følsomheten til den valgte programvaren er sammenlignbar med følsomheten til TX-MS. For eksempel er det online versjoner av RosettaDock, HADDOCK og andre. Det er også mulig å analysere kjemiske krysskoblingsdata gjennom xQuest/xProphet ^5,6, plink⁷ og SIM-XL²⁶.

Vi bruker kontinuerlig TX-MS og Cheetah-MS på nye prosjekter 27,28,29, og forbedrer dermed rapportene som produseres av disse tilnærmingene for å muliggjøre en mer detaljert analyse av resultatene uten å gjøre rapportene større.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble støttet av Stiftelsen Knut og Alice Wallenberg (tilskuddsnr. 2016.0023) og Swiss National Science Foundation (tilskuddsnr. P2ZHP3_191289). I tillegg takker vi S3IT, Universitetet i Zürich, for sin beregningsinfrastruktur og tekniske støtte.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Kvartær strukturmodellering gjennom kjemisk krysskobling av massespektrometri: Utvide TX-MS Jupyter-rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.