Biochemistry

Kvartär strukturmodellering genom kemisk tvärbindning av masspektrometri: Utvidgning av TX-MS Jupyter-rapporter

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

Riktad tvärbindning av masspektrometri skapar kvartära proteinstrukturmodeller med hjälp av masspektrometridata som förvärvats med upp till tre olika förvärvsprotokoll. När resultatet körs som ett förenklat arbetsflöde på Cheetah-MS-webbservern rapporteras de i en Jupyter Notebook. Här visar vi de tekniska aspekterna av hur Jupyter Notebook kan utökas för en mer djupgående analys.

Abstract

Protein-proteininteraktioner kan vara utmanande att studera men ändå ge insikter i hur biologiska system fungerar. Riktad tvärbindningsmasspektrometri (TX-MS), en metod som kombinerar kvaternär proteinstrukturmodellering och kemisk tvärbindningsmasspektrometri, skapar strukturmodeller med hög noggrannhet med hjälp av data erhållna från komplexa, ofraktionerade prover. Detta tar bort ett av de största hindren för proteinkomplexstrukturanalys eftersom proteinerna av intresse inte längre behöver renas i stora mängder. Cheetah-MS webbserver utvecklades för att göra den förenklade versionen av protokollet mer tillgänglig för samhället. Med tanke på tandem MS/MS-data genererar Cheetah-MS en Jupyter Notebook, en grafisk rapport som sammanfattar de viktigaste analysresultaten. Genom att utöka Jupyter Notebook kan du få mer djupgående insikter och bättre förstå modellen och de masspektrometridata som stöder den. Det tekniska protokollet som presenteras här visar några av de vanligaste tilläggen och förklarar vilken information som kan erhållas. Den innehåller block som hjälper till att analysera tandem MS/MS-förvärvsdata och den totala effekten av de upptäckta RL: erna på de rapporterade kvartära modellerna. Resultatet av sådana analyser kan tillämpas på strukturella modeller som är inbäddade i anteckningsboken med NGLView.

Introduction

Protein-proteininteraktioner ligger till grund för biologiska systems struktur och funktion. Att ha tillgång till kvartära strukturer av proteiner kan ge insikter i hur två eller flera proteiner interagerar för att bilda högordnad strukturer. Tyvärr är det fortfarande utmanande att få kvartära strukturer; Detta återspeglas i det jämförelsevis lilla antalet PDB-poster (Protein DataBank)¹ som innehåller mer än en polypeptid. Protein-proteininteraktioner kan studeras med tekniker som röntgenkristallografi, NMR och kryo-EM, men att erhålla en tillräcklig mängd renat protein under förhållanden där metoderna kan tillämpas kan vara tidskrävande.

Kemisk tvärbindning av masspektrometri utvecklades för att erhålla experimentella data om protein-proteininteraktioner med färre begränsningar för provberedning eftersom masspektrometri kan användas för att förvärva data om godtyckligt komplexa prover 2,3,4,5,6,7,8,9 . Dataanalysens kombinatoriska karaktär och det relativt lilla antalet tvärbundna peptider kräver emellertid att proverna fraktioneras före analys. För att åtgärda denna brist utvecklade vi TX-MS, en metod som kombinerar beräkningsmodellering med kemisk tvärbindning av masspektrometri¹⁰. TX-MS kan användas på godtyckligt komplexa prover och är betydligt känsligare jämfört med tidigare metoder¹⁰. Det åstadkommer detta genom att poängsätta alla data som är associerade med en given protein-proteininteraktion som en uppsättning istället för att tolka varje MS-spektrum oberoende. TX-MS använder också upp till tre olika MS-förvärvsprotokoll: högupplöst MS1 (hrMS1), databeroende förvärv (DDA) och dataoberoende förvärv (DIA), vilket ytterligare ger möjligheter att identifiera en tvärbunden peptid genom att kombinera flera observationer. TX-MS-beräkningsarbetsflödet är komplext av flera skäl. För det första förlitar den sig på flera MS-analysprogram 11,12,13 för att skapa proteinstrukturmodeller ^14,15. För det andra kan mängden data vara betydande. För det tredje kan modelleringssteget förbruka betydande mängder datorbehandlingskraft.

Följaktligen används TX-MS bäst som ett automatiserat, förenklat beräkningsarbetsflöde via Cheetah-MS webbserver¹⁶ som körs på stora beräkningsinfrastrukturer som datormoln eller kluster. För att underlätta tolkningen av resultaten tog vi fram en interaktiv Jupyter Notebook¹⁷. Här visar vi hur Jupyter Notebook-rapporten kan utökas för att ge en mer djupgående analys av ett visst resultat.

Protocol

1. Skicka arbetsflöde på https://txms.org.

Gå till https://txms.org och klicka på "Använd Cheetah-MS.".
Om du vill skicka arbetsflöde måste du ange två PDB-filer och en MS/MS mzML- eller MGF-fil. Du kan också klicka på "ladda exempeldata" för att se demoversionen av arbetsflödet.
OBS: Titta på webbserverns manuella sida för detaljerad information om hur du skickar in ett jobb. Webbservern stöder olika icke-klyvbara tvärlänkningsagenter, upp till 12 posttranslationella modifieringar (PTM), alternativ relaterade till beräkningsmodellering och MS-dataanalys. Små hjälpknappar är också utformade på skicka-sidan för att visa mer information om varje alternativ.

2. Kör Cheetah-MS.

Konvertera de leverantörsspecifika formaten till mzML eller MGF med hjälp av ProteoWizard MSConvert-programvaran¹⁹.

Ladda upp MS-data till https://txms.org. Klicka sedan på "Välj fil" och välj MS-data, som måste finnas i mzML / MGF-dataformat¹⁸.
OBS: Exempeldata finns tillgängliga på https://txms.org. Dessa data är också direkt tillgängliga via zenodo.org, DOI 10.5281/zenodo.3361621.
Ladda upp två PDB-filer till https://txms.org. Klicka på "Välj fil" och välj PDB-filerna som ska laddas upp.
OBS: Om det inte finns några experimentella strukturer, skapa modeller med till exempel SWISS-MODEL²⁰ om homologstrukturer är tillgängliga, eller trRosetta ^21,22 eller Robetta^23,24 webbservrar för de novo-strukturförutsägelser.
Skicka ett nytt arbetsflöde. Klicka på "Skicka" för att få en jobbidentifierartagg. Följ sedan formuläret till resultatavsnittet med den här taggen.
Obs!: Det tar tid att beräkna resultatet, så vänta tills arbetsflödet är klart och lagra jobbidentifierartaggen för att återgå till resultatsidan. Beräkningen utförs på fjärrberäkningsinfrastruktur. Om du vill köra TX-MS lokalt, se Hauri et ^al.10.
Granska Jupyter Notebook-rapporten med hjälp av onlinevisningsprogrammet. Rulla sedan ned till "Rapportera" i resultatavsnittet med hjälp av jobbidentifierartaggen.

3. Installera JupyterHub.

Installera docker enligt anvisningarna i https://docs.docker.com/install/.
Ladda ned JupyterHub docker-containern med Jupyter openBIS^{25-tillägget}. Det allmänna kommandot är "docker pull malmstroem/jove:latest", men kan skilja sig åt på andra plattformar.
OBS: För en allmän diskussion om hur man laddar ner containrar, se https://www.docker.com/get-started. Det är också möjligt att ladda ner behållaren från zenodo.org, DOI 10.5281/zenodo.3361621.
Källkoden för Tillägget Jupyter openBIS finns här: https://pypi.org/project/jupyter-openbis-extension/.
Starta dockercontainern: docker run -p 8178:8000 malmstroem/jove:latest.
OBS: Porten som JupyterHub använder som standard är 8000. Den här porten kan konfigureras och kommandona ovan måste justeras i enlighet med detta om de ändras. Port 8178 är ett godtyckligt val och kan ändras. Exempel-URL:erna nedan måste justeras i enlighet med detta.
Gå till följande adress: http://127.0.0.1:8178. Logga in med användarnamnet "användare" och lösenordet "användare".
Adressen http://127.0.0.1 innebär att Docker-containern körs på den lokala datorn. Om Docker-containern körs på en server använder du serverns IP-adress eller URL (t.ex. https://example.com). Docker-containern baseras på Ubuntu Bionic 18.04, JupyterHub 0.9.6 och Jupyter openBIS-tillägget 0.2. Det är möjligt att installera detta i andra operativsystem, men detta testades inte.

4. Ladda ner rapporten.

Skapa en ny anteckningsbok genom att klicka på Ny| Python 3 med hjälp av menyn som ligger nära den övre högra delen av sidan. Detta öppnar en ny flik med en anteckningsbok som heter Untitled (eller något liknande).
Klicka på "Konfigurera openBIS-anslutningar" i Jupyter-verktygsmenyn.
Fyll i namnet: txms; Webbadress: https://txms.org; användare: gäst; lösenord: guestpasswd.
Klicka på "Anslut".
Välj den nya anslutningen och klicka på "Välj anslutning."
Sök efter rapportmallen (t.ex. /CHEETAH/WF70) och klicka på Ladda ned.
OBS: Du måste justera rapportmallen baserat på de resultat och rapporter du fick från att köra ditt jobb på Cheetah-MS webbserver.
Kör rapporten igen genom att klicka på Cell | Kör alla.

5. Förläng rapporten.

Lägg till en ny cell längst ned: Cell | Infoga nedan.
Skriv in den önskade koden. Ett exempel finns i avsnittet Representativa resultat nedan.
Kör cellen genom att trycka på "Shift-Enter."

Representative Results

TX-MS tillhandahåller strukturella utdata som stöds av MS-härledda experimentella begränsningar. Det fungerar genom att kombinera olika MS-datainsamlingstyper med beräkningsmodellering. Därför är det bra att analysera varje MS-data separat och tillhandahålla visualisering av utdatastrukturen. Kompletterande data 1 innehåller ett exempel på en notebook-fil som kan parsa DDA- och DIA-data som produceras som TX-MS-utdata. Användare kan välja XL av intresse. Genom att köra anteckningsboken kommer MS2-spektrumet för den XL att visas där olika färger hjälper till att skilja mellan fragment relaterade till den första peptiden, den andra peptiden och de kombinatoriska fragmentjonerna. XL kan också mappas till strukturen med hjälp av NGLView-widgeten inbäddad i en Jupyter Notebook.

En annan cell i den här anteckningsboken kan hjälpa användare att parsa och visualisera DIA-data. Det är dock svårare att visualisera DIA-data eftersom de analyserade data måste förberedas i rätt format.

Figur 1 visar en exempelstruktur av M1 och albumin med de översta XL: erna mappade på strukturen. TX-MS erhöll alla XLs efter parsning av hrMS1-, DDA- och DIA-data, och RosettaDock-protokollet tillhandahöll beräkningsmodellerna.

Eftersom den här rapporten är en Jupyter Notebook kan valfri Giltig Python-kod läggas till i nya notebook-celler. Koden nedan skapar till exempel ett histogram över MS2-räkningarna, vilket anger hur väl stödd varje tvärlänk stöds av underliggande data.
importera seaborn som sns
sns.distplot(ms2['count']);

Figur 1: Strukturell modell av Streptococcus pyogenes M1-protein och humant albumin med TL kartlagda på strukturen. M1-proteinet visas i grått och utgör en homodimer. De sex albuminmolekylerna presenteras som par i olika nyanser av blått. Korslänkar och avstånd anges i rött med svart text. Klicka här för att se en större version av denna figur.

Kompletterande akt. Jupyter notebook-data. Klicka här för att ladda ner den här filen.

Discussion

Moderna beräkningsarbetsflöden är ofta komplexa, med flera verktyg från många olika leverantörer, komplexa ömsesidiga beroenden, höga datavolymer och mångfacetterade resultat. Följaktligen blir det allt svårare att exakt dokumentera alla steg som krävs för att få ett resultat, vilket gör det svårt att reproducera det givna resultatet. Här demonstrerar vi en allmän strategi som kombinerar automatisering och enkelhet i ett automatiserat arbetsflöde som producerar en generisk rapport, med flexibiliteten att anpassa rapporten på ett reproducerbart sätt.

Tre krav måste uppfyllas för att protokollet ska fungera: För det första måste de proteiner som valts ut för analys interagera på ett sådant sätt att det kemiska tvärbindningsexperimentet kan producera tvärbundna arter i en tillräckligt hög koncentration för att detekteras av masspektrometern; olika masspektrometrar har olika detektionsnivåer och är också beroende av förvärvsprotokollet samt valet av tvärbindningsreagens. Den nuvarande versionen av TX-MS-protokollet tillåter endast DSS, ett lysin-lysinhomobifunktionellt tvärbindningsreagens. Ändå beror denna begränsning främst på möjligheten att maskininlärningssteget skulle behöva justeras för andra reagenser. Denna begränsning har förbättrats i Cheetah-MS-webbservern eftersom ytterligare två tvärbindningsreagens kan övervägas, men alla tre är icke-klyvbara reagenser. För det andra måste de två proteinerna antingen ha en experimentellt bestämd struktur eller modelleras med hjälp av jämförande modelleringstekniker eller de novo-tekniker . Inte alla proteiner kan modelleras, men en kombination av förbättrad programvara och en konstant avsättning av experimentella strukturer i PDB utökar antalet proteiner som kan modelleras. För det tredje bör de interagerande proteinerna förbli tillräckligt lika i sina bundna och obundna tillstånd så att dockningsalgoritmerna som används av TX-MS och Cheetah-MS kan skapa kvartära strukturer av tillräcklig kvalitet för att möjliggöra poängsättning. Detta krav är relativt vagt, eftersom acceptabel kvalitet är mycket systemberoende, där mindre proteiner med känd struktur i allmänhet är lättare att jämföra än större proteiner med okänd struktur.

Vid ett negativt resultat, kontrollera först att TX-MS hittade intralänkar, tvärlänkar mellan rester som ingår i samma polypeptidkedja. Om ingen upptäcks är den mest troliga förklaringen att något gick fel med provberedningen eller datainsamlingen. Om flera avståndsbegränsningar inte stöder modellerna, inspektera modellerna visuellt för att säkerställa att konformationen stöds av tvärbundna rester. Det finns inget uppenbart sätt att vrida en av interaktörerna utan att störa minst en tvärlänk. Om det finns tvärlänkar som är längre än det tillåtna avståndet för det givna tvärbindningsreagenset, försök att förbättra modelleringen av interaktorerna genom att införliva tvärbindningsdata.

Det är möjligt att använda alternativa program för att uppnå likvärdiga resultat förutsatt att känsligheten hos den valda programvaran är jämförbar med känsligheten hos TX-MS. Det finns till exempel onlineversioner av RosettaDock, HADDOCK och andra. Det är också möjligt att analysera kemiska tvärbindningsdata genom xQuest/xProphet ^5,6, plink⁷ och SIM-XL²⁶.

Vi tillämpar kontinuerligt TX-MS och Cheetah-MS på nya projekt 27,28,29, vilket förbättrar rapporterna som produceras av dessa metoder för att möjliggöra en mer detaljerad analys av resultaten utan att göra rapporterna större.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Detta arbete stöddes av Knut och Alice Wallenbergs stiftelse (anslag nr 2016.0023) och Swiss National Science Foundation (anslag nr. P2ZHP3_191289). Dessutom tackar vi S3IT, Zürichs universitet, för dess beräkningsinfrastruktur och tekniska support.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Kvartär strukturmodellering genom kemisk tvärbindning av masspektrometri: Utvidgning av TX-MS Jupyter-rapporter

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.