Biochemistry

Quartaire structuurmodellering door chemische cross-linking massaspectrometrie: uitbreiding van TX-MS Jupyter-rapporten

Published: October 20, 2021 doi: 10.3791/60311

Hamed Khakzad^1,2, Swen Vermeul³, Lars Malmström^4,5,6

¹Equipe Signalisation Calcique et Infections Microbiennes, Ecole Normale Supérieure Paris-Saclay, ²Institut National de la Santé et de la Recherche Médicale, ³Scientific IT Services, ETH Zurich, ⁴Institute for Computational Science, University of Zurich, ⁵S3IT, University of Zurich, ⁶Division of Infection Medicine, Department of Clinical Sciences Lund, Faculty of Medicine, Lund University

Summary

Gerichte cross-linking massaspectrometrie creëert quaternaire eiwitstructuurmodellen met behulp van massaspectrometriegegevens die zijn verkregen met behulp van maximaal drie verschillende acquisitieprotocollen. Wanneer de resultaten worden uitgevoerd als een vereenvoudigde workflow op de Cheetah-MS-webserver, worden ze gerapporteerd in een Jupyter Notebook. Hier demonstreren we de technische aspecten van hoe de Jupyter Notebook kan worden uitgebreid voor een meer diepgaande analyse.

Abstract

Eiwit-eiwit interacties kunnen een uitdaging zijn om te bestuderen, maar toch inzicht geven in hoe biologische systemen functioneren. Targeted cross-linking mass spectrometry (TX-MS), een methode die quaternaire eiwitstructuurmodellering en chemische cross-linking massaspectrometrie combineert, creëert zeer nauwkeurige structuurmodellen met behulp van gegevens verkregen uit complexe, niet-gefractioneerde monsters. Dit neemt een van de belangrijkste obstakels voor eiwitcomplexstructuuranalyse weg, omdat de eiwitten van belang niet langer in grote hoeveelheden hoeven te worden gezuiverd. Cheetah-MS webserver is ontwikkeld om de vereenvoudigde versie van het protocol toegankelijker te maken voor de gemeenschap. Rekening houdend met de tandem MS/MS-gegevens genereert Cheetah-MS een Jupyter Notebook, een grafisch rapport met een samenvatting van de belangrijkste analyseresultaten. Het uitbreiden van de Jupyter Notebook kan meer diepgaande inzichten opleveren en het model en de massaspectrometriegegevens die het ondersteunen beter begrijpen. Het hier gepresenteerde technische protocol demonstreert enkele van de meest voorkomende extensies en legt uit welke informatie kan worden verkregen. Het bevat blokken om tandem MS /MS-acquisitiegegevens en de algehele impact van de gedetecteerde XL's op de gerapporteerde quaternaire modellen te helpen analyseren. Het resultaat van dergelijke analyses kan worden toegepast op structurele modellen die met BEHULP VAN NGLView in het notitieboek zijn ingebed.

Introduction

Eiwit-eiwit interacties ondersteunen de structuur en functie van biologische systemen. Toegang hebben tot quaternaire structuren van eiwitten kan inzicht geven in hoe twee of meer eiwitten op elkaar inwerken om structuren van hoge orde te vormen. Helaas blijft het verkrijgen van quaternaire structuren een uitdaging; dit komt tot uiting in het relatief kleine aantal Protein DataBank (PDB) entries¹ dat meer dan één polypeptide bevat. Eiwit-eiwitinteracties kunnen worden bestudeerd met technologieën zoals röntgenkristallografie, NMR en cryo-EM, maar het verkrijgen van een voldoende hoeveelheid gezuiverd eiwit onder omstandigheden waarin de methoden kunnen worden toegepast, kan tijdrovend zijn.

Chemische cross-linking massaspectrometrie werd ontwikkeld om experimentele gegevens te verkrijgen over eiwit-eiwitinteracties met minder beperkingen op monstervoorbereiding, aangezien massaspectrometrie kan worden gebruikt om gegevens te verkrijgen over willekeurig complexe monsters 2,3,4,5,6,7,8,9 . Het combinatorische karakter van de data-analyse en het relatief kleine aantal verknoopte peptiden vereisen echter dat de monsters vóór de analyse worden gefractioneerd. Om deze tekortkoming aan te pakken, hebben we TX-MS ontwikkeld, een methode die computationele modellering combineert met chemische cross-linking massaspectrometrie¹⁰. TX-MS kan worden gebruikt op willekeurig complexe monsters en is aanzienlijk gevoeliger in vergelijking met eerdere methoden¹⁰. Het bereikt dit door alle gegevens die verband houden met een bepaalde eiwit-eiwitinteractie als een set te scoren in plaats van elk MS-spectrum onafhankelijk te interpreteren. TX-MS maakt ook gebruik van maximaal drie verschillende MS-acquisitieprotocollen: hoge resolutie MS1 (hrMS1), data-afhankelijke acquisitie (DDA) en data-onafhankelijke acquisitie (DIA), wat verder mogelijkheden biedt om een cross-linked peptide te identificeren door meerdere observaties te combineren. De TX-MS computationele workflow is om verschillende redenen complex. Ten eerste vertrouwt het op meerdere MS-analysesoftwareprogramma's 11,12,13 om eiwitstructuurmodellen ^14,15 te maken. Ten tweede kan de hoeveelheid gegevens aanzienlijk zijn. Ten derde kan de modelleringsstap aanzienlijke hoeveelheden computerverwerkingskracht verbruiken.

Daarom kan TX-MS het beste worden gebruikt als een geautomatiseerde, vereenvoudigde computationele workflow via Cheetah-MS webserver¹⁶ die draait op grote computationele infrastructuren zoals computerclouds of clusters. Om de interpretatie van de resultaten te vergemakkelijken, hebben we een interactieve Jupyter Notebook¹⁷ geproduceerd. Hier laten we zien hoe het Jupyter Notebook-rapport kan worden uitgebreid om een meer diepgaande analyse van een bepaald resultaat te verkrijgen.

Protocol

1. Verzend de workflow op https://txms.org.

Ga naar https://txms.org en klik op "Use Cheetah-MS".
Als u de workflow wilt indienen, moet u twee PDB-bestanden en een MS/MS mzML- of MGF-bestand opgeven. U kunt ook op de "voorbeeldgegevens laden" klikken om de demoversie van de workflow te bekijken.
OPMERKING: Kijk op de handmatige pagina van de webserver voor gedetailleerde informatie over het indienen van een vacature. De webserver ondersteunt verschillende niet-splijtbare cross-linker agents, tot 12 posttranslationele modificaties (PTM's), opties met betrekking tot computationele modellering en MS-gegevensanalyse. Kleine helpknoppen zijn ook ontworpen op de verzendpagina om meer informatie over elke optie weer te geven.

2. Voer Cheetah-MS uit.

OPMERKING: Converteer de leverancierspecifieke indelingen naar mzML of MGF met behulp van de ProteoWizard MSConvert-software¹⁹.

Upload de MS-gegevens naar https://txms.org. Klik vervolgens op "Bestand kiezen" en selecteer de MS-gegevens, die zich in de mzML / MGF-gegevensindelingen^{moeten bevinden 18}.
OPMERKING: Voorbeeldgegevens zijn beschikbaar op https://txms.org. Deze gegevens zijn ook rechtstreeks toegankelijk via zenodo.org DOI 10.5281/zenodo.3361621.
Upload twee VOB-bestanden naar https://txms.org. Klik op "Bestand kiezen" en selecteer de VOB-bestanden die u wilt uploaden.
OPMERKING: Als er geen experimentele structuren bestaan, maak dan modellen met behulp van bijvoorbeeld SWISS-MODEL²⁰ als homoloogstructuren beschikbaar zijn, of trRosetta ^21,22 of Robetta^23,24 webservers voor de novo structuurvoorspellingen.
Dien een nieuwe workflow in. Klik op "Verzenden" om een job identifier tag te ontvangen. Volg vervolgens het formulier naar de resultatensectie met deze tag.
OPMERKING: Het berekenen van het resultaat kost tijd, dus wacht tot de workflow is voltooid en sla de taak-ID-tag op om terug te keren naar de resultatenpagina. De berekening wordt uitgevoerd op externe computationele infrastructuur. Als u TX-MS lokaal wilt uitvoeren, raadpleegt u Hauri et ^al.10.
Inspecteer het Jupyter Notebook-rapport met de online viewer. Scrol vervolgens omlaag naar 'Rapport' in het resultatengedeelte met behulp van de taak-ID-tag.

3. Installeer JupyterHub.

Installeer docker volgens de instructies op https://docs.docker.com/install/.
Download de JupyterHub docker container met de Jupyter openBIS²⁵ extensie. Het algemene commando is "docker pull malmstroem/jove:latest", maar kan op andere platforms verschillen.
OPMERKING: Voor een algemene discussie over het downloaden van containers, raadpleegt u https://www.docker.com/get-started. Het is ook mogelijk om de container te downloaden van zenodo.org, DOI 10.5281/zenodo.3361621.
OPMERKING: De broncode van de Jupyter openBIS-extensie is hier beschikbaar: https://pypi.org/project/jupyter-openbis-extension/.
Start de docker container: docker run -p 8178:8000 malmstroem/jove:latest.
OPMERKING: De poort die JupyterHub standaard gebruikt, is 8000. Deze poort is configureerbaar en de bovenstaande opdrachten moeten dienovereenkomstig worden aangepast als ze worden gewijzigd. Poort 8178 is een willekeurige keuze en kan worden gewijzigd. De onderstaande voorbeeld-URL's moeten dienovereenkomstig worden aangepast.
Ga naar het volgende adres: http://127.0.0.1:8178. Log in met de gebruikersnaam 'gebruiker' en het wachtwoord 'gebruiker'.
OPMERKING: Het adres http://127.0.0.1 impliceert dat de dockercontainer wordt uitgevoerd op de lokale computer. Als de dockercontainer op een server wordt uitgevoerd, gebruikt u het IP-adres of de URL van de server (bijvoorbeeld https://example.com). De docker-container is gebaseerd op Ubuntu Bionic 18.04, JupyterHub 0.9.6 en Jupyter openBIS-extensie 0.2. Het is mogelijk om dit in andere besturingssystemen te installeren, maar dit is niet getest.

4. Download het rapport.

Maak een nieuw notitieblok door op Nieuw te klikken | Python 3 met behulp van het menu in de rechterbovenhoek van de pagina. Hiermee wordt een nieuw tabblad geopend met een notitieblok met de naam Naamloos (of iets dergelijks).
Klik op "Configure openBIS Connections" (OpenBIS-verbindingen configureren) in het jupyter-gereedschapsmenu.
Vul de naam in: txms; URL: https://txms.org; gebruiker: gast; wachtwoord: guestpasswd.
Klik op 'Verbinden'.
Kies de nieuwe verbinding en klik op "Verbinding kiezen".
Zoek naar de rapportsjabloon (bijvoorbeeld /CHEETAH/WF70) en klik op Downloaden.
OPMERKING: U moet de rapportsjabloon aanpassen op basis van de resultaten en het rapport dat u hebt verkregen door uw taak uit te voeren op de Cheetah-MS-webserver.
Voer het rapport opnieuw uit door op Cel | Alles uitvoeren.

5. Breid het rapport uit.

Onderaan een nieuwe cel toevoegen: Cel | Hieronder invoegen.
Typ de gewenste code. Zie voor een voorbeeld het gedeelte Representatieve resultaten hieronder.
Voer de cel uit door op "Shift-Enter" te drukken.

Representative Results

TX-MS biedt structurele outputs ondersteund door MS-afgeleide experimentele beperkingen. Het werkt door verschillende MS-gegevensverzamelingstypen te combineren met computationele modellering. Daarom is het nuttig om elke MS-gegevens afzonderlijk te parseren en visualisatie van de uitvoerstructuur te bieden. Aanvullende gegevens 1 bevat een voorbeeldnotitieblok dat DDA- en DIA-gegevens kan parseren die zijn geproduceerd als TX-MS-uitvoer. Gebruikers kunnen de XL van belang selecteren. Door het notitieblok uit te voeren, wordt het MS2-spectrum van die XL getoond waar verschillende kleuren helpen om onderscheid te maken tussen fragmenten die verband houden met het eerste peptide, het tweede peptide en de combinatorische fragmentionen. De XL kan ook worden toegewezen aan de structuur met behulp van de NGLView-widget die is ingesloten in een Jupyter Notebook.

Een andere cel in dit notitieblok kan gebruikers helpen dia-gegevens te parseren en te visualiseren. Het visualiseren van DIA-gegevens is echter moeilijker omdat de geanalyseerde gegevens in het juiste formaat moeten worden voorbereid.

Figuur 1 toont een voorbeeldstructuur van M1 en albumine met top-XLs in kaart gebracht op de structuur. TX-MS verkreeg alle XLs na het parseren van hrMS1-, DDA- en DIA-gegevens en het RosettaDock-protocol leverde de rekenmodellen.

Aangezien dit rapport een Jupyter Notebook is, kan elke geldige Python-code worden toegevoegd aan nieuwe notebookcellen. De onderstaande code maakt bijvoorbeeld een histogram over de MS2-tellingen, waarmee wordt aangegeven hoe goed elke cross-link wordt ondersteund door de onderliggende gegevens.
import seaborn als sns
sns.distplot(ms2['tellen']);

Figuur 1: Structureel model van Streptococcus pyogenes M1 eiwit en humaan albumine met XLs in kaart gebracht op de structuur. Het M1-eiwit wordt grijs weergegeven en vormt een homodimeer. De zes albuminemoleculen worden gepresenteerd als paren in verschillende tinten blauw. Dwarsverbindingen en afstanden worden in rood met zwarte tekst gegeven. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend dossier. Jupyter notebookgegevens. Klik hier om dit bestand te downloaden.

Discussion

Moderne computationele workflows zijn vaak complex, met meerdere tools van veel verschillende leveranciers, complexe onderlinge afhankelijkheden, hoge datavolumes en veelzijdige resultaten. Bijgevolg wordt het steeds moeilijker om alle stappen die nodig zijn om een resultaat te verkrijgen nauwkeurig te documenteren, waardoor het moeilijk wordt om het gegeven resultaat te reproduceren. Hier demonstreren we een algemene strategie die de automatisering en het gemak van een geautomatiseerde workflow combineert die een generiek rapport produceert, met de flexibiliteit om het rapport op een reproduceerbare manier aan te passen.

Er moet aan drie vereisten worden voldaan om het protocol te laten werken: ten eerste moeten de voor analyse geselecteerde eiwitten zodanig op elkaar inwerken dat het chemische crosslinking-experiment verknoopte soorten kan produceren in een voldoende hoge concentratie om door de massaspectrometer te worden gedetecteerd; verschillende massaspectrometers hebben verschillende detectieniveaus en zijn ook afhankelijk van het acquisitieprotocol en de keuze van cross-linking reagens. De huidige versie van het TX-MS-protocol staat alleen DSS toe, een lysine-lysine homobifunctioneel cross-linking reagens. Toch is deze beperking voornamelijk te wijten aan de mogelijkheid dat de machine learning-stap zou moeten worden aangepast voor andere reagentia. Deze beperking is verbeterd in de Cheetah-MS webserver omdat nog twee cross-linking reagentia kunnen worden overwogen, maar alle drie zijn niet-kleefbare reagentia. Ten tweede moeten de twee eiwitten een experimenteel bepaalde structuur hebben of worden gemodelleerd met behulp van vergelijkende modelleringstechnieken of de novo-technieken . Niet alle eiwitten kunnen worden gemodelleerd, maar een combinatie van verbeterde software en een constante afzetting van experimentele structuren in de VOB breidt het aantal eiwitten dat kan worden gemodelleerd uit. Ten derde moeten de interagerende eiwitten voldoende vergelijkbaar blijven in hun gebonden en ongebonden toestanden, zodat de koppelingsalgoritmen die door TX-MS en Cheetah-MS worden gebruikt, quaternaire structuren van voldoende kwaliteit kunnen creëren om scoring mogelijk te maken. Deze eis is relatief vaag, omdat de aanvaardbare kwaliteit sterk systeemafhankelijk is, waarbij kleinere eiwitten met een bekende structuur over het algemeen gemakkelijker te vergelijken zijn dan grotere eiwitten met een onbekende structuur.

In het geval van een negatief resultaat, controleer eerst of TX-MS intra-links heeft gevonden, dwarsverbanden tussen residuen die deel uitmaken van dezelfde polypeptideketen. Als er geen worden ontdekt, is de meest waarschijnlijke verklaring dat er iets mis is gegaan met de monstervoorbereiding of de gegevensverzameling. Als meerdere afstandsbeperkingen de modellen niet ondersteunen, inspecteer de modellen dan visueel om ervoor te zorgen dat de conformatie wordt ondersteund door verknoopte residuen. Er is geen voor de hand liggende manier om een van de interactoren te draaien zonder ten minste één dwarsverbinding te verstoren. Als er cross-links zijn die langer zijn dan de toegestane afstand voor het gegeven cross-linking reagens, probeer dan de modellering van de interactoren te verbeteren door cross-linking data op te nemen.

Het is mogelijk om alternatieve softwaretoepassingen te gebruiken om gelijkwaardige resultaten te bereiken, op voorwaarde dat de gevoeligheid van de gekozen software vergelijkbaar is met de gevoeligheid van TX-MS. Er zijn bijvoorbeeld online versies van RosettaDock, HADDOCK en anderen. Het is ook mogelijk om chemische cross-linking data te analyseren via xQuest/xProphet ^5,6, plink⁷ en SIM-XL²⁶.

We passen TX-MS en Cheetah-MS voortdurend toe op nieuwe projecten ^27,28,29, waardoor de rapporten die door deze benaderingen worden geproduceerd, worden verbeterd om een meer gedetailleerde analyse van de resultaten mogelijk te maken zonder de rapporten groter te maken.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd ondersteund door de Stichting van Knut en Alice Wallenberg (subsidienr. 2016.0023) en de Zwitserse National Science Foundation (subsidienr. P2ZHP3_191289). Daarnaast bedanken we S3IT, Universiteit van Zürich, voor zijn computationele infrastructuur en technische ondersteuning.

Materials

Name	Company	Catalog Number	Comments
Two Protein DataBank files of the proteins of interest.	N/A	N/A	Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked.	N/A	N/A	Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

DOWNLOAD MATERIALS LIST

References

Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, Clifton, N.J. 237-248 (1977).
Martens, L., et al. mzML--a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Biochemistry

Quartaire structuurmodellering door chemische cross-linking massaspectrometrie: uitbreiding van TX-MS Jupyter-rapporten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.