Ett protokoll för online-undersökning av proteinsekvens-struktur-dynamikrelationer som använder Bio3D-web presenteras.
Vi demonstrerar användningen av Bio3D-web för den interaktiva analysen av biomolekylära strukturdata. Bio3D-webbapplikationen ger online-funktionalitet för: (1) Identifieringen av relaterade proteinstrukturuppsättningar till användardefinierade tröskelvärden av likhet; (2) Deras multipla inriktning och struktur superposition; (3) Bevarande analys av sekvens och struktur; (4) Inter-conformer-förhållande kartläggning med huvudkomponentanalys, och (5) jämförelse av förutsedd intern dynamik via ensemble normallägesanalys. Denna integrerade funktionalitet ger ett komplett arbetsflöde online för att undersöka sekvensstrukturen-dynamiska relationer inom proteinfamiljer och superfamiljer.
Proteindatabanken (PDB) innehåller nu mer än 120 000 proteinstrukturer – varav många är av samma proteinfamilj men löses under olika experimentella förhållanden. Dessa multipla strukturer representerar en ovärderlig resurs för förståelse av intricacies av proteinform och funktion. Till exempel kan den rigorösa jämförelsen av dessa strukturensembler avslöja viktiga molekylära mekanismer 1 , 2 , 3 och informera om konformationsdynamik involverad i processer innefattande ligandbindning, enzymatisk katalys och bi-molekylär igenkänning 4 , 5 , 6 , 7 . Nya insikter kan ofta erhållas från den detaljerade storskaliga analysen av proteinfamiljernas sekvens, struktur och dynamik. Detta kräver emellertid vanligtvis en stor bioinfOrmatik och datorprogrammeringskompetens tillsammans med bekantskap med de proteinsystem som studeras. Till exempel kräver programvarupaket som Bio3D, ProDy och Maven programmering i R, Python och Matlab, respektive 8 , 9 , 10 . Omvänt är onlineverktyg för analys av strukturell flexibilitet i allmänhet begränsad till undersökningen av enskilda strukturer 11 , 12 . Ett undantag i detta avseende är den nyligen utvecklade WebNM @ -servern, som möjliggör jämförelse av flexibilitetsmönster som erhållits från normallägesanalys (NMA) av flera förinställda användardefinierade strukturer 13 . Emellertid saknar den här servern ett automatiserat förfarande för identifiering av strukturer för jämförelse, anpassning eller ytterligare analys utöver NMA. Ett annat nyligen bidrag är den online PDBFlex databasen, som presenterar pre-cOmstridd analys av PDB-strukturer som delar 95% eller högre sekvensidentitet 14 . Analys av mer varierande strukturuppsättningar är emellertid inte tillgänglig för närvarande.
Vi har tidigare presenterat Bio3D-web – en enkel att använda webbapplikation för analys av proteinsekvens-struktur-dynamiska relationer 15 . Bio3D-web är unik för att tillhandahålla lättanvänd integrerad funktionalitet för identifiering, jämförelse och detaljerad analys av stora homologa strukturuppsättningar online. Här presenterar vi ett detaljerat protokoll för online-undersökning av proteinsekvens-struktur-dynamik förhållande med Bio3D-web. Bio3D-web ger en mängd olika funktioner för att stödja de fem huvudstegen i dataanalys som visas i Figur 1 och diskuteras i detalj nedan. Dessa steg utgör ett arbetsflöde som sträcker sig från frågesekvens eller strukturinmatning, genom flera nivåer av sekvensstruktur-dynamisk analys, för att sammanfattaY rapportgenerering. Resultatet är tillgängligt omedelbart genom omfattande visualisering och plottningsinställningar i webbläsaren, liksom genom att ladda ner resultatfiler i vanliga format. Förutom ett bekvämt användarvänligt dynamiskt gränssnitt för att utforska effekterna av parameter- och metodval, registrerar Bio3D-web också den fullständiga användarinmatningen och efterföljande grafiska resultat av en användares session som en delbar reproducerbar rapport i PDF-, DOC- och HTML-format. Användarsessioner kan sparas och laddas om i framtida tider och slutföra resultat som hämtas och tolkas ytterligare av Bio3D R-paketet på en användares lokala maskin.
Bio3D-web drivs av Bio3D R-paketet för analys av biomolekylär struktur, sekvens- och molekylsimulationsdata 8 , 16 . I synnerhet Bio3D-algoritmer för identifiering av styvkärnor 8 , överlagring, huvudkomponentanalys(PCA) 8 och ensemble normallägesanalys (eNMA) 16 utgör grunden för ansökan. Vi utnyttjar också Bio3D-protokoll som beror på pHMMER 17 för identifiering av relaterade proteinkonstruktioner och MUSCLE 18 för multipel sekvensinriktning. Struktur- och sekvensanmärkningar härleds via Bio3D-verktyg från RCSB PDB 19 och PFAM-databaser 20 . Bio3D-web kan köras från vår webbserver eller installeras lokalt på vilken dator som helst som körs. Bio3D-webben är öppen för alla användare och tillhandahålls gratis under en GPL-3 öppen källkod från: http: // thegrantlab. org / bio3d / webapps
Bio3D-web kan användas för att interaktivt utforska och kartlägga de strukturella, dynamiska och funktionella tillstånden av proteiner från tillgängliga kristallografiska strukturer. Vidare kan de NMA- och PCA-baserade klustringsresultaten tillsammans med annotationerna och sekvensbaserad analys vara särskilt användbara för att välja representativa strukturer för mer tidskrävande analys, såsom ensemble-småmolekyldockning eller molekyldynamik-simuleringar. Bio3D-web underlättar således avancerad strukturell bioinformatikanalys för ett bredare spektrum av forskare genom att minska den nödvändiga tekniska kompetensen. Den nuvarande utformningen av Bio3D-web betonar enkelhet över uttömmande införlivande av de många analysmetoder som finns i det fullständiga fristående Bio3D-paketet. I många fall är det tänkt att forskare kommer att använda Bio3D-web för att förstå allmänna trender i deras proteinfamilj eller superfamilj av intresse, som då kan informera mer specialiserade analyser. Bio3D-web är denRefore utformad för att snabbt undersöka biomolekylära strukturdatablad och att fungera som ett hypotesframbringande verktyg. Vi uppmuntrar användare att vidareutveckla sina data genom att tillhandahålla exempel Bio3D-kod i den reproducerbara rapporten som också lagrar alla sökuppgifter och analysresultat.
I det representativa exemplet protokollet ovan visar vi Bio3D-webens förmåga att avslöja de strukturella egenskaperna hos funktionella konformationella övergångar av Adk. Ytterligare applikationer av Bio3D-web inkluderar strukturell och dynamisk analys av användaruppladdade PDB-strukturer. Till exempel kan användaren ladda upp nya strukturer eller faktiskt proteinsekvenser för analys. Analysstegen som nämnts tidigare, särskilt eNMA-steget, kan avslöja både lokala och globala trender i proteinrörelser, med kollektiva rörelser som har funktionell betydelse. Jämförelse med apo strukturer kan också avslöja egenskaper hos obegränsade konformationella övergångar. Ytterligare exempel på ansökan tillEn rad olika proteinfamiljer tillhandahålls online.
Även om alla proteiner är flexibla och dynamiska enheter, har inte alla proteiner atomupplösningsstrukturer tillgängliga i en rad olika tillstånd ( t.ex. aktiva och inaktiva tillstånd). Vår syn på proteinstruktureringsutrymmet är således en begränsad och därför är insikten erhållen från verktyg såsom Bio3D-banan nödvändigtvis också begränsad för vissa proteiner. Med nuvarande tekniska framsteg och nya initiativ för strukturell genomik kommer protokollet som presenteras här emellertid alltmer att bli en viktig väg för att få insikt i viktiga struktur-funktionsrelationer. Ett kritiskt steg, som är särskilt viktigt när man analyserar mer distansrelaterade proteiner, är den potentiella uppkomsten av inriktningsfel i ALIGN-fliken. Justeringsfel uppstår oundvikligen när sekvenslikheten sjunker under 30% och användaren måste i sådana fall dubbelkontrollera och korrigera sekvensinriktningenPå fliken ALIGN. Justeringsfel kan eventuellt resultera i felaktiga överlagrade strukturer i FIT-fliken och maskera de mest relevanta konformationsvariationerna för den efterföljande PCA. Dessutom bör användaren vara medveten om de saknade resterna i de valda PDB-strukturerna, eftersom det i den nuvarande implementerings-PCA endast kan utföras på proteinrester där alla strukturer har motsvarande kolatom-alfa-atom upplöst. Följaktligen, om ett valt PDB har olösta rester för en viss region av proteinet kommer denna region att utelämnas från PCA.
Bio3D-web är för närvarande begränsad till analysen av enkelkedjiga PDB-strukturer. Följaktligen kan funktionella rörelser som förekommer på kvaternär nivå inte undersökas med användning av det aktuella protokollet. Trots att vi för närvarande utvecklar nya algoritmer för att inkludera sådan analys i Bio3D-webben, är det enda strömalternativet via konventionell Bio3D-användning.
Bio3D-web är den enda onlineapplikationenJon som gör det möjligt att fråga och identifiera strukturuppsättningar, tolka deras mönster av sekvens och strukturell variabilitet och extrahera mekanisk information från både analys och förutsägelse av deras strukturella plasticitet. Ett brett sortiment av molekylära visualiseringsverktyg och online-servrar gör det möjligt för forskare att utforska och analysera enskilda biomolekylära strukturer. Men befintliga verktyg för analys av sekvens, struktur och dynamik hos stora heterogena proteinfamiljer kräver ofta stor beräkningskompetens och är typiskt bara tillgängliga för användare med relevanta programmeringsförmåga. Till exempel, kräver Bio3D paketet R 8, kräver Prody python och Maven kräver Matlab kunskap 9, 10. Bio3D-web i kontrast kräver ingen programmeringskunskap och ökar därigenom tillgängligheten och minskar ingångsbarriären för att utföra avancerad jämförande sekvens, struktur och dykaNamikanalys. Vidare ingår beredningen, kuration, annotering och rengöring av molekylära strukturer som ofta är nödvändiga för effektiv analys med Bio3D-webbtjänsten. Dessutom begränsas begränsningen att utföra en sådan analys på kompetenta beräkningsresurser av vår serverinstans som möjliggör storskalig analys av många strukturer som kan initieras och kontrolleras från en modern webbläsare.
Den öppna utvecklingen av Bio3D-webben pågår (se https://bitbucket.org/Grantlab/bio3d). Vi fortsätter att lägga till ny analysfunktionalitet och förbättra befintliga metoder. Framtida utveckling kommer att fokusera på tillsats av avståndsmatrisbaserad PCA och torsions-PCA, mer omfattande sekvenshanteringsmetoder som innefattar en fylogenetisk komponent, identifiering av ensemble-bindningsställen och nya metoder för dynamisk nätverksanalys över proteinfamiljer. I detta avseende representerar den aktuella webbapplikationen startpunktenT för många andra samverkande strukturella bioinformatiska analysflöden genom att möjliggöra reproducerbara och delbara steg på användardefinierade experimentella strukturuppsättningar. Vi planerar också framtida stöd för rekonstruerade biologiska enhetskoordinatsatser utöver enskilda och flera kedjor från den asymmetriska enheten för PDB-strukturer. Ytterligare funktioner inkluderar förbättrad sparning och laddning av samverkande arbetsytor tillsammans med en möjlighet att ångra.
Bio3D-web är en onlineapplikation för interaktiv analys av data om biomolekylär struktur. Bio3D-web körs på alla moderna webbläsare och ger funktionalitet för: (1) Identifieringen av relaterad proteinstruktur sätter till användardefinierade tröskelvärden av likhet; (2) Deras multipla inriktning och struktur superposition; (3) Bevarande analys av sekvens och struktur; (4) Inter-conformer-förhållande kartläggning med huvudkomponentanalys, och (5) jämförelse av förutsedd intern dynamik via ensemble norMallägesanalys. Denna integrerade funktionalitet ger ett komplett arbetsflöde för undersökning av sekvensstruktur-dynamiska relationer inom proteinfamiljer och superfamiljer. Förutom ett bekvämt användarvänligt dynamiskt gränssnitt för att utforska effekterna av parameter- och metodval, registrerar Bio3D-web också den fullständiga användarinmatningen och efterföljande grafiska resultat av en användares session. Detta gör det möjligt för användare att enkelt dela och reproducera sekvensen av analyssteg som skapade deras resultat. Bio3D-web är implementerat helt i R-språk och bygger på Bio3D- och Shiny R-paketen. Den kan köras från vår webbserver eller installeras lokalt på vilken dator som helst som körs R. Detta inkluderar lokal serverinstallation för att tillhandahålla en anpassad multi-användarinstans med tillgång till prioriterade strukturella dataset, såsom de som är gemensamma inom läkemedelsindustrin. Full källkod och omfattande dokumentation tillhandahålls under en GPL-3 öppen källkod från: http://thegrantlab.org/ Bio3d / webapps
The authors have nothing to disclose.
Vi tackar Dr. Guido Scarabelli och Hongyang Li för omfattande testning under utveckling samt Bio3D användargemenskapen och Universitetet i Bergen strukturella bioinformatics workshop deltagare för feedback och kommentarer som har förbättrat denna applikation.
Bio3D-web | |||
Web-site | http://thegrantlab.org/bio3d-web/ | ||
Requirements | Web browser |