Chemistry

Optimering av syntetiska proteiner: Namnet på Interpositional beroenden Indikerings strukturellt och / eller funktionellt knutna Stoder

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

Proteininpass används vanligtvis för att utvärdera likhet i proteinrester, och den härledda konsensussekvensen som används för identifiering av funktionella enheter (t.ex. domäner). Traditionella samförstånd bygga modeller misslyckas med att redogöra för interpositional beroenden - funktionellt krävs samvariation av rester som tenderar att visas samtidigt i hela evolutionen och över phylogentic träd. Dessa relationer kan avslöja viktiga ledtrådar om processerna för proteinveckning, termostabilitet, och bildningen av funktionella ställen, som i sin tur kan användas för att informera konstruktion av syntetiska proteiner. Tyvärr är dessa förhållanden bildar väsentligen under motiv som inte kan förutsägas med enkel "majoritetsstyre" eller till och med HMM-baserade konsensusmodeller, och resultatet kan vara en biologiskt ogiltig "konsensus" som inte bara är aldrig sett i naturen men är mindre lönsamt än någon ännu existerande protein. Vi har utvecklat en visuell ettalytics verktyg, StickWRLD, vilket skapar en interaktiv 3D-representation av ett protein inriktning och tydligt visar covarying rester. Användaren har möjlighet att panorera och zooma, samt dynamiskt ändra den statistiska tröskeln ligger till grund för identifieringen av kovariater. StickWRLD har tidigare använts framgångsrikt för att identifiera funktionellt erforderliga covarying rester i proteiner såsom adenylatkinas och i DNA-sekvenser såsom endonukleas målställen.

Introduction

Protein anpassningar har länge använts för att utvärdera likheten av rester i en proteinfamilj. Vanliga de mest intressanta egenskaperna hos ett protein (t.ex. katalytiska eller andra bindningsställen) är resultatet av proteinveckning föra distala regioner av den linjära sekvensen i kontakt, och som ett resultat är dessa till synes obesläktade regioner i anpassningen tenderar att utvecklas och förändras i ett samordnat sätt. I andra fall kan funktionen hos ett protein vara beroende av dess elektro signatur, och mutationer som påverkar den elektroniska dipolen kompenseras genom ändringar i avlägsna laddade rester. Allosterisk effekter kan också leda till långsiktiga sekventiella och rumsliga beroenden mellan rest identiteter. Oavsett deras ursprung, dessa funktionellt krävs uppmätta samband med rester - interpositions beroenden (IPDS) - får inte vara självklart med visuell undersökning av anpassningen (Figur 1). Identifiering av IPDS - liksom avvilka specifika rester inom dessa positioner tenderar att samvariera som en enhet - kan avslöja viktiga ledtrådar om processerna för proteinvikning och bildning av funktionella ställen. Denna information kan sedan användas för att optimera syntetiska (manipulerade) proteiner i form av termo och aktivitet. Det har länge varit känt att inte alla punktmutationer mot konsensus ger förbättrad stabilitet eller aktivitet. På senare tid, proteiner som syftar till att dra nytta av kända IPDS i deras sekvens har visat sig leda till högre aktivitet än samma protein utformad strikt från konsensus ^1,2 (manuskript under utarbetande), liknar idén att stabilisera punktmutationer ^3.

Tyvärr, traditionella konsensus bygga modeller (t.ex. majoritetsstyre) bara fånga IPDS av en slump. Konsensus och Position Specifik Scoring Matrix metoder är okunniga om IPDS och bara "rätt" inkludera dem i modeller, när de beroende resterär också de mest populära rester för dessa positioner i familjen. Markov Chain modeller kan fånga IPDS när de är i tur och ordning proximal, men deras typisk implementering ignorerar allt utom omedelbara sekventiella grannar, och även vid sitt bästa, Hidden Markov Modellberäkningar (se figur 2) blir svår när beroenden separeras i sekvensen med mer än ett tiotal positionerna ^4. Eftersom dessa IPDS bildar i huvudsak "sub-motiv", som inte kan förutsägas med enkel "majoritetsstyre" eller till och med HMM-baserade konsensusmodeller ^5,6 resultatet kan vara en biologiskt ogiltig "konsensus" som inte bara är aldrig sett i naturen men är mindre lönsamt än någon existerande protein. System baserade på Markov Random Fields, såsom SMÅDJÄVUL ^7, försöka övervinna dessa problem. Dessutom medan sofistikerade biologiska / biokemiska tekniker såsom icke sammanhängande rekombination ^3,8 kan användas till IDEntify väsentliga proteinelement per region, kräver de mycket tid och bänkarbete för enkel baspar precision uppnås.

StickWRLD ⁹ är en Python baserat program som skapar en interaktiv 3D-representation av ett protein inriktning som gör IPDS tydliga och lätta att förstå. Varje position i uppriktningen representeras som en kolumn i teckenfönstret, där varje kolumn består av en stapel av sfärer, en för vardera av de 20 aminosyror som kan vara närvarande i denna position inom anpassningen. Klotet storlek är beroende av frekvensen av aminosyran, så att användaren omedelbart kan få fram konsensusrest eller den relativa fördelningen av aminosyror i den positionen genom att helt enkelt titta på storleken på sfärerna. Kolonnerna representerar varje position är lindade kring en cylinder. Detta ger alla områden som representerar en möjlig aminosyra vid varje position i linje, en tydlig "siktlinje"till varje annan möjlighet aminosyra vid varje annat läge. Före visualisering, StickWRLD beräknar korrelationsstyrkan mellan alla möjliga kombinationer av rester för att identifiera IPDS ^9. Att representera IPDS är linjer dragna mellan rester som coevolving på en högre eller lägre än vad som skulle förväntas om resterna närvarande i positionerna var oberoende (IPDS).

Inte bara gör detta visualisering show som sekvenspositioner samverkar evolutionärt, men eftersom IPD kantlinjer dras mellan aminosyra sfärer i varje kolumn, kan användaren snabbt avgöra vilka specifika aminosyror tenderar att coevolving vid varje position. Användaren har möjlighet att rotera och utforska den åskådlig IPD struktur, såväl som dynamiskt ändra de statistiska tröskelvärden som styr visningen av korrelationer, vilket gör StickWRLD ett kraftfullt upptäckt verktyg för IPDS.

Applikationer såsom SMÅDJÄVUL ⁷ similArly visa komplex relations information mellan rester - men dessa förhållanden beräknas via mer traditionella Markov-modeller, som inte är utformade för att fastställa eventuella villkorade relationer. Som sådan, det är i stånd att visas som 2D prognoser. Däremot kan StickWRLD beräkna och visa flera noder villkorade beroenden, som kan förvrängd om återges som en 2D-graf (ett fenomen som kallas kant ocklusion).

StickWRLD s 3D-vy har också flera andra fördelar. Genom att låta användare att manipulera visuella - panorera, rotera och zooma - funktioner som kan förvrängd eller intuitiv i en 2D representation lättare kan ses i 3D cylinder StickWRLD. StickWRLD är i huvudsak en visuell analysverktyg, utnyttja kraften i den mänskliga hjärnans mönsterigenkänning förmåga att se mönster och trender, och möjligheten att utforska data från olika perspektiv lämpar sig för detta.

Protocol

1. nedladdning och installation

Använd en dator har en Intel i5 eller bättre processor med minst 4 GB RAM, och kör Mac OS X eller GNU / Linux (t.ex. Ubuntu) OS. Dessutom är Python 2.7.6 ¹⁰ och wxPython 2,8 ^11, SciPy ^12, och PyOpenGL ¹³ python bibliotek krävs - ladda ner och installera varje från deras respektive databaser.
Hämta StickWRLD som en zip-arkiv som innehåller alla relevanta Python-skript. Ladda ner "fasta2stick.sh" skript för att konvertera vanliga FASTA DNA / proteinsekvensuppställningar till StickWRLD format.
Packa upp arkivet och sätta den resulterande StickWRLD mappen på skrivbordet. Placera "fasta2stick.sh" skript på skrivbordet också.

2. Förbered Justering

Skapa en anpassning av proteinsekvenser med någon standard inriktnings programvara (t.ex. ClustalX ^14). Spara inriktningen på skrivbordet i FASTA format.
Öppna terminalprogram på Mac eller GNU / Linux-dator och navigera till skrivbordet (placeringen av "fasta2stick.sh" skalskript) genom att skriva cd ~ / Desktop och trycka retur. Kör "fasta2stick.sh" manus genom att skriva ./fasta2stick.sh i terminalen. Om skriptet inte köra, se till att den är körbar - i terminaltypen chmod + x fasta2stick.sh att göra manuset körbar.
Följ anvisningarna på skärmen tillhandahålls av skript för att ange namn indatafilen (filen skapas i 1.2 ovan) och den önskade utgångs namn. Spara utdatafilen (som nu är i rätt format för StickWRLD) på skrivbordet.

3. Starta StickWRLD

Navigera i StickWRLD körbara mappen med terminalen appliction av Mac eller GNU / Linux-dator. Till exempel, om mappen StickWRLD är på skrivbordet, typ cd ~ / Desktop / StickWRLD / exec i terminalen.
Starta StickWRLD genom att skriva python-32 stickwrld_demo.py i terminalen.
Kontrollera att StickWRLD Data Loader panelen är synlig på skärmen (Figur 3).

4. Loading Data

Fyll den konverterade proteinsekvens anpassning genom att trycka på "Load Protein ..." -knappen.
Markera filen du skapade i steg 3 ovan och tryck på "Öppna". StickWRLD kommer att öppna flera nya fönster, inklusive "StickWRLD Control" (Figur 4) och "StickWRLD - OpenGL" (Figur 5).
Välj "StickWRLD - OpenGL" fönstret. Välj "Återställ vy" i menyn "OpenGL" för att visa standard StickWRLD visualisering i en "top-down"Visa genom cylindern som representerar data i resizable OpenGL fönster ..

5. Visningsalternativ

Markera kryssrutorna för "kolumnetiketter" och "Ball etiketter" i "StickWRLD Control" fönstret (Figur 4) för att visa värden för kolumner och bollar.
Avmarkera rutan för "Kolumn kanter" i "StickWRLD Control" fönstret för att dölja kolumnkantlinjer.
Ställ in "Kolumn Tjocklek" till 0,1 i "StickWRLD Control" fönstret för att rita en tunn linje genom kolonnerna, vilket gör det lättare att navigera i 3D-vyn. Tryck tillbaka för att godkänna ändringen.
Återställ vy i "StickWRLD - OpenGL" fönster som i steg 5.3 ovan, tryck sedan på "helskärm" för att maximera vyn.

6. Navigerings

Rotera 3D StickWRLD displayen genom att hålla ner vänster musknapp while flytta musen i någon riktning.
Zooma 3D StickWRLD displayen genom att hålla ned höger musknapp medan du flyttar musen upp eller ner.

7. Finding Interpositional beroenden (IPDS)

Bläddra i vyn genom att panorera och zooma som beskrivs i steg 6. Coevolving resthalter som överskrider tröskelvärdena i både p och resterande är anslutna via kantlinjer som visas i figur 6. Om det finns för många eller för få kanter anslutnings rester, ändra Rest tröskeln (på "StickWRLD Control" fönstret) för att visa färre, eller mer, kanter.
Öka rest tröskeln på StickWRLD kontrollfönstret tills inga IPD kantlinjer visas och långsamt ramp ner tills relationer visas. Fortsätt att öka rest tills du har ett tillräckligt antal relationer för att undersöka.
Identifiera relationer som involverar antingen rester av kända intresse (t.ex. inom ett motiv eller bindande / kulctional plats) eller rester som är distalt till en annan inom anpassningen (vilket tyder på att de är proximala i det vikta proteinet)

8. Välja och spara bedömning

Använda kommandot + vänsterklicka på eventuella kanter intresse. Rutan StickWRLD Kontroll indikerar kolumnerna och ansluta vissa rester, t.ex. "(124 | G) (136 | H)" (Figur 7). Heldragna linjer representerar positiva associationer; streckade linjer representerar negativa associationer.
Tryck på "Output Edges" -knappen på "StickWRLD Control" panelen för att spara en vanlig text formaterad fil (edge_residual.csv) av alla synliga kanter, inklusive de förenade rester och deras faktiska restvärden, i / StickWRLD / exec / katalogen.

Representative Results

StickWRLD har tidigare använts för att detektera interpositional beroenden (IPDS) mellan resterna i både DNA ³ och protein ^15-17 inriktningar. Dessa co-evolving rester, medan ofta distalt från varandra i sekvensuppställningen, är ofta proximalt till varandra i det vikta proteinet. StickWRLD tillåter snabb upptäckt av restspecifika co-förekomst på sådana platser, t ex., En alanin vid position "x" är starkt korrelerad till en treonin vid position "y". Sådana samband kan vara ett tecken på bevisbara strukturella förhållanden, och vanligtvis är platser som med nödvändighet samarbete utvecklas. StickWRLD kan upptäcka dessa relationer, även om mer "traditionell" strategier använder HMM att beskriva motiven misslyckas. Till exempel, analys av PFAM inriktningen av ADK locket domän med StickWRLD avslöjar en stark positiv korrelation mellan cysteiner (C) vid positionerna 4 och 8 och en samordnadpar C vid positionerna 35 och 38. Samtidigt, StickWRLD visade en liknande stark positiv relation mellan histidin (H) och serin (S) vid 4 och 8, med en starkt negativ relationer mellan dessa och C kvartetten vid 4, 8, 35, och 38, och en starkt positivt samband med asparaginsyra (D) och treonin (T) vid positionerna 35 och 38 respektive. Ytterligare IPDS finns mellan H, S, D, T motiv och en T och G vid position **** 10 och 29 i b subtilis **** belysa den villkorliga karaktären hos dessa IPDS - den tetracysteine motivet inte "vård" om identiteterna på dessa två positioner, medan den hydrofila H, S, D, kräver T triad specifika rester i dessa positioner nästan absolut. Dessa två helt olika positionsberoende rest motiv kan fylla samma roll ADK locket. Såsom kan ses i figur 6, ett stort kluster av IPDS, inklusive en 3-nod samband mellan G (glycin) vid position 132, Y (tyrosin) vid position 135, och ett P (proline) i position 141, är synlig i förgrunden (figur 6A). I fig 6B, har det ansetts sned att positionera användaren något över cylindern, avslöjar ett IPD mellan ett H (histidin) i position 136 och ett M (metionin) i position 29, 107 rester långt. En PFAM HMM-härledda motiv av samma domän (Figur 2), under tiden, inte bara inte upptäcka dessa som specifikt samarbete förekommande motiv varianter, men också definierar de övergripande grupperingar i en biologiskt stöds schema ^16.

Figur 1
Figur 1. "Subway Karta" representation av B. subtilis adenosinkinas (ADK) Lid domänstruktur. Pilar indikerar IPDS identifierats i PFAM anpassningen av ADK Lid domän genom StickWRLD. StickWRLD är i stånd att korrekt identifiera IPDS inom ett kluster of rester som befinner sig i omedelbar närhet i det vikta proteinet. Av särskilt intresse är de T och G-par vid positionerna 9 och 29, som endast bildar en IPD när tetrad av rester vid 4, 7, 24, och 27 är inte C, C, C, C). Restnummer visas representerar B. subtilis ställning och inte Pfam inriktningspositioner. Klicka här för att se en större version av denna siffra.

Figur 2
Figur 2. Skylign ¹⁸ Hidden Markov Model (HMM) Sekvens Logotyp för ADK locket domänen. Medan HMM är kraftfulla verktyg för att bestämma sannolikheter vid varje position samt bidraget från varje plats till den övergripande modell, positions oberoende HMMer gör dem olämpliga för detektering IPDS. Denna modell tyder inte på någon av deberoenden sett i StickWRLD representationer (Figur 6). Klicka här för att se en större version av denna siffra.

Figur 3
Figur 3. StickWRLD Data Loader. Användare kan välja mellan befintliga demodata eller ladda sina egna uppgifter i form av DNA eller protein sekvensuppställningar.

Figur 4
Figur 4. StickWRLD kontrollfönstret. Rutan kontroll ger användaren möjlighet att ändra olika visningsegenskaper samt reglera de tröskelvärden som styr visningen av kantlinjer anger relationer mellan rester (IPDS). Inringad i rött är standardinställningarna som vanligtvis behöver t o justeras för bästa visning av någon dataset. Restvärdet anger tröskeln (observerade väntat) för vilka kontakt / föreningslinjerna dras. Kontrollerna för kolumn och Ball etiketter kontrollera huruvida kolumnposition och värderingar rest (t.ex. "A" för arginin) visas. Kolumnen egglinje kontroll växlar på och av visningen av kantlinjer som förbinder kolumner - för täta dataset detta bättre avstängd. Kontrollerna Kolumn Tjocklek om kolumnen själv eller inte visas -. Ställa detta till ett mycket litet värde (t.ex. 0,1) kommer att dra en linje genom sfärerna i kolumnen, vilket gör det lätt att skilja de kolumner från varandra Klicka här för att se en större version av denna siffra.

ghres.jpg "width =" 600 "/>
Figur 5. Första utsikt över StickWRLD OpenGL fönster med adenylatkinas locket domänproteindatauppsättning laddas. Den initiala perspektivet ser "ner" genom cylindern består av sekvensinriktningspositioner. Användaren kan rotera cylindern med vänster-musklick-dra, och zooma in / ut genom att använda höger musklick-dra. Den första uppfattning är ganska tät eftersom standard displayen visar även små priser samarbets evolution. För många proteiner, vid denna inställning, olika moduler kan upptäckas, men även i tätt samarbete utvecklas proteiner displayen kan snabbt och interaktivt förenklade för att hitta de viktigaste IPDS använder StickWRLD gränssnittet. Klicka här för att se en större version av denna siffra.

ghres.jpg "width =" 700 "/>
Figur 6. Närbild av en StickWRLD visualisering av locket domänproteinet adenylatkinas. Här har vi ändrat standardRest till 0,2. Detta ökar tröskeln för visning av interrest kanter, visar färre kanter. Kanterna som återstår tyder starkt associerade IPDS. Dessutom anser har vridits och zoomas för att möjliggöra enklare visning av kanterna. (A) En stort kluster av IPDS syns i förgrunden, inklusive en 3-nod samband mellan G (glycin) vid position 132, Y (tyrosin) vid position 135, och ett P (prolin) i position 141. (B) Utsikten har varit sned för att placera användaren något över cylindern, avslöjar en IPD mellan ett H (histidin) i position 136 och ett M (metionin) i position 29, 107 rester långt. Klicka här för att se en större version av denna figur.

Figur 7
Figur 7. StickWRLD kontrollfönstret nedre högra informationsvyn. CTRL + vänsterklicka på ett objekt (t.ex. sfär eller kant) i OpenGL fönstret visar information om objektet i det nedre högra hörnet av StickWLRD Control-fönstret. Här ser vi informationen för en IPD kant mellan en metionin i position 29 och en histidin i position 136.

Discussion

StickWRLD har framgångsrikt använts för att identifiera sådana IPDS i adenylatkinas Lid domän ^16, samt tillhörande DNA-baser i Rho beroende terminatorer ^9, och en ny skarv plats specificitet i archaeal tRNA intron endonukleas ⁶ målplatser. Dessa IPDS var inte upptäckas via en direkt undersökning av anpassningar.

StickWRLD visar varje position av en anpassning som en kolonn av 20 "sfärer", där varje sfär representerar en av de 20 aminosyrarester och storleken av sfären anger frekvensen för förekomst av detta särskild rest inom den kolumnen (Figur 4). Kolumnerna är anordnade i en cylinder, med kantlinjer som förbinder rester i olika kolumner (vilket tyder på en IPD). Dessa kantlinjer endast dras om motsvarande rester covarying vid en frekvens överträffar både p-värdet (betydelse) och rest (förväntade - observerade) trösklar.

Upptäckt av samarbete förekommer beroende av varandra rester, eller IPDS, i distala regioner i en DNA eller proteinsekvens anpassning är svårt att använda standardsekvensjusteringsverktygen ^6. Även om sådana verktyg generera en konsensus, eller motiv, sekvens, är detta samförstånd i många fall en enkel majoritet regel medelvärdes och inte förmedla samvariation relationer som kan bilda en eller flera under motiv - grupper av restsubstanser som tenderar att samarbeta utvecklas. Även HMM modeller, som är i stånd att upptäcka grann beroenden, kan inte exakt modell sekvensmotiv med distala IPDS ^5. Resultatet är att den beräknade konsensus kan i själva verket vara en "syntetisk" sekvens som inte finns i naturen - och manipulerade proteiner baserade på sådan beräknings konsensus får i själva verket inte, vara optimal. I själva verket skulle Pfam HMM för ADK antyder att ett chimärt protein innehållande hälften av tetracysteine motiv, och hälften av H, S, D, T-motiv, är funktionellt lika acceptabeltsom någon faktiskt existerande ADK. Detta är inte fallet, eftersom sådana chimärer (och många andra blandning som av dessa motiv) Är katalytiskt död ^4,19.

När du letar efter korrelationer, är det viktigt att den kvarvarande tröskeln justeras för att göra det möjligt för upptäckten av relevanta korrelationer genom att sätta den tröskel över den nivå där alla kanter syns och sedan gradvis ramp tröskeln tillbaka. Detta säkerställer att endast de mest signifikanta kanterna anses initialt.

Ett alternativt tillvägagångssätt är att börja med den kvarvarande tröskelvärdet satt extremt låg. Detta resulterar i visningen av alla väsentliga kanter. Härifrån långsamt kan ökas rest tröskeln, så att kanterna för att släppa ut tills mönster framträder. Även om detta tillvägagångssätt är mindre användbar när man letar efter införandet av särskilda noder (t.ex. tillämpning av domänkunskap), gör det möjligt för upptäckten av oväntade relationer med hjälp av StickWRLD som en visUAL analytiskt verktyg för att upptäcka nya mönster i datavisualisering.

StickWRLD begränsas primärt av mängden tillgängligt minne i systemet som det körs samt upplösningen hos displayanordningen. Medan det finns ingen teoretisk gräns för antalet datapunkter StickWRLD kan undersöka, och sekvenser upp till 20.000 positioner har testats i praktiken StickWRLD fungerar bäst med sekvenser upp till ungefär 1000 positioner.

Den främsta fördelen med StickWRLD ligger i dess förmåga att identifiera grupper av rester som samvarierar med varandra. Detta är en betydande fördel jämfört med den traditionella metoden av det statistiska konsensussekvensen, som är en enkel statistisk medelvärdes och tar inte samevolution i beräkningen. Även i vissa fall covarying rester kan helt enkelt vara en artefakt av fylogeni, har även dessa rester motstått "test av val", och som sådan är osannolikt att förringa functionality av varje protein konstruerad för att inkludera dem.

Vid användning StickWRLD att identifiera IPDS i ett kanoniskt DNA- eller proteinsekvens konsensus / motiv före ingenjörs syntetiska varianter kommer att minska risken för fel och stödja snabb optimering av funktion, bör det noteras att StickWRLD kan användas som en generaliserad korrelations identifiering verktyg och är inte begränsad enbart till proteindata. StickWRLD kan användas för att visuellt upptäcka samtidig förekomst av eventuella variabler i någon korrekt kodad datauppsättning.

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org