Chemistry

Optimalisering av Syntetisk Proteiner: Identifisering av Interpositional Avhengig Hente Strukturelt og / eller Funksjonelt Koblede Rester

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

Protein justeringer blir vanligvis brukt til å vurdere likheten av proteinrester, og den utledede konsensussekvensen brukt for å identifisere funksjonelle enheter (f.eks domener). Tradisjonelle konsensusbygging modeller klarer å gjøre rede for interpositional avhengig - funksjonelt nødvendig samvariasjon av rester som har en tendens til å dukke opp samtidig gjennom evolusjonen og over phylogentic treet. Disse forholdene kan avsløre viktige ledetråder om prosessene i proteinfolding, termostabilitet, og dannelsen av funksjonelle områder, som igjen kan brukes til å informere prosjektering av syntetiske proteiner. Dessverre er disse forbindelser i det vesentlige danner sub-motiver som ikke kan forutsies ved enkle "flertall rule" eller til og med HMM-baserte konsensus-modeller, og resultatet kan være en biologisk ugyldig "konsensus" som ikke bare er aldri sett i naturen, men er mindre levedyktig enn noen bevart protein. Vi har utviklet et visuelt enalytics verktøy, StickWRLD, noe som skaper en interaktiv 3D-representasjon av et protein justering og tydelig viser covarying rester. Brukeren har muligheten til å panorere og zoome, samt dynamisk endre den statistiske terskelen ligger til grunn for identifisering av kovarianter. StickWRLD har tidligere blitt brukt til å identifisere funksjonelt kreves covarying rester i proteiner som adenylatkinase og i DNA-sekvenser som endonuklease målwebområder.

Introduction

Protein justeringer har lenge vært brukt for å evaluere likheten av rester i en proteinfamilie. Ofte de mest interessante trekk ved et protein (f.eks, katalytiske eller andre bindingsseter) er resultatet av å bringe proteinfolding distale områder av den lineære sekvens i kontakt med, og som et resultat av disse tilsynelatende ubeslektede regioner i innretting har en tendens til å utvikle seg og endre i en koordinert måte. I andre tilfeller, kan funksjonen til et protein være avhengig av sin elektrostatiske signatur, og mutasjoner som påvirker den elektroniske dipolen blir kompensert for ved å endre fjerne ladede rester. Allosteriske effekter kan også føre til langtrekkende sekvensielle og romlige avhengigheter mellom rest identiteter. Uavhengig av deres opprinnelse, disse funksjonelt nødvendige covariations av rester - inter-posisjonavhengigheter (IPDS) - kan ikke være opplagt med visuell undersøkelse av justeringen (figur 1). Identifisering av IPDS - samt avhvilke spesifikke aminosyrerester i disse stillingene har en tendens til å samvarierer som en enhet - kan avsløre viktige hint om prosesser for proteinfolding og dannelse av funksjonelle områder. Denne informasjonen kan så brukes til å optimalisere syntetiske (konstruerte) proteiner i form av termostabilitet og aktivitet. Det har lenge vært kjent at ikke alle punktmutasjoner mot konsensus tilveiebringe forbedret stabilitet og aktivitet. Flere nylig, proteiner utformet for å dra nytte av kjente IPDS i sin sekvens har vist seg å føre til større aktivitet enn det samme proteinet designet strengt fra konsensus ^1,2 (manuskript under forberedelse), ligner på ideen om å stabilisere punktmutasjoner ^tre.

Dessverre, tradisjonelle konsensus bygge modeller (f.eks flertallsstyre) bare fange IPDS ved et uhell. Konsensus og plassering Specific scoringsmatrise metoder er uvitende om IPDS og bare 'riktig' inkludere dem i modeller, når de avhengige resterer også de mest populære stene for de posisjoner i familien. Markov Chain modeller kan fange IPDS når de er sekvensielt proksimale, men deres typisk implementering ignorerer alt unntatt umiddelbare sekvensielle naboer, og til og med på sitt beste, Hidden Markov Model beregningene (se figur 2) bli problematiske når avhengigheter er atskilt i sekvensen med mer enn et dusin eller så posisjonerer ^4. Siden disse IPDS det vesentlige danner "sub-motiver", som ikke kan forutsies ved enkle "flertall rule" eller til og med HMM-baserte konsensusmodeller ^5,6 resultatet kan være en biologisk ugyldig "konsensus" som ikke bare er aldri sett i naturen, men er mindre levedyktig enn noen bevart protein. Systemer basert på Markov Random Fields, som gremlin ^7, forsøke å overvinne disse problemene. I tillegg mens avanserte biologiske / biokjemiske teknikker som usammenhengende rekombinasjon ^3,8 kan brukes til Identify essensielle proteiner elementer av regionen, krever de mye tid og benk arbeid for enkelt basepar presisjon skal oppnås.

StickWRLD ⁹ er et Python basert program som skaper en interaktiv 3D-representasjon av et protein justering som gjør IPDS tydelig og lett å forstå. Hver posisjon i innretting er representert som en kolonne i displayet, hvor hver kolonne består av en stabel av kuler, en for hver av de 20 aminosyrer som kan være til stede i den posisjonen i innretting. Sfæren størrelse er avhengig av frekvensen for forekomst av aminosyren, slik at brukeren umiddelbart kan fange opp konsensusrester eller den relative fordelingen av aminosyrer i denne posisjon ved å se på størrelsen på sfærene. Kolonnene representerer hver stilling er viklet rundt en sylinder. Dette gir alle områder som representerer en mulig aminosyre i hver posisjon i justeringen, en klar "siktlinje"til alle andre aminosyre mulighet på hver andre posisjon. Før visualisering, beregner StickWRLD den sammenhengen styrken mellom alle mulige kombinasjoner av rester å identifisere IPDS ^9. Å representere IPDS, er linjer trukket mellom restene som er coevolving ved et høyere eller lavere enn det som ville være ventet dersom rester er tilstede i de stillinger som var uavhengige (IPDS).

Ikke bare gjør dette visualisering showet som sekvens stillinger samhandle evolusjonært, men som IPD kantlinjer trekkes mellom aminosyre kuler i hver kolonne, kan brukeren raskt finne ut hvilke spesifikke aminosyrer tendens til å bli coevolving i hver posisjon. Brukeren har muligheten til å rotere og utforske visualisert IPD struktur, samt dynamisk endre den statistiske terskler som styrer visningen av korrelasjoner, noe som gjør StickWRLD et kraftig verktøy for oppdagelse IPDS.

Programmer som Gremlin ⁷ similarly vise komplekse relasjons informasjon mellom rester - men disse relasjonene er beregnet via mer tradisjonelle Markovmodeller, som ikke er konstruert for å avgjøre eventuelle betingede relasjoner. Som sådan, disse er i stand til å bli vist som 2D projeksjoner. I motsetning til dette kan StickWRLD beregne og vise flernode betingede avhengigheter, som kan maskeres hvis gjengitt som et 2D-graf (et fenomen som er kjent som kant okklusjon).

StickWRLD 3D-visning har også flere andre fordeler. Ved å tillate brukere å manipulere visuelle - panorering, rotering og zooming - funksjoner som kan være uklar eller unintuitive i en 2D-representasjon kan lettere sees i 3D-sylinder av StickWRLD. StickWRLD er i hovedsak en visuell analyseverktøy, utnytte kraften av den menneskelige hjernens mønstergjenkjenning evne til å se mønstre og trender, og muligheten til å utforske data fra ulike perspektiver gir seg til dette.

Protocol

1. nedlasting av programvare og installasjon

Bruk en datamaskin har Intel i5 eller bedre prosessor med minst 4 GB RAM, og kjører Mac OS X eller GNU / Linux (f.eks Ubuntu) OS. I tillegg er Python 2.7.6 ¹⁰ og wxPython 2.8 ^11, SciPy ^12, og PyOpenGL ¹³ python biblioteker nødvendig - laste ned og installere hver fra sine respektive repositories.
Last ned StickWRLD som en zip-arkiv som inneholder alle relevante Python-skript. Last ned "fasta2stick.sh" script for å konvertere standard FASTA DNA / protein sekvenssammenstillinger til StickWRLD format.
Pakk ut arkivet og sette den resulterende StickWRLD mappe på skrivebordet. Plassere "fasta2stick.sh" script på skrivebordet også.

2. Forbered Alignment

Opprett en justering av proteinsekvenser ved hjelp av noen standard justering programvare (f.eks ClustalX ^14). Spar justeringen på skrivebordet i FASTA format.
Åpne terminal programmet på Mac eller GNU / Linux-maskin og naviger til skrivebordet (plasseringen av "fasta2stick.sh" shell script) ved å skrive cd ~ / Desktop og trykke retur. Utføre "fasta2stick.sh" script ved å skrive ./fasta2stick.sh i terminalen. Hvis skriptet ikke kjøre, sørge for at den er kjørbar - i terminaltypen chmod + x fasta2stick.sh å gjøre manuset kjørbar.
Følg instruksjonene på skjermen gitt av skript for å angi navnet input filen (filen opprettet i 1.2 ovenfor) og utgang navn ønsket de. Lagre utdatafilen (som nå er i riktig format for StickWRLD) på skrivebordet.

3. Starte StickWRLD

Navigere i de StickWRLD kjør mappe ved hjelp av terminal applicasjon av Mac eller GNU / Linux-maskin. For eksempel, hvis StickWRLD mappen er på skrivebordet, skriver cd ~ / Desktop / StickWRLD / exec i terminalen.
Lansere StickWRLD ved å skrive python-32 stickwrld_demo.py i terminalen.
Kontroller at StickWRLD data Loader panelet er synlig på skjermen (figur 3).

4. Laster Data

Laste den konverterte protein sekvens justering ved å trykke på "Load Protein ..." -knappen.
Velg filen opprettet i trinn 3 ovenfor og trykk "Open". StickWRLD vil åpne flere nye vinduer, blant annet "StickWRLD Control" (figur 4) og "StickWRLD - OpenGL" (figur 5).
Velg "StickWRLD - OpenGL" vinduet. Velg "Reset View" fra "OpenGL" menyen for å vise standard StickWRLD visualisering i en "top-down"Syn gjennom sylinderen som representerer dataene i skaleres OpenGL windows ..

5. Se alternativer

Velg de boksene for "-kolonnen Etiketter" og "Ball Etiketter" i "StickWRLD Control" ruten (figur 4) for å vise verdier for kolonner og baller.
Fjern markeringen i boksen for "-kolonnen Edges" i "StickWRLD Control" ruten for å skjule kolonnen kantlinjer de.
Sett "Column Tykkelse" til 0,1 i "StickWRLD Control" ruten for å tegne en tynn linje gjennom kolonnene, noe som gjør det enklere å navigere i 3D-visning. Trykk tilbake for å godta endringen.
Tilbakestill visningen i "StickWRLD - OpenGL" vindu som i trinn 5.3 ovenfor, og trykk deretter på "full skjerm" for å maksimere utsikten.

6. Navigation

Rotere 3D StickWRLD skjermen ved å holde nede venstre museknapp WHIle bevege musen i ønsket retning.
Zoome 3D StickWRLD skjermen ved å holde nede høyre museknapp mens du beveger musen opp eller ned.

7. Finne Interpositional Avhengig (IPDS)

Bla visningen ved panorering og zooming som beskrevet i trinn 6. Coevolving rester stiger terskelkravene til både p og rest er koblet via kantlinjer som vist i Figur 6. Hvis det er for mange eller for få kanter som forbinder rester, endre Residual terskel (på "StickWRLD Control" rute) for å vise færre eller flere, kanter.
Øk rest terskelen på StickWRLD kontrollruten til det ikke IPD kantlinjer er vist og sakte trappe ned til relasjoner vises. Fortsett å øke rest til du har et tilstrekkelig antall relasjoner å undersøke.
Identifisere forhold som involverer enten rester av kjente interesse (f.eks innen et motiv eller binding / moroctional området) eller rester som er distal til hverandre innenfor justerings (noe som tyder på at de er proksimale i det foldede protein)

8. Velge og lagre Funn

Ved hjelp av kommandoen + venstreklikk på alle kanter av interesse. Den StickWRLD Kontrollruten vil indikere kolonnene og koble bestemte rester, for eksempel "(124 | G) (136 | H)" (figur 7). Heltrukne linjer representerer positive assosiasjoner; stiplede linjer representerer negative assosiasjoner.
Trykk på "Output Edges" knappen på "StickWRLD Control" panel for å redde en ren tekst formatert fil (edge_residual.csv) av alle synlige kanter, inkludert de sammenkoblede Rester og deres faktiske restverdier, i / StickWRLD / exec / katalog.

Representative Results

StickWRLD har blitt brukt tidligere til å oppdage interpositional avhengigheter (IPDS) mellom rester i både DNA ³ og protein ^15-17 justeringer. Disse ko-utviklende rester, mens ofte fjernt fra hverandre i sekvenssammenstillingen, er ofte proksimalt til hverandre i det foldede protein. StickWRLD tillater rask oppdagelse av rest-spesifikke co-forekomst på slike områder, f.eks., En alanin i posisjon "x" er sterkt korrelert til en treonin i posisjon "y". Slike sammenhenger kan være en indikasjon på beviselig strukturelle forhold, og vanligvis er områder som, av nødvendighet, co-utvikle seg. StickWRLD er i stand til å oppdage disse sammenhengene selv når mer "tradisjonelle" tilnærminger bruker HMM å beskrive motiver mislykkes. For eksempel, analyse av PFAM innretting av ADK lokket domenet ved hjelp StickWRLD viser en sterk positiv korrelasjon mellom cysteinene (C) i posisjonene 4 og 8 og en koordinertpar C i posisjonene 35 og 38. Samtidig, StickWRLD viste en tilsvarende sterk positiv sammenheng mellom histidin (H) og serin (S) på 4 og 8, med en sterk negativ relasjoner mellom disse og C kvartett ved 4, 8, 35 og 38, og et sterkt positivt forhold til asparaginsyre (D) og treonin (T) i posisjonene 35 og 38 henholdsvis. Andre IPDS eksisterer mellom H, S, D, T motiv og en T og G i posisjon **** 10 og 29 i b subtilis **** fremhever den betingede naturen av disse IPDS - den tetracysteine motivet ikke "omsorg" om identiteten på disse to posisjoner, mens den hydrofile H, S, D, krever T triaden spesifikke rester i disse stillingene nesten absolutt. Disse to helt forskjellige posisjonsavhengig rester motiver kan oppfylle samme rolle ADK lokket. Som det kan ses i figur 6, en stor klynge av IPDS, inkludert en 3-node assosiasjon mellom G (glycin) i posisjon 132, Y (tyrosin) ved posisjon 135, og en P (proline) i posisjon 141, er synlig i forgrunnen (figur 6A). I figur 6B har den vis vært forskjøvet for å plassere bruker litt over sylinderen, og viser et IPD mellom en H (histidin) i posisjon 136 og en M (metionin) i posisjon 29, 107 rester fjernt. En PFAM HMM-avledet motiv av samme domene (figur 2), i mellomtiden, ikke bare registrerer ikke disse som spesielt co-forekommende motiv varianter, men også definerer de overordnede grupperinger i en biologisk støttes ordningen ^16.

Figur 1
Figur 1. "Subway Map" representasjon av B. subtilis Adenosin kinase (ADK) Lid domene struktur. Pilene viser IPDS identifisert i PFAM justeringen av ADK Lid domenet ved StickWRLD. StickWRLD er i stand til å korrekt identifisere IPDS innen en klynge of rester som er i umiddelbar nærhet i det foldede protein. Av spesiell interesse er de T og G par i posisjonene 9 og 29, som bare danner en IPD når tetrad av rester ved 4, 7, 24 og 27 ikke er C, C, C, C). Residienummerne vises representerer B. subtilis posisjon og ikke PFAM justeringsposisjoner. Klikk her for å se en større versjon av dette tallet.

Figur 2
Figur 2. Skylign ¹⁸ Hidden Markov Model (HMM) Sekvens Logo for ADK lokket domene. Mens HMM er kraftige verktøy for å bestemme sannsynligheter på hver posisjon, samt bidraget fra hver side til den generelle modellen, gjør posisjon uavhengighet HMM dem egnet til å fange IPDS. Denne modellen foreslår ikke noen avavhengig sett i StickWRLD representasjoner (figur 6). Klikk her for å se en større versjon av dette tallet.

Figur 3
Figur 3. StickWRLD data Loader. Brukere kan velge fra eksisterende demo data eller laste sine egne data i form av DNA eller protein sekvenssammenstillinger.

Figur 4
Figur 4. StickWRLD Styring. Kontrollruten tillater brukeren å endre forskjellige visningsegenskaper samt regulere tersklene som styrer visningen av kantlinjer som angir forholdet mellom rester (IPDS). Sirklet i rødt er standardverdiene som vanligvis trenger t o justeres for beste visning av alle datasettet. Den Restverdi setter terskelen (observert forventet) for hvilken kontakt / foreningen linjene er trukket. Kontrollene for kolonnen og Ball etiketter kontrollere hvorvidt posisjon kolonnen og restverdier (for eksempel "A" for arginin) vises. Kolonnen Edge Linje kontroll veksler på og utenfor skjermen på kantlinjene som forbinder kolonner - for tette datasett dette er bedre slått av. Kolonnen Tykkelse kontrollerer om selve kolonnen eller ikke vises -. Sette dette til en svært liten verdi (for eksempel 0,1) vil trekke en linje gjennom kulene i kolonnen, noe som gjør det lett å skille kolonnene fra hverandre Vennligst klikk her for å se en større versjon av dette tallet.

ghres.jpg "width =" 600 "/>
Figur 5. Første visning av StickWRLD OpenGL vindu med adenylatkinasen lokket domene protein datasettet lastet. Det første perspektivet ser "ned" gjennom sylinderen består av sekvensen justeringsposisjoner. Brukeren kan rotere sylinderen ved hjelp av venstre museklikk-drag, og zoome inn / ut ved hjelp av høyre museklikk-drag. Den første visningen er ganske tett fordi standard displayet viser selv små priser av co-evolusjon. For mange proteiner, på denne innstillingen, distinkte moduler kan oppdages, men selv i tett samarbeid utvikler seg proteiner skjermen kan raskt og interaktivt forenklet for å finne de viktigste IPDS ved hjelp av StickWRLD grensesnittet. Klikk her for å se en større versjon av dette tallet.

ghres.jpg "width =" 700 "/>
Figur 6. closeup utsikt over en StickWRLD visualisering av adenylatkinasen lokket domene protein. Her har vi endret standard Residual til 0,2. Dette øker terskelen for visning av inter-rester kanter, viser færre kanter. Kantene som forblir indikerer sterkt assosiert IPDS. I tillegg visningen har blitt roteres og zoomes for å tillate enklere visning av kantene. (A) En stor gruppe av IPDS er synlig i forgrunnen, inkludert en 3-node assosiasjon mellom G (glycin) i posisjon 132, Y (tyrosin) ved posisjon 135, og en P (prolin) i stilling 141. (B) Utsikten har vært skjev å posisjonere brukeren litt over sylinderen, avslører en IPD mellom en H (histidin) i posisjon 136 og en M (metionin) i posisjon 29, 107 rester fjernt. Klikk her for å se en større versjon av denne figur.

Figur 7
Figur 7. StickWRLD kontrollvinduet nederst i høyre informasjon. CTRL + Venstre klikke på et objekt (f.eks sfære eller kant) i OpenGL vinduet viser informasjon om objektet i nedre høyre i StickWLRD kontrollvinduet. Her ser vi den informasjonen for en IPD kanten mellom en metionin i posisjon 29 og en histidin i posisjon 136.

Discussion

StickWRLD har blitt brukt til å identifisere slike IPDS i adenylatkinasen Lid domene ^16, samt tilhørende DNA-baser i Rho avhengig terminatorer ^9, og en ny spleise stedet spesifisitet i archaeal tRNA intron endonuclease ⁶ målwebområder. Disse IPDS var ikke detekterbare via en direkte undersøkelse av justeringer.

StickWRLD viser hver posisjon av en justering som en kolonne av 20 "kuler", hvor hver kule representerer en av de 20 aminosyrerester og størrelsen av kulen indikerer hyppigheten av forekomsten av den aktuelle rester innenfor denne kolonne (figur 4). Søylene er anordnet i en sylinder, med kantlinjer som forbinder rester i forskjellige kolonner (som indikerer en IPD). Disse kantlinjer er bare trekkes hvis de tilsvarende rester covarying med en frekvens som overgår både p-verdien (betydning) og rest (forventede - observerte) terskler.

Påvisning av co-forekommende gjensidig avhengige rester, eller IPDS, i distale regioner av en DNA eller protein sekvens innretting er vanskelig å bruke standard sekvensjusteringsverktøy ^seks. Mens slike verktøy generere en enighet, eller motiv, sekvens, dette er konsensus i mange tilfeller et simpelt flertall-regelen gjennomsnitts og det gis ingen samvariasjon relasjoner som kan danne ett eller flere sub-motiver - grupper av rester som har en tendens til å co-utvikler seg. Selv HMM modeller, som er i stand til å oppdage naboavhengigheter, kan ikke nøyaktig modellsekvensmotiver med distal IPDS ^5. Resultatet er at den beregnede konsensus kan faktisk være en "syntetisk" sekvens ikke finnes i naturen - og modifiserte proteiner basert på slik beregnings konsensus ikke kan faktisk være optimal. Faktisk ville den Pfam HMM for ADK tyder på at et kimært protein som inneholder halvparten av tetracysteine motiv, og halvparten av H, S, D, T motiv, er funksjonelt like akseptabeltsom noen faktisk eksisterende ADK. Dette er ikke tilfelle, da slike kimærer (og mange andre blendings av disse motivene) er katalytisk døde ^4,19.

Når du leter etter korrelasjoner, er det viktig at den gjenværende terskelen blir justert for å muliggjøre oppdagelse av relevante sammenhenger ved å innstille terskel over nivået ved hvilket enhver kanter blir sett og deretter gradvis ramping terskel ned igjen. Dette sikrer at bare de mest signifikante kanter er betraktet å begynne med.

En alternativ tilnærming er å starte med den gjenværende terskelen innstilt ekstremt lavt. Dette resulterer i fremvisning av alle vesentlige kanter. Herfra rest terskelen kan sakte økes, slik at kantene for å slippe ut inntil mønstre dukker opp. Mens denne tilnærmingen er mindre nyttig når vi leter etter inkludering av spesifikke noder (f.eks bruk av domenekunnskap), gir det mulighet for oppdagelsen av uventede sammenhenger bruker StickWRLD som a visUAL analytisk verktøy for å oppdage nye mønstre i datavisualisering.

StickWRLD begrenses først og fremst av det tilgjengelige minnet i systemet der det kjøres samt oppløsningen på skjermenheten. Mens det er ingen teoretisk grense for antall datapunkter StickWRLD kan undersøke, og sekvenser opptil 20.000 stillinger har blitt testet i praksis StickWRLD yter best med sekvenser opp til rundt 1000 stillinger.

Den primære fordelen med StickWRLD ligger i dens evne til å identifisere grupper av residuer som samvarierer med hverandre. Dette er en betydelig fordel i forhold til tradisjonelle tilnærmingen av den statistiske konsensus-sekvens, som er en enkel statistisk midling og tar ikke hensyn til koevolusjon. Mens i noen tilfeller covarying rester kan rett og slett være en gjenstand av fylogeni, har selv disse rester stått "test av valg", og som sådan er lite sannsynlig å overdøve den funksjonelleheten av noe protein konstruert for å inkludere dem.

Ved bruk StickWRLD å identifisere IPDS i en kanonisk DNA eller proteinsekvensen konsensus / motiv før Engineering syntetiske varianter vil redusere muligheten for feil, og støtter hurtig optimalisering av funksjon, bør det bemerkes at StickWRLD kan brukes som en generalisert sammenheng identifikasjon verktøyet og er ikke begrenset utelukkende til protein data. StickWRLD kan brukes til visuelt å oppdage co-forekomst av eventuelle variable i hvilket som helst riktig kodet datasettet.

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org