Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Protein justeringer blir vanligvis brukt til å vurdere likheten av proteinrester, og den utledede konsensussekvensen brukt for å identifisere funksjonelle enheter (f.eks domener). Tradisjonelle konsensusbygging modeller klarer å gjøre rede for interpositional avhengig – funksjonelt nødvendig samvariasjon av rester som har en tendens til å dukke opp samtidig gjennom evolusjonen og over phylogentic treet. Disse forholdene kan avsløre viktige ledetråder om prosessene i proteinfolding, termostabilitet, og dannelsen av funksjonelle områder, som igjen kan brukes til å informere prosjektering av syntetiske proteiner. Dessverre er disse forbindelser i det vesentlige danner sub-motiver som ikke kan forutsies ved enkle "flertall rule" eller til og med HMM-baserte konsensus-modeller, og resultatet kan være en biologisk ugyldig "konsensus" som ikke bare er aldri sett i naturen, men er mindre levedyktig enn noen bevart protein. Vi har utviklet et visuelt enalytics verktøy, StickWRLD, noe som skaper en interaktiv 3D-representasjon av et protein justering og tydelig viser covarying rester. Brukeren har muligheten til å panorere og zoome, samt dynamisk endre den statistiske terskelen ligger til grunn for identifisering av kovarianter. StickWRLD har tidligere blitt brukt til å identifisere funksjonelt kreves covarying rester i proteiner som adenylatkinase og i DNA-sekvenser som endonuklease målwebområder.
Protein justeringer har lenge vært brukt for å evaluere likheten av rester i en proteinfamilie. Ofte de mest interessante trekk ved et protein (f.eks, katalytiske eller andre bindingsseter) er resultatet av å bringe proteinfolding distale områder av den lineære sekvens i kontakt med, og som et resultat av disse tilsynelatende ubeslektede regioner i innretting har en tendens til å utvikle seg og endre i en koordinert måte. I andre tilfeller, kan funksjonen til et protein være avhengig av sin elektrostatiske signatur, og mutasjoner som påvirker den elektroniske dipolen blir kompensert for ved å endre fjerne ladede rester. Allosteriske effekter kan også føre til langtrekkende sekvensielle og romlige avhengigheter mellom rest identiteter. Uavhengig av deres opprinnelse, disse funksjonelt nødvendige covariations av rester – inter-posisjonavhengigheter (IPDS) – kan ikke være opplagt med visuell undersøkelse av justeringen (figur 1). Identifisering av IPDS – samt avhvilke spesifikke aminosyrerester i disse stillingene har en tendens til å samvarierer som en enhet – kan avsløre viktige hint om prosesser for proteinfolding og dannelse av funksjonelle områder. Denne informasjonen kan så brukes til å optimalisere syntetiske (konstruerte) proteiner i form av termostabilitet og aktivitet. Det har lenge vært kjent at ikke alle punktmutasjoner mot konsensus tilveiebringe forbedret stabilitet og aktivitet. Flere nylig, proteiner utformet for å dra nytte av kjente IPDS i sin sekvens har vist seg å føre til større aktivitet enn det samme proteinet designet strengt fra konsensus 1,2 (manuskript under forberedelse), ligner på ideen om å stabilisere punktmutasjoner tre.
Dessverre, tradisjonelle konsensus bygge modeller (f.eks flertallsstyre) bare fange IPDS ved et uhell. Konsensus og plassering Specific scoringsmatrise metoder er uvitende om IPDS og bare 'riktig' inkludere dem i modeller, når de avhengige resterer også de mest populære stene for de posisjoner i familien. Markov Chain modeller kan fange IPDS når de er sekvensielt proksimale, men deres typisk implementering ignorerer alt unntatt umiddelbare sekvensielle naboer, og til og med på sitt beste, Hidden Markov Model beregningene (se figur 2) bli problematiske når avhengigheter er atskilt i sekvensen med mer enn et dusin eller så posisjonerer 4. Siden disse IPDS det vesentlige danner "sub-motiver", som ikke kan forutsies ved enkle "flertall rule" eller til og med HMM-baserte konsensusmodeller 5,6 resultatet kan være en biologisk ugyldig "konsensus" som ikke bare er aldri sett i naturen, men er mindre levedyktig enn noen bevart protein. Systemer basert på Markov Random Fields, som gremlin 7, forsøke å overvinne disse problemene. I tillegg mens avanserte biologiske / biokjemiske teknikker som usammenhengende rekombinasjon 3,8 kan brukes til Identify essensielle proteiner elementer av regionen, krever de mye tid og benk arbeid for enkelt basepar presisjon skal oppnås.
StickWRLD 9 er et Python basert program som skaper en interaktiv 3D-representasjon av et protein justering som gjør IPDS tydelig og lett å forstå. Hver posisjon i innretting er representert som en kolonne i displayet, hvor hver kolonne består av en stabel av kuler, en for hver av de 20 aminosyrer som kan være til stede i den posisjonen i innretting. Sfæren størrelse er avhengig av frekvensen for forekomst av aminosyren, slik at brukeren umiddelbart kan fange opp konsensusrester eller den relative fordelingen av aminosyrer i denne posisjon ved å se på størrelsen på sfærene. Kolonnene representerer hver stilling er viklet rundt en sylinder. Dette gir alle områder som representerer en mulig aminosyre i hver posisjon i justeringen, en klar "siktlinje"til alle andre aminosyre mulighet på hver andre posisjon. Før visualisering, beregner StickWRLD den sammenhengen styrken mellom alle mulige kombinasjoner av rester å identifisere IPDS 9. Å representere IPDS, er linjer trukket mellom restene som er coevolving ved et høyere eller lavere enn det som ville være ventet dersom rester er tilstede i de stillinger som var uavhengige (IPDS).
Ikke bare gjør dette visualisering showet som sekvens stillinger samhandle evolusjonært, men som IPD kantlinjer trekkes mellom aminosyre kuler i hver kolonne, kan brukeren raskt finne ut hvilke spesifikke aminosyrer tendens til å bli coevolving i hver posisjon. Brukeren har muligheten til å rotere og utforske visualisert IPD struktur, samt dynamisk endre den statistiske terskler som styrer visningen av korrelasjoner, noe som gjør StickWRLD et kraftig verktøy for oppdagelse IPDS.
Programmer som Gremlin 7 similarly vise komplekse relasjons informasjon mellom rester – men disse relasjonene er beregnet via mer tradisjonelle Markovmodeller, som ikke er konstruert for å avgjøre eventuelle betingede relasjoner. Som sådan, disse er i stand til å bli vist som 2D projeksjoner. I motsetning til dette kan StickWRLD beregne og vise flernode betingede avhengigheter, som kan maskeres hvis gjengitt som et 2D-graf (et fenomen som er kjent som kant okklusjon).
StickWRLD 3D-visning har også flere andre fordeler. Ved å tillate brukere å manipulere visuelle – panorering, rotering og zooming – funksjoner som kan være uklar eller unintuitive i en 2D-representasjon kan lettere sees i 3D-sylinder av StickWRLD. StickWRLD er i hovedsak en visuell analyseverktøy, utnytte kraften av den menneskelige hjernens mønstergjenkjenning evne til å se mønstre og trender, og muligheten til å utforske data fra ulike perspektiver gir seg til dette.
StickWRLD har blitt brukt til å identifisere slike IPDS i adenylatkinasen Lid domene 16, samt tilhørende DNA-baser i Rho avhengig terminatorer 9, og en ny spleise stedet spesifisitet i archaeal tRNA intron endonuclease 6 målwebområder. Disse IPDS var ikke detekterbare via en direkte undersøkelse av justeringer.
StickWRLD viser hver posisjon av en justering som en kolonne av 20 "kuler", hvor hver kule representerer en av de 20 aminosyrerester og størrelsen av kulen indikerer hyppigheten av forekomsten av den aktuelle rester innenfor denne kolonne (figur 4). Søylene er anordnet i en sylinder, med kantlinjer som forbinder rester i forskjellige kolonner (som indikerer en IPD). Disse kantlinjer er bare trekkes hvis de tilsvarende rester covarying med en frekvens som overgår både p-verdien (betydning) og rest (forventede – observerte) terskler.
Påvisning av co-forekommende gjensidig avhengige rester, eller IPDS, i distale regioner av en DNA eller protein sekvens innretting er vanskelig å bruke standard sekvensjusteringsverktøy seks. Mens slike verktøy generere en enighet, eller motiv, sekvens, dette er konsensus i mange tilfeller et simpelt flertall-regelen gjennomsnitts og det gis ingen samvariasjon relasjoner som kan danne ett eller flere sub-motiver – grupper av rester som har en tendens til å co-utvikler seg. Selv HMM modeller, som er i stand til å oppdage naboavhengigheter, kan ikke nøyaktig modellsekvensmotiver med distal IPDS 5. Resultatet er at den beregnede konsensus kan faktisk være en "syntetisk" sekvens ikke finnes i naturen – og modifiserte proteiner basert på slik beregnings konsensus ikke kan faktisk være optimal. Faktisk ville den Pfam HMM for ADK tyder på at et kimært protein som inneholder halvparten av tetracysteine motiv, og halvparten av H, S, D, T motiv, er funksjonelt like akseptabeltsom noen faktisk eksisterende ADK. Dette er ikke tilfelle, da slike kimærer (og mange andre blendings av disse motivene) er katalytisk døde 4,19.
Når du leter etter korrelasjoner, er det viktig at den gjenværende terskelen blir justert for å muliggjøre oppdagelse av relevante sammenhenger ved å innstille terskel over nivået ved hvilket enhver kanter blir sett og deretter gradvis ramping terskel ned igjen. Dette sikrer at bare de mest signifikante kanter er betraktet å begynne med.
En alternativ tilnærming er å starte med den gjenværende terskelen innstilt ekstremt lavt. Dette resulterer i fremvisning av alle vesentlige kanter. Herfra rest terskelen kan sakte økes, slik at kantene for å slippe ut inntil mønstre dukker opp. Mens denne tilnærmingen er mindre nyttig når vi leter etter inkludering av spesifikke noder (f.eks bruk av domenekunnskap), gir det mulighet for oppdagelsen av uventede sammenhenger bruker StickWRLD som a visUAL analytisk verktøy for å oppdage nye mønstre i datavisualisering.
StickWRLD begrenses først og fremst av det tilgjengelige minnet i systemet der det kjøres samt oppløsningen på skjermenheten. Mens det er ingen teoretisk grense for antall datapunkter StickWRLD kan undersøke, og sekvenser opptil 20.000 stillinger har blitt testet i praksis StickWRLD yter best med sekvenser opp til rundt 1000 stillinger.
Den primære fordelen med StickWRLD ligger i dens evne til å identifisere grupper av residuer som samvarierer med hverandre. Dette er en betydelig fordel i forhold til tradisjonelle tilnærmingen av den statistiske konsensus-sekvens, som er en enkel statistisk midling og tar ikke hensyn til koevolusjon. Mens i noen tilfeller covarying rester kan rett og slett være en gjenstand av fylogeni, har selv disse rester stått "test av valg", og som sådan er lite sannsynlig å overdøve den funksjonelleheten av noe protein konstruert for å inkludere dem.
Ved bruk StickWRLD å identifisere IPDS i en kanonisk DNA eller proteinsekvensen konsensus / motiv før Engineering syntetiske varianter vil redusere muligheten for feil, og støtter hurtig optimalisering av funksjon, bør det bemerkes at StickWRLD kan brukes som en generalisert sammenheng identifikasjon verktøyet og er ikke begrenset utelukkende til protein data. StickWRLD kan brukes til visuelt å oppdage co-forekomst av eventuelle variable i hvilket som helst riktig kodet datasettet.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |