Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Protein-alignments er almindeligt anvendt til at evaluere ligheden proteinrester, og den afledte konsensussekvens anvendes til at identificere funktionelle enheder (f.eks domæner). Traditionelle konsensus-bygningsmodeller undlader at redegøre for interpositional afhængigheder – funktionelt kræves samvariation af rester, der har tendens til at blive vist samtidig i hele evolutionen og på tværs af phylogentic træ. Disse relationer kan afsløre vigtige fingerpeg om de processer af proteinfoldning, termostabilitet, og dannelsen af funktionelle steder, som igen kan anvendes til at informere engineering af syntetiske proteiner. Desværre er disse forbindelser i det væsentlige danner sub-motiver, som ikke kan forudsiges ved simpel "flertalsstyre" eller endda HMM-baserede konsensus modeller, og resultatet kan være et biologisk ugyldig "konsensus", som ikke kun er aldrig set i naturen, men er mindre bæredygtig end nogen eksisterede protein. Vi har udviklet en visuel enalytics værktøj, StickWRLD, hvilket skaber en interaktiv 3D repræsentation af et protein tilpasning og tydeligt viser covarying rester. Brugeren har mulighed for at panorere og zoome, samt dynamisk at ændre den statistiske tærskel ligger til grund for identifikationen af de kovarianter. StickWRLD har tidligere med held blevet anvendt til at identificere funktionelt nødvendige covarying rester i proteiner, såsom adenylatkinase og i DNA-sekvenser, såsom endonuclease målsteder.
Protein-alignments er længe blevet anvendt til at vurdere ligheden af rester i en proteinfamilie. Ofte de mest interessante træk ved et protein (f.eks, katalytisk eller andre bindingssteder) er resultatet af proteinfoldning bringe distale områder af den lineære sekvens i kontakt, og som et resultat disse tilsyneladende uafhængige regioner i opstillingen tendens til at udvikle sig og ændre sig i en koordineret måde. I andre tilfælde kan funktionen af et protein være afhængig af dens elektrostatiske signatur, og mutationer, som påvirker den elektroniske dipol, opvejes af ændringer til fjerne ladede rester. Allosteriske effekter kan også fremkalde langtrækkende sekventielle og rumlige afhængigheder mellem restkoncentrationer identiteter. Uanset deres oprindelse, disse funktionelt krævede covariations af restprodukter – inter-positionelle afhængigheder (IPDS) – kan ikke være indlysende med visuel undersøgelse af linjeføringen (figur 1). Identifikation af IPDs – samt afhvilke specifikke rester i disse positioner har tendens til at samvarierer som en enhed – kan afsløre vigtige fingerpeg om de processer af proteinfoldning og dannelsen af funktionelle steder. Denne information kan derefter anvendes til at optimere syntetiske (manipulerede) proteiner i form af termostabilitet og aktivitet. Det har længe været kendt, at ikke alle punktmutationer mod konsensus tilvejebringe forbedret stabilitet eller aktivitet. For nylig proteiner designet til at drage fordel af kendte IPDs i deres sekvens er blevet vist at resultere i større aktivitet end det samme protein konstrueret strengt fra konsensus 1,2 (manuskript under udarbejdelse), svarende til tanken om at stabilisere punktmutationer 3.
Desværre traditionelle konsensus-bygningsmodeller (f.eks flertalsstyre) kun erobre IPDs ved et uheld. Konsensus og Stilling Specifik Scoring Matrix metoder er uvidende om IPDs og kun "korrekt 'inkludere dem i modeller, når de afhængige resterer også de mest populære rester for disse positioner i familien. Markov Chain modeller kan fange IPDs når de er sekventielt proksimale, men deres typisk implementering ignorerer alt undtagen umiddelbare sekventielle naboer, og selv på deres bedste, Hidden Markov Model beregninger (se figur 2) bliver umedgørlig når afhængigheder adskilles i sekvensen med mere end en halv snes positionerne 4. Da disse IPDs væsentlige danner "sub-motiver", som ikke kan forudsiges ved simpel "flertalsstyre" eller endda HMM-baserede konsensus modeller 5,6 resultatet kan være et biologisk ugyldig "konsensus", som ikke kun er aldrig set i naturen, men er mindre rentabelt end nogen eksisterede protein. Systemer baseret på Markov Random Fields, såsom Gremlin 7, forsøge at overvinde disse problemer. Derudover mens sofistikerede biologiske / biokemiske teknikker såsom ikke-sammenhængende rekombination 3,8 kan bruges til IDEntify væsentlige protein elementer efter område, de kræver megen tid og bænk arbejde for single-basepar præcision, der skal opnås.
StickWRLD 9 er en Python baseret program, der skaber en interaktiv 3D repræsentation af et protein tilpasning, der gør IPDs klar og let at forstå. Alle positioner i opretningen er repræsenteret som en søjle i displayet, hvor hver søjle består af en stabel af kugler, en for hver af de 20 aminosyrer, som kan være til stede i denne stilling i tilpasning. Kuglen størrelse er afhængig af hyppigheden af forekomsten af aminosyren, således at brugeren straks kan indsamle konsensus rest eller den relative fordeling af aminosyrer inden denne stilling ved blot at se på størrelsen af kuglerne. Kolonnerne repræsenterer hver position er snoet omkring en cylinder. Dette giver alle områder, der repræsenterer en mulig aminosyre i hver position i tilpasning, en klar 'sigtelinje'til hver anden aminosyre mulighed på hver anden position. Forud for visualisering, StickWRLD beregner sammenhængen styrken mellem alle mulige kombinationer af rester at identificere IPDs 9. At repræsentere IPDs, trækkes linjer mellem rester, der coevolving på et højere eller lavere end det kunne forventes, hvis de rester, der er til stede i stillingerne var uafhængige (IPDs).
Dette er ikke blot visualisering viser, hvilke sekvenspositioner interagerer evolutionært, men som IPD kant linjer trukket mellem aminosyre-sfærer i hver kolonne, kan brugeren hurtigt bestemme hvilke specifikke aminosyrer tendens til at være coevolving i hver position. Brugeren har evnen til at rotere og udforske den visualiserede IPD struktur, såvel som dynamisk at ændre de statistiske tærskelværdier, der styrer visningen af korrelationer, hvilket gør StickWRLD et kraftfuldt værktøj til opdagelse IPDs.
Applikationer såsom gremlin 7 similArly vise komplekse relationelle oplysninger mellem rester – men disse relationer beregnes via mere traditionelle Markov modeller, der ikke er beregnet til at bestemme eventuelle betingede relationer. Som sådan er disse i stand til at blive vist som 2D projektioner. Derimod kan StickWRLD beregne og vise multi-node betingede afhængigheder, som kan sløres, hvis gengives som en 2D-graf (et fænomen kendt som kant okklusion).
StickWRLD s 3D-visning har også flere andre fordele. Ved at lade brugere at manipulere de visuelle – panorering, rotation og zoom – funktioner, der kan være sløres eller unintuitive i en 2D repræsentation kan lettere ses i 3D cylinder StickWRLD. StickWRLD er hovedsagelig et visuelt analyseværktøj, udnytte kraften af den menneskelige hjernes mønstergenkendelse evne til at se mønstre og tendenser, og evnen til at udforske data fra forskellige perspektiver egner sig til dette.
StickWRLD held har været anvendt til at identificere sådanne IPDs i adenylatkinase Lid domæne 16, samt tilhørende DNA-baser i Rho-afhængige terminatorer 9, og en ny splejsning-site specificitet i arke tRNA intron endonuclease 6 målområder. Disse IPDs var ikke påvises via en direkte undersøgelse af linjeføringer.
StickWRLD viser hver position af en opstilling som en søjle af 20 "kugler", hvor hver kugle repræsenterer en af de 20 aminosyrerester og størrelsen af kuglen indikerer hyppigheden af forekomsten af denne særlige rest inden for denne søjle (figur 4). Kolonner er anbragt i en cylinder, med kantlinier forbinder rester i forskellige kolonner (indikerer en IPD). Disse kantlinjer kun trækkes, hvis de tilsvarende rester covarying ved en frekvens overgår både p-værdi (betydning) og resterende (forventede – observeret) grænseværdier.
Påvisning af co-forekommende indbyrdes afhængige rester eller IPDs, i distale regioner af en DNA eller protein sekvensalignment er svært at bruge standard sekvensalignment værktøjer 6. Mens sådanne værktøjer generere en konsensus, eller motiv, sekvens, denne konsensus i mange tilfælde et simpelt flertal-reglen udjævning og giver ikke samvariation relationer, der kan danne en eller flere sub-motiver – grupper af restkoncentrationer, der har tendens til at co-udvikler sig. Selv HMM modeller, som er i stand til at detektere nærliggende afhængigheder, kan ikke præcist model sekvensmotiver med distale IPDs 5. Resultatet er, at den beregnede enighed kan faktisk være en "syntetisk" sekvens ikke findes i naturen – og manipuleret proteiner baseret på sådanne beregningsmæssige konsensus ikke i virkeligheden være optimal. Faktisk ville Pfam HMM for ADK antyder, at et kimært protein indeholdende halvdelen af tetracysteine motiv, og halvdelen af H, S, D, T-motiv, er funktionelt lige så acceptabeltsom enhver faktisk eksisterende ADK. Dette er ikke tilfældet, da sådanne kimærer (og mange andre Blandingerne af disse motiver) er katalytisk dødt 4,19.
Når man ser for korrelationer, er det afgørende, at det tilbageværende tærsklen justeres af hensyn til opdagelsen af relevante sammenhænge ved at indstille den tærskel, over det niveau, hvor eventuelle kanter bliver set og derefter gradvist ramping tærskelværdien ned igen. Dette sikrer, at kun de mest signifikante kanter betragtes indledningsvis.
En alternativ tilgang er at starte med den resterende tærskel ekstremt lav. Dette resulterer i visningen af alle væsentlige kanter. Herfra den resterende tærskel langsomt kan øges, hvilket tillader kanter at falde ud, indtil mønstre opstår. Mens denne fremgangsmåde er mindre nyttigt, når de søger om optagelse af bestemte knudepunkter (f.eks anvendelse af domæne viden), det giver mulighed for opdagelsen af uventede relationer hjælp StickWRLD som en visual analytisk værktøj til at opdage nye mønstre i data visualisering.
StickWRLD er primært begrænset af den tilgængelige hukommelse for det system, som det køres, samt opløsningen af skærmenhed. Mens der ikke er nogen teoretisk grænse for antallet af datapunkter StickWRLD kan undersøge, og sekvenser op til 20.000 positioner er blevet afprøvet i praksis StickWRLD fungerer bedst med sekvenser op til omkring 1.000 stillinger.
Den primære fordel ved StickWRLD ligger i dens evne til at identificere grupper af rester, som samvarierer med hinanden. Dette er en betydelig fordel i forhold til traditionelle tilgang af den statistiske konsensussekvens, som er en simpel statistisk udjævning og tager ikke coevolution i betragtning. Mens der i nogle tilfælde covarying rester kan simpelthen være en artefakt af fylogeni, har selv disse rester klaret "test af markering", og som sådan er usandsynligt at aflede opmærksomheden fra functionaheden af en protein konstrueret til at inkludere dem.
Mens anvendelse af StickWRLD at identificere IPDs i en kanonisk DNA- eller proteinsekvens konsensus / motiv før engineering syntetiske varianter vil mindske risikoen for fejl og støtte hurtig optimering af funktion, skal det bemærkes, at StickWRLD kan anvendes som en generel korrelation identifikation værktøj og er ikke udelukkende begrænset til protein data. StickWRLD kan anvendes til visuelt at opdage co-forekomst af eventuelle variable i nogen korrekt kodet datasæt.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |