Chemistry

Optimering af syntetiske Proteiner: Identifikation af Interpositional Afhængigheder Angivelse Strukturelt og / eller funktionelt knyttet Rester

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

Protein-alignments er almindeligt anvendt til at evaluere ligheden proteinrester, og den afledte konsensussekvens anvendes til at identificere funktionelle enheder (f.eks domæner). Traditionelle konsensus-bygningsmodeller undlader at redegøre for interpositional afhængigheder - funktionelt kræves samvariation af rester, der har tendens til at blive vist samtidig i hele evolutionen og på tværs af phylogentic træ. Disse relationer kan afsløre vigtige fingerpeg om de processer af proteinfoldning, termostabilitet, og dannelsen af funktionelle steder, som igen kan anvendes til at informere engineering af syntetiske proteiner. Desværre er disse forbindelser i det væsentlige danner sub-motiver, som ikke kan forudsiges ved simpel "flertalsstyre" eller endda HMM-baserede konsensus modeller, og resultatet kan være et biologisk ugyldig "konsensus", som ikke kun er aldrig set i naturen, men er mindre bæredygtig end nogen eksisterede protein. Vi har udviklet en visuel enalytics værktøj, StickWRLD, hvilket skaber en interaktiv 3D repræsentation af et protein tilpasning og tydeligt viser covarying rester. Brugeren har mulighed for at panorere og zoome, samt dynamisk at ændre den statistiske tærskel ligger til grund for identifikationen af de kovarianter. StickWRLD har tidligere med held blevet anvendt til at identificere funktionelt nødvendige covarying rester i proteiner, såsom adenylatkinase og i DNA-sekvenser, såsom endonuclease målsteder.

Introduction

Protein-alignments er længe blevet anvendt til at vurdere ligheden af rester i en proteinfamilie. Ofte de mest interessante træk ved et protein (f.eks, katalytisk eller andre bindingssteder) er resultatet af proteinfoldning bringe distale områder af den lineære sekvens i kontakt, og som et resultat disse tilsyneladende uafhængige regioner i opstillingen tendens til at udvikle sig og ændre sig i en koordineret måde. I andre tilfælde kan funktionen af et protein være afhængig af dens elektrostatiske signatur, og mutationer, som påvirker den elektroniske dipol, opvejes af ændringer til fjerne ladede rester. Allosteriske effekter kan også fremkalde langtrækkende sekventielle og rumlige afhængigheder mellem restkoncentrationer identiteter. Uanset deres oprindelse, disse funktionelt krævede covariations af restprodukter - inter-positionelle afhængigheder (IPDS) - kan ikke være indlysende med visuel undersøgelse af linjeføringen (figur 1). Identifikation af IPDs - samt afhvilke specifikke rester i disse positioner har tendens til at samvarierer som en enhed - kan afsløre vigtige fingerpeg om de processer af proteinfoldning og dannelsen af funktionelle steder. Denne information kan derefter anvendes til at optimere syntetiske (manipulerede) proteiner i form af termostabilitet og aktivitet. Det har længe været kendt, at ikke alle punktmutationer mod konsensus tilvejebringe forbedret stabilitet eller aktivitet. For nylig proteiner designet til at drage fordel af kendte IPDs i deres sekvens er blevet vist at resultere i større aktivitet end det samme protein konstrueret strengt fra konsensus ^1,2 (manuskript under udarbejdelse), svarende til tanken om at stabilisere punktmutationer ^3.

Desværre traditionelle konsensus-bygningsmodeller (f.eks flertalsstyre) kun erobre IPDs ved et uheld. Konsensus og Stilling Specifik Scoring Matrix metoder er uvidende om IPDs og kun "korrekt 'inkludere dem i modeller, når de afhængige resterer også de mest populære rester for disse positioner i familien. Markov Chain modeller kan fange IPDs når de er sekventielt proksimale, men deres typisk implementering ignorerer alt undtagen umiddelbare sekventielle naboer, og selv på deres bedste, Hidden Markov Model beregninger (se figur 2) bliver umedgørlig når afhængigheder adskilles i sekvensen med mere end en halv snes positionerne ^4. Da disse IPDs væsentlige danner "sub-motiver", som ikke kan forudsiges ved simpel "flertalsstyre" eller endda HMM-baserede konsensus modeller ^5,6 resultatet kan være et biologisk ugyldig "konsensus", som ikke kun er aldrig set i naturen, men er mindre rentabelt end nogen eksisterede protein. Systemer baseret på Markov Random Fields, såsom Gremlin ^7, forsøge at overvinde disse problemer. Derudover mens sofistikerede biologiske / biokemiske teknikker såsom ikke-sammenhængende rekombination ^3,8 kan bruges til IDEntify væsentlige protein elementer efter område, de kræver megen tid og bænk arbejde for single-basepar præcision, der skal opnås.

StickWRLD ⁹ er en Python baseret program, der skaber en interaktiv 3D repræsentation af et protein tilpasning, der gør IPDs klar og let at forstå. Alle positioner i opretningen er repræsenteret som en søjle i displayet, hvor hver søjle består af en stabel af kugler, en for hver af de 20 aminosyrer, som kan være til stede i denne stilling i tilpasning. Kuglen størrelse er afhængig af hyppigheden af forekomsten af aminosyren, således at brugeren straks kan indsamle konsensus rest eller den relative fordeling af aminosyrer inden denne stilling ved blot at se på størrelsen af kuglerne. Kolonnerne repræsenterer hver position er snoet omkring en cylinder. Dette giver alle områder, der repræsenterer en mulig aminosyre i hver position i tilpasning, en klar 'sigtelinje'til hver anden aminosyre mulighed på hver anden position. Forud for visualisering, StickWRLD beregner sammenhængen styrken mellem alle mulige kombinationer af rester at identificere IPDs ^9. At repræsentere IPDs, trækkes linjer mellem rester, der coevolving på et højere eller lavere end det kunne forventes, hvis de rester, der er til stede i stillingerne var uafhængige (IPDs).

Dette er ikke blot visualisering viser, hvilke sekvenspositioner interagerer evolutionært, men som IPD kant linjer trukket mellem aminosyre-sfærer i hver kolonne, kan brugeren hurtigt bestemme hvilke specifikke aminosyrer tendens til at være coevolving i hver position. Brugeren har evnen til at rotere og udforske den visualiserede IPD struktur, såvel som dynamisk at ændre de statistiske tærskelværdier, der styrer visningen af korrelationer, hvilket gør StickWRLD et kraftfuldt værktøj til opdagelse IPDs.

Applikationer såsom gremlin ⁷ similArly vise komplekse relationelle oplysninger mellem rester - men disse relationer beregnes via mere traditionelle Markov modeller, der ikke er beregnet til at bestemme eventuelle betingede relationer. Som sådan er disse i stand til at blive vist som 2D projektioner. Derimod kan StickWRLD beregne og vise multi-node betingede afhængigheder, som kan sløres, hvis gengives som en 2D-graf (et fænomen kendt som kant okklusion).

StickWRLD s 3D-visning har også flere andre fordele. Ved at lade brugere at manipulere de visuelle - panorering, rotation og zoom - funktioner, der kan være sløres eller unintuitive i en 2D repræsentation kan lettere ses i 3D cylinder StickWRLD. StickWRLD er hovedsagelig et visuelt analyseværktøj, udnytte kraften af den menneskelige hjernes mønstergenkendelse evne til at se mønstre og tendenser, og evnen til at udforske data fra forskellige perspektiver egner sig til dette.

Protocol

1. Software Download & Installation

Brug en computer har en Intel i5 eller bedre processor med mindst 4 GB RAM, og kører Mac OS X eller GNU / Linux (f.eks Ubuntu) OS. Desuden er Python 2.7.6 ¹⁰ og wxPython 2.8 ^11, SciPy ¹² og PyOpenGL ¹³ python biblioteker kræves - downloade og installere hver fra deres respektive repositories.
Hent StickWRLD som en zip-arkiv, der indeholder alle relevante Python scripts. Download "fasta2stick.sh" script til konvertering standard FASTA DNA / protein sekvensopstillinger til StickWRLD format.
Uddrag arkivet og sætte det resulterende StickWRLD mappe på skrivebordet. Placer "fasta2stick.sh" script på skrivebordet så godt.

2. Forbered Justering

Opret en tilpasning af de proteinsekvenser ved hjælp af enhver standard alignment software (f.eks, ClustalX ^14). Spar tilpasningen på skrivebordet i FASTA format.
Åbn terminalen applikation på Mac eller GNU / Linux-computer og navigere til skrivebordet (placeringen af "fasta2stick.sh" shell script) ved at skrive cd ~ / Desktop og trykke retur. Udfør "fasta2stick.sh" script ved at skrive ./fasta2stick.sh i terminalen. Hvis scriptet ikke udfører, sikre, at det er eksekverbar - i terminalen typen chmod + x fasta2stick.sh at få scriptet eksekverbar.
Følg vejledningen på skærmen, som scriptet at specificere input filnavnet (filen oprettet i 1.2 ovenfor) og det ønskede output navn. Gem uddatafilen (som nu er i det rigtige format for StickWRLD) på skrivebordet.

3. Lancering StickWRLD

Naviger i StickWRLD eksekverbare mappe ved hjælp af terminalen APPLIKation af Mac eller GNU / Linux-computer. For eksempel, hvis mappen StickWRLD er på skrivebordet, skal du skrive cd ~ / Desktop / StickWRLD / exec i terminalen.
Launch StickWRLD ved at skrive python-32 stickwrld_demo.py i terminalen.
Kontroller, at panelet StickWRLD data Loader er synlig på skærmen (Figur 3).

4. Loading Data

Indlæse konverterede protein sekvens alignment ved at trykke på "Load Protein ..." knappen.
Vælg den fil oprettet i trin 3 ovenfor og tryk på "Åbn". StickWRLD vil åbne flere nye vinduer, herunder "StickWRLD Control" (Figur 4) og "StickWRLD - OpenGL" (figur 5).
Vælg "StickWRLD - OpenGL" vinduet. Vælg "Reset View" fra "OpenGL" menuen for at vise standard StickWRLD visualisering i en "top-down"View gennem cylinderen, der repræsenterer data i de resizable OpenGL vinduer ..

5. Se Valgmuligheder

Vælg de bokse til "Kolonne Labels" og "Ball Labels" i "StickWRLD Control" rude (Figur 4) for at vise værdier for kolonner og bolde.
Fravælg afkrydsningsfeltet "Kolonne Edges" i "StickWRLD Control" rude for at skjule kolonnen kant linjer.
Indstil "Kolonne Tykkelse" til 0,1 i "StickWRLD Control" rude for at tegne en tynd linje gennem kolonnerne, hvilket gør det nemmere at navigere i 3D-visning. Tryk tilbage for at acceptere ændringen.
Nulstil visningen i "StickWRLD - OpenGL" vinduet som i trin 5.3 ovenfor, og tryk derefter på "fuld skærm" for at maksimere visningen.

6. Navigation

Drej 3D StickWRLD display ved at holde venstre museknap while bevæge musen i alle retninger.
Zoom 3D StickWRLD display ved at holde højre museknap nede, mens du bevæger musen op eller ned.

7. Finde Interpositional Afhængigheder (IPDs)

Gennemse visningen ved at panorere og zoome som beskrevet i trin 6. Coevolving restkoncentrationer, der overskrider de tærskelværdier, der både p og resterende er forbundet via kantlinjer, som det ses i figur 6. Hvis der er for mange eller for få kanter forbinder rester, ændre Residual tærskel (om "StickWRLD Control" rude) for at vise færre, eller mere, kanter.
Øg resterende tærskel på StickWRLD Kontrol Panel indtil der ikke IPD kant linjer er vist og langsomt rampe ned, indtil relationer vises. Fortsat at øge den resterende, indtil du har et tilstrækkeligt antal af relationer til at undersøge.
Identificer relationer, der involverer enten rester af kendte interesse (fx inden for et motiv eller bindende / sjovctional site) eller rester, der er distalt for hinanden i tilpasningen (hvilket antyder, at de er proximale i den foldede protein)

8. Valg og Lagring Resultater

Ved hjælp af kommandoen + venstre klik på eventuelle kanter interesse. Den StickWRLD Kontrol ruden vil indikere kolonnerne og forbinde specifikke rester, fx "(124 | G) (136 | H)" (figur 7). Optrukne linjer repræsenterer positive associationer; stiplede linjer repræsenterer negative associationer.
Tryk på knappen "Output Kanter" på "StickWRLD Control" panel til at gemme en almindelig tekst formateret fil (edge_residual.csv) af alle de synlige kanter, herunder sammenføjede rester og deres faktiske restværdi, i / StickWRLD / exec / mappe.

Representative Results

StickWRLD er blevet anvendt tidligere til at påvise interpositional afhængigheder (IPDS) mellem rester i både DNA og protein ^{3 15-17} alignments. Disse co-udviklende rester, mens ofte distalt fra hinanden i sekvensalignment, er ofte proximalt til hinanden i det foldede protein. StickWRLD tillader hurtig opdagelse af rest-specifikke co-forekomst på sådanne steder, f.eks., En alanin ved position "x" er stærkt korreleret til en threonin ved position "y". Sådanne sammenhænge kan være tegn på beviselige strukturelle relationer, og typisk er steder, der, af nødvendighed, co-udvikler. StickWRLD er i stand til at opdage disse relationer, selv når mere "traditionelle" tilgange bruger HMM'er at beskrive motiver mislykkes. Fx analyse af PFAM opretning af ADK låg domæne ved hjælp StickWRLD afslører en stærk positiv korrelation mellem cysteinerne (C) ved positionerne 4 og 8 og en koordineretpar C ved positionerne 35 og 38. Samtidig, StickWRLD udviste en lignende stærk positiv sammenhæng mellem histidin (H) og serin (S) ved 4 og 8, med en stærk negativ relationer mellem disse og C kvartet ved 4, 8, 35 og 38, og et stærkt positivt forhold til asparaginsyre (D) og threonin (T) ved positionerne 35 og 38 henholdsvis. Der findes yderligere IPDs mellem H, S, D, T motiv og en T og G ved position **** 10 og 29 i b subtilis **** fremhæve den betingede karakter af disse IPDs - den tetracysteine motivet ikke 'pleje' om identiteterne på de to positioner, mens den hydrofile H, S, D, T triade kræver specifikke rester i disse positioner næsten absolut. Disse to helt forskellige positions- afhængig restkoncentrationer motiver kan opfylde den samme rolle ADK låget. Som det kan ses i figur 6, en stor klynge af IPDs, herunder en 3-node association mellem G (glycin) ved stilling 132, Y (tyrosin) i position 135, og en P (ProLine) i position 141, er synlig i forgrunden (figur 6A). I figur 6B, har den opfattelse været skæv at placere brugeren lidt over cylinderen, afslører en IPD mellem en H (histidin) i position 136 og et M (methionin) i position 29, 107 rester fjernt. En PFAM HMM-afledte motiv af det samme domæne (figur 2), i mellemtiden, ikke kun registrerer ikke disse som specifikt co-forekommende motiv-varianter, men også definerer de overordnede grupperinger i et biologisk ikke understøttes skema ^16.

Figur 1
Figur 1. "Subway Map" repræsentation af B. subtilis adenosinkinase (ADK) Låg domænestruktur. Pile viser IPDs identificeret i PFAM tilpasning af ADK Lid domæne ved StickWRLD. StickWRLD er i stand til korrekt at identificere IPDs inden for en klynge of rester, som er i tæt nærhed i det foldede protein. Af særlig interesse er T og G pair i positionerne 9 og 29, som kun udgør en IPD når tetrade af rester på 4, 7, 24 og 27 er ikke C, C, C, C). Restnumre vises repræsenterer B. subtilis position og ikke Pfam retningspositionerne. Klik her for at se en større version af dette tal.

Figur 2
Figur 2. Skylign ¹⁸ Hidden Markov Model (HMM) Sekvens Logo for ADK låg domæne. Mens HMM'er er stærke værktøjer til bestemmelse sandsynligheder ved hver position samt bidraget fra hver side til den samlede model, den positionelle uafhængighed HMM'er gør dem uegnet til detektering IPDs. Denne model understøtter ikke foreslå nogen af deafhængigheder set i StickWRLD repræsentationer (figur 6). Klik her for at se en større version af dette tal.

Figur 3
Figur 3. StickWRLD data Loader. Brugerne kan vælge fra eksisterende demo data eller indlæse egne data i form af DNA eller protein sekvenssammenligninger.

Figur 4
Figur 4. StickWRLD vinduet. Control rude tillader brugeren at ændre forskellige view egenskaber samt regulere de tærskler, der kontrollerer visningen af kantlinier angiver relationer mellem restprodukter (IPDS). Rød cirkel er standardindstillingerne, der typisk har brug for t o blive justeret for bedste visning af enhver datasæt. Restværdien sætter grænsen for (observeret forventet), for hvilke stik / foreningen linjer trækkes. Kontrollerne til Kolonne og Ball etiketter kontrollere, om kolonnen position og restkoncentrationer værdier (fx "A" for arginin) vises. Kolonnen Edge Linje kontrol skifter på og uden for visning af kant linjer forbinder kolonner - for tætte datasæt dette bedre slukket. Kolonnen Tykkelse styrer om kolonnen selv eller ikke vises -. Sætte denne til en meget lille værdi (f.eks 0,1) vil trække en linje gennem sfærerne i kolonnen, hvilket gør det let at skelne kolonnerne fra hinanden Klik her for at se en større version af dette tal.

ghres.jpg "width =" 600 "/>
Figur 5. Indledende visning af StickWRLD OpenGL vindue med adenylatkinase låg domæne protein data indlæst sæt. Den indledende perspektiv ser "ned" gennem cylinderen består af sekvensen retningspositionerne. Brugeren kan dreje cylinderen ved hjælp venstre museklik-træk, og zoome ind / ud ved hjælp af højre-museklik-træk. Den første visning er ganske tæt, fordi standard displayet viser selv små satser for co-evolution. For mange proteiner, på denne indstilling, adskilte moduler kan påvises, men selv i tæt samarbejde udvikler proteiner displayet kan hurtigt og interaktivt forenklede for at finde de vigtigste IPDs vha StickWRLD grænsefladen. Klik her for at se en større version af dette tal.

ghres.jpg "width =" 700 "/>
Figur 6. Closeup billede af en StickWRLD visualisering af adenylatkinase låg domæne-protein. Her har vi ændret standard Residual til 0,2. Dette øger tærsklen for visning af inter-rester kanter, der viser færre kanter. Kanterne, der forbliver indikerer stærkt forbundne IPDs. Derudover visningen er blevet drejet og zoomet at give mulighed for nemmere at se af kanterne. (A) En stor klynge af IPDs er synlig i forgrunden, herunder en 3-node association mellem G (glycin) ved stilling 132, Y (tyrosin) i position 135, og en P (prolin) i position 141. (B) Udsigten har været skæv at placere brugeren lidt over cylinderen, afslører en IPD mellem et H (histidin) ved position 136 og et M (methionin) ved position 29, 107 rester fjernt. Klik her for at se en større version af dette figur.

Figur 7
Figur 7. StickWRLD vinduet nederste højre information visning. CTRL + Venstre klik på et objekt (f.eks sfære eller kant) i OpenGL-vinduet viser oplysningerne for objektet i nederste højre i StickWLRD vinduet. Her ser vi de oplysninger om en IPD kanten mellem en methionin ved position 29 og en histidin ved position 136.

Discussion

StickWRLD held har været anvendt til at identificere sådanne IPDs i adenylatkinase Lid domæne ^16, samt tilhørende DNA-baser i Rho-afhængige terminatorer ^9, og en ny splejsning-site specificitet i arke tRNA intron endonuclease ⁶ målområder. Disse IPDs var ikke påvises via en direkte undersøgelse af linjeføringer.

StickWRLD viser hver position af en opstilling som en søjle af 20 "kugler", hvor hver kugle repræsenterer en af de 20 aminosyrerester og størrelsen af kuglen indikerer hyppigheden af forekomsten af denne særlige rest inden for denne søjle (figur 4). Kolonner er anbragt i en cylinder, med kantlinier forbinder rester i forskellige kolonner (indikerer en IPD). Disse kantlinjer kun trækkes, hvis de tilsvarende rester covarying ved en frekvens overgår både p-værdi (betydning) og resterende (forventede - observeret) grænseværdier.

Påvisning af co-forekommende indbyrdes afhængige rester eller IPDs, i distale regioner af en DNA eller protein sekvensalignment er svært at bruge standard sekvensalignment værktøjer ^6. Mens sådanne værktøjer generere en konsensus, eller motiv, sekvens, denne konsensus i mange tilfælde et simpelt flertal-reglen udjævning og giver ikke samvariation relationer, der kan danne en eller flere sub-motiver - grupper af restkoncentrationer, der har tendens til at co-udvikler sig. Selv HMM modeller, som er i stand til at detektere nærliggende afhængigheder, kan ikke præcist model sekvensmotiver med distale IPDs ^5. Resultatet er, at den beregnede enighed kan faktisk være en "syntetisk" sekvens ikke findes i naturen - og manipuleret proteiner baseret på sådanne beregningsmæssige konsensus ikke i virkeligheden være optimal. Faktisk ville Pfam HMM for ADK antyder, at et kimært protein indeholdende halvdelen af tetracysteine motiv, og halvdelen af H, S, D, T-motiv, er funktionelt lige så acceptabeltsom enhver faktisk eksisterende ADK. Dette er ikke tilfældet, da sådanne kimærer (og mange andre Blandingerne af disse motiver) er katalytisk dødt ^4,19.

Når man ser for korrelationer, er det afgørende, at det tilbageværende tærsklen justeres af hensyn til opdagelsen af relevante sammenhænge ved at indstille den tærskel, over det niveau, hvor eventuelle kanter bliver set og derefter gradvist ramping tærskelværdien ned igen. Dette sikrer, at kun de mest signifikante kanter betragtes indledningsvis.

En alternativ tilgang er at starte med den resterende tærskel ekstremt lav. Dette resulterer i visningen af alle væsentlige kanter. Herfra den resterende tærskel langsomt kan øges, hvilket tillader kanter at falde ud, indtil mønstre opstår. Mens denne fremgangsmåde er mindre nyttigt, når de søger om optagelse af bestemte knudepunkter (f.eks anvendelse af domæne viden), det giver mulighed for opdagelsen af uventede relationer hjælp StickWRLD som en visual analytisk værktøj til at opdage nye mønstre i data visualisering.

StickWRLD er primært begrænset af den tilgængelige hukommelse for det system, som det køres, samt opløsningen af skærmenhed. Mens der ikke er nogen teoretisk grænse for antallet af datapunkter StickWRLD kan undersøge, og sekvenser op til 20.000 positioner er blevet afprøvet i praksis StickWRLD fungerer bedst med sekvenser op til omkring 1.000 stillinger.

Den primære fordel ved StickWRLD ligger i dens evne til at identificere grupper af rester, som samvarierer med hinanden. Dette er en betydelig fordel i forhold til traditionelle tilgang af den statistiske konsensussekvens, som er en simpel statistisk udjævning og tager ikke coevolution i betragtning. Mens der i nogle tilfælde covarying rester kan simpelthen være en artefakt af fylogeni, har selv disse rester klaret "test af markering", og som sådan er usandsynligt at aflede opmærksomheden fra functionaheden af en protein konstrueret til at inkludere dem.

Mens anvendelse af StickWRLD at identificere IPDs i en kanonisk DNA- eller proteinsekvens konsensus / motiv før engineering syntetiske varianter vil mindske risikoen for fejl og støtte hurtig optimering af funktion, skal det bemærkes, at StickWRLD kan anvendes som en generel korrelation identifikation værktøj og er ikke udelukkende begrænset til protein data. StickWRLD kan anvendes til visuelt at opdage co-forekomst af eventuelle variable i nogen korrekt kodet datasæt.

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org