Optymalizacja białek syntetycznych: identyfikacja zależności interpozycyjnych wskazujących na strukturalnie i/lub funkcjonalnie powiązane reszty

R. Wolfgang Rumpf; William C. Ray

doi:10.3791/52878

Method Article

Optymalizacja białek syntetycznych: identyfikacja zależności interpozycyjnych wskazujących na strukturalnie i/lub funkcjonalnie powiązane reszty

DOI:

10.3791/52878

⸱

July 14th, 2015

R. Wolfgang Rumpf¹ , William C. Ray¹

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Syntetyczne sekwencje białek oparte na motywach konsensusu zazwyczaj ignorują współewoluujące resztki, które implikują zależności interpozycyjne (IPD). IPD mogą być niezbędne do działania, a projekty, które je ignorują, mogą skutkować nieoptymalnymi wynikami. Protokół ten wykorzystuje StickWRLD do identyfikacji IPD i pomaga w racjonalnym projektowaniu białek, co skutkuje bardziej wydajnymi wynikami.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dopasowania białek są powszechnie używane do oceny podobieństwa reszt białkowych, a uzyskana sekwencja konsensusu służy do identyfikacji jednostek funkcjonalnych (np. domen). Tradycyjne modele budowania konsensusu nie uwzględniają zależności interpozycyjnych – funkcjonalnie wymaganej współzmienności reszt, które mają tendencję do pojawiania się jednocześnie w trakcie ewolucji i w całym drzewie filogenetycznym. Zależności te mogą ujawnić ważne wskazówki na temat procesów fałdowania białek, termostabilności i tworzenia funkcjonalnych miejsc, które z kolei mogą być wykorzystane do informowania o inżynierii białek syntetycznych. Niestety, relacje te zasadniczo tworzą podmotywy, których nie można przewidzieć za pomocą prostej "reguły większości" lub nawet modeli konsensusu opartych na HMM, a wynikiem może być biologicznie nieprawidłowy "konsensus", który nie tylko nigdy nie występuje w naturze, ale jest mniej żywotny niż jakiekolwiek istniejące białko. Opracowaliśmy narzędzie do analizy wizualnej, StickWRLD, które tworzy interaktywną reprezentację 3D wyrównania białek i wyraźnie wyświetla współbieżne reszty. Użytkownik ma możliwość przesuwania i powiększania, a także dynamicznej zmiany progu statystycznego leżącego u podstaw identyfikacji kowariantów. StickWRLD był wcześniej z powodzeniem stosowany do identyfikacji funkcjonalnie wymaganych kozmiennych reszt w białkach, takich jak kinaza adenylanowa, oraz w sekwencjach DNA, takich jak miejsca docelowe endonukleazy.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dopasowania białek od dawna są używane do oceny podobieństwa reszt w rodzinie białek. Często najciekawsze cechy białka (np. katalityczne lub inne miejsca wiązania) są wynikiem fałdowania białek, które stykają się z dystalnymi regionami sekwencji liniowej, w wyniku czego te pozornie niepowiązane regiony w dopasowaniu mają tendencję do ewolucji i zmian w skoordynowany sposób. W innych przypadkach funkcja białka może być zależna od jego sygnatury elektrostatycznej, a mutacje, które wpływają na dipol elektronowy, są kompensowane przez zmiany odległych naładowanych reszt. Efekty allosteryczne mogą również indukować długodystansowe zależności sekwencyjne i przestrzenne między tożsamościami pozostałości. Niezależnie od ich pochodzenia, te funkcjonalnie wymagane współzmienności reszt - zależności międzypozycyjne (IPD) - mogą nie być oczywiste przy wizualnym badaniu wyrównania (Rysunek 1). Identyfikacja IChP - jak również tego, które określone reszty w tych pozycjach mają tendencję do współzmienności jako jednostka - może dostarczyć ważnych wskazówek na temat procesów fałdowania białek i tworzenia miejsc funkcjonalnych. Informacje te można następnie wykorzystać do optymalizacji białek syntetycznych (inżynieryjnych) pod względem termostabilności i aktywności. Od dawna wiadomo, że nie wszystkie mutacje punktowe w kierunku konsensusu zapewniają lepszą stabilność lub aktywność. Ostatnio wykazano, że białka zaprojektowane tak, aby wykorzystywać znane IChP w swojej sekwencji, powodują większą aktywność niż to samo białko zaprojektowane wyłącznie na podstawie konsensusu^1,2 (manuskrypt w przygotowaniu), podobnie jak w przypadku idei stabilizacji mutacji punktowych³.

Niestety, tradycyjne modele budowania konsensusu (np. zasada większości) przechwytują IPD tylko przez przypadek. Metody Consensus i Position Specific Scoring Matrix ignorują IPD i tylko "poprawnie" uwzględniają je w modelach, podczas gdy reszty zależne są również najpopularniejszymi pozostałościami dla tych pozycji w rodzinie. Modele łańcucha Markowa mogą przechwytywać IPD, gdy są one sekwencyjnie proksymalne, ale ich typowa implementacja ignoruje wszystko poza bezpośrednimi sekwencyjnymi sąsiadami, a nawet w najlepszym przypadku obliczenia ukrytego modelu Markowa (patrz rysunek 2) stają się nierozwiązywalne, gdy zależności są oddzielone w sekwencji o więcej niż kilkanaście pozycji⁴. Ponieważ te IPD zasadniczo tworzą "podmotywy", których nie można przewidzieć za pomocą prostej "reguły większości" lub nawet modeli konsensusu opartych na^HMM5,6, wynikiem może być biologicznie nieprawidłowy "konsensus", który nie tylko nigdy nie występuje w naturze, ale jest mniej żywotny niż jakiekolwiek istniejące białko. Systemy oparte na polach losowych Markowa, takie jak GREMLIN⁷, próbują przezwyciężyć te problemy. Ponadto, podczas gdy zaawansowane techniki biologiczne/biochemiczne, takie jak nieciągła rekombinacja^3,8, mogą być stosowane do identyfikacji niezbędnych elementów białkowych według regionów, wymagają one znacznego czasu i pracy laboratoryjnej, aby można było osiągnąć precyzję pojedynczej pary zasad.

StickWRLD⁹ to program oparty na Pythonie, który tworzy interaktywną reprezentację 3D wyrównania białek, dzięki czemu IPD są jasne i łatwe do zrozumienia. Każda pozycja w wyrównaniu jest reprezentowana jako kolumna na wyświetlaczu, gdzie każda kolumna składa się ze stosu kulek, po jednej dla każdego z 20 aminokwasów, które mogą być obecne w tej pozycji w wyrównaniu. Rozmiar kuli zależy od częstotliwości występowania aminokwasu, tak że użytkownik może natychmiast zebrać resztę konsensusu lub względny rozkład aminokwasów w tej pozycji, po prostu patrząc na rozmiar kulek. Kolumny reprezentujące każdą pozycję są zawijane wokół walca. Daje to każdej sferze reprezentującej możliwy aminokwas w każdej pozycji w wyrównaniu, wyraźną "linię wzroku" do każdej innej możliwości aminokwasu w każdej innej pozycji. Przed wizualizacją StickWRLD oblicza siłę korelacji między wszystkimi możliwymi kombinacjami pozostałości w celu identyfikacji IPD⁹. Aby przedstawić IPD, narysowane są linie między pozostałościami, które współewoluują w wyższym lub niższym tempie, niż można by się spodziewać, gdyby pozostałości obecne w tych pozycjach były niezależne (IPD).

Ta wizualizacja nie tylko pokazuje, które pozycje sekwencji oddziałują na siebie ewolucyjnie, ale ponieważ linie krawędziowe IPD są rysowane między sferami aminokwasów w każdej kolumnie, użytkownik może szybko określić, które konkretne aminokwasy mają tendencję do współewolucji w każdej pozycji. Użytkownik ma możliwość obracania i eksploracji wizualizowanej struktury IPD, a także dynamicznej zmiany progów statystycznych kontrolujących wyświetlanie korelacji, dzięki czemu StickWRLD jest potężnym narzędziem do wykrywania IPD.

Aplikacje takie jak GREMLIN⁷ podobnie wyświetlają złożone informacje relacyjne między pozostałościami - ale te relacje są obliczane za pomocą bardziej tradycyjnych modeli Markowa, które nie są zaprojektowane do określania jakichkolwiek relacji warunkowych. W związku z tym można je wyświetlać jako projekcje 2D. W przeciwieństwie do tego, StickWRLD może obliczać i wyświetlać wielowęzłowe zależności warunkowe, które mogą być zaciemnione, jeśli są renderowane jako wykres 2D (zjawisko znane jako okluzja krawędziowa).

Widok 3D StickWRLD ma również kilka innych zalet. Umożliwiając użytkownikom manipulowanie obrazem – przesuwanie, obracanie i powiększanie – funkcje, które mogą być zaciemnione lub nieintuicyjne w reprezentacji 2D, można łatwiej dostrzec w cylindrze 3D StickWRLD. StickWRLD jest zasadniczo narzędziem do analizy wizualnej, wykorzystującym moc zdolności ludzkiego mózgu do rozpoznawania wzorców w celu dostrzegania wzorców i trendów, a także zdolność do eksplorowania danych z różnych perspektyw.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Pobieranie i instalacja oprogramowania

Użyj komputera z procesorem Intel i5 lub lepszym z co najmniej 4 GB pamięci RAM i systemem operacyjnym Mac OS X lub GNU/Linux (np. Ubuntu). Ponadto wymagane są biblioteki Pythona 2.7.6¹⁰ i wxPython 2.8¹¹, SciPy¹² i PyOpenGL¹³ Pythona — pobierz i zainstaluj każdą z nich z odpowiednich repozytoriów.
Pobierz StickWRLD jako archiwum zip zawierające wszystkie odpowiednie skrypty Pythona. Pobierz skrypt "fasta2stick.sh" do konwersji standardowych dopasowań sekwencji DNA/białka FASTA do formatu StickWRLD.
Rozpakuj archiwum i umieść wynikowy folder StickWRLD na pulpicie. Umieść również skrypt "fasta2stick.sh" na pulpicie.

2. Przygotuj wyrównanie

Utwórz wyrównanie sekwencji białek za pomocą dowolnego standardowego oprogramowania do wyrównywania (np. ClustalX¹⁴). Zapisz wyrównanie na pulpicie w formacie FASTA.
Otwórz aplikację terminala na komputerze Mac lub GNU/Linux i przejdź do pulpitu (lokalizacja skryptu powłoki "fasta2stick.sh"), wpisując cd ~/Desktop i naciskając Return. Wykonaj skrypt "fasta2stick.sh", wpisując ./fasta2stick.sh w terminalu. Jeśli skrypt nie zostanie wykonany, upewnij się, że jest on wykonywalny – w terminalu wpisz chmod +x fasta2stick.sh, aby skrypt był wykonywalny.
Postępuj zgodnie z instrukcjami wyświetlanymi na ekranie w skrypcie, aby określić nazwę pliku wejściowego (plik utworzony w wersji 1.2 powyżej) i żądaną nazwę wyjściową. Zapisz plik wyjściowy (który jest teraz w formacie odpowiednim dla StickWRLD) na pulpicie.

3. Uruchamianie StickWRLD

Przejdź do folderu plików wykonywalnych StickWRLD za pomocą aplikacji terminalowej komputera Mac lub GNU/Linux. Na przykład, jeśli folder StickWRLD znajduje się na pulpicie, wpisz cd ~/Desktop/StickWRLD/exec w terminalu.
Uruchom StickWRLD, wpisując python-32 stickwrld_demo.py w terminalu.
Sprawdź, czy panel StickWRLD Data Loader jest widoczny na ekranie (Rysunek 3).

4. Wczytywanie danych

Załaduj przekonwertowane wyrównanie sekwencji białka, naciskając przycisk "Załaduj białko...".
Wybierz plik utworzony w kroku 3 powyżej i naciśnij "Otwórz". StickWRLD otworzy kilka nowych okien, w tym "StickWRLD Control" (Rysunek 4) i "StickWRLD - OpenGL" (Rysunek 5).
Wybierz okno "StickWRLD – OpenGL". Wybierz "Resetuj widok" z menu "OpenGL", aby wyświetlić domyślną wizualizację StickWRLD w widoku "z góry na dół" przez cylinder reprezentujący dane w oknach OpenGL o zmiennym rozmiarze.

5. Opcje widoku

Zaznacz pola "Etykiety kolumn" i "Etykiety kulek" w okienku "Sterowanie StickWRLD" (Rysunek 4), aby wyświetlić wartości kolumn i kulek.
Usuń zaznaczenie pola "Krawędzie kolumny" w panelu "Sterowanie StickWRLD", aby ukryć linie krawędzi kolumny.
Ustaw "Grubość kolumny" na 0,1 w panelu "Sterowanie StickWRLD", aby narysować cienką linię przez kolumny, co ułatwi nawigację po widoku 3D. Naciśnij Return, aby zaakceptować zmianę.
Zresetuj widok w oknie "StickWRLD – OpenGL" jak w kroku 5.3 powyżej, a następnie naciśnij przycisk "pełny ekran", aby zmaksymalizować widok.

6. Nawigacja

Obróć wyświetlacz 3D StickWRLD, przytrzymując lewy przycisk myszy podczas przesuwania myszy w dowolnym kierunku.
Powiększ ekran 3D StickWRLD, przytrzymując prawy przycisk myszy podczas przesuwania myszy w górę lub w dół.

7. Znajdowanie zależności interpozycyjnych (IPD)

Przeglądaj widok, przesuwając i powiększając zgodnie z opisem w kroku 6. Współewoluujące pozostałości przekraczające wymagania progowe zarówno p, jak i reszty są połączone liniami krawędziowymi, jak pokazano na rysunku 6. Jeśli jest zbyt wiele lub zbyt mało krawędzi łączących pozostałości, zmień próg resztkowy (w panelu "Kontrola StickWRLD"), aby wyświetlić mniej lub więcej krawędzi.
Zwiększ próg rezydualny w panelu sterowania StickWRLD, aż nie zostaną wyświetlone żadne linie krawędzi IPD, a następnie powoli zmniejszaj, aż pojawią się relacje. Kontynuuj zwiększanie reszty, aż uzyskasz wystarczającą liczbę relacji do zbadania.
Zidentyfikuj relacje, które obejmują albo reszty o znanym znaczeniu (np. w motywie lub miejscu wiązania/funkcjonalnego), albo pozostałości, które są dystalne względem siebie w obrębie wyrównania (co sugeruje, że są proksymalne w pofałdowanym białku)

8. Wybieranie i zapisywanie wyników

Za pomocą polecenia + kliknij lewym przyciskiem myszy dowolne krawędzie zainteresowania. Panel kontrolny StickWRLD wskaże kolumny i połączy określone pozostałości, np. "(124|G) (136|h)" (Rysunek 7). Linie ciągłe reprezentują pozytywne skojarzenia; Linie przerywane reprezentują negatywne skojarzenia.
Naciśnij przycisk "Output Edges" na panelu "StickWRLD Control", aby zapisać plik w formacie zwykłego tekstu (edge_residual.csv) wszystkich widocznych krawędzi, w tym połączonych pozostałości i ich rzeczywistych wartości resztkowych, w katalogu /StickWRLD/exec/.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

StickWRLD był wcześniej używany do wykrywania zależności interpozycyjnych (IPD) między resztami zarówno w ułożeniu DNA³, jak i białka^15-17. Te współewoluujące reszty, choć często dystalne od siebie w wyrównaniu sekwencji, są często proksymalne względem siebie w pofałdowanym białku. StickWRLD pozwala na szybkie wykrycie współwystępowania specyficznego dla pozostałości w takich miejscach, np. alanina w pozycji "x" jest silnie skorelowana z treoniną w pozycji "y". Takie korelacje mogą wskazywać na możliwe do udowodnienia relacje strukturalne i zazwyczaj są to miejsca, które z konieczności współewoluują. StickWRLD jest w stanie wykryć te zależności nawet wtedy, gdy bardziej "tradycyjne" podejścia wykorzystujące HMM do opisywania motywów zawodzą. Na przykład analiza wyrównania PFAM domeny pokrywy ADK przy użyciu StickWRLD ujawnia silną dodatnią korelację między cysteinami (C) w pozycjach 4 i 8 a skoordynowaną parą C w pozycjach 35 i 38. W tym samym czasie StickWRLD wykazał podobny silny dodatni związek między histydyną (H) i seryną (S) w 4 i 8, z silnymi negatywnymi relacjami między nimi a kwartetem C w 4, 8, 35 i 38 oraz silnym dodatnim związkiem z kwasem asparaginowym (D) i treoniną (T) odpowiednio w pozycjach 35 i 38. Dodatkowe IPD istnieją między motywem H,S,D,T a T i G w pozycjach **** 10 i 29 w b subtilis ****, co podkreśla warunkowy charakter tych IPD - motyw tetracysteiny nie "dba" o tożsamości w tych dwóch pozycjach, podczas gdy hydrofilowy triada H,S,D,T wymaga określonych reszt w tych pozycjach prawie bezwzględnie. Te dwa zupełnie różne, zależne od położenia motywy pozostałości mogą spełniać tę samą rolę, co wieczko ADK. Jak widać na rysunku 6, na pierwszym planie widoczne jest duże skupisko IPD, w tym 3-węzłowy związek między G (glicyna) na pozycji 132, Y (tyrozyna) na pozycji 135 i P (prolina) na pozycji 141 (rysunek 6A). Na rysunku 6B widok został przekrzywiony tak, aby umieścić użytkownika nieco powyżej cylindra, odsłaniając IPD między H (histydyną) w pozycji 136 a M (metioniną) w pozycji 29, w odległości 107 reszt. Tymczasem motyw pochodzący z PFAM HMM z tej samej domeny (ryc. 2) nie tylko nie wykrywa ich jako specyficznie współwystępujących wariantów motywu, ale także definiuje ogólne grupowania w biologicznie nieuzasadnionym schemacie¹⁶.

figure-results-1
Rysunek 1. Reprezentacja "Mapa metra" struktury domeny Lid kinazy adenozynowej (ADK) B. subtilis. Strzałki wskazują IPD zidentyfikowane w wyrównaniu PFAM domeny ADK Lid przez StickWRLD. StickWRLD jest w stanie prawidłowo zidentyfikować IChP w klastrze reszt, które znajdują się w bliskim sąsiedztwie w pofałdowanym białku. Szczególnie interesująca jest para T i G w pozycjach 9 i 29, która tworzy IPD tylko wtedy, gdy tetrada reszt w 4, 7, 24 i 27 nie jest C,C,C,C). Wyświetlane numery pozostałości reprezentują pozycję B. subtilis, a nie pozycje wyrównania PFAM. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-2
Rysunek 2. Skylign¹⁸ Hidden Markov Model (HMM) Sequence Logo dla domeny pokrywy ADK. Podczas gdy HMM są potężnymi narzędziami do określania prawdopodobieństwa w każdej pozycji, a także udziału każdej lokalizacji w ogólnym modelu, niezależność od pozycji HMM sprawia, że nie nadają się one do wykrywania IPD. Model ten nie sugeruje żadnej z zależności widocznych w reprezentacjach StickWRLD (Rysunek 6). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-3
Rysunek 3. Program ładujący dane StickWRLD. Użytkownicy mogą wybierać spośród istniejących danych demonstracyjnych lub załadować własne dane w postaci dopasowań sekwencji DNA lub białek.

figure-results-4
Rysunek 4. Okno StickWRLD Control. Panel sterowania umożliwia użytkownikowi zmianę różnych właściwości widoku, a także regulowanie progów kontrolujących wyświetlanie linii krawędzi wskazujących relacje między pozostałościami (IPD). W czerwonym kółku zaznaczono wartości domyślne, które zwykle należy dostosować, aby uzyskać najlepsze wyświetlanie dowolnego zestawu danych. Wartość resztkowa określa próg (obserwowany-oczekiwany), dla którego rysowane są linie łącznika/skojarzenia. Elementy sterujące etykietami kolumn i kulek określają, czy wyświetlane jest położenie kolumny i wartości pozostałości (np. "A" dla argininy). Kontrolka Linia krawędzi kolumny włącza i wyłącza wyświetlanie linii krawędzi łączących kolumny — w przypadku gęstych zestawów danych lepiej jest ją wyłączyć. Grubość kolumny określa, czy sama kolumna jest wyświetlana, czy nie – ustawienie tej wartości na bardzo małą wartość (np. 0,1) spowoduje narysowanie linii przechodzącej przez sfery w kolumnie, co ułatwi odróżnienie kolumn od siebie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-5
Rysunek 5. Początkowy widok okna StickWRLD OpenGL z załadowanym zestawem danych białek domeny kinazy adenylanowej. Perspektywa początkowa patrzy "w dół" przez cylinder składający się z pozycji wyrównania sekwencji. Użytkownik może obracać cylinder za pomocą kliknięcia lewym przyciskiem myszy i przeciągnięcia oraz powiększać/pomniejszać za pomocą kliknięcia prawym przyciskiem myszy. Początkowy widok jest dość gęsty, ponieważ domyślny wyświetlacz pokazuje nawet niewielkie tempo koewolucji. W przypadku wielu białek w tym ustawieniu można wykryć odrębne moduły, ale nawet w gęsto współewoluujących białkach wyświetlacz można szybko i interaktywnie uprościć, aby znaleźć najważniejsze IPD za pomocą interfejsu StickWRLD. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-6
Rysunek 6. Zbliżenie na wizualizację StickWRLD białka domeny kinazy adenylanowej. Tutaj zmieniliśmy domyślną wartość Residual na 0,2. Zwiększa to próg wyświetlania krawędzi między pozostałościami, pokazując mniej krawędzi. Krawędzie, które pozostały, wskazują na silnie powiązane IPD. Dodatkowo widok został obrócony i powiększony, aby umożliwić łatwiejsze oglądanie krawędzi. (A) Na pierwszym planie widoczna jest duża grupa IPD, w tym 3-węzłowa asocjacja między G (glicyna) na pozycji 132, Y (tyrozyna) na pozycji 135 i P (prolina) na pozycji 141. (B) Widok został zniekształcony tak, aby umieścić użytkownika nieco powyżej cylindra, odsłaniając IPD między H (histydyną) w pozycji 136 a M (metioniną) w pozycji 29, w odległości 107 reszt. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-7
Rysunek 7. Widok informacyjny w prawym dolnym rogu okna StickWRLD Control. Kliknięcie lewym przyciskiem myszy na obiekcie (np. sferze lub krawędzi) w oknie OpenGL powoduje wyświetlenie informacji o obiekcie w prawym dolnym rogu okna StickWLRD Control. Tutaj widzimy informacje o krawędzi IPD między metioniną w pozycji 29 a histydyną w pozycji 136.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

StickWRLD został z powodzeniem wykorzystany do identyfikacji takich IPD w domenie¹⁶ kinazy adenylanowej, a także powiązanych zasad DNA w terminatorach zależnych od rho⁹ oraz nowej specyficzności splicingowej w miejscach docelowych endonukleazy intronowej⁶ archeonów tRNA. Te IPD nie były wykrywalne poprzez bezpośrednie badanie wyrównania.

StickWRLD wyświetla każdą pozycję wyrównania jako kolumnę 20 "kul", gdzie każda kula reprezentuje jedną z 20 reszt aminokwasowych, a rozmiar kuli wskazuje częstotliwość występowania tej konkretnej reszty w tej kolumnie (rysunek 4). Kolumny są ułożone w walcu, z liniami krawędzi łączącymi pozostałości w różnych kolumnach (wskazującymi na IPD). Te linie graniczne są rysowane tylko wtedy, gdy odpowiadające im reszty współzmieniają się z częstotliwością przekraczającą zarówno wartość p (istotność), jak i resztki (oczekiwane - obserwowane) progi.

Wykrywanie współwystępujących współzależnych reszt lub IPD w dystalnych regionach wyrównania sekwencji DNA lub białka jest trudne przy użyciu standardowych narzędzi do dopasowywania sekwencji⁶. Podczas gdy takie narzędzia generują konsensus lub sekwencję motywów, konsensus ten jest w wielu przypadkach zwykłym uśrednianiem reguły większości i nie przekazuje relacji współzmienności, które mogą tworzyć jeden lub więcej podmotywów – grup reszt, które mają tendencję do współewolucji. Nawet modele HMM, które są w stanie wykryć sąsiednie zależności, nie są w stanie dokładnie modelować motywów sekwencji za pomocą dystalnych IPD⁵. Rezultat jest taki, że obliczony konsensus może być w rzeczywistości "syntetyczną" sekwencją, której nie ma w naturze – a zmodyfikowane białka oparte na takim konsensusie obliczeniowym mogą w rzeczywistości nie być optymalne. W rzeczywistości Pfam HMM dla ADK sugerowałby, że chimeryczne białko zawierające połowę motywu tetracysteiny i połowę motywu H,S,D,T, jest funkcjonalnie tak samo akceptowalne, jak każdy faktycznie istniejący ADK. Tak nie jest, ponieważ takie chimery (i wiele innych mieszanek tych motywów) są katalitycznie martwe^4,19.

Szukając korelacji, bardzo ważne jest, aby próg resztkowy został dostosowany tak, aby umożliwić wykrycie odpowiednich korelacji poprzez ustawienie progu powyżej poziomu, przy którym widoczne są wszelkie krawędzie, a następnie stopniowe zmniejszanie progu. Gwarantuje to, że początkowo brane są pod uwagę tylko najważniejsze krawędzie.

Alternatywnym podejściem jest rozpoczęcie od bardzo niskiego progu rezydualnego. Powoduje to wyświetlenie wszystkich istotnych krawędzi. Od tego momentu próg resztkowy może być powoli zwiększany, co pozwala na wypadanie krawędzi, aż pojawią się wzory. Chociaż takie podejście jest mniej przydatne, gdy szuka się włączenia określonych węzłów (np. zastosowanie wiedzy o domenie), pozwala na odkrywanie nieoczekiwanych relacji za pomocą StickWRLD jako wizualnego narzędzia analitycznego do odkrywania pojawiających się wzorców w wizualizacji danych.

StickWRLD jest ograniczony przede wszystkim dostępną pamięcią systemu, na którym jest uruchomiony, a także rozdzielczością urządzenia wyświetlającego. Chociaż nie ma teoretycznego limitu liczby punktów danych, które StickWRLD może zbadać, a sekwencje do 20 000 pozycji zostały przetestowane, w praktyce StickWRLD działa najlepiej z sekwencjami do około 1 000 pozycji.

Podstawową zaletą StickWRLD jest jego zdolność do identyfikowania grup pozostałości, które są ze sobą zgodne. Jest to znacząca przewaga nad tradycyjnym podejściem do statystycznej sekwencji konsensusu, która jest prostym uśrednianiem statystycznym i nie uwzględnia koewolucji. Podczas gdy w niektórych przypadkach współzmienne reszty mogą być po prostu artefaktem filogenezy, nawet te reszty przetrwały "test selekcji" i jako takie jest mało prawdopodobne, aby umniejszały funkcjonalność jakiegokolwiek białka zmodyfikowanego tak, aby je zawierało.

Chociaż użycie StickWRLD do identyfikacji IPD w kanonicznym konsensusie/motywie sekwencji DNA lub białka przed inżynierią syntetycznych wariantów zmniejszy ryzyko błędu i wesprze szybką optymalizację funkcji, należy zauważyć, że StickWRLD może być używany jako uogólnione narzędzie do identyfikacji korelacji i nie ogranicza się wyłącznie do danych dotyczących białek. StickWRLD może być używany do wizualnego odkrywania współwystępowania dowolnych zmiennych w dowolnym prawidłowo zakodowanym zestawie danych.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy oświadczają, że nie mają konkurencyjnych interesów finansowych.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

StickWRLD było możliwe częściowo dzięki funduszom dostarczonym dr Rayowi przez Instytut Badawczy w Nationwide Children's Hospital, oraz dzięki grantowi NSF DBI-1262457.

Materials

List of materials used in this article
Name	Company	Comments
Komputer Mac lub Ubuntu OS	Różne	Dowolny komputer Mac lub GNU/Linux (np. Ubuntu) zdolny do uruchamiania Pythona i powiązanych skryptów powłoki
Język programowania Python	python.org	Python w wersji 2.7.6 lub nowszej Zalecana
biblioteka wxPython	wxpython.org	Najnowsza wersja zalecana
biblioteka	SciPy	Zalecana najnowsza wersja
Biblioteka PyOpenGL	pyopengl.sourceforge.net	Zalecana najnowsza wersja
StickWRLD Skrypty Pythona	NCH BCCM	Dostępne pod adresem http://www.stickwrld.org
fasta2stick.sh konwerter plików	NCH BCCM	Dostępne pod adresem http://www.stickwrld.org
Dane sekwencji		Próbki dostępne pod adresem http://www.stickwrld.org

scipy.org białek i/lub DNA

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202(2014).">Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202(2014).
Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).">Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).">Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1(2014).">Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1(2014).
What is a hidden Markov model? Nature biotechnology. 22, 1315-1316 (2004).">Eddy, S. R. What is a hidden Markov model? Nature biotechnology. 22, 1315-1316 (2004).
Beyond identity - when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , IEEE Press. New York, NY. 51-56 (2009).">Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity - when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , IEEE Press. New York, NY. 51-56 (2009).
Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030(2014).">Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030(2014).
Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).">Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).">Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
https://www.python.org/download/releases/2.7.6/ (2014).">Python Language Reference v.2.7.6. , Available from: https://www.python.org/download/releases/2.7.6/ (2014).
http://www.linuxjournal.com/article/3776 (2000).">Talbot, H. wxPython, a GUI Toolkit. Linux Journal. , Available from: http://www.linuxjournal.com/article/3776 (2000).
http://www.scipy.org/ (2001).">Jones, E., Oliphant, T., Peterson, P., et al. SciPy: Open Source Scientific Tools for Python. , Available from: http://www.scipy.org/ (2001).
http://pyopengl.sourceforge.net/ (2014).">PyOpenGL The Python OpenGL Binding. , Available from: http://pyopengl.sourceforge.net/ (2014).
Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).">Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).">Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).">Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
A Visual Analytics approach to identifying protein structural constraints. IEEE. , Ohio State Univ. Biophys. Program. Columbus, OH. 249-250 (2010).">Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , Ohio State Univ. Biophys. Program. Columbus, OH. 249-250 (2010).
Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7(2014).">Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7(2014).
Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).">Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Optymalizacja białek syntetycznych: identyfikacja zależności interpozycyjnych wskazujących na strukturalnie i/lub funkcjonalnie powiązane reszty

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles