$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Opisany powyżej przepływ pracy został zastosowany do zestawu danych MS dostępnego w repozytorium PRIDE38,39. W pierwotnym badaniu opracowano metodę (iMixPro), wykorzystującą znakowanie stabilnymi izotopami aminokwasów w hodowli komórkowej (SILAC), w celu wyeliminowania wyników fałszywie dodatnich z eksperymentów z oczyszczaniem powinowactwa MS (AP-MS) 38. Krótko mówiąc, eksperyment AP-MS polega na użyciu przeciwciał związanych z kulkami w celu pobrania interesującego białka (przynęty) i jego interaktorów (ofiar). Zebrane białka są następnie trawione i przygotowywane do stwardnienia rozsianego. Metoda przygotowania próbki i ustawienia urządzenia są opisane w pierwotnym badaniu oraz w repozytorium PRIDE (PXD004246). Wyzwaniem w takich eksperymentach jest obfitość wyników fałszywie dodatnich, zwłaszcza spowodowanych wiązaniem białek z kulkami, ale nie z przynętą. W tym przypadku użyliśmy SILAC do wygenerowania różnych proporcji izotopów między prawdziwymi ofiarami a fałszywie dodatnimi: 3 próbki kontrolne (bez przynęty) hodowane w lekkim podłożu, 1 próbka wyrażająca przynętę hodowaną w lekkim podłożu i 1 próbka wyrażająca przynętę hodowaną w ciężkim podłożu są przetwarzane za pomocą kulek i dalszej analizy spektrometrii mas. Dzięki takiej konstrukcji niespecyficzne białka wiążące się z kulkami będą miały stosunek ciężkiego do światła wynoszący 1:4; gdy prawdziwe ofiary będą miały stosunek 1:138.
Ponownie przeanalizowaliśmy ich dane AP-MS za pomocą bazy danych OpenProt; przynęty zawierały trzy endogenne białka (PTPN14, JIP3 i IQGAP1) oraz dwa białka o nadmiernej ekspresji (RAF1 i RNF41). Ponieważ w eksperymentach wykorzystano SILAC, do kwantyfikacji białek wykorzystano przepływ pracy Galaxy (Materiał uzupełniający S3, Rysunek 2). Przepływ pracy został uruchomiony przy użyciu całej bazy danych OpenProt (OpenProt_all) lub ograniczonej bazy danych OpenProt (OpenProt_2pep, zawierającej tylko białka wykryte wcześniej z co najmniej dwoma unikalnymi peptydami).
Identyfikacja i kwantyfikacja białek były dobre i powtarzalne w różnych używanych bazach danych. Jak pokazano w Rysunek 3, większość białek zidentyfikowanych w oryginalnym artykule została również zidentyfikowana przy użyciu bazy danych OpenProt_2pep lub OpenProt_all (szczegółowa lista jest dostępna w Materiałach uzupełniających S5). Wynik ten pokazuje, że opisany tutaj potok i bazy danych OpenProt są w stanie zapewnić identyfikację i kwantyfikację białek porównywalną z obecnymi procedurami opartymi na bazach danych UniProtKB classs40. Jednak wykorzystanie baz danych OpenProt ma wyjątkową zaletę, ponieważ umożliwia wykrywanie nowych i wcześniej niewykrywalnych białek, jak wykazano w tym studium przypadku.
11 dobrze wspieranych białek (1 Isoform i 10 AltProts), ale obecnie nieopisanych w bazach danych, zostało zidentyfikowanych we wszystkich zestawach danych, z pewnymi peptydami, przy użyciu bazy danych OpenProt_2pep (wszystkie akcesje białek, wraz z liczbą peptydów wspierających, są dostępne w Materiale Uzupełniającym S5). Ta baza danych pozwala na użycie tradycyjnego 1% FDR, ponieważ wzrost przestrzeni wyszukiwania pozostaje umiarkowany. Te 11 białek nie zostało zidentyfikowanych w pierwotnym badaniu, ponieważ nie było ich w bazie danych.
29 nowych białek (16 izoform i 13 AltProts) odkryto we wszystkich zestawach danych, z peptydami peptydowymi, korzystając z bazy danych OpenProt_all (wszystkie akcesje białek, wraz z liczbą peptydów wspierających, są dostępne w Materiałach Uzupełniających S6). Jak pokazano na Rysunek 3, zalecany rygorystyczny FDR nie wpłynął na najbardziej pewną identyfikację białek, chociaż zmniejszył całkowitą liczbę zidentyfikowanych białek. W porównaniu z bazą danych z OpenProt_2pep można z całą pewnością zidentyfikować większą liczbę nowych białek. Wszystkie te nowe białka są nieobecne w bazie danych OpenProt_2pep. Podkreśla to kluczową rolę wybranej bazy danych w proteomice opartej na stwardnieniu rozsianym.
Odkryto jedno nowe białko jako interaktor białka RAF1 (IP_637643). Korzystając ze strony internetowej OpenProc, można zobaczyć, że białko to nie zostało do tej pory wykryte przez stwardnienie rozsiane ani profilowanie rybosomów (OpenProt v1.3). Białko ma długość 46 aminokwasów i może dać tylko dwa unikalne peptydy podczas trawienia tryptycznego. Peptyd wykryty w zbiorze danych RAF1 AP-MS (frakcja 18) miał dobrej jakości spektrum, jak pokazano na Rysunek 4, i wykazywał stosunek ciężkiego do światła wynoszący 1,09. Białko jest kodowane w genie NANOGNBP1, który jest pseudogenem NANOGNB. Transkrypt (ENST00000448444), obecnie oznaczony jako niekodujący, został wykryty w kilku tkankach zgodnie z GTEx portal40. Białko zawiera przewidywaną domenę funkcjonalną związaną z wiązaniem DNA (Gene Ontology GO:0003677)41.

Rysunek 1: Wybór bazy danych dla wykresu analiz proteomicznych. Analizy danych z państw członkowskich, w szczególności wybór bazy danych, zależą od celów badania. Trzy wspólne cele są oznaczone kolorem niebieskim (klasyczny potok proteomyczny), zielonym (wyczerpujące wyszukiwanie proteomiczne) i pomarańczowym (odkrycie proteomiczne). Każdy cel zależy od odpowiedniej bazy danych i potoku. Pojedyncze narzędzie identyfikacyjne może być wykorzystane do wyczerpujących i klasycznych procesów proteomicznych. W przypadku potoku odkrywania proteomicznego zdecydowanie zalecamy korzystanie z wielu silników identyfikacji. Zalecane FDR są oznaczone kolorem czerwonym, a rozmiary baz danych białek są oznaczone szarymi polami. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2: Graficzna reprezentacja zastosowanego przepływu pracy w Galaxy. Przedstawienie krok po kroku przepływu pracy analizy proteomicznej używanej do ponownej analizy danych Eyckermana i wsp. data38. Pliki wejściowe, wyszukiwanie peptydów i kwantyfikacja białek są oznaczone pomarańczowymi polami. Niebieskie pola odpowiadają używanym narzędziom, a szare pola odpowiadają wygenerowanym plikom wyjściowym. Różne wyszukiwarki (MS-GF+ i X!Tandem) są oznaczone różnymi kolorami (odpowiednio czerwonym i fioletowym), a także strzałkami wskazującymi ich niezbędne dane wejściowe i wyjściowe. W zielonym polu znajduje się narzędzie generujące listę identyfikacji białek. Gdy generowanych jest wiele wyjść, to używane do dalszych kroków jest wskazywane jako najbliższe strzałce. Ten przepływ pracy jest dostępny bezpłatnie w materiałach uzupełniających S2. Plik konfiguracyjny parametrów domyślnych X!Tandem jest dostępny w Materiał uzupełniający S4. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Porównanie identyfikacji interaktorów dla każdej przynęty przy użyciu różnych baz danych. Diagramy Venna identyfikacji białek przy użyciu najbardziej zaufanej bazy danych OpenProt (w kolorze pomarańczowym, dowody potwierdzające co najmniej 2 unikalne peptydy, OpenProt_2pep) z 1% FDR lub całej bazy danych OpenProt (w kolorze niebieskim, OpenProt_all) z 0,001% FDR lub zgodnie z raportem w oryginalnym artykule (w kolorze szarym)38. Każdy diagram odpowiada zidentyfikowanym interaktorom dla wspomnianej przynęty: RAF1, RNF41, PTPN14, JIP3 i IQGAP1. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4: Widmo MS/MS zidentyfikowanego peptydu MDNLWAK(13C6) z nowego białka IP_637643. Intensywność jest względna (od 0 do 100%). Wybrane piki są oznaczone kolorem czerwonym, adnotacje jonów y są oznaczone kolorem ciemnoczerwonym, a adnotacje jonów b kolorem zielonym. Wyodrębnione z oprogramowania TOPPview34. Błąd prekursora = 2,70 ppm, wynik PEP = 0,12. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
| termin | definicja | odniesienie |
| Alternatywny ORF (AltORF) | niekanoniczny ORF obecnie nie jest opisywany w adnotacjach genomu, ale jest opisywany w OpenProt. | 15 |
| Numer referencyjny ORF (RefORF) | kanoniczny ORF z adnotacjami genomu i OpenProt. | 15 |
| Białko alternatywne (AltProt) | nowego białka kodowanego przez AltORF, bez istotnego podobieństwa do RefProt. Prefiks akcesyjny: IP_. | 15 |
| Białko referencyjne (RefProt) | białko obecnie oznaczone w bazach danych sekwencji białek, takich jak UniProtKB, Ensembl lub NCBI RefSeq, a także w OpenProt. | 15 |
| Nowa izoforma | nowe białko kodowane za pomocą AltORF, wykazujące znaczne podobieństwo do RefProt. Prefiks akcesyjny: II_. | 15 |
| OpenProt_2pep baza danych | zawiera sekwencję wszystkich RefProt i nowych białek przewidzianych przez OpenProt, już wykrytych przy użyciu co najmniej 2 unikalnych peptydów. | 15 |
| OpenProt_1pep baza danych | zawiera sekwencję wszystkich RefProt i nowych białek przewidywanych przez OpenProt, już wykrytych za pomocą co najmniej 1 unikalnego peptydu. | 15 |
| OpenProt_all bazy danych | zawiera sekwencję wszystkich RefProt i nowych białek przewidzianych przez OpenProt. | 15 |
Tabela 1: Definicje terminów używanych w OpenProt i w całym protokole
Materiał uzupełniający S1: Galaxy workflow do obsługi bazy danych. Spowoduje to dołączenie sekwencji CRAPome i wabika (odwróconych) do wejściowej bazy danych. Wyjściem jest plik Fasta. Kliknij tutaj, aby pobrać.
Materiał uzupełniający S2: Galaxy workflow do identyfikacji białek. Pozwoli to zidentyfikować białka z pliku danych spektrometrii mas za pomocą dwóch wyszukiwarek (MS-GF+ i X!Tandem). Każdy parametr można dostosować zgodnie z potrzebami przed uruchomieniem przepływu pracy. Kliknij tutaj, aby pobrać.
Materiał uzupełniający S3: Galaxy workflow do kwantyfikacji białek za pomocą znakowania stabilnymi izotopami (SIL). Pozwoli to na identyfikację i ilościowe określenie białek z pliku danych spektrometrii mas za pomocą dwóch wyszukiwarek (MS-GF+ i X!Tandem). Każdy parametr można dostosować, zgodnie z potrzebami, przed uruchomieniem przepływu pracy. Kliknij tutaj, aby pobrać.
Materiał uzupełniający S4: Plik konfiguracyjny domyślnych parametrów X!Tandem. Ten plik XML jest niezbędny do uruchomienia narzędzia X!TandemAdapter na platformie Galaxy. Kliknij tutaj, aby pobrać.
Materiał uzupełniający S5: Ilościowe określenie białek z zestawów danych iMixPro. Pliki danych z Eyckerman et al. 201638 zostały przetworzone przy użyciu baz danych OpenProt i dla każdego warunku wymieniono ilościowe białka. Przynęty to PTPN14, JIP3, IQGAP1, RAF1 i RNF41. Nazwy genów zaznaczone na zielono odpowiadają białkom zidentyfikowanym również w oryginalnym artykule38. Nazwy genów oznaczone kolorem pomarańczowym odpowiadają znanym interaktorom według BioGrid, które nie zostały zgłoszone w oryginalnej pracy. Nazwy genów oznaczone kolorem jasnoniebieskim odpowiadają nowym białkom zidentyfikowanym jako interaktorskie (odpowiadający im numer dostępu do białka jest podany w nawiasach). Nazwy genów zaznaczone kolorem jasnoszarym i kursywą odpowiadają prawdopodobnym skażeniom (białkom keratyny). Kliknij tutaj, aby pobrać.
Materiał uzupełniający S6: Zidentyfikowano nowe białka ze zbiorów danych iMixPro. Pliki danych z Eyckerman et al. 201638 zostały przetworzone przy użyciu baz danych OpenProt i dla każdego warunku wymieniono nowe zidentyfikowane białka. Przynęty to PTPN14, JIP3, IQGAP1, RAF1 i RNF41. Podane są numery dostępu do białek, począwszy od II_ dla nowych izoform znanego białka oraz dla IP_ dla nowych białek z alternatywnego ORF (AltProt). Liczba peptydów wspomagających jest podana w nawiasach. Kliknij tutaj, aby pobrać.