$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Graficzne przedstawienie pokazujące, na którym etapie regularnego przepływu pracy proteomicznej PoGo18 jest stosowane, a także dalsze opcje wizualizacji, jest pokazane w Rysunek 5. Proteomika typu shotgun (tj. proteolityczne trawienie białek, a następnie chromatografia cieczowa sprzężona z tandemową spektrometrią mas) jest jednym z prekursorskich etapów mapowania proteogenomicznego. Uzyskane tandemowe widma masowe są często porównywane z widmami teoretycznymi pochodzącymi z baz danych sekwencji białek. Badania proteogenomiczne wprowadzają do bazy danych sekwencje translacyjne nowych transkryptów z potencjałem kodowania i niesynonimicznymi wariantami pojedynczych nukleotydów (SNV), co utrudnia łatwe powiązanie ich z referencyjną klasą genome8. Graficzny interfejs użytkownika PoGo (PoGoGUI) obsługuje formaty plików do ustandaryzowanego raportowania identyfikacji peptydów z eksperymentów spektrometrii mas i konwertuje je na uproszczony 4-kolumnowy format pogo. PoGoGUI opakowuje narzędzie wiersza poleceń PoGo i w ten sposób umożliwia mapowanie peptydów na współrzędne genomu, wykorzystując adnotację referencyjną genów kodujących białka powszechnie dostępnych w GTF i przetłumaczonych sekwencjach transkryptów w formacie FASTA. PoGo generuje różne formaty wyjściowe, aby umożliwić wizualizację różnych aspektów peptydów zidentyfikowanych za pomocą spektrometrii mas, w tym modyfikacji potranslacyjnych i kwantyfikacji poziomu peptydów. Pliki wyjściowe w BED mogą być dalej konwertowane i łączone w dostępne online katalogi zwane koncentratorami ścieżek. Pojedyncze pliki wyjściowe, jak również koncentratory ścieżek, mogą być następnie wizualizowane w przeglądarkach, takich jak UCSC Genome Browser25, Ensembl Genome Browser20, IGV24 i Biodalliance28 (zobacz Rysunek 5 na dole).
Zastosowaliśmy PoGo do ponownej analizy szkiców map ludzkiego proteomu przefiltrowanych z dużą istotnością, jak opisano w Wright et al.7 i porównał go z dwoma innymi narzędziami do mapowania proteogenomicznego, a mianowicie iPiG14 i PGx10. Zestaw danych zawierał 233 055 unikalnych peptydów w 59 tkankach dorosłych i płodowych, co dało łącznie ponad 3 miliony sekwencji. PoGo przewyższało te narzędzia zarówno pod względem czasu wykonywania (odpowiednio 6,9 i 96,4 razy szybciej), jak i zużycia pamięci (odpowiednio 20% i 60% mniej pamięci), jak pokazano na Rysunek 618. Przykład pomyślnie zmapowanego peptydu pokazano w Rysunek 7.
Chociaż PoGo znacznie przewyższa inne narzędzia pod względem szybkości i pamięci, jest również zdolne do mapowania modyfikacji potranslacyjnych i informacji ilościowych związanych z peptydami na genomie. Rysunek 8A schematycznie przedstawia wizualizację formatu BED w przeglądarce genomu dla peptydów mapujących do jednego eksonu i przez połączenia splicingowe. PoGo wykorzystuje opcję kolorowania, aby zapewnić łatwą pomoc wizualną w odniesieniu do unikalności mapowania peptydów w genomie. Mapowania na czerwono wskazują na unikalność pojedynczego transkryptu, podczas gdy czarne podświetla mapowanie do pojedynczego genu. Jednak peptyd jest współdzielony przez różne transkrypty. Szare mapowania pokazują peptyd współdzielony przez wiele genów. Są one na przykład mniej wiarygodne w określaniu ilościowym genu lub niewiarygodne, aby nazwać je ekspresją genu. Opcja PTM BED w PoGo na nowo definiuje kod kolorystyczny, aby dostosować go do różnych typów modyfikacji potranslacyjnych, jak pokazano na rysunku Rysunek 8B. Dodatkowo, PTM są oznaczone grubymi blokami (patrz Rysunek 8B). Pojedynczy PTM danego typu jest wyróżniony grubym blokiem w miejscu zmodyfikowanej reszty aminokwasowej, podczas gdy wiele PTM tego samego typu jest połączonych grubym blokiem od pierwszego zmodyfikowanego aminokwasu do ostatniego.
Zastosowaliśmy PoGo, a następnie TrackHubGenerator do zestawu danych 50 linii komórkowych raka jelita grubego, w tym całego proteomu i fosfoproteomu29. Podczas gdy koncentrator śledzenia załadowany w przeglądarce genomu UCSC pokazuje peptydy zmapowane do genomu i podkreśla unikalność mapowań i miejsc fosforylacji (patrz Rysunek 9), dodatkowe dane są dostarczane w folderze uzupełniającym. Pliki GCT umożliwiają następnie wizualizację ilościowego oznaczania peptydów i fosfopeptydów w kontekście genomicznym. Jednak pliki GCT nie zapewniają łatwej wizualizacji peptydów rozciągających się na połączeniach splicingowych (patrz Rysunek 10 na górze). Peptydy w połączeniach splicingowych są dzielone na odpowiednie części, odwzorowując je na eksony. Chociaż możliwa jest identyfikacja peptydów splicingowych za pomocą tych samych wartości ilościowych mapowań eksonów, ładowanie plików mapowania opartych na sekwencji, takich jak BED lub GTF, które łączą eksony cienką linią rozpiętą intronami, wspiera interpretację (patrz Rysunek 10 na dole).
Aby podkreślić użyteczność mapowania z włączoną obsługą wariantów, zastosowaliśmy PoGo w dwóch konfiguracjach do zestawu danych ludzkiego proteomu jądra przeszukanego w neXtProt w celu poszukiwania brakujących białek przy użyciu strategii wieloenzymatycznej22. neXtProt składa się oprócz referencyjnych sekwencji białkowych z ponad 5 milionami wariantów pojedynczych aminokwasów30. Mapowanie peptydów zidentyfikowanych za pomocą pojedynczego wariantu aminokwasu nie jest obsługiwane przez inne narzędzia do mapowania. Zidentyfikowano łącznie 177 012 unikalnych peptydów. Spośród nich 99,8% (176 694) peptydów zostało najpierw pomyślnie zmapowanych bez dopuszczenia do niezgodności. Usunięcie ich ze zidentyfikowanej listy peptydów spowodowało powstanie 0,2% (318) peptydów, które następnie zostały zmapowane, co pozwoliło na substytucję jednego aminokwasu. W ten sposób uzyskano 3446 mapowań 162 peptydów, które nie zostałyby zmapowane do genomu referencyjnego za pomocą żadnego innego dostępnego narzędzia. Podczas gdy średnia liczba mapowań zawierających niedopasowanie jest wysoka, 62 peptydy zmapowano tylko do jednego locus, co wskazuje na prawdziwe sekwencje wariantów. Przykład peptydu zmapowanego z podstawieniem pojedynczego aminokwasu jest wyróżniony jego sekwencją i translowaną sekwencją genomową w Rysunek 11.

Rysunek 1. Wizualne porównanie różnych narzędzi do mapowania peptydów i genomów. Porównanie jest pokazane w odniesieniu do różnych aspektów. Aspekty te obejmują odniesienie do mapowania, poziom integracji z frameworkami oraz obsługę przeglądarek online i offline. Ponadto osobno omówiono nowatorskie aspekty proteogenomiki i jej obsługę funkcji. PoGo nie ma tylko możliwości bezpośredniego mapowania do sekwencji genomu w porównaniu z innymi narzędziami. Obsługuje jednak wszystkie nowatorskie funkcje, których większość innych narzędzi nie obsługuje. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2. Przykładowy plik wejściowy do mapowania peptydów. PoGo akceptuje dane wejściowe w formacie rozdzielanym tabulatorami z 4 kolumnami. Nagłówki kolumn w pierwszym wierszu to odpowiednio "Eksperyment", "Peptyd", "PSM" i "Quant", wskazując w kolejnych wierszach odpowiednio identyfikator eksperymentu lub próbki, sekwencję peptydów, liczbę dopasowań widma peptydów oraz wartość ilościową peptydu. Obsługiwane rozszerzenia nazw plików to *.txt, *.tsv i *.pogo. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3. Interfejs PoGoGUI z wyróżnionymi krokami wyboru plików i opcji parametrów. Rysunek przedstawia etapy wyboru i przesyłania wszystkich wymaganych plików oraz wybór opcji mapowania peptydów z modyfikacjami potranslacyjnymi na ludzki genom referencyjny. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4. Zrzut ekranu przedstawiający procedurę przesyłania danych Integrative Genomics Viewer (IGV). Rysunek przedstawia kroki przesyłania plików wyjściowych PoGo w przeglądarce IGV. Ponadto pokazuje opcję rozszerzenia ścieżki zmapowanych peptydów w celu podkreślenia mapowania i sekwencji. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5. Uproszczony przepływ pracy kroków od LC-MS/MS do wizualizacji w przeglądarkach genomu. Mapowanie PoGo następuje po identyfikacji peptydów z tandemowych widm masowych. Aby osiągnąć mapowanie genomu, PoGo wykorzystuje adnotację referencyjną dostarczoną jako adnotacja genomu (GTF) i sekwencje translacji transkryptu (FASTA). Generowane są różne formaty wyjściowe, które można ładować oddzielnie w przeglądarkach genomu. Dodatkowo pliki w formacie BED mogą być łączone w huby ścieżek obsługujące wizualizację zbiorów danych na dużą skalę. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 6. Benchmarking PoGo z PGx i iPiG. PoGo przewyższa inne narzędzia w testach porównawczych. Mapując 233 055 unikalnych peptydów w 59 tkankach dorosłych i płodowych, co dało ponad 3 miliony sekwencji, PoGo było odpowiednio 6,9 i 96,4 razy szybsze niż PGx i iPiG. Co więcej, PoGo wymagało o 20% i 60% mniej pamięci w porównaniu odpowiednio z PGx i iPiG. Podczas gdy PoGo i PGx zakończyły się pomyślnie, iPiG spowodował błąd pamięci przy 16 GB. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 7. Przeglądarka UCSC Genome przykładowy widok zmapowanych peptydów. Rysunek przedstawia peptydy zmapowane do genu mTOR. Podczas gdy połączona ścieżka pokazuje peptydy rozciągające się na połączeniach splicingowych i mapujące tylko do jednego eksonu z powiązanymi sekwencjami, ścieżki specyficzne dla tkanek podkreślają mapowanie tylko w skondensowanym formacie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 8. Schemat mapowania, wizualizacji i kodowania kolorami. (A) W standardowym pliku wyjściowym BED peptydy odwzorowujące na ekson są pokazane jako pojedyncze bloki (po lewej), podczas gdy peptydy mapujące przez wiele eksonów podkreślają części pokrywające ekson jako bloki (po prawej). Introny są pokazane jako cienkie linie łączące. PoGo koduje kolorami unikalność mapowania lub peptydów do genów i transkryptów przy użyciu systemu 3-poziomowego. (B) Oprócz struktury blokowej formatu BED, dane wyjściowe PTM BED podkreślają pozycję modyfikacji potranslacyjnych w postaci grubych bloków. Obecność pojedynczego PTM danego typu podkreśla zmodyfikowaną resztę aminokwasową za pomocą grubego bloku, podczas gdy wiele miejsc tego samego PTM jest łączonych w długie bloki rozciągające się od pierwszego do ostatniego miejsca modyfikacji. Mapowania peptydów są dalej dzielone według typu PTM i kodeka kolorów w oparciu o modyfikację. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 9. Śledź widok centrum w przeglądarce genomu UCSC danych dotyczących proteomu i fosfoproteomu raka jelita grubego. Węzeł śledzenia zawiera całe dane dotyczące proteomu, a także fosfoproteomu. Podczas gdy czerwony kolor na ścieżkach proteomu i fosfoproteomu wskazuje na unikalność mapowania do pojedynczego transkryptu SFN, ścieżki kończące się na _ptm pokazują miejsca fosforylacji w peptydach. Tutaj kolor czerwony wskazuje na rodzaj modyfikacji jako fosforylację. Zidentyfikowano tylko dwa peptydy, z których każdy wykazuje pojedynczą fosforylację (grube bloki). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 10. Widok fosfopeptydów raka jelita grubego i związana z nimi ocena ilościowa w IGV. Rysunek przedstawia podzbiór 50 linii komórek rakowych. Widać na nim ponadto cztery kolumny bloków w różnych odcieniach jasnej czerwieni. Kolor wskazuje względną obfitość od niskiej (biały) do wysokiej (czerwony). Podczas gdy cztery kolumny mogą początkowo prowadzić do przekonania, że istnieją 4 peptydy, staje się jasne dzięki powiązanemu plikowi wyjściowemu GTF opartemu na sekwencji, że są to w rzeczywistości dwa peptydy, z których każdy obejmuje złącze splicingowe. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 11. Widok peptydu z wariantem aminokwasowym w IGV. Rysunek przedstawia peptyd z pojedynczym wariantem aminokwasu zmapowanym do genomu referencyjnego na początku translacji genu GPSM1. Wariant jest umieszczony na reszcie aminokwasowej 8 i powoduje podstawienie alaniny do waliny (A→V). Sekwencje translacyjne transkryptów z adnotacjami (niebieskie) podkreślają wariant w porównaniu z sekwencją peptydową. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.