Szybka i ilościowa metoda modyfikacji potranslacyjnej i wariantów umożliwiła mapowanie peptydów do genomów

Christoph N. Schlaffner; Georg J. Pirklbauer; Andreas Bender; Judith A.J. Steen; Jyoti S. Choudhary

doi:10.3791/57633

Method Article

Szybka i ilościowa metoda modyfikacji potranslacyjnej i wariantów umożliwiła mapowanie peptydów do genomów

DOI:

10.3791/57633

⸱

May 22nd, 2018

Christoph N. Schlaffner¹^,²^,³ , Georg J. Pirklbauer² , Andreas Bender³ , Judith A.J. Steen¹ , Jyoti S. Choudhary²^,⁴

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Tutaj prezentujemy narzędzie proteogenomiczne PoGo i protokoły do szybkiej, ilościowej, potranslacyjnej modyfikacji i umożliwionego mapowania wariantów peptydów zidentyfikowanych za pomocą spektrometrii mas na genomy referencyjne. To narzędzie jest przydatne do integracji i wizualizacji proteogenomicznych i osobistych badań proteomicznych w połączeniu z ortogonalnymi danymi genomicznymi.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wzajemne oddziaływanie między genami, transkryptami i białkami jest kluczem do odpowiedzi komórkowych; stąd analiza poziomów molekularnych jako odrębnych jednostek jest powoli rozszerzana na badania integracyjne, aby zwiększyć zrozumienie dynamiki molekularnej w komórkach. Obecne narzędzia do wizualizacji i integracji proteomiki z innymi zbiorami danych omicznych są nieodpowiednie do badań na dużą skalę. Co więcej, rejestrują tylko podstawową identyfikację sekwencji, odrzucając modyfikacje potranslacyjne i ocenę ilościową. Aby rozwiązać te problemy, opracowaliśmy PoGo do mapowania peptydów z powiązanymi modyfikacjami potranslacyjnymi i kwantyfikacją w celu odniesienia adnotacji genomu. Ponadto narzędzie zostało opracowane, aby umożliwić mapowanie peptydów zidentyfikowanych na podstawie niestandardowych baz danych sekwencji zawierających warianty pojedynczych aminokwasów. Podczas gdy PoGo jest narzędziem wiersza poleceń, interfejs graficzny PoGoGUI umożliwia badaczom niezajmującym się bioinformatyką łatwe mapowanie peptydów do 25 gatunków obsługiwanych przez adnotację genomu Ensembl. Wygenerowane dane wyjściowe zapożyczają formaty plików z dziedziny genomiki, dlatego wizualizacja jest obsługiwana w większości przeglądarek genomu. W przypadku badań na dużą skalę, PoGo jest wspierane przez TrackHubGenerator w celu tworzenia dostępnych w Internecie repozytoriów danych zmapowanych do genomów, które umożliwiają również łatwe udostępnianie danych proteogenomicznych. Przy niewielkim wysiłku narzędzie to może w ciągu zaledwie kilku minut zmapować miliony peptydów w celu odniesienia do genomów referencyjnych, przewyższając inne dostępne narzędzia oparte na tożsamości sekwencji. Protokół ten demonstruje najlepsze podejścia do mapowania proteogenomiki za pomocą PoGo z publicznie dostępnymi zestawami danych ilościowych i fosfoproteomicznych, a także badaniami na dużą skalę.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W komórkach genom, transkryptom i proteom wpływają na siebie nawzajem, modulując reakcję na bodźce wewnętrzne i zewnętrzne oraz współdziałając ze sobą, aby wykonywać określone funkcje prowadzące do zdrowia i choroby. Dlatego charakterystyka i kwantyfikacja genów, transkryptów i białek ma kluczowe znaczenie dla pełnego zrozumienia procesów komórkowych. Sekwencjonowanie nowej generacji (NGS) jest jedną z najczęściej stosowanych strategii identyfikacji i ilościowego określania ekspresji genów i transkryptów. Jednak ekspresja białek jest powszechnie oceniana za pomocą spektrometrii mas (MS). Znaczący postęp w technologii SM w ciągu ostatniej dekady umożliwił bardziej kompletną identyfikację i kwantyfikację proteomów, dzięki czemu dane są porównywalne z transkryptomiką¹. Proteogenomika i multiomika jako sposoby integracji danych NGS i MS stały się potężnymi podejściami do oceny procesów komórkowych na wielu poziomach molekularnych, identyfikując podtypy raka i prowadząc do nowych potencjalnych celów leków w raku²^,³. Należy zauważyć, że proteogenomika była początkowo używana do dostarczania dowodów proteomicznych dla adnotacji genów i transkryptów⁴. Kilka genów, które wcześniej uważano za niekodujące, zostało niedawno poddanych ponownej ocenie, biorąc pod uwagę duże zbiory danych o tkankach ludzkich⁵^,⁶^,⁷. Ponadto dane proteomiczne są z powodzeniem wykorzystywane do wspierania działań adnotacyjnych w organizmach niemodelowych⁸^,⁹. Integracja danych proteogenomicznych może być jednak dalej wykorzystywana do podkreślenia ekspresji białek w odniesieniu do cech genomowych i wyjaśnienia wzajemnych oddziaływań między transkryptami a białkami poprzez zapewnienie połączonego systemu referencyjnego i metod wspólnej wizualizacji.

W celu zapewnienia wspólnego punktu odniesienia dla danych proteomicznych, transkryptomicznych i genomicznych, zaimplementowano liczne narzędzia do mapowania peptydów zidentyfikowanych przez MS na współrzędne genomu¹⁰^,¹¹^,¹²^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. Podejścia różnią się takimi aspektami, jak odniesienie do mapowania, obsługa przeglądarek genomu i stopień integracji z innymi narzędziami proteomicznymi, jak pokazano na Rysunek 1. Podczas gdy niektóre narzędzia mapują peptydy poddane odwrotnej translacji na genome¹⁶, inne używają adnotacji w wyszukiwarce w adnotacji białka i genu, aby zrekonstruować sekwencję nukleotydów peptide¹⁵. Jeszcze inni używają 3- lub 6-ramkowej translacji genomu do mapowania peptydów przeciwko¹¹^,¹³. Wreszcie, kilka narzędzi pomija sekwencje nukleotydowe i wykorzystuje translacje sekwencji aminokwasów z transkryptów zmapowanych sekwencjonowaniem RNA jako produkt pośredni do mapowania peptydów do powiązanych współrzędnych genomu¹⁰^,¹²^,¹⁴^,¹⁷. Jednak translacja sekwencji nukleotydowych jest powolnym procesem, a niestandardowe bazy danych są podatne na błędy, które propagują się do mapowania peptydów. W przypadku szybkiego mapowania o wysokiej przepustowości kluczowe znaczenie ma małe i kompleksowe odniesienie. Dlatego standaryzowane odniesienie do białka z powiązanymi współrzędnymi genomu jest niezbędne do dokładnego mapowania peptydu do genomu. Nowatorskie aspekty proteogenomiki, takie jak włączanie wariantów i modyfikacji potranslacyjnych (PTM)²^,³, nabierają rozpędu dzięki najnowszym badaniom. Jednak na ogół nie są one obsługiwane przez obecne narzędzia do mapowania proteogenomicznego, jak pokazano na Rysunek 1. Aby poprawić szybkość i jakość mapowania, opracowano PoGo, narzędzie, które umożliwia szybkie i ilościowe mapowanie peptydów do genomów¹⁸. Ponadto PoGo umożliwia mapowanie peptydów z maksymalnie dwoma wariantami sekwencji i adnotowanymi modyfikacjami potranslacyjnymi.

PoGo zostało opracowane, aby poradzić sobie z szybkim wzrostem ilościowych zestawów danych o wysokiej rozdzielczości, rejestrujących proteomy i globalne modyfikacje, i stanowi centralne narzędzie do analiz na dużą skalę, takich jak zmienność osobista i medycyna precyzyjna. W artykule opisano zastosowanie tego narzędzia do wizualizacji obecności modyfikacji potranslacyjnej w odniesieniu do cech genomowych. Ponadto w artykule tym zwrócono uwagę na identyfikację alternatywnych zdarzeń splicingu za pomocą zmapowanych peptydów oraz mapowanie peptydów zidentyfikowanych za pomocą niestandardowych baz danych wariantów do genomu referencyjnego. Protokół ten wykorzystuje publicznie dostępne zestawy danych pobrane z archiwum PRIDE¹⁹ w celu zademonstrowania tych funkcji PoGo. Ponadto protokół ten opisuje zastosowanie TrackHubGenerator do tworzenia dostępnych online węzłów peptydów zmapowanych do genomów do badań proteogenomicznych na dużą skalę.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Przygotowanie, pobieranie i konfiguracja

UWAGA: Przykłady ścieżek do plików i folderów są pokazane w formacie Windows dla łatwego dostępu dla standardowych użytkowników. PoGo i PoGoGUI są również dostępne dla systemów operacyjnych macOS i Linux.

Pobierz PoGo i PoGoGUI z GitHub
1. Otwórz przeglądarkę internetową i przejdź do PoGo na GitHub (http://github.com/cschlaffner/PoGo/). Wybierz pozycję Wydania i pobierz najnowszy skompresowany plik zip w wersji. Wyodrębnij skompresowany plik do folderu plików wykonywalnych (np. C:\PoGo\executables\).
2. Przejdź w przeglądarce internetowej do PoGoGUI na GitHub (http://github.com/cschlaffner/PoGoGUI/). Wybierz pozycję Wydania i pobierz najnowszy plik jar wydania (np. "PoGoGUI-v1.0.2.jar"). Zapisz plik jar w folderze plików wykonywalnych.
Pobierz adnotację genomu i przetłumaczone sekwencje kodujące białka
UWAGA: Pobierz adnotację genomu i przetłumaczone sekwencje kodujące białka dla obsługiwanych gatunków z GENCODE⁷ (www.gencodegenes.org) lub Ensembl²⁰ (www.ensembl.org) w formacie General Transfer Format (GTF) oraz sekwencje białek w formacie FASTA.
1. W przeglądarce internetowej przejdź do www.gencodegenes.org i wybierz Dane | Człowiek | Bieżąca wersja. Pobierz kompleksową adnotację genu za pomocą linku GTF i rozpakuj skompresowany plik gz do folderu danych (np. C:\PoGo\Data\) za pomocą programu do rozpakowywania (np. 7-Zip).
2. Pobierz sekwencje translacji transkryptu kodującego białko za pośrednictwem łącza FASTA i rozpakuj skompresowany plik gz do folderu danych wygenerowanego w poprzednim kroku.
  1. Możesz też przejść w przeglądarce internetowej do www.ensembl.org i wybrać Pobrane, a następnie Pobierz dane przez FTP. Znajdź obsługiwany gatunek (np. Człowiek). Pobierz najnowszy plik wersji do adnotacji transkrypcji, korzystając z linku GTF w kolumnie Zestaw genów. Wybierz plik ze strukturą nazw "species.release.gtf.gz" i rozpakuj plik skompresowany gz do folderu danych.
3. Pobierz najnowszą wersję sekwencji translacji transkryptu kodującego białka, korzystając z linku FASTA w kolumnie Sekwencja białka (FASTA). Wybierz plik o strukturze nazw "species.release.pep.all.fa.gz" i rozpakuj plik skompresowany gz do folderu danych.
Przygotuj pliki identyfikacyjne peptydów
UWAGA: PoGo obsługuje tylko format 4-kolumnowy zawierający identyfikator próbki, sekwencję peptydów, liczbę dopasowań widma peptydów (PSM) i wartość ilościową. Jednak PoGoGUI obsługuje standardowe formaty plików identyfikacyjnych mzIdentML, mzid i mzTab i konwertuje je na 4-kolumnowy format PoGo przy użyciu publicznie dostępnego frameworka ms-data-core-api²¹. Pliki w formacie mzIdentML, mzid lub mzTab można pobrać z PRIDE archive¹⁹. Alternatywnie dane mogą być dostarczane w formacie pliku rozdzielanego tabulatorami z rozszerzeniem .tsv lub .pogo. Format zawiera 4 kolumny z następującymi nagłówkami kolumn: identyfikator próbki (próbka), sekwencje peptydowe (peptyd), liczba dopasowań widma peptydów (PSM) i kwantyfikacja peptydów (Quant). Przykład pokazano na rysunku 2.
1. Pobierz przykładowy plik w formacie mzTab z badania proteomicznego na ludzkich jądrach z archiwum PRIDE¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²).
2. Zapisz i rozpakuj skompresowany plik gz do folderu danych utworzonego w kroku 1.2.1.
  UWAGA: Alternatywnie, pobierz przykładowe dane dla ludzkiej fosfoproteomiki przeszukanej za pomocą MaxQuant z archiwum PRIDE (plik "Traktman_2013_MaxQuantOutput-full.zip" z https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³).
3. Zapisz i rozpakuj skompresowany plik zip w folderze danych, który został utworzony w kroku 1.2.1.
4. Otwórz pusty arkusz kalkulacyjny i zaimportuj plik peptides.txt z folderu C:/PoGo/Data/Traktman_2013_MaxQuantOutput-full/combined/txt/ za pomocą opcji Dane | Z tekstu/CSV. W oknie otwierającym kliknij przycisk Edytuj.
5. Usuń wszystkie kolumny z wyjątkiem "Sekwencja", "Eksperyment BR1", "Eksperyment BR2", "Eksperyment BR3", "Stosunek H/L znormalizowany BR1", "Stosunek H/L znormalizowany BR2" i "Stosunek H/L znormalizowany BR3".
6. Zaznacz kolumny "Stosunek H/L znormalizowany BR1", "Stosunek H/L znormalizowany BR2" i "Stosunek H/L znormalizowany BR3" i kliknij Przekształć | Cofanie przestawiania kolumn. Zaznacz kolumny "Eksperyment BR1", "Eksperyment BR2" i "Eksperyment BR3" i powtórz operację cofania obrotu.
7. Wybierz wynikową kolumnę "Atrybut" i podziel zawartość za pomocą Przekształć | Podziel kolumnę | Według ogranicznika. Wybierz spację jako ogranicznik z menu rozwijanego. Powtórz operację dla kolumny "Atrybut.1".
8. Usuń wynikowe kolumny "Atrybut.1.1", "Atrybut.2", "Atrybut.3" i "Atrybut.1.1.1".
9. Dodawanie kolumny przy użyciu przycisku Dodaj kolumnę | Opcja Kolumna niestandardowa. Dostosuj formułę kolumny niestandardowej, aby reprezentowała następujące elementy: "=[Atrybut.4]=[Atrybut.1.2]".
10. Zastosuj filtr do wygenerowanej kolumny niestandardowej, aby odfiltrować wszystkie wiersze zawierające wartość "FALSE"; pozostaną tylko wiersze zawierające wartość "TRUE".
11. Usuń kolumny "Atrybut.1.2" i "Niestandardowy" i zmień kolejność pozostałych kolumn na następującą: "Atrybut.4", "Sekwencja", "Wartość.1" i "Wartość".
12. Zmień nazwy kolumn odpowiednio na "Eksperyment", "Peptyd", "PSM" i "Quant". Załaduj plik za pomocą narzędzia Home | Zamknij i załaduj.
13. Zapisz plik jako plik rozdzielany tabulatorami za pomocą punktu menu Plik | Zapisz jako i wybierz typ "Tekst (rozdzielany tabulatorami) (*.txt)". Zmień nazwę na "peptides_pogo.txt" i zapisz ją w folderze C:/PoGo/Data.

2. Mapowanie peptydów z adnotacjami Modyfikacje potranslacyjne i wizualizacja, w tym kwantyfikacja

UWAGA: Wynikowy plik wyjściowy może być załadowany do dowolnej przeglądarki genomu obsługującej format Browser Extensible Data (BED). Wybrane przeglądarki to Integrative Genome Browser (IGV)²⁴ (który jest używany w poniższym opisie), UCSC Genome Browser²⁵ oraz Ensembl Genome Browser²⁰. Ważne jest, aby pamiętać, że adnotacja GTF i wersje białka FASTA używane do mapowania PoGo są zgodne z wersją genomu w przeglądarce genomu. W przypadku ludzkich wydań Ensembl 57-75 i wersji GENCODE 3d-19 użyj GRCh37/hg19; w przypadku wersji Ensembl 76 lub nowszej i GENCODE 20 lub nowszej użyj GRCh38/hg38. W przypadku myszy Ensembl w wersji 74 lub nowszej i GENCODE M2 lub nowszej użyj GRCm38.

Mapowanie peptydów za pomocą PoGoGUI (patrz rysunek 3).
1. Przejdź do folderu plików wykonywalnych. Uruchom program, klikając dwukrotnie ikonę PoGoGUI-vX.X.X.jar.
  UWAGA: Zostanie uruchomiony graficzny interfejs użytkownika, który umożliwi łatwy i wizualny wybór opcji.
2. Użyj przycisku Select obok "PoGo Executable". Następnie przejdź do folderu plików wykonywalnych do odpowiedniego podfolderu systemów operacyjnych (np. C:\PoGo\Executables\Windows\). Wybierz plik wykonywalny PoGo (np. PoGo.exe) i potwierdź jego wybór, klikając przycisk Otwórz.
3. Wybierz referencyjny plik wejściowy dla sekwencji białek, klikając przycisk Wybierz. Przejdź do folderu z danymi i wybierz plik tłumaczenia FASTA. Potwierdź jego wybór, klikając przycisk Otwórz.
4. Wybierz plik adnotacji transkrypcji za pomocą przycisku Wybierz. Przejdź do folderu danych i wybierz plik GTF adnotacji. Potwierdź wybór, klikając przycisk Otwórz.
5. Dodaj plik identyfikacyjny peptydów — włączony jest wybór wielu plików — za pomocą przycisku Dodaj obok pozycji "Pliki peptydów". Wybierz plik w obsługiwanym formacie mzTab, mzIdentML lub mzid albo w formacie 4-kolumnowym rozdzielanym tabulatorami, pobranym i przygotowanym w kroku 1.3.
6. Usuń zaznaczenie pól wyboru obok BED i GTF w wyborze formatów wyjściowych. Pozostaw zaznaczone tylko PTM BED i GCT.
7. Wybierz odpowiedni gatunek dla danych z listy rozwijanej. Istotne jest, aby plik FASTA, plik GTF i wybór rozwijany dotyczyły tego samego gatunku.
8. Rozpocznij mapowanie, klikając przycisk START.
  UWAGA: W razie potrzeby PoGoGUI przekonwertuje plik wejściowy do formatu pogo, dostarczy pliki pogo w tym samym folderze dla wygody w przyszłości i rozpocznie proces mapowania. Konwersja pojedynczego pliku mzTab pobranego w kroku 1.3.1 potrwa od 10 do 20 minut przed rozpoczęciem mapowania.
Wizualizacja w przeglądarce genomiki integracyjnej
UWAGA: Patrz rysunek 4.
1. Załaduj plik wyjściowy PoGo kończący się na "_ptm.bed" w IGV za pomocą Plik | Załaduj z pliku i wybierz plik.
  UWAGA: Ze względu na rozmiar, niektóre pliki mogą wymagać wygenerowania indeksu, aby umożliwić szybkie ponowne załadowanie regionów genomu. IGV automatycznie poprosi użytkownika o wygenerowanie. Postępuj zgodnie ze wskazanymi instrukcjami.
2. Powtórz krok ładowania pliku kończącego się na "_noptm.bed". Ten plik zawiera wszystkie peptydy znalezione bez żadnych modyfikacji.
3. Zwróć uwagę, że każdy załadowany plik będzie wyświetlany jako osobne ścieżki z nazwą pliku identyfikującą ścieżkę. Zmień kolejność ścieżek, przeciągając je i upuszczając w żądane miejsce na liście.
4. Zwróć uwagę, że każda ścieżka jest początkowo wyświetlana w sposób zwinięty. Aby je rozwinąć, kliknij prawym przyciskiem myszy nazwę ścieżki i wybierz opcję Rozwinięte, aby uzyskać pełny widok peptydów, w tym sekwencji, lub zgniecione, aby uzyskać widok stosowy.
5. Powtórz krok ładowania dla pliku kończącego się na ".gct". Plik ten zawiera ocenę ilościową peptydów dla próbki z adnotacjami.
6. W przeciwieństwie do plików załadowanych powyżej, każda próbka z adnotacjami zostanie załadowana jako osobna ścieżka. Reorganizacja próbek za pomocą operacji przeciągnij i upuść.
7. Poruszaj się po genomie, wybierając chromosom z menu rozwijanego, wpisz współrzędne genomowe, wyszukaj symbol genu lub kliknij i przytrzymaj, aby wybrać sekcję chromosomu do powiększenia.

3. Mapowanie peptydów zidentyfikowanych za pomocą niestandardowej bazy danych wariantów do genomu referencyjnego

UWAGA: Mapowanie PoGo może być przeprowadzone za pomocą graficznego interfejsu użytkownika (GUI) lub za pomocą interfejsu wiersza poleceń. Są wymienne. W tej części protokołu interfejs wiersza poleceń służy do podkreślenia wymienności. Druga część tej sekcji protokołu wymaga narzędzia programowego R²⁶. Upewnij się, że pakiet jest zainstalowany.

Mapuj peptydy referencyjne do genomu referencyjnego.
1. Otwórz wiersz polecenia (cmd) i przejdź do folderu plików wykonywalnych PoGo (np. C:\PoGo\Executables\).
2. Wpisz poniższe polecenie:
  PoGo.exe -gtf \ŚCIEŻKA\DO\GTF -fasta \ŚCIEŻKA\DO\FASTA -in \ŚCIEŻKA\DO\IN -format BED -gatunek MÓJGATUNEK
  1. Zastąp \PATH\TO\GTF, \PATH\TO\FASTA i \PATH\TO\IN odpowiednio ścieżkami do adnotacji GTF, sekwencji białka FASTA i pliku identyfikacji peptydów (w formacie 4-kolumnowym z plikiem kończącym się ".tsv" lub ".pogo"). Zastąp również MYSPECIES gatunkiem zgodnym z danymi (np. Człowiek).
3. Potwierdź wykonanie, naciskając "Enter". Poczekaj, aż wykonanie zostanie zakończone, zanim przejdziesz dalej.
  UWAGA: Może to potrwać kilka minut. Plik wynikowy będzie przechowywany w tym samym folderze, co plik wejściowy peptydu i będzie traktowany jako \PATH\TO\OUT.pogo.bed w dalszej części.
Wyodrębnij tylko peptydy wariantowe z pliku wejściowego.
1. Otwórz R i załaduj plik wejściowy \PATH\TO\IN za pomocą następującego polecenia:
  inputdata <- read.table("ŚCIEŻKA/DO/W",header=PRAWDA,sep="\t")
2. Załaduj już zmapowane peptydy za pomocą polecenia:
  mappedpeptides <- read.table("ŚCIEŻKA/DO/WYJŚCIA.pogo.bed",sep="\t",header=FALSE)
3. Usuń peptydy, które zostały już zmapowane z danych wejściowych:
  peptydy, notmapowane <- dane wejściowe[!( inputdata$Peptide %in% mappedpeptides$V4),]
4. Wydrukuj niezmapowane peptydy do nowego pliku wejściowego:
  write.table(peptidesnotmapped, "PATH\TO\IN.notmapped.pogo", header=FALSE, sep="\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
Zmapuj pozostałe peptydy do genomu referencyjnego, co pozwala na niezgodności.
1. Podobnie jak w kroku 3.1, otwórz wiersz polecenia i przejdź do folderu plików wykonywalnych PoGo.
2. Wpisz poniższe polecenie, zezwalając na niezgodność 1 aminokwasu i zastąp \PATH\TO\GTF, \PATH\TO\FASTA i \PATH\TO\IN.notmapped.pogo ścieżkami do adnotacji GTF, sekwencji białka FASTA i pliku identyfikacji peptydu utworzonego w kroku 3.2. Zastąp również MYSPECIES gatunkiem zgodnym z danymi (np. Człowiek).
  1. PoGo.exe -gtf \ŚCIEŻKA\DO\GTF -fasta \ŚCIEŻKA\DO\FASTA -in \ŚCIEŻKA\DO\IN -format BED -gatunek MÓJGATUNEK -mm 1
3. Potwierdź wykonanie polecenia, naciskając "Enter". Poczekaj, aż wykonanie zostanie zakończone, zanim przejdziesz dalej.
  UWAGA: Może to potrwać kilka minut. Wynikowy plik będzie przechowywany w tym samym folderze, co plik wejściowy peptydu i będzie traktowany jako \PATH\TO\OUT.pogo_1MM.bed w dalszej części.
Wizualizuj peptydy zmapowane bez i z niezgodnością w IGV, jak opisano w kroku 2.2.

4. Mapowanie przy użyciu wielu plików i generowanie węzłów ścieżek dla dużych zbiorów danych

Mapowanie peptydów z wielu plików za pomocą PoGoGUI
1. Przejdź do folderu plików wykonywalnych i uruchom graficzny interfejs użytkownika, uruchamiając PoGoGUI-vX.X.X.jar.
2. Wybierz plik wykonywalny PoGo dla używanego systemu operacyjnego (tutaj Linux), a także plik FASTA z referencyjnymi sekwencjami wejściowymi białek i plik GTF z adnotacją, zgodnie z opisem w krokach protokołu 2.1.2 - 2.1.4.
3. Dodaj pliki identyfikacyjne peptydów za pomocą przycisku Dodaj obok "Pliki peptydów"; włączony jest wybór wielu plików, a także przeciągnij i upuść do pustego pola pod "Plikami peptydowymi".
4. Odznacz pola wyboru obok PTM BED, GTF i GCT w sekcji formatów wyjściowych i pozostaw zaznaczone tylko BED.
5. Wybierz opcję Scal wiele plików wejściowych w jedno wyjście.
  UWAGA: Spowoduje to powstanie pojedynczego pliku wyjściowego łączącego wszystkie peptydy plików wejściowych. Pozostawienie tej opcji niezaznaczonej spowoduje sekwencyjne wykonanie programu dla każdego pliku wejściowego z osobna.
6. Wybierz odpowiednie gatunki dla danych z listy rozwijanej zgodnej z plikami FASTA i GTF.
7. Rozpocznij mapowanie, klikając przycisk START. W razie potrzeby program przekonwertuje pliki wejściowe do formatu pogo. Może to zająć trochę czasu. W międzyczasie pobierz wymagane narzędzia i skrypty do generowania koncentratora ścieżek.
Przygotowanie do generowania węzła torów
1. Otwórz przeglądarkę internetową, przejdź do https://github.com/cschlaffner/TrackHubGenerator i pobierz plik "TrackHubGenerator.pl". Zapisz plik w folderze plików wykonywalnych.
2. W przeglądarce internetowej przejdź do www.hgdownload.soe.ucsc.edu/admin/exe/ i wybierz folder dla używanego systemu operacyjnego (tutaj Linux). Pobierz narzędzie bedToBigBed i skrypt fetchChromSizes do folderu plików wykonywalnych²⁷.
Generowanie węzła ścieżek z mapowanych peptydów
UWAGA: Po zakończeniu mapowania peptydów przez PoGoGUI, może zostać automatycznie wygenerowany hub ścieżek dla wszystkich wynikowych plików w formacie BED przechowywanych w tym samym folderze.
1. Otwórz okno terminala i wpisz następujące polecenie:
  Perl TrackHubGenerator.pl ŚCIEŻKA/DO/NAZWA ZESTAW FBED UCSC E-MAIL
  1. Zastąp PATH/TO/NAME ścieżką pliku i nazwą węzła ścieżki (np. ~/PoGo/Data/Mytrackhub), ASSEMBLY zestawem genomu, na którym oparta jest adnotacja (np. hg38 dla człowieka), FBED ścieżką do folderu zawierającego pliki BED, na których będzie oparty węzeł ścieżki (np. ~/PoGo/Data/), UCSC folderem, w którym przechowywane są narzędzia pobrane z UCSC (np., ~/PoGo/Executables/) i EMAIL z adresem e-mail osoby odpowiedzialnej za hub ścieżek.
2. Potwierdź wykonanie, naciskając "Enter"; wykonanie zajmie tylko krótki czas.
3. Przenieś wygenerowany hub ścieżek (tj. utworzony folder ~/PoGo/Data/Mytrackhub/) wraz z całą jego zawartością na dostępny w sieci serwer FTP.
  UWAGA: Preferowany jest serwer FTP z powiązanym serwerem WWW umożliwiającym dostęp do koncentratora ścieżek za pośrednictwem protokołów ftp i http. Repozytoria github (github.com) i figshare (figshare.com) obsługują ten typ dostępu i mogą być używane zamiast serwera FTP.
Wizualizacja węzła ścieżek w przeglądarce genomu UCSC
1. W przeglądarce internetowej przejdź do https://genome.ucsc.edu/ i wybierz MyData | Węzły ścieżek. Kliknij zakładkę Moje centra.
2. Skopiuj adres URL do centrum ścieżek w polu tekstowym.
  UWAGA: Adres URL składa się z adresu serwera, lokalizacji i nazwy koncentratora śledzenia oraz pliku hub.txt (np. http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt).
3. Załaduj węzeł ścieżek, klikając przycisk Dodaj centrum.
  UWAGA: Hub zostanie załadowany i pojawi się krótki komunikat zawierający szczegółowe informacje o węźle ścieżek, takie jak jego nazwa, dane kontaktowe osoby odpowiedzialnej za węzeł ścieżek oraz używany zestaw genomu. Witryna powróci na stronę główną.
4. Wybierz GenomeBrowser, aby przejść do widoku przeglądarki.
  UWAGA: Niestandardowy hub ścieżek zostanie wyświetlony na górze listy. Jeśli wiele plików BED zbudowało podstawę dla koncentratora ścieżek, każdy z plików będzie reprezentowany jako oddzielna ścieżka w centrum.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Graficzne przedstawienie pokazujące, na którym etapie regularnego przepływu pracy proteomicznej PoGo¹⁸ jest stosowane, a także dalsze opcje wizualizacji, jest pokazane w Rysunek 5. Proteomika typu shotgun (tj. proteolityczne trawienie białek, a następnie chromatografia cieczowa sprzężona z tandemową spektrometrią mas) jest jednym z prekursorskich etapów mapowania proteogenomicznego. Uzyskane tandemowe widma masowe są często porównywane z widmami teoretycznymi pochodzącymi z baz danych sekwencji białek. Badania proteogenomiczne wprowadzają do bazy danych sekwencje translacyjne nowych transkryptów z potencjałem kodowania i niesynonimicznymi wariantami pojedynczych nukleotydów (SNV), co utrudnia łatwe powiązanie ich z referencyjną klasą genome⁸. Graficzny interfejs użytkownika PoGo (PoGoGUI) obsługuje formaty plików do ustandaryzowanego raportowania identyfikacji peptydów z eksperymentów spektrometrii mas i konwertuje je na uproszczony 4-kolumnowy format pogo. PoGoGUI opakowuje narzędzie wiersza poleceń PoGo i w ten sposób umożliwia mapowanie peptydów na współrzędne genomu, wykorzystując adnotację referencyjną genów kodujących białka powszechnie dostępnych w GTF i przetłumaczonych sekwencjach transkryptów w formacie FASTA. PoGo generuje różne formaty wyjściowe, aby umożliwić wizualizację różnych aspektów peptydów zidentyfikowanych za pomocą spektrometrii mas, w tym modyfikacji potranslacyjnych i kwantyfikacji poziomu peptydów. Pliki wyjściowe w BED mogą być dalej konwertowane i łączone w dostępne online katalogi zwane koncentratorami ścieżek. Pojedyncze pliki wyjściowe, jak również koncentratory ścieżek, mogą być następnie wizualizowane w przeglądarkach, takich jak UCSC Genome Browser²⁵, Ensembl Genome Browser²⁰, IGV²⁴ i Biodalliance²⁸ (zobacz Rysunek 5 na dole).

Zastosowaliśmy PoGo do ponownej analizy szkiców map ludzkiego proteomu przefiltrowanych z dużą istotnością, jak opisano w Wright et al.⁷ i porównał go z dwoma innymi narzędziami do mapowania proteogenomicznego, a mianowicie iPiG¹⁴ i PGx¹⁰. Zestaw danych zawierał 233 055 unikalnych peptydów w 59 tkankach dorosłych i płodowych, co dało łącznie ponad 3 miliony sekwencji. PoGo przewyższało te narzędzia zarówno pod względem czasu wykonywania (odpowiednio 6,9 i 96,4 razy szybciej), jak i zużycia pamięci (odpowiednio 20% i 60% mniej pamięci), jak pokazano na Rysunek 6¹⁸. Przykład pomyślnie zmapowanego peptydu pokazano w Rysunek 7.

Chociaż PoGo znacznie przewyższa inne narzędzia pod względem szybkości i pamięci, jest również zdolne do mapowania modyfikacji potranslacyjnych i informacji ilościowych związanych z peptydami na genomie. Rysunek 8A schematycznie przedstawia wizualizację formatu BED w przeglądarce genomu dla peptydów mapujących do jednego eksonu i przez połączenia splicingowe. PoGo wykorzystuje opcję kolorowania, aby zapewnić łatwą pomoc wizualną w odniesieniu do unikalności mapowania peptydów w genomie. Mapowania na czerwono wskazują na unikalność pojedynczego transkryptu, podczas gdy czarne podświetla mapowanie do pojedynczego genu. Jednak peptyd jest współdzielony przez różne transkrypty. Szare mapowania pokazują peptyd współdzielony przez wiele genów. Są one na przykład mniej wiarygodne w określaniu ilościowym genu lub niewiarygodne, aby nazwać je ekspresją genu. Opcja PTM BED w PoGo na nowo definiuje kod kolorystyczny, aby dostosować go do różnych typów modyfikacji potranslacyjnych, jak pokazano na rysunku Rysunek 8B. Dodatkowo, PTM są oznaczone grubymi blokami (patrz Rysunek 8B). Pojedynczy PTM danego typu jest wyróżniony grubym blokiem w miejscu zmodyfikowanej reszty aminokwasowej, podczas gdy wiele PTM tego samego typu jest połączonych grubym blokiem od pierwszego zmodyfikowanego aminokwasu do ostatniego.

Zastosowaliśmy PoGo, a następnie TrackHubGenerator do zestawu danych 50 linii komórkowych raka jelita grubego, w tym całego proteomu i fosfoproteomu²⁹. Podczas gdy koncentrator śledzenia załadowany w przeglądarce genomu UCSC pokazuje peptydy zmapowane do genomu i podkreśla unikalność mapowań i miejsc fosforylacji (patrz Rysunek 9), dodatkowe dane są dostarczane w folderze uzupełniającym. Pliki GCT umożliwiają następnie wizualizację ilościowego oznaczania peptydów i fosfopeptydów w kontekście genomicznym. Jednak pliki GCT nie zapewniają łatwej wizualizacji peptydów rozciągających się na połączeniach splicingowych (patrz Rysunek 10 na górze). Peptydy w połączeniach splicingowych są dzielone na odpowiednie części, odwzorowując je na eksony. Chociaż możliwa jest identyfikacja peptydów splicingowych za pomocą tych samych wartości ilościowych mapowań eksonów, ładowanie plików mapowania opartych na sekwencji, takich jak BED lub GTF, które łączą eksony cienką linią rozpiętą intronami, wspiera interpretację (patrz Rysunek 10 na dole).

Aby podkreślić użyteczność mapowania z włączoną obsługą wariantów, zastosowaliśmy PoGo w dwóch konfiguracjach do zestawu danych ludzkiego proteomu jądra przeszukanego w neXtProt w celu poszukiwania brakujących białek przy użyciu strategii wieloenzymatycznej²². neXtProt składa się oprócz referencyjnych sekwencji białkowych z ponad 5 milionami wariantów pojedynczych aminokwasów³⁰. Mapowanie peptydów zidentyfikowanych za pomocą pojedynczego wariantu aminokwasu nie jest obsługiwane przez inne narzędzia do mapowania. Zidentyfikowano łącznie 177 012 unikalnych peptydów. Spośród nich 99,8% (176 694) peptydów zostało najpierw pomyślnie zmapowanych bez dopuszczenia do niezgodności. Usunięcie ich ze zidentyfikowanej listy peptydów spowodowało powstanie 0,2% (318) peptydów, które następnie zostały zmapowane, co pozwoliło na substytucję jednego aminokwasu. W ten sposób uzyskano 3446 mapowań 162 peptydów, które nie zostałyby zmapowane do genomu referencyjnego za pomocą żadnego innego dostępnego narzędzia. Podczas gdy średnia liczba mapowań zawierających niedopasowanie jest wysoka, 62 peptydy zmapowano tylko do jednego locus, co wskazuje na prawdziwe sekwencje wariantów. Przykład peptydu zmapowanego z podstawieniem pojedynczego aminokwasu jest wyróżniony jego sekwencją i translowaną sekwencją genomową w Rysunek 11.

figure-results-1
Rysunek 1. Wizualne porównanie różnych narzędzi do mapowania peptydów i genomów. Porównanie jest pokazane w odniesieniu do różnych aspektów. Aspekty te obejmują odniesienie do mapowania, poziom integracji z frameworkami oraz obsługę przeglądarek online i offline. Ponadto osobno omówiono nowatorskie aspekty proteogenomiki i jej obsługę funkcji. PoGo nie ma tylko możliwości bezpośredniego mapowania do sekwencji genomu w porównaniu z innymi narzędziami. Obsługuje jednak wszystkie nowatorskie funkcje, których większość innych narzędzi nie obsługuje. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-2
Rysunek 2. Przykładowy plik wejściowy do mapowania peptydów. PoGo akceptuje dane wejściowe w formacie rozdzielanym tabulatorami z 4 kolumnami. Nagłówki kolumn w pierwszym wierszu to odpowiednio "Eksperyment", "Peptyd", "PSM" i "Quant", wskazując w kolejnych wierszach odpowiednio identyfikator eksperymentu lub próbki, sekwencję peptydów, liczbę dopasowań widma peptydów oraz wartość ilościową peptydu. Obsługiwane rozszerzenia nazw plików to *.txt, *.tsv i *.pogo. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-3
Rysunek 3. Interfejs PoGoGUI z wyróżnionymi krokami wyboru plików i opcji parametrów. Rysunek przedstawia etapy wyboru i przesyłania wszystkich wymaganych plików oraz wybór opcji mapowania peptydów z modyfikacjami potranslacyjnymi na ludzki genom referencyjny. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-4
Rysunek 4. Zrzut ekranu przedstawiający procedurę przesyłania danych Integrative Genomics Viewer (IGV). Rysunek przedstawia kroki przesyłania plików wyjściowych PoGo w przeglądarce IGV. Ponadto pokazuje opcję rozszerzenia ścieżki zmapowanych peptydów w celu podkreślenia mapowania i sekwencji. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-5
Rysunek 5. Uproszczony przepływ pracy kroków od LC-MS/MS do wizualizacji w przeglądarkach genomu. Mapowanie PoGo następuje po identyfikacji peptydów z tandemowych widm masowych. Aby osiągnąć mapowanie genomu, PoGo wykorzystuje adnotację referencyjną dostarczoną jako adnotacja genomu (GTF) i sekwencje translacji transkryptu (FASTA). Generowane są różne formaty wyjściowe, które można ładować oddzielnie w przeglądarkach genomu. Dodatkowo pliki w formacie BED mogą być łączone w huby ścieżek obsługujące wizualizację zbiorów danych na dużą skalę. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-6
Rysunek 6. Benchmarking PoGo z PGx i iPiG. PoGo przewyższa inne narzędzia w testach porównawczych. Mapując 233 055 unikalnych peptydów w 59 tkankach dorosłych i płodowych, co dało ponad 3 miliony sekwencji, PoGo było odpowiednio 6,9 i 96,4 razy szybsze niż PGx i iPiG. Co więcej, PoGo wymagało o 20% i 60% mniej pamięci w porównaniu odpowiednio z PGx i iPiG. Podczas gdy PoGo i PGx zakończyły się pomyślnie, iPiG spowodował błąd pamięci przy 16 GB. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-7
Rysunek 7. Przeglądarka UCSC Genome przykładowy widok zmapowanych peptydów. Rysunek przedstawia peptydy zmapowane do genu mTOR. Podczas gdy połączona ścieżka pokazuje peptydy rozciągające się na połączeniach splicingowych i mapujące tylko do jednego eksonu z powiązanymi sekwencjami, ścieżki specyficzne dla tkanek podkreślają mapowanie tylko w skondensowanym formacie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-8
Rysunek 8. Schemat mapowania, wizualizacji i kodowania kolorami. (A) W standardowym pliku wyjściowym BED peptydy odwzorowujące na ekson są pokazane jako pojedyncze bloki (po lewej), podczas gdy peptydy mapujące przez wiele eksonów podkreślają części pokrywające ekson jako bloki (po prawej). Introny są pokazane jako cienkie linie łączące. PoGo koduje kolorami unikalność mapowania lub peptydów do genów i transkryptów przy użyciu systemu 3-poziomowego. (B) Oprócz struktury blokowej formatu BED, dane wyjściowe PTM BED podkreślają pozycję modyfikacji potranslacyjnych w postaci grubych bloków. Obecność pojedynczego PTM danego typu podkreśla zmodyfikowaną resztę aminokwasową za pomocą grubego bloku, podczas gdy wiele miejsc tego samego PTM jest łączonych w długie bloki rozciągające się od pierwszego do ostatniego miejsca modyfikacji. Mapowania peptydów są dalej dzielone według typu PTM i kodeka kolorów w oparciu o modyfikację. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-9
Rysunek 9. Śledź widok centrum w przeglądarce genomu UCSC danych dotyczących proteomu i fosfoproteomu raka jelita grubego. Węzeł śledzenia zawiera całe dane dotyczące proteomu, a także fosfoproteomu. Podczas gdy czerwony kolor na ścieżkach proteomu i fosfoproteomu wskazuje na unikalność mapowania do pojedynczego transkryptu SFN, ścieżki kończące się na _ptm pokazują miejsca fosforylacji w peptydach. Tutaj kolor czerwony wskazuje na rodzaj modyfikacji jako fosforylację. Zidentyfikowano tylko dwa peptydy, z których każdy wykazuje pojedynczą fosforylację (grube bloki). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-10
Rysunek 10. Widok fosfopeptydów raka jelita grubego i związana z nimi ocena ilościowa w IGV. Rysunek przedstawia podzbiór 50 linii komórek rakowych. Widać na nim ponadto cztery kolumny bloków w różnych odcieniach jasnej czerwieni. Kolor wskazuje względną obfitość od niskiej (biały) do wysokiej (czerwony). Podczas gdy cztery kolumny mogą początkowo prowadzić do przekonania, że istnieją 4 peptydy, staje się jasne dzięki powiązanemu plikowi wyjściowemu GTF opartemu na sekwencji, że są to w rzeczywistości dwa peptydy, z których każdy obejmuje złącze splicingowe. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-11
Rysunek 11. Widok peptydu z wariantem aminokwasowym w IGV. Rysunek przedstawia peptyd z pojedynczym wariantem aminokwasu zmapowanym do genomu referencyjnego na początku translacji genu GPSM1. Wariant jest umieszczony na reszcie aminokwasowej 8 i powoduje podstawienie alaniny do waliny (A→V). Sekwencje translacyjne transkryptów z adnotacjami (niebieskie) podkreślają wariant w porównaniu z sekwencją peptydową. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Protokół ten opisuje, w jaki sposób narzędzie programowe PoGo i jego graficzny interfejs użytkownika PoGoGUI umożliwiają szybkie mapowanie peptydów na współrzędne genomu. Narzędzie oferuje unikalne funkcje, takie jak ilościowa, potranslacyjna modyfikacja i mapowanie genomów z obsługą wariantów za pomocą adnotacji referencyjnych. W artykule przedstawiono metodę na dużej skali badaniu proteogenomicznym i podkreślono jej szybkość i wydajność pamięci w porównaniu z innymi dostępnymi narzędziami¹⁸. W połączeniu z narzędziem TrackHubGenerator, które tworzy dostępne online centra danych genomicznych i powiązanych z genomem, PoGo, dzięki graficznemu interfejsowi użytkownika, umożliwia badania proteogenomiczne na dużą skalę w celu szybkiej wizualizacji danych w kontekście genomicznym. Ponadto demonstrujemy unikalne cechy PoGo za pomocą zestawów danych przeszukiwanych w bazach danych wariantów i fosfoproteomiki ilościowej^22,29.

Pojedyncze pliki, takie jak plik GCT, zapewniają cenną wizualizację i powiązania między cechami peptydów a loci genomu. Należy jednak zauważyć, że interpretacja oparta wyłącznie na nich może być trudna lub myląca ze względu na ich ograniczenie do pojedynczych aspektów proteogenomiki, takich jak unikalność, modyfikacje potranslacyjne i wartości ilościowe. Dlatego ważne jest, aby starannie wybrać, które pliki wyjściowe, opcje i kombinacje są odpowiednie dla danego pytania proteogenomicznego i zmodyfikować kombinacje. Na przykład informacje o unikalności mapowania do określonego locus genomowego mogą mieć wielką wartość dla adnotacji cechy genomowej⁷, podczas gdy kwantyfikacja w różnych próbkach może być bardziej odpowiednia w przypadku badań wiążących cechy genomu ze zmianami liczebności białek²⁹. Dane wyjściowe powinny być generowane przez PoGo dla każdego ustawienia. W przypadku, gdy nie są generowane żadne dane wyjściowe lub w folderze wyjściowym wyświetlane są puste pliki, zaleca się sprawdzenie plików wejściowych pod kątem żądanej zawartości i wymaganego formatu pliku. W przypadkach, gdy format lub zawartość pliku nie jest zgodna z oczekiwaniami PoGo (np. plik FASTA rzekomo zawierający sekwencje translacji transkrypcji zawiera sekwencje nukleotydowe transkrypcji), komunikaty o błędach poproszą użytkownika o sprawdzenie plików wejściowych.

Ograniczenia protokołu i narzędzia opierają się głównie na ponownym wykorzystaniu formatów plików powszechnie stosowanych w genomice. Zmianie przeznaczenia formatów plików stosowanych w genomice do zastosowań proteogenomicznych towarzyszą określone ograniczenia. Wynika to z różnych zestawów wymagań dotyczących skoncentrowanej na genomie wizualizacji danych genomicznych i proteogenomicznych, takich jak potrzeba wizualizacji modyfikacji potranslacyjnych na podstawie danych proteomicznych. Jest to ograniczone w formatach plików genomiki przez użycie pojedynczej funkcji. Opracowano wiele podejść i narzędzi dla proteomiki, aby pewnie lokalizować modyfikacje potranslacyjne w sekwencjach peptydowych 31,32,33,34. Jednak wizualizacja wielu modyfikacji w unikalny i dostrzegalny sposób na genomie jest utrudniona przez strukturę formatów plików genomowych. W związku z tym jednoblokowa wizualizacja wielu PTM tego samego typu nie stanowi żadnej niejednoznaczności miejsc modyfikacji, ale jest konsekwencją odmiennego wymagania społeczności genomicznej, aby wizualizować tylko pojedyncze cechy na raz. Niemniej jednak PoGo ma tę zaletę, że mapuje modyfikacje potranslacyjne na współrzędne genomowe, aby umożliwić badania skoncentrowane na wpływie cech genomicznych, takich jak warianty pojedynczych nukleotydów, na modyfikacje potranslacyjne. Korzystając z PoGo, mapowanie wariantów zwiększa liczbę całkowitych mapowań. Jednak unikalne kodowanie kolorami mapowanych peptydów odróżnia wiarygodne mapowania od niewiarygodnych. Mapowaniu wariantów peptydów zidentyfikowanych na podstawie znanych wariantów pojedynczego nukleotydu może towarzyszyć wizualizacja zmapowanych peptydów wraz z wariantami w formacie VCF. W ten sposób kod kolorystyczny wskazujący na niewiarygodne mapowanie wariantu peptydu jest unieważniany przez obecność znanego wariantu nukleotydu.

Kluczowym krokiem korzystania z PoGo jest użycie odpowiednich plików i formatów. Głównym kryterium jest wykorzystanie translowanych sekwencji transkryptów jako sekwencji białek towarzyszących adnotacji w formacie GTF. Kolejnym krytycznym elementem przy rozważaniu użycia PoGo do mapowania peptydów z niezgodnością aminokwasów jest pamięć. Chociaż jest to wysoce wydajne pod względem pamięci w przypadku standardowej aplikacji, znacznie i wykładniczo rosnąca liczba możliwych mapowań z jednym lub dwoma niezgodnościami prowadzi do podobnie wykładniczego wzrostu użycia pamięci¹⁸. Proponujemy mapowanie etapowe, jak opisano w niniejszym protokole, aby najpierw zmapować peptydy bez niezgodności i usunąć je ze zbioru. Kolejne, wcześniej niezmapowane peptydy mogą być następnie mapowane przy użyciu jednego niedopasowania, a procedura może być powtórzona z dwoma niedopasowaniami dla peptydów pozostających niezmapowanych.

Ponieważ przepustowość spektrometrii mas znacznie wzrosła, a badania łączące dane genomiczne i proteomiczne stają się w ostatnich latach coraz częstsze, coraz bardziej niezbędne stają się narzędzia umożliwiające łączenie tego typu danych w tym samym układzie współrzędnych. Zaprezentowane tutaj narzędzie pomoże w połączeniu danych genomicznych i proteomicznych w celu lepszego zrozumienia badań integracyjnych w małych i dużych zbiorach danych poprzez mapowanie peptydów na adnotację referencyjną. Zachęcające jest to, że PoGo zostało zastosowane do mapowania peptydów do kandydatów na geny dostarczonych w tym samym formacie, co adnotacja referencyjna, aby wesprzeć wysiłki związane z adnotacją nowych genów ulegających ekspresji w ludzkich jądrach³⁵. Przedstawione tutaj podejście jest niezależne od baz danych wykorzystywanych do identyfikacji peptydów. Protokół może pomóc w identyfikacji i wizualizacji nowatorskich produktów translacyjnych przy użyciu dostosowanych plików wejściowych z sekwencji translacji i powiązanych plików GTF z eksperymentów sekwencyjnych RNA.

Wprowadzono kilka podejść i narzędzi z szerokim zakresem specjalnych scenariuszy zastosowań do mapowania peptydów do współrzędnych genomowych, począwszy od mapowania peptydów bezpośrednio do sekwencji genomu, a skończywszy na mapowaniu kierowanym sekwencjonowaniem RNA. 10,11,12,13,14,15,16,17. Mogą one jednak spowodować niepowodzenie w prawidłowym mapowaniu peptydów, gdy obecne są modyfikacje potranslacyjne, a błędy w podstawowym mapowaniu odczytów sekwencjonowania RNA mogą być propagowane do poziomu peptydów. PoGo zostało opracowane specjalnie w celu pokonania tych przeszkód i poradzenia sobie z szybkim wzrostem ilościowych zestawów danych proteomicznych o wysokiej rozdzielczości w celu integracji z ortogonalnymi platformami genomicznymi. Opisane tutaj narzędzie można zintegrować z przepływami pracy o wysokiej przepustowości. Dzięki interfejsowi graficznemu PoGoGUI narzędzie jest proste w obsłudze i nie wymaga specjalistycznego szkolenia bioinformatycznego.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy nie mają nic do ujawnienia.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ta praca została sfinansowana przez Wellcome Trust (WT098051) i grant NIH (U41HG007234) na projekt GENCODE.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PoGo (oprogramowanie)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (oprogramowanie)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (oprogramowanie)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (oprogramowanie)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genome browser (strona internetowa)	NA	NA	https://genome.ucsc.edu/
GENCODE (strona internetowa)	NA	NA	http://gencodegenes.org
Ensembl (strona internetowa)	NA	NA
http://ensembl.org bedToBigBed (oprogramowanie)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (oprogramowanie)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).">Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).">Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).">Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).">Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).">Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).">Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).">Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).
Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).">Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).">Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).">Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).">Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).">Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).">Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).
iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).">Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).
Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).">Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).">Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).">Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).">Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).">Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).">Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).">Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).">Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).">Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).">Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).">Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).">The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).">Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).">Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).">Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).">Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).">Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).">Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).">Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).">Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).">Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Szybka i ilościowa metoda modyfikacji potranslacyjnej i wariantów umożliwiła mapowanie peptydów do genomów

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles