$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Uma representação gráfica, destacando em que palco de um fluxo de trabalho regular proteomic PoGo18 é aplicado, bem como a jusante opções de visualização, é mostrado na Figura 5. Proteomics espingarda (ou seja, a digestão proteolítica das proteínas seguido por cromatografia líquida acoplada com espectrometria de massa em tandem) é uma etapa precursora de mapeamento proteogenomic. Os espectros de massa em tandem resultante são comumente comparados com espectros teóricos derivados de bancos de dados de sequência de proteínas. Estudos Proteogenomics introduzir sequências de tradução do romance transcrições com codificação variantes possíveis e não-sinônimo de nucleotídeo único (SNVs) na base de dados, tornando-se difícil relacionar facilmente essas costas com o genoma de referência8. A interface gráfica do usuário do PoGo (PoGoGUI) oferece suporte a formatos de arquivo para os relatórios padronizados de identificações de peptídeo de experimentos de espectrometria de massa e converte-los em um formato simplificado de 4 colunas de pogo. PoGoGUI ajusta a ferramenta de linha de comando PoGo e, portanto, permite o mapeamento de peptídeos, nas coordenadas do genoma, utilizando a anotação da referência de genes codificantes de proteínas comumente previstas o GTF e as sequências de transcrição traduzida em formato FASTA. Diferentes formatos de saída são gerados por PoGo para permitir a visualização dos diferentes aspectos dos peptides identificados através de espectrometria de massa, incluindo modificações borne-translational e quantificação de nível do peptide. Arquivos de saída na cama ainda mais podem ser convertidos e combinados em diretórios acessíveis online chamados hubs de pista. Arquivos de saída único, bem como hubs de pista, então podem ser visualizados em navegadores como o UCSC Genome Browser25Ensembl Genome Browser20, IGV24e Biodalliance28 (ver Figura 5 inferior).
PoGo foi aplicado para a reanálise do projecto humano proteome mapas filtrado na grande significado, como descrito em Wright et al 7 e comparou-a com duas outras ferramentas para mapeamento de proteogenomic, ou seja, o iPiG14 e PGx10. O conjunto de dados composto 233.055 peptídeos exclusivos através de 59 tecidos adultos e fetais, resultando em um total de sequências mais 3 milhões. PoGo superou essas ferramentas em tempo de execução (6,9 x e 96,4 x mais rápido, respectivamente) e uso de memória (20% e 60% menos memória, respectivamente) como mostrado na Figura 618. Um exemplo de um peptídeo mapeado com êxito é mostrado na Figura 7.
Enquanto PoGo superou significativamente as outras ferramentas em velocidade e memória, também é capaz de modificações borne-translational de mapeamento e informações quantitativas associadas com peptídeos no genoma. Figura 8A esquematicamente retrata a visualização do formato de cama em um navegador de genoma para peptídeos mapeamento para um exão e do outro lado da tala entroncamentos. PoGo utiliza a opção de coloração para proporcionar fácil ajuda visual no que diz respeito a singularidade do mapeamento de peptídeo dentro do genoma. Mapeamentos em vermelho indicam a exclusividade de uma única transcrição, enquanto o preta destaca o mapeamento para um único gene. No entanto, o peptídeo é compartilhado entre diferentes transcrições. Mapeamentos de cinza mostram um peptídeo compartilhado entre múltiplos genes. Estas são, por exemplo, menos confiável para a quantificação de um gene ou não confiável para chamar a expressão de um gene. A opção de cama de PTM de PoGo redefine o código de cor para acomodar diferentes tipos de modificações borne-translational, como mostrado na Figura 8B. Além disso, PTMs são indicadas por grossos blocos (ver Figura 8B). Um único PTM de um tipo é realçado por um bloco grosso na posição do resíduo de aminoácido modificado, enquanto PTMs múltiplos do mesmo tipo são medidos por um grosso bloco do primeiro aminoácido modificado para o último.
Nós aplicamos PoGo e, posteriormente, TrackHubGenerator para um conjunto de dados de 50 linhas de células de câncer colorretal incluindo proteome toda e phosphoproteome29. Enquanto o cubo de pista carregado no UCSC Genome Browser mostra os peptídeos mapeados para o genoma e destaca a singularidade dos mapeamentos e os sítios de fosforilação (ver Figura 9), dados adicionais são fornecidos na pasta suplementar. Os arquivos do GCT, em seguida, habilitar a visualização da quantificação do peptide e Fosfopeptida em um contexto genômico. No entanto, arquivos de GCT não fornecem uma visualização fácil de peptídeos abrangendo todo entroncamentos da tala (ver Figura 10 parte superior). Os peptídeos através da tala junções dividem-se em suas respectivas partes mapeamento para os exões. Enquanto é possível identificar peptídeos da tala através os mesmos valores quantitativos de mapeamentos de exon, mapeamento baseado em sequência a carregar arquivos como cama ou GTF que conectam os exões por um intrão fina, abrangendo a linha de sustentação a interpretação (veja a Figura 10 parte inferior).
Para destacar a utilidade da variante habilitado mapeamento, aplicamos PoGo em duas configurações para um dataset de testículo humano proteome procurado contra neXtProt para caçar falta proteínas usando uma enzima multi estratégia22. O neXtProt compreende além de sequências de proteínas de referência mais 5 milhões de variantes único aminoácido30. Não há suporte para mapeamento de peptídeos, identificados com uma único aminoácido variante por outras ferramentas de mapeamento. Um total de 177.012 exclusivos peptídeos foram identificados. Destes, peptídeos de 99,8% (176.694) primeiro foram mapeados com sucesso sem permitir que as incompatibilidades. Remoção da lista do peptide identificados resultou em peptídeos de 0,2% (318) que posteriormente foram mapeadas permitindo uma substituição de aminoácido. Isto resultou em 3.446 mapeamentos de 162 peptídeos que não iria ter sido mapeados para o genoma de referência com qualquer outra ferramenta disponível. Enquanto o número médio de mapeamentos, incluindo uma incompatibilidade é alto, 62 peptídeos foram mapeados para apenas um único locus, indicando sequências variantes verdadeiras. Um exemplo de um peptídeo mapeado com a substituição de um único aminoácido é destaque com sua sequência e a sequência genómica traduzida na Figura 11.

Figura 1. Comparação visual das ferramentas de mapeamento de peptídeo-para-genoma diferente. A comparação é mostrada com relação a vários aspectos. Estes aspectos incluem uma referência de mapeamento, o nível de integração nas estruturas e o suporte dos navegadores online e offline. Além disso, novos aspectos do proteogenomics e seu suporte para o recurso é realçada separadamente. PoGo, só falta a capacidade para mapear diretamente para uma sequência do genoma em comparação com outras ferramentas. No entanto, suporta todas as características inovadoras que não oferecem suporte a maioria das outras ferramentas. Clique aqui para ver uma versão maior desta figura.

Figura 2. Arquivo de entrada de exemplo para peptídeos mapeamento. PoGo aceita entrada de dados em um formato separado por tabulações com 4 colunas. Cabeçalhos de coluna na primeira linha são «Experiência», «Peptídicas», 'PSMs' e 'Quant», indicando-se nas seguintes linhas o experimento ou identificador de amostra, a sequência do peptídeo, o número de correspondências de peptídeo-espectro e um valor quantitativo para o peptídeo, respectivamente. Extensões de nome de arquivo com suporte são *. txt, *.tsv e *.pogo. Clique aqui para ver uma versão maior desta figura.

Figura 3. PoGoGUI interface com etapas destacadas para seleções de arquivo e opções de parâmetro. A figura mostra as etapas para selecionar e carregar arquivos necessários e a seleção de opções de peptídeos de mapeamento com modificações borne-translational sobre o genoma humano de referência. Clique aqui para ver uma versão maior desta figura.

Figura 4. Upload de imagem dos dados do Visualizador de genômica Integrativa (IGV) procedimento. A figura destaca os passos para fazer upload de arquivos de saída PoGo no navegador IGV. Além disso, ele mostra a opção de expandir a faixa de peptídeos mapeados para destacar o mapeamento e a sequência. Clique aqui para ver uma versão maior desta figura.

Figura 5. Simplificado de fluxo de trabalho de etapas de LC-MS/MS para visualização nos navegadores genoma. Mapeamento de PoGo segue a identificação de peptídeos de espectros de massa em tandem. Para realizar o mapeamento para o genoma, PoGo utiliza anotação de referência fornecida como anotação do genoma (GTF) e sequências de tradução de transcrição (FASTA). Saída de diferente formatos são gerados que pode ser carregada separadamente em navegadores do genoma. Além disso, arquivos no formato de cama podem ser combinados em cubos faixa apoio visualização de conjuntos de dados em larga escala. Clique aqui para ver uma versão maior desta figura.

Figura 6. Análise comparativa de PoGo contra PGx e iPiG. PoGo supera as outras ferramentas na análise comparativa. Mapeamento 233.055 exclusivos peptídeos através de 59 tecidos adultos e fetais, resultando em sequências mais 3 milhões, PoGo foi 6,9 x e 96,4 x mais rápido do que o PGx e iPiG, respectivamente. Além disso, PoGo exigido 20% e 60% menos memória em comparação com PGx e iPiG, respectivamente. Enquanto PoGo e PGx foi concluído com êxito, o iPiG resultou em um erro de memória de 16 GB. Clique aqui para ver uma versão maior desta figura.

Figura 7. UCSC Genome browser exemplo veja de peptídeos mapeadas. A figura mostra peptídeos mapeados para o mTOR do gene. Enquanto a faixa combinada mostra os peptídeos abrangendo todo entroncamentos da tala e mapeando apenas para um exão com as sequências de associado, as faixas de tecido-específica apenas destacam o mapeamento em um formato condensado. Clique aqui para ver uma versão maior desta figura.

Figura 8. Esquema de mapeamento de visualização e codificação de cores. (A) no arquivo de saída padrão de cama, peptídeos de mapeamento para um exon são mostrados como único blocos (à esquerda), enquanto os peptídeos mapeamento entre vários exões destaque o exon cobrindo as partes como blocos (à direita). Os intrões são mostrados tão finos linhas de concatenação. PoGo color-codes a singularidade do mapeamento ou peptídeos de genes e transcrições usando um sistema de 3 camadas. (B) Além da estrutura de bloco do formato de cama, cama de PTM saída destaca a posição de modificações borne-translational como blocos de espessura. A presença de um único PTM de um tipo destaca o resíduo de aminoácido modificado com um bloco de espesso, enquanto vários sites da mesma PTM são combinados em blocos longos, abrangendo desde o primeiro até o último local de modificação. Mapeamentos de peptídeo estão divididos pelo codec de tipo e cor PTM baseado a modificação. Clique aqui para ver uma versão maior desta figura.

Figura 9. Controlar hub exibir no navegador do genoma do câncer colorretal proteome e phosphoproteome dados UCSC. O hub de faixa compreende toda proteome dados, bem como phosphoproteome. Enquanto a cor vermelha em faixas de proteoma e phosphoproteome indicam a singularidade do mapeamento para a simples transcrição do SFN, faixas terminam em _ptm mostram os sites de fosforilação em peptídeos. Aqui, a cor vermelha indica o tipo de modificação como fosforilação. Apenas dois peptídeos foram identificados com cada mostrando uma única fosforilação (blocos de espessura). Clique aqui para ver uma versão maior desta figura.

Figura 10. Vista de phosphopeptides de câncer colorretal e quantificação associada no IGV. A figura mostra um subconjunto das linhas de células de 50 câncer. Além disso mostra quatro colunas de blocos em diferentes tons de luz vermelha. A cor indica a abundância relativa de baixo (branco) para alto (vermelho). Enquanto as quatro colunas inicialmente podem levar a crer que existem 4 peptídeos, torna-se claro com associado com base em sequência GTF arquivo de saída que na verdade são dois peptídeos, cada abrangendo uma tala de junção. Clique aqui para ver uma versão maior desta figura.

Figura 11. Vista do peptídeo com variante de aminoácido em IGV. A figura mostra um peptídeo com uma variante de único aminoácido mapeada para o genoma de referência no início tradução do gene GPSM1. A variante é posicionada no resíduo de aminoácido 8 e resultados na substituição de alanina, a valina (A→V). As sequências de tradução das transcrições anotadas (azuis) destacam-se a variante em comparação com a sequência do peptide. Clique aqui para ver uma versão maior desta figura.