$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Una representación gráfica, resaltando en que etapa de un flujo de trabajo regular proteómicos PoGo18 se aplica, así como de aguas abajo opciones de visualización, se muestra en la figura 5. Proteomics de la escopeta (es decir, la digestión proteolítica de proteínas seguida de cromatografía de líquidos acompañada con espectrometría total en tándem) es un paso precursor de mapeo de proteogenomic. La espectrometría de masas tándem resultantes es comúnmente en comparación con espectros teóricos derivados de las bases de datos secuencia de proteína. Estudios de Proteogenomics introducen secuencias de traducción de novela transcripciones con la codificación de variantes de un solo nucleótido no sinónimo y potenciales (SNVs) en la base de datos, lo que hace difícil relacionarse fácilmente con estos detrás el genoma de referencia8. La interfaz gráfica de usuario de PoGo (PoGoGUI) soporta formatos de archivo de informes estandarizados de identificación de péptidos de los experimentos de espectrometría de masas y las convierte en el formato simplificado de 4 columna de pogo. PoGoGUI ajusta la herramienta de línea de comandos PoGo y así permite el mapeo de péptidos en coordenadas del genoma utilizando la anotación de referencia de codificación de la proteína los genes comúnmente proporcionado en el GTF y las secuencias de transcripción traducida en formato FASTA. Formatos de salida diferentes son generados por PoGo para permitir la visualización de los diferentes aspectos de los péptidos identificados a través de espectrometría de masas, incluyendo modificaciones post-traduccionales y cuantificación de niveles de péptido. Archivos de salida en la cama más pueden ser convertidos y combinados en directorios accesibles en línea llamados pista concentradores. Archivos de salida única, así como ejes de pista, entonces se pueden visualizar en navegadores como el Browser del genoma de UCSC25Ensembl genoma navegador20, IGV24y Biodalliance28 (ver figura 5 abajo).
Aplicamos el PoGo para el reanálisis del proyecto proteoma humano mapas de filtrado en alta significación como se describe en Wright et al. 7 y respecto a dos otras herramientas para el mapeo de proteogenomic, a saber: iPiG14 y PGx10. El conjunto de datos compuesta por 233.055 péptidos únicos a través de 59 tejidos adultos y fetales, lo que resulta en un total de más 3 millones de secuencias. PoGo superó a estas herramientas en tiempo de ejecución (6,9 y 96.4 x más rápido, respectivamente) y uso de la memoria (20% y 60% menos de memoria, respectivamente) como se muestra en la figura 618. En la figura 7se muestra un ejemplo de un péptido con éxito asignado.
Mientras que PoGo superaron significativamente a las otras herramientas en velocidad y memoria, es también capaz de modificaciones poste-de translación de la cartografía y la información cuantitativa asociada a péptidos en el genoma. Figura 8A muestra esquemáticamente la visualización del formato de cama en un browser del genoma para péptidos traz a un exón y en empalme a ensambladuras. PoGo utiliza la opción de colorear para proporcionar fácil ayuda visual con respecto a la singularidad del mapeo de péptidos dentro del genoma. Asignaciones en rojo indican exclusividad a una sola transcripción, mientras que reflejos negro a un solo gen. Sin embargo, el péptido se comparte entre diferentes transcripciones. Asignaciones de gris muestran un péptido compartido entre múltiples genes. Estas son, por ejemplo, menos confiable para la cuantificación de un gen o llamar a la expresión de un gene. La opción de cama de PTM de PoGo redefine el código de colores para adaptarse a diferentes tipos de modificaciones post-traduccionales como se muestra en la figura 8B. Además, PTMs se indican por gruesos bloques (ver figura 8B). Un PTM solo de un tipo se destaca por un grueso bloque en la posición del residuo del aminoácido modificado, mientras que PTMs múltiples del mismo tipo están atravesados por un grueso bloque desde el primer aminoácido modificado a la última.
Aplicamos el PoGo y posteriormente TrackHubGenerator a un conjunto de datos de 50 líneas celulares de cáncer colorrectal como todo proteoma y phosphoproteome29. Mientras que el eje de pista cargado en el Browser del genoma de UCSC muestra los péptidos asignados al genoma y pone de relieve la singularidad de las asignaciones y los sitios de fosforilación (ver figura 9), datos adicionales se encuentran en la carpeta complementaria. Los archivos GCT luego activar la visualización de la cuantificación del péptido y fosfopéptidos en un contexto genómico. Sin embargo, los archivos GCT proporciona una visualización fácil de los péptidos que atraviesan a través de uniones de empalme (ver arriba figura 10 ). Los péptidos a través de uniones de empalme se dividen en sus partes respectivas a los exones. Si bien es posible identificar péptidos de empalme a través de los mismos valores cuantitativos de las asignaciones de exón, asignación de secuencia de carga archivos como cama o GTF que conectan los exones de un intrón delgado que soporte la interpretación (ver figura 10 parte inferior).
Para resaltar la utilidad de la variante con mapping, aplicamos PoGo en dos configuraciones a un conjunto de datos de proteoma humano testis búsquedas contra neXtProt a la caza de falta proteínas usando una estrategia de múltiples enzimas22. La neXtProt comprende además secuencias de la proteína de referencia sobre 5 millones de variantes solo aminoácido30. Mapeo de péptidos identificados con la variante de un solo aminoácido no es compatible con otras herramientas de mapeo. Se identificaron un total de 177.012 péptidos únicos. De estos péptidos 99.8% (176.694) primero fueron mapeadas con éxito sin permitir que las discrepancias. Quitar de la lista de péptido identificado dio lugar a péptidos de 0.2% (318) que posteriormente fueron asignadas permitiendo una substitución del aminoácido. Esto dio lugar a 3.446 asignaciones de 162 péptidos que no hubiera sido asignados al genoma de referencia con cualquier otra herramienta disponible. Mientras que el promedio de las asignaciones como una falta de coincidencia es alta, 62 péptidos fueron asignados a solamente un solo locus, indicando secuencias variante verdadera. Un ejemplo de un péptido con una sola substitución del aminoácido se destaca con su secuencia y la secuencia genomic traducida en la figura 11.

Figura 1. Comparación visual de herramientas de mapeo de péptidos a genoma diferentes. La comparación se muestra en varios aspectos. Estos aspectos incluyen una referencia de la cartografía, el grado de integración en los marcos y el apoyo de buscadores online y offline. Además, se destaca por separado aspectos novedosos de proteogenomics y su compatibilidad con la función. PoGo sólo carece de la capacidad para asignar directamente a una secuencia del genoma en comparación con otras herramientas. Sin embargo, es compatible con todas las características nuevas que no es compatibles con la mayoría de las otras herramientas. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2. Archivo de entrada de ejemplo de péptidos asignación. PoGo acepta datos de entrada en un formato separado por tabulador con 4 columnas. Encabezados de columna en la primera línea son 'Experimentar', 'Péptido', 'PSMs' y 'Quant', que indica en las siguientes líneas el experimento o identificador de la muestra, la secuencia del péptido, el número de péptido-espectro y un valor cuantitativo para el péptido, respectivamente. Extensiones de nombre de archivo compatibles son *.txt, *.tsv y *.pogo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3. Interfaz PoGoGUI con pasos resaltados para selecciones de archivo y opciones de parámetros. La figura muestra los pasos para seleccionar y cargar todos los archivos requeridos y la selección de opciones para péptidos de mapeo con modificaciones poste-de translación en el genoma humano de referencia. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4. Captura de pantalla de los datos del visor de genómica Integrativa (IGV) Añadir procedimiento. La figura destaca los pasos para subir archivos de salida de PoGo en el navegador IGV. Además, muestra la opción de ampliar la pista de péptidos asignadas para resaltar la asignación y la secuencia. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5. Simplificado de flujo de trabajo de medidas de LC-MS/MS para la visualización en navegadores de genoma. Asignación de PoGo sigue la identificación de péptidos de espectrometría de masas tándem. Para lograr el mapeo del genoma, PoGo utiliza la anotación de referencia como la anotación del genoma (GTF) y transcripción traducción secuencias (FASTA). Salida se generan formatos que se puede cargar por separado en los navegadores de genoma. Además, se pueden combinar archivos en formato cama en ejes de pista visualización de grandes conjuntos de datos de apoyo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6. PoGo benchmarking contra PGx y iPiG. PoGo supera a las otras herramientas de evaluación comparativa. Mapeo de péptidos únicos 233.055 en 59 tejidos adultos y fetales, dando por resultado sobre 3 millones de secuencias, PoGo fue de 6,9 y 96.4 x más rápido que PGx y iPiG, respectivamente. Además, PoGo requerido 20% y 60% menos memoria en comparación con PGx y iPiG, respectivamente. Mientras que PoGo y PGx terminaron con éxito, iPiG dio lugar a un error de memoria de 16 GB. Haga clic aquí para ver una versión más grande de esta figura.

Figura 7. Vista de ejemplo de explorador de genoma de UCSC de péptidos asignadas. La figura muestra péptidos asignados a la gen mTOR. Mientras que la pista combinada muestra los péptidos que atraviesan a través de uniones de empalme y asignación a un exón con las secuencias asociadas, las vías específicas de tejido sólo ponen de relieve la asignación en un formato condensado. Haga clic aquí para ver una versión más grande de esta figura.

Figura 8. Esquema de mapeo de visualización y codificación de color. (A) en el archivo de salida estándar de la cama, péptidos a un exón se muestran como bloques individuales (izquierdas), mientras que los péptidos mapeo a través de múltiples exones destaca el exón que abarca piezas como bloques (derecha). Intrones se muestran tan finos concatenación de líneas. PoGo color-codes la singularidad del trazado o péptidos y genes, transcritos usando un sistema de 3 niveles. (B) además de la estructura de bloque del formato de cama, cama de PTM salida destaca la posición de modificaciones post-traduccionales como bloques gruesos. La presencia de una PTM solo de un tipo destaca el residuo del aminoácido modificado con un espesor de bloque, mientras que varios sitios de la misma PTM se combinan en bloques de tiempo que abarca desde el primero hasta el último sitio de modificación. Asignaciones de péptidos se dividen por códec de tipo y color PTM, basado en la modificación. Haga clic aquí para ver una versión más grande de esta figura.

Figura 9. Seguimiento de centro vista en el navegador del genoma UCSC de cáncer colorrectal proteoma y phosphoproteome los datos. El centro de la pista compone de proteoma conjunto datos como phosphoproteome. Mientras que el color rojo en las pistas de proteoma y phosphoproteome indican la singularidad de la asignación a la sola transcripción de SFN, pistas en _ptm muestran los sitios de fosforilación en péptidos. Aquí, el color rojo indica el tipo de modificación como fosforilación. Sólo dos péptidos se han identificado con cada uno mostrando una única fosforilación (bloques de espesor). Haga clic aquí para ver una versión más grande de esta figura.

Figura 10. Vista de fosfotoproteida de cáncer colorrectal y cuantificación asociado en IGV. La figura muestra un subconjunto de las líneas celulares de 50 cáncer. Además muestra cuatro columnas de bloques en diferentes tonos de luz roja. El color indica la abundancia relativa de bajo (blanco) a alta (rojo). Mientras que las cuatro columnas inicialmente pueden llevar a creer que hay 4 péptidos, se hace evidente con el asociado basado en la secuencia GTF archivo de salida que de hecho son dos péptidos, que abarca a una ensambladura del empalme. Haga clic aquí para ver una versión más grande de esta figura.

Figura 11. Vista del péptido con variante de aminoácido en IGV. La figura muestra un péptido con una variante de aminoácido único asignada al genoma de referencia en el inicio de la traducción del gen GPSM1. La variante se encuentra en el residuo del aminoácido 8 y los resultados en la sustitución de alanina a valina (A→V). Las secuencias de la traducción de las transcripciones anotadas (azul) destacan la variante en comparación con la secuencia del péptido. Haga clic aquí para ver una versión más grande de esta figura.