Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: Una aplicación optimizada para la agrupación de coexpresión de proteínas y el análisis de redes en proteómica

Published: October 19, 2021 doi: 10.3791/62796

Summary

Presentamos una herramienta de biología de sistemas JUMPn para realizar y visualizar análisis de red para datos proteómicos cuantitativos, con un protocolo detallado que incluye preprocesamiento de datos, agrupación de coexpresión, enriquecimiento de vías y análisis de red de interacción proteína-proteína.

Abstract

Con los recientes avances en las tecnologías de proteómica basadas en espectrometría de masas, el perfil profundo de cientos de proteomas se ha vuelto cada vez más factible. Sin embargo, derivar conocimientos biológicos de conjuntos de datos tan valiosos es un desafío. Aquí presentamos un software basado en biología de sistemas JUMPn, y su protocolo asociado para organizar el proteoma en grupos de coexpresión de proteínas a través de muestras y redes de interacción proteína-proteína (PPI) conectadas por módulos (por ejemplo, complejos de proteínas). Utilizando la plataforma R/Shiny, el software JUMPn agiliza el análisis de la agrupación en clústeres de coexpresión, el enriquecimiento de vías y la detección de módulos PPI, con visualización de datos integrada y una interfaz fácil de usar. Los pasos principales del protocolo incluyen la instalación del software JUMPn, la definición de proteínas expresadas diferencialmente o el proteoma (dis)regulado, la determinación de grupos de coexpresión significativos y módulos PPI, y la visualización de resultados. Si bien el protocolo se demuestra utilizando un perfil de proteoma basado en el etiquetado isobárico, JUMPn es generalmente aplicable a una amplia gama de conjuntos de datos cuantitativos (por ejemplo, proteómica sin etiquetas). El software y el protocolo JUMPn proporcionan así una poderosa herramienta para facilitar la interpretación biológica en proteómica cuantitativa.

Introduction

La proteómica de escopeta basada en espectrometría de masas se ha convertido en el enfoque clave para analizar la diversidad de proteomas de muestras complejas1. Con los recientes avances en instrumentación de espectrometríade masas 2,3, cromatografía 4,5, detección de movilidad iónica6, métodos de adquisición (adquisición independiente de datos7 y adquisición dependiente de datos8), enfoques de cuantificación (método de etiquetado de péptidos isobáricos multiplex, por ejemplo, TMT 9,10 y cuantificación sin etiquetas11,12) y estrategias de análisis de datos / desarrollo de software 13,14,15,16,17,18, cuantificación de todo el proteoma (por ejemplo, más de 10,000 proteínas) es ahora rutinario 19,20,21. Sin embargo, cómo obtener información mecanicista a partir de conjuntos de datos cuantitativos tan profundos sigue siendo un desafío22. Los intentos iniciales de investigar estos conjuntos de datos se basaron predominantemente en la anotación de elementos individuales de los datos, tratando cada componente (proteína) de forma independiente. Sin embargo, los sistemas biológicos y su comportamiento no pueden explicarse únicamente examinando componentes individuales23. Por lo tanto, un enfoque sistémico que coloque las biomoléculas cuantificadas en el contexto de las redes de interacción es esencial para la comprensión de los sistemas complejos y los procesos asociados, como la embriogénesis, la respuesta inmune y la patogénesis de las enfermedades humanas24.

La biología de sistemas basada en redes se ha convertido en un poderoso paradigma para analizar datos de proteómica cuantitativa a gran escala 25,26,27,28,29,30,31,32,33. Conceptualmente, los sistemas complejos como las células de mamíferos podrían modelarse como una red jerárquica34,35, en la que todo el sistema está representado en niveles: primero por una serie de componentes grandes, cada uno de los cuales luego modelado iterativamente por subsistemas más pequeños. Técnicamente, la estructura de la dinámica del proteoma puede ser presentada por redes interconectadas de grupos de proteínas coexpresadas (porque los genes/proteínas coexpresados a menudo comparten funciones biológicas similares o mecanismos de regulación36) y módulos PPI que interactúan físicamente37. Como ejemplo reciente25, generamos perfiles temporales de proteoma y fosfoproteoma completos durante la activación de células T y utilizamos redes integradoras de coexpresión con IBP para identificar módulos funcionales que median la salida de inactividad de células T. Se destacaron múltiples módulos relacionados con la bioenergética y se validaron experimentalmente (por ejemplo, el mitoribosoma y los módulos IVcomplejos 25, y el módulo de un carbono38). En otro ejemplo26, ampliamos aún más nuestro enfoque para estudiar la patogénesis de la enfermedad de Alzheimer y priorizamos con éxito los módulos y moléculas de proteínas asociadas a la progresión de la enfermedad. Es importante destacar que muchos de nuestros descubrimientos imparciales fueron validados por cohortes de pacientes independientes26,29 y / o modelos de ratón de enfermedad26. Estos ejemplos ilustraron el poder del enfoque de la biología de sistemas para diseccionar mecanismos moleculares con proteómica cuantitativa y otras integraciones ómicas.

Aquí presentamos JUMPn, un software optimizado que explora datos proteómicos cuantitativos utilizando enfoques de biología de sistemas basados en redes. JUMPn sirve como el componente posterior de la suite de software de proteómica JUMP establecida 13,14,39, y tiene como objetivo llenar el vacío desde cuantificaciones de proteínas individuales hasta vías biológicamente significativas y módulos de proteínas utilizando el enfoque de biología de sistemas. Al tomar la matriz de cuantificación de proteínas expresadas diferencialmente (o las más variables) como entrada, JUMPn tiene como objetivo organizar el proteoma en una jerarquía escalonada de grupos de proteínas coexpresados a través de muestras y módulos PPI densamente conectados (por ejemplo, complejos de proteínas), que se anotan aún más con bases de datos de vías públicas mediante análisis de sobrerrepresentación (o enriquecimiento) (Figura 1). JUMPn está desarrollado con la plataforma R/Shiny40 para una interfaz fácil de usar e integra tres módulos funcionales principales: análisis de agrupación de coexpresión, análisis de enriquecimiento de vías y análisis de red PPI (Figura 1). Después de cada análisis, los resultados se visualizan automáticamente y se ajustablen a través de las funciones de widget R/shiny y se pueden descargar fácilmente como tablas de publicación en formato Microsoft Excel. En el siguiente protocolo, utilizamos datos cuantitativos de proteoma completo como ejemplo y describimos los principales pasos del uso de JUMPn, incluida la instalación del software JUMPn, la definición de proteínas expresadas diferencialmente o el proteoma (desregulado) regulado, el análisis de redes de coexpresión y el análisis del módulo PPI, la visualización e interpretación de resultados y la resolución de problemas. El software JUMPn está disponible gratuitamente en GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: En este protocolo, el uso de JUMPn se ilustra utilizando un conjunto de datos publicado de perfiles de proteoma completo durante la diferenciación de células B cuantificado por el reactivo de etiqueta isobárica TMT27.

1. Configuración del software JUMPn

NOTA: Se proporcionan dos opciones para configurar el software JUMPn: (i) instalación en un equipo local para uso personal; y (ii) implementación de JUMPn en un shiny server remoto para múltiples usuarios. Para la instalación local, una computadora personal con acceso a Internet y ≥4 Gb de RAM es suficiente para ejecutar el análisis JUMPn para un conjunto de datos con un tamaño de muestra pequeño (n < 30); se necesita una RAM más grande (por ejemplo, 16 Gb) para el análisis de cohortes grandes (por ejemplo, n = 200 muestras).

  1. Instale el software en un equipo local. Después de la instalación, permita que el navegador web inicie JUMPn y deje que el análisis se ejecute en el equipo local.
    1. Instale anaconda42 o miniconda43 siguiendo las instrucciones en línea.
    2. Descargue el código fuente de JUMPn41. Haga doble clic para descomprimir el archivo descargado JUMPn_v_1.0.0.zip; se creará una nueva carpeta denominada JUMPn_v_1.0.0.
    3. Abra el terminal de línea de comandos. En Windows, utilice el símbolo del sistema Anaconda. En MacOS, usa la aplicación Terminal integrada.
    4. Crear el entorno JUMPn Conda: Obtenga la ruta absoluta de JUMPn_v_1.0.0 (por ejemplo, /path/to/JUMPn_v_1.0.0). Para crear y activar un entorno Conda vacío, escriba los siguientes comandos en el terminal
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda activate /path/to/JUMPn_v_1.0.0/JUMPn
    5. Instalar dependencias JUMPn: Instale R (en el terminal, escriba conda install -c conda-forge r=4.0.0 -y), cambie el directorio actual a la carpeta JUMPn_v_1.0.0 (en el terminal, escriba cd path/to/JUMPn_v_1.0.0), e instale los paquetes de dependencia (en el terminal, escriba Rscript bootstrap. R)
    6. Inicie JUMPn en el navegador web: Cambie el directorio actual a la carpeta de ejecución (en el terminal, escriba cd execution) e inicie JUMPn (en el terminal, escriba R -e "shiny::runApp()")
    7. Una vez ejecutado lo anterior, la pantalla del terminal aparecerá Escuchando en http://127.0.0.1:XXXX (aquí XXXX indica 4 números aleatorios). Copie y pegue http://127.0.0.1:XXXX en el navegador web, en el que aparecerá la página de bienvenida de JUMPn (Figura 2).
  2. Implementación en Shiny Server. Ejemplos de Shiny Server incluyen el servidor comercial shinyapps.io o cualquier Shiny Servers con soporte institucional.
    1. Descargue e instale RStudio siguiendo las instrucciones44.
    2. Obtenga el permiso de implementación para Shiny Server. Para el servidor shinyapps.io, configure la cuenta de usuario siguiendo las instrucciones45. Para el servidor Shiny institucional, póngase en contacto con el administrador del servidor para solicitar permisos.
    3. Descargue el código fuente41 de JUMPn en la máquina local; la instalación no es necesaria. Abra el servidor. R o ui. R en RStudio y haga clic en el menú desplegable Publicar en el servidor en la parte superior derecha del IDE de RStudio.
    4. En el panel Publicar en cuenta , escriba la dirección del servidor. Pulse el botón Publicar . La implementación correcta se valida tras la redirección automática desde RStudio al servidor RShiny donde se implementó la aplicación.

2. Ejecución de demostración utilizando un conjunto de datos de ejemplo

NOTA: JUMPn ofrece una ejecución de demostración utilizando el conjunto de datos de proteómica de células B publicado. La ejecución de demostración ilustra un flujo de trabajo optimizado que toma la matriz de cuantificación de proteínas expresadas diferencialmente como entrada y realiza agrupamiento de coexpresión, enriquecimiento de vías y análisis de red PPI secuencialmente.

  1. En la página de inicio de JUMPn (Figura 2), haga clic en el botón Comenzar análisis para iniciar el análisis de JUMPn.
  2. En la esquina inferior izquierda de la página Comenzar análisis (Figura 3), haga clic en el botón Cargar datos proteómicos de células B de demostración ; aparecerá un cuadro de diálogo notificando el éxito de la carga de datos.
  3. En la esquina inferior derecha de la página, haga clic en el botón Enviar análisis JUMPn para iniciar la ejecución de la demostración utilizando los parámetros predeterminados; aparecerá una barra de progreso que denota el curso del análisis. Espere hasta que se cumpla la barra de progreso (se esperan 3 minutos).
  4. Una vez finalizada la ejecución de la demostración, aparecerá un cuadro de diálogo con el mensaje de ejecución correcta y la ruta absoluta a la carpeta de resultados. Haga clic en Continuar a Resultados para continuar.
  5. La página web primero guiará al usuario a los resultados del clúster de coexpresión de WGCNA. Haga clic en Ver resultados en la ventana de diálogo para continuar.
  6. Busque los patrones de coexpresión de proteínas a la izquierda de la página Página de resultados 1: Salida de WGCNA . Haga clic en el cuadro desplegable Seleccionar el formato de expresión para navegar entre dos formatos de figura:
    1. Seleccione Tendencias para mostrar la gráfica de tendencias, con cada línea representando la abundancia de proteínas individuales en todas las muestras. El color de cada línea representa qué tan cerca está el patrón de expresión del consenso del clúster de coexpresión (es decir, "eigengene" según lo definido por el algoritmo WGCNA).
    2. Seleccione Boxplot para mostrar patrones de coexpresión en formato boxplot para cada muestra.
  7. Vea el mapa de calor de enriquecimiento de vía/ontología a la derecha de la página de salida de WGCNA. Las vías más enriquecidas para cada cúmulo se muestran juntas en un mapa de calor, con la intensidad del color reflejando el valor p ajustado de Benjamini-Hochberg.
  8. Desplácese hacia abajo en la página web para ver el patrón de expresión de proteínas individuales.
    1. Utilice el cuadro desplegable Seleccione el clúster de coexpresión para ver las proteínas de cada clúster (el valor predeterminado es clúster 1). Seleccione una proteína específica en la tabla, en la que la gráfica de barras debajo de la tabla se actualizará automáticamente para reflejar su abundancia de proteínas.
    2. Busque nombres de proteínas específicas usando el cuadro de búsqueda en el lado derecho de la tabla para una proteína específica.
  9. Para ver los resultados de PPI, haga clic en la página de resultados 2: Salida de PPI en la parte superior.
  10. Haga clic en Seleccionar el clúster de coexpresión para ver los resultados de un clúster de coexpresión específico (el valor predeterminado es el clúster 1). Las pantallas de todos los paneles de figuras de esta página se actualizarán para el clúster recién seleccionado.
  11. Vea las redes PPI del clúster de coexpresión seleccionado en el panel de figuras de la izquierda:
    1. Haga clic en el cuadro desplegable Seleccionar por grupo para resaltar los módulos PPI individuales dentro de la red. Haga clic en el cuadro desplegable Seleccionar un formato de diseño de red para cambiar el diseño de red (el valor predeterminado es de Fruchterman Reingold).
    2. Utilice el ratón y el trackpad para realizar los pasos 2.11.3-2.11.5.
    3. Acercar o alejar la red PPI según sea necesario. Los nombres genéticos de cada nodo de la red se mostrarán cuando se amplíen lo suficiente.
    4. Cuando se acerque, seleccione y haga clic en una determinada proteína para resaltar esa proteína y sus vecinos de red.
    5. Arrastre un determinado nodo (proteína) en la red para cambiar su posición en el diseño; por lo tanto, el diseño de la red puede ser reorganizado por el usuario.
  12. En el panel derecho de la página de resultados del PPI, vea la información de nivel de clúster de coexpresión que ayuda a la interpretación de los resultados del PPI:
    1. Vea el patrón de coexpresión del clúster seleccionado como diagrama de cuadro de forma predeterminada.
    2. Haga clic en el cuadro desplegable Seleccionar el formato de expresión para obtener más información o pantallas como se menciona en los pasos 2.12.3-2.12.5.
    3. Seleccione Tendencias para mostrar el gráfico de tendencias para el patrón de coexpresión.
    4. Seleccione Pathway Barplot para mostrar vías significativamente enriquecidas para el clúster de coexpresión.
    5. Seleccione Trazado de círculo de trazado para mostrar trazados significativamente enriquecidos para el clúster de coexpresión en el formato de trazado de círculo.
  13. Desplácese hacia abajo en la página web Página de resultados 2: Salida de PPI para ver los resultados en el nivel de módulo de PPI individual. Haga clic en el cuadro desplegable Seleccionar el módulo para seleccionar un módulo PPI específico para su visualización (Cluster1: El módulo 1 se muestra de forma predeterminada).
  14. Vea el módulo PPI en el panel izquierdo. Para manipular la visualización de la red, siga los pasos 2.11.2-2.11.5.
  15. Vea los resultados del enriquecimiento de la vía/ontología en el panel derecho. Haga clic en el cuadro desplegable Seleccionar el estilo de anotación de ruta para obtener más información y mostrar:
    1. Seleccione Barplot para mostrar rutas significativamente enriquecidas para el módulo PPI seleccionado.
    2. Seleccione Trazado de círculo para mostrar rutas significativamente enriquecidas para el módulo PPI seleccionado en el formato de un gráfico de círculo.
    3. Seleccione Mapa de calor para mostrar las vías significativamente enriquecidas y los nombres de genes asociados del módulo PPI seleccionado.
    4. Seleccione Tabla para mostrar los resultados detallados del enriquecimiento de la vía, incluido el nombre de las vías / términos ontológicos, los nombres de los genes y el valor P de la prueba exacta de Fisher.
  16. Vea la tabla de publicación en formato de hoja de cálculo: siga la ruta absoluta (impresa en la parte superior de ambas páginas de resultados) y busque la tabla de hoja de cálculo de publicación denominada ComprehensiveSummaryTables.xlsx.

3. Preparación del archivo de entrada y subida a JUMPn

NOTA: JUMPn toma como entrada la matriz de cuantificación de las proteínas expresadas diferencialmente (método supervisado) o de las proteínas más variables (método no supervisado). Si el objetivo del proyecto es comprender las proteínas cambiadas a través de múltiples condiciones (por ejemplo, diferentes grupos de enfermedades o análisis de series temporales del proceso biológico), se prefiere el método supervisado para realizar el análisis de DE; de lo contrario, se puede utilizar un enfoque no supervisado de selección de las proteínas más variables para el propósito exploratorio.

  1. Genere la tabla de cuantificación de proteínas, con cada proteína como filas y cada muestra como columnas. Logre esto a través de la moderna suite de software de proteómica basada en espectrometría de masas (por ejemplo, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
  2. Definir el proteoma variable.
    1. Utilice los resultados del análisis estadístico proporcionados por el conjunto de software de proteómica para definir proteínas expresadas diferencialmente (DE) (por ejemplo, con valor p ajustado < 0,05).
    2. Alternativamente, los usuarios pueden seguir el ejemplo del código R47 para definir DE o la mayoría de las proteínas variables.
  3. Formatee el archivo de entrada utilizando el proteoma de variable definido.
    NOTA: El formato de archivo de entrada requerido (Figura 4) incluye una fila de encabezado; las columnas incluyen la adhesión de proteínas (o cualquier identificación única), GN (símbolos genéticos oficiales), descripción de proteínas (o cualquier información proporcionada por el usuario), seguida de cuantificación de proteínas de muestras individuales.
    1. Siga el orden de las columnas especificado en el paso 3.1, pero los nombres de columna del encabezado son flexibles para el usuario.
    2. Para el proteoma cuantificado TMT (o similar), utilice la intensidad resumida del informador TMT como valores de cuantificación de entrada. Para los datos sin etiqueta, utilice recuentos espectrales normalizados (por ejemplo, NSAF48) o métodos basados en la intensidad (por ejemplo, intensidad LFQ o intensidad de proteína iBAQ informada por Maxquant46).
    3. Los valores que faltan están permitidos para el análisis JUMPn. Asegúrese de etiquetarlos como NA en la matriz de cuantificación. Sin embargo, se recomienda utilizar únicamente proteínas con cuantificación en más del 50% de las muestras.
    4. Guarde el archivo de entrada resultante como formato .txt, .xlsx o .csv (los tres son compatibles con JUMPn).
  4. Cargar archivo de entrada:
    1. Haga clic en el botón Navegador y seleccione el archivo de entrada (Figura 3, panel izquierdo); el formato de archivo (xlsx, csv y txt son compatibles) se detectará automáticamente.
    2. Si el archivo de entrada contiene valores de cuantificación similares a la intensidad (por ejemplo, los generados por JUMP suite39) o similares a la relación (por ejemplo, de Proteome Discoverer), seleccione Sí para la opción Ejecutar log2-Transformación de datos; de lo contrario, es posible que los datos ya se hayan transformado en el registro, así que seleccione No para esta opción.

4. Análisis de agrupamiento de coexpresión

NOTA: Nuestro grupo 25,26,27 y otros 28,29,31 han demostrado que WGCNA49 es un método eficaz para el análisis de agrupación de coexpresión de proteómica cuantitativa. JUMPn sigue un procedimiento de 3 pasos para el análisis WGCNA25,50: (i) definición inicial de grupos de coexpresión génica/proteína mediante el corte dinámico de árboles51 basado en la matriz de superposición topológica (TOM; determinada por similitudes de cuantificación entre genes/proteínas); ii) fusión de agrupaciones similares para reducir la redundancia (basada en el dendrograma de similitudes entre genes propios); y (iii) asignación final de genes/proteínas a cada grupo que exceda el límite mínimo de correlación de Pearson.

  1. Configure los parámetros WGCNA (Figura 3, panel central). Los tres parámetros siguientes controlan los tres pasos, respectivamente:
    1. Establezca el tamaño mínimo del clúster como 30. Este parámetro define el número mínimo de proteínas requeridas para cada clúster de coexpresión en el paso inicial (i) del corte dinámico de árboles híbrido basado en TOM. Cuanto mayor sea el valor, menor será el número de clústeres devueltos por el algoritmo.
    2. Establezca la distancia mínima del clúster como 0,2. Aumentar este valor (por ejemplo, de 0,2 a 0,3) puede provocar una mayor fusión de clústeres durante el paso ii), lo que da como resultado un menor número de clústeres.
    3. Establezca kME mínimo como 0.7. Las proteínas se asignarán al grupo más correlacionado definido en el paso (ii), pero solo se conservarán las proteínas con correlación de Pearson que supere este umbral. Las proteínas que fallen en este paso no se asignarán a ningún clúster (clúster 'NA' para las proteínas fallidas en el informe final).
  2. Inicie el análisis. Hay dos formas de enviar el análisis de agrupación en clústeres de coexpresión:
    1. Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para iniciar el análisis exhaustivo de WGCNA automáticamente seguido del análisis de red PPI.
    2. Alternativamente, seleccione ejecutar solo el paso WGCNA (especialmente con el fin de ajustar los parámetros; consulte los pasos 4.2.3-4.2.4):
    3. Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. En el widget inferior, Seleccione el modo de análisis, seleccione Solo WGCNA y, a continuación, haga clic en Descartar para continuar.
    4. En la página Comenzar análisis , haga clic en el botón Enviar análisis JUMPn .
    5. En cualquiera de los casos anteriores, aparecerá una barra de progreso al enviar el análisis.
      NOTA: Una vez finalizado el análisis (normalmente < 1 minuto para el análisis WGCNA Only y <3 min para el análisis completo), aparecerá un cuadro de diálogo con un mensaje de ejecución correcta y la ruta absoluta a la carpeta de resultados.
  3. Examine los resultados de WGCNA como se ilustra en los pasos 2.4-2.8 (Figura 5). Tenga en cuenta que la ruta absoluta al archivo co_exp_clusters_3colums.txt está resaltada en la parte superior de la página de resultados: Salida WGCNA para registrar la pertenencia al clúster de cada proteína y usarla como entrada para el análisis PPI Only .
  4. Solución de problemas. Se discuten los siguientes tres casos comunes. Una vez que los parámetros se actualicen como se describe a continuación, siga los pasos 4.2.2-4.2.4 para generar nuevos resultados de WGCNA.
    1. Si se espera un patrón de coexpresión importante de los datos pero el algoritmo lo omite, siga los pasos 4.4.2-4.4.4
    2. Un grupo faltante es especialmente probable para grupos pequeños de coexpresión, es decir, solo un número limitado (por ejemplo, <30) de proteínas que exhiben este patrón. Antes del nuevo análisis, vuelva a examinar el archivo de entrada de la matriz de cuantificación de proteínas y localice varias proteínas de control positivas que se adhieran a ese importante patrón de coexpresión.
    3. Para rescatar los clústeres pequeños, disminuya el tamaño mínimo del clúster (por ejemplo, 10; el tamaño del clúster inferior a 10 puede no ser robusto, por lo que no se recomienda) y disminuya la distancia mínima del clúster (por ejemplo, 0,1; aquí también se permite la configuración como 0, lo que significa que se omitirá la fusión automática del clúster).
    4. Después de ejecutar el paso de agrupación en clústeres de coexpresión con los parámetros actualizados, primero, verifique si el clúster se rescata de las gráficas de patrones de coexpresión y, a continuación, verifique los controles positivos buscando sus accesiones de proteínas en Cuantificación detallada de proteínas (asegúrese de seleccionar el clúster de coexpresión apropiado en el widget desplegable del lado izquierdo antes de la búsqueda).
      NOTA: Es posible que se necesiten varias iteraciones de ajuste y repetición de parámetros para el rescate.
    5. Si hay demasiadas proteínas que no se pueden asignar a ningún grupo, siga los pasos 4.4.6-4.4.7.
      NOTA: Por lo general, un pequeño porcentaje (generalmente <10%) de proteínas puede no asignarse a ningún grupo, ya que pueden ser proteínas atípicas que no siguieron ninguno de los patrones de expresión comunes del conjunto de datos. Sin embargo, si dicho porcentaje es significativo (por ejemplo, >30%), sugiere que existen patrones de coexpresión adicionales que no se pueden ignorar.
    6. Disminuya los parámetros Tamaño mínimo de clúster y Distancia mínima de clúster para aliviar esta situación mediante la detección de clústeres de coexpresión "nuevos".
    7. Además, disminuya el parámetro de correlación mínima de Pearson (kME) para reducir estas proteínas de 'grupo NA'.
      NOTA: Ajustar este parámetro no generará nuevos clústeres, sino que aumentará el tamaño de los clústeres "existentes" al aceptar más proteínas previamente fallidas con el umbral más bajo; sin embargo, esto también aumentará la heterogeneidad de cada grupo, ya que ahora se permiten proteínas más ruidosas.
    8. Dos grupos tienen una diferencia muy pequeña de patrones; combinarlos en un clúster siguiendo los pasos 4.4.9-4.4.11.
    9. Aumente el parámetro Distancia mínima del clúster para resolver el problema.
    10. Sin embargo, en algunas situaciones, es posible que el algoritmo nunca devuelva el patrón deseado; en tal instante, ajuste o edite manualmente la pertenencia al clúster en el archivo co_exp_clusters_3colums.txt (archivo del paso 4.3) para fusionar.
    11. Tome el archivo post-editado como entrada para el análisis de red PPI descendente. En caso de edición manual, justifique los criterios de asignación de clústeres y registre el procedimiento de edición manual.

5. Análisis de la red de interacción proteína-proteína

NOTA: Al superponer clústeres de coexpresión en la red PPI, cada clúster de coexpresión se estratifica aún más en módulos PPI más pequeños. El análisis se realiza para cada clúster de coexpresión e incluye dos etapas: en la primera etapa, JUMPn superpone proteínas del clúster de coexpresión a la red PPI y encuentra todos los componentes conectados (es decir, múltiples grupos de nodos / proteínas conectados; como ejemplo, ver Figura 6A); luego, se detectarán comunidades o módulos (de nodos densamente conectados) para cada componente conectado de forma iterativa utilizando el método52 de matriz de superposición topológica (TOM).

  1. Configure los parámetros para el análisis de red PPI (Figura 3, panel derecho).
    1. Establezca el tamaño mínimo del módulo PPI como 2. Este parámetro define el tamaño mínimo de los componentes desconectados del análisis de la primera etapa. Cualquier componente menor que el parámetro especificado se eliminará de los resultados finales.
    2. Establezca el tamaño máximo del módulo PPI como 40. Los componentes grandes y desconectados que superen este umbral se someterán a un análisis basado en TOM de segunda etapa. El análisis de la segunda etapa dividirá aún más cada componente grande en módulos más pequeños: cada módulo presumiblemente contiene proteínas más densamente conectadas que el componente original en su conjunto.
  2. Inicie el análisis. Hay dos formas de enviar el análisis de red PPI:
    1. Presione el botón Enviar análisis JUMPn para realizar automáticamente el análisis PPI después del análisis WGCNA de forma predeterminada.
    2. Como alternativa, cargue resultados personalizados del clúster de coexpresión y realice un análisis de solo PPI siguiendo los pasos 5.2.3-5.2.5.
    3. Prepare el archivo de entrada siguiendo el formato del archivo co_exp_clusters_3colums.txt (consulte la subsección 4.4).
    4. Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. En la sesión superior Cargar resultado del clúster de coexpresión para el análisis 'Solo PPI', haga clic en Navegador para cargar el archivo de entrada preparado por el paso 5.2.3.
    5. En el widget inferior, Seleccione el modo de análisis, seleccione solo PPI y luego haga clic en Descartar para continuar. En la página Comenzar análisis , haga clic en el botón Enviar análisis JUMPn .
  3. Una vez finalizado el análisis (normalmente <3 min), examine los resultados del IPP como se ilustra en los pasos 2.10-2.15 (Figura 6).
  4. Paso avanzado opcional) Ajuste la modularización del PPI ajustando los parámetros:
    1. Aumente el parámetro Tamaño máximo del módulo para permitir que se incluyan más proteínas en los resultados del PPI. Cargue la red PPI personalizada para cubrir las interacciones no documentadas, siguiendo los pasos 5.4.2-5.4.3.
    2. Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. Prepare el archivo PPI personalizado, que contiene tres columnas en formato de , conexión C y ; aquí se presentan por los nombres genéticos oficiales de cada proteína.
    3. En Cargar una base de datos PPI, haga clic en el botón Examinar para cargar el archivo PPI personalizado.

6. Análisis de enriquecimiento de vías

NOTA: Las estructuras jerárquicas derivadas de JUMPn de los clústeres de coexpresión y los módulos PPI dentro se anotan automáticamente con vías sobrerrepresentadas utilizando la prueba exacta de Fisher. Las bases de datos de vía/topología utilizadas incluyen Gene Ontology (GO), KEGG, Hallmark y Reactome. Los usuarios pueden utilizar opciones avanzadas para cargar bases de datos personalizadas para el análisis (por ejemplo, en el caso de analizar datos de especies no humanas).

  1. De forma predeterminada, el análisis de enriquecimiento de vías se inicia automáticamente con la agrupación en clústeres de coexpresión y el análisis de red PPI.
  2. Vea los resultados del enriquecimiento de la vía:
    1. Siga los pasos 2.7, 2.12 y 2.15 para visualizar diferentes formatos en las páginas de resultados. Vea los resultados detallados en la tabla de publicación de la hoja de cálculo en el archivo .xlsx ComprehensiveSummaryTables (paso 2.16).
  3. (Paso avanzado opcional) Cargue una base de datos personalizada para el análisis de enriquecimiento de vías:
    1. Prepare el archivo de antecedentes genéticos, que generalmente contiene los nombres genéticos oficiales de todos los genes de una especie.
    2. Prepare el archivo de biblioteca de ontología siguiendo los pasos 6.3.3-6.3.4.
    3. Descargue los archivos de la biblioteca de ontología de sitios web públicos, incluidos EnrichR53 y MSigDB54. Por ejemplo, descargue ontología de Drosophila desde el sitio web de EnrichR55.
    4. Edite el archivo descargado para el formato requerido con dos columnas: el nombre de la ruta como la primera columna y luego los símbolos genéticos oficiales (separados por "/") como la segunda columna. El formato de archivo detallado se describe en la página de Ayuda del software JUMPn R shiny.
      NOTA: Busque archivos de ejemplo de fondo genético y biblioteca de ontología (usando Drosophila como instancia) en el sitio JUMPn GitHub56.
    5. Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis; aparecerá una nueva ventana de parámetros.
    6. Busque el elemento Cargar un archivo de fondo para el análisis de enriquecimiento de rutas y haga clic en Navegador para cargar el archivo de fondo preparado en el paso 6.3.1. Luego, en la sesión, seleccione el fondo que se utilizará para el análisis de enriquecimiento de la vía, haga clic en Fondo proporcionado por el usuario.
    7. Busque el elemento Cargar un archivo de biblioteca de ontología para el análisis de enriquecimiento de vías y haga clic en Navegador para cargar el archivo de biblioteca de ontologías preparado en los pasos 6.3.2-6.3.4. Luego, en la sesión, Seleccione Bases de datos para el análisis de enriquecimiento de rutas, haga clic en Base de datos suministrada por el usuario en formato .xlsx.
  4. Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para iniciar el análisis utilizando la base de datos personalizada.

7. Análisis del conjunto de datos con gran tamaño de muestra

NOTA: JUMPn admite el análisis de conjuntos de datos con un gran tamaño de muestra (hasta 200 muestras probadas). Para facilitar la visualización de un tamaño de muestra grande, se necesita un archivo adicional (denominado "meta archivo") que especifique el grupo de ejemplo para facilitar la visualización de los resultados de la agrupación en clústeres de coexpresión.

  1. Prepare y cargue el meta archivo.
    1. Prepare el metaarchivo que especifique la información del grupo (por ejemplo, grupos de control y de enfermedades) para cada muestra siguiendo los pasos 7.1.2-7.1.3.
    2. Asegúrese de que el metaarchivo contenga al menos dos columnas: la columna 1 debe contener los nombres de muestra idénticos a los nombres de columna y el orden del archivo de matriz de cuantificación de proteínas (como se prepara en el paso 3.3); La columna 2 en adelante se utilizará para la asignación de grupos para cualquier número de características definidas por el usuario. El número de columnas es flexible.
    3. Asegúrese de que la primera fila del meta archivo contiene los nombres de columna para cada columna; a partir de la segunda fila, se debe enumerar la información de la muestra individual de grupos u otras características (por ejemplo, sexo, edad, tratamiento, etc.).
    4. Cargue el meta archivo haciendo clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. Continúe con el paso 7.1.5
    5. Busque Cargar un elemento de archivo meta y haga clic en Navegador para cargar el archivo de fondo. Si JUMPn detecta el formato inesperado o los nombres de ejemplo no coincidentes, aparecerá un mensaje de error para formatear más el meta archivo (pasos 7.1.1-7.1.3).
  2. Ajuste los parámetros para el análisis de agrupación en clústeres de coexpresión: establezca Correlación mínima de Pearson como 0,2. Este parámetro debe relajarse debido al mayor tamaño de la muestra.
  3. Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para enviar el análisis.
  4. Ver resultados del análisis: todos los resultados de los datos son los mismos, excepto para mostrar los patrones de clúster de coexpresión.
    1. En la página Página de resultados 1: Salida de WGCNA , visualice los clústeres de coexpresión como diagramas de caja con muestras estratificadas por los grupos de muestra o características definidos por el usuario. Cada punto en la gráfica representa el gen propio (es decir, el patrón de consenso del clúster) calculado por el algoritmo WGCNA.
    2. Si el usuario proporcionó varias características (por ejemplo, edad, sexo, tratamiento, etc.) para agrupar las muestras, haga clic en el cuadro desplegable Seleccionar el formato de expresión para seleccionar otra función para agrupar las muestras.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Utilizamos nuestros conjuntos de datos de proteómica profunda publicados 25,26,27,30 (Figuras 5 y Figura 6), así como simulaciones de datos57 (Tabla 1) para optimizar y evaluar el rendimiento de JUMPn. Para el análisis de agrupación de proteínas de coexpresión a través de WGCNA, recomendamos utilizar proteínas significativamente cambiadas en todas las muestras como entrada (por ejemplo, proteínas expresadas diferencialmente (DE) detectadas por análisis estadístico). Si bien la inclusión de proteínas no DE para el análisis puede resultar en más grupos de coexpresión devueltos por el programa (debido a un mayor tamaño de entrada), planteamos la hipótesis de que mezclar la señal real (por ejemplo, las proteínas DE) con el fondo (el restante no DE) para el análisis a nivel de sistemas puede diluir la señal y enmascarar la estructura de red subyacente. Para probar esto, el análisis de simulación se realizó bajo dos condiciones diferentes: i) proteoma altamente dinámico (por ejemplo, 50% alterado en la activación de células T25) y ii) proteoma relativamente estable (por ejemplo, 2% de proteoma cambiado en AD26). Para el proteoma altamente dinámico, se simularon seis grupos de coexpresión a partir del 50% de proteoma siguiendo el mismo tamaño de clúster y patrones de expresión (es decir, eigengenes) de nuestros resultados publicados25. Del mismo modo, para un proteoma relativamente estable, simulamos tres grupos de proteoma al 2% después de nuestro reciente estudio de proteómica de AD26. Como era de esperar, el aumento del número de entradas de proteínas aumenta el número de grupos detectados (Tabla 1). Para el proteoma altamente dinámico, el uso de todas las proteínas como entrada puede capturar la mayoría de los grupos verdaderos (5 de los 6 cúmulos simulados de buena fe; 83% de recuerdo) con una precisión del 63% (5 de los 8 grupos devueltos son verdaderos positivos; es decir, los 3 grupos restantes son falsos positivos). Sin embargo, para el proteoma relativamente estable, aumentar el tamaño de entrada con proteínas no DE reduce drásticamente la precisión (Tabla 1). Por ejemplo, utilizando todo el proteoma como entrada, se detectan 169 módulos, de los cuales solo 2 son correctos (1,2% de precisión; el 98,8% restante de los módulos detectados son falsos positivos). Por lo tanto, estos resultados indican que elegir solo el proteoma modificado como entrada aumentará la precisión del análisis de coexpresión, especialmente para un proteoma relativamente estable.

Tras la detección de grupos de proteínas de coexpresión, cada grupo será anotado por JUMPn utilizando el análisis de enriquecimiento de la vía (Figura 1). La versión actual incluye cuatro bases de datos de vías de uso común, incluidas Gene Ontology (GO), KEGG, Hallmark y Reactome. Los usuarios también pueden compilar su propia base de datos en formato GMT54, que se puede cargar en JUMPn. La integración de múltiples bases de datos para el análisis de enriquecimiento de vías puede proporcionar vistas más completas; sin embargo, los tamaños de las diferentes bases de datos de vías varían significativamente, lo que puede inducir sesgos no deseados a ciertas bases de datos (especialmente grandes). Se proporcionan dos soluciones dentro de JUMPn. En primer lugar, utilizando un enfoque estadístico, los valores nominales de p se ajustan (o penalizan) para las pruebas de hipótesis múltiples mediante el método de Benjamini-Hochberg58, con una base de datos más grande que requiere un valor p nominal más significativo para alcanzar el mismo nivel de p ajustado que el de una base de datos pequeña. En segundo lugar, JUMPn destaca la ruta superior significativamente enriquecida para cada base de datos por separado, por lo que siempre se muestran las rutas enriquecidas superiores específicas de la base de datos.

Similar al análisis de enriquecimiento de vías, se compiló una red PPI compuesta combinando STRING59,60, BioPlex 61,62 y InWeb_IM63 bases de datos. La base de datos BioPlex se creó utilizando la purificación de afinidad seguida de espectrometría de masas en líneas celulares humanas, mientras que STRING e InWeb contienen información de varias fuentes. Por lo tanto, las bases de datos STRING e InWeb se filtraron aún más por la puntuación de borde para garantizar una alta calidad, con el límite determinado por el mejor ajuste a los criterios sin escala24. La red PPI final fusionada cubre más de 20,000 genes humanos con ~ 1,100,000 bordes (Tabla 2). Este interactoma completo se incluye y publica en un paquete con nuestro software JUMPn para el análisis PPI sensible.

Una vez finalizado el análisis, JUMPn genera el archivo de hoja de cálculo de la tabla de publicación ComprehensiveSummaryTables.xlsx, que consta de tres hojas individuales. La primera hoja contiene resultados de grupos de proteínas de coexpresión con una proteína por fila: la primera columna indica la pertenencia al clúster de cada proteína de entrada, y las columnas restantes se copian del archivo de entrada del usuario, que contiene la adhesión de la proteína, los nombres de los genes, la descripción de la proteína y la cuantificación de muestras individuales. La segunda hoja contiene los resultados del análisis de enriquecimiento de vías, mostrando vías significativas enriquecidas en cada grupo de coexpresión. Esta tabla se organiza primero por diferentes bases de datos de vías, luego se ordena por grupos de coexpresión, vías funcionales, el número total de genes de la vía, el número total de genes en el grupo individual, los números y nombres de genes superpuestos, el pliegue de enriquecimiento, los valores P derivados de la prueba exacta de Fisher y la tasa de descubrimiento falso de Benjamini-Hochberg. La tercera hoja contiene los resultados del análisis del módulo PPI con un módulo PPI por fila; sus columnas incluyen el nombre del módulo (definido por su pertenencia a la coexpresión y el ID del módulo, por ejemplo, Cluster1_Module1), las proteínas y números mapeados, así como las vías funcionales que se definen mediante la búsqueda de las proteínas del módulo en las bases de datos de la vía.

Figure 1
Figura 1: Flujo de trabajo de JUMPn. La matriz de cuantificación de la variable superior de las proteínas expresadas diferencialmente (DE) se toma como entrada, y las proteínas se agrupan en grupos de coexpresión mediante el algoritmo WGCNA. Cada coexpresión se anota mediante análisis de enriquecimiento de vías y se superpone aún más a la red de interacción proteína-proteína (PPI) para la identificación de módulos de proteínas densamente conectadas. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2: Página de bienvenida de JUMPn. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3: Página de entrada de JUMPn. La página incluye el panel de carga de archivos de entrada y los paneles de configuración de parámetros para la agrupación en clústeres de coexpresión y el análisis de red PPI, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.

Figure 4
Figura 4: Ejemplo de archivo de entrada de matriz de cuantificación. Las columnas incluyen la adhesión de proteínas (o cualquier identificación única), GN (símbolos genéticos oficiales), descripción de proteínas (o cualquier información proporcionada por el usuario), seguida de cuantificación de proteínas de muestras individuales. Haga clic aquí para ver una versión más grande de esta figura.

Figure 5
Figura 5: Resultados del clúster de coexpresión reportados por JUMPn. Se muestran los patrones de agrupamiento de coexpresión (A), el mapa de calor de la vía enriquecida superior a través de los grupos (B) y la abundancia detallada de proteínas para cada grupo (C). Los usuarios pueden seleccionar varias opciones de visualización y navegar entre diferentes clústeres a través del cuadro de selección. Haga clic aquí para ver una versión más grande de esta figura.

Figure 6
Figura 6: Resultados del análisis de red PPI reportados por JUMPn. Se muestra la red global de intermódulos (A), seguida de una subred de módulos individuales (B) y sus vías significativamente enriquecidas (C). Los usuarios pueden seleccionar varias opciones de visualización y navegar entre diferentes clústeres y módulos a través del cuadro de selección. Haga clic aquí para ver una versión más grande de esta figura.

% de proteínas superiores para análisis # módulos simulados # módulos detectados # módulos recapturados1 precisión2 recordar3
Proteoma altamente dinámico (por ejemplo, durante la activación de células T): 6 módulos simulados a partir de un 50% de proteoma
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Proteoma relativamente estable (por ejemplo, durante la patogénesis de la EA): 3 módulos simulados a partir de proteoma al 2%
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Un módulo recapturado es un módulo detectado cuyo gen propio se correlaciona altamente (Pearson R > 0,95) con uno de los eigengenes simulados.
2precisión = # módulos recapturados / # módulos detectados
3recall = # módulos recapturados / # módulos simulados

Tabla 1: Estudios de simulación de detección de clústeres de coexpresión.

Redes PPI No. de Nodos No. de Bordes
BioPlex 3.0 combinado (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
CADENA (v11.0) 18,954 5,87,482
Red PPI compuesta 20,485 11,52,607

Tabla 2: Estadísticas de las redes de interacción proteína-proteína (IBP) humanas. Las redes PPI se filtran por puntuación de borde para garantizar una alta calidad, con el límite de puntuación determinado por el ajuste más adecuado a los criterios sin escala.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Aquí presentamos nuestro software JUMPn y su protocolo, que se han aplicado en múltiples proyectos para diseccionar mecanismos moleculares utilizando datos proteómicos cuantitativos profundos 25,26,27,30,64. El software y el protocolo JUMPn se han optimizado por completo, incluida la consideración de las proteínas DE para el análisis de redes de coexpresión, una compilación de una red PPI completa y de alta calidad, un análisis estadístico estricto (por ejemplo, mediante la consideración de pruebas de hipótesis múltiples) con una interfaz optimizada y fácil de usar. Múltiples módulos de proteínas identificados por JUMPn han sido validados por estudios de experimentosfuncionales 25,27 o cohortes de pacientes independientes26, ejemplificando JUMPn como una herramienta efectiva para identificar moléculas y vías clave que subyacen a diversos procesos biológicos.

Los pasos críticos de este protocolo incluyen la generación de resultados óptimos de clústeres de coexpresión y módulos PPI, que pueden requerir múltiples iteraciones de ajuste de parámetros, así como la carga de una red PPI personalizada. En nuestro protocolo, discutimos escenarios prácticos comunes, incluida la forma de manejar la falta de grupos importantes, un alto porcentaje de proteínas no asignadas, la fusión de dos grupos redundantes y la falta de proteínas importantes dentro de los módulos PPI. Recomendamos al usuario que prepare varias proteínas de control positivas y confirme su presencia en los grupos finales de coexpresión. A veces, nunca se incluirá un control positivo en los módulos PPI finales debido a una base de datos de red PPI incompleta. Para aliviar parcialmente esto, hemos actualizado nuestra red PPI con las últimas versiones de BioPlex V362 y STRING V1160. Además, JUMPn permite a los usuarios cargar redes PPI personalizadas. Por ejemplo, las nuevas interacciones derivadas de experimentos de espectrometría de masas de purificación de afinidad (AP-MS) que utilizan una importante proteína de control positivo como cebo pueden integrarse con la red PPI compuesta actual para un análisis más personalizado.

Mediante el uso del marco de análisis de enriquecimiento de vías para cada grupo de proteínas de coexpresión, JUMPn se puede ampliar para inferir la actividad del factor de transcripción (TF). La suposición es que si existe una sobrerrepresentación de genes diana de un TF específico en un grupo de coexpresión (es decir, estos objetivos se expresan diferencialmente y siguen el mismo patrón de expresión), la actividad de ese TF se altera potencialmente en condiciones experimentales porque su abundancia de proteínas objetivo se cambia constantemente. Técnicamente, esto se puede lograr simplemente a través de JUMPn reemplazando la base de datos de vías actual con la base de datos DE DESTINO DE TF (por ejemplo, del proyecto ENCODE65). Del mismo modo, la actividad de la quinasa también se puede inferir aprovechando la base de datos de sustrato de quinasa, tomando como entrada la fosfoproteómica profunda. Como ejemplo, identificamos con éxito TF desregulados y quinasas subyacentes a la patogénesis tumoral cerebral64. De hecho, el uso del enfoque de red para la inferencia de actividades ha surgido como un enfoque poderoso para identificar los impulsores desregulados de las enfermedades humanas66,67.

El software JUMPn se aplica fácilmente a una amplia gama de tipos de datos. A pesar de que el proteoma cuantificado de etiquetado isobárico se utilizó como ejemplo ilustrativo, el mismo protocolo es aplicable también para datos de proteómica cuantificados sin etiqueta, así como perfiles de expresión de todo el genoma (por ejemplo, cuantificados por ARN-seq o microarray; vea nuestro ejemplo reciente de aplicación de JUMPn para perfiles de expresión de genes y proteínas27). Los datos de fosfoproteómica también podrían ser tomados por JUMPn para identificar fosfositos coexpresados, seguidos de la inferenciade actividad de la quinasa 25. Además, los datos de interactoma generados por el enfoque AP-MS también serán apropiados, por lo que las proteínas de presa que siguen una fuerza de interacción de cebo y estequiometría similares formarán grupos de coexpresión y se superpondrán aún más con los IBP conocidos para la interpretación de datos68.

Existen limitaciones para la versión actual de JUMPn. En primer lugar, el procedimiento de instalación se basa en la línea de comandos y requiere conocimientos básicos de informática. Esto dificulta un uso más amplio de JUMPn, especialmente de biólogos sin experiencia computacional. Una implementación más ideal es publicar JUMPn en un servidor en línea. En segundo lugar, las bases de datos actuales están centradas en el ser humano debido a nuestro enfoque en los estudios de enfermedades humanas. Tenga en cuenta que los datos proteómicos generados por ratones también han sido analizados por JUMPn utilizando tales bases de datos centradas en el ser humano25,27, asumiendo que la mayoría de los IBP se conservan en ambas especies69,70. La señalización específica del ratón no será capturada por este enfoque, pero no es de interés en esos estudios en humanos. Sin embargo, para los sistemas modelo no mamíferos (por ejemplo, pez cebra, mosca o levadura), las bases de datos específicas de la especie deben prepararse y cargarse en JUMPn utilizando las opciones avanzadas. Se pueden proporcionar recursos de especies adicionales a través de la futura liberación de JUMPn. En tercer lugar, el paso actual del análisis de ontología / vía lleva un tiempo significativo, que puede optimizarse aún más mediante la computación paralela.

En conclusión, presentamos el software y protocolo JUMPn para explorar datos proteómicos cuantitativos para identificar y visualizar módulos de proteínas coexpresados y potencialmente interactuando físicamente mediante el enfoque de biología de sistemas. Las características clave que distinguen a JUMPn de otros 53,71,72 incluyen: (i) JUMPn integra y agiliza cuatro componentes principales del análisis de vías y redes (Figura 1); (ii) A diferencia de la mayoría de los programas informáticos de análisis de vías que toman una lista simple de genes como entrada, JUMPn comienza a partir de la matriz de cuantificación, mediante la cual la información cuantitativa puede integrarse perfectamente con las vías y redes documentadas de la literatura; iii) Tanto los grupos de proteínas de coexpresión como los módulos de interacción se anotan automáticamente por vías conocidas y se visualizan a través de la plataforma de interacción R/shiny utilizando un navegador web fácil de usar; iv) Los resultados finales se organizan en tres cuadros que se pueden publicar fácilmente en formato Excel. Por lo tanto, esperamos que el JUMPn y este protocolo sean ampliamente aplicables a muchos estudios para diseccionar mecanismos utilizando datos proteómicos cuantitativos.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

El apoyo financiero fue proporcionado por los Institutos Nacionales de Salud (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 y U54NS110435) y ALSAC (American Lebanese Syrian Associated Charities). El análisis de EM se llevó a cabo en el Centro de Proteómica y Metabolómica del St. Jude Children's Research Hospital, que fue parcialmente apoyado por la Subvención de Apoyo del Centro de Cáncer de los NIH (P30CA021765). El contenido es responsabilidad exclusiva de los autores y no representa necesariamente las opiniones oficiales de los Institutos Nacionales de Salud.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Bioquímica Número 176
JUMPn: Una aplicación optimizada para la agrupación de coexpresión de proteínas y el análisis de redes en proteómica
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter