Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: оптимизированное приложение для кластеризации коэкспрессии белка и сетевого анализа в протеомике

Published: October 19, 2021 doi: 10.3791/62796

Summary

Мы представляем инструмент системной биологии JUMPn для выполнения и визуализации сетевого анализа количественных данных протеомики с подробным протоколом, включающим предварительную обработку данных, кластеризацию коэкспрессии, обогащение путей и сетевой анализ белково-белкового взаимодействия.

Abstract

С недавними достижениями в технологиях протеомики на основе масс-спектрометрии глубокое профилирование сотен протеомов становится все более осуществимым. Однако получение биологической информации из таких ценных наборов данных является сложной задачей. Здесь мы представляем программное обеспечение JUMPn на основе системной биологии и связанный с ним протокол для организации протеома в кластеры экспрессии белка в образцах и сетях белково-белкового взаимодействия (PPI), соединенных модулями (например, белковыми комплексами). Используя платформу R/Shiny, программное обеспечение JUMPn упрощает анализ кластеризации коэкспрессии, обогащения путей и обнаружения модуля PPI с интегрированной визуализацией данных и удобным интерфейсом. Основные этапы протокола включают установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, определение значимых кластеров коэкспрессии и модулей PPI, а также визуализацию результатов. Хотя протокол демонстрируется с использованием профиля протеома на основе изобарической маркировки, JUMPn обычно применим к широкому спектру количественных наборов данных (например, протеомика без меток). Таким образом, программное обеспечение и протокол JUMPn обеспечивают мощный инструмент для облегчения биологической интерпретации в количественной протеомике.

Introduction

Протоомика дробовика на основе масс-спектрометрии стала ключевым подходом к анализу разнообразия протеомов сложных образцов1. С последними достижениями в области масс-спектрометрических приборов 2,3, хроматографии 4,5, обнаружения подвижности ионов6, методов сбора (независимый от данных7 и зависящий от данных сбор8), подходов к количественной оценке (метод многоплексной маркировки изобарических пептидов, например, TMT 9,10 и количественной оценки без маркировки11,12) и стратегий анализа данных/ Разработка программного обеспечения 13,14,15,16,17,18, количественная оценка всего протеома (например, более 10 000 белков) теперь является рутинной 19,20,21. Тем не менее, как получить механистическое понимание из таких глубоких количественных наборов данных, все еще сложно22. Первоначальные попытки исследования этих наборов данных основывались преимущественно на аннотации отдельных элементов данных, рассматривая каждый компонент (белок) независимо. Однако биологические системы и их поведение не могут быть объяснены исключительно путем изучения отдельных компонентов23. Поэтому системный подход, который помещает количественные биомолекулы в контекст сетей взаимодействия, имеет важное значение для понимания сложных систем и связанных с ними процессов, таких как эмбриогенез, иммунный ответ и патогенез заболеваний человека24.

Сетевая системная биология стала мощной парадигмой для анализа крупномасштабных количественных данных протеомики 25,26,27,28,29,30,31,32,33. Концептуально сложные системы, такие как клетки млекопитающих, могут быть смоделированы как иерархическая сеть34,35, в которой вся система представлена в уровнях: сначала рядом крупных компонентов, каждый из которых затем итеративно моделируется более мелкими подсистемами. Технически структура динамики протеомов может быть представлена взаимосвязанными сетями коэкспрессированных белковых кластеров (поскольку коэкспрессированные гены/белки часто имеют сходные биологические функции или механизмы регуляции36) и физически взаимодействующими модулямиPPI 37. В качестве недавнего примера25 мы сгенерировали временные профили всего протеома и фосфопротеома во время активации Т-клеток и использовали интегративные сети коэкспрессии с ИПП для идентификации функциональных модулей, которые опосредуют выход Т-клеток из покоя. Было выделено и экспериментально проверено несколько модулей, связанных с биоэнергетикой (например, миторибосомы и комплексные модулиIV 25 и одноуглеродный модуль38). В другом примере26 мы еще больше расширили наш подход к изучению патогенеза болезни Альцгеймера и успешно определили приоритеты прогрессирования заболевания, связанных с белковыми модулями и молекулами. Важно отметить, что многие из наших непредвзятых открытий были подтверждены независимыми когортами пациентов26,29 и / или моделями мышей с заболеваниями26. Эти примеры проиллюстрировали силу подхода системной биологии для препарирования молекулярных механизмов с помощью количественной протеомики и других омических интеграций.

Здесь мы представляем JUMPn, оптимизированное программное обеспечение, которое исследует количественные данные протеомики с использованием сетевых системных подходов к биологии. JUMPn служит последующим компонентом установленного пакета программного обеспечения протеомики JUMP 13,14,39 и направлен на заполнение пробела от отдельных количественных оценок белка до биологически значимых путей и белковых модулей с использованием подхода системной биологии. Принимая матрицу количественной оценки дифференциально экспрессированных (или наиболее изменчивых) белков в качестве входных данных, JUMPn стремится организовать протеом в многоуровневую иерархию белковых кластеров, совместно экспрессируемых в образцах и плотно связанных модулях PPI (например, белковых комплексах), которые дополнительно аннотируются в общедоступных базах данных путей путем анализа чрезмерного представления (или обогащения) (рисунок 1). JUMPn разработан с использованием платформы R/Shiny40 для удобного интерфейса и объединяет три основных функциональных модуля: кластерный анализ коэкспрессии, анализ обогащения путей и сетевой анализ PPI (рисунок 1). После каждого анализа результаты автоматически визуализируются и настраиваются с помощью функций виджетов R/shiny и легко загружаются в виде таблиц публикации в формате Microsoft Excel. В следующем протоколе мы используем количественные данные всего протеома в качестве примера и описываем основные этапы использования JUMPn, включая установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, анализ сети коэкспрессии и анализ модуля PPI, визуализацию и интерпретацию результатов, а также устранение неполадок. Программное обеспечение JUMPn находится в свободном доступе на GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ПРИМЕЧАНИЕ: В этом протоколе использование JUMPn иллюстрируется использованием опубликованного набора данных о профилировании всего протеома во время дифференцировки В-клеток, количественно определяемого изобарическим реагентомметки TMT 27.

1. Настройка программного обеспечения JUMPn

ПРИМЕЧАНИЕ: Для настройки программного обеспечения JUMPn предусмотрены два варианта: (i) установка на локальный компьютер для личного использования; и ii) развертывание JUMPn на удаленном блестящем сервере для нескольких пользователей. Для локальной установки достаточно персонального компьютера с выходом в Интернет и ≥4 Гб оперативной памяти для выполнения анализа JUMPn для набора данных с небольшим размером выборки (n < 30); для анализа больших когорт (например, 16 Гб) требуется большая оперативная память (например, n = 200 выборок).

  1. Установите программное обеспечение на локальный компьютер. После установки разрешите веб-браузеру запустить JUMPn и позвольте анализу выполниться на локальном компьютере.
    1. Установите anaconda42 или miniconda43 , следуя онлайн-инструкциям.
    2. Загрузите исходный код JUMPn41. Дважды щелкните, чтобы распаковать загруженный файл JUMPn_v_1.0.0.zip; будет создана новая папка с именем JUMPn_v_1.0.0.
    3. Откройте терминал командной строки. В Windows используйте приглашение Anaconda. В MacOS используйте встроенное приложение «Терминал».
    4. Создайте среду JUMPn Conda: получите абсолютный путь к папке JUMPn_v_1.0.0 (например, /path/to/JUMPn_v_1.0.0). Чтобы создать и активировать пустую среду Conda, введите в терминале следующие команды
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda активировать /path/to/JUMPn_v_1.0.0/JUMPn
    5. Установите зависимости JUMPn: установите R (на терминале введите conda install -c conda-forge r=4.0.0 -y), измените текущий каталог на папку JUMPn_v_1.0.0 (в терминале введите cd path/to/JUMPn_v_1.0.0) и установите пакеты зависимостей (на терминале введите Rscript bootstrap. R)
    6. Запустите JUMPn в веб-браузере: измените текущий каталог на папку выполнения (на терминале введите выполнение cd) и запустите JUMPn (на терминале введите R -e "shiny::runApp()")
    7. Как только вышесказанное будет выполнено, на экране терминала появится окно Прослушивания на http://127.0.0.1:XXXX (здесь XXXX указывает 4 случайных числа). Скопируйте и вставьте http://127.0.0.1:XXXX в веб-браузер, в котором появится страница приветствия JUMPn (рисунок 2).
  2. Развертывание на Shiny Server. Примеры Shiny Server включают коммерческий сервер shinyapps.io или любые институционально поддерживаемые Shiny Servers.
    1. Скачайте и установите RStudio, следуя инструкции44.
    2. Получите разрешение на развертывание для Shiny Server. Для сервера shinyapps.io настройте учетную запись пользователя, следуя инструкции45. Для институционального сервера Shiny обратитесь к администратору сервера для запроса разрешений.
    3. Загрузите исходный код JUMPn41 на локальный компьютер; Установка не требуется. Откройте любой из серверов. R или ui. R файлов в RStudio и щелкните раскрывающееся меню Опубликовать на сервере в правом верхнем углу среды разработки RStudio.
    4. На панели Опубликовать в учетной записи введите адрес сервера. Нажмите кнопку Опубликовать . Успешное развертывание проверяется при автоматическом перенаправлении с RStudio на сервер RShiny, на котором было развернуто приложение.

2. Демонстрационный запуск с использованием примера набора данных

ПРИМЕЧАНИЕ: JUMPn предлагает демонстрационный запуск с использованием опубликованного набора данных протеомики В-клеток. Демонстрационный запуск иллюстрирует оптимизированный рабочий процесс, который принимает матрицу количественной оценки дифференциально экспрессированных белков в качестве входных данных и последовательно выполняет кластеризацию коэкспрессии, обогащение путей и сетевой анализ PPI.

  1. На домашней странице JUMPn (рисунок 2) нажмите кнопку Начать анализ , чтобы начать анализ JUMPn.
  2. В левом нижнем углу страницы Начать анализ (рисунок 3) нажмите на кнопку Загрузить демонстрационные протеомные данные B-клеток ; появится диалоговое окно с уведомлением об успешной загрузке данных.
  3. В правом нижнем углу страницы нажмите на кнопку Отправить анализ JUMPn , чтобы начать демонстрационный запуск с использованием параметров по умолчанию; появится индикатор выполнения, обозначающий ход анализа. Подождите, пока индикатор выполнения не будет выполнен (ожидается 3 мин).
  4. После завершения демонстрационного запуска появится диалоговое окно с сообщением об успешном запуске и абсолютным путем к папке результатов. Нажмите «Продолжить к результатам», чтобы продолжить.
  5. Веб-страница сначала направит пользователя к результатам кластера со-выражений WGCNA. Нажмите «Просмотреть результаты» в диалоговом окне, чтобы продолжить.
  6. Найдите шаблоны коэкспрессии белка слева на странице результатов 1: Вывод WGCNA . Щелкните раскрывающийся список Выбрать формат выражения , чтобы перейти между двумя форматами рисунков:
    1. Выберите Тенденции , чтобы отобразить график тенденций, где каждая строка представляет индивидуальное содержание белка в выборках. Цвет каждой линии показывает, насколько близок шаблон выражения к консенсусу кластера со-выражений (т. Е. «eigengene», как определено алгоритмом WGCNA).
    2. Выберите Boxplot , чтобы отобразить шаблоны совместного выражения в формате boxplot для каждого примера.
  7. Просмотрите тепловую карту обогащения пути/онтологии справа от выходной страницы WGCNA. Наиболее высокообогащенные пути для каждого кластера отображаются вместе на тепловой карте, причем интенсивность цвета отражает скорректированное Бенджамини-Хохбергом p-значение.
  8. Прокрутите веб-страницу вниз, чтобы просмотреть шаблон выражения для отдельных белков.
    1. В раскрывающемся списке Выберите кластер совместного выражения для просмотра белков из каждого кластера (по умолчанию используется кластер 1). Выберите конкретный белок в таблице, на котором график бара под таблицей будет автоматически обновлен, чтобы отразить его содержание белка.
    2. Поиск конкретных названий белков с помощью поля Поиск в правой части таблицы для определенного белка.
  9. Чтобы просмотреть результаты PPI, нажмите на страницу результатов 2: Вывод PPI вверху.
  10. Щелкните Выбрать кластер совместного выражения, чтобы просмотреть результаты для определенного кластера совместного выражения (по умолчанию — кластер 1). Отображение всех фигурных панелей на этой странице будет обновлено для вновь выбранного кластера.
  11. Просмотрите сети PPI для выбранного кластера с выражением мнений на панели рисунков слева:
    1. Щелкните раскрывающийся список Выбрать по группе , чтобы выделить отдельные модули PPI в сети. Щелкните раскрывающийся список Выбрать формат сетевого макета , чтобы изменить сетевую компоновку (по умолчанию — Fruchterman Reingold).
    2. Используйте мышь и трекпад для выполнения шагов 2.11.3-2.11.5.
    3. При необходимости увеличьте или уменьшите масштаб сети PPI. Имена генов каждого узла в сети будут показаны при достаточном увеличении.
    4. При увеличении масштаба выберите и щелкните определенный белок, чтобы выделить этот белок и его сетевых соседей.
    5. Перетащите определенный узел (белок) в сеть, чтобы изменить его положение в макете; таким образом, макет сети может быть реорганизован пользователем.
  12. На правой панели страницы результатов PPI просмотрите информацию на уровне кластера со-выражения, которая помогает интерпретировать результаты PPI:
    1. По умолчанию шаблон совместного выражения выбранного кластера рассматривается как прямоугольный фрагмент.
    2. Щелкните раскрывающийся список Выберите формат выражения для получения дополнительной информации или отображения, как указано в шагах 2.12.3-2.12.5.
    3. Выберите Тенденции , чтобы отобразить график трендов для шаблона совместного выражения.
    4. Выберите Pathway Barplot , чтобы показать значительно обогащенные пути для кластера коэкспрессии.
    5. Выберите «Контур контура пути», чтобы отобразить значительно обогащенные пути для кластера совместного выражения в формате кругового графика.
  13. Прокрутите вниз страницу Результаты 2: Вывод PPI , чтобы просмотреть результаты на уровне отдельного модуля PPI. Щелкните раскрывающийся список Выбрать модуль , чтобы выбрать конкретный модуль PPI для отображения (Кластер1: Модуль 1 отображается по умолчанию).
  14. Просмотрите модуль PPI на левой панели. Чтобы управлять сетевым дисплеем, выполните действия 2.11.2-2.11.5.
  15. Просмотрите результаты обогащения пути/онтологии на правой панели. Щелкните раскрывающийся список Выберите стиль аннотации Pathway для получения дополнительной информации и отображения:
    1. Выберите Barplot , чтобы отобразить значительно обогащенные пути для выбранного модуля PPI.
    2. Выберите Circle Plot , чтобы отобразить значительно обогащенные пути для выбранного модуля PPI в формате кругового графика.
    3. Выберите Тепловая карта , чтобы показать значительно обогащенные пути и связанные с ними имена генов из выбранного модуля PPI.
    4. Выберите Таблица , чтобы показать подробные результаты обогащения путей, включая названия путей / онтологических терминов, имена генов и значение P по точному тесту Фишера.
  16. Просмотрите таблицу публикаций в формате электронной таблицы: следуйте абсолютному пути (напечатанному в верхней части обеих страниц результатов) и найдите таблицу электронной таблицы публикации с именем ComprehensiveSummaryTables.xlsx.

3. Подготовка входного файла и загрузка в JUMPn

ПРИМЕЧАНИЕ: JUMPn принимает в качестве входных данных матрицу количественной оценки либо дифференциально экспрессированных белков (контролируемый метод), либо наиболее переменных белков (неконтролируемый метод). Если целью проекта является понимание белков, измененных в нескольких условиях (например, различные группы заболеваний или анализ биологических процессов временных рядов), предпочтительным является контролируемый метод выполнения анализа DE; в противном случае для исследовательской цели может быть использован неконтролируемый подход к выбору наиболее изменчивых белков.

  1. Создайте таблицу количественной оценки белка, в которой каждый белок будет представлять собой строки, а каждый образец — столбцами. Достигните этого с помощью современного программного обеспечения протеомики на основе масс-спектрометрии (например, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
  2. Определите переменную протеом.
    1. Используйте результаты статистического анализа, предоставляемые программным пакетом протеомики, для определения дифференциально экспрессированных (DE) белков (например, с скорректированным p-значением < 0,05).
    2. Альтернативно, пользователи могут следовать примеру R-кода47 , чтобы определить либо DE, либо большинство переменных белков.
  3. Отформатируйте входной файл, используя определенную переменную протеома.
    ПРИМЕЧАНИЕ: Требуемый формат входного файла (рисунок 4) включает строку заголовка; столбцы включают присоединение белка (или любые уникальные идентификаторы), GN (официальные символы генов), описание белка (или любую информацию, предоставленную пользователем), с последующей количественной оценкой белка отдельных образцов.
    1. Следуйте порядку столбцов, указанному на шаге 3.1, но имена столбцов заголовка являются гибкими для пользователя.
    2. Для ТМТ (или аналогичного) количественного протеома используйте суммированную интенсивность репортера ТМТ в качестве входных количественных значений. Для данных без меток используйте либо нормализованные спектральные показатели (например, NSAF48), либо метод, основанный на интенсивности (например, интенсивность LFQ или интенсивность белка iBAQ, о которой сообщает Maxquant46).
    3. Отсутствующие значения разрешены для анализа JUMPn. Убедитесь, что они помечены как NA в матрице количественной оценки. Тем не менее, рекомендуется использовать только белки с количественной оценкой в более чем 50% образцов.
    4. Сохраните полученный входной файл в формате .txt, .xlsx или .csv (все три поддерживаются JUMPn).
  4. Загрузите входной файл:
    1. Нажмите кнопку Browser и выберите входной файл (рисунок 3, левая панель); формат файла (поддерживаются xlsx, csv и txt ) будет определен автоматически.
    2. Если входной файл содержит значения количественной оценки, подобные интенсивности (например, сгенерированные JUMP suite39) или коэффициентоподобные (например, из Proteome Discoverer), выберите Да для опции Выполнить Log2-Преобразование данных; в противном случае данные, возможно, уже преобразованы в журнал, поэтому выберите Нет для этого параметра.

4. Кластерный анализ коэкспрессии

ПРИМЕЧАНИЕ: Наша группа 25,26,27 и другие 28,29,31 доказали, что WGCNA49 является эффективным методом кластерного анализа коэкспрессии количественной протеомики. JUMPn следует 3-этапной процедуре для анализа WGCNA25,50: (i) первоначальное определение кластеров генов/белков коэкспрессии путем динамического разрезания дерева51 на основе топологической матрицы перекрытия (TOM; определяется количественным сходством между генами/белками); ii) слияние аналогичных кластеров для уменьшения избыточности (на основе дендрограммы сходства эйгенгена); и (iii) окончательное присвоение генов/белков каждому кластеру, которые превышают минимальный порог корреляции Пирсона.

  1. Настройка параметров WGCNA (рисунок 3, средняя панель). Следующие три параметра управляют тремя шагами соответственно:
    1. Установите минимальный размер кластера равным 30. Этот параметр определяет минимальное количество белков, необходимое для каждого кластера коэкспрессии на начальном этапе (i) гибридной динамической резки дерева на основе TOM. Чем больше значение, тем меньше количество кластеров, возвращаемых алгоритмом.
    2. Установите минимальное расстояние между кластерами равным 0,2. Увеличение этого значения (например, с 0,2-0,3) может привести к большему слиянию кластеров на этапе (ii), что приведет к меньшему числу кластеров.
    3. Установите минимальный kME равным 0,7. Белки будут отнесены к наиболее коррелированному кластеру, определенному на этапе (ii), но будут сохранены только белки с корреляцией Пирсона, проходящей этот порог. Белки, которые выходят из строя на этом этапе, не будут назначены ни одному кластеру (кластер «NA» для неудачных белков в окончательном отчете).
  2. Инициируйте анализ. Существует два способа представления анализа кластеризации соэкспрессий:
    1. Нажмите кнопку «Отправить анализ JUMPn » в правом нижнем углу, чтобы автоматически начать комплексный анализ WGCNA, за которым следует сетевой анализ PPI.
    2. В качестве альтернативы выберите выполнение только шага WGCNA (особенно для целей настройки параметров; см. шаги 4.2.3-4.2.4):
    3. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. В нижнем виджете Выберите режим анализа, выберите Только WGCNA, затем нажмите «Закрыть», чтобы продолжить.
    4. На странице Начать анализ нажмите кнопку Отправить анализ JUMPn .
    5. В любом случае при отправке анализа появится индикатор выполнения.
      ПРИМЕЧАНИЕ: После завершения анализа (обычно < 1 мин для анализа WGCNA Only и <3 мин для всестороннего анализа) появится диалоговое окно с сообщением об успешном запуске и абсолютным путем к папке результатов.
  3. Изучите результаты WGCNA, как показано на шагах 2.4-2.8 (рисунок 5). Обратите внимание, что абсолютный путь к файлу co_exp_clusters_3colums.txt выделен в верхней части страницы результатов: вывод WGCNA для записи кластерной принадлежности каждого белка и использования его в качестве входных данных для анализа только PPI .
  4. Устранение неполадок. Обсуждаются следующие три распространенных случая. После обновления параметров, как описано ниже, выполните шаги 4.2.2-4.2.4 для получения новых результатов WGCNA.
    1. Если один важный шаблон совместного выражения ожидается от данных, но пропущен алгоритмом, выполните шаги 4.4.2-4.4.4
    2. Отсутствующий кластер особенно вероятен для небольших кластеров коэкспрессии, то есть только ограниченного количества (например, <30) белков, проявляющих этот паттерн. Перед повторным анализом повторно изучите входной файл матрицы количественной оценки белка и найдите несколько положительных контрольных белков, которые придерживаются этого важного паттерна коэкспрессии.
    3. Чтобы спасти небольшие кластеры, уменьшите минимальный размер кластера (например, 10; размер кластера менее 10 может быть ненадежным, поэтому не рекомендуется) и уменьшите минимальное расстояние кластера (например, 0,1; здесь также допускается установка 0, что означает, что автоматическое слияние кластеров будет пропущено).
    4. После выполнения шага кластеризации коэкспрессии с обновленными параметрами сначала проверьте, спасен ли кластер из графиков шаблонов коэкспрессии, затем проверьте положительные элементы управления, выполнив поиск их белковых присоединения из Подробной количественной оценки белка (обязательно выберите соответствующий кластер коэкспрессии из раскрывающегося виджета левой стороны перед поиском).
      ПРИМЕЧАНИЕ: Для спасения может потребоваться несколько итераций настройки параметров и повторного запуска.
    5. Если существует слишком много белков, которые не могут быть назначены ни одному кластеру, выполните шаги 4.4.6-4.4.7.
      ПРИМЕЧАНИЕ: Обычно небольшой процент (обычно <10%) белков не может быть отнесен к какому-либо кластеру, поскольку они могут быть исключением белков, которые не следовали ни одному из общих паттернов экспрессии набора данных. Однако, если такой процент является значительным (например, >30%), это говорит о том, что существуют дополнительные шаблоны совместного выражения, которые нельзя игнорировать.
    6. Уменьшите параметры Минимального размера кластера и Минимального расстояния до кластера, чтобы облегчить эту ситуацию, обнаружив «новые» кластеры совместного выражения.
    7. Кроме того, уменьшите параметр минимальной корреляции Пирсона (kME), чтобы уменьшить эти белки кластера NA.
      ПРИМЕЧАНИЕ: Настройка этого параметра не будет генерировать новые кластеры, а вместо этого увеличит размер «существующих» кластеров, принимая больше ранее вышедших из строя белков с более низким порогом; однако это также увеличит гетерогенность каждого кластера, так как теперь разрешено больше шумных белков.
    8. Два кластера имеют очень незначительную разницу в паттернах; объедините их в один кластер, выполнив шаги 4.4.9-4.4.11.
    9. Увеличьте параметр Минимальное расстояние кластера, чтобы решить проблему.
    10. Однако в некоторых ситуациях алгоритм может никогда не вернуть нужный паттерн; в такой момент вручную настроить или отредактировать членство в кластере в файле co_exp_clusters_3colums.txt (файл из шага 4.3) для слияния.
    11. Принимайте файл после редактирования в качестве входных данных для последующего сетевого анализа PPI. В случае ручного редактирования обосновать критерии присвоения кластера, а также запишите процедуру ручного редактирования.

5. Анализ сети белково-белкового взаимодействия

ПРИМЕЧАНИЕ: При наложении кластеров коэкспрессии на сеть PPI каждый кластер совместного выражения дополнительно стратифицируется на более мелкие модули PPI. Анализ выполняется для каждого кластера коэкспрессии и включает в себя два этапа: на первом этапе JUMPn накладывает белки из кластера коэкспрессии на сеть PPI и находит все связанные компоненты (т.е. множественные кластеры связанных узлов/белков; в качестве примера см. рисунок 6A); затем сообщества или модули (плотно связанных узлов) будут обнаружены для каждого подключенного компонента итеративно с использованием метода52 топологической матрицы перекрытия (TOM).

  1. Настройка параметров сетевого анализа PPI (рисунок 3, правая панель).
    1. Установите минимальный размер модуля PPI равным 2. Этот параметр определяет минимальный размер разъединенных компонентов с первого этапа анализа. Любой компонент, меньший, чем указанный параметр, будет удален из конечных результатов.
    2. Установите максимальный размер модуля PPI равным 40. Большие, разрозненные компоненты, которые проходят этот порог, будут подвергаться второму этапу анализа на основе TOM. Анализ второго этапа будет далее разделять каждый большой компонент на более мелкие модули: каждый модуль, по-видимому, содержит белки, более плотно связанные, чем исходный компонент в целом.
  2. Инициируйте анализ. Существует два способа представления сетевого анализа PPI:
    1. Нажмите кнопку Submit JUMPn Analysis (Отправить анализ JUMPn), чтобы автоматически выполнить анализ PPI после анализа WGCNA по умолчанию.
    2. Кроме того, можно загрузить настраиваемые результаты кластера совместного выражения и выполнить анализ только PPI , выполнив шаги 5.2.3-5.2.5.
    3. Подготовьте входной файл, следуя формату файла co_exp_clusters_3colums.txt (см. подраздел 4.4).
    4. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. В верхнем сеансе Загрузить результат кластера совместного выражения для анализа 'PPI Only' нажмите на Браузер , чтобы загрузить входной файл, подготовленный на шаге 5.2.3.
    5. В нижнем виджете выберите режим анализа, выберите только PPI, затем нажмите «Закрыть», чтобы продолжить. На странице Начать анализ нажмите кнопку Отправить анализ JUMPn .
  3. После завершения анализа (обычно <3 мин) изучите результаты PPI, как показано на шагах 2.10-2.15 (рисунок 6).
  4. Дополнительный расширенный шаг) Настройте модульность PPI, настроив параметры:
    1. Увеличьте параметр Максимальный размер модуля , чтобы включить больше белков в результаты PPI. Загрузите настроенную сеть PPI для покрытия недокументированных взаимодействий, выполнив шаги 5.4.2-5.4.3.
    2. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. Подготовьте настроенный PPI-файл, содержащий три столбца в формате , C onnection и ; здесь представлены официальными названиями генов каждого белка.
    3. В разделе Загрузка базы данных PPI нажмите кнопку Обзор , чтобы загрузить настроенный файл PPI.

6. Анализ обогащения путей

ПРИМЕЧАНИЕ: Производные от JUMPn иерархические структуры как кластеров коэкспрессий, так и модулей PPI внутри автоматически аннотируются чрезмерно представленными путями с использованием точного теста Фишера. Используемые базы данных путей/топологий включают Gene Ontology (GO), KEGG, Hallmark и Reactome. Пользователи могут использовать расширенные опции для загрузки пользовательских баз данных для анализа (например, в случае анализа данных от нечеловеческих видов).

  1. По умолчанию анализ обогащения пути инициируется автоматически с помощью кластеризации коэкспрессий и сетевого анализа PPI.
  2. Просмотрите результаты обогащения пути:
    1. Выполните шаги 2.7, 2.12 и 2.15, чтобы визуализировать различные форматы на страницах результатов. Просмотр подробных результатов в таблице публикации электронной таблицы в файле ComprehensiveSummaryTables.xlsx (шаг 2.16).
  3. (Необязательный дополнительный шаг) Загрузите настраиваемую базу данных для анализа обогащения пути:
    1. Подготовьте фоновый файл гена, который обычно содержит официальные названия генов всех генов вида.
    2. Подготовьте файл библиотеки онтологии, выполнив шаги 6.3.3-6.3.4.
    3. Загрузите файлы библиотеки онтологии с общедоступных веб-сайтов, включая EnrichR53 и MSigDB54. Например, скачайте онтологию от Drosophila с сайта EnrichR55.
    4. Отредактируйте загруженный файл для требуемого формата с двумя столбцами: имя пути в качестве первого столбца, а затем официальные символы гена (разделенные «/») в качестве второго столбца. Подробный формат файла описан на странице справки блестящего программного обеспечения JUMPn R.
      ПРИМЕЧАНИЕ: Найдите примеры файлов генного фона и библиотеки онтологии (используя Drosophila в качестве примера) на сайте JUMPn GitHub56.
    5. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ»; появится новое окно параметров.
    6. Найдите пункт «Загрузить фоновый файл для анализа обогащения пути» и нажмите «Браузер», чтобы загрузить фоновый файл, подготовленный на шаге 6.3.1. Затем в сеансе выберите фон, который будет использоваться для анализа обогащения пути, нажмите « Фон, предоставленный пользователем».
    7. Найдите загрузить файл библиотеки онтологии для элемента анализа обогащения Пути и нажмите на браузер, чтобы загрузить файл библиотеки онтологии, подготовленный на шагах 6.3.2-6.3.4. Затем в сеансе выберите базы данных для анализа обогащения пути, нажмите на предоставленную пользователем базу данных в формате .xlsx.
  4. Нажмите кнопку Отправить анализ JUMPn в правом нижнем углу, чтобы начать анализ с использованием настроенной базы данных.

7. Анализ набора данных с большим размером выборки

ПРИМЕЧАНИЕ: JUMPn поддерживает анализ набора данных с большим размером выборки (до 200 протестированных образцов). Чтобы упростить визуализацию большого размера выборки, необходим дополнительный файл (называемый «метафайл»), в котором указана группа образцов, чтобы облегчить отображение результатов кластеризации совместных выражений.

  1. Подготовьте и загрузите метафайл.
    1. Подготовьте метафайл, в котором указана информация о группе (например, контрольные группы и группы заболеваний) для каждого образца, выполнив шаги 7.1.2-7.1.3.
    2. Убедитесь, что метафайл содержит по крайней мере два столбца: столбец 1 должен содержать имена образцов, идентичные именам столбцов и порядку из файла матрицы количественной оценки белка (как подготовлено на шаге 3.3); Столбец 2 и далее будет использоваться для назначения групп для любого количества объектов, определенных пользователем. Количество столбцов является гибким.
    3. Убедитесь, что первая строка метафайла содержит имена столбцов для каждого столбца; начиная со второй строки, должна быть указана индивидуальная выборочная информация о группах или других признаках (например, пол, возраст, лечение и т.д.).
    4. Загрузите метафайл, нажав на кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. Перейдите к шагу 7.1.5
    5. Найдите пункт «Загрузить метафайл » и нажмите «Браузер», чтобы загрузить фоновый файл. Если JUMPn обнаружит неожиданный формат или несопоставимые имена образцов, появится сообщение об ошибке для дальнейшего форматирования метафайла (шаги 7.1.1-7.1.3).
  2. Настройте параметры кластерного анализа коэкспрессии: установите минимальную корреляцию Пирсона как 0,2. Этот параметр необходимо ослабить из-за большего размера выборки.
  3. Нажмите кнопку «Отправить анализ JUMPn » в правом нижнем углу, чтобы отправить анализ.
  4. Просмотр результатов анализа: все выходные данные одинаковы, за исключением отображения шаблонов кластера совместных выражений.
    1. На странице результатов 1: выходные данные WGCNA визуализируйте кластеры совместных выражений в виде коробочных графиков с образцами, стратифицированными по определяемым пользователем группам выборок или функциям. Каждая точка на графике представляет эйгенген (т.е. шаблон консенсуса кластера), рассчитанный алгоритмом WGCNA.
    2. Если пользователь предоставил несколько функций (например, возраст, пол, лечение и т. д.) для группировки образцов, щелкните раскрывающийся список Выберите формат выражения , чтобы выбрать другую функцию для группировки образцов.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Мы использовали наши опубликованные наборы данных глубокой протеомики 25,26,27,30 (рисунки 5 и 6), а также моделирование данных 57 (таблица 1) для оптимизации и оценки производительности JUMPn. Для анализа кластеризации белков совместной экспрессии с помощью WGCNA мы рекомендуем использовать белки, значительно измененные в разных образцах в качестве входных данных (например, дифференциально экспрессированные (DE) белки, обнаруженные статистическим анализом). Хотя включение не-DE белков для анализа может привести к большему количеству кластеров коэкспрессии, возвращаемых программой (из-за большего размера входных данных), мы предполагаем, что смешивание реального сигнала (например, белков DE) с фоном (оставшимся не-DE) для анализа на системном уровне может разбавить сигнал и замаскировать базовую сетевую структуру. Чтобы проверить это, симуляционный анализ проводили в двух различных условиях: i) высокодинамичный протеом (например, 50% измененный в активации Т-клеток25) и ii) относительно стабильный протеом (например, 2% протеома, измененного в AD26). Для высокодинамического протеома шесть кластеров коэкспрессии были смоделированы из 50% протеома, следуя тем же размерам кластера и паттернам экспрессии (т. Е. Собственными) из наших опубликованных результатов25. Аналогичным образом, для относительно стабильного протеома мы смоделировали три кластера из 2% протеома после нашего недавнего исследования протеомики AD26. Как и ожидалось, увеличение входного числа белков увеличивает количество обнаруженных кластеров (табл. 1). Для высокодинамичного протеома использование всех белков в качестве входных данных может захватить большинство истинных кластеров (5 из 6 смоделированных добросовестных кластеров; 83% отзыва) с точностью 63% (5 из 8 возвращенных кластеров являются истинными положительными; то есть остальные 3 кластера являются ложными срабатываниями). Однако для относительно стабильного протеома увеличение входного размера с белками, не содержащими DE, резко снижает точность (таблица 1). Например, при использовании всего протеома в качестве входных данных обнаруживается 169 модулей, из которых только 2 являются правильными (точность 1,2%; остальные 98,8% обнаруженных модулей являются ложными срабатываниями). Таким образом, эти результаты указывают на то, что выбор только измененного протеома в качестве входных данных повысит точность анализа коэкспрессии, особенно для относительно стабильного протеома.

После обнаружения кластеров белков коэкспрессии каждый кластер будет аннотирован JUMPn с использованием анализа обогащения путей (рисунок 1). Текущая версия включает в себя четыре часто используемые базы данных путей, включая Gene Ontology (GO), KEGG, Hallmark и Reactome. Пользователи также могут составить свою собственную базу данных в формате GMT54, которая может быть загружена в JUMPn. Интеграция нескольких баз данных для анализа обогащения путей может обеспечить более полное представление; однако размеры различных баз данных путей значительно различаются, что может привести к нежелательному смещению определенных (особенно больших) баз данных. В рамках JUMPn предоставляются два решения. Во-первых, используя статистический подход, номинальные значения p корректируются (или наказываются) для проверки нескольких гипотез методом Бенджамини-Хохберга58, при этом более крупная база данных требует более значительного номинального значения p для достижения того же скорректированного уровня p, чем из небольшой базы данных. Во-вторых, JUMPn выделяет верхний значительно обогащенный путь для каждой базы данных отдельно, таким образом, всегда отображаются специфичные для базы данных верхние обогащенные пути.

Подобно анализу обогащения путей, составная сеть PPI была составлена путем объединения баз данных STRING59,60, BioPlex 61,62 и InWeb_IM63. База данных BioPlex была создана с использованием аффинной очистки с последующей масс-спектрометрией в клеточных линиях человека, тогда как STRING и InWeb содержат информацию из различных источников. Поэтому базы данных STRING и InWeb были дополнительно отфильтрованы по краевой оценке для обеспечения высокого качества, причем отсечение определялось наилучшим соответствием критерию безмасштабирования24. Окончательная объединенная сеть PPI охватывает более 20 000 человеческих генов с ~ 1 100 000 ребер (таблица 2). Этот комплексный интерактом включен и опубликован в комплекте с нашим программным обеспечением JUMPn для чувствительного анализа PPI.

После завершения анализа JUMPn генерирует файл таблицы публикаций ComprehensiveSummaryTables.xlsx, состоящий из трех отдельных листов. Первый лист содержит результаты кластеров белка коэкспрессии с одним белком на строку: первый столбец указывает на кластерную принадлежность каждого входного белка, а остальные столбцы копируются из пользовательского входного файла, который содержит присоединение белка, имена генов, описание белка и количественную оценку отдельных образцов. Второй лист содержит результаты анализа обогащения путей, отображающие значительные пути, обогащенные в каждом кластере коэкспрессии. Эта таблица сначала организована различными базами данных путей, а затем отсортирована по кластерам коэкспрессии, функциональным путям, общему количеству генов путей, общему количеству генов в отдельном кластере, перекрываемым номерам и именам генов, складке обогащения, точным тестовым значениям Фишера и частоте ложных открытий Бенджамини-Хохберга. Третий лист содержит результаты анализа модуля PPI с одним модулем PPI на строку; его столбцы включают имя модуля (определяемое его принадлежностью к совместному выражению и идентификатором модуля, например, Cluster1_Module1), сопоставленные белки и числа, а также функциональные пути, которые определяются путем поиска белков модуля по базам данных путей.

Figure 1
Рисунок 1: Рабочий процесс JUMPn. Матрица количественной оценки верхней переменной дифференциально экспрессированных (DE) белков принимается в качестве входных данных, а белки группируются в кластеры коэкспрессии алгоритмом WGCNA. Каждая коэкспрессия затем аннотируется анализом обогащения путей и далее накладывается на сеть белково-белкового взаимодействия (PPI) для идентификации плотно связанных белковых модулей. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 2
Рисунок 2: Страница приветствия JUMPn. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 3
Рисунок 3: Страница ввода JUMPn. Страница включает в себя панель загрузки входных файлов и панели конфигурации параметров для кластеризации совместного выражения и сетевого анализа PPI соответственно. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 4
Рисунок 4: Пример входного файла матрицы количественной оценки. Столбцы включают присоединение белка (или любые уникальные идентификаторы), GN (официальные символы генов), описание белка (или любую информацию, предоставленную пользователем), за которым следует количественная оценка белка отдельных образцов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 5
Рисунок 5: Результаты кластера коэкспрессии, сообщаемые JUMPn. Показаны паттерны кластеризации коэкспрессии (A), тепловая карта верхнего обогащенного пути по кластерам (B) и подробное содержание белка для каждого кластера (C). Пользователи могут выбирать различные параметры отображения и перемещаться между различными кластерами через поле выбора. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 6
Рисунок 6: Результаты сетевого анализа PPI, представленные JUMPn. Показана глобальная межмодульная сеть (A), за которой следует подсеть отдельных модулей (B) и ее значительно обогащенные пути (C). Пользователи могут выбирать различные параметры отображения и перемещаться между различными кластерами и модулями через поле выбора. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

% верхних белков для анализа # моделируемые модули # обнаруженных модулей # отловленные модули1 точность2 отзыв3
Высокодинамичный протеом (например, во время активации Т-клеток): 6 моделируемых модулей из 50% протеома
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Относительно стабильный протеом (например, во время патогенеза БА): 3 смоделированных модуля из 2% протеома
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 См. Отловленный модуль представляет собой обнаруженный модуль, чей эйгенген сильно коррелирует (Pearson R > 0,95) с одним из смоделированных собственных генов.
2точность = # отбитые модули / # обнаруженные модули
3отзыва = # отбитые модули / # моделируемые модули

Таблица 1: Имитационные исследования обнаружения кластеров коэкспрессии.

Сети PPI Нет. узлов Нет. краев
BioPlex 3.0 комбинированный (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
СТРОКА (версия 11.0) 18,954 5,87,482
Композитная сеть PPI 20,485 11,52,607

Таблица 2: Статистика сетей белково-белкового взаимодействия человека (ИЦП). Сети PPI фильтруются по краю оценки для обеспечения высокого качества, при этом отсечение балла определяется наилучшим соответствием критериям безмасштабирования.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Здесь мы представили наше программное обеспечение JUMPn и его протокол, которые были применены в нескольких проектах для препарирования молекулярных механизмов с использованием глубоких количественных данных протеомики 25,26,27,30,64. Программное обеспечение и протокол JUMPn были полностью оптимизированы, включая рассмотрение белков DE для анализа сети коэкспрессии, компиляцию всеобъемлющей и высококачественной сети PPI, строгий статистический анализ (например, с учетом множественной проверки гипотез) с оптимизированным и удобным интерфейсом. Несколько белковых модулей, идентифицированных JUMPn, были подтверждены функциональными экспериментальными исследованиями25,27 или независимыми когортами пациентов26, иллюстрируя JUMPn как эффективный инструмент для идентификации ключевых молекул и путей, лежащих в основе различных биологических процессов.

Критические шаги этого протокола включают генерацию оптимальных результатов кластеров совместного выражения и модулей PPI, которые могут потребовать нескольких итераций настройки параметров, а также загрузки настроенной сети PPI. В нашем протоколе мы обсудили общие практические сценарии, в том числе то, как справиться с отсутствием важных кластеров, высоким процентом неназначенных белков, слиянием двух избыточных кластеров и отсутствием важных белков в модулях PPI. Мы рекомендуем пользователю подготовить несколько положительных контрольных белков и подтвердить их присутствие в конечных кластерах коэкспрессии. Иногда положительный элемент управления никогда не будет включен в окончательные модули PPI из-за неполной сетевой базы данных PPI. Чтобы частично облегчить эту проблему, мы обновили нашу сеть PPI последними версиями BioPlex V362 и STRING V1160. Кроме того, JUMPn позволяет пользователям загружать настроенные сети PPI. Например, новые взаимодействия, полученные в результате экспериментов аффинной очистки-масс-спектрометрии (AP-MS) с использованием важного положительного контрольного белка в качестве приманки, могут быть интегрированы с текущей композитной сетью PPI для более индивидуального анализа.

Используя структуру анализа обогащения путей для каждого кластера белка коэкспрессии, JUMPn может быть расширен для вывода активности транскрипционного фактора (TF). Предполагается, что если существует чрезмерное представление генов-мишеней конкретного TF в кластере коэкспрессии (т. Е. Эти мишени дифференциально экспрессируются и следуют одной и той же схеме экспрессии), активность этого TF потенциально изменяется в экспериментальных условиях, поскольку его содержание целевого белка изменяется последовательно. Технически это может быть просто достигнуто с помощью JUMPn путем замены текущей базы данных пути на базу данных TF-target (например, из проекта ENCODE65). Аналогичным образом, активность киназы также может быть выведена путем использования базы данных киназы-субстрата, принимая в качестве входных данных глубокую фосфопротеомику. В качестве примера мы успешно идентифицировали дисрегулируемые ТФ и киназы, лежащие в основе патогенеза опухоли головного мозга64. Действительно, использование сетевого подхода для вывода о деятельности стало мощным подходом к выявлению нерегулируемых факторов заболеваний человека66,67.

Программное обеспечение JUMPn легко применяется к широкому спектру типов данных. Несмотря на то, что в качестве иллюстративного примера использовалась изобарическая маркировка количественного протеома, тот же протокол применим также к количественным данным протеомики без меток, а также к профилям экспрессии всего генома (например, количественно определенным по РНК-seq или микрочипу; см. наш недавний пример применения JUMPn как для профилей экспрессии генов, так и для профилей экспрессии белка27). Данные фосфопротеомики также могут быть взяты JUMPn для идентификации коэкспрессированных фосфозитов с последующим выводом активности киназы25. Кроме того, данные интерактома, генерируемые подходом AP-MS, также будут уместны, с помощью которых белки добычи, которые следуют аналогичной силе взаимодействия приманки и стехиометрии, будут образовывать кластеры коэкспрессии и дополнительно перекрываться с известными ИПП для интерпретации данных68.

Для текущей версии JUMPn существуют ограничения. Во-первых, процедура установки основана на командной строке и требует базовых знаний информатики. Это препятствует более широкому использованию JUMPn, особенно у биологов без вычислительного опыта. Более идеальной реализацией является публикация JUMPn на онлайн-сервере. Во-вторых, текущие базы данных ориентированы на человека из-за нашего внимания к исследованиям заболеваний человека. Обратите внимание, что данные протеомики, генерируемые мышами, также были проанализированы JUMPn с использованием таких ориентированных на человека баз данных25,27, предполагая, что большинство ИЦП сохраняются у обоих видов69,70. Специфическая для мыши сигнализация не будет охвачена этим подходом, но не представляет интереса для этих исследований на людях. Однако для модельных систем, не относящихся к млекопитающим (например, рыбок данио, мух или дрожжей), базы данных по конкретным видам должны быть подготовлены и загружены в JUMPn с использованием расширенных опций. Ресурсы дополнительных видов могут быть предоставлены через будущий выпуск JUMPn. В-третьих, текущий этап анализа онтологии/пути занимает значительное время, которое может быть дополнительно оптимизировано с помощью параллельных вычислений.

В заключение мы представляем программное обеспечение и протокол JUMPn для изучения количественных данных протеомики для идентификации и визуализации совместно выраженных и потенциально физически взаимодействующих белковых модулей с помощью подхода системной биологии. Ключевые особенности, отличающие JUMPn от других53 71 72, включают: (i) JUMPn интегрирует и оптимизирует четыре основных компонента анализа путей и сетей (рисунок 1); ii) В отличие от большинства программ для анализа путей, которые принимают простой список генов в качестве входных данных, JUMPn начинается с матрицы количественной оценки, с помощью которой количественная информация может быть легко интегрирована с документально подтвержденными в литературе путями и сетями; iii) как кластеры белков коэкспрессии, так и модули взаимодействия автоматически аннотируются известными путями и визуализируются через взаимодействующую платформу R/shiny с помощью удобного для пользователя веб-браузера; iv) окончательные результаты сведены в три таблицы, которые легко публикуются в формате Excel. Таким образом, мы ожидаем, что JUMPn и этот протокол будут широко применимы ко многим исследованиям механизмов препарирования с использованием количественных данных протеомики.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Финансовая поддержка была предоставлена Национальными институтами здравоохранения (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 и U54NS110435) и ALSAC (Американские ливанские сирийские ассоциированные благотворительные организации). Анализ РС был проведен в Центре протеомики и метаболомики детской исследовательской больницы Святого Иуды, который был частично поддержан грантом поддержки Онкологического центра NIH (P30CA021765). Содержание является исключительной ответственностью авторов и не обязательно отражает официальную точку зрения Национальных институтов здравоохранения.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Биохимия выпуск 176
JUMPn: оптимизированное приложение для кластеризации коэкспрессии белка и сетевого анализа в протеомике
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter