Biology

Создание представления транскрипционной регуляции транскриптомных признаков для задачи прогнозирования и обнаружения темных биомаркеров на небольших наборах данных

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Здесь мы представляем протокол для преобразования транскриптомных данных в представление mqTrans, позволяющий идентифицировать темные биомаркеры. Несмотря на то, что эти биомаркеры не экспрессируются дифференциально в обычном транскриптомном анализе, они демонстрируют дифференциальную экспрессию в представлении mqTrans. Этот подход служит дополнением к традиционным методам, выявляя ранее упущенные биомаркеры.

Abstract

Транскриптом представляет собой уровни экспрессии многих генов в образце и широко используется в биологических исследованиях и клинической практике. Исследователи обычно сосредотачивались на транскриптомных биомаркерах с дифференциальными представлениями между фенотипической группой и контрольной группой образцов. В этом исследовании была представлена многозадачная структура обучения сети графового внимания (GAT) для изучения сложных межгенных взаимодействий эталонных образцов. Демонстрационная референсная модель была предварительно обучена на здоровых образцах (HealthModel), которая может быть непосредственно использована для создания представления количественной транскрипционной регуляции на основе модели (mqTrans) независимых тестовых транскриптомов. Сгенерированный mqTrans вид транскриптомов был продемонстрирован задачами прогнозирования и детектирования темных биомаркеров. Термин «темный биомаркер» возник из-за его определения, согласно которому темный биомаркер демонстрирует дифференциальное представление в представлении mqTrans, но не дифференциальную экспрессию на исходном уровне экспрессии. Темный биомаркер всегда упускался из виду в традиционных исследованиях обнаружения биомаркеров из-за отсутствия дифференциальной экспрессии. Исходный код и руководство по конвейеру HealthModelPipe можно скачать с http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Транскриптом состоит из экспрессии всех генов в образце и может быть профилирован с помощью высокопроизводительных технологий, таких как микрочип и РНК-секвенирование¹. Уровни экспрессии одного гена в наборе данных называются транскриптомным признаком, а дифференциальное представление транскриптомного признака между фенотипом и контрольной группами определяет этот ген как биомаркер этого фенотипа ^2,3. Транскриптомные биомаркеры широко используются в исследованиях диагностики заболеваний⁴, биологического механизма⁵, анализа выживаемости ^6,7 и т.д.

Паттерны активности генов в здоровых тканях несут важнейшую информацию о жизни ^8,9. Эти закономерности дают неоценимую информацию и служат идеальными справочными материалами для понимания сложных траекторий развития доброкачественных заболеваний^10,11 и смертельных заболеваний¹². Гены взаимодействуют друг с другом, и транскриптомы представляют собой конечные уровни экспрессии после их сложных взаимодействий. Такие паттерны формулируются как транскрипционная регуляционная сеть¹³ и метаболическая сеть¹⁴ и др. Экспрессия матричных РНК (мРНК) может транскрипционно регулироваться транскрипционными факторами (ТФ) и длинными межгенными некодирующими РНК (линкРНК)15,16,17. Традиционный анализ дифференциальной экспрессии игнорировал такие сложные взаимодействия генов с предположением о независимости между признаками^18,19.

Недавние достижения в области графовых нейронных сетей (GNN) демонстрируют необычайный потенциал в извлечении важной информации из данных, основанных на OMIC, для исследований^рака20, например, идентификация модулей коэкспрессии²¹. Врожденная способность GNN делает их идеальными для моделирования сложных взаимоотношений и зависимостей между генами^22,23.

Биомедицинские исследования часто сосредоточены на точном прогнозировании фенотипа по сравнению с контрольной группой. Такие задачи обычно формулируются в виде бинарных классификаций 24,25,26. Здесь две метки классов обычно кодируются как 1 и 0, true и false или даже positive и negative²⁷.

Это исследование было направлено на предоставление простого в использовании протокола для создания представления транскрипционной регуляции (mqTrans) набора данных транскриптома на основе предварительно обученной эталонной модели сети графового внимания (GAT). Для преобразования транскриптомных признаков в признаки mqTrans был использован многозадачный фреймворк GAT из ранее опубликованной работы²⁶ . Большой набор данных здоровых транскриптомов из платформы Xena²⁸ Калифорнийского университета в Санта-Крузе (UCSC) был использован для предварительного обучения референсной модели (HealthModel), которая количественно измеряла регуляции транскрипции от регуляторных факторов (ТФ и линкРНК) до целевых мРНК. Сгенерированное представление mqTrans может быть использовано для построения моделей прогнозирования и обнаружения темных биомаркеров. В этом протоколе в качестве иллюстративного примера используется набор данных пациентов с аденокарциномой толстой кишки (COAD) из базы данных²⁹ Атласа генома рака (TCGA). В этом контексте пациенты на I или II стадиях классифицируются как отрицательные образцы, в то время как пациенты на III или IV стадиях считаются положительными образцами. Также сравнивается распределение темновых и традиционных биомаркеров по 26 типам рака TCGA.

Описание конвейера HealthModel
Методология, используемая в этом протоколе, основана на ранее опубликованной структуре²⁶, как показано на рисунке 1. Для начала пользователям необходимо подготовить входной набор данных, передать его в предлагаемый конвейер HealthModel и получить функции mqTrans. Подробные инструкции по подготовке данных приведены в разделе 2 раздела протокола. После этого у пользователей есть возможность комбинировать признаки mqTrans с исходными транскриптомными признаками или продолжать только с сгенерированными признаками mqTrans. Затем полученный набор данных подвергается процессу выбора признаков, при этом пользователи могут выбрать предпочтительное значение для k в k-кратной перекрестной проверке для классификации. Основным оценочным показателем, используемым в этом протоколе, является точность.

HealthModel²⁶ классифицирует транскриптомные признаки по трем отдельным группам: TF (транскрипционный фактор), lincRNA (длинная межгенная некодирующая РНК) и mRNA (матричная РНК). Признаки TF определяются на основе аннотаций, доступных в Атласе белков человека^30,31. В данной работе используются аннотации линкРНК из набора данных GTEx³². Гены, принадлежащие к путям третьего уровня в базе данных KEGG³³, рассматриваются как признаки мРНК. Стоит отметить, что если признак мРНК проявляет регуляторную роль для гена-мишени, как это задокументировано в базе данных TRRUST³⁴, он реклассифицируется в класс TF.

Этот протокол также вручную генерирует два файла примеров для идентификаторов генов регуляторных факторов (regulatory_geneIDs.csv) и мРНК-мишеней (target_geneIDs.csv). Матрица попарных расстояний между регуляторными признаками (ТФ и линкРНК) вычисляется с помощью коэффициентов корреляции Пирсона и кластеризуется с помощью популярного инструментального взвешенного сетевого анализа генной коэкспрессии (WGCNA)³⁶ (adjacent_matrix.csv). Пользователи могут напрямую использовать конвейер HealthModel вместе с этими примерами файлов конфигурации для создания представления mqTrans набора транскриптомных данных.

Технические характеристики HealthModel
HealthModel представляет сложные взаимосвязи между ТФ и линкРНК в виде графа, где входные объекты служат вершинами, обозначенными V , и матрицей межвершинных ребер, обозначенной как E. Каждый образец характеризуется К-регуляторными признаками, обозначаемыми как V^K×1. В частности, набор данных включал 425 ТФ и 375 линкРНК, в результате чего размерность выборки составила K = 425 + 375 = 800. Для установления матрицы кромок E в этой работе использовался популярный инструмент WGCNA³⁵. Попарный вес, связывающий две вершины, представленные как Equation 1 и Equation 2 , определяется коэффициентом корреляции Пирсона. Генная регуляторная сеть имеет безмасштабную топологию³⁶, характеризующуюся присутствием генов-концентраторов с ключевыми функциональными ролями. Мы вычисляем корреляцию между двумя объектами или вершинами, Equation 1 и Equation 2 , используя меру топологического перекрытия (TOM) следующим образом:

Equation 3 (1)

Equation 4 (2)

Мягкий пороговый β вычисляется с помощью функции 'pickSoft Threshold' из пакета WGCNA. Применяется степенная экспоненциальная функция _{a ij}, где Equation 5 представляет ген, исключая i и j, и Equation 6 представляет связность вершин. WGCNA кластеризует профили экспрессии транскриптомных признаков в несколько модулей, используя широко используемую меру несходства ( Equation 7 ³⁷.

Фреймворк HealthModel изначально разрабатывался как многозадачная архитектура обучения²⁶. Этот протокол использует только задачу предварительного обучения модели для построения транскриптомного представления mqTrans. Пользователь может дополнительно усовершенствовать предварительно обученную модель HealthModel в многозадачной графовой сети внимания с помощью дополнительных транскриптомных образцов, специфичных для конкретной задачи.

Технические сведения о выборе и классификации функций
Пул выбора признаков реализует одиннадцать алгоритмов выбора признаков (FS). Среди них три алгоритма ФС на основе фильтров: выбор K лучших признаков с использованием максимального коэффициента информации (SK_mic), выбор K признаков на основе FPR MIC (SK_fpr) и выбор K объектов с наибольшим уровнем ложного обнаружения MIC (SK_fdr). Кроме того, три древовидных алгоритма ФС оценивают отдельные признаки с помощью дерева решений с индексом Джини (DT_gini), адаптивного дерева решений (AdaBoost) и случайного леса (RF_fs). Пул также включает в себя два метода-оболочки: рекурсивное исключение признаков с помощью классификатора линейных опорных векторов (RFE_SVC) и рекурсивное исключение признаков с классификатором логистической регрессии (RFE_LR). Наконец, включены два алгоритма внедрения: линейный классификатор SVC с самыми ранжированными значениями важности признаков L1 (lSVC_L1) и классификатор логистической регрессии с самыми ранжированными значениями важности признаков L1 (LR_L1).

Пул классификаторов использует семь различных классификаторов для построения моделей классификации. Эти классификаторы включают в себя линейный метод опорных векторов (SVC), наивный байесовский метод Гаусса (GNB), классификатор логистической регрессии (LR), k-ближайшего соседа, с k, установленным в 5 по умолчанию (KNN), XGBoost, случайный лес (RF) и дерево решений (DT).

Случайное разбиение датасета на обучающие: тестовые подмножества можно задать в командной строке. В приведенном примере используется соотношение train: test = 8:2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ПРИМЕЧАНИЕ: Следующий протокол описывает детали аналитической процедуры информатики и команд Python основных модулей. На рисунке 2 показаны три основных шага с примерами команд, используемых в этом протоколе, и ссылки на ранее опубликованные работы^26,38 для получения более подробной технической информации. Выполните следующие действия по следующему протоколу под обычной учетной записью пользователя в компьютерной системе и избегайте использования учетной записи администратора или root. Это вычислительный протокол, в котором отсутствуют биомедицинские опасные факторы.

1. Подготовьте среду Python

Создайте виртуальную среду.
1. В этом исследовании использовался язык программирования Python и виртуальная среда Python (VE) с Python 3.7. Выполните следующие действия (Рисунок 3A):
  conda create -n healthmodel python=3.7
  conda create - это команда для создания нового VE. Параметр -n указывает имя новой среды, в данном случае healthmodel. А python=3.7 указывает устанавливаемую версию Python. Выберите любое предпочтительное имя и версию Python, поддерживающую приведенную выше команду.
2. После выполнения команды результат будет аналогичен рисунку 3B. Введите y и дождитесь завершения процесса.
Активация виртуальной среды
1. В большинстве случаев активируйте созданную VE следующей командой (рисунок 3C):
  Conda Активация HealthModel
2. Следуйте инструкциям для активации VE для конкретной платформы, если некоторые платформы требуют, чтобы пользователь загрузил файлы конфигурации для конкретной платформы для активации.
Установка PyTorch 1.13.1
1. PyTorch — это популярный пакет Python для алгоритмов искусственного интеллекта (ИИ). В качестве примера используйте PyTorch 1.13.1 на основе платформы программирования графического процессора CUDA 11.7. Другие версии можно найти на https://pytorch.org/get-started/previous-versions/. Используйте следующую команду (рисунок 3D):
  PIP3 Установить фонарик TorchVision TorchAudio
  ПРИМЕЧАНИЕ: Настоятельно рекомендуется использовать PyTorch версии 1.12 или более поздней. В противном случае установка необходимого пакета torch_geometric может быть сложной задачей, как отмечено на официальном сайте torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Установка дополнительных пакетов для резака-геометрии
1. Следуя рекомендациям, приведенным в https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, установите следующие пакеты: torch_scatter, torch_sparse, torch_cluster и torch_spline_conv с помощью команды (рисунок 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Установите пакет torch-geometric .
1. Для этого исследования требуется специальная версия 2.2.0 пакета факел-геометрия . Выполните команду (рисунок 3F):
  pip install torch_geometric==2.2.0
Установите другие пакеты.
1. Такие пакеты, как pandas, обычно доступны по умолчанию. Если нет, установите их с помощью команды pip. Например, чтобы установить pandas и xgboost, выполните:
  pip install pandas
  pip install xgboost

2. Использование предварительно обученной модели HealthModel для генерации признаков mqTrans

Скачайте код и предварительно обученную модель.
1. Загрузите код и предварительно обученную модель HealthModel с веб-сайта: http://www.healthinformaticslab.org/supp/resources.php, который называется HealthModel-mqTrans-v1-00.tar.gz (рисунок 4A). Загруженный файл можно распаковать по указанному пользователем пути. Подробную формулировку и вспомогательные данные внедренного протокола можно найти в²⁶.
Введите параметры для запуска HealthModel.
1. Во-первых, измените рабочий каталог на папку HealthModel-mqTrans в командной строке. Используйте следующий синтаксис для выполнения кода:
  python main.py <папка данных> <папка модели> <выходная папка>
  Ниже приведены подробные сведения о каждом параметре, а также о папках данных, модели и выходных данных.
  Папка данных: Это папка исходных данных, и каждый файл данных имеет формат csv. Эта папка данных содержит два файла (см. подробное описание в шагах 2.3 и 2.4). Эти файлы должны быть заменены персональными данными.
  data.csv: Файл транскриптомной матрицы. В первой строке перечислены идентификаторы признаков (или генов), а в первом столбце — идентификаторы образцов. Список генов включает регуляторные факторы (ТФ и линкРНК), а также регулируемые гены мРНК.
  label.csv: образец файла этикетки. В первом столбце перечислены идентификаторы образцов, а в столбце с именем "label" указан образец метки.
  model folder: Папка для сохранения информации о модели:
  HealthModel.pth: предварительно обученная модель HealthModel.
  regulatory_geneIDs.csv: Идентификаторы регуляторных генов, использованные в этом исследовании.
  target_geneIDs.csv: Гены-мишени, используемые в этом исследовании.
  adjacent_matrix.csv: Соседняя матрица регуляторных генов.
  Выходная папка: Выходные файлы записываются в эту папку, созданную кодом.
  test_target.csv: Значение экспрессии генов-мишеней после Z-нормализации и импутации.
  pred_target.csv: Прогнозируемое значение экспрессии генов-мишеней.
  mq_target.csv: Прогнозируемое значение экспрессии генов-мишеней.
Подготовьте файл транскриптомной матрицы в формате csv.
1. Каждая строка представляет выборку, а каждый столбец — ген (рис. 4B). Назовите файл транскриптомной матрицы как data.csv в папке данных .
  ПРИМЕЧАНИЕ: Этот файл может быть сгенерирован путем ручного сохранения матрицы данных в формате .csv из программного обеспечения, такого как Microsoft Excel. Транскриптомная матрица также может быть сгенерирована с помощью компьютерного программирования.
Подготовьте файл этикетки в формате csv.
1. Как и в случае с файлом транскриптомной матрицы, назовите файл меток как label.csv в папке данных (рисунок 4C).
  ПРИМЕЧАНИЕ: В первом столбце приведены имена образцов, а метка класса каждого образца указана в столбце label. Значение 0 в столбце метки означает, что эта выборка отрицательная, 1 означает положительную выборку.
Сгенерируйте объекты mqTrans.
1. Выполните следующую команду, чтобы сгенерировать объекты mqTrans и получить выходные данные, показанные на рисунке 4D. Функции mqTrans генерируются в виде файла ./output/mq_targets.csv, а файл меток пересохраняется как файл ./output/label.csv. Для удобства дальнейшего анализа исходные значения экспрессии генов мРНК также извлекаются в виде файла ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Выберите функции mqTrans

Синтаксис кода выбора признаков
1. Во-первых, измените рабочий каталог на папку HealthModel-mqTrans . Используйте следующий синтаксис:
  python ./FS_classification/testMain.py
  Подробная информация о каждом параметре приведена ниже:
  in-data-file: Файл входных данных
  in-label-file: Метка файла входных данных
  Выходная папка: В этой папке сохраняются два выходных файла, в том числе Output-score.xlsx (метод выбора признаков и точность соответствующего классификатора) и Output-SelectedFeatures.xlsx (выбранные имена объектов для каждого алгоритма выбора признаков).
  1. select_feature_number: выберите количество объектов в диапазоне от 1 до количества объектов файла данных.
  2. test_size: Задайте соотношение испытуемого образца к разделению. Например, 0,2 означает, что входной набор данных случайным образом разбивается на тестовые подмножества train: в соотношении 0,8:0,2.
  3. combine: Если true, объединять два файла данных для выбора признаков, т.е. исходные значения выражений и объекты mqTrans. Если false, то для выбора признаков используется только один файл данных, т.е. исходные значения выражения или функции mqTrans.
  4. combine file: Если combine имеет значение true, укажите это имя файла для сохранения объединенной матрицы данных.
    ПРИМЕЧАНИЕ: Этот конвейер предназначен для демонстрации того, как сгенерированные объекты mqTrans работают в задачах классификации, и он напрямую использует файл, сгенерированный разделом 2, для следующих операций.
Запустите алгоритм выбора признаков для выбора признаков mqTrans.
1. Включите combine =False , если пользователь выбирает функции mqTrans или исходные функции.
2. Во-первых, выберите 800 исходных объектов и разделите набор данных на train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Включите combine =True, если пользователь хочет объединить объекты mqTrans с исходными значениями выражения для выбора объектов. Здесь демонстративный пример состоит в том, чтобы выбрать 800 признаков и разбить набор данных на train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  ПРИМЕЧАНИЕ: На рисунке 5 показана выходная информация. Дополнительные файлы, необходимые для этого протокола, находятся в папке HealthModel-mqTrans-v1-00.tar (Supplementary Coding File 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Оценка представления mqTrans транскриптомного набора данных
В тестовом коде используются одиннадцать алгоритмов выбора признаков (FS) и семь классификаторов для оценки того, как сгенерированное mqTrans-представление транскриптомного набора данных вносит вклад в задачу классификации (рис. 6). Тестовый набор данных состоит из 317 случаев аденокарциномы толстой кишки (COAD) из базы данных The Cancer Genome Atlas (TCGA)²⁹. Пациенты с КОАД на I или II стадиях считаются отрицательными образцами, а пациенты с III или IV стадиями – положительными.

В тестовом коде реализовано одиннадцать алгоритмов FS. Существует три алгоритма FS на основе фильтров, в том числе: выбрать K лучших признаков по MIC (SK_mic), выбрать K признаков по FPR MIC (SK_fpr) и выбрать K признаков по наибольшему FDR MIC (SK_fpr). Три древовидных алгоритма ФС оценивают отдельные признаки с помощью дерева решений с индексом Джини (DT_gini), адаптивного дерева решений (AdaBoost) и случайного леса (RF_fs) соответственно. Пул FS тестового кода также оценивает две оболочки: рекурсивное исключение признаков (RFE) с классификатором линейных опорных векторов (SVC)(RFE_SVC) и RFE с классификатором логистической регрессии (RFE_LR), а также два алгоритма внедрения: линейный классификатор SVC с самыми ранжированными значениями важности признаков L1 (lSVC_L1) и классификатор логистической регрессии со значениями важности признаков L1 (LR_L1).

Тестовый код строит классификационные модели с использованием семи классификаторов, включая линейный метод опорных векторов (SVC), гауссов наивный байесовский метод (GNB), классификатор логистической регрессии (LR), k-ближайшего соседа, k-5 по умолчанию (KNN), XGBoost, случайный лес (RF) и дерево решений (DT).

На рисунке 6 показана максимальная точность тестирования признаков mqTrans, исходных признаков мРНК и комбинированного подмножества признаков mRNA и mqTrans, рекомендуемых каждым алгоритмом FS.

Комбинированные подмножества признаков (мРНК+mqTrans) достигли наивысшей точности 0,7656 по методу FS «SK_fpr», что лучше, чем отдельные типы признаков mqTrans (0,7188) и исходная мРНК (0,7188). Аналогичные закономерности наблюдаются и для других алгоритмов ФС. Пользователь может проверить выбранные функции в выходном файле Output-SelectedFeatures.csv.

Обнаружение темных биомаркеров
Предыдущие исследования показали существование недифференциально экспрессируемых генов со значимо дифференциально представленными значениями mqTrans между фенотипической и контрольной группами 26,38,39. Эти гены называются темными биомаркерами, потому что традиционные исследования по обнаружению биомаркеров игнорируют их недифференциальную экспрессию. Функция статистического анализа t.test в Microsoft Excel может быть использована для определения признака, который выражается дифференциально, если его статистическое p-значение меньше 0,05.

Среди 3062 признаков со сгенерированными значениями mqTrans был обнаружен 221 темный биомаркер (рис. 7). Ген ENSG00000163697, занявший третье место (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2), демонстрирует значительно дифференцированные значения mqTrans (mqTrans.P = 2,03 x ^10-4), в то время как его исходный уровень экспрессии не показывает дифференциальной экспрессии (mRNA.P = 3,80 x ^10-1). Ключевое слово APBB2 попало в 27 публикаций в базе данных PubMed,⁴⁰, но никаких связей с толстой или кишечной кишкой обнаружено не было.

Другой ген ENSG00000048052 (HDAC9, гистондеацетилазы 9) имеет дифференциально представленные значения mqTrans (mqTrans.P = 6,09 x ^10-3) при сохранении практически одинакового нормального распределения между фенотипической и контрольной группами (мРНК.P = 9,62 x ^10-1). Ключевое слово HDAC9 попало в 417 публикаций в базе данных PubMed. В трех исследованиях также упоминались ключевые слова «толстая кишка» или «кишечник» в рефератах 41,42,43. Но ни один из них не исследовал роль HDAC9 в развитии рака толстой кишки.

Полученные данные свидетельствуют о необходимости дальнейшей оценки этих темных биомаркеров по их посттранскрипционной активности, например, уровня транслируемого белка^44,45.

Панраковое распределение темновых и традиционных биомаркеров, связанных с метаболизмом
Традиционные биомаркеры, связанные с метаболизмом, были проверены и сравнены с темными биомаркерами для 26 типов рака в наборе данных TCGA³⁸. Обе категории биомаркеров прошли статистическую оценку для определения уровней значимости на ранних (I и II стадии) и поздних (III и IV стадии) стадиях рака. В этой оценке использовался t-критерий Стьюдента для p-значений, впоследствии скорректированный для многократного тестирования с использованием коэффициентов ложных обнаружений (FDR). Подробные данные по каждому из 26 типов рака представлены на рисунке 8.

Гены, дающие скорректированные FDR p-значения ниже 0,05, были классифицированы как традиционные биомаркеры. Напротив, темные биомаркеры были определены как те, у которых p-значения, скорректированные FDR, ниже 0,05 в представлении mqTrans, при одновременном отсутствии статистически значимых различий в уровнях экспрессии.

На рисунке 9 показан общий дефицит темных биомаркеров по сравнению с традиционными биомаркерами для большинства типов рака. Следует отметить исключения BRCA, MESO и TGCT, которые демонстрируют большую распространенность темных биомаркеров. Выявлено, что различные факторы, включая факторы транскрипции, паттерны метилирования, генные мутации и условия окружающей среды, могут модулировать транскрипционную дисрегуляцию этих темных биомаркеров. Дальнейшая сложность может возникнуть из-за перекрывающихся некодирующих транскриптов РНК, которые могут сбить с толку уровни экспрессии темных биомаркеров. Транскрипционные дисрегуляции некоторых темновых биомаркеров подтверждались их дифференциальными уровнями белка^44,45. Темные биомаркеры часто упускаются из виду в традиционных исследованиях и представляют собой интригующие возможности для будущих механистических исследований.

Рисунок 1: Обзор модулей HealthModel и выбора функций в этом протоколе. Замените конкретные алгоритмы в пуле выбора признаков и пуле классификаторов, если пользователь знаком с программированием на Python. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 2: Полный поток кода для этого протокола. (A) Подготовьте среду Python. Для начала создайте виртуальную среду и установите необходимые пакеты. Подробные инструкции см. в разделе 1. (B) Сгенерируйте объекты mqTrans. Получите функции mqTrans, выполнив предоставленный код шаг за шагом. Подробные объяснения можно найти в разделе 2. (C) Выберите mqTrans Features. Этот раздел посвящен оценке возможностей mqTrans. Более подробную информацию см. в Разделе 3. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 3: Подготовка среды для Python. (A) Команда для создания healthmodel. (B) Введите y в процессе создания VE. (C) Наиболее распространенная команда для активации VE. (D) Команда по установке горелки 1.13.1. (E) Установите дополнительные библиотеки для пакета torch-geometric . (F) Установите геометрический пакет горелки . Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 4: Запустите HealthModel, чтобы получить функцию mqTrans. (A) Загрузите код. (Б) Пример файла данных. В каждом столбце указаны все значения регуляторного фактора, а первым пунктом является идентификатор гена. Каждая строка содержит значения данной выборки, где первым элементом является имя образца. (C) Пример файла этикеток. В первом столбце приведены имена образцов, а метка класса каждого образца указана в столбце label. Значение 0 в столбце label означает, что этот образец жив, 1 — мертв. (D) выходы mqTrans. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 5: Запустите алгоритм выбора признаков для функции mqTrans. Результаты алгоритма выбора признаков показываются пользователю. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 6: Максимальная точность тестового набора для каждого алгоритма выбора признаков. На горизонтальной оси перечислены алгоритмы выбора признаков, а на вертикальной оси — значения точностей. Гистограммы показывают экспериментальные данные по трем параметрам: mqTrans, mRNA, mRNA+mqTrans. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 7: Топ-50 темных биомаркеров с наименьшими p-значениями в представлении mqTrans. В столбце «Темный биомаркер» указаны названия темных биомаркеров. Столбцы "mRNA.P" и "mqTrans.P" представляют собой статистические p-значения t-критерия между фенотипической и контрольной группами. Цвета фона p-значений находятся в диапазоне от 1,00 (синий) до 0,00 (красный), а белый цвет представляет p-значение = 0,05. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 8: Подробная информация о 26 видах рака в Атласе генома рака (TCGA) на разных стадиях. Столбцы «Когорта» и «Патологическая ткань» описывают группу пациентов и ткани с заболеванием для каждого набора данных. В последних четырех столбцах указаны номера образцов на I, II, III и IV стадиях развития соответственно. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Рисунок 9: Количество темных биомаркеров и традиционных биомаркеров в 26 видах рака. На горизонтальной оси перечислены 26 типов рака. Вертикальная ось показывает количество темных биомаркеров и традиционных биомаркеров для этих типов рака. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Дополнительный файл кодирования 1: HealthModel-mqTrans-v1-00.tar Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Раздел 2 (Использование предварительно обученной модели HealthModel для создания функций mqTrans) протокола является наиболее важным шагом в этом протоколе. После подготовки вычислительной рабочей среды в разделе 1, раздел 2 генерирует представление mqTrans транскриптомного набора данных на основе предварительно обученной большой эталонной модели. В разделе 3 приведен демонстрационный пример выбора сгенерированных признаков mqTrans для детектирования биомаркеров и задач прогнозирования. Пользователи могут проводить другие транскриптомные анализы на этом наборе данных mqTrans, используя свои собственные инструменты или коды.

Исходная инфраструктура HealthModel может дополнительно усовершенствовать предварительно обученную модель HealthModel, используя многозадачную архитектуру, как описано в^{пункте 26}. Этот протокол ориентирован на использование предварительно обученной эталонной модели для создания mqTrans-представления транскриптомного набора данных.

Предварительно обученная референсная модель по умолчанию была создана на здоровых образцах и может быть не лучшим выбором для некоторых конкретных задач, например, для исследования первичного и метастатического рака. Скорость вычислений также низкая для большого набора транскриптомных данных.

Значение этого протокола заключается в том, что он обеспечивает комплементарное представление mqTrans наиболее распространенного типа данных OMIC, т.е. транскриптома. Темные биомаркеры могут быть выявлены из недифференциально экспрессируемых генов, игнорируемых обычным транскриптомным анализом. Недавнее исследование выявило семь темных биомаркеров метастатического рака толстой кишки (mCC) на основе трех независимых когорт из 805 образцов в общей сложности⁴⁴. Темные биомаркеры были исследованы в ограниченных лабораториях из-за их недифференциальной экспрессии. Тем не менее, один из обнаруженных темновых биомаркеров mCC YTHDC2 кодирует белковый домен YTH, содержащий 2, уровни белка которого положительно коррелируют со статусом метастазирования клеток рака желудка^{человека 46} и рака толстой кишки⁴⁷. Новые биологические представления о темных биомаркерах еще предстоит решить с помощью технологий in vitro и in vivo.

Этот протокол спроектирован как полностью модульный. Референсные модели, предварительно обученные на других больших наборах данных, таких как первичные виды рака, облегчат исследование метастазирования опухоли. Этот протокол также будет изучен для применения в других областях жизни, включая растения, грибы и микробы.

Вычислительную эффективность этого протокола планируется повысить за счет распараллеливания и алгоритмической оптимизации.

В этом протоколе описывается процедура преобразования транскриптомного набора данных в новое представление mqTrans, а преобразованные значения mqTrans гена количественно измеряют изменения регуляции транскрипции по сравнению с эталонными образцами. Модель по умолчанию была предварительно обучена на здоровых транскриптомах и выпущена в качестве эталонной модели HealthModel.

Исходный код двух последующих задач предоставлен для облегчения использования этого протокола исследователями в области биомедицины. Экспериментальные данные показывают, что преобразованные признаки mqTrans могут улучшить задачи прогнозирования, используя только исходные уровни выражений. Представление mqTrans также может выявить скрытые фенотипические связи некоторых темных биомаркеров без дифференциальной экспрессии в исходных транскриптомных данных.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Эта работа была поддержана Старшей и Младшей группой по технологическим инновациям (20210509055RQ), Научно-техническими проектами провинции Гуйчжоу (ZK2023-297), Научно-техническим фондом Комиссии по здравоохранению провинции Гуйчжоу (gzwkj2023-565), Научно-техническим проектом Департамента образования провинции Цзилинь (JJKH20220245KJ и JJKH20220226SK), Национальным фондом естественных наук Китая (U19A2061), Ключевой лабораторией интеллектуальных вычислений больших данных провинции Цзилинь (20180622002JC) и Фонды фундаментальных исследований для центральных университетов, JLU. Мы выражаем нашу искреннюю признательность редактору обзора и трем анонимным рецензентам за их конструктивную критику, которая сыграла важную роль в существенном повышении строгости и ясности этого протокола.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software