Waiting
Procesando inicio de sesión ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Высокопроизводительный анализ транскриптома для исследования взаимодействий хозяина и патогена

Published: March 5, 2022 doi: 10.3791/62324

Summary

Протокол, представленный здесь, описывает полный конвейер для анализа данных транскриптома РНК-секвенирования от необработанных считываний до функционального анализа, включая контроль качества и этапы предварительной обработки для передовых статистических аналитических подходов.

Abstract

Возбудители могут вызывать самые разнообразные инфекционные заболевания. Биологические процессы, индуцированные хозяином в ответ на инфекцию, определяют тяжесть заболевания. Для изучения таких процессов исследователи могут использовать высокопроизводительные методы секвенирования (RNA-seq), которые измеряют динамические изменения транскриптома хозяина на разных стадиях инфекции, клинических исходах или тяжести заболевания. Это исследование может привести к лучшему пониманию заболеваний, а также к выявлению потенциальных лекарственных мишеней и методов лечения. Протокол, представленный здесь, описывает полный конвейер для анализа данных секвенирования РНК от необработанных считываний до функционального анализа. Конвейер разделен на пять этапов: (1) контроль качества данных; (2) картирование и аннотация генов; (3) статистический анализ для выявления дифференциально экспрессированных генов и коэкспрессированных генов; 4) определение молекулярной степени возмущения образцов; и 5) функциональный анализ. Шаг 1 удаляет технические артефакты, которые могут повлиять на качество последующего анализа. На этапе 2 гены отображаются и аннотируются в соответствии со стандартными библиотечными протоколами. Статистический анализ на этапе 3 идентифицирует гены, которые дифференциально экспрессируются или совместно экспрессируются в инфицированных образцах, по сравнению с неинфицированными. Изменчивость образца и наличие потенциальных биологических выбросов проверяются с использованием подхода, основанного на молекулярной степени возмущения на этапе 4. Наконец, функциональный анализ на шаге 5 выявляет пути, связанные с фенотипом заболевания. Представленный конвейер направлен на поддержку исследователей посредством анализа данных RNA-seq из исследований взаимодействия хозяина с патогеном и проведение будущих экспериментов in vitro или in vivo , которые необходимы для понимания молекулярного механизма инфекций.

Introduction

Арбовирусы, такие как лихорадка денге, желтая лихорадка, чикунгунья и зика, были широко связаны с несколькими эндемическими вспышками и стали одним из основных патогенов, ответственных за заражение людей в последние десятилетия1,2. Лица, инфицированные вирусом чикунгуньи (CHIKV), часто имеют лихорадку, головную боль, сыпь, полиартралгию и артрит3,4,5. Вирусы могут подрывать экспрессию генов клетки и влиять на различные сигнальные пути хозяина. Недавно в исследованиях транскриптома крови использовался RNA-seq для идентификации дифференциально экспрессированных генов (DEG), связанных с острой инфекцией CHIKV, по сравнению с реконвалесценцией6 или здоровыми контрольными группами7. Дети, инфицированные CHIKV, имели повышенные регулируемые гены, которые участвуют во врожденном иммунитете, такие как те, которые связаны с клеточными датчиками вирусной РНК, сигнализацией JAK / STAT и сигнальными путями toll-подобных рецепторов6. Взрослые, остро инфицированные CHIKV, также показали индукцию генов, связанных с врожденным иммунитетом, таких как гены, связанные с моноцитами и активацией дендритных клеток, а также с противовирусными реакциями7. Сигнальные пути, обогащенные низкорегулируемыми генами, включали те, которые связаны с адаптивным иммунитетом, такие как активация Т-клеток, дифференцировка и обогащение в Т- и В-клетках7.

Несколько методов могут быть использованы для анализа транскриптомных данных генов хозяина и патогена. Часто подготовка библиотеки RNA-seq начинается с обогащения зрелыми поли-А транскриптами. Этот шаг удаляет большую часть рибосомной РНК (рРНК) и в некоторых случаях вирусные / бактериальные РНК. Однако, когда биологический вопрос связан с обнаружением транскрипта патогена и РНК секвенируются независимо от предыдущего отбора, многие другие различные транскрипты могут быть обнаружены путем секвенирования. Например, было показано, что субгеномные мРНК являются важным фактором для проверки тяжести заболеваний8. Кроме того, для некоторых вирусов, таких как CHIKV и SARS-CoV-2, даже библиотеки, обогащенные поли-А, генерируют вирусные считывания, которые могут быть использованы в последующих анализах9,10. Сосредоточившись на анализе транскриптома хозяина, исследователи могут исследовать биологическое возмущение в образцах, идентифицировать дифференциально экспрессированные гены и обогащенные пути, а также генерировать модули коэкспрессии7,11,12. Этот протокол выделяет анализ транскриптома пациентов, инфицированных CHIKV, и здоровых людей с использованием различных биоинформационных подходов (рисунок 1A). Данные ранее опубликованного исследования7, состоящего из 20 здоровых и 39 остро инфицированных лиц CHIKV, были использованы для получения репрезентативных результатов.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Образцы, используемые в этом протоколе, были одобрены комитетами по этике как из Департамента микробиологии Института биомедицинских наук Университета Сан-Паулу, так и из Федерального университета Сержипи (Протоколы: 54937216.5.0000.5467 и 54835916.2.0000.5546, соответственно).

1. Установка Docker на настольный компьютер

ПРИМЕЧАНИЕ: Шаги по подготовке среды Docker различаются в зависимости от операционных систем (ОС). Поэтому пользователи Mac должны выполнять действия, перечисленные как 1.1, пользователи Linux должны следовать шагам, перечисленным как 1.2, а пользователи Windows должны следовать шагам, перечисленным как 1.3.

  1. Установка на MacOS.
    1. Зайдите на веб-сайт Get Docker (Таблица материалов), щелкните Docker Desktop для Mac , а затем щелкните ссылку Загрузить из Docker Hub .
    2. Загрузите установочный файл, нажав кнопку Get Docker .
    3. Запустите файл Docker.dmg, чтобы открыть установщик, а затем перетащите значок в папку «Программы ». Локализуйте и выполняйте Docker.app в папке «Программы», чтобы запустить программу.
      ПРИМЕЧАНИЕ: Меню конкретного программного обеспечения в верхней строке состояния указывает, что программное обеспечение запущено и что оно доступно из терминала.
  2. Установите программу-контейнер в ОС Linux.
    1. Зайдите на веб-сайт Get Docker Linux (Таблица материалов) и следуйте инструкциям по установке с помощью раздела репозитория, доступного по ссылке Docker Linux Repository .
    2. Обновите все пакеты Linux с помощью командной строки:
      sudo apt-get update
    3. Установите необходимые пакеты в Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. Создайте файл связки ключей архива программного обеспечения:
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Добавьте информацию Docker deb в файл source.list:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) стабильный" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Обновите все пакеты еще раз, включая недавно добавленные:
      sudo apt-get update
    7. Установите настольную версию:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Выберите географическую область и часовой пояс, чтобы завершить процесс установки.
  3. Установите программу-контейнер в ОС Windows.
    1. Зайдите на веб-сайт Get Docker (Таблица материалов) и нажмите «Начать». Найдите установщик docker Desktop для Windows. Загрузите файлы и установите их локально на компьютер.
    2. После загрузки запустите установочный файл (.exe) и сохраните параметры по умолчанию. Убедитесь, что отмечены два параметра Установить необходимые компоненты Windows для WSL 2 и Добавить ярлык на рабочий стол .
      ПРИМЕЧАНИЕ: В некоторых случаях, когда это программное обеспечение пытается запустить службу, оно показывает ошибку: установка WSL не завершена. Чтобы выяснить эту ошибку, зайдите на сайт WSL2-Kernel (Таблица материалов).
    3. Загрузите и установите последнюю версию ядра WSL2 Linux.
    4. Откройте терминал PowerShell от имени администратора и выполните команду:
      dism.exe /online /enable-feature /имя_компонента:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Убедитесь, что программное обеспечение Docker Desktop установлено успешно.
  4. Загрузите образ из репозитория CSBL в docker hub (Таблица материалов).
    1. Откройте Рабочий стол Docker и убедитесь, что состояние "запущено" в левом нижнем углу панели инструментов.
    2. Перейдите в командную строку терминала Windows PowerShell. Загрузите образ контейнера Linux для этого протокола из репозитория CSBL в концентраторе Docker. Чтобы загрузить образ, выполните следующую команду:
      docker pull csblusp/transcriptome
      ПРИМЕЧАНИЕ: После загрузки образа файл можно увидеть на рабочем столе Docker. Чтобы создать контейнер, пользователи Windows должны выполнить шаг 1.5, а пользователи Linux — шаг 1.6.
  5. Инициализируйте контейнер сервера в ОС Windows.
    1. Просмотрите файл образа Docker в диспетчере классических приложений на панели инструментов и перейдите на страницу Изображения.
      ПРИМЕЧАНИЕ: Если образ конвейера был успешно загружен, будет доступно изображение csblusp/transcriptome.
    2. Инициируйте контейнер из изображения csblusp/transcriptome, нажав кнопку Выполнить . Разверните узел Дополнительные параметры , чтобы настроить контейнер.
    3. Определите имя контейнера (например, сервера).
    4. Свяжите папку на локальном компьютере с папкой внутри docker. Для этого определите путь узла. Установите папку на локальном компьютере для хранения обработанных данных, которые будут загружены в конце. Задайте путь к контейнеру. Определите и свяжите папку контейнера csblusp/transcriptome с локальным путем к компьютеру (используйте имя "/opt/transferdata" для пути к контейнеру).
    5. После этого нажмите кнопку Выполнить , чтобы создать контейнер csblusp/transcriptome.
    6. Чтобы получить доступ к терминалу Linux из контейнера csblusp/transcriptome, нажмите кнопку CLI.
    7. Введите в терминал bash, чтобы получить лучший опыт. Для этого выполните команду:
      бить
    8. После выполнения команды bash убедитесь, что терминал отображает (root@:/#):
      root@ac12c583b731:/ #
  6. Инициализируйте серверный контейнер для ОС Linux.
    1. Выполните следующую команду, чтобы создать контейнер Docker на основе образа:
      docker run -d -it --rm --name server -v <Путь к узлу>:/opt/transferdata csblusp/transcriptome
      ПРИМЕЧАНИЕ: <путь хоста>: определите путь к локальной папке.
    2. Выполните следующую команду для доступа к командному терминалу контейнера Docker:
      docker exec -it сервер bash
    3. Обеспечьте доступность терминала Linux для выполнения любых программ/скриптов с помощью командной строки.
    4. После выполнения команды bash убедитесь, что терминал отображает (root@:/#):
      root@ac12c583b731:/ #
      ПРИМЕЧАНИЕ: Пароль root по умолчанию "transcriptome". При желании пароль root можно изменить, выполнив команду:
      пассвд
    5. Во-первых, выполните команду source, чтобы addpath.sh, чтобы убедиться, что все инструменты доступны. Выполните команду:
      source /opt/addpath.sh
  7. Проверьте структуру папки секвенирования РНК.
    1. Получите доступ к папке сценариев конвейера транскриптома и убедитесь, что все данные секвенирования РНК хранятся в папке: /home/transcriptome-pipeline/data.
    2. Убедитесь, что все результаты, полученные в результате анализа, хранятся в папке path /home/transcriptome-pipeline/results.
    3. Убедитесь, что файлы ссылок на геном и аннотации хранятся в папке path /home/transcriptome-pipeline/datasets. Эти файлы помогут поддерживать весь анализ.
    4. Убедитесь, что все скрипты хранятся в папке пути /home/transcriptome-pipeline/scripts и разделены каждым шагом, как описано ниже.
  8. Скачать аннотацию и геном человека.
    1. Откройте папку scripts:
      cd /home/transcriptome-конвейер/скрипты
    2. Выполните следующую команду, чтобы загрузить эталонный геном человека:
      Баш downloadGenome.sh
    3. Чтобы загрузить аннотацию, выполните команду:
      Баш downloadAnnotation.sh
  9. Измените аннотацию или версию эталонного генома.
    1. Откройте downloadAnnotation.sh и downloadGenome.sh, чтобы изменить URL-адрес каждого файла.
    2. Скопируйте файлы downloadAnnotation.sh и downloadGenome.sh в область передачи и отредактируйте в локальной ОС.
      cd /home/transcriptome-конвейер/скрипты
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Откройте папку Host Path , которая выбрана для связи между хостом и контейнером Docker на шаге 1.5.4.
    4. Отредактируйте файлы с помощью предпочтительного программного обеспечения редактора и сохраните. Наконец, поместите измененные файлы в папку сценария. Выполните команду:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      ПРИМЕЧАНИЕ: Эти файлы могут быть отредактированы непосредственно с помощью редактора vim или nano Linux.
  10. Затем настройте средство fastq-dump с помощью командной строки:
    vdb-config --interactive
    ПРИМЕЧАНИЕ: Это позволяет загружать файлы виртуализации из данных примера.
    1. Перейдите на страницу Сервис с помощью клавиши tab и выберите параметр текущей папки. Перейдите к опции Сохранить и нажмите OK. Затем выйдите из инструмента fastq-dump.
  11. Инициируйте загрузку прочитанных материалов из ранее опубликованного документа7. Требуется номер присоединения SRA каждого образца. Получите номера SRA на веб-сайте SRA NCBI (Таблица материалов).
    ПРИМЕЧАНИЕ: Для анализа данных RNA-Seq, доступных в общедоступных базах данных, выполните шаг 1.12. Чтобы проанализировать частные данные RNA-seq, выполните шаг 1.13.
  12. Анализ конкретных общедоступных данных.
    1. Зайдите на веб-сайт Национального центра биотехнологической информации (NCBI) и найдите ключевые слова для конкретной темы.
    2. Нажмите на ссылку Результат для BioProject в разделе Геномы .
    3. Выберите и нажмите на конкретное исследование. Нажмите на Эксперименты SRA. Откроется новая страница, на которой показаны все образцы, доступные для этого исследования.
    4. Нажмите на кнопку "Отправить в:" над номером присоединения. В опции "Выбрать место назначения" выберите опцию Файл и формат , выберите RunInfo. Нажмите «Создать файл», чтобы экспортировать всю информацию о библиотеке.
    5. Сохраните файл SraRunInfo.csv в пути к хосту, определенном на шаге 1.5.4, и выполните скрипт загрузки:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-конвейер/скрипты
      Баш downloadAllLibraries.sh
  13. Анализ частных и неопубликованных данных виртуализации.
    1. Организуйте данные виртуализации в папке с именем Reads.
      ПРИМЕЧАНИЕ: Внутри папки Reads создайте по одной папке для каждого образца. Эти папки должны иметь одинаковые имена для каждого примера. Добавьте данные каждого образца в его каталог. В случае, если это парный конец RNA-Seq, каждый каталог образца должен содержать два файла FASTQ, которые должны представлять имена, оканчивающиеся в соответствии с шаблонами {sample}_1.fastq.gz и {sample}_2.fastq.gz, прямой и обратной последовательности соответственно. Например, образец с именем "Healthy_control" должен иметь каталог с тем же именем, а файлы FASTQ с именем Healthy_control_1.fastq.gz и Healthy_control_2.fastq.gz. Тем не менее, если виртуализация библиотеки является односторонней стратегией, для последующего анализа должен быть сохранен только один файл чтения. Например, тот же пример, "Healthy control", должен иметь уникальный файл FASTQ с именем Healthy_control.fastq.gz.
    2. Создайте фенотипический файл, содержащий все имена образцов: назовите первый столбец 'Sample', а второй столбец – 'Class'. Заполните столбец Sample именами образцов, которые должны совпадать с именами каталогов образцов, и заполните столбец Class фенотипической группой каждого образца (например, контрольного или зараженного). Наконец, сохраните файл с именем "metadata.tsv" и отправьте его в каталог /home/transcriptome-pipeline/data/. Проверьте существующий metadata.tsv, чтобы понять формат фенотипического файла.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Откройте каталог Host Path , определенный на шаге 1.5.4, и скопируйте новые примеры структурированных каталогов. Наконец, переместите образцы из /opt/transferdata в каталог данных конвейера.
      cp -rf /opt/transferdata/reads/*
      /home/транскриптом-конвейер/данные/чтения/
  14. Обратите внимание, что все операции чтения хранятся в папке /home/transcriptome-pipeline/data/reads.

2. Контроль качества данных

ПРИМЕЧАНИЕ: Оцените графически вероятность ошибок в последовательности чтения. Удалите все технические последовательности, например, адаптеры.

  1. Получите доступ к качеству виртуализации библиотек с помощью инструмента FastQC.
    1. Чтобы сгенерировать графики качества, запустите программу fastqc. Выполните команду:
      Баш FastQC.sh
      ПРИМЕЧАНИЕ: Результаты будут сохранены в папке /home/transcriptome-pipeline/results/FastQC. Поскольку адаптеры последовательностей используются для подготовки библиотеки и секвенирования, в некоторых случаях фрагменты последовательности адаптеров могут мешать процессу сопоставления.
  2. Удалите последовательность адаптера и некачественное чтение. Откройте папку Scripts и выполните команду для инструмента Trimmomatic:
    cd /home/transcriptome-конвейер/скрипты
    Баш trimmomatic.sh

    ПРИМЕЧАНИЕ: Параметры, используемые для фильтра секвенирования: Удалить лид низкого качества или 3 основания (ниже качества 3) (LEADING:3); Удалить замыкание низкого качества или 3 основания (ниже качества 3) (TRAILING:3); Сканируйте чтение с помощью скользящего окна шириной в 4 основания, разрезая, когда среднее качество на базу падает ниже 20 (SLIDINGWINDOW: 4: 20); и Drop читает ниже 36 оснований длиной (MINLEN:36). Эти параметры могут быть изменены путем редактирования файла скрипта Trimmomatic.
    1. Убедитесь, что результаты сохранены в следующей папке: /home/transcriptome-pipeline/results/trimreads. Выполните команду:
      ls /home/transcriptome-pipeline/results/trimreads

3. Отображение и аннотация образцов

ПРИМЕЧАНИЕ: После получения показаний хорошего качества их необходимо сопоставить с эталонным геномом. На этом шаге для сопоставления примеров примеров использовался средство сопоставления STAR. Инструмент star mapper требует 32 ГБ оперативной памяти для загрузки и выполнения чтения и картирования генома. Для пользователей, у которых нет 32 ГБ оперативной памяти, можно использовать уже сопоставленные чтения. В таких случаях перейдите к шагу 3.3 или используйте mapper Bowtie2. В этом разделе есть скрипты для STAR (результаты показаны на всех рисунках) и Bowtie2 (требуется мало памяти).

  1. Сначала индексируйте эталонный геном для процесса картирования:
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Для star mapper выполните:
      Баш indexGenome.sh
    3. Для картографа Bowtie выполните:
      Баш indexGenomeBowtie2.sh
  2. Выполните следующую команду, чтобы сопоставить отфильтрованные чтения (полученные из шага 2) с эталонным геномом (версия GRCh38). Картографы STAR и Bowtie2 выполняются с использованием параметров по умолчанию.
    1. Для star mapper выполните:
      Баш mapSTAR.sh
    2. Для картографа Bowtie2 выполните:
      Баш mapBowtie2.sh
      ПРИМЕЧАНИЕ: Окончательные результаты представляют собой файлы двоичной карты выравнивания (BAM) для каждого образца, хранящегося в /home/transcriptome-pipeline/results/mapreads.
  3. Аннотируйте сопоставленные чтения с помощью инструмента FeatureCounts для получения необработанных подсчетов для каждого гена. Запустите сценарии, которые аннотируют чтение.
    ПРИМЕЧАНИЕ: Инструмент FeatureCounts отвечает за назначение сопоставленных чтений секвенирования геномным признакам. Наиболее важные аспекты аннотации генома, которые могут быть изменены после биологического вопроса, включают, обнаружение изоформ, множественных сопоставленных считываний и переходов экзон-экзон, соответствующих параметрам, GTF.attrType="gene_name" для гена или не указывать параметры для уровня мета-признаков, allowMultiOverlap=TRUE и juncCounts=TRUE, соответственно.
    1. Откройте папку scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Чтобы аннотировать сопоставленные чтения для получения необработанных подсчетов на ген, выполните командную строку:
      Аннотация Rscript. R
      ПРИМЕЧАНИЕ: Для процесса аннотации использовались следующие параметры: возврат короткого имени гена (GTF.attrType="gene_name"); разрешить множественные перекрытия (allowMultiOverlap = TRUE); и укажите, что библиотека является сопряженной (isPairedEnd=TRUE). Для односторонней стратегии используйте параметр isPairedEnd=FALSE. Результаты будут сохранены в папке /home/transcriptome-pipeline/countreads.
  4. Нормализуют экспрессию генов.
    ПРИМЕЧАНИЕ: Нормализация экспрессии генов имеет важное значение для сравнения результатов между исходами (например, здоровые и инфицированные образцы). Нормализация также необходима для выполнения анализа коэкспрессии и молекулярной степени возмущения.
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Нормализуют экспрессию генов. Для этого выполните командную строку:
      Rscript нормализуетвыборки. R
      ПРИМЕЧАНИЕ: Выражение raw counts в этом эксперименте было нормализовано с использованием методов Trimmed Average of M-values (TMM) и Count Per Million (CPM). Этот шаг направлен на устранение различий в экспрессии генов из-за технического влияния, путем нормализации размера библиотеки. Результаты будут сохранены в папке /home/transcriptome-pipeline/countreads.

4. Дифференциально экспрессированные гены и коэкспрессированные гены

  1. Идентификация дифференциально экспрессированных генов с помощью пакета EdgeR с открытым исходным кодом. Это включает в себя поиск генов, экспрессия которых выше или ниже по сравнению с контролем.
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Чтобы идентифицировать дифференциально экспрессированный ген, выполните сценарий DEG_edgeR R с помощью командной строки:
      Rscript DEG_edgeR.R
      ПРИМЕЧАНИЕ: Результаты, содержащие дифференциально экспрессированные гены, будут сохранены в папке /home/transcriptome-pipeline/results/degs. Данные могут быть переданы на персональный компьютер.
  2. Загрузка данных из контейнера csblusp/transcriptome.
    1. Передача обработанных данных из конвейера /home/transcriptome в папку /opt/transferdata (локальный компьютер).
    2. Скопируйте все файлы на локальный компьютер, выполнив командную строку:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      ПРИМЕЧАНИЕ: Теперь перейдите на локальный компьютер, чтобы убедиться, что все результаты, наборы данных и данные доступны для загрузки в Host Path.
  3. Определите модули совместного выражения.
    1. Доступ к веб-сайту средства идентификации модулей совместного выражения (CEMiTool) (Таблица
      Материалы
      ). Это средство идентифицирует модули совместного выражения из наборов данных выражений, предоставляемых пользователями. На главной странице нажмите кнопку Выполнить в правом верхнем углу. Откроется новая страница для загрузки файла выражения.
    2. Нажмите «Выбрать файл » под разделом « Файл выражения » и загрузите нормализованную матрицу экспрессии генов «tmm_expression.tsv» из пути хоста.
      ПРИМЕЧАНИЕ: Шаг 4.4. не является обязательным.
  4. Изучите биологическое значение модулей совместной экспрессии.
    1. Щелкните Выбрать файл в разделе Образцы фенотипов и загрузите файл с образцами фенотипов metadata_cemitool.tsv из шага Загрузка данных 4.2.2. выполнить анализ обогащения набора генов (GSEA).
    2. Нажмите Выбрать файл в разделе Взаимодействия генов, чтобы загрузить файл с взаимодействиями генов (cemitool-interactions.tsv). Можно использовать файл взаимодействия генов, приведенный в качестве примера webCEMiTool. Взаимодействия могут быть белково-белковыми взаимодействиями, факторами транскрипции и их транскрибированными генами или метаболическими путями. На этом шаге создается сеть взаимодействия для каждого модуля совместного выражения.
    3. Нажмите на файл «Выбрать файл » в разделе « Наборы генов », чтобы загрузить список генов, функционально связанных в файле формата Gene Matrix Transposed (GMT). Файл Gene Set позволяет инструменту выполнять анализ обогащения для каждого модуля совместной экспрессии, то есть анализ чрезмерного представления (ORA).
      ПРИМЕЧАНИЕ: Этот список генов может охватывать пути, термины GO или гены-миРНК-мишени. Исследователь может использовать модули транскрипции крови (BTM) в качестве наборов генов для этого анализа. Файл BTM (BTM_for_GSEA.gmt).
  5. Задайте параметры для выполнения анализа соэкспрессии и получения его результатов.
    1. Затем разверните раздел Параметр , щелкнув знак плюс, чтобы отобразить параметры по умолчанию. При необходимости измените их. Установите флажок Применить VST .
    2. Напишите сообщение электронной почты в разделе Электронная почта , чтобы получать результаты по электронной почте. Этот шаг является необязательным.
    3. Нажмите кнопку Запустить CEMiTool .
    4. Загрузите полный аналитический отчет, нажав на кнопку Загрузить полный отчет в правом верхнем углу. Он загрузит сжатый файл cemitool_results.zip.
    5. Извлеките содержимое cemitool_results.zip с помощью WinRAR.
      ПРИМЕЧАНИЕ: Папка с извлеченным содержимым включает в себя несколько файлов со всеми результатами анализа и их установленными параметрами.

5. Определение молекулярной степени возмущения образцов

  1. Веб-версия молекулярной степени возмущения (MDP).
    1. Чтобы запустить MDP, зайдите на веб-сайт MDP (Таблица материалов). MDP вычисляет молекулярное расстояние каждого образца от эталона. Нажмите на кнопку Выполнить .
    2. По ссылке Выбрать файл отправьте файл выражения tmm_expression.tsv. Затем загрузите файл фенотипических данных metadata.tsv из шага Загрузка данных 4.2.2. Также можно отправить файл аннотации пути в формате GMT для расчета оценки возмущения путей, связанных с заболеванием.
    3. После отправки данных определите столбец Class, содержащий фенотипическую информацию, используемую MDP. Затем определите класс элемента управления, выбрав метку, соответствующую классу элемента управления.
      ПРИМЕЧАНИЕ: Есть некоторые необязательные параметры, которые будут влиять на то, как рассчитываются выборочные баллы. При необходимости пользователь может изменить статистику среднего метода, стандартного отклонения и верхнего процента возмущенных генов.
    4. После этого нажмите кнопку Run MDP и отобразятся результаты MDP. Пользователь может загрузить рисунки, нажав на График загрузки на каждом графике, а также оценку MDP на кнопке Загрузить файл оценки MDP .
      ПРИМЕЧАНИЕ: В случае возникновения вопросов о том, как отправить файлы или как работает MDP, просто просмотрите веб-страницы Учебник и О программе.

6. Анализ функционального обогащения

  1. Создайте один список deG с пониженным регулированием и другой список DEG с повышенным регулированием. Названия генов должны соответствовать символам генов Entrez. Каждый ген списка должен быть помещен в одну строку.
  2. Сохраните списки генов в формате txt или tsv.
  3. Зайдите на веб-сайт Enrichr (Таблица материалов) для выполнения функционального анализа.
  4. Выберите список генов, нажав на кнопку Выбрать файл. Выберите один из списков DEG и нажмите кнопку Отправить .
  5. Нажмите на Pathways в верхней части веб-страницы, чтобы выполнить анализ функционального обогащения с помощью подхода ORA.
  6. Выберите базу данных пути. База данных путей «Reactome 2016» широко используется для получения биологического значения человеческих данных.
  7. Нажмите на имя базы данных пути еще раз. Выберите гистограмму и проверьте, отсортирована ли она по ранжированию p-значения. Если нет, нажимайте на гистограмму, пока она не будет отсортирована по p-значению. Эта гистограмма включает в себя 10 лучших путей в соответствии с p-значениями.
  8. Нажмите кнопку «Конфигурация » и выберите красный цвет для анализа генов с повышенной регуляцией или синий цвет для анализа генов с пониженной регуляцией. Сохраните гистограмму в нескольких форматах, нажав на svg, png и jpg.
  9. Выберите Таблица и нажмите Экспорт записей в таблицу в левом нижнем углу гистограммы, чтобы получить результаты анализа функционального обогащения в txt-файле.
    ПРИМЕЧАНИЕ: Этот файл результатов функционального обогащения включает в себя в каждой строке название одного пути, количество перекрывающихся генов между представленным списком DEG и путем, p-значение, скорректированное p-значение, отношение шансов, комбинированный балл и генный символ генов, присутствующих в списке DEG, которые участвуют в пути.
  10. Повторите те же действия со списком других DEG.
    ПРИМЕЧАНИЕ: Анализ с пониженными регулируемыми DEG предоставляет пути, обогащенные для пониженно регулируемых генов, а анализ с повышенными регулируемыми генами предоставляет пути, обогащенные для регулируемых генов.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Вычислительная среда для анализа транскриптома была создана и настроена на платформе Docker. Такой подход позволяет начинающим пользователям Linux использовать терминальные системы Linux без априорных управленческих знаний. Платформа Docker использует ресурсы ос хоста для создания контейнера сервиса, включающего инструменты конкретных пользователей (рисунок 1B). Был создан контейнер на базе дистрибутива ОС Linux Ubuntu 20.04 и полностью настроен для транскриптомного анализа, доступного через терминал командной строки. В этом контейнере имеется предопределенная структура папок для наборов данных и скриптов, необходимая для всех анализов конвейера (рисунок 1С). Исследование, опубликованное нашей исследовательской группой7 , было использовано для анализов, и оно включало 20 образцов от здоровых людей и 39 образцов от остро инфицированных людей CHIKV (рисунок 1D).

Процесс полного секвенирования РНК может генерировать ошибки считывания, которые могут быть вызваны кластером с двумя или более транскриптами или истощением реагентов. Платформы секвенирования возвращают набор файлов "FASTQ", содержащих последовательность (чтение) и связанное с ней качество для каждого нуклеотидного основания (рисунок 2A). Шкала качества Phred указывает на вероятность неправильного считывания каждого основания (рисунок 2B). Низкое качество считывания может привести к смещению или неправильной экспрессии генов, вызывая последовательные ошибки в последующих анализах. Такие инструменты, как Trimmomatic, были разработаны для выявления и удаления низкокачественных считываний из образцов и для повышения вероятности сопоставления считываний (рисунок 2C, D).

Модуль картирования был предварительно сконфигурирован с элайнером STAR и человеческим хозяином GRCh38 в качестве эталонного генома. На этом этапе высококачественные считывания, восстановленные на предыдущем этапе, используются в качестве входных данных для выравнивания по отношению к эталонному геному человека (рисунок 3A). Выравниватель STAR выводит выравнивание сопоставленных считываний с эталонным геномом в файле формата BAM. Основываясь на этом выравнивании, инструмент FeatureCounts выполняет аннотацию признаков (генов) этих выровненных чтений с использованием эталонной аннотации человека-хозяина в формате файла GTF (рисунок 3B). Наконец, генерируется матрица экспрессии с каждым именем гена в виде одной строки и каждым образцом в виде одного столбца (рисунок 3C). Для дальнейшего последующего анализа также необходимо предоставить дополнительный файл метаданных, содержащий имена образцов и соответствующие группы образцов. Матрица экспрессии генов представляет собой количество счетчиков, сопоставленных с каждым геном среди образцов, которые могут быть использованы в качестве входных данных EdgeR для идентификации DEG. Кроме того, эта матрица экспрессии генов была нормализована с использованием TMM и CPM, чтобы устранить техническую изменчивость и скорректировать измерение RNA-seq путем рассмотрения доли экспрессированных генов в общем размере библиотеки среди образцов. Эта матрица была дополнительно использована в качестве входных данных для совместного экспрессии и анализа MDP.

CEMiTool идентифицирует и анализирует модули совместного выражения12. Гены, которые находятся в одном модуле, совместно экспрессируются, что означает, что они демонстрируют сходные паттерны экспрессии в образцах набора данных. Этот инструмент также позволяет исследовать биологическую значимость каждого идентифицированного модуля. Для этого он предоставляет три дополнительных анализа - анализ функционального обогащения GSEA, анализ функционального обогащения Over Representation Analysis (ORA) и сетевой анализ. Анализ функционального обогащения GSEA предоставляет информацию о экспрессии генов каждого модуля при каждом фенотипе (рисунок 4A). В соответствии с этим он позволяет идентифицировать модули, которые подавляются или индуцируются при каждом фенотипе. Анализ ORA показывает топ-10 значительно обогащенных биологических функций каждого модуля, отсортированных по скорректированным p-значениям. Можно объединить результаты GSEA и ORA для выявления нарушенных биологических процессов и того, подавляются ли они или индуцируются фенотипом, представляющим интерес. Сетевой анализ обеспечивает интерактом каждого модуля (рисунок 4A). Это позволяет визуализировать, как взаимодействуют гены каждого модуля. Кроме того, сетевой анализ предоставляет информацию о наиболее связанных генах, хабах, которые идентифицируются по их именам в сети. Размер узлов представляет степень связности.

Для идентификации DEG был разработан собственный сценарий для выполнения сквозного дифференциального анализа в односторонней и краткой командной строке. Сценарий выполняет все шаги, необходимые для проведения анализа DEG, сравнивая различные образцы групп, предоставленные пользователем в файле метаданных. Кроме того, результаты DEG хранятся в отдельных списках понижаемых и регулируемых генов, а затем компилируются в готовый к публикации рисунок (рисунок 4B) с использованием пакета EnhancedVolcano R от Bioconductor.

Анализ молекулярной степени возмущения, выполненный инструментом MDP, позволяет идентифицировать возмущенные образцы от здоровых и инфицированных лиц11. Оценка возмущения рассчитывается с учетом всех экспрессированных генов для каждого зараженного CHIKV образца и с учетом здоровых образцов в качестве референтной группы (рисунок 5A). MDP также выполняет анализ, используя только верхние 25% наиболее возмущенных генов из этих образцов (рисунок 5B). Образцы могут представлять большую изменчивость, учитывая генетический фон, возраст, пол или другие предшествующие заболевания. Эти факторы могут изменить профиль транскриптома. Исходя из этого, MDP предполагает, какие образцы являются потенциальными биологическими выбросами для их удаления и улучшения последующих результатов (рисунок 5A, B).

Анализ функционального обогащения ORA может быть выполнен с использованием Enrichr для выявления биологического значения DEG. Результаты, полученные на основе списка пониженно регулируемых генов, указывают на подавленные биологические процессы в исследуемом фенотипе, в то время как результаты, полученные на основе списка регулируемых генов, представляют биологические процессы, которые индуцируются в интересующем фенотипе. Биологические процессы, показанные на гистограмме, сгенерированной Enrichr, представляют собой 10 лучших обогащенных наборов генов, основанных на рейтинге p-значений (рисунок 6).

Figure 1
Рисунок 1: Исследование окружения Docker и примера. (A) Платформа Docker использует ресурсы OS Host для создания «контейнеров» для системы Linux, содержащих инструменты для анализа транскриптома. (B) Контейнер Docker имитирует систему Linux для выполнения сценариев конвейера. (C) Была создана и организована структура папок конвейера транскриптома для хранения наборов данных и сценариев для анализа. (D) Исследование нашей группы было использовано в качестве примера анализа транскриптома. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 2
Рисунок 2: Контроль качества секвенирования. (A) Файл формата FASTQ используется для представления качества последовательности и нуклеотидной базы. (B) Уравнение оценки Phred, где каждые 10 увеличивает базу ошибочного прочтения логарифмической вероятности. (C) и (D) Boxplot представляет собой качественное распределение каждого нуклеотидного основания до и после триммоматического исполнения, соответственно. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 3
Рисунок 3: Процесс картирования и аннотирования от последовательности до экспрессии количества генов. (A) Картирование состоит из выравнивания последовательности из транскрипта и последовательности из генома для идентификации геномной локализации. (B) Сопоставленные чтения с эталонным геномом аннотируются на основе их геномной локализации перекрытия. (C) На основе инструментов картографического файла, таких как featureCounts, экспрессия генов суммируется. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 4
Рисунок 4: Сеть коэкспрессированных генов и статистический анализ DEGs. (A) Модули коэкспрессии на основе экспрессии генов и сети белково-белковых взаимодействий из модульных генов. (B) Статистический анализ остро инфицированных и здоровых людей CHIKV и дифференциальная экспрессия генов красного цвета (p-значение и критерии log2FC), фиолетового (только p-значение), зеленого (только log2FC) и серого (не имеет значения). Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 5
Рисунок 5: Молекулярная степень возмущения (MDP) остро инфицированных и здоровых людей CHIKV. (A) Оценка MDP для каждого образца с использованием всех экспрессированных генов из транскриптома. (B) Оценка MDP для каждого образца с использованием только верхних 25% наиболее возмущенных генов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 6
Рисунок 6: Функциональный анализ для DEG. (A) Гены, регулируемые вверх и (B) регулируемые понижающие, были представлены на веб-сайте Enrichr для оценки биологических путей или репрезентативных наборов генов. P-значения были рассчитаны для каждого пути, и на рисунке были показаны только значительные различия. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Подготовка библиотек секвенирования является решающим шагом на пути к наилучшим ответам на биологические вопросы. Тип транскриптов, представляющих интерес для исследования, будет определять, какой тип библиотеки секвенирования будет выбран, и стимулировать биоинформационный анализ. Например, из секвенирования взаимодействия патогена и хозяина, в соответствии с типом секвенирования, можно идентифицировать последовательности из обоих или только из транскриптов хозяина.

Оборудование для секвенирования следующего поколения, например, платформа Illumina, измеряет показатели качества секвенирования, что означает вероятность того, что база называется неправильно. Последующие анализы очень чувствительны к низкокачественным последовательностям и приводят к недочитанию или неправильному прочтению экспрессии генов. Еще одним препятствием в выполнении правильного анализа и интерпретации являются последовательности адаптеров. Последовательности адаптеров помогают в подготовке библиотеки и секвенировании, и в большинстве случаев адаптеры также секвенируются. Недавние исследования показали, что влияние картографического инструмента на конечные результаты минимально13. Тем не менее, в исследованиях патогена-хозяина процесс картирования может дать немного лучшие результаты при тестировании различных пороговых значений, чтобы свести к минимуму проблему множественных последовательностей локусов.

Результаты дифференциальной экспрессии генов следует интерпретировать с определенной осторожностью, особенно когда количество образцов на группу очень мало, а образцы получены из разных анализов и вмешиваются пакетными эффектами в результат ДЭГ. Эти результаты чувствительны к нескольким факторам: (i) применяемая фильтрация данных, такая как удаление низко экспрессированных генов и количество образцов для поддержания; (ii) дизайн исследования, чтобы сравнить только между выборочными группами или каждого инфицированного пациента и всех контрольных пациентов, как показано в исследовании CHIKV7; и iii) статистический метод, используемый для идентификации ДЭГ. Здесь мы иллюстрируем базовый пример с EdgeR для идентификации DEG, предполагая пороговое значение p 0,05. В литературе также известно, что по сравнению с другими эталонными методами EdgeR может иметь большой диапазон вариативности в идентификации DEGs14. Можно было бы рассмотреть компромисс между такими различными методами и принять во внимание количество доступных реплик и сложность экспериментального проекта14.

CEMiTool выполняет анализ модуля коэкспрессии12. Этот инструмент доступен через пакет R в репозитории Bioconductor, а также доступен в удобной для пользователя версии через webCEMiTool; последнее является версией, используемой в этом текущем протоколе. Это альтернативное программное обеспечение по отношению к WGCNA15, представляющее несколько преимуществ по сравнению с последним16, включая тот факт, что оно более удобно для пользователя17. Кроме того, этот инструмент имеет автоматический метод фильтрации генов, тогда как в WGCNA пользователь должен фильтровать гены до использования WGCNA. Кроме того, этот инструмент имеет установленные параметры по умолчанию, в то время как в WGCNA пользователь должен вручную выбрать параметры анализа. Ручной выбор параметров ухудшает воспроизводимость; таким образом, автоматический выбор параметров гарантирует улучшенную воспроизводимость.

В некоторых случаях CEMiTool не может найти соответствующий мягкий порог, также называемый β значением. В этом случае пользователь должен проверить, представляют ли данные RNA-seq сильную зависимость от средней дисперсии. Если среднее значение демонстрирует сильную линейную связь с дисперсией (с учетом всех генов), пользователь должен повторно запустить анализ, проверив параметр «Применить VST», чтобы удалить среднедисперсионную зависимость транскриптомных данных. Всегда важно проверить, есть ли сильная зависимость от средней дисперсии в данных, и удалить ее, когда она присутствует.

CEMiTool широко используется для выявления и изучения биологического значения модулей совместной экспрессии. Исследование острой инфекции CHIKV показало модуль с более высокой активностью у пациентов через 2-4 дня после появления симптомов7. Функциональное обогащение этого модуля ORA показало увеличение моноцитов и нейтрофилов7. Исследование вакцинации против гриппа с использованием транскриптома крови от исходного уровня до 7-го дня после вакцинации представило модули коэкспрессии, функционально обогащенные биологическими процессами, связанными с Т, В и естественными клетками-киллерами, моноцитами, нейтрофилами, реакциями интерферона и активацией тромбоцитов18.

Учитывая изменчивость от транскриптомных наборов данных, идентификация и количественная оценка гетерогенности данных может быть проблемой, поскольку многие переменные могут влиять на профиль экспрессии генов7,11. MDP обеспечивает способ идентификации и количественной оценки возмущенных образцов здоровых и инфицированных субъектов путем выполнения следующих этапов: (i) расчет метода центральности (медианы или среднего) и стандартного отклонения контрольных образцов; (ii) использовать полученные значения для расчета z-балла всех генов; iii) установить пороговый z-балл в абсолютном выражении, превышающий 2, с указанием репрезентативных отклонений от контрольных выборок; и iv) рассчитать среднее значение значений генов, используя баллы, отфильтрованные для каждого образца. Несмотря на некоторые ограничения для анализа scRNA-seq, этот инструмент был функциональным в определении оценки возмущения по микрочипам и данным RNA-seq11. Кроме того, предыдущее исследование использовало этот инструмент для демонстрации молекулярной степени возмущения, повышенной на транскриптоме крови у больных туберкулезом и сахарным диабетом19. В этой работе было показано возмущение контрольных и остро инфицированных образцов CHIKV с использованием здоровых лиц в качестве референтной группы.

Анализ функционального обогащения, выполняемый Enrichr, - это ORA20,21. ORA - это один из видов анализа функционального обогащения, при котором пользователь должен предоставить инструменту список DEG. Список DEG обычно разделяется на список DEG с пониженным регулированием и на список DEG с повышенным регулированием. Существуют и другие инструменты для выполнения ORA, среди них gProfiler, который доступен в удобной для пользователя веб-версии22, и goseq23, который доступен в виде пакета R на Bioconductor. Другим типом анализа функционального обогащения является GSEA. Для выполнения GSEA пользователь должен предоставить все гены в ранжированном списке. Этот список обычно ранжируется в соответствии с экспрессией генов в fold change.

Enrichr всегда предоставляет 10 лучших наборов генов, обогащенных на основе их p-значений в результате гистограммы. Поэтому пользователь должен быть начеку при интерпретации результатов, если есть менее 10 обогащенных наборов генов, гистограмма также покажет необогащенные биологические процессы. Чтобы избежать этой ошибки, пользователь должен установить отсечение для p-значения и наблюдать p-значения путей, прежде чем предположить, что все наборы генов гистограммы обогащены. Кроме того, пользователь должен знать, что порядок 10 наборов генов, отображаемых в гистограмме, соответствует p-значениям, а не скорректированным p-значениям. В случае, если пользователь хочет показать все обогащенные пути в гистограмме или даже изменить порядок в соответствии с скорректированными p-значениями, рекомендуется, чтобы пользователь создал свою собственную гистограмму, используя загруженную таблицу. Пользователь может создать новую гистограмму с помощью Excel или даже программного обеспечения R.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

HN финансируется FAPESP (номера грантов: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 и 2013/08216-2) и CNPq (313662/2017-7).

Мы особенно благодарны следующим грантам для стипендиатов: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) и RLTO (CNPq Process 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Иммунология и инфекция выпуск 181 высокопроизводительное секвенирование РНК-секв взаимодействие хозяин-патоген дифференциально экспрессированные гены коэкспрессированные гены функциональный анализ молекулярная степень возмущения образцов
Высокопроизводительный анализ транскриптома для исследования взаимодействий хозяина и патогена
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter