Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Анализ многофакторных экспериментов с РНК-Seq с помощью DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress - это инструмент на основе скриптов, реализованный в R для выполнения анализа RNA-Seq от контроля качества до совместной экспрессии. DiCoExpress обрабатывает полный и несбалансированный дизайн до 2 биологических факторов. Этот видеоурок проведет пользователя через различные функции DiCoExpress.

Abstract

Правильное использование статистического моделирования в анализе данных NGS требует продвинутого уровня знаний. В последнее время растет консенсус в отношении использования обобщенных линейных моделей для дифференциального анализа данных RNA-Seq и преимущества смешанных моделей для выполнения анализа коэкспрессии. Чтобы предложить управляемую настройку для использования этих подходов к моделированию, мы разработали DiCoExpress, который предоставляет стандартизированный конвейер R для выполнения анализа RNA-Seq. Без каких-либо специальных знаний в области статистики или R-программирования новички могут выполнять полный анализ RNA-Seq от контроля качества до совместного выражения посредством дифференциального анализа на основе контрастов внутри обобщенной линейной модели. Предложен анализ обогащения как по спискам дифференциально экспрессированных генов, так и по коэкспрессированным кластерам генов. Этот видеоурок задуман как пошаговый протокол, чтобы помочь пользователям в полной мере воспользоваться преимуществами DiCoExpress и его потенциала в расширении возможностей биологической интерпретации эксперимента RNA-Seq.

Introduction

Технология секвенирования РНК следующего поколения (RNA-Seq) в настоящее время является золотым стандартом анализа транскриптома1. С первых дней существования технологии совместные усилия биоинформатиков и биостатистиков привели к разработке многочисленных методов, охватывающих все основные этапы транскриптомного анализа, от картирования до количественной оценки транскриптов2. Большинство инструментов, доступных сегодня биологу, разработаны в программной среде R для статистических вычислений и графиков3, а многие пакеты для анализа биологических данных доступны в репозитории Bioconductor4. Эти пакеты предлагают полный контроль и настройку анализа, но они приходят за счет широкого использования интерфейса командной строки. Поскольку многие биологи более комфортно относятся к подходу «укажи ищелкни» 5, демократизация анализа РНК-Seq требует разработки более удобных интерфейсов или протоколов6. Например, можно создавать веб-интерфейсы пакетов R с помощью Shiny7, а анализ данных командной строки становится более интуитивно понятным с интерфейсом R-studio8 . Разработка специализированных, пошаговых учебников также может помочь новому пользователю. В частности, видеоурок дополняет классический текстовый, что приводит к более глубокому пониманию всех этапов процедуры.

Недавно мы разработали DiCoExpress9, инструмент для анализа многофакторных экспериментов RNA-Seq в R с использованием методов, которые считаются лучшими, основанными на нейтральных сравнительных исследованиях 10,11,12. Начиная с таблицы подсчета, DiCoExpress предлагает этап контроля качества данных, за которым следует дифференциальный анализ экспрессии генов (пакетedgeR 13) с использованием обобщенной линейной модели (GLM) и генерация кластеров коэкспрессии с использованием моделей смеси Гаусса (пакет coseq12). DiCoExpress обрабатывает полную и несбалансированную конструкцию до 2 биологических факторов (т.е. генотип и лечение) и одного технического фактора (т.е. репликация). Оригинальность DiCoExpress заключается в архитектуре каталогов, хранящей и организующей данные, скрипты и результаты, а также в автоматизации записи контрастов, позволяющей пользователю исследовать многочисленные вопросы в рамках одной статистической модели. Была также предпринята попытка представить графические результаты, иллюстрирующие статистические результаты.

Рабочая область DiCoExpress доступна по адресу https://forgemia.inra.fr/GNet/dicoexpress. Он содержит четыре каталога, два PDF и два текстовых файла. Каталог Data/ содержит входные наборы данных; для этого протокола мы будем использовать набор данных "tutorial". Каталог Sources/ содержит семь функций R, необходимых для выполнения анализа, и не должен быть изменен пользователем. Анализ выполняется с использованием скриптов, хранящихся в каталоге Template_scripts/. Тот, который используется в этом протоколе, называется DiCoExpress_Tutorial_JoVE.R и может быть легко адаптирован к любому транскриптомному проекту. Все результаты записываются в каталог Results/ и хранятся в подкаталоге, названном в соответствии с проектом. Файл README.md содержит полезную информацию об установке, а любые конкретные сведения о методе и его использовании можно найти в файле DiCoExpress_Reference_Manual.pdf.

Этот видеоурок проводит пользователя через различные функции DiCoExpress с целью преодоления нежелания, испытываемого биологами с помощью инструментов на основе командной строки. Здесь мы представляем анализ искусственного набора данных RNA-Seq, описывающего экспрессию генов в трех биологических репликатах четырех генотипов, с лечением или без него. Теперь мы рассмотрим различные этапы рабочего процесса DiCoExpress, показанные на рисунке 1. Скрипт, описанный в разделе Протокол, и входные файлы доступны на сайте: https://forgemia.inra.fr/GNet/dicoexpress

Подготовка файлов данных
Четыре CSV-файла, хранящиеся в каталоге Data/, должны быть названы в соответствии с именем проекта. В нашем примере все имена, следовательно, начинаются с «Tutorial», и мы установим Project_Name = «Tutorial» на шаге 4 протокола. Разделитель, используемый в CSV-файлах, должен быть указан в переменной Sep на шаге 4. В нашем наборе данных "tutorial" разделителем является табуляция. Для опытных пользователей полный набор данных можно свести к подмножеству, предоставив список инструкций и новую Project_Name через переменную Filter. Этот параметр позволяет избежать избыточных копий входных файлов и проверяет принципы FAIR14.

Среди четырех CSV-файлов обязательными являются только файлы COUNTS и TARGET. Они содержат необработанные подсчеты для каждого гена (здесь Tutorial_COUNTS.csv) и описание экспериментального дизайна (здесь Tutorial_TARGET.csv). Файл TARGET.csv описывает каждый образец (один образец на строку) с модальностью для каждого биологического или технического фактора (в столбцах). Мы настоятельно рекомендуем, чтобы имена, выбранные для модальностей, начинались с буквы, а не с цифры. Имя последнего столбца ("Репликатировать") изменить нельзя. Наконец, имена образцов (первый столбец) должны совпадать с именами в заголовках файла COUNTS.csv (Genotype1_control_rep1 в нашем примере). Файл Enrichment.csv, в котором каждая строка содержит один Gene_ID и один термин аннотации, требуется только в том случае, если пользователь планирует выполнить анализ обогащения. Если один ген имеет несколько аннотаций, их придется писать разными строками. Файл Annotation.csv является необязательным и используется для добавления краткого описания каждого гена в выходные файлы. Лучший способ получить файл аннотации - получить информацию из выделенных баз данных (например, Thalemine: https://bar.utoronto.ca/thalemine/begin.do для Arabidopsis).

Установка ДиКоЭкспресс
Для DiCoExpress требуются специальные пакеты R. Используйте источник командной строки(".. /Sources/Install_Packages.R") в консоли R для проверки состояния установки требуемого пакета. Для пользователей Linux другим решением является установка контейнера, предназначенного для DiCoExpress и доступного по адресу https://forgemia.inra.fr/GNet/dicoexpress/container_registry. По определению, этот контейнер содержит DiCoExpress со всеми необходимыми частями, такими как библиотеки и другие зависимости.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. ДиКоЭкспресс

  1. Откройте сеанс R studio и задайте для каталога значение Template_scripts.
  2. Откройте сценарий DiCoExpress_Tutorial.R в R studio.
  3. Загрузите функции DiCoExpress в сеансЕ R с помощью следующих команд:
    > источник(".. /Источники/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Данные"
    > Results_Directory = ".. /Результаты/"
  4. Загрузите файлы данных в сеансе R с помощью следующих команд:
    > Project_Name = "Учебник"
    > фильтр = NULL
    > Sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Фильтр, Сент)
  5. Разделите объект Data_Files на несколько объектов, чтобы легко ими манипулировать:
    > Project_Name = Data_Files$Project_Name
    > Цель = Data_Files$Цель
    > Raw_Counts = Data_Files$Raw_Counts
    > Аннотация = Data_Files$Аннотация
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. Выберите стратегию среди «NbConditions», «NbReplicates» или «filterByExpr» и порог для фильтрации низко экспрессированных генов. Здесь мы выбираем
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Указание цветов группы с помощью команды
    > Color_Group = NULL
    ПРИМЕЧАНИЕ: Если задано значение NULL, R автоматически присваивает цвета биологическим условиям. В противном случае введите вектор, указывающий цвет для каждой биологической группы.
  8. Выберите метод нормализации среди методов, принимаемых функцией calcNormFactors edgeR. Как, например,
    > Normalization_Method = "ТММ"
  9. Выполните контроль качества, выполнив следующую функцию
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, цель, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
  10. Состояние Репликация = ИСТИНА, если данные сопряжены в соответствии с коэффициентом репликации, в противном случае — значение FALSE.
  11. Присвойте значение «Взаимодействие» = TRUE для рассмотрения взаимодействия между двумя биологическими факторами, в противном случае — FALSE.
  12. Укажите статистическую модель с помощью следующих команд
    модель > = GLM_Contrasts (Results_Directory, Project_Name, цель, репликация, взаимодействие)
    > GLM_Model = модель$GLM_Model
    > Контрасты = Модель$Контрасты
  13. Определите пороговое значение коэффициента ложного обнаружения, здесь 0,05
    > Alpha_DiffAnalysis =0.05
  14. Выполните дифференциальный анализ с помощью следующих команд
    > Index_Contrast=1:nrow(Контрасты)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Мишень, Raw_Counts, GLM_Model, Контрасты, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. Зафиксируйте порог для анализа обогащения, здесь 0.01
    > Alpha_Enrichment = 0.01
  16. Проведение анализа обогащения списков дифференциально экспрессированных генов (DEG)
    > Заголовок = NULL
    > Обогащение(Results_Directory, Project_Name, Название, Reference_Enrichment, Alpha_Enrichment)
  17. Выберите списки DEG для сравнения. Как, например,
    > группы = Контрасты$Контрасты[24:28]
  18. Укажите имя для сравнения списка. Это имя используется для каталога, в котором будут сохранены выходные файлы
    > Название = "Interaction_with_Genotypes_1_and_2"
  19. Укажите действие, которое необходимо выполнить в списках DEG, установив для параметра Operation значение объединение или пересечение. Мы выбираем
    > операция = "Союз"
  20. Сравнение списков DEG
    > Venn_IntersectUnion (Data_Directory, Results_Directory, Project_Name, название, группы, операция)
  21. Выполнение анализа со-выражений с помощью функции
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, название, цель, Raw_Counts, Color_Group)
  22. Выполнение анализа обогащения кластеров коэкспрессии
    > Обогащение(Results_Directory, Project_Name, Название, Reference_Enrichment, Alpha_Enrichment)
  23. Сгенерируйте два файла журнала, содержащих всю необходимую информацию для воспроизведения анализа
    > Save_Parameters( )
    ПРИМЕЧАНИЕ: Командные строки, используемые в этом протоколе, показаны на рисунке 2. Выделяются строки, которые необходимо изменить для анализа другого набора данных.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Все выходные данные DiCoExpress сохраняются в каталоге Tutorial/, который сам помещается в каталог Results/. Здесь мы приводим некоторые рекомендации по оценке общего качества анализа.

Контроль качества
Выходные данные контроля качества, расположенные в каталоге Quality_Control/, необходимы для проверки надежности результатов анализа RNA-Seq. Файл Data_Quality_Control.pdf содержит несколько графиков, полученных с необработанными и нормализованными данными, которые можно использовать для выявления любых потенциальных проблем с данными. Общее нормализованное количество на выборку должно быть одинаковым при сравнении как внутри, так и между условиями. Кроме того, ожидается, что нормализованные показатели экспрессии генов будут демонстрировать аналогичную медиану и дисперсию как во внутренних, так и в межуровневых условиях (рисунок 3А). В противном случае это может быть признаком несходственной дисперсии между условиями, что может быть проблематичным для подгонки модели.

Наконец, графики PCA на нормализованных подсчетах, полученные в DiCoExpress, полезны для выявления потенциальных базовых структур данных (рисунок 3B). В нашем примере нет кластеризации в соответствии с репликами, что означает, что этот фактор не является дискриминантным. В то же время можно выделить четкое различие между методами лечения. Эти результаты указывают на набор данных хорошего качества, поскольку биологический эффект всегда ожидается сильнее, чем реплицированный. В заключение, общее качество, наблюдаемое здесь, не препятствует любому последующему анализу всего набора данных.

Статистическое моделирование
DiCoExpress облегчает написание статистического моделирования логарифма среднего выражения из двух переменных Replicate и Interaction. Эффект репликации возможен, если образцы всех биологических условий собираются одновременно и что этот эксперимент воспроизводится в разные дни для измерения биологической изменчивости. Например, в типичном научном эксперименте по растению образцы выращиваются в одной и той же камере роста независимо от изучаемого биологического состояния, а биологические реплики соответствуют экспериментам, начатым в разные дни. В этом случае образцы одной и той же реплики сопряжены, и для параметра Реплицировать следует задать значение TRUE. В противном случае для параметра Реплицировать должно быть установлено значение FALSE. Этот эффект репликации также известен как пакетный эффект.

Если экспериментальная конструкция описывается двумя биологическими факторами, которые, как ожидается, будут взаимодействовать, установите переменную Взаимодействие в значение TRUE, чтобы рассмотреть взаимодействие. Обратите внимание, что для проекта, содержащего только один биологический фактор, переменная Interaction автоматически устанавливается в значение FALSE.

Дифференциальный анализ
DEG, идентифицированный для всех протестированных контрастов, доступен в текстовых файлах, расположенных в соответствующих подкаталогах в каталоге DiffAnalysis/. По умолчанию все контрасты тестируются. В зависимости от экспериментальной конструкции некоторые контрасты могут представлять ограниченный биологический интерес (например, среднее значение по нескольким генотипам). Обратите внимание, что контроль ложных срабатываний выполняется для каждого контраста, гарантируя, что потенциально нерелевантные контрасты не повлияют на анализ. Однако можно создавать участки, содержащие только контраст интересов, воздействуя на Index_Contrast переменную. Подробная информация доступна в онлайновом справочном руководстве.

Важно отметить, что DiffAnalysis/ также содержит необработанные гистограммы p-значения, которые, как недавно было показано, являются лучшим способом оценки качества моделирования11. Ожидаемое распределение необработанных p-значений должно быть однородным, возможно, с пиком в левой конечной части распределения. Высокий пик для необработанного p-значения 1 свидетельствует о проблемах с подгонкой модели. В этом случае задачу часто можно решить, увеличив значение заданного CPM_Cutoff, например, с 1 до 5. Примеры необработанных гистограмм доступны на рисунке 4A и в https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Для каждого тестируемого контраста профили выражений верхнего идентифицированного DEG (по умолчанию топ-20) отображаются в файле Top20_Profile.pdf, расположенном в каталоге контраста. Пример для одного гена, идентифицированного как дифференциально экспрессируемый в одном контрасте, показан на рисунке 4B. Число верхних и нижних DEG отображается для каждого тестируемого контраста и находится в файле Down_Up_DEG.pdf (пример на рисунке 4C).

Анализ соэкспрессии
В нашем примере анализ коэкспрессии выполняется на объединении 5 списков DEG, идентифицированных напротив, с поиском вариаций ответа на лечение между генотипом 1 или 2 по сравнению с другими. Диаграмма Венна DEG показана на рисунке 5A. Совместно экспрессированные гены для каждого идентифицированного кластера печатаются в отдельных текстовых файлах (один файл на кластер). Профили выражений различных кластеров вместе доступны в файле Boxplot_profiles_Coseq.pdf (см. пример на рисунке 5B). Хотя параметры настройки доступны, они должны использоваться только продвинутыми пользователями. Пожалуйста, обратитесь к справочному руководству для полного объяснения различных параметров.

Анализ обогащения
Списки, соответствующие анализу контрастности и обогащения кластера, расположены в соответствующих каталогах. Термин аннотации, признанный значимым в этом анализе, может быть либо чрезмерно, либо недостаточно представлен в списке Gene_ID. Эта информация включается в выходной файл.

Обратите внимание, что тестовое решение принимается из необработанных p-значений. Если пользователь хочет настроить необработанные p-значения a posteriori, они доступны в файлах с суффиксом All_Enrichment_Results.txt.

Срок действия ДиКоЭкспресс
Хотя DiCoExpress был разработан для облегчения многофакторного анализа экспериментов RNA-Seq, достоверность его результатов во многом зависит от характеристик набора данных. Несколько результатов должны быть тщательно проверены, прежде чем давать какую-либо обоснованную интерпретацию результатов. Во-первых, на этапе контроля качества нормализованный размер библиотеки должен быть одинаковым, а нормализованное количество экспрессии генов должно демонстрировать аналогичную медиану и дисперсию как внутри, так и между условиями. Затем особое внимание следует уделить форме необработанных гистограмм p-значения. Наконец, при выполнении анализа соэкспрессии четко определенное минимальное значение для ICL свидетельствует о хорошем качестве. Если эти условия не соблюдены, любая интерпретация результатов, скорее всего, будет ошибочной.

Figure 1
Рисунок 1. Конвейер анализа DiCoExpress.  Семь этапов полного анализа RNA-Seq с использованием DiCoExpress обозначены синими полями, представляющими этапы, на которых выполняются статистические методы. Шаг 7 (Обогащение) может быть выполнен после Шага 4 (Дифференциальный анализ и называется 7.1 на рисунке 2) и/или Шага 6 (Анализ соэкспрессий и называется 7.2 на рисунке 2). Красные номера соответствуют номерам шагов в протоколе. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 2
Рисунок 2. Скриншоты командных строк DiCoExpress.  Указаны командные строки, используемые для анализа набора данных учебника. Число в черных кругах такое же, как и на рисунке 1. Красные прямоугольники выделяют линии, которые могут быть настроены пользователем. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 3
Рисунок 3: Репрезентативные результаты этапа контроля качества.  Рисунок, полученный с помощью "Tutorial" набора данных нормализованных счетчиков. А) Коробчатый график нормализованных подсчетов. B) PCA по нормализованным подсчетам. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 4
Рисунок 4: Репрезентативные результаты анализа дифференциальных выражений Рисунок, полученный с помощью набора данных "Tutorial". А) Необработанная гистограмма p-значения [control_Genotype2 - control_Genotype3] контраста. B) Профиль экспрессии гена C1G62301.1 в каждом генотипе и состоянии, один из 20 лучших дифференциально экспрессированных генов в [control_Genotype2 - control_Genotype3] контрасте. C) Количество дифференциально экспрессированных генов в каждом тестируемом контрасте. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 5
Рисунок 5: Репрезентативные результаты анализа коэкспрессии.  Рисунок, полученный с помощью набора данных "Tutorial". А) Диаграмма Венна ДЭГ из 5 контрастов «взаимодействие с генотипом 1 и 2». DEG из вариации ответа на лечение между генотипами 1 и 2, 1 и 3, 1 и 4, 2 и 3, 2 и 4 находятся в круге A, B, C, D, E соответственно. Число, написанное в правом нижнем углу («14877»), — это количество генов, которые не являются DE ни в одном списке. B) Профиль экспрессии генов из кластера коэкспрессии 3. Рисунок извлечен из Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Дополнительный файл. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Поскольку RNA-Seq стал повсеместным методом в биологических исследованиях, существует постоянная необходимость в разработке универсальных и удобных для пользователя аналитических инструментов. Критическим шагом в большинстве аналитических рабочих процессов часто является достоверная идентификация генов, дифференциально экспрессируемых между биологическими состояниями и/или методами лечения15. Получение достоверных результатов требует надлежащего статистического моделирования, которое послужило мотивацией для разработки DiCoExpress.

DiCoExpress - это инструмент на основе скриптов, реализованный в R, который направлен на то, чтобы помочь биологам в полной мере воспользоваться возможностями нейтральных сравнительных исследований при поиске DEG. DiCoExpress предоставляет стандартизированный конвейер, предлагающий возможность оценить структуру и качество данных, тем самым обеспечивая выбор наилучшего подхода к моделированию. Без каких-либо специальных знаний в области статистики или R-программирования он позволяет новичкам выполнять полный анализ RNA-Seq от контроля качества до совместной экспрессии с помощью дифференциального анализа на основе контрастов внутри обобщенных линейных моделей. Важно отметить, что DiCoExpress фокусируется на статистической части анализа RNA-Seq и требует таблицы подсчета в качестве входных данных. Многочисленные методы биоинформатики, предназначенные для выравнивания считывания RNA-Seq и создания таблиц подсчета, выходят за рамки инструмента. Тем не менее, они оказывают непосредственное влияние на качество итогового анализа и должны быть тщательно отобраны.

Хотя DiCoExpress не является инструментом «укажи и щелкни», его архитектура каталога и сценарий шаблона, предоставляемый и используемый в интерфейсе R-Studio, делают его доступным для биологов с минимальным знанием R. После установки DiCoExpress пользователи должны знать, как использовать функцию в R и определять обязательные и необязательные аргументы. Первым важным шагом является правильное предоставление двух обязательных файлов, содержащих необработанные подсчеты для каждого гена (файл COUNTS) и описание экспериментального проекта (файл TARGET). Используемый сепаратор должен быть одинаковым для каждого файла, и описание образцов должно быть сделано соответствующим образом в соответствии с модальностями биологических факторов. Как только два файла загружены в DiCoExpress, анализ почти автоматизирован до второго критического шага, то есть анализа со-выражения. Этот анализ действительно может занять много времени, и для его выполнения на больших наборах данных может потребоваться мощный вычислительный сервер.

Поскольку автоматизация контрастного письма становится сложной задачей для более чем двух биологических факторов, мы ограничили DiCoExpress полным и несбалансированным дизайном до 2 биологических факторов. Если проект содержит более 2 биологических факторов, практическим решением является разрушение двух исходных факторов для создания нового. Тем не менее, нужно иметь в виду, что трудность дать значимую биологическую интерпретацию возрастает по мере увеличения числа биологических факторов.

DiCoExpress задуман как развивающийся инструмент, и мы настоятельно рекомендуем пользователям подписываться на список рассылки (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Любые изменения или улучшения инструмента будут объявлены в списке, и мы приветствуем вопросы или предложения. Мы также надеемся, что принятие DiCoExpress большим сообществом позволит отслеживать и исправлять любые ошибки, которые могут возникнуть в каком-то конкретном контексте анализа. Все обновления и исправления будут отправлены в каталог git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать

Acknowledgments

Эта работа была в основном поддержана ANR PSYCHE (ANR-16-CE20-0009). Авторы благодарят Ф. Депре за постройку контейнера DiCoExpress. Работа КБ поддерживается программой «Инвестиции в будущее» ANR-10-BTBR-01-01 Amaizing. Лаборатории GQE и IPS2 пользуются поддержкой Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Машиностроение выпуск 185
Анализ многофакторных экспериментов с РНК-Seq с помощью DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter