Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Транскриптомный Анализ Published: April 8, 2017 doi: 10.3791/55473

Summary

Galaxy и DAVID появились в качестве популярных инструментов, которые позволяют следователям без подготовки биоинформатики для анализа и интерпретации РНК-Seq данных. Мы опишем протокол для C. Элеганс исследователей проводить РНК-Seq экспериментов, доступ и обрабатывать набор данных с помощью Galaxy и получить значимую биологическую информацию из списков генов с использованием DAVID.

Abstract

Следующее поколение секвенирования (NGS) технологии революционизировали природу биологических исследований. Из них РНК Секвенирование (Секвенирование РНК) возникла как мощный инструмент для анализа экспрессии генов и картирования транскриптом. Однако, обработка РНК-Seq наборов данных требует сложной вычислительной опыт и создает присущие проблемы для биологии исследователей. Это узкое место было смягчено Galaxy проекта открытого доступа, что позволяет пользователям без навыков биоинформатики для анализа РНК-Seq данных, а также базы данных для аннотации, визуализации и Integrated Discovery (DAVID), ген Онтология (ГО) термин свита анализ, который помогает получить биологическое значение из больших массивов данных. Тем не менее, для начинающих пользователей и любителей биоинформатики, самообучения и ознакомлении с этими платформами может быть отнимающим много времени и сложной. Опишем простой рабочий процесс , который поможет C. Элеганс исследователи изолировать червь РНК, проводят РНК-Seq эксперименти анализировать данные с помощью Galaxy и DAVID платформ. Этот протокол обеспечивает пошаговые инструкции по использованию различных Galaxy модулей для доступа необработанных данных NGS, проверки контроля качества, выравнивание и анализ экспрессии дифференциального гена, направляя пользователя с параметрами на каждом этапе, чтобы создать список генов, которые могут быть подвергнуты скринингу для обогащения классы генов или биологические процессы с использованием Давида. В целом, мы ожидаем , что эта статья будет предоставлять информацию C. Элеганс исследователей , проводящим РНК-Seq экспериментов впервые, а также частых пользователей , работающих с небольшим количеством образцов.

Introduction

Первое секвенирование генома человека, осуществляется с использованием методы дидеоксинуклеотидного-секвенирование Фреда Сэнгера, потребовалось 10 лет, а стоимость , по оценкам US $ 3 млрд 1, 2. Однако, в чуть более десяти лет с момента своего создания следующего поколения секвенирования технологии (NGS) позволило секвенировать весь геном человека в течение двух недель и за $ 1000 долларов США. Новые инструменты NGS, которые позволяют постоянно увеличивающиеся скорости сбора данных секвенирования-с невероятной эффективностью, наряду с резким сокращением стоимости, реконструируют современную биологию в немыслимых способах, как секвенирование генома проекты быстро становятся обычными явлением. Кроме того, эти события оцинкованных прогресса во многих других областях, таких как анализ экспрессии генов с помощью РНК-секвенировании (РНК-Seq), изучения генома эпигенетических модификаций, ДНК-белковых взаимодействий, и скрининг на микробное разнообразие в человеческих хостах. НГС на основе РНК-Seд, в частности, позволило выявить и карты Транскриптом Комплексным точности и чувствительности, а также заменила технологию микрочипов в качестве метода выбора для выражения профилирования. Хотя технология микрочипов широко используется, она ограничена его опорой на уже существующих массивов с известной геномной информации, а также другие недостатки, такие как кросс-гибридизации и ограниченного диапазона изменений экспрессии, которые могут быть надежно измерить. РНК-сло, с другой стороны, может быть использованы для обнаружения известных и неизвестных транскриптов при производстве низкого фонового шума из-за его однозначное отображение ДНК природы. РНК-Seq, вместе с многочисленными генетическими инструментами, предлагаемые модельными организмами, такие как дрожжи, мухами, черви, рыбы и мышей, послужили основу для многих важных недавних биомедицинских открытий. Тем не менее, остаются значительные проблемы, которые делают NGS недоступными для широкого научного сообщества, в том числе ограничения, хранения, обработки, и больше всего, м eaningful анализ биоинформатики больших объемов данных секвенирования.

Быстрое развитие технологий секвенирования и накопления экспоненциальной данных создали большую потребность в вычислительных платформах, что позволит исследователям получить доступ, анализировать и понимать эту информацию. Ранние системы были в значительной степени зависят от компьютерного программирования знаний, в то время как геномные браузеры, такие как NCBI, что позволило не программистам доступ и визуализировать данные не позволяют сложные анализы. Платформа веб-, открытого доступа, Galaxy ( https://galaxyproject.org/ ), заполнил эту пустоту и доказали свою ценность трубопровода , что позволяет исследователям для обработки данных NGS и выполнять целый спектр простых в комплексе биоинформатики анализ. Галактика была первоначально создана и поддерживается, лабораториями Антона Некрутенко (Penn State University) и Джеймс Тейлор (Университет Джона Хопкинса)е "> 3. Галактика предлагает широкий спектр вычислительных задач , что делает его„одной остановки магазин“для бесчисленных нужд биоинформатики, включая все этапы , участвующих в исследовании РНК-Seq. Itallows пользователям выполнять обработку данных либо на своих серверах или локально на своих машинах. Данные и рабочие процессы могут быть воспроизведены и совместно. Интерактивные руководства, раздел справки, и вики-страницы ( https://wiki.galaxyproject.org/Support ) , посвященный проекту Galaxy обеспечивают постоянную поддержку. Тем не менее, для начинающих пользователей, особенно тех, без обучения биоинформатики, трубопровод может оказаться сложными и процесс самообучения и ознакомлению может занять много времени. Кроме того, биологическая система изучена, и особенность эксперимента и используемые методов, влияние аналитические решения на несколько шагов, и они могут быть трудно ориентироваться без инструкции.

Общий Р.Н. А-Seq Галактики Рабочий процесс состоит из загрузки данных и проверки качества с последующим анализом с помощью Tuxedo Suite 4, 5, 6, 7, 8, 9, которая является коллективным различных инструментов , необходимых для различных этапов анализа данных 10 РНК-Seq, 11, 12, 13, 14. Типичная Секвенирование РНК эксперимент состоит из экспериментальной части (подготовки образца, изоляции мРНК и кДНК библиотеки препарата), то НГС и анализ биоинформатики данных. Обзор этих секций, а также шаги , участвующих в трубопроводе Galaxy, показаны на рисунке 1.

3fig1.jpg»/>
Рисунок 1: Обзор РНК-Seq рабочий процесс. Иллюстрация экспериментальных и вычислительных стадий, участвующих в РНК-Seq эксперимент, чтобы сравнить ген-профили экспрессии двух червячных штаммов (А и В, оранжевый и зеленый линиями и стрелками, соответственно). Различные модули используются Галактики показаны в коробках с соответствующим шагом в нашем протоколе, указанном в красном цвете. Выходы различных операций записываются в сером цвете с форматами файлов, показанных синим цветом. Пожалуйста , нажмите здесь , чтобы посмотреть увеличенную версию этой фигуры.

Первый инструмент в смокинге Suite , это программа выравнивания называется "Tophat. Он расщепляет входной NGS читает на более мелкие фрагменты, а затем отображает их на референсный геном. Этот двухэтапный процесс обеспечивает то, что читает охватывающих интронных регионов, выравнивание может быть иначе диsrupted или пропущенный учитываются и отображаются. Это увеличивает охват и облегчает идентификацию нового сплайсинга. Tophat выход сообщаются в виде двух файлов, кровать файлы (с информацией о сплайсинге , которые включают в себя геномное местоположение) и БАМ файл (с подробной информацией отображения каждого чтения). Затем файл BAM выровнен относительно эталонного генома оценить обилие индивидуальных транскриптов в пределах каждого образца с помощью последующего инструмента в смокинге люкс под названием «Запонки». Запонки функции путем сканирования выравнивания , чтобы сообщить полнометражных фрагменты транскриптов или «transfrags» , которые охватывают все возможные варианты сплайсинга во входных данных для каждого гена. Исходя из этого, он генерирует «» транскрипта (сборку всех транскриптов, полученные на ген для каждого гена) для каждого образца быть секвенированы. Эти Запонки сборки затем разрушилась или объединены вместе вместе с реFerence геном для создания одного файла аннотаций для нисходящего дифференциального анализа с использованием следующего инструмента, «Cuffmerge». Наконец, экспрессия гена инструмент измеряет дифференциальное в «» Cuffdiff между образцами путем сравнения Tophat выходов каждого из образцов до конечного выходного файла Cuffmerge (рисунок 1). Запонки используют FPKM / RPKM (Фрагменты / Считывает За килобазу транскрипта на миллион отображенных прочтений) значения , чтобы сообщить транскрипты содержаний. Эти значения отражают нормализацию необработанных данных NGS для глубины (среднего числа считывает из образца, который выравнивать к опорному геном) и длина гена (гены имеют разную длину, так что отсчеты должны быть нормализованы по длине гена, чтобы сравнить уровни между генами). FPKM и RPKM, по существу, то же самое с RPKM используется для одностороннего РНК-Seq, где каждый чтения соответствует одному фрагменту, в то время, FPKM используется дляпарноконцевое РНК-Seq, как это объясняет тот факт, что два читает могут соответствовать одному и тому же фрагменту. В конечном счете, результаты этих анализов приведен список генов, выраженных дифференциально между условиями и / или штаммами.

После успешного запуска Galaxy завершен и «список генов» генерируется, следующий логический шаг требует больше биоинформатики анализа выводить значимые знания из массивов данных. Многие программные пакеты появились , чтобы удовлетворить эту потребность, в том числе публично доступные веб-вычислительные пакетов , такие как DAVID (базы данных для аннотаций, визуализации и интегрированного открытия) 15. DAVID облегчает назначение биологического смысла для больших списков генов из исследований с высокими пропускной способностью, сравнивая закачанный список генов в его комплексных биологических базе знаний и выявлении биологических аннотаций, связанные со списком генов. После этого следует обогатительному анализ, то есть тесты на язьntify, если любой биологический процесс или ген класс перепредставлен в списке гена (ов) в статистически значимом образе. Он стал популярным выбором из - за сочетанием широкого, комплексной базы знаний и мощных аналитических алгоритмы , которые позволяют исследователям обнаружить биологические темы , обогащенные в геномика производных «списки генов» 10, 16. Дополнительные преимущества включают его способность обрабатывать списки генов, созданные на любой платформе секвенирования и очень удобный интерфейс.

Нематоды Caenorhabditis Элеганс является генетическая модель системы, хорошо известна своими многочисленными преимуществами , такими , как малый размер, прозрачный корпус, простой план тела, легкость культуры и большой аменабельностью генетической и молекулярной диссекции. Черви имеют небольшой, простой и хорошо аннотированный геном , который включает до 40% консервативных генов с известными человеческими гомологами 17. Действительно, C. Элегансбыл первым метазоа чей геном был полностью секвенирован 18, и один из первых видов , где Секвенирование РНК была использованы для отображения транскрипта организма 19, 20. В начале червячные исследованиях участвовали экспериментирование с различными методами с высокой пропускной способностью захвата РНК, подготовка библиотеки и последовательности, а также биоинформатики трубопроводов , которые внесли свой вклад в развитие технологии 21, 22. В последние годы, РНК-Seq на основе экспериментирования у червей стало обычным явлением. Но для традиционных червячных биологов проблема, связанная с компьютерным анализом РНК-Seq данных остается основным препятствием для более широкого и эффективного использования техники.

В этой статье мы опишем протокол для использования платформы Galaxy для анализа данных РНК-Seq высокой пропускной способности, полученные от С. Элеганс. Для многих, впервые и малого АССпользователи ле, наиболее экономически эффективным и простым способом провести РНК-Seq эксперимент является выделение РНК в лаборатории и использовать коммерческую (или в доме) NGS средство для получения кДНК библиотек секвенирования и самой NGS. Таким образом, мы первым подробно шаги , вовлеченные в изоляции, количественное и качественное оценка C. Элеганс образцов РНК для РНК-Seq. Далее, мы обеспечиваем шаг за шагом инструкции по использованию интерфейса Galaxy для анализа данных NGS, начиная с тестами для проверки контроля качества после секвенирования с последующим выравниванием, сборкой и дифференциальной количественной оценкой экспрессии гена. Кроме того, мы включили направления внимательно изучить списки генов, полученные из Галактики для изучения биологического обогащения с использованием DAVID. В качестве последнего шага в рабочем процессе, мы предоставляем инструкции для загрузки РНК-Seq данных на публичных серверах , таких как последовательность чтения архива (SRA) на NCBI ( HTTP: // шww.ncbi.nlm.nih.gov/sra) , чтобы сделать его свободно доступным для научного сообщества. В целом, мы ожидаем, что эта статья будет оказывать всестороннюю и достаточную информацию для червячных биологов, осуществляющих РНК-Seq экспериментов впервые, а также частых пользователей, работающих с небольшим количеством образцов.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Выделение 1. РНК

  1. Меры предосторожности
    1. Вытирают все рабочую поверхность, инструменты и пипетку с использованием коммерчески доступными РНКазами спрей для устранения любых РНКазов присутствуют.
    2. Надевайте перчатки во все времена, регулярно меняя их свежими в течение различных этапов протокола.
    3. Используйте только советы фильтра и сохранить все образцы на льду как можно больше, чтобы избежать деградации РНК.
      ПРИМЕЧАНИЕ: Для получения наилучших данных от NGS платформ, очень важно начать с высоким качеством РНК. Выделение РНК и подготовка методы различаются в зависимости от образца происхождения, метода секвенирования и исследователем предпочтений. Несколько коммерчески доступных наборов могут быть использованы для этой цели, или РНК могут быть также выделены с использованием стандартного метода фенол-хлороформ экстракции РНК. При любой методике, предупредительные меры, перечисленные выше, должны соблюдаться на протяжении всего процесса, чтобы свести к минимуму загрязнение и ОБТAin образцы нетронутой РНК.
  2. Сбор Worms
    1. Синхронизировать популяцию червя гипохлорита отбеливающей обработкой 23 для получения 1000-1500 подобранных по возрасту C. Элеганс взрослых червей на штамм.
    2. Промыть червь от пластины с использованием буферного раствора M9 и спины при 325 мкг на стол центрифуги в течение 30 секунд. Аспирата из буфера M9 оставляя за таблеткой червей. Повторите этот шаг, по крайней мере, три раза, чтобы исключить бактериальный унос.
    3. К осадку червячного, добавить ~ 500 мкл буфер для лизиса (при использовании коммерческого набора) или Trizol (моно-фазной раствор фенола и гуанидинизотиоцианата, если фенол: хлороформ экстракция описан в разделе 1.3.3 предпринимается), чтобы разрушить ткани червя , деактивировать РНКазы и стабилизации нуклеиновых кислот.
      Примечание: Этот протокол может быть приостановлен здесь вспышкой замораживания образцов в жидком азоте с последующим хранением при -80 ° С.
  3. Выделение РНК
  4. Соникатные образцы червей на 45% амплитуды в циклах 20 с. 'ON' и 40 сек. 'OFF' (8-12 циклов в деформации). Храните образцы на льду во все времена.
    Примечание: Убедитесь, что Sonicator зонд погружали в буфер и поддерживается на постоянном уровне в течение всего. Избегайте вспенивания образца и тщательно очистить зонд в промежутке между образцами. циклы обработки ультразвука могут варьироваться в зависимости от типа используемого для обработки ультразвука. Рекомендуется, чтобы условия обработки ультразвуком сначала оптимизированы на тестовом образце перед началом эксперимента.
  5. При использовании коммерчески доступного набора, продолжения выделения РНК в соответствии с предписанным протоколом. Для выделения РНК с использованием способа фенол-хлороформ, выполняют следующие действия.
  6. Центрифуга образцы обрабатывали ультразвуком при 16000 х г в течение 10 мин. при 4 ° С
  7. Передача супернатант в 1,5 мл РНКазы микроцентрифужную пробирку и добавляют 100 мкл хлороформа (1/5 го объема реагента для выделения РНК / ДНК).
    предосторожность: Хлороформ является токсичным. Для того, чтобы свести к минимуму воздействие и избегать вдыхания, работать в химической капотом при обращении с этим веществом.
  8. Vortex образцы тщательно в течение 30 - 60 с. и пусть образцы сидеть при комнатной температуре в течение 3 мин.
  9. Центрифуга при 11750 х г в течение 15 мин. при 4 ° С. Передача только верхний водный слой к новому РНКазов микрофужных трубок, стараясь не аспирата белого интерфейса ДНК-содержащей. Повторите шаги 1.3.4 через 1.3.6.
  10. Добавьте 250 мкл (70% водной фазы или 1/2 РНК / ДНК, выделение объема реагента) 2-пропанола и инвертировать трубку для смешивания. Пусть трубки сидят при комнатной температуре в течение 10 мин или оставить в течение ночи при -80 ° С.
  11. Центрифуга образцов при 11750 х г в течение 10 мин. при 4 ° С. Слейте супернатант очень осторожно, оставляя за собой несколько мкл на дне пробирки так, чтобы осадок не нарушается.
  12. Промыть осадок 500 мкл 75% -ного этанола (сделанный с использованием РНКазы свободной воды) и спином вниз при 16000 х г в течение 5 мин.т 4 ° С.
  13. Удалить столько супернатант насколько это возможно, не нарушая гранул. Воздух сухой осадок в шкафу в течение нескольких минут.
  14. Добавьте 30 мкл РНКазы свободной воды и помогают растворить РНК гранул при нагревании в течение 10 мин. при 60 ° C.
  15. Проверьте качество РНК и количество с помощью Bioanalyzer.
    Примечание: Bioanalyzer генерирует R НС I ntegrity N умбру (RIN) в качестве меры качества РНК. RIN, по меньшей мере, 8 рекомендуемый порог для РНК-Seq образцов (выше, тем лучше). количество и качество РНК также могут быть проверены спектрофотометрически, но и должны сопровождаться визуальной оценки целостности РНК. Чтобы сделать это, запустить образцы на агарозном геле 1,2% достаточно долго, чтобы получить подходящий разделение 28s и 18s рибосомальной РНК полос. Наличие двух отдельных полос (1,75 кб для 18S рРНК и 3,5 кб для 28s рРНК в случае C. Элеганс) является приемлемой мерой качества РНК.
  16. Используйте ~ 100 нг / мкл РНК шир податель / NGS объект для подготовки библиотек секвенирования.
    Примечание: образцы РНК должны быть отправлены на сухой лед к поставщику услуг секвенирования. Большинство провайдеров провести независимую проверку РНК контроля качества перед приготовлением библиотеки.

2. Секвенирование РНК Анализ данных

  1. Загрузка сырья секвенирования данных
    1. Загрузить сжатые данные секвенирования сырого fastq закодированных в формате fastq.gz от поставщика NGS , используя «протокол передачи файлов (FTP»).

фигура 2
Рисунок 2: Компоновка пользователя Galaxy панели интерфейса и основные РНК-Seq функции. Основные особенности страниц расширены и подсвечиваются. (A) указывает на функцию «Анализ данных» в заголовке веб - страницы , используемый для доступа (В) является «Прогресс бар» , что указывает на пространство на сервере Galaxy используемой операции. (C) является «Инструменты Раздел» , в котором перечислены все инструменты , которые могут быть запущены на интерфейсе Galaxy. (D) , показывает «NGS: РНК анализа» раздела инструмент , используемый для РНК-Seq анализа. (E) изображает панель «История» , в котором перечислены все файлы , созданные с помощью Galaxy. (F) показан пример диалогового окна , которое открывается при нажатии на любой файл в разделе Истории. В (F), синяя коробка подчеркивает значки , которые могут быть использованы для просмотра, editthe атрибутов или удалить набор данных, фиолетовое окно подчеркивает значки , которые могут быть использованы для «редактирования» наборов данных тегов или аннотации, а красный прямоугольник показывает иконку для загрузки данных, просматривать детали задания выполняются или повторите операцию. Пожалуйста , нажмите здесь , чтобы посмотреть увеличенную версию этой фигуры.

  1. Начало работы с Galaxy
    Примечание: Galaxy может быть запущен на бесплатном общедоступном сервере, используя веб-платформу, обеспечивающую доступ к облаку и бесплатный ограниченное хранение. Кроме того, можно загрузить и запустить локально на компьютере пользователя или вычислительных кластеров, проводимых учреждениями, но локальной обработки, могут быть ограничены пределами данных для хранения и ограничения мощности обработки пользовательских машин. Сведения о загрузке и установке можно получить по адресу https://wiki.galaxyproject.org/Admin/GetGalaxy . В этом протоколе мы опишем веб-использование трубопровода Galaxy.
    1. После загрузки и сохранения данных NGS на компьютере пользователя, Galaxy доступа вlaxy.org/»целевых = "_blank"> https://usegalaxy.org/.
    2. Зарегистрировать учетную запись пользователя, нажав на «User» в заголовке страницы, логин и начать с ознакомления с панелью пользовательского интерфейса.
      Примечание: Рекомендуется , чтобы неопытные пользователи используют «Начать здесь» учебник предоставляется на главной странице , чтобы ознакомиться с базовой установкой до Галактики ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) ,
    3. Нажмите на «Анализ данных» (Рисунок 2A) в панели заголовка , чтобы получить доступ к «Анализ Home View» , который также начальный экран на Galaxy.
      Примечание: В заголовке также имеются другие ссылки, чьи детали можно увидеть при наведении указателя мыши на них. Верхний правый угол заголовка имеет индикатор , который контролирует пространство , используемое для выполнения задач (рис 2В).
    4. Слизать на «NGS: РНК анализ» задача в «меню Tools» на левой панели (рис 2С) , чтобы получить доступ все инструменты , необходимые для анализа данных РНК-сл.
      Примечание: «Меню Инструменты» каталоги всех операций , что Galaxy предложения. Это меню разделено на основе задач и нажать на любом из откроет список всех инструментов, необходимых для выполнения этой задачи.
    5. Создать новую историю анализа, нажав на значок шестеренки в верхней части панели «История» справа (рис 2E). Выберите «Создать новый» вариант из всплывающего меню. Дайте эту «историю» подходящее имя для идентификации анализа.
      Примечание: панель «История» показывает все файлы, загруженные для анализа, а также все выходные файлы, которые создаются путем запуска задач по Галактике. Щелчок по имени файла в этой панели открывает диалоговое окно с подробной информацией о задаче, выполняемойи фрагмент набора данных (рис 2F). Иконки в этом окне позволяют пользователю «зрения», «редактировать атрибуты» или «удалить» набор данных (рис 2F, выделены синим цветом). Кроме того, пользователь может также «редактировать» набор данных тегов или аннотацию (рис 2F, выделены фиолетовым цветом), «загрузить» в данных, «показать детали» от задачи, «перезапустить» задачу или даже «визуализировать» набор данных из этого диалоговое окно (рис 2F, выделены красным цветом).
    6. Нажмите функцию «Загрузить Файл» в разделе «Получить данные» в «ToolsMenu» , чтобы загрузить исходные файлы fastq.
      ПРИМЕЧАНИЕ: При нажатии на этот или любой другой инструмент открывает краткое описание работы, а сам тест, в средней панели «Analysis интерфейса». Эта панель шнурки вместе«Инструменты» из левой панели и «Input Files» из панели справа «History» (рис 2Е). Здесь входные файлы из «Историй» выбраны и другие параметры , определенные для выполнения данной задачи. Результирующий выходной набор данных из каждого теста сохраняется обратно в «Истории». В комплекте с тестом на панели "Анализ Interface" является объяснение всех доступных параметров для запуска данного инструмента вместе с подробным списком всех выходных файлов генерирует инструмент.
    7. После открытия задачи в «Analysis Interface», нажмите на кнопку «Выбрать локальный файл» или «Выберите FTP File» (быстрее загрузка), перейдите в папку , содержащую файлы секвенирования и выбрать подходящий набор данных для загрузки.
    8. Разрешить Гэлакси «Автоопределение» Загруженный файл типа (настройка по умолчанию). Выбрать 'C. эльEgans 'в раскрывающемся меню для генома.
    9. Нажмите на «Start» , чтобы начать загрузку данных. После того , как файл будет загружен, он будет сохранен в панели «История» и может быть доступен оттуда.
    10. Если файлы данных множественного секвенирования производятся для одного образца, объединить их с помощью инструмента «Concatenate». Чтобы сделать это, откройте опцию «Text Manipulation» в "меню Tools.
    11. Нажмите на инструмент «Соединить», выберите файлы , которые должны быть объединены с раскрывающимся вниз в середине «Анализ интерфейса» и нажмите кнопку «Выполнить».
      Примечание: Выходные файлы , созданные с помощью этой задачи генерируется в формате fastq. Программа отображения имеет предел 16000000 последовательностей в fastq файл и при достижении этого предела нового файл fastq генерируется для остальных последовательностей. '; Объединить»инструмент необходим в таких случаях объединить наборы данных.
    12. Преобразование загруженных файлов формата fastq в требуемый формат fastqsanger для Galaxy РНК-Seq анализа с помощью «fastq грумер» инструмент найден под «NGS: QC и манипуляция» раздел (см дополнительный файл).
    13. Выберите подходящий fastq набор данных под «File жениху» опции и запустить инструмент с использованием параметров по умолчанию.
      Примечание: Выходные файлы , созданные с помощью этой задачи генерируются в формате fastqsanger.
  2. Тесты fastqsanger данных контроля качества
    1. Проверьте качество загружаемой fastqsanger считывает с помощью инструмента «FastQC» , расположенного под «NGS: QC и манипуляция» в меню «Инструменты».
    2. Выберите ухоженную fastqsanger файл данных из выпадающего меню для "Шорт читать данные из текущей библиотеки»и запустите инструмент с использованием параметров по умолчанию.
      Примечание: Обратите особое внимание на качество чтений и наличие каких-либо адаптеры последовательностей. Адаптеры обычно удаляются как часть РНК-Seq обработки данных после поставщиками NGS, но в некоторых случаях, может быть оставлен позади. Для объяснения стандартов качества перейти к http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Проверьте с поставщиком NGS и если адаптеры присутствуют, обрезать их с помощью инструмента «Клип» от «NGS: QC и манипуляция» меню задач.
      Примечание: Выходные файлы , созданные с помощью этой задачи создаются в сыром текстовом формате, так и в HTML , который можно открыть на любом веб - браузере.
  3. Анализ данных с помощью Tuxedo Люкс
    1. TopHat
      1. Скачать последнюю версию FASTA и ГТФ (Gene Transfer Format) файлы Загрузка файла» , как описано выше в 2.2.6.
      2. Откройте «NGS: РНК анализ» раздел и нажмите на «TopHat» инструмент для отображения секвенирования читает загруженном референсный геном.
      3. Выберите подходящий ответ из выпадающего меню на вопрос "Является ли это одним концом или парноконцевое данные?
      4. Выберите подходящий файл fastq.
      5. Выберите «Использовать геном из истории» в следующем выпадающем меню и выбрать ссылочный геном , загруженный на шаге 2.4.1.1.
      6. Выберите « По умолчанию» для остальных параметров и нажмите кнопку «Выполнить».
        Примечание: Среди выходных файлов , произведенных с помощью этой задачи, файле «ПРИНИМАЮТСЯ Hits» используется для последующих шагов.
    2. Запонки и Cuffmerge
      1. Выберите «Каффаинструмент в „Links NGS: раздел РНК анализа“ , чтобы собрать стенограммы, оценить их численность и тест для дифференциальной экспрессии.
      2. В первом раскрывающемся меню выберите отображенные «Принятые хиты (формат BAM)» файл , полученные из анализа TopHat.
      3. Во втором раскрывающемся меню, установите опорный аннотацию к УПГ файл , загруженный на шаге 2.4.1.1.
      4. Выберите «Да» для параметра «Выполнение коррекции смещения» и выполнить задачу , используя настройки по умолчанию для всех остальных параметров.
        Примечание: Среди выходных файлов , произведенных с помощью этой задачи, файл «ПРИНИМАЮТСЯ транскриптов» используется для последующих шагов.
      5. Инструмент Open «Cuffmerge» в «NGS: РНК - анализ» , чтобы объединить «» в собранном виде транскрипты производится для всех РНК-Seq образцов.
        Примечание: Первое поле в инструмент самостоятельно заполнит и списки всех Запонки.
      6. Выберите «Сборные транскрипты» файл для всех штаммов / тестируемых условий, в том числе биологических повторностей одного и то же штамм / состоянии (см обсуждения для биологических повторностей).
      7. Выберите «Да» для «использования ссылочной Аннотации» и выберите GTF файл , загруженный на шаге 2.4.1.1.
      8. В следующем окне, снова выберите «Да» для опции «Использовать Секенс Дата» и выбрать весь файл геном Fasta загруженный на шаге 2.4.1.1.
      9. Сохраняя другие параметры по умолчанию, нажмите кнопку «Выполнить».
        Примечание: Cuffmerge генерирует один GTF выходного файла.
    3. Cuffdiff
      1. Перейдите к инструменту «Cuffdiff» в «NGS: РНК анализа» раздел. В меню «транскрипты», выберите слитый выходной файл из Cuffmerge.
      2. меткаусловия 1 и 2 с именами двух штаммов / состояние.
        Примечание: Cuffdiff может выполнять сравнение между более двух штаммами или условиями , а также экспериментами , конечно времени. Просто используйте опцию «Добавить новые условия» для добавления каждого новых штаммов / состояния, по мере необходимости.
      3. Для каждого штамма / условия, при «повторности» выбрать отдельные выходные файлов «принимаются хитами» из Tophat , которые соответствуют различным биологическим повторам этого штамма / состояния. Удерживая нажатой клавишу «CMD», если с помощью компьютера Macintosh, и клавишу «Ctrl», если с помощью компьютера, чтобы выбрать несколько файлов.
      4. Оставьте все остальные параметры в качестве параметров по умолчанию. Нажмите кнопку «Выполнить» , чтобы выполнить задачу.
        Примечание: Cuffdiff генерирует множество выходных файлов в табличном формате в качестве конечного отсчета РНК-Seq анализа. Они включают в себя файлы с FPKM слежения за транскриптов генов (комбинированныеЗначения FPKM транскриптов, разделяющих идентичность генов), первичных транскриптов и кодирующих последовательностей. Все файлы данные, генерируемые можно просматривать на любом приложении электронной таблицы и содержат одинаковые атрибуты, такие как название гена, локус, изменение раза (в log2 масштабе), а также статистические данные о сравнениях между штаммами / условиями, в том числе р д значения и значение. Данные в этих файлах могут быть отсортированы на основе статистической значимости различий или сложить изменение в экспрессии генов (величина и направление изменения, как и в вверх или понижающего регулируемые гены) и манипулировать ими в соответствии с требованиями пользователей. Если преобразование между различными идентификаторами генов необходимо (например, ген , Wormbase ID по сравнению с числом космиды), инструменты , доступные на Biomart ( http://www.biomart.org/ ) могут быть использованы.

3. Джин Онтология (ГО) Term Анализ с использованием DAVID

  1. Доступ DAVID с сайта чTTPS: //david.ncifcrf.gov/. Нажмите на «Start Analysis» в заголовке страницы. В «Шаг 1», копировать и вставить список генов, полученных из Галактики в коробке А. В «Шаг 2», выберите «Wormbase Gene ID» в качестве идентификатора для генов ввода.
    Примечание: Дэвид распознает большинство общедоступных категории аннотаций, так что другие идентификаторы генов (например, гена Entrez ID или символ гена) также могут быть использованы.
  2. В «Шаг 3», выберите «List Gene» (гены , которые будут проанализированы) под «Тип списка» , а затем нажмите на «Submit List» значок.
    Примечание: «Анализ Wizard», откроется в список всех гиперссылка инструменты DAVID , которые могут быть запущены на загруженном список генов (рис 3). Нажмите на эти ссылки для доступа к соответствующим соответствующие модули согласно требованию пользователя. Для того, чтобы определить инструменты , подходящие для данной задачи, нажмите на кнопку "Какие инструменты DAVID использовать? «Ссылка на» ; Страница Мастер анализа». Нажмите на ссылку «Начать анализ» в заголовке , чтобы вернуться на главную страницу «Мастер анализа» в любой момент во время анализа.

Рисунок 3
Рисунок 3: Макет DAVID анализа мастера веб - страницы и примеры работы выходов. Пользовательский веб-интерфейс «Мастер анализа» перечисляет средства , используемые для анализа загруженного списка генов для обогащения на основе различных параметров. При нажатии на этих инструментах сообщают анализируемые данные в новой веб-странице. Примеры отчетов , генерируемых из табличных «Gene функциональной классификации», «Функциональной диаграммы Реферата» и «функциональной аннотации Кластеризации» показаны как вставки (стрелка).> Пожалуйста, нажмите здесь, чтобы посмотреть увеличенную версию этой фигуры.

  1. Функциональная Аннотация Инструмент 1: Функциональная Аннотация Кластеризация
    1. Нажмите на модуле «функциональная аннотация кластеризации» , чтобы перейти к странице сводки. Держите категории аннотаций по умолчанию и нажмите на кнопку «функциональная аннотация кластеризации» для создания кластеров сходных терминов аннотаций , ранжированных по их обогащению счета.
    2. Нажмите на гиперссылке имени каждого термина , чтобы прочитать подробную информацию об этом и «RT» (связанные термины) в список других аналогичных терминов , относящихся к данной категории.
    3. Нажмите на фиолетовой панели, чтобы список генов, связанные с термином и красным «G», чтобы перечислить все гены, связанные со всеми условиями в пределах кластера.
    4. Нажмите на зеленый значок, чтобы увидеть двухмерное представление всех генов и терминов в кластере.
      Примечание: список Последние три колонки аналитические и статистические результаты для каждогосрок. Результаты этого и все другие аналитики могут быть загружены в формате .txt, нажав «Скачать файл» ссылку.
  2. Функциональная Аннотация Инструмент 2: Функциональная диаграмма Аннотация
    1. Возврат к странице сводки и нажмите на кнопку «Функциональная диаграмма аннотаций» определить существенно сверхпредставленных биологические термины (например , фактор активности транскрипции или киназа активности) , связанных со списком генов.
    2. Нажмите на термин имя , чтобы получить более подробную информацию и «RT» (связанные термины) в список других связанных с ним терминов.
    3. Нажмите на фиолетовой панели, чтобы перечислить все связанные с ним гены, соответствующие отдельные категории.
      Примечание: список Последние две колонков результатов статистических-тесты для каждой категории.
  3. Функциональная Аннотация Инструмент 3: Функциональная Аннотация Таблица
    1. Возврат к странице сводки и нажмите на кнопку "FunctioNAL Аннотация Таблица ' , чтобы увидеть список всех аннотаций , связанных с генами на список без каких - либо статистических расчетов.
      Примечание: Этот инструмент может быть полезен для генов по-ген анализа списка или посмотреть на конкретных, весьма интересные генах.
  4. Gene Функциональная классификация инструментов
    1. Возвращение в «Мастере анализа» и нажмите на модуль «Gene функциональной классификации» для разделения списка ввода генов в функционально связанных групп генов , ранжированных в соответствии с их «Обогащение Score», мера общего обогащения группы генов в списке.
    2. Нажмите на термин имя , чтобы получить более подробную информацию и «RG» , чтобы выявить функционально связанных генов группы генов
    3. Нажмите на красном «T» (термин отчеты) в список ассоциированной биологии и зеленый значок, чтобы увидеть двухмерное представление всех генов и терминов.
  5. Gene имяПакетный просмотра
    1. Возвращение в «Мастере анализа» и нажмите на кнопку «имя-Gene Batch просмотра» , чтобы перевести «Wormbase Gene идентификаторов» в их соответствующих имена генов. (WBGene00022855 = вС-1).
    2. Нажмите на название гена, чтобы получить более подробную информацию генов конкретного.
    3. Нажмите на «RG» (родственные гены) рядом с каждым из гена , чтобы выявить гены , по прогнозам, будет функционально связан с геномом.

4. Загрузка RAW данные на NCBI последовательность чтения архива (SRA)

  1. Перейти на веб - страницу SRA на Войти в ссылке NCBI»или зарегистрировать новую учетную запись.
  2. Нажмите на кнопку «Bioproject».
  3. Нажмите «Представление» под «Использование Bioproject» заголовка слева.
  4. Выберите опцию «New Подчинение». Обновление деталь подателя. Продолжить через оставшиеся семь вкладок, Заполняя детали эксперимента и данные загружаются. Нажмите кнопку «Отправить» , когда завершена.
    Примечание: На вкладке «пятой биопробы», оставьте слот для «биопробы» пустым.
  5. Обновить результирующую страницу, нажав на ссылку "Мои ресурсы . Представленные данные будут перечислены с присвоенным номером представления, кратким описанием и статусом загрузки.
  6. Нажмите на кнопку «биопробы» в верхней части этой страницы, в «начать новую подачу» коробки и создать «новое представление». Отправить отдельные представления для каждого образца.
  7. Как и в случае с «Bioproject» в 4.4, обновить данные заявителя и продолжить через остальные вкладки заполнения в деталях каждой вкладки. После завершения обзора и нажмите кнопку «Отправить».
  8. Перейдите к HTTP: //www.ncbi.nlm.nih.gov / SRA для создания окончательного «Последовательность чтения архива (SRA)» представление.
  9. Нажмите на ссылку «Вход в SRA» в разделе «Начало работы».
  10. На следующей странице нажмите на ссылку «NCBI КПК». Ссылка «обновить настройки» откроется. Заполните форму и нажмите «Сохранить настройки».
  11. На открывшейся странице нажмите на ссылку «Создать новое представление» ссылку. Введите подходящее имя в разделе «Псевдоним» и нажмите «Сохранить». Таблица с идентификатором представления и другими деталями будет создана.
  12. Нажмите на «Новый эксперимент» и зарегистрировать по крайней мере одну уникальную библиотеку секвенирования для каждого «биопробы».
  13. Назначают и связать ранее созданный «BioProject» и «» биопробы представления идентификаторов. Будет создан «Новый эксперимент».
  14. Нажмите на кнопку «New Run» в нижней части страницыпосле того, как эксперимент SRA был сделан и идентифицировать файлы данных, которые должны быть связаны с ним.
  15. Вычислить сумму MD5 для каждого файла данных. Для этого на терминале MacIntosh, перейдите к Applications / Utilities / Terminal. В терминале, введите «md5» (без кавычек) с последующим пробелом. Перетащите файлы , которые должны быть загружены в терминал с искателем и нажмите «Enter».
  16. Терминал будет возвращать буквенно-цифровую сумму MD5. Введите это как часть процесса подачи для загрузки файла. Используйте имя пользователя и пароль, предоставленные системой для загрузки файлов с помощью FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

В С. Элеганс, устранение зародышевых стволовых клеток (GSCs) продлевает жизнь, повышает устойчивость стресс и поднимает жир тела 24, 28. Потеря GSCs, либо вызванные лазерной абляции или путем мутаций , таких как GLP-1, вызывает увеличение продолжительности жизни через активацию сеть факторов транскрипции 29. Одним из таких факторов, вС-1, кодирует червь гомолог человеческой транскрипции и элонгация сплайсинга фактора, TCERG1 30. Следующие репрезентативные результаты иллюстрируют , как Секвенирование РНК использовали для идентификации генов, экспрессия которого модулируются вС-1 / TCERG1 следующих зародышевой потери в нашем недавно опубликованном исследовании 31. В Транскриптоме возраста подобран, день 2 взрослых ГПП-1 и вС-1; сравнивали GLP-1 мутанты. Для каждого штамма, мРНК была выделена из двух биологических репликTES (четыре образца полностью), используя протокол, описанный в разделе 1. Образцы РНК были отправлены коммерческим поставщиком услуг, что подготовленный кДНК библиотеки из четырех образцов и выполненных 50 п.н. одного конечного секвенирование. Необработанных данных НГС был загружен, как описано в разделе 2.1.

Сообщение оценки данных секвенирования

Таблица 1 представляет собой подборку результатов испытаний для оценки качества сырой последовательности читает. Анализ проверки качества «» FASTQ выдвигает на первый план количество последовательностей для чтения без каких-либо «низкого качества» читает наряду с 48-49% -ным содержанием GC и постоянной последовательности чтения длиной 51 пар оснований. Этот шаг также проверяет данные секвенирования для многих других функций, таких как содержание Kmer и коллективно из 11 тестов в общей сложности. С. Элеганс генома составляет ~ 100 Мбит. На основании числа последовательности считывает из каждого образца, отображенного в геном, ГПокрытие enome (последний столбец) была оценена с использованием уравнения Ландер / Waterman «С = LN / G», где С означает охват, G представляет собой гаплоидный геном длиной, L представляет собой длину чтения и N есть число просмотров. Мы использовали параметры по умолчанию для всех шагов, и получили 48 - 49% содержания GC во всех образцах. Как можно видеть, охват генома был между 9м до 11х в образцах.

Идентификация вС-1 / TCERG-1-регулируемые гены с помощью дифференциальной экспрессии генов Анализа на Галактике

Через шаги , описанные в разделах 2.2 до 2.4, трубопровод Galaxy 3 был использован для получения списка генов дифференциально выраженных между GLP-1 и вССВ-1; ГПП-1 мутантов. Galaxy позволил объединить данные NGS из двух повторов для каждого штамма и проводил дифференциальный анализ, чтобы генерировать табличные файлы выделяя большое выражение генома прOFILE. Использование порогового значения , по меньшей мере , один-кратного изменение величины и величины Р по меньшей мере 0,05, список 835 генов , которые были дифференциально экспрессируемых между двумя штаммами был сгенерирован 31. Список был разделен на основе того , экспрессия генов подавляются в вС-1; ГППЫ-1 мутанты (359 UP гены , чьи транскрипции, вероятно , усиливаются вС-1 / TCERG1) или вверх-регулируемый (476 генов DOWN , чьи транскрипции скорее всего подавляются вС-1 / TCERG1) по сравнению с GLP-1 (рисунок 4).

Рисунок 4
Рисунок 4: Идентификация вССВ-1 / TCERG1-регулируемых генов в зародышевой-менее C. Элеганс Мутанты с использованием РНК-Seq: Результаты Галактики (A) и Дэвид (B) анализами. (А) Анализ Дифференциальная экспрессия гена РНК Seq данных по сравнениюв Транскриптом ГПП-1 и вССВ-1; ГПП-1 получали в общей сложности 835 генов, из которых 359 были определены как вверх регулируется вССВ-1 / TCERG1 (UP) и 476 , как вниз регулируется вССВ-1 / TCERG1 (DOWN). (B) Результаты анализа «функциональной аннотации кластеризации» генов , идентифицированных как вССВ-1 / TCERG1 целей с использованием Давида. Обогащение Процент биологических процессов для обеих вверх регулируемых (UP) и вниз регулируемых (вниз) Классы вССВ-1 / TCERG1 целей. График, показанный здесь, получен путем построения обогащенных групп генов (ось х) и их соответствующее обогащение процента (ось у), полученных в качестве выхода анализа ДЭВИДА. Рисунок из модифицированного Амрит и соавт. 31 и воспроизводится с разрешения. Пожалуйста , нажмите здесь , чтобы посмотреть увеличенную версию этой фигуры.

Для того, чтобы получить обзор классов генов, обогащенных вС-1 / TCERG1 целей, мы провели ген Онтология (ГО) термин анализ с использованием DAVID. ВС-1 / TCERG1 Регулируют ВВЕРХ и ВНИЗ списки генов были загружены независимо друг от друга на DAVID и анализировали , как описаны в разделе 3. Мало что было известно о генах и клеточных процессах , направленных на вС-1 / TCERG1 ранее 30, таким образом , мы обнаружили , что ДЭВИДА анализ, чтобы быть особенно показательным и полезным. Функциональный анализ аннотации генов показало UP пять аннотирования Кластеры с обогащением счетом> 1,3, самый высокий в том числе цитохрома Р450 фермент-кодирующих генов и генов ксенобиотиков ответа, а затем генов , участвующих в модификации липидов. Это было подкреплено результатами Gene функционального анализа классификации , которые определены группы приписывали с аналогичной молекулойг мероприятия со значительным обогащением баллов. Используя таблицу, идентифицированные группы были нанесены в отношении их соответствующих показателей обогащения (Рисунок 4). Наши предыдущие данные свидетельствуют о том, что вС-1 / TCERG1 функционировал с консервированным фактором транскрипции долголетия, DAF-16 / Foxo3a, способствовать долговечностям GSC-менее взрослых 30. DAF-16 / Foxo3a, в свою очередь, участвует в модуляции липидного обмена в недавних исследованиях 27, 32, 33. На основании этих данных, а также определение липидного-метаболических генов и путей в качестве потенциальных вССВ-1 / TCERG1 целей в DAVID анализа, мы сосредоточились на тучных генов метаболизма, идентифицированных в РНК-Seq исследования для детальных механистических исследований. Следуя этот пример, и через последующие молекулярно-генетические, биохимические и функциональные эксперименты, мы показали, что вС-1 / TCERG1 наряду с DAF-16 / Foxo3a координационно enhanCED как липидные катаболические и анаболические процессы в ответ на зародышевую потерю 31. Аналогичным образом , функциональная аннотация Кластеризация ВНИЗ вССВ-1 / TCERG1 цели , определенные аннотации Кластеры обогащенные для цитоскелета функций, положительной регуляции роста, воспроизводства и старения (Рисунок 4). Эти наблюдения, и наши поддерживающие экспериментальные доказательства, свидетельствуют о том , что на зародышевой потери, вССВ-1 / TCERG1 также репрессирует роста и репродуктивной физиологии в соматических клетках, а также экспрессию генов анти-долговечность 31.

Образец Всего последовательности длина % ГХ Всего Считывает (Galaxy) Подключенные Считывает (Галактики) Геном покрытия
ГПП-1 4000000 51 49 20700539 ~ 16000000 11x
ГПП-1; вССВ-1 4000000 51 49 18055444 ~ 13000000
ГПП-1 4000000 51 48 18947463 ~ 14000000 10x
ГПП-1; вССВ-1 4000000 51 48 13829643 ~ 10000000 7x

Таблица 1: РНК-Seq Примеры Подробности. Компиляция исходных атрибутов данных оценивали после секвенирования, чтобы подтвердить успех секвенирования перспективы. Секвенирование данные из типичного эксперимента состоит из двух биологических условий, напряжение управления (ГПП-1 (вС-1; ГППЫ-1) с двумя биологическими повторностями для каждого секвенированы. Анализ проверки качества «» FastQC выдвигает на первый план количество последовательностей чтения без каких - либо «плохого качества» гласит, 48 - 49% -ным содержанием GC и постоянной последовательности чтения длины 51bp. Модифицированные и воспроизводится с разрешения Amrit и др. 31.

Справочная Файл: Командная цепочка вкратце для инструментов работы на трубопроводе Galaxy для анализа данных РНК-Seq. Пожалуйста , нажмите здесь , чтобы скачать этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Значение Галактики секвенирования платформы в современной биологии

Проект Galaxy стал важную роль в содействии биологов без обучения биоинформатики для обработки и анализа данных секвенирования с высокой пропускной способностью быстро и эффективно. После того, как считается сложнейшая задача, это публично-доступной платформе сделала работает сложные алгоритмы биоинформатики для анализа данных NGS простой, надежный и легкий процесс. Помимо хостинга широкого спектра биоинформатики инструментов, ключ к успеху Galaxy также простота пользовательского интерфейса, который сплетает воедино различные аспекты комплексного анализа секвенирования в интуитивном и бесшовном способе. Благодаря этим особенностям, трубопровод Galaxy приобрела широкое применение среди биологов, включая C. Элеганс исследователей. В дополнение к ознакомлению пользователю с анализом трубопровода РНК-Seq, Galaxy также помогает заложить основу для основных биологи объятьконцепция анализа данных и понимания инструментов, участвующих. Это знание простых чисел пользователю, возможно, в дальнейшем проводить более сложные биоинформатики платформ, таких как «R» и «Python». Кроме Галактики, другие инструменты и пакеты доступны в продаже и в качестве решений с открытым кодом, которые могут быть использованы для РНК-Seq анализа. Коммерческие варианты часто автономные программные пакеты, которые удобно, но может быть дорогим для отдельных исследователей, которые не используют NGS часто. Кроме того , с открытым исходным кодом платформы , такие как BioWadrobe 34 и 35 ArrayExpressHTS требуют знание командной строки и запуска сценариев, что создает значительные проблемы для не bioinformaticians. Таким образом, Galaxy остается популярным и незаменимым ресурсом.

Критические шаги в рамках протокола

В легкой преимущества Галактики и Дэвид, несмотря на успешный Секвенирование РНК эксперимент ещезависит главным образом от тщательной разработки и выполнения экспериментальной стадии. Например, это имеет решающее значение для обеспечения генетической однородности перед сравнением двух штаммов с помощью РНК-Seq, и определить, есть ли различия в уровне развития. Изолирование РНК из штаммов, сходных по возрасту является критическим, а также. Аналогичным образом, чтобы учесть изменчивость экспрессии генов в пределах того же самого штамма, важно, чтобы запустить два или более «биологических повторов» каждого штамма. Это по существу означает выращивание и сбор черви из штаммов быть секвенированы по крайней мере twoindependent экспериментов, хотя три биологических повторностями являются рекомендуемым стандартом. Galaxy объединяет данные из нескольких биологических повторностей таким образом , чтобы сообщаемые экспрессии генов различия между штаммами не просто следствием изменчивости «внутри выборки».

Критическое дизайнерское решение о использовании одного конца в сравнении с двумя концами последовательности. Содного конца последовательность, каждый фрагмент секвенировала Uni-направлена ​​поэтому процесс происходит быстрее, дешевле и подходит для профилирования транскрипции. В паре-концевой последовательности, как только фрагмент секвенировали от одного конца к другому, второй раунд последовательности возобновляется в противоположном направлении. Это обеспечивает большее количество данных в углубленном и дополнительную информацию о местоположении генома, так что больше подходит для сборки генома De Novo, нового SNP идентификации и определений эпигенетических модификаций, делеции, вставки, и инверсий. Аналогичным образом, общее количество операций чтения и степень охвата генома, необходимый для адекватных дифференциальных исследований экспрессии зависит контекст. Для малых геномов, таких как бактерии и грибы, ~ 5 миллионов читает достаточно, в то время как у червей и мух ~ 10 миллионов читает обеспечить достаточный охват. Для организмов с большими геномами, такие как мыши и человек, 15-25 миллионов считывает это требуемый диапазон. Кроме того, к числу чтения и покрытия, также импortant, что большая часть NGS читает выравнивать на референсный геном. Выравнивание <70% читает свидетельствует о бедных NGS или наличие примесей. В целом, для C. Элеганс Секвенирования РНК исследования, три биологических повторностей секвенировали с 50 п.н. однонаправленное секвенирования в результате ~ 10-15 млн читает и ~ 5-10 раз охвата генома для каждого образца является идеальной целью.

Несмотря на простоту использования Galaxy, есть несколько моментов, чтобы помнить, чтобы обеспечить плавный и без помех опыта анализа данных. Это необходимо для пользователей, чтобы иметь общее представление о цели и функционировании различных инструментов, используемых. Каждый инструмент Galaxy требует выбора параметров и понимание инструмента поможет пользователю оптимизировать настройки на основе требований эксперимента. На страницах справки Galaxy объяснить каждый параметр и рекомендуется, чтобы пользователь внимательно эти данные, чтобы решить, на тестовых переменных.

Список ген, полученный рост RNA-Seq анализ является лишь список генов, пока он не добывали биологически значимых данных с использованием DAVID. Это очень важное упражнение, которое преобразует данные отдельных генов на основе результатов, основанных на биологической процесса. Изучение списка генов РНК-Seq, используя различные аналитические ДЭВИДА обеспечивает, следовательно, является неотъемлемой и важной частью протокола.

Модификации, устранение неисправностей и ограничения

Общий глюк с анализом данных NGS это задача или тесты, которые терпят неудачу, особенно на стадии контроля качества. Из тестов, FastQC работает на образце, мало кто мог придумать , как не удалось. Однако, это не значит , неизбежно образец не соответствует стандартам качества fastq. Неудача может иметь альтернативное объяснение, которое должно быть тщательно изучено.

Например, если «За содержание базовой последовательности» тест не пройден (предполагая , что существует разница больше , чем 10% отосновы в любом положении), проверьте способ получения библиотеки oligodt. Предыдущая работа показала , что библиотеки Illumina NGS могут иметь склонность к 13 - й базе будучи секвенировали , чтобы иметь уклон для определенных оснований , вызывающих образец на провал теста. Аналогичным образом , выход из строя «» Kmer контента теста иногда может быть связан с тем , что библиотеки , полученные из случайной затравки будут почти всегда показывают Kmer смещение в начале из - за неполную выборку случайных праймеров. Поэтому важно учитывать эти и другие препятствия в трубопроводе анализа, прежде чем определить судьбу эксперимента.

Другой важной особенностью, что может повлиять на анализ данных РНК-Seq является быстрое и экспоненциальных сдвиги, которые происходят в методах NGS и аналитического программного обеспечения. В идеале, один ожидает, идентичный список генов, является результатом анализа выборки данных NGS на двух трубопроводов или двух версий одного и того же трубылиния. Тем не менее, в то время как постоянно улучшают алгоритмы снижения аберраций в РНК-Seq анализа и получения списков генов большей точности, это часто приводит к различиям. Так , например, анализа образца данных NGS использует старую против новой версии одного и того же набора инструментов может привести к значительно различных списков генов. Скромный вариант, как ожидается, но пользователи должны знать, что большие расхождения могут быть отражением недостатков в конструкции или проведении эксперимента.

Коллективно, аналитические инструменты Galaxy Project и DAVID преобразили данные NGS могут быть использованы для извлечения биологически соответствующей информации. Это открыло совершенно новые уровни независимости и исследования для научного сообщества, в том числе C. Элеганс исследователей. Например, постоянно снижая стоимость секвенирования в сочетании с более и более быстрой технологией секвенирование возвещая эру транскриптомики на уровне отдельных червей,отдельные ткани червя и даже несколько избранных червячных клеток. Эти усилия включают резкое увеличение данных NGS генерируется. В ногу с аналитическим конце этого процесса будет непростой задачей, но из - за своей универсальности, Галактики, вероятно, играть важную роль в расширении возможностей перехода от целого организма к транскриптомику РНК-Seq на уровне одной клетки в C. Элеганс. Полученное в результате достижения в области знаний могут обеспечить экстраординарное понимание фундаментальной биологии.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторы не имеют ничего раскрывать.

Acknowledgments

Авторы хотели бы выразить свою благодарность лаборатории, групп и отдельных лиц, которые разработали Galaxy и DAVID, и, таким образом, сделали NGS широко доступной для научного сообщества. Помощь и рекомендации, представленные коллегами из Университета Питтсбурга во время нашего обучения биоинформатики признается. Эта работа была поддержана Эллисон Medical Foundation Нью Scholar в Старении награды (AG-NS-0879-12) и грант от Национального института здоровья (R01AG051659) на AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Tags

Генетика выпуск 122 РНК секвенирования РНК-Seq транскриптомика Gene Expression Galaxy Project смокинг базы данных для аннотаций визуализации и Integrated Discovery (DAVID), транскрипция Профилирование Genomics
Транскриптомный Анализ<em&gt; C</em&gt;.<em&gt; Элеганс</em&gt; РНК Секвенирование данных через Tuxedo люкс по проекту Galaxy
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Amrit, F. R. G., Ghazi, A.More

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter