Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Информатики анализ последовательности данных из пакетного дрожжи 2-гибрид экраны

Published: June 28, 2018 doi: 10.3791/57802

Summary

Глубокая последовательности дрожжей населения, отобранных для положительных дрожжи 2-гибрид взаимодействия потенциально дает огромное количество информации о взаимодействующих партнер белков. Здесь мы описываем функционирования конкретных Биоинформатика инструменты и заказной обновленное программное обеспечение для анализа данных последовательности от таких экранов.

Abstract

Мы адаптировали дрожжи 2-гибрид assay одновременно раскрыть десятки переходных и статические белковых взаимодействий в одном экране, использование высокопроизводительного секвенирования ДНК короткий читать. Результирующие наборы данных последовательности можно не только отслеживать какие гены в популяции, которые обогащаются во время выбора для положительных дрожжи 2-гибрид взаимодействия, но также дать подробную информацию о соответствующих поддоменах белков, достаточных для взаимодействия. Здесь мы описываем полный набор автономных программ, которые позволяют не специалисты для выполнения всех биоинформатики и статистической шаги, чтобы обрабатывать и анализировать файлы fastq последовательности ДНК из пакетного дрожжи 2-гибрид пробирного. Шаги обработки, охватываемых этими программного обеспечения включают в себя: 1) карт и подсчета последовательности читает соответствующий каждый кандидат белков закодированы в библиотеке 2-гибрид добычу дрожжей; 2) статистический анализ-программа, которая вычисляет профили обогащения; и 3) Инструменты для изучения переводческих кадров и положение в регионе кодирования каждого обогащенного плазмида, который кодирует взаимодействующих протеинов интереса.

Introduction

Один из подходов к обнаружить взаимодействий протеина является пробирного (Y2H) 2-гибрид дрожжей, какие подвиги инженерии дрожжевых клеток, которые растут только тогда, когда протеин интереса привязывается к фрагменту взаимодействующих партнера1. Обнаружение нескольких Y2H взаимодействия теперь может быть сделано с помощью массивной параллельной последовательности высок объём. Несколько форматов были описаны4,3,2,5 , включая один, что мы разработали, где население выращиваются в пакете в условиях, которые выбрать для дрожжей, содержащих плазмиды, которые производят позитивное взаимодействие Y2H6. Рабочий процесс, мы разработали, называется DEEPN (динамический обогащения для оценки белка сетей), идентифицирует дифференциальной interactomes же добычей библиотек для идентификации белков, которые взаимодействуют с одним белка (или домен) против. конформационно собственный мутант домен или другой белок. Одним из основных шагов в этом процессе является правильной обработки и анализа данных последовательности ДНК. Некоторую информацию можно почерпнуть просто подсчитывая количество операций чтения для каждого гена как до, так и после выбора Y2H взаимодействий в моде аналогичны РНК seq эксперимент. Однако гораздо более подробную информацию можно извлечь из этих наборов данных, включая информацию о поддомен данного белка, который способен производить Y2H взаимодействия. Кроме того в то время как DEEPN подход является ценным, анализируя многие пример реплицирует может быть обременительным и дорогостоящим. Эта проблема смягчается с помощью статистической модели, которая была разработана специально для DEEPN наборов данных, где количество реплицирует это ограничено6. Чтобы сделать обработку и анализ ДНК последовательности наборов данных надежной, полной, надежной и доступной для следователей без опыта биоинформатики, мы разработали набор программ, которые охватывают все этапы анализа.

Этот набор самостоятельных программ, которые работают на настольных компьютерах включает в себя MAPster, DEEPN и Stat_Maker. MAPster-это графический пользовательский интерфейс, который позволяет каждому fastq файл в очереди для картирования генома, с помощью программы HISAT27, производство стандартных .sam файл для использования в нисходящие приложения. DEEPN имеет несколько модулей. Он назначает и подсчитывает читает соответствующий особый ген похож на тип РНК seq количественной оценки, с помощью модуля «Ген количество». Он также извлекает последовательности, соответствующий стыке транскрипционный анализ домена Gal4 и добычей последовательности и упорядочивает позиции этих узлов, чтобы позволить их инспекции сравнительные таблицы и графики (с использованием модуля «Junction_Make») Модуль «Blast_Query» позволяет легко инспекции, количественный и сравнения последовательностей перехода Gal4 перекрестка. Stat_Maker оценивает читает на ген обогащения данных статистически как способ приоритезации вероятно Y2H хитов. Здесь мы опишем, как использовать эти программы и полностью проанализировать последовательность ДНК, которую данные из DEEPN Y2H эксперимент. Доступны версии DEEPN для запуска на PC, Mac и Linux систем. Другие программы, такие как отображение программы MAPster и DEEPN модуль статистики Stat_Maker полагаются на подпрограммы, которые выполняются под управлением Unix и доступны только на Mac и linux систем.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Сопоставление файлов Fastq

Примечание: DEEPN программного обеспечения, а также многие программы биоинформатики использовать данные последовательности ДНК, которой сопоставлен каждой последовательности чтения для его позиции в ссылке ДНК. Разнообразные программы сопоставления могут использоваться для этого в том числе MAPster здесь интерфейс, который использует программу HISTAT2 производить .sam файлы, используемые в последующих шагах.

  1. Карта данных последовательности правильную версию генома. Для библиотек Y2H происхождения мыши используйте геноме UCSC мм10; для тех, кто с помощью человеческих генов используйте геноме UCSC ссылку hg38 для Saccharomyces cerevisiae генов, используйте геноме UCSC SacCer3 ссылку.
  2. Установите MAPster.
    1. Скачать MAPster программное обеспечение и установить. Программное обеспечение можно найти с помощью веб-браузера на следующее: https://github.com/emptyewer/MAPster/releases. HISAT2 работает на системах UNIX, таких как Apple Macintosh. Вследствие этого программа MAPster будет работать только на совместимых систем, таких как Apple Macintosh и linux.
      Примечание: Системные требования для Apple Mac являются: OSX 10.10 + > 4 ГБ ОЗУ, > 500 ГБ дискового пространства и доступ в Интернет для загрузки ссылку геномов. Пользователям может понадобиться проконсультироваться с институциональными его лица если их предприятия протоколы безопасности, ограничивающих права и разрешения администратора.
  3. Введите требуемые файлы и параметры на вкладке «Основные» (рис. 1). Выберите соответствующую кнопку «Pairwise» ввести файлы либо как пар или непарные с FASTQ как формат файла по умолчанию.
    1. Для DEEPN анализа включите параметр «Pairwise» значение «Выкл.» для запуска в одном чтения формате.
    2. Загрузить файлы в MAPster просто путем drag-and-drop в соответствующее окно.
    3. Выберите ссылку на источник ДНК/генома, который соответствует источнику Y2H добычу библиотека вставок. Индексированные геномов из нескольких модельных организмов, перечислены в окне «Геном» и может быть автоматически загружаются из центра Университета Джонса Хопкинса для вычислительной биологии. Геномы ссылки будут храниться локально для последующего использования.
    4. Укажите количество процессов компьютера будет посвящена программе сопоставления под полем «Потоки», начиная с HISAT2 поддерживает многопоточность. MAPster Поиск компьютера и предложить максимальное количество процессоров, доступных по умолчанию.
    5. Укажите имя выходного файла. Это имя файла будет использоваться на протяжении всего процесса DEEPN, поэтому рекомендуется короткий но описательное имя без пробелов или специальных символов. Укажите папку для выходных сопоставленных файлов, используя кнопку «Открыть выходной каталог».
    6. После того, как были выбраны соответствующие файлы и параметры, добавьте сопоставление задание в очередь заданий, используя кнопку «Добавить в очередь». Имена файлов в главном окне можно исключить и заменить файлы, соответствующие нового образца и они могут быть добавлены в очередь после предоставления соответствующего выходного файла.
    7. Нажмите кнопку «Запустить очередь» после внесения всех заданий в очереди заданий.
      Примечание: После того, как задание сопоставления были помещены в очередь, выбор что работа приводит параметров для отображения в окне «Параметры задания» и инструкции командной строки со всеми аргументами, чтобы отображаться в окне «Работа команды». Параметры вывода относятся ли к держать гласит, что удастся согласовать и указав количество начального выравнивания, допускается для каждого чтения. По умолчанию выходной файл из MAPster — в формате SAM (например файл «.sam»). Он будет содержать все считывает последовательность из файлов fastq, указанный для этого образца, включая те, которые были (сопоставленное) и не были успешно сопоставлены с указанным geome (несопоставленные).

2. Bioinformatic обработки с помощью программного обеспечения DEEPN

Примечание: DEEPN программное обеспечение в настоящее время составляется для использования с добычей библиотеки, содержащие последовательности кДНК мыши, человека cDNA последовательностей или S. cerevisiae геномных последовательностей ДНК. DEEPN принимает стандартные .sam формат файла и может принять Сэм (.sam) файл, содержащий как сопоставленные, так и несопоставленные читает или отдельные файлы для каждого из несопоставленных и сопоставленных читает.

  1. Скачать DEEPN программное обеспечение и установить. Программное обеспечение можно найти с помощью веб-браузера на следующее: https://github.com/emptyewer/DEEPN/releases. Выберите, какая версия соответствует вычислительной платформы и скачать. Для установки, откройте загруженного установочного пакета.
    Примечание: Версии DEEPN доступны для PC, Mac и Linux sysrems. Системы Mac и PC должны иметь > 500 ГБ дискового пространства и > 4 ГБ ОЗУ.
  2. Откройте программное обеспечение DEEPN. В главном окне (рис. 2) выберите соответствующую информацию библиотеки добычу из верхней выбор коробки. Выберите папку, где обработанные файлы могут идти, нажав кнопку «Работа папка» и перейдя в папку/каталог. При необходимости можно создать новую папку. После того, как выбрана папка «Рабочий», DEEPN создаст три вложенные папки под названием unmapped_sam_files, mapped_sam_files и sam_files.
    1. Если с помощью .sam файлы, содержащие как сопоставленные, так и несопоставленные читает такие производства с настройками по умолчанию программа MAPster, поместите их в папку «sam_files». В противном случае место .sam файлы в unmapped_sam_files и mapped_sam_files соответственно.
  3. Инициировать обработку, нажав кнопку «Ген игр + Junction сделать».
    Примечание: Обработка начнется с ген игр модуль, который будет использовать сопоставление позиций подсчитать, сколько читает соответствуют каждого гена. Джанкшен сделать затем извлечь узел последовательности (последовательности сливается прямо вниз по течению от Gal4-активации домена) от чтения и идентифицировать их по алгоритму взрыва. Это создаст полный набор папок, изображенный на рисунке 3. Время обработки зависит от размера и числа файлов данных последовательности и быстродействие компьютера, используемого. Типичный раз варьируются от 12 – 30 h для экспериментального набора ~ 250 миллионов человек читает. Процедура ген игр и Junction_Make процедура может индивидуально начал, нажав кнопку «Ген игр» или «Junction сделать».
  4. Загрузите и установите Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Это пакет статистического анализа, предназначенный для DEEPN наборов данных, которые в настоящее время работает только на системах Unix Mac.
    1. Открыть Stat_Maker и нажмите на кнопку «Проверить установку» (рис. 4). Если в первый раз, Stat_Maker автоматически установит R, ЗУБЦЫ и Bioconductor, потянув за эти ресурсы из Интернета. После обнаружения R, ЗУБЦЫ и Bioconductor, Stat_Maker стать активными и позволяют дальнейшего ввода данных пользователем.
    2. Нажмите кнопку «Выбрать папку» для перехода в рабочей папке, обработки DEEPN. Stat_Maker будет автоматически найти и список файлов для статистического анализа в окне.
    3. Перетащите и поместите соответствующие файлы из окна списка файлов выше в файле windows ниже для каждого вектора и приманки набора данных и для каждого условия роста: не выбран (его + СМИ) и выбран (его - СМИ). Важно отметить, что Stat_Maker требует повторяющиеся наборы данных для пустой вектор одиночку, двух выборок населения, не были выбраны и выбраны два образца. Это дает оценку изменчивости в эксперимент.
    4. Нажмите кнопку «Запустить». В зависимости от скорости компьютера вычисление займет от 5-15 мин.
  5. Результаты обзора из Stat_Maker вывода, которые помещаются в новую вложенную папку в папке основной работы с надписью «Stat_Maker результаты».
    Примечание: Результаты находятся в файле CSV (с разделителями-запятыми), который может быть открыт в общем программами электронных таблиц. Stat_Maker будут ранжировать гена хитов, которые, вероятно, дифференциально обогащаться на выбор с приманкой интереса над пустой pTEF ГПБ (рис. 5). Также представлены — это процент операций чтения для каждого набора данных где вставка гена найдены вверх, вниз по течению, или в открытом чтения кадра и ли ген также находится в пределах фрейма правильное поступательное чтение. Часто DEEPN будет захватить надежного взаимодействия Y2H приманки с частями данного cDNA, которые находятся вне кадра надлежащего чтения соответствующего белка или часть cDNA, вниз по течению от его соответствующего кадра открытым чтение. Сканирование комбинированный выход из Stat_Maker упрощает обнаружение и устранение этих нерелевантных хитов.
  6. Чтобы просмотреть данные на каждого потенциального кандидата, откройте программное обеспечение DEEPN, выберите соответствующую информацию библиотеки добычу, а затем правильную рабочую папку, используя папку «работы».
    1. Нажмите кнопку «Запрос взрыва». Это загружает новое окно (рис. 6). В верхнем текстовом поле введите имя ген или номер GenBank Нм для выбора кандидата гена интереса. Эти имена гена соответствуют имена, перечисленные в файле вывода StatMaker. Тип введите или возвращения, который инициирует извлечение гена интереса.
    2. Выберите, какие наборы данных будет использоваться для анализа с помощью меню «Выбор набора данных». Как правило они включают только вектор и приманки образцы, выращенной в условиях, неизбирательной и образец приманки, выращенных в условиях отбора. Первоначально наборы данных займет несколько минут для загрузки, однако, последующих запросов же наборов данных с различных генов будет идти быстро. Blast_Query будет отображать фьюжн точек вдоль последовательности интереса и как обильные каждой точки слияния. Это может быть отображена как в формате таблицы, с помощью вкладки «Результаты» или графическом формате, используя вкладку «Сюжет». Эти результаты можно экспортировать в CSV-файл, нажав кнопку «Сохранить .csv» в правом верхнем углу.

3. Проверка кандидатов, отобранных по DEEPN

Примечание: DEEPN и Stat_Maker предназначен для выявления кандидата генов, которые дают позитивного взаимодействия Y2H. Проверка такого взаимодействия Y2H может быть производится с использованием традиционных двоичный формат Y2H, используя приманку плазмиду интереса в паре с пустой плазмида Gal4-активации домена «добычу» а также в паре с добычей плазмида, перевозящих фрагмента гена/cDNA интерес. Это не целесообразно изолировать фактический плазмиду интереса в смеси ДНК, изолированных от дрожжей населения подвергается Y2H выбор. Однако можно вычислительно реконструировать, что ген/cDNA фрагмент является то, что производит Y2H взаимодействия, Дизайн праймеров для 5' и 3' конца этого фрагмента и усилить этот фрагмент из ДНК, изолированных от дрожжей населения. В этом разделе описывается, как найти 5' и 3' конца фрагмента добычу кандидата.

  1. Открыть DEEPN программного обеспечения и выберите параметры «Выберите параметр» и работу папка» выберите работать «соответствующего проекта. Запуск модуля Blast_Query, нажав кнопку «Blast запрос».
  2. Введите имя гена интереса или его GenBank «Нм» номер в верхнем текстовом поле. Выберите из выпадающего меню набора данных, который соответствует выбранной дрожжей населения для приманки интерес для получения таблицы позиций соединения на вкладке «Результаты». По умолчанию Blast_Query будет заказать различные позиции, согласно их изобилия в объекте dataset, количественно ppm общее количество узлов, найденных в базе данных.
    1. Найти наиболее распространенных позиции, что является «в ORF» и «в кадре». Значение для позиции соответствует нуклеотидной позиции гена с последовательностью ссылок NCBI («Нм» номер) в верхнем текстовом поле. Эта последовательность может извлечь от GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) или скопирован из нижнего текстового поля в окне Blast_Query.
      Примечание: Пример можно найти в Рисунок 6, средняя группа. В наборе центр «Результаты» показать как перекрестка наиболее распространенных: «Position»: 867; «#Junctions»: 20033.821; «Запрос запуска», 1; CD: В ORF; и «Рама»: В кадре. Нуклеотидов 867 GenBank NCBI ссылка последовательности NM_019648 это начало фрагмента добычу.
  3. Если запрос начать 1, Дизайн ' конец 5 праймера включить нуклеотидов, соответствующий номер позиции и расширить 25 нуклеотидов вниз по течению от этой позиции (рис. 7). Если запрос начать более чем 1, это указывает, что есть дополнительные нуклеотидов между доменом активации Gal4 и добычей последовательность интереса и что грунт следует начать далее вниз по течению согласно значению запроса начать.
  4. В DEEPN окне нажмите кнопку «Чтение глубины» под «Анализ данных». Когда открыто окно чтения глубину, введите NCBI последовательности (Нм) номер или гена имя ссылки в верхнем текстовом поле. Используйте выпадающее меню для выбора соответствующего набора данных, содержащего обогащенный гена интереса. Используйте таблицу слева и отображения графики на право определять, сколько чтений были обнаружены в данных, которые соответствуют гена интереса (рис. 7Б).
  5. Дизайн 3' конца праймера, который будет захватить последовательность фрагмента гена, вычисляется путем чтения глубины. Если обилие читает выходит за рамки ORF и остановить кодон, Дизайн праймера так, что она включает в себя стоп-кодон и региона только вверх по течению стоп-кодон. Если последовательностей гена не распространяется на прошлом стоп-кодон, используйте таблицу результатов для поиска наиболее отдаленный регион 3', которые могут быть обнаружены и использовать эту позицию как дальний 3' точку, чтобы поместить в грунт.
    Примечание: Программа чтения глубина сканирует в интервалах найти последовательности, которые соответствуют указанным гена/cDNA интерес. Это помогает предсказать, где 5' и 3' конца фрагмента наиболее распространенных добычей для этого гена в образце. Колебания в глубине чтения по длине последовательности являются нормальными, как видно на рисунке 7. Если читать глубина явно мимо стоп-кодон, он указывает, что фрагмент добычу выходит за пределы стоп-кодон и таким образом грунт 3' можно просто соответствуют региона вокруг стоп-кодон.
  6. Выполните реакции PCR 50 мкл на ген. Каждый реакции содержит 25 пмоль каждого прямого и обратного грунтовки, соответствия плазмида добычу библиотеки (см. таблицу материалы). Реакции также содержат 25 мкл высококачественный 2 x PCR Мастер микс, 5 мкг ДНК образца, и воды до 50 мкл.
    1. Усилить реакции для 25 циклов с расширением раз 3 мин при 72 ° C, отжига Температура 55 ° C за 30 s и денатурировать на 98 ° C 10 s. предшествует Велоспорт 30 s денатурации 98 ° c и следовать с 5 минут инкубации при 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Сопоставление данных fastq: первый шаг
В практически всех NGS приложений, включая первоначальный вывод представляет собой файл короткие последовательности чтений, которые должны быть сопоставлены выравнивание геномной DEEPN транскриптомики, или другие ссылки ДНК8. Недавно была разработана программа выравнивания HISAT2, который использует алгоритмы индексирования-искусство резко увеличить отображение скорости7,9. HISAT2 работает эффективно на настольном компьютере и карты обычно размера может прочитать файл в минутах. Это позволило нам обернуть HISAT2 в графический пользовательский интерфейс, называемый MAPster, который может сопоставлять fastq файлов локально, позволяя пользователям избежать, полагаясь на удаленный высокопроизводительных вычислительных кластеров, которые обычно работают с командной строки языка (рис. 1). Важные особенности MAPster включают в себя наличие предустановленных параметров для РНК seq и весь геном сопоставления эксперименты, способность очереди несколько заданий и доступ к полный набор легко настраиваемых параметров HISAT2 для опытных пользователей и настроить приложения. Для того чтобы проиллюстрировать MAPster функциональность, файл данных общедоступная eHAP клеток РНК seq было сопоставлено с GRChg38 ансамбль генома плюс Стенограмма ссылки на ДНК. EHAP A11 реплицировать 1 FASTQ файл был загружен из архива чтения последовательности NCBI и содержится 38,3 миллиона читает. MAPster был выполнен на Apple iMac с 3,5 ГГц процессор Intel Core i7, используя по умолчанию параметры РНК seq для непарных чтения файла. Сопоставление было завершено менее чем за пять минут. Общий уровень выравнивания составил 96,6%. Аналогичные результаты встречаются с типичными DEEPN наборов данных 15 – 25 миллионов читает/выборки, хотя общий показатель выравнивание ниже из-за присутствие векторных последовательности от плазмида Y2H добычу.

Поиск кандидата хиты с помощью Stat_Maker.
StatMaker программа производит для просмотра excel файл, который обобщает наиболее соответствующую информацию, необходимую для выявления кандидата взаимодействия белков. Потому что Stat_Maker делает использование подпрограмм, основанных на unix, она будет работать на Mac (OS10.10 +) но не ПК. Во-первых, он кратко читает в ppm для каждого гена для переносчиками и приманки населения, а также производит ранжирование ли обогащения определенного гена при выборе для Y2H взаимодействия с приманкой интерес действительно больше, чем вероятность обогащение этого гена при выборе для взаимодействия с элементом только для векторного управления (рис. 5). Во-вторых StatMaker выполняет вычисления модуля BlastQuery на каждый ген оцениваются и сводит их процент Джанкшен чтений, которые находятся в правильное поступательное кадра и кодирующая последовательность, которая потребуется для bonafide биологически соответствующих элемент. Этот комбинированный выход делает возможным быстро сортировать и фильтровать кандидатам для выявления лиц, которые могут быть проверены ближе к BlastQuery. С этого вывода один можно сначала отсортировать для этих кандидатов с высоким которые вероятностью были о обогащаясь во время выбора для Y2H взаимодействия на приманку протеин интереса и не тогда, когда выбран для взаимодействия на вектор плазмиды только. На практике, мы находим, что P > 0.95 работает хорошо. Затем можно классифицировать кандидатов для тех, которые имеют большинство читает Джанкшен, которые находятся в регионе кодирования и рамка правильного чтения, с помощью простой функции сортировки. Здесь, кандидаты с > 85% развязок, в рамках правильное поступательное и находятся либо в открытом чтения кадр/белков кодирования региона (в ORF) или это просто начать вверх по течению от начала кодон (вверх по течению). Этот последний фильтр устраняет 60 – 80% кандидатов, которые имеют приемлемое значение P, производить список, который является гораздо более биологически актуальной и управляемым для дальнейшей проверки.

Программное обеспечение DEEPN.
Ядро DEEPN программное обеспечение объединяет несколько вычислительных модулей вместе для того, чтобы интегрировать все шаги биоинформатики, используя SAM файлов. Gene_Count предоставляет количество считываний за гена, похож на РНК seq количественный вычислений. Также могут использоваться другие программы, которые выполняют этот тип вычислений, однако, формат файла будет необходимо изменить для того чтобы быть совместимы с другими модулями DEEPN и Stat_Maker программы. Кроме того модуль Gene_Count может использоваться для количественного определения RNAseq эксперименты, однако, другие пакеты интегрированы с программами конкретных статистических данных были развитые10. Процесс сопоставления конкретных сопоставленных чтения с ее соответствующего гена интереса улучшилась со времени первоначального программного обеспечения DEEPN с помощью древовидной структуре данных для назначения ген. В результате этого был значительно ускорить скорость обработки таким образом, что типичный набор данных, содержащий 10 миллионов сопоставлены читает занимает 5 – 10 мин на настольном компьютере с минимальными системными требованиями. Другие анализы, в частности анализ Джанкшен чтений, которые охватывают Gal4-активации домена и взаимодействующих кандидат интерес, являются самодостаточными. Они упакованы с alogorithm взрыв, который работает локально и синтаксического анализа процедуры правильно сопоставлять все соединения считывает и их позиции для данного генов. Один из недостатков программного обеспечения DEEPN, что он делает использование специальных отформатированный баз данных, которые определяют, какие экзонов в геномах ссылки используются для определения cDNAs или кодирования регионов и баз данных, которые определяют последовательность и трансляционная начала и остановки в формате Каждый cDNA/генов используется. Мы обнаружили, что было трудно получить всю необходимую информацию базы данных DEEPN требует в надежный формат, который не хватает некоторых ложных ошибок, мы столкнулись с индексированием конкретных генов. Таким образом мы собрали новых баз данных, что мы качество контролируется и их встроенные в программное обеспечение DEEPN для последовательной внутренней ссылки. В настоящее время, мышь, человека и Y2H S. cerevisiae добычу библиотеки поддерживаются базы данных включены при том условии, что файлы fastq ДНК сопоставляются мм10, hg38 или SacCer3 справочных баз данных доступен из UCSC. Y2H библиотек из различных организмов могут быть обработаны DEEPN, условии, что аналогичные базы данных создаются и помещаются в DEEPN программного обеспечения. В целом Однако, автономных упаковка всех модулей DEEPN, баз данных и другие программы делают эти bioinformatic анализы доступны для следователей на всех уровнях знаний.

Figure 1
Рисунок 1 : MAPster интерфейс. Скриншот главного окна MAPster. Отображаются поля для ввода необходимых файлов и форматов. Выключите «Pairwise» (A) для лечения последовательности файлов как сингл энд читает. Геном ссылка выбрана с меню «Генома» бар (B). Количество процессоров, используемых HISAT2 выбирается с помощью меню «Потоки» (C). Имя нового образца, можно ввести в текстовое окно «Выходного файла» (D). Каталог для выходных файлов может быть назначен в (E). Ниже окна показаны очереди одного конца чтения файлов. После того, как образец был добавлен в очередь, сопоставление может быть инициирован с кнопкой «Запустить очереди» (F). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 2
Рисунок 2 : DEEPN интерфейс. Фотография графический пользовательский интерфейс, используемый для работы модулей DEEPN. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 3
Рисунок 3 : Завершение обработки,. После DEEPN обрабатывает данные, создаются следующие вложенные папки. Они могут быть проверены, но ниже по течению процессы требуют оставить эти подпапки в папке основной работы и что они сохраняют их содержимое и имена. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 4
Рисунок 4 : Stat_Maker анализ. Фотография графический пользовательский интерфейс для Stat_Maker, который был загружен с соответствующих файлов для обработки. Топ показывает начальное представление Stat_Maker. После проверки на наличие базовых данных поддержки, нажав на кнопку «Проверка установки» и правильной работы папки, выявленных после нажатия на кнопку «Выбрать папку», GUI становится активным, позволяя для загрузки файлов. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 5
Рисунок 5 : Отрывок из вывода Stat_Maker. Часть Stat_Maker вывода сравнивать обогащении добычу кандидатов на одну приманку белка в векторный только (пустой pTEF ГПБ). Также показан соответствующий анализ ли плазмид, соответствующий кандидат добычу содержат надлежащего открытые чтения кадра. Каждый ген оценены имеет несколько значений: база, Vec, приманки и Enr. «База» — средняя доля гласит (ppm), которые были отмечены для гена в 2 наборах данных, соответствующий дубликат населению содержащие только векторные только и выращенные неизбирательной условиях. «Vec» относится к средняя доля гласит (ppm), которые были отмечены для гена в 2 наборах данных, соответствующий дубликат населению содержащие только векторные одиночку и выросли в условиях избирательного (например-его). «Приманки» ссылается на долю операций чтения (ppm), были наблюдается гена в 2 наборах данных, соответствующий 2 населения, содержащие плазмида приманки и выращивается в условиях избирательного (например-его). «Enr» (enrichement) является log2 ((Bs/Bn) / (Vs/ВН)) где Bs это читает для приманки под выбор, Bn читает для приманки под-выбор, Vs-вектор только под выбор, и Vn-вектор только под выбор. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 6
Рисунок 6 : Дисплей Blast_Query. Выпуск Blast_Query от 3 различных представлений. Top является начальное представление Stat_Maker, прежде чем выбранные наборы данных кандидата. Средняя группа является представление пример таблицы данных отображения информации на данный кандидат в двух разных наборов данных. Внизу показано графическое представление табличных данных, построения количество конкретного соединения точек вдоль кДНК гена интереса. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Figure 7
Рисунок 7 : Найти 5' и 3' Праймеры для того чтобы усилить. (A) показывает, что гипотетическая последовательность и как дизайн 5' oligo захватить кадр правильной и фьюжн точки между доменом Gal4-активации и добычей последовательность интереса. В примере 1 положение точки плавления составляет 10й нуклеотидов с начала Q 1. Используя выше смещение в таблице, 0 нуклеотидов должны быть добавлены найти 5' стартовую позицию руководства. Реконструированный добычу плазмида фьюжн точка показывает, что Gal4 активации домена сливается непосредственно с добычей в нуклеотидной 10. В примере 2 запустите запрос-3, который требует смещение 1 нуклеотидов с целью захвата правильную отправную точку и рамка вставки добычу. Схема реконструированный добычу показывает, что есть 2 нуклеотидов между доменом активации Gal4 и известную позицию вставки добычу, что должны быть учтены. (B) показывает окно чтения глубины. Текстовое поле в верхней части используется для ввода последовательности NCBI номер и выпадающего меню под «выберите .sam файл» используется для выбора данных для образца, содержащий обогащенного взаимодействующих гена, если интерес. Читайте глубина показывает, сколько последовательностей (ось Y) были обнаружены в данных, которые соответствуют позиции нуклеотидная последовательность интереса (ось x). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Набор программного обеспечения, описанные здесь позволяет полностью обрабатывать и анализировать данные секвенирования ДНК высокой пропускной способности из DEEPN эксперимент. Первая программа, используемая является MAPster, который принимает считывает последовательность ДНК в файлах стандартных fastq и карты их позицию на ссылку ДНК для последующей обработки на целый ряд программ информатики, включая программное обеспечение DEEPN. Утилита MAPster интерфейса и его способность стоять в очереди несколько заданий, входных файлов комбинате, coveniently имя выходных файлов, в сочетании с скорость базовой HISAT2, программа7 , которыми он управляет предоставляет простой в использовании инструмент сопоставления для различных приложения за пределами DEEPN. MAPster могут получить доступ к несколько параметров HISAT2 программы, которые подходят для других видов анализа данных помимо DEEPN. Некоторые из этих функций включают заданными параметрами для РНК seq и весь геном сопоставления экспериментов и доступ к полный набор легко настраиваемых параметров HISAT2 для опытных пользователей и специализированных приложений. Например РНК seq кнопка добавляет, форматирование, которое облегчило бы Стенограмма Ассамблеи. Выравнивание блоков кнопку ТРИФОСФАТЫ стренги обратный дополнением как бы подходящими для справочного файла ДНК, производный от руководство РНК последовательности. Необязательные параметры находятся под четыре вкладки названием, «Ввода, выравнивание, очков и вывода». Входные параметры включают в себя способность изменять форматы входных файлов и параметры основных чтения обрезки. Выравнивание и забил вкладки включают параметры чтобы выбрать только одну прядь на ссылку ДНК и задать разрыв и несоответствие наказания для выравнивания баллов. Возможность удобно стоять в очереди несколько заданий сопоставления, каждый с различных параметров следует сделать MAPster интерес как экспертов, так и не эксперт пользователям, преследуя сложных приложений NGS.

Программы DEEPN и Stat_Maker предназначены для конкретных биоинформатики анализ данных из пакета Y2H экранов. Это доступным для широкого круга следователей и представляет собой пакет программного обеспечения непрерывного bioinformatic запустить через графический пользовательский интерфейс. Этот пакет далее оптимизированный и интегрированный от его оригинальной Описание6 таким образом, что он работает быстрее и упростить анализ кандидат хитов. Все шаги Биоинформатика может выполняться на настольном компьютере. Главная DEEPN программное обеспечение принимает эти сопоставления позиций для расчета, сколько читает соответствуют каждого гена, тем самым созданию основы для как данного гена обогащается на выбор. Это программное обеспечение также находит «соединения» последовательности, которые соответствуют Вставка интерес как она сливается с transcriptional активации области добычей плазмиды и сводит их эти результаты, так что один можно визуализировать все различные части конкретной ORF или cDNA, которое является достаточным для взаимодействия. Кроме того это также обеспечивает информацию для проверки рамка чтения каждой вставки. Третья рука bioinformatic программного обеспечения является Stat_Maker, который использует выходные файлы, обрабатываемые DEEPN для вычисления статистической значимости гена обогащения в результате взаимодействия с данной приманки белка против Gal4-ДНК связывающих домена (вектор) только пустой pTEF ГПБ). Недавнее улучшение, что Stat_Maker не только обеспечивает статистический рейтинг каждого кандидата, но также сводит их соответствующих сведений, извлеченных из соответствующих последовательностей Джанкшен, делая их доступными в одном файле, что делает его гораздо проще для следователей для проведения обследования и просмотрите результаты.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторы не имеют ничего сообщать

Acknowledgments

Эта работа была поддержана национальными институтами здравоохранения: низ R21 EB021870-01A1 и NSF исследовательский проект Грант: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Генетика выпуск 136 взаимодействия протеина следующего поколения последовательности анализа последовательностей ДНК дрожжи 2-гибрид
Информатики анализ последовательности данных из пакетного дрожжи 2-гибрид экраны
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter