$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Рабочий процесс, описанный выше был применен к набору данных MS на гордость репозитория38,39. Оригинальные исследования разработан метод (iMixPro), с использованием стабильных изотопов маркировки аминокислот в культуре клеток (SILAC), чтобы исключить ложные срабатывания от очищение сродства мс (AP-МС) эксперименты38. Короче говоря эксперимент AP-MS состоит в использовании бусы прыгните антитела для извлечения протеина интереса (байт) и ее посредники (жертв). Собранные белки затем переваривается и подготовлен для MS. Метод подготовки и настройки инструмента описаны в первоначальном исследовании и на хранилище гордость (PXD004246). Вызов в таких экспериментов является обилие ложных срабатываний, особенно от белков, привязка к бисер, но не приманку. Здесь, мы использовали SILAC для создания различных изотопов соотношения между истинной preys и ложных срабатываний: 3 управления образцы (нет приманки) культивировали в легкий средний, 1 образец, выражая приманки, культивируемых в легких средних и 1 образец, выражая приманки, культивируемых в тяжелых средах обработаны с бисером и дальнейшего анализа масс-спектрометрии. С такой дизайн неспецифических белков, привязка к бисеру будет иметь тяжелые свет соотношение 1:4; Когда true preys будет иметь отношение 1:138.
Мы повторно проанализировали их данных AP-MS, используя базу данных OpenProt; приманки включены три эндогенного белков (PTPN14, JIP3 и IQGAP1), и два чрезмерно выразил белков (RAF1 и RNF41). Поскольку эксперименты используется SILAC, Галактика рабочего процесса для количественного определения белка была использована (Дополнительный материал S3, рис. 2). Рабочий процесс был запущен с использованием ограниченного базы данных OpenProt (OpenProt_2pep, включая только белки, ранее обнаруженных с минимум два уникальных пептиды) или вся база данных OpenProt (OpenProt_all).
Белка идентификации и количественной оценки были хорошие и воспроизводимых через различных используемых баз данных. Как показано на рисунке 3, большинство белков, указанных в первоначальном документе были также определены с использованием OpenProt_2pep или OpenProt_all базы данных (подробный список доступен в Дополнительных материалов S5). Этот результат показывает, что трубопровод, описанные здесь и баз данных в состоянии производить белок идентификации и количественной оценки, сопоставимой с эффективностью работы нынешних процедур, основанных на базах данных UniProtKB40OpenProt. Однако использование баз данных OpenProt имеет уникальное преимущество позволяет обнаружение Роман и ранее обнаружить белков, как показано в этом случае исследование.
11 хорошо поддерживается белков (1 изоформы и 10 AltProts), но в настоящее время не аннотированных в базах данных, были выявлены во всех наборов данных, с уверенно пептиды, используя базу данных OpenProt_2pep (все белка присоединения, а также количество поддержки пептиды, доступны в Дополнительный материал S5). Эта база данных позволяет использовать традиционные 1% ФДР как увеличение пространства поиска остается умеренной. Эти 11 белки не были выявлены в ходе первоначального исследования, как они отсутствовали из базы данных.
29 новых белков (16 изоформ и 13 AltProts) были обнаружены во всех наборов данных, с уверенно пептиды, используя базу данных OpenProt_all (всех присоединений белка, наряду с числом вспомогательных пептиды, находятся в дополнительного материала S6 ). Как показано на рисунке 3, рекомендуется строгий Рузвельта не затрагивает наиболее уверенно идентификации белков, хотя он уменьшить общее количество выявленных белков. Сравнительно в базу данных OpenProt_2pep, большее количество новых белков может быть уверенно определены. Все эти новые белки отсутствуют из базы данных OpenProt_2pep. Это подчеркивает решающую роль выбранной базы данных на основе MS протеомики.
Один новый белок был обнаружен в качестве интерактивных RAF1 белка (IP_637643). Использование веб-сайта OpenProt, можно увидеть этот белок не было обнаружено ни MS, ни рибосома профилирования до сих пор (OpenProt v1.3). Белок является 46 аминокислот длиной и может дать только два уникальных пептидов при tryptic пищеварение. Пептид обнаружены в RAF1 AP-MS dataset (фракция 18) имел хорошее качество спектра, как показано на рисунке 4и отображается соотношение тяжелых свет 1,09. Белок кодируется в гене NANOGNBP1 , который является Псевдогены NANOGNB. Стенограммы (ENST00000448444), в настоящее время помечен как не кодирования, был обнаружен через несколько тканей по данным портала GTEx40. Белок содержит предсказал функционального домена, связанные с ДНК привязки (онтология гена GO: 0003677)41.

Рисунок 1 : База данных выбор для протеомики анализов диаграммы. Анализ данных MS, особенности выбора базы данных, зависит от целей исследования. Три общие цели изложены в голубой (классический proteomic трубопровода), зеленый (исчерпывающий proteomic Поиск) и оранжевый (proteomic обнаружения). Каждой цели зависит от соответствующей базы данных и трубопровода. Один идентификации инструмент может использоваться для исчерпывающего и классической протеомики трубопроводов. Для протеомных обнаружения трубопровода мы настоятельно рекомендуем использовать несколько двигателей идентификации. Рекомендуемые потребоваться указаны в красном, и белка размеры базы данных указаны в серые коробки. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 2 : Графическое представление Галактика рабочего процесса используется. Шаг за шагом представление протеомного анализа рабочего процесса, для повторного анализа данных Eyckerman et al.38. Оранжевые прямоугольники обозначаются входных файлов, Поиск пептида и белка количественной оценки. Синие ящики соответствуют инструменты, используемые, и серые участки соответствуют выходные файлы создаются. Различные поисковые системы (MS-GF + и X! Тандем) обозначаются разными цветами (соответственно, красный и фиолетовый), а также стрелки, указывающие их необходимые входы и выходы. Зеленом поле подчеркивает средство генерации списка идентификации белков. Когда создаются несколько выходов, используется для вниз по течению шагов указывается как ближайший к стрелку. Этот рабочий процесс свободно доступен в Дополнительный материал S2. X! Тандем по умолчанию параметры конфигурации файл доступен в Дополнительный материал S4. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 3 : Сравнение interactor идентификации на приманку, с использованием различных баз. Венна идентификации белков, используя наиболее уверенно OpenProt база данных (в оранжевый, подтверждающих доказательств минимум 2 уникальных пептидов, OpenProt_2pep) с 1% ФДР, или весь OpenProt база данных (в синем, OpenProt_all) с 0,001% ФДР, или как сообщалось в оригинальной бумаге (в серый)38. Каждая диаграмма соответствует выявленных посредники для упомянутых приманки: RAF1, RNF41, PTPN14, JIP3 и IQGAP1. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 4 : МС/МС спектр выявленных MDNLWAK(13C 6) пептид из романа белка IP_637643. Интенсивность относительное (0-100%). Отдельных пиков указаны в красном, y аннотации ионы находятся в темно красный и b ионов аннотации в зеленый. Извлеченные из программного обеспечения TOPPview34. Прекурсоров ошибка = 2,70 млн, PEP оценка = 0,12. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
| Срок | Определение | Ссылка |
| Альтернативные ORF (AltORF) | нестандартные ORF в настоящее время не в геном аннотации, но в OpenProt. | 15 |
| Ссылка ORF (RefORF) | канонические ORF, аннотированных в геном аннотации и OpenProt. | 15 |
| Альтернативные белка (AltProt) | Роман белков, закодированных на AltORF, с никакого значительного сходства с RefProt. Присоединение префикс: IP_. | 15 |
| Ссылка белка (RefProt) | белка в настоящее время аннотированный в базах данных последовательности белка UniProtKB, Ensembl или NCBI RefSeq, а также в OpenProt. | 15 |
| Роман изоформы | Роман белков закодированы AltORF, с значительного сходства с RefProt. Присоединение префикс: II_. | 15 |
| OpenProt_2pep база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt, уже обнаружено с минимум 2 уникальных пептиды. | 15 |
| OpenProt_1pep база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt, уже обнаружено с минимум 1 уникальный пептид. | 15 |
| OpenProt_all база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt. | 15 |
Таблица 1: Определение терминов, используемых в OpenProt и протокол
Дополнительный материал S1: Галактика рабочий процесс для обработки базы данных. Это добавит (обратный) к базе данных входной последовательности CRAPome и манок. Вывод представляет собой файл Fasta. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S2: Галактика рабочий процесс для идентификации белков. Это будет идентифицировать белки из файла данных масс-спектрометрии с помощью двух поисковых систем (MS-GF + и X! Тандем). Каждый параметр может быть настроен как пожелано перед запуском рабочего процесса. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S3: Галактика рабочий процесс для количественного определения белка с помощью стабильных изотопов, маркировки (SIL). Это будет выявлять и количественно белки из файла данных масс-спектрометрии с помощью двух поисковых систем (MS-GF + и X! Тандем). Каждый параметр может быть настроен как пожелано перед запуском рабочего процесса. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительного материала S4: X! Тандем по умолчанию параметров файла конфигурации. Этот XML-файл необходим для запуска X! TandemAdapter инструмент на платформе галактики. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S5: количественно белки из наборов iMixPro. Файлы данных из Eyckerman et al. 201638 были обработаны с использованием баз данных OpenProt и количественных белки, перечислены для каждого условия. Приманки, PTPN14, JIP3, IQGAP1, RAF1 и RNF41. Джин имена, указанные в зеленый соответствуют белки, также указаны в оригинальный документ38. Джин имена, указанные в оранжевый соответствуют известным посредники согласно BioGrid, которые не были указаны в первоначальном документе. Джин имена, указанные в светло-голубой соответствуют Роман белки, определены как посредники (соответствующий белок присоединения номер указывается в скобках). Джин имена указанных в светло-серый и курсивом соответствуют вероятно загрязняющих веществ (белки кератин). Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S6: определены Роман белки из наборов iMixPro. Файлы данных из Eyckerman et al. 201638 были обработаны с использованием баз данных OpenProt и Роман определенных белков, перечислены для каждого условия. Приманки, PTPN14, JIP3, IQGAP1, RAF1 и RNF41. Белка присоединения номера перечислены, начиная с II_ для Роман изоформ известный белка и с IP_ Роман белков из альтернативных ORF (AltProt). Число вспомогательных пептиды, указаны в скобках. Пожалуйста, нажмите здесь, чтобы скачать.