Геномная МРТ - общественный ресурс для изучения последовательности Шаблоны в геномной ДНК

Biology
 

Summary

Мы представляем общественности вычислительной веб-сайта для анализа геномных последовательностей. Он обнаруживает модели последовательности ДНК с различными неслучайный нуклеотидных композиций. Этот ресурс также генерирует рандомизированных последовательностей с различными уровнями сложности.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI - a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Некодирующих геномных регионов в сложных эукариотов, в том числе межгенных областях, интроны, и непереведенные сегменты экзонов, глубоко неслучайных в их нуклеотидного состава и состоят из сложную мозаику последовательность узоров. Эти модели включают так называемые Средний уровень неоднородности (МРТ) области - 30-10000 последовательности нуклеотидов в длину, которые обогащены частности базы или комбинации оснований (например, (G + T)-богатые, богатые пуринами и т.д. ). МРТ регионах связаны с необычными (не-B-форма) ДНК структур, которые часто участвуют в регуляции экспрессии генов, рекомбинации и другие генетические процессы (Федоровой и Федорова 2010). Существование сильной фиксации смещения магнитно-резонансных регионов против мутаций, которые приводят к снижению их последовательность неоднородности дополнительно поддерживает функциональность и важность этих геномных последовательностей (Пракаш и соавт. 2009).

Здесь мы показываем, свободно доступных Интернет-ресурса - Геномная МРТ пакет программ - (. Bechtel и др., 2008) предназначена для компьютерного анализа геномных последовательностей, чтобы найти и охарактеризовать различные модели МРТ в них. Этот пакет также позволяет получать рандомизированных последовательностей с различными свойствами и уровень соответствия естественных последовательностей ДНК вход. Основной целью данного ресурса является содействие рассмотрению обширные регионы некодирующих ДНК, которые все еще мало исследована и ждут тщательного исследования и признания.

Protocol

Все используемые программы в статье, были написаны с использованием Perl, и все веб-страницы, созданные с помощью PHP.

1. Отправная точка:

Откройте домашнюю страницу интернет Геномная МРТ пакет в http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Веб-ресурс также содержит инструкции / разъяснения по программам в "Помощь (How-to/README)" ссылку, в то время как все опубликованные материалы по геномной МРТ и аналогичные алгоритмы перечислены в "Ссылки на соответствующие ресурсы" ссылку.

2. Подготовка и загрузка входных последовательностей (ы).

Создайте файл с FASTA формате последовательность (ы), чтобы начать сессию GMRI анализа. Каждый нуклеотидной последовательности в этом формате должно предшествовать с одной линии, начиная с символ ">", который представляет идентификатор, а затем на той же строке краткое описание этой последовательности. Нуклеотидные последовательности для анализа GMRI позволяет также символы, такие как R, Y, N, X и т.д. Hwever, не-А, Т, С, G символы не будут обработаны программой и будет пропущен. Последовательность, в которой повторяющиеся элементы были "в масках" (заменен на "N") может быть использован в качестве входных данных. Обратите внимание, что последовательность символов нечувствительны к регистру.

  1. Начало сессии GMRI, нажав на кнопку "Пуск или Возобновить" на геномной МРТ домашней странице. Это займет пользователя на страницу, где нуклеотидные последовательности могут быть загружены.
  2. Скопируйте и вставьте FASTA формате последовательности или загрузить файл, содержащий последовательность с локального компьютера, используя "Выбрать файл".
  3. Нажмите на кнопку "начать новую сессию с этим файлом" кнопку. Подтверждение должно появиться сообщение выше входное окно, заявив, что "Ваши последовательности были успешно загружены", и вы также должны получить буквенно-цифровой "GMRI идентификатор" [сайт называет его "сессии ярлык"] в вашей сессии (например, b16yMj), который может быть использована для получения и продолжить сессию на срок до двух недель после первого использования.

ПРИМЕЧАНИЕ: Отныне входных последовательностей, называются "UserFile".

3. Получить олигонуклеотидов Распределение Частота входных последовательностей (опция).

Нажмите на "НИИ Analyzer" вкладку (вверху), чтобы получить распределение частот для олигонуклеотида весь набор входных последовательностей. Акроним расшифровывается как НИИ ближнего неоднородности. На данном этапе пользователь может указать высокий длина олигонуклеотидов (от 2 до 9 нуклеотидов, по умолчанию 6 НТС), для которых частоты будут рассчитаны. Этот выбор сделан, нажав на нужную опцию в "Максимальный размер олигомер" списка. Затем нажмите кнопку "Analyze File" кнопку, чтобы начать вычисления. Грубые представления состава входной последовательности сразу появится в виде короткого таблице в середине этого веб-страницу и загрузить как "userfile.comp.tbl". Эта таблица представляет собой лишь наиболее и наименее распространены олигонуклеотидов в пределах входных последовательностей.

Всю таблицу частот для всех возможных олигонуклеотидов формируется в виде файла с именем "userfile.comp", которая может быть получена через "Скачать композицию файл" ссылку.

ПРИМЕЧАНИЕ: Шри-анализатор рассчитывает полный набор всех перекрывающихся олигонуклеотидов.

4. Генерация случайных последовательностей с тем же олигонуклеотидов Состав Как и в входных последовательностей (опция).

(Завершение этапа 3 протокола требуется для выполнения этой задачи).

  1. Нажмите на "НИИ Генератор" вкладку (вверху), чтобы открыть новую веб-страницу, которая создает случайных последовательностей. Выберите количество образцов случайных последовательностей, которые будут созданы использованием списка на этой странице. Каждый из этих файлов примеров будет содержать случайные последовательности одного и того же числа и длины входных последовательностей в "UserFile". Более того, если входная последовательность содержит не-А, Т, С, G или символов, случайная последовательность будет иметь "N" с ровно в той же позиции, во входной последовательности.
  2. Выберите самую длинную длину олигонуклеотиды, для которых частоты будут аппроксимировать в случайной последовательности. Это может быть выбран путем проверки переключатель в желаемое олигомер уровне (например, "4-меров" в течение четырех-база олигонуклеотиды) в таблице в центре экрана. Следует отметить, что случайные последовательности будет состоять не только приблизительный частот на выбранном олигомер уровне, но и соответствующие частоты более коротких уровней олигомер, как и во входных последовательностей. Малые колебания олигонуклеотидачастот входных и случайных последовательностей возможны из-за процедуры модели Маркова применяется для генерации случайных последовательностей.
  3. Запустите программу, нажав кнопку "Создать файл". Если входных последовательностей большие это может занять несколько минут для генерации случайных последовательностей. Таким образом, пользователь должен ждать, пока синий "Скачать" ссылки отображаются в нижней части этой страницы. Случайные множества размещены в файлах с такими именами, как "userfile.randX_Y", где Х число случайный набор, а Y является избранным олигомер уровне (например, "userfile_rand2_4").

5. Анализ уровня Средний уровень неоднородности (МРТ) Входные и случайных последовательностей.

  1. Нажмите на "МРТ Analyzer" вкладки (верхний ряд), что открывает новую веб-страницу, которая анализирует среднего уровня неоднородности нуклеотидного состава последовательностей.
  2. Выбор последовательности должны быть проанализированы с "File для анализа" списка (выбор между входной последовательности и порождаемых множеств случайных последовательностей можно сделать здесь).
  3. Выберите тип содержимого МРТ должны быть проанализированы с помощью предоставленного списка. (Семь вариантов содержания доступны: G + C, G +, G + Т;, G, C, или Т.)
  4. Выбор длины окна, для которых содержательные и содержание бедных последовательности будут рассматриваться через "Размер окна" списке (по умолчанию 50 нуклеотидов; допустимый диапазон составляет от 30 до 1000).
  5. Выберите верхний порог и низкий порог для содержательного и контент-бедные регионы, соответственно. Эти пороговые значения можно определить точное число нуклеотидов в частности текущее окно (используя опцию по номеру в списке), либо процент от этих нуклеотидов в окно (с использованием в процентах опция)
  6. В конце концов пять вариантов были сделаны (например: Последовательность = "UserFile"; Контент = GC; Размер окна = 50; Верхний порог = 35, нижний порог = 15), вызовите программу, нажав кнопку Анализ файлов. Программа сканирует все последовательности из выбранного входа подряд. На каждом шагу он получает сегмент текущей последовательности с длиной, равной заданный размер окна и вычисляет ли число или процент нуклеотидов выбранный контент находится выше верхнего порога или ниже нижнего порога. Если окно не совпадать либо критерии, на следующий перекрывающихся окна (сдвигается на один нуклеотид) выбран для того же анализа. Когда окно находится где последовательность встречается с одним из порога требований к содержательной или бедных состав, программа сохраняет последовательность этого окна в выходной файл и порождает всплеск на графический вывод. После этого программа переходит к следующему непересекающихся смежных окна и возобновляется процесс сканирования до конца последовательности будет достигнута.
  7. После завершения программы, ссылающиеся на выходной файл (с именем "userfile_GC_50_35 .. 15" для приведенного выше примера) появляется и графическое представление результатов отображается в середине веб-страницы (см. Рисунок 1). На этой графический дисплей всех входных последовательностей из UserFile объединяются в одну строку и представлены в виде горизонтальной черной линией на оси X, длиной в килобаз (кб), показанной ниже. Все содержимое богатых регионах, расположенных вдоль входных последовательностей, помечаются как синий "вверх" шипы, и контент-бедные регионы, как красный "вниз" шипы. Общее число содержательных и содержание бедных окон показаны на parenthses в легенде в нижней части этой цифры (32 и 19, соответственно). Фигура служит иллюстрацией относительного изобилия и расположение МРТ регионах. Между тем конкретные данные представлены в выходном файле (см. Рисунок 3). В этом файле все нуклеотидные последовательности сегментов, которые соответствуют содержанию богатым или бедным, критерии и их координаты доступны пользователю в виде списка в соответствии с их последовательной позиции вдоль входного файла.
  8. После завершения анализа МРТ для выбранной последовательности пользователь может начать новый процесс в том же веб-странице путем внесения изменений в параметры и / или входных файлов. Например, для того, чтобы изучить ранее сгенерированный случайной выборке № 1 с тем же МРТ параметров, пользователю нужно только изменить файл, чтобы проанализировать и выбрать опцию "userfile_rand1_4" файл, а затем нажмите кнопку Анализ файла кнопку еще раз. Новый файл и графическим дисплеем придет на смену старой. Результаты и данные всех обследований в рамках каждого «сеанса этикетку" (GMRI идентификатор) будет сохранен и будет доступен в течение двух недель с последней активности. Для того, чтобы сохранить результаты / рисUres постоянно, пользователь должен выбрать "Загрузка файлов" на вкладке (верхний ряд) и загрузить всю сессию или отдельных файлов, по мере необходимости.
  9. С помощью этой веб-странице МРТ Analyzer пользователь может изучить
    • (G + C)-богатый и (+ Т)-богатые регионы
    • Пурин (+ G)-богатый и пиримидиновых (С + Т)-богатые регионы
    • Кето (G + T), богатые и аминокислоты (А + С)-богатые регионы
    • Богатых и бедных регионах
    • G-богатой и G-бедные регионы
    • Т-богатой и Т-бедные регионы
    • С богатыми и С-бедные регионы
  10. Последний выпуск Геномная МРТ имеет новую опцию для изучения областей, богатых с Пурин (R) / Пиримидиновые (Y) чередование моделей, которые могли бы служить Z-ДНК конформаций. В настоящее время эта опция доступна по ссылке "Z-ДНК", и он работает на той же основе, что и других вышеупомянутых МРТ регионах. Пользователь должен выбрать верхний и нижний пороги для числа (RY + YR) перекрытия динуклеотидов в окна сканирования. Программа производит подобный графический вывод и файл сегменты ДНК обогащенного и обедненного переменным пуринов и пиримидинов. Предполагаемый Z-ДНК регионах должны быть высоко обогащенного переменным R / Y оснований (см. обзор F & F 2011).

6. Дополнительные программы в рамках Геномная МРТ пакет (по желанию).

Геномная МРТ ресурса также имеет две дополнительные опции для генерации очень специфических случайных последовательностей. Они доступны через "МРТ Генератор" и "CDS Генератор" вкладки в верхней строке.

  1. МРТ генератор создает рандомизированных последовательностей с теми же олигонуклеотидного состава в качестве входного файла (по аналогии с НИИ генератора). Однако, кроме того, рандомизированных последовательностей имитировать частности МРТ шаблону, заданному пользователем. В этой веб-странице пользователь должен указать от списка частности МРТ шаблон, передразнил. Список содержит все образцы, которые были рассмотрены в ходе этой сессии с помощью МРТ анализатор (например, "userfile_GC_50_35 .. 15"). Случайную последовательность генерируется эта опция будет иметь тот же состав, олигонуклеотидных выбранного входного файла, а также же GC-богатых и бедных модели, как показано на "userfile_GC_50_35 .. 15".
  2. CDS генератор используется для рандомизации белок кодирующих последовательностей. Она сохраняет то же аминокислотной последовательностью, как один кодируется указанных пользователем ввода. Кроме того программа сохраняет тот же кодон и ди-кодон предубеждения, как указано в выбранной пользователем входной таблице. Он-лайн версия генератора CDS также принимает белковой последовательности, как вход. Все другие варианты программы предлагаются только через автономные Perl скриптов, доступных для загрузки из основных Геномная МРТ веб-страницы.

7. Представитель Результаты

Этот протокол позволяет пользователю исследования композиционной неоднородности нуклеотидных последовательностей. Важно, что она также поддерживает генерацию различных рандомизированных последовательностей с олигонуклеотидного состава, близкой к входных последовательностей. Как правило, геномные последовательности комплексных эукариот не однородны по составу, а, скорее, представляют собой сложную мозаику последовательности сегментов обогащенный частности нуклеотиды (например, богатые пуринами (G + T)-богатые, (А + Т)-богатые, и т.д.). Эти модели в середине диапазона шкалы (30-1000 б.п.) визуализируются на графический вывод МРТ анализатор, который показывает, выбранных содержательных сегментов, как верхняя синяя шипы и содержание бедных сегментов нижней красной шипами (рис. 1 и 2). Как правило, номер любой содержательный и контент-бедные регионы в натуральном (рис. 1) на порядок раз выше, чем число того же типа регионов в соответствующих рандомизированных последовательностей (рис. 2) с той же олигонуклеотида композиции. Эти последовательности сегментов среднего уровня неоднородности нуклеотидного состава могут представлять интерес для пользователя. Они доступны из геномной МРТ выходных файлов для дальнейшего расследования.

Рисунок 1
Рисунок 1. Пример МРТ анализатор графического вывода из шага 5.7. Результаты были получены на выборке из 44 человек интронов. Синие столбики представляют собой позиции GC-богатых регионах, расположенных вдоль этих интронов. Красные полоски представляют GC-бедных (или AT-богатые) МРТ регионах. У-ось включает верхний и нижний пороги для данного типа контента.

Рисунок 2
Рисунок 2. МРТ анализатор выход для случайной последовательности "userfile.rand1_4".
Графическикал представление МРТ в случайно сгенерированных последовательностей с помощью программы НИИ генератора.

Рисунок 3
Рисунок 3. Пример начале текстового файла, выход из МРТ анализатора.
Все содержательные и содержание бедных последовательности обнаружены программы представлены в последнем (четвертом) колонке. Их взаимное расположение, измеряется в количестве окон, приведены в первой колонке. Второй и третий столбцы индикаторов для содержательной и контент-бедные регионы, соответственно.

Discussion

Регионы с неоднородным нуклеотидного состава на средних масштабах (30-1000 нуклеотидов) являются избыточной в геномах эукариот комплекса и может быть найден в любом месте (межгенных регионов, интроны, непереведенные регионов экзонов, повторяющихся элементов). Эти регионы часто связаны с необычными конформации ДНК. Например, purine-/pyrimidine-rich последовательности, как правило, форму ДНК триплексы (Н-ДНК); последовательностей с переменным пуриновых / пиримидиновых оснований, связанных с Z-ДНК конформации; (G + C)-богатые регионы выставку структурные отклонения в B- ДНК и могут быть склонны к магистральным расщепления; (+ Т)-богатые регионы могут лечь необычную структуру - ДНК раскручивание элемента и т. д. (см. обзор Федоров и Федорова 2010). Некоторые из этих средних моделей (например, (G + T) богатых регионов) едва ли расследованы и все еще ждут тщательного исследования и признания. Основная цель нашей Геномная МРТ веб-ресурс, чтобы помочь пользователям в идентификации этих регионах МРТ для их дальнейшего экспериментального анализа и изучения их возможных функций. Знание МРТ регионов могут быть включены в и улучшить новое поколение программ гена предиктором (Shepard 2010) и продвинуть наше понимание генома функций и свойств.

Disclosures

Нет конфликта интересов объявлены.

Acknowledgments

Мы благодарны Сэмюэль Шепард, Питер Bazeley, и Джон Дэвид Белл за управление Геномная МРТ веб-страниц. Работа выполнена при поддержке Национального научного фонда Карьера премии "Исследование роли интрон сотовой" [номер гранта MCB-0643542].

Materials

Name Company Catalog Number Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

  1. Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
  2. Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
  3. Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. 65-91 (2010).
  4. Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. The University of Toledo. 57-157 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics