게놈 MRI - 게놈 DNA 시퀀스 내의 패턴을 학습에 대한 공개 자료

Biology
 

Summary

우리는 게놈 시퀀스의 분석을 위해 공용 전산 웹 사이트를 제시한다. 그것은 여러 가지가 아닌 임의의 염기 조성과 함께 DNA 시퀀스 패턴을 감지합니다. 이 리소스는 복잡 다양한 수준 무작위 시퀀스를 생성합니다.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI - a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

비 코딩 intergenic 지역 introns, 그리고 exons의 번역되지 않은 세그먼트를 포함하여 복잡한 eukaryotes,의 게놈 영역 것은 깊이가 아닌 임의의 자신의 염기 조성에 및 시퀀스 패턴의 복잡한 모자이크로 이루어져 있습니다. 시퀀스 (예 : (G + T) - 풍부하고 purine이 풍부한 등 기지의 특정 기본 또는 조합하여 풍부한 아르 길이 30-10000 세포핵 - 이러한 패턴은 소위 미드 레인지 Inhomogeneity (MRI) 지역을 포함 ). MRI 지역은 종종 유전자 발현, 재조합 및 기타 유전 프로세스 (Fedorova & Fedorov 2010)의 규제에 관련된 비정상적인 (비 - B - 양식) DNA 구조와 관련된 있습니다. 자신의 순서 inhomogeneity는 또한 이러한 게놈 시퀀스의 기능과 중요성 (프라카쉬 외. 2009) 지원 감소하는 경향이 돌연변이에 대한 MRI 지역 내에서 강력한 고정 바이어스의 존재.

우리가 자유롭게 사용할 인터넷 자원을 증명 - 게놈 MRI 프로그램 패키지 - (. 벡텔 외를 2008) 그들 내에서 다양한 MRI 패턴을 발견하고 특성화하기 위해 게놈 시퀀스의 전산 분석을 위해 설계합니다. 이 패키지는 또한 천연 입력 DNA 시퀀스에 다양한 특성과 대응의 수준 무작위 시퀀스의 생성을 허용합니다. 이 리소스의 주요 목표는 여전히 기뻐서 조사하지 않고 철저한 탐구와 인식을 기다리고 아르 비 코딩 DNA의 광대한 지역의 시험을 촉진하는 것입니다.

Protocol

신문에서 모두 사용되는 프로그램은 Perl을 사용하여 작성되었으며, 모든 웹 페이지는 PHP를 사용하여 개발되었습니다.

1. 출발점 :

http://mco321125.meduohio.edu/ ~ jbechtel / gmri /에서 온라인 게놈 MRI 패키지의 홈 페이지를 엽니다. 웹 자원은 또한 "도움말 (How-to/README)"링크를 게놈 MRI 및 이와 유사한 알고리즘에 게시된 모든 자료는 "관련 리소스에 대한 링크"에 나와있는 동안 링크 프로그램에 대한 지침 / 설명을 제공합니다.

2. 준비 및 입력 시퀀스 (들)의 업로드.

GMRI 분석 세션을 시작하는 FASTA 형식의 시퀀스 (S)와 파일을 만듭니다. 이 형식의 각 염기 서열이 순서에 대한 간단한 설명하여 동일한 라인에 다음 식별자를 나타내는 ">"문자와 함께 시작하는 하나의 라인과 함께 선행되어야합니다. GMRI 분석을위한 뉴클레오 티드 시퀀스도 R, Y, N, X, 등 Hwever, 비 - A, T, C와 같은 문자를 허용, G 문자는 프로그램에 의해 처리되지 않고 생략됩니다. 반복 요소 ( "N"S로 대체) "마스크"했습니다되는 시퀀스는 입력으로 사용할 수 있습니다. 시퀀스 문자 대소문자를 구분됩니다.

  1. 게놈 MRI 홈 페이지에있는 "시작 또는 다시 시작"버튼을 클릭하여 GMRI 세션을 시작합니다. 이 뉴클레오 티드 시퀀스를 업로드할 수있는 페이지로 사용자를 걸립니다.
  2. 귀하의 FASTA 형식 시퀀스를 복사하여 붙여넣기 또는 "파일을 선택"버튼을 사용하여 로컬 컴퓨터에서 시퀀스를 포함하는 파일을 업로드하십시오.
  3. 버튼을 "이 파일과 함께 시작하는 새 세션"을 클릭합니다. 확인 메시지는 "당신의 순서가 성공적으로 업로드되었습니다"와 당신은 또한 영숫자 "GMRI 식별자"[사이트이 "세션 레이블 '통화] 세션에 대한 (예 : b16yMj), 받아야한다는 입력 창 위에 표시해야하는 처음 사용 후 최대 2 주가에 대한 세션을 검색하여 계속 사용할 수 있습니다.

참고 : 이제부터의 입력 시퀀스는 "userfile"라고합니다.

3. 입력 시퀀스 (옵션)의 Oligonucleotide 주파수 분포를하십시오.

입력 시퀀스의 집합 전체에 대한 oligonucleotide 주파수의 분배를 위해서는 "SRI 분석기"탭 (상단 행)를 클릭하십시오. 약어 SRI는 단거리 inhomogeneity을 의미합니다. 이 시점에서, 사용자는 주파수가 계산됩니다되는 oligonucleotides 최상의 길이를 (9 세포핵 2까지, 기본 6 국세청에서) 지정할 수 있습니다. 이 선택은 "최대 올리고머의 크기"목록 상자 내에서 원하는 옵션을 클릭하여 이루어집니다. 그럼 계산을 시작하려면 '파일을 분석 "버튼을 누르십시오. 입력 시퀀스 구성의 거친 표현은 바로이 웹 페이지의 중간에 짧은 테이블로 나타납니다와 "userfile.comp.tbl"로 다운로드합니다. 이 테이블은 입력 시퀀스에서만 가장 및 가장 풍부한 oligonucleotides를 나타냅니다.

가능한 모든 oligonucleotides에 대한 전체 주파수 테이블은 "다운로드 구성 파일"링크를 통해 얻을 수있다 "userfile.comp"라는 파일로서 생성됩니다.

참고 : SRI 분석기는 모든 중복 oligonucleotides의 집합 전체로 계산됩니다.

4. 입력 시퀀스 (옵션)에서와 같은 Oligonucleotide 작곡과 랜덤 시퀀스를 생성합니다.

(프로토콜의 3 단계의 완공이 작업이 필요합니다.)

  1. 임의의 시퀀스를 생성하는 새로운 웹 페이지를 열 수있는 "SRI 생성기 '탭 (상단 행)를 클릭하십시오. 이 웹 페이지에있는 목록 상자를 사용하여 생성하는 임의의 시퀀스의 샘플의 개수를 선택합니다. 이 예제 파일을 각각 "userfile"에 입력 시퀀스와 동일한 번호와 길이의 임의의 시퀀스를 포함합니다. 또한, 입력 시퀀스가​​ 포함되어있는 경우 비 - A, T, C, 또는 G 문자는 임의의 순서는 입력 시퀀스에서와 정확히 같은 위치에서 "N"s를해야합니다.
  2. 주파수가 랜덤 시퀀스에 approximated 수있는 oligonucleotides의 가장 긴 길이를 선택합니다. 이것은 화면의 중앙에있는 테이블에서 원하는 올리고머 수준 (4 - 기반 oligonucleotides 예 : "4 - mers")에 대한 라디오 버튼을 선택하여 선택할 수 있습니다. 그것은 임의의 시퀀스는 입력 시퀀스와 같이 선택한 올리고머 수준에서 대략적인 주파수뿐만 아니라 짧은 올리고머 수준의 해당 주파수뿐만 아니라 구성됩니다, 여기서 언급되는 것입니다. oligonucleotide의 작은 변동입력 및 무작위 시퀀스의 주파수가 무작위 시퀀스의 생성에 대한 적용 마르코프 모델 절차로 인해 가능합니다.
  3. "파일 생성"버튼을 클릭하여 프로그램을 시작합니다. 입력 시퀀스가​​ 큰 경우는 임의의 시퀀스를 생성하기 위해 몇 분 더 걸릴 수도 있습니다. 파란색 "다운로드"링크가이 페이지의 하단에 나타날 때까지 따라서, 사용자가 기다려야합니다. 임의의 집합은 같은 X는 임의의 집합의 개수이고 Y가 선택한 올리고머 수준 (예 : "userfile_rand2_4")는 "userfile.randX_Y"로 이름을 가진 파일에 배치됩니다.

5. 입력 및 랜덤 시퀀스의 미드 레인지 Inhomogeneity (MRI)의 분석.

  1. 시퀀스의 염기 조성의 중형 inhomogeneity를 분석하여 새로운 웹 페이지를 열어 "MRI 분석"탭 (맨 윗줄)를 클릭하십시오.
  2. 목록 상자 (입력 순서와 임의의 시퀀스의 생성 집합 사이의 선택 여기서 만들 수 있습니다) "분석 파일"에서 분석하는 순서를 선택합니다.
  3. 제공된 목록 상자를 통해 분석하기 위해 MRI의 콘텐츠 유형을 선택합니다. (세븐 내용 옵션을 사용할 수 있습니다 : G + C, G + A; G + T, A; G, C, 또는 T.)
  4. 콘텐츠 풍부하고 컨텐츠 가난한 시퀀스가 "창 크기"목록 상자 (; 유효 범위는 30 일부터 1000는 기본적으로 50 세포핵)을 통해 검사됩니다되는 윈도우의 길이를 선택합니다.
  5. 콘텐츠 풍부하고 컨텐츠 가난한 지역에 대한 상위 임계값과 낮은 임계값을 각각 선택합니다. 이러한 임계값은 (비율 옵션으로 사용) 창에서 현재 윈도우에서 특정 세포핵의 정확한 번호 (목록 상자에 의해 숫자 옵션을 사용) 또는이 세포핵의 비율로 정의할 수 있습니다
  6. 다섯 선택합니다 (예 :; 콘텐츠 = GC, 윈도우의 크기 = 50; 어퍼 한계 = 35; 순서 = "userfile"로우어 요건 = 15)를 만든 후에 파일 버튼을 분석 눌러 프로그램을 호출하는 것을 볼 수있다. 이 프로그램은 연속적으로 선택한 입력의 모든 시퀀스를 검색합니다. 각 단계에서 그것은 지정한 창 크기와 같은 길이로 현재 시퀀스의 세그먼트를 획득하고 선택한 내용의 세포핵의 숫자 또는 백분율은 상위 임계값 위 또는 아래 임계값 아래의 여부를 계산합니다. 창이 중 기준와 일치하지 않는 경우, 다음 중복 창이 (염기에 의해 이동) 같은 분석을 위해 선택됩니다. 순서는 내용이 풍부한 또는 가난한 구성에 대한 임계값 요구 사항 중 하나를 충족 어디 창이 발견되면, 프로그램은 출력 파일이 윈도우의 순서를 저장하고 그래픽 출력에 스파이크를 생성합니다. 이렇게하면 프로그램은 다음 아닌 중복 인접한 창으로 점프와 순서의 마지막에 도달할 때까지 스캔 프로세스를 다시 시작합니다.
  7. 프로그램 완료 후, 출력 파일에 대한 링크 (이름 "userfile_GC_50_35 .. 15"위의 예를 들면)가 나타나고 그 결과의 그래픽 표현 (그림 1 참조) 웹 페이지의 중앙에 표시됩니다. 아래에 표시된 kilobases의 길이 (KB)로,이 그래픽 디스플레이에 userfile에서 모든 입력 시퀀스는 하나의 문자열로 연결된하고 X 축에 수평 검정 라인으로 발표했다. 입력 시퀀스 따라 모든 콘텐츠 풍부한 지역은 파란색 "상향"스파이크, 그리고 빨간색 "아래로"스파이크와 같은 컨텐츠 가난한 지역으로 표시됩니다. 콘텐츠 풍부하고 컨텐츠 가난한 Windows의 총 숫자는이 그림의 하단에있는 전설 (각각 32 19,)에 parenthses에 표시됩니다. 그림은 상대적인 풍요와 MRI 영역의 배열을 설명하는 역할을합니다. 한편 구체적인 내용은 출력 파일 (그림 3 참조)로 표시됩니다. 이 파일에 내용이 풍부한 또는 가난한 기준과 좌표를 일치하는 모든 뉴클레오 티드 시퀀스 세그먼트는 입력 파일을 따라 그들의 연속 순위에 따라 목록으로 사용자가 사용할 수 있습니다.
  8. 선택된 시퀀스에 대한 MRI 분석이 완료되면 사용자가 매개 변수 및 / 또는 입력 파일을 변경하여 동일한 웹 페이지에 새로운 프로세스를 시작할 수 있습니다. 예를 들어, 같은 MRI 매개 변수와 함께 이전에 생성한 임의의 샘플 # 1을 검토하기 위해, 사용자는 옵션을 분석하고 "userfile_rand1_4"파일을 선택하여 파일을 변경해야하고, 다시 분석 파일 버튼을 누르십시오. 새로운 파일 및 그래픽 디스플레이도 이전을 대체합니다. 각각의 "세션 lable"(GMRI 식별자)에서 결과와 모든 시험의 그림이 저장되고 마지막 활동에서 두 주 동안 사용할 수 있습니다. 결과 / 그림을 저장하기 위해ures 영구적으로, 사용자는 "다운로드 파일"탭 (맨 윗줄)을 선택하고 전체 세션이나 필요에 따라 개별 파일을 다운로드해야합니다.
  9. MRI 분석기 웹 페이지와 사용자가 공부할 수
    • (G + C) - 풍부하고 (A + T)이 풍부한 지역
    • Purine (A + G) - 풍부하고 Pyrimidine (C + T)이 풍부한 지역
    • 케토 (G + T) - 풍부하고 아미노산 (A + C)이 풍부한 지역
    • - 풍부하고 A - 가난한 지역
    • G - 풍부하고 G - 가난한 지역
    • T - 풍부하고 T - 가난한 지역
    • C - 풍부한 C - 가난한 지역
  10. 게놈 MRI의 최신 릴리스는 Purine (R) / Pyrimidine 풍부한 지역을 연구하기위한 새로운 옵션이 있습니다 (Y) Z - DNA의 conformations을 형성 수도 교번 패턴. 현재이 옵션은 링크 "Z - DNA '에서 구할 수 있으며 다른 앞에서이야 기한 MRI 지역과 같은 기준으로 작동합니다. 사용자는 (히 + YR)의 번호에 대한 상위 및 하위 임계값을 선택합니다 스캔 윈도우에서 중복 dinucleotides. 이 프로그램은 비슷한 그래픽 출력과 purines과 pyrimidines를 교류하여 풍부한와 고갈 DNA 세그먼트의 파일을 생산하고 있습니다. putative Z - DNA 영역이 매우 (검토 F & F 2011 참조) R / Y 기지를 교체하여 풍부하게해야합니다.

6. 게놈 MRI 패키지 (옵션) 내에서 추가 프로그램.

게놈 MRI 자원도 매우 구체적인 무작위 시퀀스의 생성을위한 두 가지 고급 옵션이 있습니다. 그들은 "MRI 생성기"와 맨 윗줄에서 "CDS 생성기 '탭을 통해 사용할 수 있습니다.

  1. MRI 생성기는 입력 파일과 동일한 oligonucleotide 구성 (SRI 발전기와 유사)와 무작위 시퀀스를 만듭니다. 그러나, 이외에, 무작위 시퀀스는 사용자가 지정한 특정 MRI 패턴을 모방. 이 웹 페이지 내에서 사용자가 목록 상자에서 했었하는 특정 MRI 패턴을 지정해야합니다. 목록 상자는 MRI 분석기 (예 : "userfile_GC_50_35 .. 15")하여이 세션에서 검사하고 모든 패턴을 포함하고 있습니다. 이 옵션과 함께 생성되는 임의의 순서는 선택한 입력 파일과 동일한 oligonucleotide 조성과 "userfile_GC_50_35 .. 15"에서 볼 수로 및 가난 패턴도 같은 GC - 부자가됩니다.
  2. CDS 발전기는 단백질 코딩 시퀀스의 랜덤에 사용됩니다. 이것은 사용자가 지정한 입력하여 코딩된 것과 같은 아미노산 서열을 유지합니다. 또한이 프로그램으로 사용자 입력 선택한 테이블에 지정된 동일한 코돈과 DI - 코돈의 편견을 유지합니다. CDS 발전기의 온라인 버전도 입력으로 단백질 순서를 허용합니다. 프로그램의 모든 다른 옵션은 기본 게놈 MRI 웹 페이지에서 다운로드할 수 있습니다 독립형 Perl 스크립트를 통해 제공됩니다.

7. 대표 결과

이 프로토콜은 사용자가 뉴클레오 티드 시퀀스의 작곡 inhomogeneity을 공부하실 수 있습니다. 중요한 것은 또한 입력 시퀀스의를 approximating oligonucleotide 합성과 무작위 시퀀스의 다양한 생성을 지원합니다. , 보통, 복잡 eukaryotes의 게놈 시퀀스 구성에 단일 아니지만, 오히려 특정 세포핵의 농축 순서 세그먼트의 복잡한 모자이크 (예 : purine이 풍부한, (G + T) 풍부한, (A + T) 풍부한를 나타냅니다 등). 중형 규모 (30-1000 BP)에서 이러한 패턴 어퍼 블루 스파이크와 스파이크로 낮은 붉은 컨텐츠 가난한 세그먼트 (그림 1 및 2 참조)와 같은 콘텐츠가 풍부한 세그먼트를 선택한 보여주는 MRI 분석기의 그래픽 출력에 의해 시각입니다. 일반적으로 자연적인 순서 (그림 1)에 콘텐츠 풍부하고 컨텐츠 가난한 지역의 번호가 동일한 oligonucleotide를 가지고 해당 무작위 시퀀스에있는 지역의 동일한 유형 (그림 2)의 개수 이상 시대의 순서에 작곡. 염기 조성에 중형 inhomogeneity 이러한 시퀀스 세그먼트는 사용자에게 관심이있을 것으로 생각됩니다. 그들은 자세한 조사를 위해 게놈 MRI 출력 파일에서 사용할 수 있습니다.

그림 1
그림 1. 단계 5.7에서 MRI 분석기 그래픽 출력 예입니다. 결과는 44 introns 인간의 샘플을 획득하였습니다. 블루 바는 이러한 introns 함께 GC 풍부한 영역의 위치를​​ 나타냅니다. 레드 바 GC - 가난한 (또는 AT - 풍부한) MRI 영역을 나타냅니다. y 축은 주어진 콘텐츠 유형에 대한 상위 및 하위 임계값을 포함하고 있습니다.

그림 2
임의의 순서 "userfile.rand1_4"에 대한 그림 2. MRI 분석기 출력.
graphiSRI 생성기 프로그램을 사용하여 무작위로 생성 순서 이내에 MRI의 칼 표현.

그림 3
그림 3. MRI 분석기에서 텍스트 출력 파일의 시작 부분의 예제.
프로그램에 의해 감지 모든 콘텐츠 풍부한 및 콘텐츠 가난한 시퀀스는 마지막 (네번째) 열에 표시됩니다. 창문의 개수로 측정 그들의 상대적인 위치는, 첫 번째 열에 표시됩니다. 두 번째 및 세 번째 열이 각각 콘텐츠 풍부하고 컨텐츠 - 가난한 지역에 대한 지표입니다.

Discussion

중형 비늘에서 inhomogeneous 염기 조성 (30-1000 세포핵)와 지역별 복잡한 eukaryotes의 genomes에 과잉의하고 (intergenic 지역 introns, exons의 번역되지 않은 지역, 반복 요소) 어디서나 찾을 수 있습니다. 이 지역은 자주 비정상적인 DNA의 conformations와 관련된 있습니다. 예를 들어, purine-/pyrimidine-rich 시퀀스가​​ DNA의 triplexes (H - DNA)를 형성하는 경향이; purine / pyrimidine 기지를 교대로 순서는 Z - DNA의 conformations와 관련된, (G + C) - 풍부한 지역에 구조적 이상을 전시 B - 등 (Fedorov & Fedorova 2010 년까지 검토) -, DNA와 백본 절단하는 경향이 될 수 요소 긴장을 풀기 DNA (A + T)이 풍부한 지역은 비정상적인 구조를 형성 수도 있습니다. 이러한 미드 레인지 패턴의 일부 (예 : (G + T)이 풍부한 지역) 기뻐서 조사하지 않고 여전히 철저한 탐구와 인식을 기다리고 있습니다. 우리의 게놈 MRI 웹 리소스의 주요 목표는 더 실험적인 분석을위한 그들의 가능한 기능의 탐험에 대해 이러한 MRI 영역의 식별에 사용자를 돕는 것입니다. MRI 지역의 지식에 통합과 유전자 예측 프로그램의 새로운 세대 (셰퍼드 2010) 향상과 게놈 기능과 특성에 대한 우리의 이해를 미리 수 있습니다.

Disclosures

관심 없음 충돌 선언하지 않습니다.

Acknowledgments

우리는 사무엘 셰퍼드, 피터 베이 즐리, 그리고 게놈 MRI 웹 페이지의 관리를위한 욘 다비드 벨 감사합니다. 이 작품은 국립 과학 재단 (National Science Foundation) 경력 보너스 "인트론 세포의 역할을 조사"에 의해 지원되었다 [부여 번호 MCB - 0643542].

Materials

Name Company Catalog Number Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

  1. Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
  2. Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
  3. Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. 65-91 (2010).
  4. Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. The University of Toledo. 57-157 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics