Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

GeNemo를 사용 하 여 Epigenomic 데이터의 패턴 기반 검색

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

DNA 시퀀스 데이터와는 달리 epigenomic 데이터 쉽게 텍스트 기반 검색을 복종 하지는. 업그레이드 된 버전의 GeNemo, 웹 기반 생물 정보학 도구를 사용 하 여 유사성 백과 사전의 DNA 요소를 포함 하 여 사용할 수 있는 온라인 데이터베이스를 비교 하는 epigenomic 데이터에 대 한 패턴 기반 검색을 수행 하는 절차는 여기에 제시 된 사용자의 데이터입니다.

Abstract

강력한 텍스트 기반 검색 도구에 비해 게놈 RNA 시퀀싱 데이터, epigenomic 및 다른 기능 게놈 데이터의 패턴 기반 검색에 대 한 현재 방법론은 매우 제한 된 또는. GeNemo는이 목표를 수행 하는 첫 번째 온라인 검색 도구입니다. 사용자가 브라우저 확장 데이터 (침대), 봉우리, 및 중요 형식, 기능 게놈 데이터를 입력 하 고 세 가지 형식 중 하나에서 데이터를 검색할 수 있습니다. 사용자와는 백과 사전의 DNA 요소 (인코딩) 다른 epigenomic 마크, transcriptional 요소 바인딩 사이트 및 chromatin 대표 온라인 데이터 집합의 다양 한에서 선택 하는 데이터 집합에 대 한, 검색의 유형을 지정할 수 있습니다. hypersensitivities 또는 특정 세포 유형, 발달 단계 또는 종 (마우스 또는 인간)과. GeNemo 수 수는 브라우저에서 볼로 침대 파일 형태로 다운로드 입력된 데이터에 패턴 일치와 게놈 영역의 목록을 반환 합니다. 업그레이드 된 GeNemo 그래픽 디스플레이 개선 하 고 보다 강력한 인터페이스, 캘리포니아 대학, 산타 크루즈 (UCSC) 게놈 브라우저 변경 오류 경향이 더 이상 이다. 일반적인 문제에 대 한 문제 해결 단계를 설명 합니다. 기능 게놈 데이터의 양이 기하급수적으로 확장 하 고, 개발 하 고 데이터 분석 및 해석에 대 한 GeNemo와 같은 새로운 bioinformatic 도구 수정 중요 한 필요가 있다.

Introduction

최근의 기술 진보는 epigenomic 또는 생물 학적 통찰력을 추출 관련 분석 도구 개발을 능가 하는 기능 게놈 데이터 depositories의 급속 한 확장에 대 한 수 있다. Epigenomic 데이터를 분석 하는 한 가지 중요 한 방법은 데이터 depositories와 새로운 지식으로 이어질 수 있는 패턴 일치에 대 한 백과 사전의 DNA 요소 (인코딩)1 프로젝트에서 특히 그들에 대 한 사용자 생성 데이터를 검색 하는 것입니다. 예를 들어, 게놈 전체 정의 loci에서 두 개의 서로 다른 epigenomic 표시의 패턴에서 유사성을 식별 다른 분자 선수 chromatin 구조 및 transcriptional 규칙2 에 의해 조율 된 행동을 나타낼 수 있습니다. ,34.

기존의 텍스트 기반 검색 엔진 유효 하지 않습니다 이와 DNA 시퀀스와 달리 주로 epigenomic 데이터 농도 또는 기능 게놈 지역의 형태로 존재 하기 때문에. GeNemo, 유전자 Nemo (니 모를 찾아서)로 서5패턴 기반 검색 사용 하 여이 충족 되지 요구를 해결 하기 위해 개발 되었다. 알고리즘의 마르코프 체인 몬테 카를로 극대화 과정5을 이용 한다. 사용자가 자신의 데이터 나 dataset 패턴에서 유사성을 식별 depositories 검색 온라인 epigenomic 데이터의 배열에서 다운로드.

GeNemo의 현재 버전은 업데이트 된 디스플레이, 캘리포니아 대학, 산타 크루즈 (UCSC) 게놈 브라우저6, 더 튼튼하게 인터페이스 이며 후자에 변화에 의해 발생 하는 문제에 덜 취약. 특히, GeNemo의 결과 페이지는 UCSC 게놈 브라우저 인터페이스에 기반 하는 데 사용, GeNemo의 현재 버전 자체 결과 페이지를 지원 하며 결과적으로 더 이상 부정적인 영향을 UCSC 게놈 브라우저 구조 변경. GeNemo 모든 게놈 신호, 등 단백질 바인딩, 히스톤 수정, chromatin 접근성, 토폴로지 도메인, 쿼리 큰 컨소시엄에서 알려진된 데이터 세트 사이 colocalized/비슷한 세그먼트를 찾을 수로 사용할 수 있습니다. 따라서, 관심의 다른 epigenomic 데이터와 대규모 게놈 프로젝트에서 생성 된 알려진된 데이터 사이의 관계를 연구 하는 중요 한 도구입니다.

Protocol

참고: 프로토콜 어디 일시 중지 될 수 있습니다.

1. 기본 설치

  1. 얻기 침대, 봉우리 형식, 또는 게놈으로 입력 데이터를 포함 하는 중요 인물 7 파일. 파일 확장 이름이 있어야 " 침대 ", " broadpeaks " " narrowpeaks ", 또는 " 중요 " 각각.
    ​ 참고: 이러한 유형의 파일의 압축된 버전도 작동 합니다.
  2. 인터넷 브라우저를 사용 하 여 genemo.org에가 서. 가장 일반적인 인터넷 브라우저를 실행할 수 있는 모든 운영 체제 GeNemo를 사용 하 여 수 있어야 합니다.
    1. 선택 드롭다운 메뉴를 사용 하 여에 대 한 검색 하는 종. 현재 사용할 수 있는 포함 인간 종과 마우스.
    2. 업로드 사용자 파일 url 또는 직접 업로드를 사용 하 여. 중요는 url 업로드 방법만 작업 파일. 침대와 봉우리 (흔들기 파일은 지금 현재 기본 데이터로 업로드할 수 없습니다) 두 가지 방법으로 파일 작업을 포맷.

2. 옵션 설치

  1. 검색 완료 되 면 검색 결과 이메일로 받으려면 해당 상자에 전자 메일 주소 제공.
    ​ 참고: 게놈의 또는 많은 수의 트랙 (아래 참조)에 대 한 큰 부분을 검색할 때 것이 좋습니다 때문에 검색 시간이 오래 걸릴 수 있습니다 사용자의 이메일을 제공 하. 예를 들어 100 megabase 검색 소요 약 15 s. 검색 결과에 대 한 링크는 검색 완료 되 면 제공 된 이메일 주소로 전송 됩니다. 링크는 검색 완료 후 7 일 이내에 만료 됩니다.
  2. 중요 파일을 제공 하거나 흔들기 디스플레이 파일 url에서 있을 수 있습니다. 이 디스플레이 파일; 결과 영향을 미치지 않습니다. 그것은 결과 함께 표시 됩니다.
  3. 해당 상자에 (를 포함 하 여 염색체와 기본적인 쌍 위치) 검색 범위를 지정.
    1. 염색체 기본적인 쌍, 시작 목록과 끝 기본적인 쌍.
    2. 사용 ' chrN ' 염색체 형식에 대 한 어디 ' N '는 염색체 번호/문자 (1, 2, … X 또는 Y). 기본적인 쌍에 대 한 숫자에서 입력.
    3. 모든 3 항목 사이의 공백을 포함 하거나 염색체 수와 1 루 쌍 및 2 개의 자료 쌍 사이의 하이픈 사이 콜론 (:)을 포함 합니다. 예: chr1:1000000-2000000, chr1 chr1 1000000 2000000 chr1:1000000 2000000 1000000 2000000.
      참고: 2.1-2.3 단계는 선택 사항.

Figure 1
그림 1 : GeNemo ' s 프론트 페이지 작성 필요한 분야. 사용자 종, 검색 파일 및 검색 범위를 입력 하 고 그에 대 한 검색 하고자 하는 트랙을 선택 해야 합니다. 이메일 주소와 파일 표시 선택 사항입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

3. 데이터 선택

Figure 2
그림 2 : 트랙 선택 창. 이것은 클릭 하 여 키워는 " 데이터 선택 " 첫 페이지에 단추. 여기서, 사용자에 대 한 입력된 파일을 검색 하려면 트랙을 선택 합니다. 트랙의 일부는 이미 기본적. 선정 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

  1. 데이터 선택 버튼을 클릭 하면 트랙 (, 쿼리를 추가 하려면)에 대 한 검색의 유형을 선택 하십시오. 연구소는 세계 각국에서 많은 다른 데이터 집합을 포함 하는 트랙 컬렉션.
    1. 트랙 목록이 매우 긴으로, 사용자 (위)에 필터 단추를 사용 하 여 트랙 선택 촉진 하고자 할 수 있습니다. 트랙 실험, 조직, 세포 선 또는 실험실에 의해 필터링 할 수 있습니다
    2. 트랙 선택 실행 수 있도록 하단에 5 개의 단추가 있다: 모두 선택 일 없음에 선택, 추가, 필터, 제외.
    3. 모두 선택 " 및 " 선택 없음 " 단정.
    4. 는 " 추가 " 쿼리를 현재 선택 된 트랙을 추가 하는 버튼. 그것은 논리 게이트 역할을 " 또는 ". 참고는 (예를 들어, 특정 실험, 조직, 세포 또는 실험실) 위의 필터를 선택 하면 추가 하지 않습니다 자동으로 해당 검색 쿼리를 추적 합니다. 사용자가 합니다 먼저 트랙 (예를 들어, 뇌, 간 조직에서), 선택한 다음에 " 추가 " 쿼리에 추가 버튼을. 트랙을 선택할 때 note만 필터 필터 창에서 열린된 탭에 지정 된 검색 쿼리에 적용 됩니다. 다른 탭에 선택 필터 창에 저장 되지만 검색 쿼리에 적용 되지 것입니다.
    5. 는 " 필터 " 버튼 쿼리에서 필터 창에서 현재 선택 된 트랙의 종류만을 유지 하 고 다른 모든 종류의 트랙을 제거 합니다. 그것은 논리 게이트 역할 "와 ". 기본적으로, " 필터 " 트랙 (예를 들어, 특정 조직 특정 실험실)의 2 개의 종류 사이 상호 작용의 선택을 허용. " 필터 " 그들은 아직 없는 경우 쿼리에서 쿼리를 선택한 유형의 트랙을 추가 하지 않습니다.
    6. 는 " 제외 " 버튼 쿼리에서 필터 창에서 현재 선택 된 트랙의 모든 종류를 제거 합니다. 그것은 논리 게이트 역할 " 하지 ", 반대에 " 필터 " 기능. 다시, " 제외 " 하지 쿼리 필터 창에서 현재 선택 된 모든 트랙을 추가 하지 않습니다.

Figure 3
그림 3 : 필터 창 . 이것은 클릭 하 여 키워는 " 필터 " 트랙 선택 창에서 단추. 여기서, 사용자 상대적 용이성. 동시에 많은 트랙을 선택할 수 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 4
그림 4 : filter 함수를 사용 하는 방법. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

  1. 쿼리에 원하는 트랙을 추가한 후 클릭는 " 업데이트 " 오른쪽 하단에 버튼. 이 데이터를 선택 하는 두 가지를 수용 하기 위해 필요 하다: 개별 데이터 트랙을 선택 하거나 필터링/제외. " 다시 보기 " 단추 인간/마우스 배아 줄기 세포에서 유전자 표현 규제에 관련 된 기본 트랙에 쿼리를 다시 설정 됩니다.
    참고: 선택 트랙을 통해 검색할 수 " 데이터 선택 "는 옵션 이지만 권장 됩니다기본 검색 트랙은 대부분 사용자에 게 적합 하지 원인 ' s 요구.

4. 검색 및 결과

  1. 클릭에 " 검색 " 데이터 선택 후 버튼. 검색 시간이 좀 걸릴 수 있습니다.
  2. 검색 완료 되 면, 사용자가 결과 페이지에서 다양 한 상자를 볼 것 이다. 각 상자는 어디에 사용자는 게놈의 섹션을 나타냅니다 ' s 데이터 파일은 하나 이상의 트랙 사용자 쿼리는 밀접 하 게 일치 패턴.
  3. 아무 상자 표시, 해 더 많은 종류의 트랙을 검색 하거나 검색 범위 동일한 입력 파일 큰 경우
      . 모든 것을 다시 실행 하지 않고이 작업을 수행 하는 쉬운 방법 클릭 하 여 " ☰ " 로고 옆 버튼. 이 검색을 수정 하려면 사용자를 허용 하는 사이드바를 열 것 이다.
    1. 결과 클릭 하 여 침대 파일로 내보낼 수 있습니다는 " 침대 파일 다운로드 " 결과 페이지의 하단에 있는 버튼.
  4. 시각화 단추 상단에 결과 시각화 하기 위해 각 상자 오른쪽의. 일부 기본 추적 및
    1. 시각화에 패널 오른쪽, 여러 가지 통합 사용자 입력된 파일 표시 파일 하나 입력 했다, 트랙, 일치 하는 경우 데이터를 포함 하 여 표시 됩니다. 결과 사용자 추가 조사에 대 한 제공 된 데이터 집합에 대 한 알려진된 인코딩 데이터 집합을 비교할 수 있습니다. 사용자 또한 UCSC 유전자 쿼리 결과의 컨텍스트 참조를 참조할 수 있습니다. 여러 셀 라인/조직에서 트랙을 선택 하는 경우 사용자 지정 된 데이터 집합 및 인코딩 데이터 집합 사이의 유사성의 조직 특이성에 대 한 통찰력을 얻기 위해 같은 결과 사용할 수 있습니다.
    2. 결과에 페이지 사용자 상류 또는 하류 모든 트랙에 드래그 수 있습니다 게놈;의 마우스 커서 좌표를 켜져 있을 때 사용자 및 사용 수 있습니다 마우스 휠 확대 / 축소.

Figure 5
그림 5 : 결과 페이지. 이 특정 검색 363 일치 지역 반환. 클릭 하 여 첫 번째 일치 영역 표시를 할 수 있습니다는 " 표시 " 각 결과 영역 상자 맨 아래 왼쪽에 단추. 디스플레이 창의 왼쪽된 부분에서 볼 수 있습니다 두 개의 데이터 파일 (입력 및 선택한 트랙)은 비슷한 신호 강도 패턴. 를 클릭 하십시오 이 그림의 더 큰 버전을 보려면 여기.

Representative Results

여기 그림 5 에 표시는 가장된 검색이입니다. 인류를 선택 하 고 해당 샘플 파일이 입력된 데이터 파일로 사용 된. 또한, 그림 3에서 보듯이 기본 트랙 선정 됐다. 일치 하는 지역, 363의 총 있었고 첫 번째 영역 표시 페이지에 표시 됩니다. 그것은에서 강도 패턴 입력된 파일에 대 한 염색체 1에 17036000 17038000 기초 및 선택한 트랙 중 하나는 매우 유사 볼 수 있습니다.

Discussion

제공 하는 새로운 생물 학적 통찰력8인간 게놈 시퀀싱의 풍부한 잠재력을 달성 하는 epigenome에 대 한 철저 한 이해가 필요 합니다. 현재 데이터 설명 및 제목 (, 메타 데이터)1온라인 epigenomic 데이터 집합을 검색 하는 방법만이 있다. 이 심각 하 게 검색 하나 epigenomic 데이터와 함께 할 수 있는의 유형을 제한 합니다. Epigenomic 데이터에 대 한 패턴 기반 검색 도구 새로운 생물 학적 통찰력으로 이어질 수 있는 다른 epigenomic 마크 사이의 관계를 탐구 하는 것이 필수적입니다. GeNemo, 데이터 및 메타 데이터 하지 내용 검색, 인코딩 데이터베이스 사용자 생성와 같은 게시 된 depositories에서 epigenomic 데이터에서 패턴을 비교 하는 종류의 첫 번째 서비스 또는 데이터 집합5다운로드. 이 텍스트 기반 시퀀스 검색 도구 되었다 1990 년대에 널리 널리 그냥 전세계 연구자에 액세스할 수 있는 epigenomic 검색 도구의 가용성의 시작을 표시 한다. 현재, GeNemo 이외의 epigenomic 데이터에 대 한 온라인 검색 패턴 기반 도구에 대 한 대안입니다.

인간 배아 줄기 세포 (예를 들어 E2F6 바인딩 신호 파일을 또는 인코딩 데이터 포털에서 사용할 수 있는 공동 나타나는 히스톤 수정 transcriptional 요소 E2F6와 다른 후 표시를 검색 하는 GeNemo를 사용 하 여 하나의 잠재적인 예 https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed)입니다. H1 hESC에 모든 인코딩 데이터 집합에 대 한 검색 쿼리로이 파일을 사용 하 여 GeNemo E2F6 바인딩 신호 H3K4me1, H3K4me2, H3K4me3, 및 H3K27me3, E2F6를 통해 몇 가지 유전자 조절 보여주는 기존 연구 동의와 농축 심하게 표시 됩니다. H3K279의 메 틸 화입니다. 다른 한편으로, 동일한 가족, E2F710요소와 상호 작용 하는 것으로 알려져 있는 E2F6 CtBP2 바인딩 사이트 colocalization 것 같습니다. 많은 수의 후 성적인 부호, transcriptional 요소 바인딩 신호 및 인코딩에 포함 된 다른 신호에 대 한 전체 게놈에 대 한 이러한 결과 추가 분석에 대 한 모든 잠재적인 목표를 제공할 수 있는 GeNemo로 비교적 쉽게 얻어질 수 있다.

이후 첫 번째 게시5 epigenomic 웹 기반 데이터 검색 도구로 GeNemo의, GeNemo의 결과 섹션 GeNemo의 첫 페이지와 어울리는 모습을 새롭게 했다. 밀접 하 게 이전 결과 섹션 UCSC 게놈 브라우저 결과 섹션을 미러 하 고 디스플레이 대 한 원격 UCSC 서버에 크게 의존 했다. 새로운 인터페이스와 함께 GeNemo는 더 쉽고 UCSC 게놈 서버에 더 이상 의존 (데이터는 여전히 원격으로 인출 됩니다). 이것은 GeNemo 더 강력 하 고 덜 코드 변경 문제에 취약 UCSC 서버에 있습니다. 또한, GeNemo의 새로운, 더 빠른 폴리머 인터페이스 시각화 하 고 데이터에서 패턴 분석 도구를 더 많은 사용자를 제공 합니다.

중요 한 단계는 적절 한 입력된 파일을 제공 하 고 데이터 트랙에 대 한 검색을 선택 하면 포함 됩니다. 사용자가 다양 한 실험 하는 것이 좋습니다 트랙 선택 기능을 어떻게 다른 명령과 선택 과정 원하는 결과 달성 하기 위해 결합 될 수 있다. 특히, "추가" 기능 "필터링" 또는 "제외" 논리 게이트 명령으로 사용할 수 있는 쿼리를 선택 하는 원하는 트랙을 추가 하는 데 필요한는 참고 "AND" 및 "또는", 각각. "업데이트" 기능 검색을 구현 하기 전에 모든 선택에 영향을 줄 필요 합니다. 결과가 반환 될 때 사용자 수 확인 입력된 데이터 파일, 더 많은 트랙을 검색 하거나 검색 범위를 증가. 오류가 있을 때마다 정확 하 게 오류를 정의 팝업 창이 있을 것입니다. 비록 몇 가지 모호한 오류 있습니다. 예를 들어 윈도우는 '파일 업로드 된' 때, 중 아무 파일을 업로드 또는 업로드 된 파일 허용 형식의 되었고, 결과적으로, 프로그램은 올바르게 읽을 수 있습니다. 파일 업로드 허용 파일 형식 모두 업로드 방법에 대 한 침대와 봉우리 서식 파일 및 온라인 링크 업로드만 중요 포함 됩니다. 이러한 파일 포맷의 압축된 버전도 사용할 수 있습니다.

이 방법의 현재 한계는 아직---최적화 알고리즘 및 기능 GeNemo에 포함 합니다. GeNemo 아직 반환 된 모든 데이터 집합의 해석에 어떤 지침을 제공할 수 없습니다. 이 작업은 상당한 지식과 게놈 epigenome의 생물학에 전문 지식이 필요로 하는 사용자까지 이다. 또한, 또 다른 현재 한계가입니다 사용자 검색의 감도 및 잡음 레벨을 변경할 수 없습니다. 우리는 개선 하 고 GeNemo의 패턴 검색 기능 및 나중에 데이터 집합 컬렉션에 확장을 계속 기대 합니다.

Disclosures

저자는 공개 경쟁 금융 관심 없다 있다.

Acknowledgments

이 작품은 NIH에 의해 지원 되었다 NICHD NHGRI에서 R01HG008135에서에서 DP1HD087990를 포함 하 여 부여. 우리는 귀중 한 피드백을 위한 종 실험실의 구성원 감사.

작가 기부:
X.C. 및 A.T.Z. 업데이트 GeNemo 코딩 새로운 인터페이스와 기능; A.T.Z. 생산 사내 샘플 비디오; A.T.Z., X.C 및 S.Z.는 종이 썼다.

Materials

Name Company Catalog Number Comments
GENEMO https://www.genemo.org Comparative Epigenome Browser

DOWNLOAD MATERIALS LIST

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Tags

생명 공학 문제 128 생물 정보학 GeNemo 인코딩 패턴 일치 기능 게놈 데이터 epigenome 게놈
GeNemo를 사용 하 여 Epigenomic 데이터의 패턴 기반 검색
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zheng, A., Cao, X., Zhong, S.More

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter