비전문가를위한 계통 발생에 대한 실용 가이드

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

여기에서 우리는 뉴클레오티드 또는 아미노산 서열 데이터 세트에서 안정적인 계통 발생을 생성하기위한 단계별 파이프 라인을 설명합니다. 이 가이드는 연구자 또는 계통 발생 학적 분석에 새로운 학생 서비스를 제공하는 것을 목표로하고있다.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

많은 연구자들은 믿을 수 없을만큼 다양한 초점을 통해, 자신의 연구 질문 (들) 계통 발생학을 적용하고있다. 그러나 많은 연구자들은이 주제에 새로운 그리고 그것은 고유의 문제를 제시한다. 여기에서 우리는 비전문가에 대한 계통 발생에 대한 실질적인 소개를 컴파일합니다. 우리는 단계별 방식으로, 유전자 서열 데이터 세트에서 안정적인 계통을 발생 파이프 라인 개요. 우리는 온라인 인터페이스뿐만 아니라 지역의 실행을 통해 유사성 검색 도구를위한 사용자 가이드와 함께 시작합니다. 다음으로, 우리는 진화의 가장 적합한 모델을 결정하기 위해 소프트웨어를 사용하는 프로토콜에 따라 여러 순서 정렬을 생성하기위한 프로그램을 탐구한다. 우리는 최대의 가능성과 베이지안 기준을 통해 계통 발생 학적 관계를 재구성 프로토콜 개요 마지막으로 계통 발생 수를 시각화하기위한 도구에 대해 설명합니다. 어떤 계통 발생 학적 접근 방법의 완전한 설명을 의미하여이 아니지만, 그것은 실제 시작 INFORMAT으로 독자를 제공한다일반적으로 phylogeneticists으로 활용 키 소프트웨어 응용 프로그램에 이온. 이 기사에 대한 비전은 계통 발생 학적 연구에 착수 연구자를위한 실습 도구로 봉사하고 또한 교실이나 교사 실험실에 통합 될 수있는 교육 자원으로 역할을 할 수 있다는 것입니다.

Introduction

두 개 (또는 그 이상)의 종 진화 방법을 이해하기 위해서는, 각각의 샘플로부터 서열 또는 형태 학적 데이터를 구하는 것이 우선 필요하다, 이러한 데이터는 우리가 공간을 통해 진화 관계를 측정하는 데 사용할 수있는 수량을 나타낸다. (예를 들어, 마일, 인치, 마이크론) 사용 가능한 더 많은 데이터를보다 정확한 측정으로 간주됩니다 데, 직선 거리를 측정 할 때 그냥 좋아. 에르고는 연구자가 진화 거리를 추론 할 수있는 정확도는 크게 관계를 측정하는 것이 가능한 정보 데이터의 양에 의해 영향을 받는다. 다른 샘플은 다른 속도 및 다른 메커니즘에 의해 발전하기 때문에 또한, 우리는이 분류군 사이의 관계를 측정하기 위해 사용하는 방법은 직접적 진화 측정의 정확도에 영향을 미친다. 따라서 진화론 적 관계는 직접 관측되지 않고 대신에 순서 나 형태 학적 데이터, 진화를 추론의 문제로 추정되기 때문에관계는 통계 중 하나가됩니다. 계통 발생 최적 분류군 간의 진화의 역사를 재구성하기 위해 진화의 패턴을 통계 모델을 적용과 관련된 생물학의 지점입니다. 분류군 간의 재건은 분류군의 계통이라고합니다.

우리가 여기 시퀀스의 집합에서 계통 발생을 추론하기위한 단계 파이프 라인에 의해 단계를 설명하는 분자 생물 학자와 진화 생물 학자 사이의 전문 지식의 격차를 해소하는 데 도움이. 첫째, 우리는 세부 사항 웹 기반 인터페이스를 통해 또한 지역 실행 파일을 사용하여 기본 지역 정렬 검색 도구 (BLAST 1) 알고리즘을 사용하여 데이터베이스 심문하는 단계;이 종종 알 수없는 유사한 시퀀스의 목록을 얻는 첫 번째 단계입니다 쿼리, 일부 연구자는 또한 Phylota (http://www.phylota.net/)와 같은 웹 인터페이스를 통해 하나의 그룹에 대한 데이터를 수집에 관심이있을 수도있다. BLAST는 C에 대한 알고리즘질의 시퀀스를 닮은 "히트"에 대한 검색 시퀀스를 데이터베이스에 대해 일차 아미노산 또는 뉴클레오티드 서열 데이터를 omparing. BLAST 프로그램은 스티븐 Altschul 등에 의해 설계되었습니다. 국립 보건원 (NIH)에서 1. BLAST 서버는 다른 프로그램들로 구성되어 있으며, 여기에 가장 일반적인 BLAST 프로그램의 일부 목록입니다 :

ⅰ) 뉴클레오티드 염기 BLAST (BLASTN) :이 프로그램은 DNA 서열의 입력을 요구하고 DNA 데이터베이스로부터 가장 유사한 DNA 서열을 반환하는 사용자를 지정하는 특정 유기체 (예를 들면).

ⅱ) 단백질 - 단백질 BLAST (BLASTP) : 여기서 사용자는 단백질 서열을 입력하고, 프로그램은 사용자가 지정하는 단백질 데이터베이스에서 가장 유사한 단백질 서열을 반환한다.

III) 위치 별 반복 BLAST (PSI-BLAST) (blastpgp) : 사용자 입력은 PROTE입니다밀접한 관련이 단백질의 집합을 반환 순서,이 데이터 집합의 보존 프로파일이 생성됩니다. 다음 새로운 쿼리 단백질 데이터베이스를 심문하는 데 사용되는 이들 보존 된 "모티프"를 사용하여 생성되고 이는 보존 된 "모티프"의 새로운 세트를 추출하고 단백질 데이터베이스까지 심문하는 데 사용되는 단백질의 큰 그룹을 반환한다 단백질의 더 큰 세트 재곡 것으로 다른 프로파일이 생성되어 처리를 반복한다. 각 단계에서 검색어에 관련된 단백질을 포함함으로써이 프로그램은 사용자가 더 발산 아르 시퀀스를 식별 할 수있다.

ⅳ) 뉴클레오티드 6 - 프레임 번역 단백질 (BLASTX) : 여기서 사용자는 여섯 프레임 개념적 번역 제품 (즉,로 변환된다 뉴클레오티드 서열 입력을 제공하는 두 가닥) 단백질 서열 데이터베이스에 대해..

V) 6 프레임 번역 염기를 염기6 - 프레임 변환 (tblastx) :이 프로그램은 DNA 염기 서열의 입력을 받아,이 염기 서열 데이터베이스의 여섯 프레임 변환에 대하여 비교 여섯 프레임 개념적 번역 제품에 입력을 변환한다.

ⅵ) 단백질 - 뉴클레오티드 6 프레임 변환 (tblastn) :이 프로그램은 뉴클레오티드 서열 데이타베이스의 여섯 판독 범위에 대하여 비교하는 단백질 시퀀스 입력을 사용한다.

다음으로, 우리는 일련의 데이터 집합의 여러 순서 정렬 (MSA)를 생성하기 위해 일반적으로 사용되는 프로그램을 설명하고 이것은 일련의 데이터 집합에 대한 진화에 가장 적합한 모델을 결정하는 프로그램에 대한 사용자 설명서를 따른다. 계통 발생 학적 재구성은 통계 문제이며,이 때문에, 계통 발생 방법은 통계적인 프레임 워크를 통합 할 필요가있다. 이 통계 프레임 워크는 데이터 집합 내에서 일련의 변화를 통합하는 진화 모델이됩니다. 이 진화 개월델은 뉴클레오티드 또는 아미노산 치환의 과정에 대한 가정의 집합으로 구성되며, 특정 데이터 세트에 대한 최적의 모델은 통계적인 테스트를 통해 선택할 수 있습니다. 다른 모델의 데이터에 적합 가능한 것들의 집합 내에서 가장 적합한 모델을 선택하는 우도 비 테스트 (LRTs) 또는 정보 기준을 통해 비교할 수 있습니다. 두 공통 정보 기준은 아카 이케 정보 기준 (AIC) (2) 및 베이지안 정보 기준 (BIC) 3이다. 최적 얼라인먼트가 생성되면, 정렬 된 데이터로부터 계통을 생성하는 다양한 방법이있다. 진화 적 관계를 추론하는 수많은 방법이 있습니다, 광범위하게, 그들은 두 가지 범주로 나눌 수 있습니다 : 거리 기반의 방법과 순서 기반의 방법. 거리 기반 방법은 시퀀스의 페어의 거리를 계산하고 나무를 얻기 위해이 거리를 사용합니다. 시퀀스 기반의 방법은 직접 서열 정렬을 사용하여, 통상 t 검색최적 성 기준을 사용하여 REE 공간. 우리는 계통 발생 학적 관계를 재구성 두 시퀀스 기반의 방법을 간략하게 설명이 최대 우도 프레임 워크를 구현 PhyML 4, 그리고 베이지안 마르코프 체인 몬테카를로 유추를 사용 MrBayes 5. 가능성과 베이지안 방법은 계통 발생 학적 재구성을위한 통계적인 프레임 워크를 제공합니다. 일반적으로 사용되는 트리 구축 도구에 사용자 정보를 제공함으로써, 우리는 계통 발생 학적 관계를 추론하는 데 필요한 필요한 데이터에 독자를 소개합니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 기본 지역 정렬 검색 도구 (BLAST) : 온라인 인터페이스

  1. 생명 공학 정보를위한 국립 센터 (NCBI)의 BLAST 1 웹 서버를 방문하려면이 링크를 클릭하십시오. - http://blast.ncbi.nlm.nih.gov/Blast.cgi (그림 1).
  2. 쿼리 상자에 입력 FASTA 포맷의 텍스트 시퀀스 (예를 들어 그림 2 참조).
  3. 검색에 사용하고 "BLAST"을 클릭하여 해당 BLAST 프로그램과 관련된 데이터베이스 또는 그 각각의 종을 클릭합니다.
    참고 : FASTA 형식의 시퀀스는 ">"기호로 표시 설명 라인으로 시작한다. 설명은 ">"기호 순서 (예. 뉴클레오티드 또는 아미노산) 다음 줄에 대한 설명을 수행 한 후 바로 다음에해야합니다. BLAST 검색의 출력은 HTML, 일반 텍스트, XML, 또는 충돌 TA로 본다준한 HTML로 설정 기본 (그림 3)과 (텍스트 또는 CSV).

2. 기본 지역 정렬 검색 도구 (BLAST) : 로컬 실행 파일

  1. 이 링크에서 최신 BLAST 명령 줄 BLAST 실행 파일을 다운로드 :
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. PC 사용자의 경우 EM> : 최근의 폭발 win32.exe 파일을 두 번 클릭하고 사용권 계약에 동의하고 설치를 클릭합니다.
    참고 : NCBI-BLAST-2.2.27 + : 기본 설치 디렉토리는 C입니다.
  3. 다음과 같이 PC 환경 변수를 구성합니다 :
    1. '시작'버튼을 누른 다음 바로 "컴퓨터"를 클릭 PC를 클릭
    2. "속성"을 클릭하고 팝업에서 "고급"탭을 클릭
    3. "환경 변수"버튼을 클릭하고 새로운 팝업에서 회에서 "새로운"버튼을 클릭합니다섹션 전자 "사용자에 대한 사용자 변수"
    4. NCBI-BLAST-2.2.27 + BIN : 팝업에서 변수 이름 "경로"변수 값 "C를 추가합니다.
      참고 : bin 디렉토리에 실행 파일 (.. BLASTP 등)가 포함되어 있습니다.
  4. Mac 사용자를위한 EM> : 터미널 응용 프로그램을 엽니 다 (이 바로 열기 "찾기"를 할 및 "터미널"을 검색하고이 "터미널"아이콘이 표시됩니다). 터미널 창에 다음을 입력 현황 :
    > FTP ftp.ncbi.nih.gov
    참고 : 또한 PC에 대한 위의 예에서 사용 된 URL을 입력 할 수 있습니다
  5. NCBI FTP 사이트의 유형 이름과 암호를 "익명"을 선택한 후 형식에 액세스하려면 :
    > CD 폭발 / 실행 / 최근의
  6. 입력하여 실행 파일을 나열
    > LS
  7. 다음 (또는 무엇이든 최신 버전 현재)를 입력하여 최신 버전의 정보 :
    2, NCBI-BLAST-2.2.7-macosx.tar.gz 얻을
  8. "종료"를 입력하여 NCBI FTP 서버 사이트를 종료합니다.
  9. 입력하여 다운로드 한 파일의 압축을 해제 :
    > 타르 xzf NCBI-BLAST-2.2.7-macosx.tar.gz
  10. 입력하여 명령을 찾을 때 쉘이이 디렉토리를 검색 할 수 있도록 경로에 폭발 실행 파일의 바이너리의 위치를​​ 추가합니다 :
    > PATH = $ 경로 : new_folder_location
  11. 이 입력하여 경로에 위치를 추가 한 경우 확인 :
    > 에코 $의 PATH
  12. 여기를 클릭하여 (매일 업데이트) 미리 서식 BLAST 데이터베이스를 다운로드 :
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. "DB"폴더에 데이터베이스를 배치합니다.
  14. PC에 EM>을 입력하여 NCBI-BLAST 폴더로 디렉토리를 변경 (이 "시작"을 클릭하고 검색 창에 "cmd"를 입력을 할 수있는) MS-DOS 프롬프트를 엽니 다 :
    C : 사용자> CD .. [이동하나의 폴더까지]
    C : > CD NCBI-BLAST-2.2.27 +
    이것은로 디렉토리를 변경합니다 :
    C : NCBI-BLAST-2.2.27 +>
  15. 다음 "makedb"명령을 사용하여 데이터베이스를 만듭니다
    > makedb에서 DB / briggsae.fasta-DbType과 제자 아웃 DB / briggsae
    참고 : 아래의 예 (그림 4)에서 데이터베이스가 "briggsae"라는 유기체 Caenorhabditis의 briggsae에서 하나의 연결 그룹으로 구성되어 있습니다.
  16. "DB"폴더에 FASTA 형식의 단백질 텍스트 시퀀스를 삽입하여 "테스트"라는 질의 단백질 서열을 만듭니다.
  17. 다음 명령을 입력하여 BLASTP 검색을 통해 데이터베이스를 심문 :
    > BLASTP 쿼리의 DB /있는 test.txt-DB의 DB / briggsae 아웃 text.txt
  18. 맥에 EM> (2.4 단계) 위의 지침에 따라 NCBI FTP를 웹 사이트에 액세스하여 로컬 폭발 검색을위한 데이터베이스를 다운로드n 형 :
    > LCD .. / 데이터베이스 /
  19. 입력하여 관심의 게놈 또는 순서를 다운로드 :
    > 얻을 NC_ [기탁 번호]. 프나
    참고 : ". 프나"FASTA 형식의 염기 서열을 의미하고 "FAA가."FASTA 형식의 아미노산 서열을 의미한다.
  20. FTP 사이트를 종료하려면 "종료"를 입력.
  21. 입력하여 데이터베이스를 확인합니다 :
    > DB / mouse.faa 아웃 마우스 DbType과 제자 makeblastdb에서
  22. "빈"폴더에 FAST 형식의 쿼리 순서를 삽입하고 다음 명령을 사용하여 데이터베이스를 심문 :
    > BLASTP 쿼리의 "query.fasta"-DB "데이터베이스"는 아웃 results.txt

3. 여러 순서 정렬을 생성

  1. 일반적으로 사용되는 여러 순서 정렬 (MSA) 프로그램에 액세스하려면 다음 링크를 클릭하십시오 :
    CLUSTALW 6 http://www.clustal.org/
    수송 나물GN 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSCLE 10 http://www.drive5.com/muscle/
    T-커피 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. -이 링크를 클릭 http://tcoffee.crg.cat/apps/tcoffee/do:regular 쿼리 상자에 입력 된 FASTA 형식의 시퀀스 데이터 -
    주 : T-커피에서 출력 예제 그림 5에서 볼 수있는 유사한 잔류 물은 색상으로 구분되어 있습니다.
  3. 명령 줄 버전 (CLUSTALW) 또는 그래픽 V로 CLUSTAL MSA 다운로드이 링크를 클릭하여 ersion (ClustalX와) http://www.clustal.org/clustal2/을 - 다음 적절한 실행을 클릭합니다 (즉, 승리, 리눅스, 맥 OS X).
  4. FASTA 형식 시퀀스 텍스트로 데이터를 업로드하고 (그림 6)에 맞 춥니 다.

4. 진화의 가장 적합한 모델을 결정

  1. ProtTest 13 프로그램을 다운로드하려면 여기를 클릭하십시오 :
    http://darwin.uvigo.es/our-software/
  2. ProtTest가 다운로드되면, ProtTest.jar 파일을 더블 클릭
  3. ProtTest이 시작되면, "파일 선택"을 클릭합니다 (그림 7) 시퀀스 데이터를로드 할 수 있습니다.
  4. 그런 다음 "시작"을 클릭하고 프로그램 (그림 8)이 시작됩니다.
    주 :(도 8)의 종료 후, 프로그램이 기준에 기초하여 적합한 모델을 나타내는 것 "AIC에 따라 최고 모델 : WAG + I + G"

5. 최대 가능성 또는 베이지안 추론에 의해 순서 기반 계통 발생을 유추

  1. 여기 PhyML 4 다운로드 :
    https://code.google.com/p/phyml/
  2. 두 배는 해당 응용 프로그램 (예 : phyml 윈도우, phyml 리눅스, 등.)과 인터페이스 창 (그림 9)를 나타납니다를 클릭하여 실행 파일을 실행합니다.
  3. 입력하여 PHYLIP 형식의 시퀀스로 입력 시퀀스를로드
    > "파일 이름". PHY
    참고 : 시퀀스 형식 사이의 변환에서 사용할 수있는 "Readseq"웹 프로그램을 사용하려면 - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi을 .
  4. "Y"를 입력하여 프로그램을 시작합니다.
  5. 여기 MrBayes 5 다운로드 :
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. 실행 파일에서 프로그램을 클릭을 시작하고 입력하여 프로그램에 NEXUS 형식의 시퀀스 데이터를 읽으려면
    > "파일 이름"을 실행한다. NEX
  7. 진화 모델을 설정합니다.
  8. 입력하여 실행하는 세대의 수를 선택합니다 :
    > mcmcp NGEN = 1000000 [이 1000000 세대의 수를 설정]
    > 기름 통 타는 = 10000 [이 10000에 타는를 설정]
  9. 입력하여 결과를 파일에 분기 길이를 저장합니다 :
    > mcmcp savebrlens = 예
  10. 입력하여 분석을 실행합니다 :
    > MCMC
  11. "SUMT"명령을 사용하여 나무를 요약한다.

6. 계통 발생을 시각화

  1. 여기에 트리 뷰어 프로그램의 목록을 보려면 :
    http://www.treedyn.org/overview/editors.html
  2. 트 리뷰 14 PROGR 다운로드여기입니다 :
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

쿼리에 유사성을 발견하는 것은 연구자가 새로운 순서에 잠재적 인 정체성을 돌리는 또한 시퀀스 사이의 관계를 유추 할 수 있습니다. BLAST 1의 파일 입력 유형은 FASTA 포맷의 텍스트 순서 나 GenBank 액 번호입니다. FASTA 형식의 시퀀스는 ">"기호 (그림 2)에 의해 표시되는 설명 라인으로 시작한다. 설명은 ">"기호 순서 (예. 뉴클레오티드 또는 아미노산) 다음 줄에 대한 설명을 수행 한 후 바로 다음에해야합니다. 저장 및 편집 시퀀스 파일 때, 예컨대 PC 또는 TextWrangler (ON 「메모장」등의 텍스트 편집기를 사용하는 것이 최선이다 http://www.barebones.com/products/textwrangler/ 맥). BLAST 알고리즘은 서열의 유사성의 짧은 복역 검색 "로컬"정렬을 수행합니다. 이 알고리즘은 모든 가능한 "stretche을 조회 한 후질의 시퀀스와 최대로 확장에서의 "이 시퀀스는 다음이 경기가 얼마나 잘 이해하기 위해 다음 중요합니다. 각 질의 시퀀스 쌍에 대한 정렬을 조립 등 BLAST이 (E) 기대 값을 구성하는 각각의 히트에 통계를 적용 및 비트 점수. E 값이 일치 통계적 중요성의 표시를 제공한다. E-값이 낮을수록 유의 히트는, 예를 들어 0.05의 E-값을 가진 서열 정렬 즉 이것의 가능성 혼자 우연히 발생하는 경기는 100에서 5입니다. 비트 점수를 얼마나 잘 정렬이됩니다. 높은 비트 점수, 더 나은 정렬. BLAST의 온라인 버전과 마찬가지로, 거기의 표시를 제공하기 위해 특정 점수 행렬을 사용하여 지역 BLAST 실행 파일을 사용하여 명령을 통해 설정할 수있는 매개 변수의 수 이러한 명령을 설명하는 포괄적 인 자원은 여기에서 찾을 수 있습니다 -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. 로컬 검색의 출력은 온라인 BLAST 인터페이스로부터의 출력 (도 4)와 같은 텍스트 파일이다.

다중 서열 정렬 (MSA)의 아미노산, DNA 또는 RNA로 이루어진 세 개 이상의 일차 서열의 서열 정렬이다. CLUSTALW 6 1994 년에 발표, 생물 학자들에게 가장 인기있는 MSA 도구 중 하나입니다. - 몇 가지 인기있는 MSA 도구에 원 스톱 액세스를 제공하는 사용자 친화적 인 온라인 인터페이스는 여기 EMBL-EBI 서버에서 찾을 수 있습니다 http://www.ebi.ac.uk/Tools/msa . 다양한 형식도 사용할 수 있지만 각 프로그램에 대한 입력은 FASTA (그림 2 참조) 시퀀스 데이터를 포맷 할 수 있으며, 각각에 대한 다수의 미러 사이트는 온라인으로 볼 수 있습니다. 갭 처벌 및 출력 형식 등 수많은 매개 변수를 쉽게 선택할 수 있습니다. MSA T-커피의 샘플 출력은 유사한 잔류 공동된다 그림 5에서 볼 수있다LOR 코딩. 어떤 경우에는, MSA 도구는 또한 다운로드하고 로컬 실행될 수있다. - CLUSTAL이 웹 사이트에서 명령 행 버전 (CLUSTALW) 또는 그래픽 버전 (ClustalX와)로 다운로드 할 수 있습니다 http://www.clustal.org/clustal2/ . 다운로드하려면, 단지 적절한 실행을 클릭합니다 (예 :. 승리, 리눅스, 맥 OS X). Windows의 프로그램 실행 파일을 다운로드하고 팝업 메뉴에서 "실행"을 클릭 한 다음 설치를 시작하는 사용자가 필요합니다. 이 프로그램은 매우 직관적이며, 순서는 NBRF / PIR, FASTA, EMBL / 스위스 보호 해주는, CLUSTAL, GCC / MSF, GCG9 RSF 및 GDE 형식으로 시퀀스를 포함하는 텍스트 파일을로드 할 수 있습니다. 시퀀스는 "정렬"메뉴에서 "않는 완전한 정렬"을 클릭하여 정렬됩니다. ClustalX와를 이용하여 정렬 육 단백질 서열의 샘플 배향은도 6에서 볼 수있다. 글꼴 크기 및 색상 등 다양한 매개 변수를 쉽게 수정 및 editi 할 수 있습니다시퀀스의 NG는 "편집"메뉴를 클릭하면됩니다. 수동으로 정제 정렬은 종종 완전히 방법을 자동으로 우수하고,이 때문에, MSA 도구 개발 연구의 매우 활동적인 지역이다. 일반적인 정렬 편집자는 다음 링크에서 찾을 수 있습니다 : - 바람 - 알 http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; 시뷰 - http://pbil.univ-lyon1.fr/software/seaview.html .

아미노산 정렬은 프로그램 ProtTest (13)은 데이터 내의 아미노산 보충의 최적 모델의 선택을 결정하는 데 사용된다. ProtTest 가장 작은 아카 이케 정보 기준 (AIC), 베이지안 인포와 후보 모델 목록에서 모델을 찾아이 선택한다기의 기준 (BIC) 점수, 또는 의사 결정 이론 기준 (DT). ProtTest (버전 3.2)의 최신 버전은 120 가지 모델 결과 15 종류의 속도 행렬을 포함한다. 사용자는 ProtTest를 실행하는 자신의 시스템에 자바 런타임이 있어야합니다. 자바 런타임은 여기에서 자유롭게 사용할 수 있습니다 - http://www.java.com/en/download/chrome.jsp . 시퀀스는 PHYLIP 또는 NEXUS 형식으로 입력된다. 시퀀스 형식 사이의 변환에서 사용할 수있는 "Readseq"웹 프로그램을 사용하려면 - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi을 . "파일 선택"을 클릭하고 시퀀스 데이터를로드 할 수 있습니다. 그런 다음 "시작"을 클릭하고 프로그램이 시작됩니다. 일부 모델의 수를 수정하려면, "모델"버튼을 클릭 할 수 있습니다. 프로그램이 시작되면이 하단에 진행률 표시 줄을 표시하고 그들이 분석되는 등의 모델을 보여줍니다 (그림 8 https://code.google.com/p/prottest3/wiki/Background . 단지 그것만 시퀀스의 한정을 처리 할 수​​있는 점을 제외하고 다운 버전처럼 작용 ProtTest위한 온라인 웹 인터페이스가있다. -이 웹 인터페이스 여기를 클릭하여 액세스 할 수 있습니다 http://darwin.uvigo.es/software/prottest2_server.html . 염기 데이터 세트를위한 프로그램 jModelTest (15)는 AIC, BIC, 계층 적 및 역학적 가능성 배급 위의 테스트도 설명 DT 조건을 구현하여 염기 치환의 최적 모델의 통계적인 선택을 검사하는 데 사용됩니다S (hLRT 및 dLRT). jModelTest가 입력의 경우는 Mac OS X에 최적화되어, 다양한 형식이 허용됩니다. 명확한 단계별 가이드는 여기에 개발자들이 사용할 수 있습니다 - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML은 뉴클레오티드 또는 아미노산 서열의 정렬에서 최대 우도 계통 발생을 추정하는 프로그램입니다. PhyML 트리 토폴로지 공간 (그림 10)을 검색 할 수있는 다양한 옵션에 결합 대체 모델의 큰 숫자를 포함합니다. 이 프로그램은 두 개의 텍스트 파일에 결과를 저장합니다. 첫 번째 파일은 쉽게 트리 뷰어 (프로토콜 6 참조)을 사용하여 볼 수 Newick의 형식 ML 트리를 포함하고, 다른 파일은 통계를 포함한다 (파일 이름, 모델, 로그 가능 점수 등.) 분석 . 모든 매개 변수는 매우 쉽게 메뉴 항목에 따라 설정된다. 각 메뉴의 영업 이익의 더 자세한 설명- 기는 PhyML 다운로드 페이지에서 사용할 수있는 PhyML 설명서에 설명되어 있습니다 https://code.google.com/p/phyml/downloads/list . MrBayes 5 계통 발생 학적 관계를 재구성하는 진화 모델의 숫자에 걸쳐 베이지안 MCMC 유추를 활용하는 프로그램입니다. 이 프로그램은 모든 플랫폼에서 동일하게 동작하며 한 번 설치 프로그램이 실행 파일을 설치합니다 다운로드. 프로그램을 시작하려면 실행을 클릭합니다. - 설정할 수 있으며 각 모델과 그 명령의 자세한 내용은 여기에서 찾을 수 있습니다 많은 모델이 있습니다 http://mrbayes.sourceforge.net/wiki/index.php/Tutorial은 . 또 다른 도움말 옵션은 "도움말 LSET"를 입력하는 것입니다 -이 모델의 설정에 대한 세부 사항을 제공 할 것입니다. 예를 들어 "Prset aamodelpr = 혼합"워싱턴에 아미노산 모델을 설정합니다 "prset aamodelpr = 고정 (WAG)"혼합 또는 모델링을 허용합니다 G 모델. 외집단 쉽게 분류군 번호 "외집단 30"을 지정하여 설정할 수 있으며, 프로그램이 자동으로 숫자 시퀀스 / 분류군을 나열합니다. 외집단을 지정하지 않으면 나무는 UNROOTED 될 것입니다. 프로그램이 (그림 11)를 실행하면 진행 "printfreq = X"명령을 사용하여 설정할 수 있습니다 특정 간격으로 볼 수 있습니다. 사용자 설명서에서 찾을 수 있습니다 분석 (얼마나 많은 실행하는 세대 즉.)를 중지하는 경우에 대한 자세한 내용은. 발생적 진화 분기에 clade의 값은 쉽게 트리 뷰어 (프로토콜 6 참조)를 사용하여 볼 수 있습니다 또한 Newick의 형식으로 제공되는 phylogram 함께 결과에 제공된다.

계통 발생 나무가 생성되면, 토폴로지를 시각화 할 필요가있다. 많은 온라인 도구와 트리 토폴로지를 시각화하는 데 사용 다운로드 할 수있는 응용 프로그램이 있습니다. 인기있는 프로그램의 부분 목록은 여기에서 볼 수 있습니다 -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , 그리고보다 포괄적 인 목록은 여기에서 찾을 수 있습니다 - http://www.treedyn.org/overview/editors.html을 . 트 리뷰 14 TreeDyn (16)는 두 개의 인기있는 선택입니다. 모두는 다양한 옵션을 숙지하는 것은 매우 사용자 친화적이고 쉽다. 트 리뷰는 거의 동일한 인터페이스를 사용하여, Mac 및 Windows에서 실행됩니다. 입력 NEXUS, PHYLIP, Hennig86, MEGA 및 CLUSTALW / X 등 여러 가지 형식 중 하나가 될 수 있습니다 트 리뷰 (그림 12)도 사용자가 지점을 이동 reroot 나무, 나무의 모양을 재 배열 할 수있는 트리 편집기가 포함되어 있습니다.

그림 1
그림 1. > NCBI의 BLAST 웹 페이지. BLAST 웹 서버는 BLAST 프로그램의 제품군을 포함하고 생명 공학 정보를위한 국립 센터 (NCBI)에 의해 호스팅됩니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 2
그림 2. FASTA 형식의 순서. FASTA 포맷은 ">"로 나타낸 설명 라인으로 시작한다. 설명은 ">"기호 순서 (예. 뉴클레오티드 또는 아미노산) 다음 줄에 대한 설명을 수행 한 후 바로 다음에해야합니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

NT "FO : 유지 - together.within 페이지 ="항상 "> 그림 3
BLAST 검색에서 그림 3. HTML 출력. BLAST 검색의 출력 쿼리 시퀀스 내 정체성의 영역을 설명하고, 또한 비트 점수를 제공, 가치와 각각 일치하는 쌍으로 정렬을 기대합니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 4
그림 4. 지역 BLAST 실행 파일 검색에서 샘플 출력. 이 검색 결과의 출력은, 방금 온라인 BLAST 인터페이스에서의 출력과 같은 텍스트 파일인지 기대 값과 비트 점수뿐만 아니라 일치하는 설명을 포함하는 것은. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 5
T-커피를 사용하여 MSA의 그림 5. 출력. 출력은 유사 사이트 및 무게 색상으로 경기를 강조한다. 간격은 다음과 같이 삽입 "-"표시하고, 잔류 물 또는 염기 위치는 각 분류군에 대한 보존이. 더 큰 이미지를 보려면 여기를 클릭하십시오.

ig6.jpg "/>
그림 6. ClustalX와를 사용하여 샘플 정렬. 비슷한 경기는 색으로 구분하고 공백은으로 삽입됩니다 "-"기호. 메뉴 표시 줄은 왼쪽에서 볼 수있다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 7
그림 7. ProtTest 프로그램 인터페이스. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 8
인터넷gure 8. ProtTest 콘솔. ProtTest 콘솔 분석을 실행하는 동안. 진행률 표시 줄이 완료되었습니다 얼마나 많은 모델을 표시하고, 메인 윈도우는 각 모델에 대한 로그 우도 점수를 표시합니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 9
그림 9. PhyML 인터페이스. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 10
그림 10. PhyML 인터페이스 메뉴. 서열 PhyML에로드되면 첫 번째 메뉴가 나타납니다 대괄호에서 문자 나 기호를 입력하여 탐색 할 수 있습니다. 하위 메뉴는 "+"기호를 입력하여 도달 할 수 있습니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

그림 11
그림 11. MrBayes 인터페이스. MrBayes가 진행을 시작하면 특정 간격으로 볼 수는 "printfreq = X"명령을 사용하여 설정합니다. 프로그램이 실행되는 동안 중지 할 수 있지만 세대의 지정된 번호가 계산 된 후 그들은 더 많은 세대를 실행하려는 경우, 사용자는 메시지가 표시됩니다.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "대상 ="_blank "> 큰 이미지를 보려면 여기를 클릭하십시오.

그림 12
그림 12. 트리 뷰 인터페이스는.이 그림에서 트리보기 창 Flybase에서 (http://flybase.org/) 단백질의 샘플 트리를 표시합니다. 파일을 "열기"옵션을 클릭하고 해당 파일 형식 (예 :. Newick의 형식)을 선택하여 가져올 수 있습니다. 더 큰 이미지를 보려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

이 기사에 대한 우리의 희망은 계통 발생에 새로운 연구자 또는 학생들을 안내하는 출발점이 될 것입니다. 게놈 시퀀싱 프로젝트는 지난 몇 년 동안 저렴하게하고 결과적으로이 기술에 대한 사용자의 수요가 증가하고 있으며, 현재 많은 시퀀스 데이터 세트의 생산은 소규모 실험실에서 일반적이다. 이 데이터 세트는 종종 자신의 기능을 이해하기 시작하는 계통 발생 학적 프레임 워크를 필요로하는 유전자의 세트와 연구자를 제공합니다. 계통 발생학 연구 실험실의 적 증가에 가정을 발견하기 때문에 또한, 우리는 또한 생물학 연구에 크게 관심이있는 학생들을위한 교육 장치 역할을하는이 기사의 의도. '왜', '어떻게', 그리고 일반적으로 사용되는 트리 구축 도구, 우리는 이러한 응용 프로그램에 익숙해하기 시작하는 독자를위한 프레임 워크를 제공한다 "위치"와 작동 방법에 대한 사용자 정보를 제공함으로써. However, 우리는 다양한 매개 변수가 자신의 시퀀스 데이터에 영향을 미칠 수있는 방법을 이해하기 위해 각 도구 내의 모든 설정과 함께 놀러하고, 각각의 경우 플랫폼과 소프트웨어 간의 호환성을 보장하기 위해 독자를 조언한다. 위에서 설명한 분석은 인텔 코어 i7 프로세서를 탑재 한 델 옵티 990 및 인텔 코어 2 듀오 프로세서가 장착 된 맥북 노트북을 사용하여 계산 된, 그러나, 분석의 속도 또한 특정 이진 파일 (예 :. 32 비트 또는 64 비트) 따라 달라집니다 사용자의 플랫폼에.

계통 발생에 대한이 같은 사용자 가이드를 컴파일 문제는, 계통 발생학 분야 및 전체 생물 정보학, 더 나은 정렬, 유사성 예측, 또는 계통 발생을 제공하기위한 지속적으로 새로운 소프트웨어를 출시 연구의 급속하게 확장 영역이라는 것입니다 . 이 문제를 완화하기 위해, 우리는 수년 동안 주변 및 O 계정에 여전히 인기가 한 프로그램에 초점을했습니다F 얼마나 잘 작동합니다. 즉, 우리는이 문서에서 설명 등이 이용하고 자신의 분석에 여러 응용 프로그램을 통합하는 독자를 격려 한 문제를 해결하기 위해 제공되는 다양한 툴이 있다는 것을 지적하고자했다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

우리는 공개 아무것도 없어.

Acknowledgments

우리는 원고에 대한 의견에 대한 오할로 랜 실험실의 구성원을 감사드립니다. 우리는 D. 오할로 랜에 자금 조달을위한 생명 과학의 조지 워싱턴 대학학과 및 예술과 과학의 콜롬비아 대학을 감사합니다.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics