Summary
이 프로토콜의 목표는 명명법과 분류에 대 한 일관 된 기준 부족 그룹에서 분기 단백질에 대 한 참조를 개발 하는 것입니다. 이 기준 분석과 전체적으로 그룹의 토론을 촉진 하며 설립된 이름을 사용할 수 있습니다.
Abstract
다양 한 유기 체를 사용 하 여 다른 실험실에서 연구 관련된 단백질 전체 그룹을 논의 하 고 적절 한 문맥에 새 시퀀스를 어렵게 명명법과 분류의 획 일 한 체계를 부족 수 있습니다. 구조에 관련 된 중요 한 시퀀스 기능을 우선 참조를 개발 하거나 활동 설립된 이름 단백질의 다양 한 그룹에 몇 가지 일관성을 추가 하려면 사용할 수 있습니다. 이 문서를 사용 하 여 알파-헬릭스 (CS αβ) 시스테인 안정 superfamily 예제로 보여 어떻게 스프레드 시트 소프트웨어에서 생성 된 참조 superfamily, 기존 단백질 사이의 관계를 명확 하 게 뿐만 아니라 수의 추가 용이 하 게 새로운 시퀀스입니다. 그것은 또한 참조 계통 발생 분석의 유효성에 영향을 일반적으로 사용 되는 소프트웨어에서 생성 하는 시퀀스 정렬 수정 하는 데 도움이 수 어떻게 보여 줍니다. 대 한 참조를 사용 하 여 가장 광범위 한 기능을 적절 하 게 캡처되지 않는 분자 분석에 의해 taxa에서에서 높은 분기 시퀀스를 포함 하는 단백질 그룹에 대 한 도움이 됩니다.
Introduction
단백질의 이름 특성 및 다른 단백질에 관계는 반영 해야 한다. 불행 하 게도, 이름을 발견의 때에 일반적으로 할당 하 고, 연구를 계속, 더 큰 맥락의 이해 변경 될 수 있습니다. 이 여러 이름 단백질은 독립적으로 이상의 실험실, 변화 명칭 또는 특성 이름을 할당할 때 확실 한 것으로 생각 하 고 더 이상 충분히 단백질을 차별화 하는 이름으로 식별 된 경우 발생할 수 없습니다. 다른 사람.
무척 추 동물 defensins 명명법과 분류에 변성의 좋은 예를 제공합니다. 첫 번째 무척 추 동물 defensins 곤충에서 보고 되었다 그리고는 이름 "곤충 defensin" 포유류 defensins1,2에 인식된 상 동에 따라 제안 했다. 아직도 사용 되는 용어 defensin, 비록 그것은 이제 분명 그 무척 추 동물 및 포유류 defensins 공통 조상3,4를 공유 하지 않습니다. 수 종에 따라 "defensin"는 무척추동물 6 또는 8 개의 시스테인 (3 개 또는 4 개의 이황화 결합을 형성) 하 고 항균 성 활동의 다양 한 있을 수 있습니다. 하 꼬마 remanei5에서 최근 확인 된 cremycins 같은 상황, 같은 특성을 가진 단백질 이라고 defensins 하지 항상 "defensins," 복잡 했다. 또한, 무척 추 동물 큰 defensins 진화론 척추 β-defensins 보다 다른 무척 추 동물 defensins6에 관련 된 더 높습니다. 그럼에도 불구 하 고, 연구자는 때때로 이름 "defensin" 분석에 포함 되어야 하는 순서를 결정할 때에 의존 합니다.
구조 연구 곤충 defensins와 전갈 독 소7, 사이의 유사성 그리고 CS-αβ 배 이후 곤충 defensins8의 구조적 특성을 정의로 설립 되었다. 이 배는 구조 분류의 단백질 (SCOP) 데이터베이스9, 현재 다섯 가족을 포함 전갈 독 소 같은 (CS αβ) superfamily 정의: 곤충 defensins, 짧은 체인 전갈 독, 긴 체인 전갈 독 소, MGD-1 (연체 동물), 그리고 식물 defensins. 이 superfamily 최근 설명된 cis defensins4 와 Superfamily 3.30.30.10 선배/유전자 3D 데이터베이스10,11에 동의어 이다. 무척 추 동물 taxa, 식물 및 균 류 쇼는이 배를 포함 하는 단백질의 이름을 명확 하 게 관련이 없는 시스테인 번호 또는 결합 패턴, 항균 성 활동, 또는 진화 역사12의 다양 한에서 연구.
일관성 및 명확한 기준의 부족 이름을 지정 하 고 새로 식별 된 시퀀스가이 superfamily 분류에 도전 할. 단백질이이 superfamily에 비교 하는 주요 장애물은 시스테인 각 개별 시퀀스 (각 시퀀스의 첫 번째 시스테인은 C1), 구조 역할에 대 한 계정 수 없습니다와 관련 하 여 매겨집니다. 즉, 시스테인의 동일한 수만 시퀀스를 비교할 수 있습니다. 정렬 및 계통 발생 분석을 어렵게 만드는 CS-αβ 배를 형성 하는 시스테인 이외의 작은 순서 보존이입니다. 구조 기능을 우선순위 번호 매기기 시스템을 개발 하 여 superfamily 시퀀스 수 있습니다 더 쉽게 비교 되며 정렬. 보존된 기능으로 정의 하는 하위 그룹은 신속 하 게 구상 될 수 있다 그리고 새로운 시퀀스 보다 쉽게 적절 한 상황에 놓일 수 있다.
이 문서 번호 시스템 CS-αβ superfamily에 대 한 참조를 생성 하는 스프레드시트 소프트웨어 (예: Excel)을 사용 합니다. 그것은 방법을 보여 줍니다이 시퀀스 간의 비교를 명확히 식별 tardigrades에서 새로운 CS-αβ 시퀀스에 적용 됩니다. CS-αβ superfamily를 사용 하 여 예를 들어, 프로토콜 작성 되었습니다 관심;의 시퀀스를 사용 하 여 지침을 제공 그러나, 그것은 아닙니다이 superfamily 또는 시스테인-부자 시퀀스에 특정. 이 방법은 다른 taxa에서 독립적으로 연구 되어 있다 작은 전반적인 순서 상 동, 분자 분석 소프트웨어에 의해 쉽게 인식 될 수 있습니다 개별 특성을 있는 단백질의 그룹에 대 한 가장 유용 하 게 됩니다. 이 방법은 중요 한 기능이 없는 확인 하는 경우 제한 된 유틸리티의 것 중요 한 기능에 관한 몇 가지 선험적으로 결정을 필요 합니다. 기본 목표는 순서 관계의 간단한 시각화를 얻을 수 있는 방법을 보여주는 것입니다. 이 시퀀스 정렬 분석, 정보를 사용할 수 있습니다 하지만 정렬 및 분석 기본 목표는, 만약 바코드 메서드 자동화13에 대 한 더 많은 용량을가지고 적당 한 대체 될 것 이라고. 현재 메서드는 3 차원 구조의 직접 시각화에 대 한 도움이 되지 않을 것 이다 그래서 선형 형태로 각 펩 티 드의 기능을 표시 합니다.
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 관심의 단백질 그룹의 정의 기능 결정
- 상담 그룹의 일부로 간주 하는 데 필요한 기능에 관한 합의 인지 확인 하려면 이전 간행물. 불일치 사항이 나 연구 그룹 간의 의견 차이 숙지 하 고 다른 한 하위 그룹을 차별화 하 역할 수 있는 특성을 포함.
- 이전 문학 특성 정의 해결 하지 않습니다 경우 사용 보존된 기능을 식별 하는 출발점으로 그룹의 대표자 이라고 여겨진다 시퀀스.
2. 수집 관련 시퀀스
- 리뷰 작성 되었습니다 하는 경우는 대표 하는 그룹 시퀀스의 분석을 포함, 원시 데이터 집합에서이 시퀀스를 포함. 가입 번호는 문학에서 참조를 사용 하 여 시퀀스를 검색 하 고 편집 프로그램 표준 순서로 저장 (예: EditSeq Lasergene 제품군 이나 많은 수 중에서 무료 온라인).
- 문제의 그룹 구조 데이터베이스 중 하나에 정의 된 경우 데이터베이스 목록 승인 번호는 데이터베이스에 제공 된를 사용 하 여 검색 시퀀스 그룹의 일부분인으로 시퀀스를 포함 하 고 표준 시퀀스 편집에서 저장 위의 프로그램.
참고: 예를 들어 시퀀스 SCOP 데이터베이스에 CS-αβ (전갈 독 소 같은) superfamily 분류 찾을 수 있습니다 여기: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html. - 수행 기본 로컬 맞춤 검색 도구 (폭발) 14 검색 공개, 온라인 데이터베이스 국립 센터에 대 한 생물 공학 정보 (NCBI) 찾을 수 없습니다 포함 된 문학에서 시퀀스를 통해 사용할 수 또는 구조 데이터베이스입니다. 에 대 한 가장 완료 결과, 단백질 폭발 (blastp)를 사용 하 여 번역 폭발 단백질 쿼리 (tblastn) 프로그램; 이들은 둘 다에서 유효 하다: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
- 쿼리 시퀀스로 관심 그룹의 일부가 될 것으로 알려져 사용 시퀀스
- . 복사 및 순서는 상단에 검색 상자에 붙여 넣습니다 또는 사용 가능한 경우 은행 승인 번호 또는 gi 식별자를, 제공.
- 는 드롭다운 메뉴에서 데이터베이스를 선택합니다. Blastp에 대 한 비중복 단백질 시퀀스 (nr)을 선택 하 고 tblastn에 대 한 시퀀스 태그를 표현.
- 유기 체 또는 taxon 이름 입력 하 고 목록에서 선택 하 여 설정 하는 유기 체에 특정 taxa에 결과 대 한 검색에 입력 하는 동안 나타납니다. 추가 유기 체 또는 제외 하는 taxa를 추가 하려면 클릭 합니다 있는 " + " 단추 및 다른 필드에 표시 됩니다. 유기 체 또는 taxon 이름, 입력, 그리고 확인 하는 동안 표시 되는 목록에서 선택을 입력 하 여 유기 체 상자에서 모든 원치 않는 taxa를 제외는 " 제외 " 오른쪽 상자에.
- 클릭 하 여 추가 매개 변수를 액세스 " 알고리즘 매개 변수 "는 페이지의 하단 근처. 기본 매개 변수 변경에 대 한 근거는 두고.
- 클릭은 " 폭발 " 분석 실행 버튼, 결과 표시를 위한 시간이 좀 걸릴 수 있습니다. 일반적으로, 안타는 기대 가치 (또는 e-값)의 검색 "-05 " 또는 더 나은 및 편집 프로그램 표준 시퀀스에 저장.
- 모든 안타가이 임계값 위에 있다면, 모든 관련 시퀀스를 (알고리즘 매개 변수 섹션)에서 대상 시퀀스의 수를 증가 함께 검색을 다시 실행.
3. 중요 한 기능을 발견 했다를 기반으로 하는 스프레드시트에 대 한 참조를 생성
- 식별 관심 그룹의 특성을 정의. 예를 들어 A Phormia terraenovae ( 그림 1) 8에서 defensin 곤충의 솔루션 구조에 의해 결정적으로 설립 CS-αβ 배를 사용 하 여.
- 시스테인 안정 나선형 (CSH) 17 라는 작은 주제를 포함 하는이 배;이 모티브 CXXXC (여기서 X는 어떤 아미노산)에 의해 식별 두 개의 이황화 결합을 형성 하는 CXC의 업스트림 ( 그림 1 , 고체 라인 핑크).
참고: CS αβ 모티브를 완료 하려면 3 이황화 결합 형성 된다 추가 시스테인 CSH 모티브 ( 그림 1, 핑크 라인을 점선)의 각 반 앞에서.
- 시스테인 안정 나선형 (CSH) 17 라는 작은 주제를 포함 하는이 배;이 모티브 CXXXC (여기서 X는 어떤 아미노산)에 의해 식별 두 개의 이황화 결합을 형성 하는 CXC의 업스트림 ( 그림 1 , 고체 라인 핑크).
- 입력 스프레드시트에 기능을 정의 하십시오. 그림 2를 참조 하십시오.
- 보존된 기능에 대 한 이러한 기능 사이의 공간을 나타내는 데 사용 열
- . 숫자에 맞게를 갖도록 그들은 일관 된 폭을 충분히 넓게 열 유지. 사용 하 여 너비 설정에 " 형식 | 열 너비 " 기능 ( 그림 2, 분홍색 화살표).
- 시퀀스 이름에 대 한 행을 사용 하 여.
- 시퀀스 기능이 때 상자 채우기 함수 ( 그림 2, 핑크 스퀘어)를 사용 하 여 입력 합니다. 기능 사이의 간격에 대 한 사이 상자에 아미노산의 수를 입력 하 고 두고 칠하지. 예를 들어 시퀀스 defensin 곤충을 사용 하 여 정의 된 간격 그리고 c 5와 C6 C2 및 c 3 사이 6 시스테인 포함 된 참조를 제공.
참고: 예를 들어 이전 문학과 SCOP 데이터베이스 식별 포함에 대 한 여러 그룹: 곤충 defensins, 짧은 체인 전갈 독, 긴 체인 전갈 독 소, 초파리에서 drosomycins, 선 충 류 ABFs, 식물 defensins, MGD-1 및 macins입니다. 문학 또한 4 시스테인이 superfamily 18의 상위를 나타내는 수 있는 세균성 시퀀스를 식별 합니다. 이러한 시퀀스 추가 시스테인 10 6에서 참조의 수를 증가 하지만 중요 한 구조적 기능 ( 그림 3)의 맞춤을 유지 합니다.
- 시퀀스 (예를 들어 추가 시스테인)의 하위 그룹을 정의할 수 있는 기능을 추가 하려면 사용 된 " 삽입 " 기능 ( 그림 3, 분홍색 화살표).
- 경우 주어진된 순서에서 누락 칠하지 상자 기능과 개입 아미노산을 나타내는 상자와 결합. 필요한 경우 병합 병합 및 센터 기능 ( 그림 3, 핑크 상자)를 사용 하 여 셀.
- 주요 기능 사이의 아미노산의 수는 변화 한다 때 6-12 (6 ~ 12 아미노산), 그리고 중 하나를 나타내는 데 슬래시 같은 범위를 표시 하는 하이픈을 사용 / 또는, 7/10 (7 또는 10 아미노산) 등.
- 참조에 포함할 관련 될 수 있지만 자주 발생 하지 않습니다 있는 시퀀스의 기능에 주석을 추가 하는 방법을 선택 합니다. 예를 들어 시스테인이이 superfamily에 중요 한 이기 때문에, 레이블 추가 시스테인 ( 그림 4, 핑크 상자).
4. 아미노산 정렬 수정에 대 한 참조를 사용 하 여
참고: 여러 시퀀스 정렬에 사용할 수 있는 많은 프로그램이 있다 하지만이 데모 분자 진화 유전학 분석 (MEGA6)를 사용 합니다 19 그것은 무료로 다운로드 할 수 있기 때문에.
- 다운로드 하 고 소프트웨어를 설치 합니다.
- 선택 하 여 메가에서 새로운 맞춤 시작 " 편집/빌드 맞춤 " 맞춤 탭 선택에서 " 새로운 맞춤 만들 " 나타나고 클릭 상자에서 " 확인. " 다음 선택 " 단백질. "
- 선택 " 파일에서 삽입 순서 "에 " 편집 " 시퀀스를 가져올 메뉴.
참고: 시퀀스 메가로 가져오기 위한 FASTA 형태로 될 해야 합니다. 다른 아미노산 종류를 반영 하는 배경 색상은 기본적으로 사용 되지만이 옵션에서 해제할 수 있습니다는 " 표시 " 메뉴. - 중 유연 팔 아이콘을 클릭 하 여 모든 시퀀스를 입력 한 다음 " 정렬 단백질 " 근육 알고리즘 20를 사용 하 여 시퀀스를 정렬 하.
참고: ClustalW 사용할 수 이기도합니다.- 아무것도를 선택한 아빠 되었습니다 하 고 모두를 선택 하 라는 메시지가 클릭 " 확인. "
- 참고: 창이 열립니다 하는 몇 가지 매개 변수를 변경할 수 있도록 하지만 그들은 변경만 해야 그렇게 할 이유가. 이 분석은 이전 종이 12에 분석 하는 시퀀스의 하위 집합을 사용.
- 체크 맞춤 중요 한 기능에 따라, 시퀀스 위의 메뉴 표시줄 아미노산은 완전히 하는 모든 열 표시 됩니다 참고 보존 (*). 참조 그림 7. 초기 정렬 표시만 3 4 개의 보존된 시스테인 ( 그림 7, 핑크 상자); 참조 열 아래를 내려다 보면서, AlCRP 순서는 명확 하 게 고르지 ( 그림 7, 분홍색 화살표).
- I 사이 큰 격차의 제거를 대시 고 보도 강조 보존 c는 " 삭제 " 키. 어떤 아미노산을 강조 하지 마십시오 또는 또한 삭제 됩니다.
- 이동 오른쪽 아미노산, 강조 하 고는 스페이스바를 눌러
- 메모는 AlCRP 이제 정렬 구조 시스테인은 CXXXC 모티브의 마지막 C 맞춤 ( 그림 8)에 걸쳐 보존은
- . 시퀀스의 가장 중요 한 기능을 우선 순위를 필요에 따라 맞춤 조정.
5. 그룹 식별 사용 하 여 계통 발생 분석에서 결과 함께 참조 비교
- 예비 정렬에서 어떤 시퀀스, 시퀀스의 작은 숫자에 대 한 계통 발생 분석에 포함 되어야 하는 것을 확인,이 단계 수 있습니다 필요한 수.
- 모든 시퀀스를 포함 하는 맞춤 파일 유지 하지만 계통 발생 분석에 대 한 시퀀스를 중복 제거 (중복 시퀀스 그림 9, 분홍색 상자 표시 쌍).
- 데이터 집합 시퀀스의 많은 수를 포함 하는 경우 예비 분석을 실행 하 고 그룹 선택 대표는 항상 한 clade를 형성.
- 최고의 아미노산 대체 모델 결정.
- 메가 형식 (아래 데이터 탭) 맞춤 수출.
- 모델 메뉴에가 고 선택 " 찾을 최고의 DNA/단백질 모델. ";에 그냥 저장 하는 파일을 선택 하 고 열이 변경할 수 있는 몇 가지 매개 변수가 있는 창이 열립니다.
- 그들을 변경 하는 이유가 없다면 기본 매개 변수를 사용 합니다. 클릭 " 계산 " 분석 시작.
- 최대 가능성 (ML) 분석을 실행 하는 메가에.
- 선택 " 구문/테스트 최대 가능성 트리 " 계통 메뉴에서.
- 모델 결정 단계 5.2에서에서 데이터에 대 한 최적 선택 (대체 모델 뿐만 아니라 최고 출력 줄 것 이다 " 사이트 중 " 매개 변수).
- 선택 1000 부트스트랩 트리에 대 한 지원의 측정을 얻기 위해 복제.
- 클릭 " 계산 " 분석;을 실행 하려면 메가 한 " 트리 탐색기 " 트리 시각화 하.
- 베이지안 분석을 실행 하는 MrBayes 오픈 소스 소프트웨어 21.
참고: MrBayes 설명서는 또한 사용할 수 있는이 사이트에서. 이 기본 단계를 제공 하기 위한 것입니다 그리고 베이지안 계통 발생 분석에 포괄적인 가이드를 하지 않습니다.- PAUP (넥서스) 형태로 메가 맞춤 MrBayes 프로그램으로 같은 폴더에 수출.
- 오픈 MrBayes 유형과 " exe 파일 이름 " (예를 들어, " exe Alignment.nex ").
- 모델 및 분석 매개 변수를 지정합니다. 단계 5.2에서에서 지정한 어느 모델을 선택 하거나 선택 하는 " 혼합 " 다양 한 모델을 시도 하 고 최고의 후부 및 확률 나무에 모델의 주파수를 보고 설정 (prset aamodelpr = 혼합). 유형 " showmodel " 모델의 현재 설정을 보고 하 고 " mcmc 도움이 " 각각의 간략 한 설명과 함께 현재 매개 변수 설정을 보여.
- 설정 사용 하 여 세대의 수는 " mcmcp ngen = " 명령 (1 백만 전형적인).
- 유형 " mcmc " 분석 시작.
- 세대 수가 완료 되 면, 프로그램이 더 많은 세대를 추가 하려면 묻습니다. 분할 주파수의 평균 표준 편차를 사용 하 여 0.1 보다 작으면, 아니요를 입력 합니다. 경우 0.1 이상, 분석 계속가 수 또는 (설명서 참조) 몇 가지 매개 변수를 변경 해야 합니다.
- 사용은 " sumt " 트리 파일을 생성 하는 명령을.
- 분석이 완료 되 고 합의 트리 생성, 후 나무 기관에서 볼 수 있습니다 (사용 가능한 온라인).
- 메서드 생성 일관 된 결과 보러 나무 비교.
참고: 일부 시퀀스 정보를 많이 제공 하지 않습니다: 나무 잘 해결 되지 않을 수 있습니다 및 지점 최소 지원 ( 그림 10)를 할 수 있습니다. - 나무 계통 발생 분석 지원이 그룹을 참조 하는 참조를 사용 하 여 식별 하는 그룹을 비교.
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
문학에서 보고 된 CS-αβ superfamily 시퀀스의 그룹은 그림 4에 나와 있습니다. 시스테인 쌍 각 시퀀스에 대 한 번호 매기기에 따라 다섯 가지 기본 그룹을 (표 1가운데 열) 것이 좋습니다. 그룹 1은 3 개의 이황화에서 채권 및 곤충, 거미, 연체 동물, 선 충, 그리고 곰 팡이에서 시퀀스를 포함 하는 6 개의 시스테인. 그룹 2, 3, 및 4는 4 개의 이황화 결합을 형성 하는 8 시스테인. 2 조 포함 곤충, 거미 류의 동물, 그리고 식물 시퀀스; 그룹 3는 거미 류의 동물, 연체 동물, 및 선 충 시퀀스; 그룹 4 cnidarians, annelids, 연체 동물, 균 류에서 시퀀스를 포함 한다. 5 조 10 시스테인 macins 포함 되어 있습니다. 일부 시퀀스 꽤 이러한 패턴을 적합 하지 않았다 하지만 일반적으로 한 그룹에 다른 사람 보다 더 가까이 했다.
그룹 1 및 2 두 채권을 공유 하는 것: C5 C2 및 c 3-c 6; 그러나, 각 시퀀스의 첫 번째 시스테인의 번호 매기기 시작 채권 구조 컨텍스트는 인정 하지 않습니다. C2-C5 그룹 1에서 그룹 2 시퀀스에서 c 2-c 5는 CS-αβ 배를 안정화 하는 데 필요한 마지막 유대를 형성 하는 동안 한 두 CSH 모티브에 채권 양식 시퀀스. 동종 채권에는 그룹 1 c 2-c 5를 번호 매기기에서 명확 하지 않다 Group2 c 3-c 6입니다. 그것은 또한 명확 하지 않다 그룹 3, c 2-c 6 본드 같은 구조적 역할을 한다.
문학에서 시퀀스를 사용 하 여 총 10 개의 시스테인 참조 생성. CSH 모티브 채권 C3-C8 및 c 4-c, c 2-c 6 CS-αβ 배 완료 9에서 형성 된다. 각 시퀀스 (표 1, 오른쪽 열)에 채권을 명확히 시스테인 쌍 참조 번호에 따라 번호 다시 매기기. 그것은 지금 모든 시퀀스 C6 C2, C3-C8, 및 C4-C9, 반영 하는 정의 superfamily 구조 배는 분명. 대 한 참조를 사용 하 여 모호한 분류 기준, 쉽게 비교한 일관성 명명법을 시퀀스 수 있습니다. 그것은 또한 시퀀스의 하위 그룹을 정의 하는 기능을 도울 수 있다. 예를 들어 C1-C7 본드 "defensins" (표 1 과 그림 4) 대신이 본드와 시퀀스 "macins"로 분류 하는 적절 한 만드는 다른 superfamily 멤버 macins를 차별화 수 있습니다.
공공 온라인 데이터베이스 검색 공개 Hypsibius dujardini 에서 각 8 CS-αβ는 tardigrades에서 16 시퀀스의 배, 및 Milnesium tardigradum. 새로운 시퀀스의 4 개는 6 개의 시스테인, 9 8, 9, 사람은 있고 2 10을. 이 아주 작은 정보를 제공 하지만 참조 시퀀스를 정렬 하 여 명확 하 게 된다는 시스테인의 동일한 수를 가진 tardigrade 시퀀스 항상 없는 구조적으로 중요 한 시스테인 ( 시퀀스 내에서 같은 장소에서 그림 5 및 그림 6). 참고로 정렬 패턴 (표 2, 유추 결합 패턴 괄호에 표시)을 결합의 유추에 대 한 또한 수 있습니다. Tardigrade 시퀀스의 일부는 명확 하 게 패턴 1-4를 맞는. 다른 제안 된 세균성 조상, 전갈 Cl-독 소, 또는 곰 팡이 defensin 같은 펩 티 드의 가족에 게 가장 비슷합니다. 패턴 2 전갈 Cl-독 전갈 Na + 독 소, drosomycin, 및 식물 defensins, 및 다른 표시 한 두 그룹이 있을 수 있습니다. Tardigrade 단백질의 기능을 조사 하는 추가 작업 경우 일부 고려해 야 defensins 보다는 독 소를 결정 하기 위해 필요 합니다.
계통 발생 분석 종종 단백질의 그룹 진화 수 있습니다 어떻게 연구 하는 데 사용 됩니다. CS-αβ superfamily에 시퀀스는 일반적으로 짧고 높은 분기; 결과 나무는 제대로 해결 하 고 약간 통찰력을 제공. ML 및 베이지안 나무 시퀀스 여기 분석의 하위 집합에 대 한 많은 clades (그림 10, 보조 파일 1-4)에 대 한 낮은 지원 제대로 해결 했다. 일반적으로 부트스트랩 레벨 70 이상 (또는 후부 확률 0.7 이상), 표시 하지만 그림 10 유지 지원의 전반적으로 낮은 수준을 보여 모든 숫자. 5 개 그룹 두 나무 중 적어도 하나에 70/0.7 이상 지원 되었다: (a) 6 C와 8 C 전갈 독 소; (b) macins; (c) 진드기와 전갈 defensins; (d) 공장 defensins; 그리고 (e) 6 C defensins 곤충, 거미, 그리고 연체 동물. ML 트리에서 clade e 포함 되어 8 C 독 소는 8 C tardigrade defensin, 그러나 지원 했다 매우 낮은 (그림 10A). 일반적으로 이러한 참조 시스테인 번호 매기기를 사용 하 여 식별 하는 범주를 반영 하지만 또한 보여 큰 분류학 그룹 내에서 다른 시스테인 숫자 시퀀스 시퀀스에서 동일한 패턴으로 보다 더 밀접 하 게 관련 될 수 있습니다. 다른 그룹입니다. 시퀀스의 적은 수만이 연구에 사용 되었다, 그러나 250 시퀀스의 큰 분석 해상도 (보충 파일 5-8)12의 부족을 제거 하지 않았다. 스프레드시트 참조 정렬 계통 발생 나무에 비해 구조적 또는 기능적 관련성와 유사성의 쉽게 시각화를 제공할 수 있습니다.
그림 1: 시퀀스 및 CS-αβ Superfamily의 구조 특징 정의. 아미노산 및 3 차원 구조는 색으로 구분: 루프 (파란색), 알파-헬릭스 (녹색), 베타-시트 (골드), 그리고 이황화 결합 (분홍색). 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 2: 곤충 Defensin의 순서에 따라 예선 6 시스테인 참조. 열 보존된 시스테인 (C1-C6) 나타내고, CSH 모티브에 대 한 수가 보존 아미노산은 시스테인 사이 산. 채워진된 상자는 시퀀스는 주어진된 시스테인 숫자 사이는 시스테인 아미노산을 나타냅니다 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 3: 세련 된 CS-αβ Superfamily의 그룹에서 대표적인 순서에 따라 10-시스테인 참조. 열 보존된 시스테인 아미노산 그들 사이 나타냅니다. 시스테인 CSH 모티브 (C3, C4, C8, 및 C9) 및 CS-αβ 배 (C2 및 c 6) 기여 레이블이 지정 됩니다. 시퀀스는 분류학 그룹에 의해 색상으로 구분: Arachnida (라이트 오렌지), 박테리아 (블랙), Cnidaria (회색), Hexapoda (오렌지), 연체동물 (파랑), Nematoda (보라색), 고 Plantae (녹색). 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 4 : CS αβ Superfamily 시퀀스의 요약 정렬 그룹 특성에 의해 참조. 열 보존된 시스테인 아미노산 그들 사이 나타냅니다. 시스테인 CSH 모티브 (C3, C4, C8, 및 C9) 및 CS-αβ 배 (C2 및 c 6) 기여 레이블이 지정 됩니다. 시퀀스는 분류학 그룹에 의해 색상으로 구분: Annelida (짙은 빨간색), Arachnida (라이트 오렌지), 박테리아 (블랙), Cnidaria (회색), 버섯 (밝은 녹색), Hexapoda (오렌지), 연체동물 (파랑), Nematoda (보라색), 고 Plantae (녹색). 대시에 의해 구분 된 숫자 표시 다양 한 개입 아미노산; 슬래시로 구분 된 숫자 대표 중 / 또는. "C" 참조에 추가 보증을 충분 한 주파수 발생 하지 않는 추가 cysteine를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 5 : 그룹 특성에 의해 참조와 Superfamily 맞춤 Tardigrade CS-αβ 시퀀스의 추가. 열 보존된 시스테인 아미노산 그들 사이 나타냅니다. 시스테인 CSH 모티브 (C3, C4, C8, 및 C9) 및 CS-αβ 배 (C2 및 c 6) 기여 레이블이 지정 됩니다. 시퀀스는 분류학 그룹에 의해 색상으로 구분: Annelida (짙은 빨간색), Arachnida (라이트 오렌지), 박테리아 (블랙), Cnidaria (회색), 버섯 (밝은 녹색), Hexapoda (오렌지), 연체동물 (파랑), Nematoda (보라색), Plantae (녹색), 및 Tardigrada (황색). 대시에 의해 구분 된 숫자 표시 다양 한 개입 아미노산; 슬래시로 구분 된 숫자 대표 중 / 또는. "C" 참조에 추가 보증을 충분 한 주파수 발생 하지 않는 추가 cysteine를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 6: 분류학 그룹 참조와 Superfamily 맞춤 Tardigrade CS-αβ 시퀀스의 추가. 열 보존된 시스테인 아미노산 그들 사이 나타냅니다. 시스테인 CSH 모티브 (C3, C4, C8, 및 C9) 및 CS-αβ 배 (C2 및 c 6) 기여 레이블이 지정 됩니다. 시퀀스는 분류학 그룹에 의해 색상으로 구분: Annelida (짙은 빨간색), Arachnida (라이트 오렌지), 박테리아 (블랙), Cnidaria (회색), 버섯 (밝은 녹색), Hexapoda (오렌지), 연체동물 (파랑), Nematoda (보라색), Plantae (녹색), 및 Tardigrada (황색). 대시에 의해 구분 된 숫자 표시 다양 한 개입 아미노산; 슬래시로 구분 된 숫자 대표 중 / 또는. "C" 참조에 추가 보증을 충분 한 주파수 발생 하지 않는 추가 cysteine를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 7: 고르지 시퀀스를 사용 하 여 자동 맞춤. 모든 시퀀스에 보존 하는 아미노산으로 표시 됩니다 * 첫 번째 시퀀스 (핑크 상자에 명시) 위의 행에. AlCRP은 고르지. 간격 C (분홍색 화살표)를 올바르게 정렬 하려면 제거 해야 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 8: 시퀀스의 구조적으로 중요 한 기능을 유지 하는 맞춤의 수동 수정. AlCRP 이제 올바르게 정렬 됩니다 (분홍색 화살표), CXXXC 모티브는 완전히 시퀀스 (핑크 박스)에 대 한 보존 됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 9 : 중복 시퀀스는 정렬에. 거의 동일한 시퀀스 (핑크 박스)의 쌍 있다면 하나 제거할 수 있기 때문에 이러한 가능성이 항상 클러스터에 함께 하 고 작은 나무의 전체 토폴로지 기여. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
그림 10 : 계통 발생 분석에서 생성 된 나무의 비교. (A) 최대 1000 부트스트랩 메가, 가능성 분석 흔들 + G를 사용 하 여 복제 + 난 모델. (B) 1000000 세대 혼합 모델 설정을 사용 하 여 베이지안 분석. 분홍색 실선; clades 70/0.7에서 지원 되는 표시 됩니다. 분홍색 점선 표시 clades 다른 나무에서 70/0.7에서 지원. (a)는 6 C와 8 C 전갈 독 소; (b) macins; (c) 진드기와 전갈 defensins; (d) 공장 defensins; 그리고 (e) 6 C defensins 곤충, 거미, 그리고 연체 동물. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
표 1: 시스테인 페어링 패턴을 기반으로 그룹 CS-αβ Superfamily 내. 5 기본 패턴 유대 형성의 내부 숫자 (중간 열) 또는 참조 번호 (오른쪽 열)을 사용 하 여 표시 됩니다. 독 전갈 Cl-, ASABF 6Cys-알파, 그리고 버섯 모양 펩 티 드의 그룹 그 m 패턴으로 배치ost는 밀접 하 게 일치합니다. 전/후 참조에 포함 되지 않은 시스테인은 시스테인의 위 첨자 표시 됩니다 (예: C3/4 는 c 3와 C4 사이).
표 2: Tardigrade CS-αβ의 추가 패턴 그룹 시스테인 페어링 시퀀스. 가급적 tardigrade defensins와 macins (굵게) 이전 설립된 그룹에 배치 됩니다. 일부 tardigrade 시퀀스 그룹-특정 패턴을 표시할 수 있습니다. 전/후 참조에 포함 되지 않은 시스테인은 시스테인의 위 첨자 표시 됩니다 (예: C3/4 는 c 3와 C4 사이). 표기법 "2 C/1/1" 참조 c 1의 두 개의 시스테인 상류는 나타냅니다.
보조 파일 1 (S1): 메가에이 데이터 집합의 정렬. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 2 (S2):이 데이터 집합에 대 한 최대 가능성 트리 메가 파일. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 3 (S3): MrBayes에 대 한 넥서스 형식에서이 데이터 집합의 정렬. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 4 (S4):이 데이터 집합의 MrBayes 분석에서 일치 파일. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 5 (S5): 메가에 250 CS-αβ 시퀀스의 정렬. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 6 (S6): 250 CS-αβ 시퀀스의 최대 가능성 트리. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 7 (S7): 250의 넥서스에 CS-αβ 시퀀스 형식 MrBayes. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
보조 파일 8 (S8): 250 CS-αβ 시퀀스의 MrBayes 분석에서 일치 파일. 이 파일을 다운로드 하려면 여기를 클릭 하십시오.
Subscription Required. Please recommend JoVE to your librarian.
Discussion
그룹 내에서 단백질을 명명에 대 한 기준 명확 해야 하지만 이것은 항상 사실이 아니다. CS-αβ 접어 있는 시퀀스는 다양 한 유기 체를 사용 하 여, 명명법의 다른 시스템에 결과 뿐만 아니라 다양 한 수준의 특성화의 많은 실험실에서 연구 되었습니다. 완전히 새로운 명명법을 부과 하려고 무리 하다 고 이전 문학을 컨설팅 할 때 혼란의 큰 거래 귀 착될 것입니다. 번호 시스템 참조는 superfamily 상대적인 특성을 명확히 하는 단백질의 이름 뿐만 아니라 사용할 수 있습니다.
시퀀스의 많은 수를 요약 하 고 중요 한 특성을 시각화 하는 데 유용 될 수 있지만 가능성이 명명 및 분류에 해당 하는 것에 대 한 명확한 기준으로 단백질의 그룹에서 스프레드시트에 대 한 참조를 생성 혜택. 시퀀스 정렬와 로고는 각 사이트에서 보존의 수준을 조사 하는 데 유용 하지만 적극적으로 구조 또는 기능에 대 한 중요 한 시퀀스 기능을 우선시 하지 않습니다. CS-αβ 예제는 구조에 초점을 맞춘 하지만 바인딩 사이트를 구성 하는 특정 아미노산은 또한 정의 기능으로 통합 될 수 있습니다. 시퀀스 기능을 부여 하는 CS-αβ 펩 티 드의 항균/독성 활동 특정 식별 됩니다,이 그룹 활동에 따라 명확히에 대 한 참조를 추가할 수 있습니다. 프로 펩타이드 또는 신호 펩 티 드의 존재는 중요 한 예측된 성숙한 펩이이 예제에서 사용 되었다, 하지만 각 시퀀스에 대 한 정보를 추가할 수 있습니다. Intron 위치 뿐만 아니라 특정 삽입 또는 삭제 이벤트 또한 포함할 수 있습니다 그들은 유익한 것으로 생각 하는 경우. 계통 발생 분석은 분자 데이터-그것에 국한 되지 않습니다 MrBayes를 사용 하 여 장점은 데이터 진화 중요성을 가질 수 있는 다른 특성에 대 한 코딩을 분석할 수 있습니다. 이러한 존재 또는 결 석, 시퀀스를 혼자 보다 더 많은 정보를 제공 하 코딩 될 수 있다.
관련 된 시퀀스를 수집 프로토콜의 중요 한 단계입니다. 연구의 범위 및 그룹 멤버의 분포에 따라이 광범위 한 분류학 그룹에 걸쳐 있을 수 있습니다. 목표 단백질의 그룹 전체를 이해 하는, 그들은 일반적으로에서 보고 된 종 밖에 일부 시퀀스를 찾을 수 있습니다는 것이 좋습니다. 경우는 taxon 이미 잘 표현 하 고 추가 시퀀스는 가능성 또는 중복, 검색에서 제외 될 수 있습니다. 기본-의-엄지손가락 규칙 안타 폭발 검색에 검색에 대 한 e 값에 대 한-05의 컷오프를 사용 하는 것입니다. E-값은 우연히 예상 적중 수입니다. 그러나이 경우에 매우 특정 특성을 공유 하지만 분기 시퀀스 그룹 일부 상황에 적합, 수 덜 신뢰할 수-그것 비슷합니다 시퀀스를 검색할 수 있습니다. 하지만 할가지고 특정 기능 원하는 것이 아니라, 그것은 되지 않을 수 있습니다. 그 주요 특성을가지고 있지만 높은 분기는 시퀀스를 반환 합니다. 이 문제를 해결의 잠재적인 몇 가지 방법이 있다. 첫 번째 포함 기준 충족 경우 볼-05 잘라 아래 검색에서 식별 된 시퀀스에서 보는 것입니다. 둘째, 충분 한 정보가 있는 경우에, 사용 위치 특정 반복 폭발 (PSI-폭발)22 또는 패턴 히트 시작 폭발 (피 폭발)23. PSI 폭발 초기 검색에서 결과 사용 하 여 다음 라운드에 대 한 새로운 모델을 생성 하 여 때로는 초기 검색 식별 되지 않은 그는 분기 시퀀스 수 있습니다. 피 폭발 패턴 쿼리 시퀀스와 함께 제출 해야 합니다. 이 그 관심의 패턴을 포함 검색된 시퀀스를 제한 합니다. 이 도구는 그룹에 독특한 주제는 명확 하 게 확인 될 수 있다 경우에 특히 유용.
정확한 줄 맞춤은 중요 계통 발생 분석; 나무의 해석만 좋은 줄 맞춤을 사용 하 여 생성 하는 경우 사용할 수 있습니다. 맞춤을 참조를 사용 하 여 구조 또는 활동 고려 될 때 분명만 오류가 발생 하지 않도록 도울 수 있다. 시퀀스 중복 프로젝트에 대해 정의 해야 합니다. 그들은 광범위 하 게 분기 taxa에서 또는 거의 동일 계통 발생을 위해 중복 것 두 시퀀스 되지 않을 수 있습니다 순서 하지만 다른 구조적 또는 기능적 속성. 에 관한 시퀀스 포함 되어야 하는 모호함은, 여러 정렬을 생성 하 고 별도로 맞춤 영향 계통 발생 추정을 변경 하는 방법을 보고 분석 수 있습니다. 여기에 제시 된 방법의 정렬, 수동 조정에 대 한 필요성을 제거 하지 않습니다 하지만 시퀀스 정렬 해야 방법과 함께 더 정교한 바코드 기술 설명 하고있다 보다 가능성이 사용할 수 명확 하 게 도울 수 있다 이전13.
유용 하 게 참조에 대 한 그것은 현재 혼자 시퀀스에서 명확 하지 않은 정의 특성을 식별 하는 것이 중요입니다. 예를 들어 비교 시스테인 시스테인 자체에 관하여 각 시퀀스 번호가 매겨집니다 때의 서로 다른 숫자 시퀀스 간의 패턴을 결합 하는 무 능력을 고려 하십시오. 목표 비교 및 토론 하지 혼란의 또 다른 레이어를 추가 하는 것입니다. 이 참조의 여러 반복을 포함할 수 있습니다 고 판단 결정 하는 기능을 포함에서 호출 합니다. 그것은 채택 하는 분기 시퀀스 그룹에서 논의의 일반적인 방법은 전체적으로 그룹의 이해를 늘릴 것 이라고 기대.
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
저자는 공개 상관이 있다.
Acknowledgments
지속적인 tardigrade 항균 성 펩 티 드 연구는 연구의 중서부 대학 사무실 및 후원 프로그램 (ORSP)에서 교내 자금에 의해 지원 됩니다. ORSP 연구 설계, 데이터 수집, 분석, 해석, 또는 원고 준비에 전혀 역할을 했다.
Materials
Name | Company | Catalog Number | Comments |
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |
References
- Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
- Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
- Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
- Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
- Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
- Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
- Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
- Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
- Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
- Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
- Lam, S. D., et al.
Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016). - Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
- Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
- Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
- Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
- Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
- Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
- Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
- Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
- Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
- Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
- Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
- Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).