November 3rd, 2011
I - TASSER 파이프라인을 사용하여 단백질의 구조와 기능 특성화 기반 컴퓨터에 대한 지침이 설명되어 있습니다. 쿼리 단백질 시퀀스에서 시작, 3D 모델은 여러 스레딩 정렬을 사용하여 생성 및 구조 조립 시뮬레이션을 반복하고 있습니다. 기능성 inferences는 이후 알려진 구조와 기능을 가진 단백질 일치를 기반으로 그려져있다.
이 절차의 목적은 아미노산 서열에서 시작하여 단백질 분자의 3차원 구조와 생물학적 기능을 계산적으로 예측하는 것입니다. 이것은 먼저 기계 학습을 통해 단백질의 2차 구조를 예측함으로써 수행됩니다. 그런 다음 시퀀스와 예측된 2차 구조를 PDB 라이브러리에서 해결된 구조와 일치시켜 가능한 최상의 구조 템플릿을 식별합니다.
이 절차를 스레딩이라고 합니다. 스레딩 절차에 따라 IT AER 프로그램은 시퀀스 템플릿 정렬에 따라 템플릿을 조각으로 분할한 다음 세 번째 단계에서 조각을 전체 길이 모델로 재조립합니다. 전체 원자 모델은 수소 결합 네트워크를 최적화하고 스터오버 오버랩을 제거하기 위해 원자 수준의 미세 조정으로 구성됩니다.
절차의 마지막 단계는 예측 구조를 함수 라이브러리에서 알려진 기능의 단백질과 일치시켜 단백질의 생물학적 기능을 식별하는 것입니다. 기존 구조 모델링 방법에 비해 ITER의 주요 장점은 고유한 구조 조각 어셈블리 접근 방식으로, 스레딩 정렬을 기본 상태에 더 가깝게 일관되게 구동할 수 있습니다. 이러한 고품질 구조 모델은 또한 과학계에서 ITER의 사용을 촉진하기 위해 정확한 구조 기반 기능 주석의 기초를 형성합니다.
우리 실험실은 단백질 염기서열을 iter에 제출할 수 있는 웹사이트를 제공했습니다. 이 웹사이트는 전 세계 사용자가 ITER 시뮬레이션을 관리하고 실행하는 컴퓨터 클러스터에 인터페이스를 등록할 수 있는 연결 고리 역할을 합니다. ITER 시뮬레이션 작업은 12개 이상의 작은 하위 시뮬레이션으로 구성됩니다.
이러한 시뮬레이션은 단일 프로세서 코어가 있는 단일 컴퓨터에서 실행할 때 100시간 이상이 걸릴 수 있습니다. Zang lab 컴퓨터 클러스터는 이러한 하위 시뮬레이션을 가져와 수백 대의 컴퓨터에 배포하며 2,000개 이상의 시뮬레이션을 실행할 수 있습니다. 컴퓨터 클러스터와 동시에 우리는 매일 수백 개의 I 테이스터 시뮬레이션을 완료할 수 있습니다.
이 용량에도 불구하고 시스템을 최적화하고 온라인 IT AER 사용자의 대기 시간을 최소화하기 위해 많은 작업을 수행해야 합니다. 구조 및 기능 모델링 실험을 시작하려면 IT AER 웹 페이지에 로그온합니다. 여기에 설명된 모든 관련 웹 페이지의 URL 주소는 작성된 프로토콜에서 찾을 수 있습니다.
아미노산 염기서열을 복사하여 제공된 양식에 붙여넣거나 찾아보기 버튼을 클릭하여 염기서열을 직접 업로드합니다. 작업의 이메일 주소와 이름을 제공합니다. 사용자는 선택적으로 외부를 잔류물 접촉 또는 거리 구속으로 지정할 수 있습니다.
추가 템플릿을 추가하거나 구조 모델링 프로세스 중에 일부 템플릿 단백질을 제외합니다. 시퀀스를 제출하려면 테이저 발사 버튼을 클릭하십시오. IT 테이저 대기열 페이지를 방문하여 제출된 작업의 상태를 확인합니다.
검색 탭을 클릭하고 작업 ID 번호 또는 쿼리 순서를 사용하여 제출된 작업을 검색합니다. 구조 및 기능 모델링이 완료되면 예측된 구조의 이미지와 웹 링크가 포함된 알림 이메일이 제공된 이메일 주소로 전송됩니다. 이 링크를 클릭하여 결과를 보고 다운로드하십시오.
알파 나선의 경우 H, 베타 가닥의 경우 S, 코일의 경우 C로 표시되는 2차 구조 예측을 검사하여 구조 해석을 시작합니다. 또한 각 잔차에 대한 예측의 신뢰도 점수를 고려합니다. 규칙적인 2차 구조 예측의 긴 구조를 가진 영역을 찾아 단백질의 핵심 영역을 추정합니다.
단백질의 구조적 부류는 또한 2차 구조 요소의 분포에 기초하여 분석될 수 있습니다. 예측된 용매 접근성을 확인하여 매몰 및 용매 노출 영역을 확인합니다. 쿼리에서 예측된 용매 접근성의 값 범위는 매몰된 잔류물에 대한 점수 0에서 노출된 잔류물에 대한 점수 9까지입니다.
대부분 매몰된 잔류물을 포함하는 영역은 단백질의 핵심 영역을 설명하는 데 사용할 수 있으며, 용매가 노출된 영역과 친수성 잔류물이 있는 영역은 잠재적인 수화 또는 기능 부위입니다. 쿼리 단백질의 예측된 3차 구조를 보려면 왼쪽에 표시된 대화형 JMO Appt까지 아래로 스크롤합니다. 애플릿을 클릭하여 표시된 구조체의 모양을 변경합니다.
특정 영역을 확대하거나, 예측된 모델에서 특정 잔류물 유형을 선택하거나, 잔류 거리를 계산할 수 있습니다. 구조 모델링의 신뢰도 점수를 분석하여 예측된 구조의 품질을 추정합니다. Csco 값은 일반적으로 음의 5에서 2 사이이며, 점수가 높을수록 더 나은 품질의 모델을 반영합니다.
첫 번째 모델의 추정된 TM 점수 및 RMSD는 모델 1의 추정 정확도로 표시됩니다. csco에 대한 추가 정보 링크를 클릭하십시오. 모든 모델의 csco 클러스터 크기 및 클러스터 밀도를 분석하려면 낮은 mets 스레딩 프로그램으로 식별된 쿼리 단백질의 상위 10개 스레딩 템플릿을 분석합니다.
결과 페이지를 아래로 스크롤하여 정규화된 Z-점수를 보고 스레딩 정렬의 품질을 분석합니다. 1보다 큰 정규화된 csco와의 정렬은 신뢰할 수 있는 정렬을 반영하며 쿼리 단백질과 동일한 폴드를 가질 가능성이 가장 높습니다. threading aligned region과 전체 chain에서 염기서열 동일성을 검사하여 query와 template protein 사이의 상동성을 평가합니다.
High sequence identity는 쿼리와 템플릿 단백질 사이의 진화적 관련성을 나타내는 지표입니다. 쿼리에서 보존된 잔류 물 또는 모티프를 시각적으로 식별하기 위해 색상으로 표시된 threading aligned residue를 보고 템플릿 단백질, 전체 체인 정렬과 비교하여 threading aligned region에서 더 높은 서열 동일성은 쿼리에 보존된 구조 모티프 또는 도메인의 존재를 나타냅니다. 정렬을 검사하여 스레딩 정렬의 커버리지를 평가합니다.
상단 정렬의 적용 범위가 낮고 쿼리 단백질의 작은 영역에만 국한되거나 쿼리 시퀀스의 긴 세그먼트에 대해 부재하는 경우, 이는 쿼리 단백질이 둘 이상의 도메인을 포함한다는 것을 나타냅니다. 이 경우 시퀀스를 분할하고 도메인을 개별적으로 모델링하는 것이 좋습니다. 결과 페이지의 다음 표를 보고 구조 정렬 프로그램인 TM align에 의해 식별된 첫 번째 예측 모델의 상위 10개 구조적 유사체를 확인합니다.
TM 점수가 0.5보다 크면 감지된 아날로그 및 모델이 유사한 토폴로지를 가지며 쿼리 단백질의 구조적 클래스 또는 단백질 패밀리를 결정하는 데 사용할 수 있음을 나타냅니다. TM 점수가 0.3 미만인 것은 무작위 구조 유사성을 나타냅니다. 구조적으로 정렬된 영역에서 시퀀스 항등식 및 RMSD를 분석하여 모델 및 구조적 유사체의 공간 모티프 보존을 평가합니다.
정렬에서 착색되고 정렬된 잔류물 쌍을 육안으로 검사하여 이러한 구조적으로 보존된 잔류물과 모티프를 식별합니다. 예측된 EC 숫자 테이블을 보고 쿼리 단백질의 상위 5개 잠재적 효소 OG를 확인합니다. 이러한 템플릿을 사용한 EC 번호 예측의 신뢰 수준은 벤치마킹 분석을 기반으로 EC 점수로 표시됩니다.
쿼리와 템플릿 단백질 간의 기능적 유사성은 1.1보다 큰 EC 점수를 사용하여 안정적으로 해석할 수 있습니다. 다음으로, 쿼리 단백질과 유사한 폴드를 가진 템플릿들 사이에서 함수의 합의를 찾습니다. 여러 템플릿의 EC 번호가 같고 EC 점수가 1.1보다 크면 예측의 신뢰 수준이 매우 높습니다.
그러나 EC 점수는 높지만 식별된 히트 간에 합의가 부족한 경우 예측의 신뢰성이 떨어지고 사용자는 유전자 온톨로지를 참조할 것을 권장합니다. 용어 예측은 PDB 라이브러리에서 쿼리 단백질의 상위 10개 상동체를 식별하기 위해 예측된 유전자 온톨로지 용어 테이블을 보며, 각 단백질은 일반적으로 분자 기능, 생물학적 과정 및 세포 위치를 설명하는 여러 유전자 온톨로지 용어와 연결됩니다. 각 용어를 클릭하여 amigo 웹 사이트를 방문하고 정의와 계보를 분석하십시오.
기능적 상동성 점수 열을 분석하여 쿼리와 템플릿 단백질 간의 기능적 유사성에 액세스합니다. 이러한 단백질에서 기능적 주석을 전달하는 신뢰 수준도 추정할 수 있습니다. 유전자 온톨로지 용어의 합의 예측 표를 보고 템플릿 간의 기능 동시성을 분석합니다.
이러한 공통 함수는 쿼리 단백질의 유전자 온톨로지 항을 예측하고 지역 항 예측의 신뢰 수준을 평가하는 데 사용됩니다. 마지막으로, 페이지 아래쪽으로 스크롤하여 쿼리 단백질에 대한 상위 10개의 리간드 결합 부위 예측을 확인합니다.예측 결합 부위는 공통 결합 포켓을 공유하는 예측된 리간드 확인의 수를 기반으로 순위가 매겨집니다. 가장 잘 식별된 바인딩 부위가 JM OL appt에 이미 표시되어 있습니다.
라디오 버튼을 클릭하여 다른 예측을 분석하고 리간드 상호 작용 잔기를 시각화합니다. BS 점수는 모델과 템플릿 바인딩 사이트 간의 로컬 유사성을 나타냅니다. BS 점수가 1.1보다 크면 예측된 결합 부위 근처에서 높은 염기서열 및 구조적 유사성을 나타냅니다.
템플릿의 알려진 바인딩 사이트와 비교하여 모델에서 IT는 다른 유용한 기능에 대한 링크를 포함하는 기본 웹 페이지입니다. 포럼 기능을 통해 사용자는 온라인 계정을 만들고 구조 모델링과 관련하여 다른 ITER 사용자에게 도움을 요청하거나 결과를 해석하는 데 도움을 받을 수 있습니다. 다운로드 기능을 통해 사용자는 iter 및 관련 패키지를 다운로드하여 컴퓨터에 설치할 수 있습니다.
이렇게 하면 모델링 실험을 수행하는 데 필요한 시간을 줄일 수 있습니다. 대기열 기능을 사용하면 제출된 모든 작업의 상태를 IT Q 페이지에서 볼 수 있습니다. 또한 사용자는 완료된 작업에 대해 모델링된 구조물의 이미지를 시각적으로 검사할 수 있습니다.
첫 번째 모델의 CSCO 예상 TM 점수 및 예상 RMSD와 여기에 표시된 제출 날짜에도 표시된 이 페이지에는 더 빠른 형식의 쿼리 순서, 예측된 2차 구조, 관련 신뢰도 점수 및 잔류물의 예측된 용매 접근성을 보여주는 IT AER 결과 페이지의 발췌문이 있습니다. 쿼리에서 분석된 코어 영역과 잠재적 수화 부위는 각각 청록색 및 빨간색 사각형으로 강조 표시됩니다. 여기서는 쿼리 단백질에 대한 3차 구조 예측이 표시됩니다.
예측된 모델은 대화형 JML 앱 콘센트에 표시되므로 사용자가 분자의 표시를 변경할 수 있습니다. 모델은 다운로드 링크를 클릭하여 다운로드할 수도 있으며, 모델의 품질을 추정하기 위한 신뢰 점수는 csco로 보고됩니다. Loomis 스레딩 프로그램에 의해 식별된 상위 10개의 스레딩 템플릿과 정렬을 보여주는 itta A 결과 페이지의 예가 제시됩니다.
스레딩 정렬의 품질은 정규화된 Z-점수를 기반으로 평가되며, 여기서 1보다 큰 값은 신뢰도 있는 정렬을 반영합니다. 해당 쿼리 잔류물과 동일한 템플릿의 정렬된 잔류물은 보존된 잔류 물 또는 모티프의 존재를 나타내기 위해 색상으로 강조 표시됩니다. 반대로, 대부분의 상위 템플릿에서 정렬이 부족하다는 것은 쿼리 단백질에 여러 도메인이 존재하고 정렬되지 않은 잔기가 도메인 링커 영역에 해당함을 나타냅니다.
이 표는 TM aligned Structural alignment Program에 의해 식별된 상위 10개의 식별된 구조적 유사체 및 구조적 정렬을 표시합니다. 아날로그의 순위는 구조적 정렬의 TM 점수를 기반으로 합니다. TM 점수가 0.5보다 크면 비교된 두 구조체가 유사한 토폴로지를 갖는다는 것을 나타냅니다.
TM 점수가 0.3 미만이면 두 무작위 구조 간의 유사성을 의미합니다. 구조적으로 정렬된 잔기 쌍은 아미노산 특성에 따라 색상으로 강조 표시되며 정렬되지 않은 영역은 점선으로 표시됩니다. 다음은 PDB 라이브러리에서 쿼리 단백질의 식별된 효소 상동체를 보여 주는 ITR 결과 페이지의 예입니다.
EC 수 예측의 신뢰 수준은 EC 점수를 기반으로 분석되며, EC 점수가 1.1보다 크면 쿼리와 템플릿 단백질 간의 기능적 유사성을 나타냅니다. 쿼리 단백질에 대한 유전자 온톨로지 용어 예측 테이블에는 유전자 온톨로지 템플릿 라이브러리의 쿼리 단백질에 대한 기능적 상동체가 포함되며, 기능적 상동성 점수에 따라 순위가 매겨집니다. 이러한 최고 점수 히트의 공통 기능적 특징은 쿼리 단백질에 대한 최종 유전자 온톨로지 용어 예측을 생성하기 위해 파생됩니다.
예측된 유전자 온톨로지 용어의 품질은 지오 스코어를 기반으로 추정되며, 여기서 0.5보다 큰 지오 스코어는 보조 인자 알고리즘을 사용하여 상위 10개 단백질 리간드 결합 부위 예측을 보여주는 IT AZA 결과 페이지의 예로 여기에 표시된 신뢰할 수 있는 예측을 나타냅니다. 예측된 결합 부위의 순위는 공통 결합 포켓을 공유하는 예측된 리간드 확인의 수를 기반으로 합니다. 쿼리에서 BS 점수는 예측 바인딩 부위와 템플릿 결합 부위 간의 로컬 시퀀스 및 구조 유사성을 측정한 것으로, 결합 부위 포켓의 보존을 분석하는 데 유용합니다.
ISER은 단백질 구조 및 기능 예측을 위한 가장 효율적인 알고리즘 중 하나이지만 컴퓨터 알고리즘의 예측일 뿐이라는 점을 기억하는 것이 중요합니다. 모든 실험 데이터 또는 함수 통찰력(예: 잔류 연락처 바인딩 정보)은 예측의 정확도를 높이는 데 매우 유용합니다. IT AER 서버에는 증가하는 관심을 수용하기 위해 모델링 절차 중에 이러한 정보를 포함하는 포털이 있습니다.
Aer, Zang 연구소는 비상업적 연구를 위해 IT AER 소프트웨어를 무료로 출시했습니다. 우리는 IT AER을 개선하고 눈 미각을 개선하는 방법을 적극적으로 개발하고 있으며, 그 가용성이 Zang 실험실 외부에서 대규모 적용으로 이어지고 과학계의 추가 연구에 도움이 되고 박차를 가할 수 있기를 희망합니다.
이 기사는 아미노산 서열에서 단백질의 3D 구조와 기능을 예측하는 I-TASSER 파이프라인에 대해 설명합니다. 이 과정에는 스레딩, 단편 어셈블리, 알려진 단백질 구조를 기반으로 한 기능 추론이 포함됩니다.