여기에 설명 된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 게놈 영역을 분석하는 방법에 대한 자세한 지침을 제공합니다. 또한, 그들의 추정 기능에 대한 통찰력을 얻기 위해 확인 된 마이크로 단백질의 서열 특성을 더 조사하기 위해 몇 가지 도구와 자원이 권장됩니다.
차세대 염기서열 분석(NGS)은 유전체학 분야를 발전시키고 수많은 동물 종 및 모델 유기체에 대한 전체 게놈 서열을 생산했습니다. 그러나 이러한 풍부한 서열 정보에도 불구하고 포괄적 인 유전자 주석 노력은 특히 작은 단백질의 경우 도전적인 것으로 입증되었습니다. 주목할 만하게, 종래의 단백질 주석 방법은 게놈 전체에 걸쳐 기하급수적으로 더 많은 수의 스퓨리어스 비코딩 sORF를 걸러내기 위해 길이가 300개 미만인 짧은 오픈 리딩 프레임(sORFs)에 의해 코딩되는 추정 단백질을 의도적으로 배제하도록 설계되었다. 그 결과, 마이크로단백질(<100개 아미노산 길이)이라고 불리는 수백 개의 기능적 작은 단백질이 비코딩 RNA로 잘못 분류되거나 완전히 간과되었다.
여기서 우리는 진화적 보존에 기초한 마이크로단백질 코딩 잠재력에 대한 게놈 영역을 쿼리하기 위해 공개적으로 이용 가능한 자유롭고 공개적으로 이용 가능한 생물정보학 도구를 활용하는 상세한 프로토콜을 제공한다. 특히, 우리는 사용자 친화적 인 캘리포니아 산타 크루즈 대학 (UCSC) 게놈 브라우저에서 계통 발생 코돈 치환 주파수 (PhyloCSF)를 사용하여 서열 보존 및 코딩 가능성을 검사하는 방법에 대한 단계별 지침을 제공합니다. 또한, 우리는 아미노산 서열 보존을 시각화하고 예측 된 도메인 구조를 포함하여 마이크로 단백질 특성을 분석하기위한 자원을 권장하기 위해 확인 된 마이크로 단백질 서열의 여러 종 정렬을 효율적으로 생성하는 단계를 자세히 설명합니다. 이러한 강력한 도구는 비정준 게놈 영역에서 추정적 마이크로단백질 코딩 서열을 확인하거나 관심있는 비코딩 전사체에서 번역 잠재력을 갖는 보존된 코딩 서열의 존재를 배제하는 데 사용될 수 있다.
게놈에서 코딩 요소의 완전한 세트의 확인은 인간 게놈 프로젝트의 개시 이후 주요 목표였으며, 생물학적 시스템에 대한 이해와 유전 기반 질병의 병인학을 향한 핵심 목표로 남아 있습니다 1,2,3,4. NGS 기술의 발전은 척추동물, 무척추동물, 효모 및 식물5을 포함한 광범위한 수의 유기체에 대한 전체 게놈 서열의 생산으로 이어졌다. 추가적으로, 고처리량 전사 시퀀싱 방법은 세포 전사체의 복잡성을 더욱 밝혀냈고, 단백질 코딩 및 비코딩 기능 모두를 갖는 수천 개의 새로운 RNA 분자를 확인하였다6,7. 이러한 방대한 양의 서열 정보를 해독하는 것은 진행중인 과정이며, 포괄적 인 유전자 주석 노력8에 대한 과제가 남아 있습니다.
리 보솜 프로파일링9,10 및 폴리리보솜 시퀀싱 11을 포함한 번역 프로파일링 방법의 최근 개발은 수백 개의 비정규 번역 사건이 게놈 전체에 걸쳐 현재 주석이 없는 sORF에 매핑된다는 증거를 제공했으며, 마이크로단백질 또는 마이크로펩티드12,13,14,15,16이라고 불리는 작은 단백질을 생성할 가능성이 있으며, 17. 마이크로 단백질은 작은 크기 (<100 아미노산)와 고전적인 단백질 코딩 유전자 특성 8,12,18,19,20의 부족으로 인해 표준 유전자 주석 방법에 의해 간과 된 다목적 단백질의 새로운 클래스로 부상했습니다. 미세단백질 은 효모21,22, 파리 17,23,24, 포유류25,26,27,28을 포함한 거의 모든 유기체에서 기술되었으며, 발달, 대사 및 스트레스 신호 전달 19,20,29를 포함한 다양한 과정에서 중요한 역할을 하는 것으로 나타났습니다. 30,31,32,33,34. 따라서, 오랫동안 간과되어 온 기능적 작은 단백질 클래스의 추가 구성원을 위해 게놈을 계속 채굴하는 것이 필수적입니다.
마이크로 단백질의 생물학적 중요성에 대한 광범위한 인식에도 불구하고,이 부류의 유전자는 게놈 주석에서 크게 과소 대표되고 있으며, 정확한 식별은 현장에서 진전을 방해하는 지속적인 도전으로 계속되고 있습니다. 마이크로단백질 코딩 서열을 확인하는 것과 관련된 어려움을 극복하기 위해 다양한 전산 도구 및 실험 방법이 최근에 개발되었다(몇몇 포괄적인 리뷰 8,35,36,37에서 광범위하게 논의됨). 최근의 많은 미세단백질 동정 연구 38,39,40,41,42,43,44,45,46,47 은 PhyloCSF 48,49라고 불리는 알고리즘 중 하나의 사용에 크게 의존해 왔다. , 게놈의 보존된 단백질 코딩 영역과 비코딩되는 영역을 구별하기 위해 활용될 수 있는 강력한 비교 유전체학 접근법.
PhyloCSF는 단백질 코딩 유전자의 진화적 시그니처를 검출하기 위해 다종 뉴클레오티드 정렬과 계통발생 모델을 사용하는 코돈 치환 빈도(CSF)를 비교한다. 이러한 경험적 모델-기반 접근법은 단백질이 뉴클레오티드 서열보다는 아미노산 수준에서 주로 보존된다는 전제에 의존한다. 따라서, 동일한 아미노산을 인코딩하는 동의어 코돈 치환, 또는 보존된 특성(즉, 전하, 소수성, 극성)을 갖는 아미노산에 대한 코돈 치환은 긍정적으로 점수가 매겨지는 반면, 오센스 및 넌센스 치환을 포함하는 비동의어 치환은 부정적으로 점수가 매겨진다. PhyloCSF는 전체 게놈 데이터에 대해 훈련되고 표준 단백질 코딩 유전자48,49의 미세 단백질 또는 개별 엑손을 분석 할 때 필요한 전체 서열로부터 분리 된 코딩 서열 (CDS)의 짧은 부분을 채점하는 데 효과적이라는 것이 입증되었습니다.
특히, 캘리포니아 산타크루즈 대학(UCSC) 게놈 브라우저(49,50,51)에 PhyloCSF 트랙 허브의 최근 통합은 모든 배경의 조사관이 단백질 코딩 잠재력에 대한 관심 게놈 영역을 쿼리하기 위해 사용자 친화적인 인터페이스에 쉽게 액세스할 수 있게 한다. 아래에 요약된 프로토콜은 UCSC 게놈 브라우저에 PhyloCSF 트랙 허브를 로드하는 방법에 대한 자세한 지침을 제공하며, 이어서 관심 게놈 영역을 조사하여 고신뢰도 단백질 코딩 영역(또는 그 부족)을 조사합니다. 추가적으로, 양성 PhyloCSF 스코어가 관찰되는 경우에, 마이크로단백질 코딩 잠재력을 추가로 분석하고 종간 서열 보존을 예시하기 위해 확인된 아미노산 서열의 다중 종 정렬을 효율적으로 생성하기 위한 단계들이 기술된다. 마지막으로, 예측된 도메인 구조 및 추정적 마이크로단백질 기능에 대한 통찰력을 포함하여 확인된 마이크로단백질 특성을 조사하기 위해 논의에 몇 가지 추가적인 공개적으로 이용 가능한 자원 및 도구가 도입된다.
여기에 제시된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저 48,49,50,51에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 관심있는 게놈 영역을 조사하는 방법에 대한 자세한 지침을 제공합니다. 위에서 설명한 바와 같이, PhyloCSF는 계통발생 모델과 코돈 치환 빈도를 통합하여 단백질 코?…
The authors have nothing to disclose.
이 연구는 국립 보건원 (HL-141630 및 HL-160569)과 신시내티 아동 연구 재단 (수탁자 상)의 보조금으로 지원되었습니다.
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources |
https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy – Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search |
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description |
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth |
Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM – 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |