Summary

마이크로단백질 동정 및 서열 분석을 위한 통합 접근법

Published: July 12, 2022
doi:

Summary

여기에 설명 된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 게놈 영역을 분석하는 방법에 대한 자세한 지침을 제공합니다. 또한, 그들의 추정 기능에 대한 통찰력을 얻기 위해 확인 된 마이크로 단백질의 서열 특성을 더 조사하기 위해 몇 가지 도구와 자원이 권장됩니다.

Abstract

차세대 염기서열 분석(NGS)은 유전체학 분야를 발전시키고 수많은 동물 종 및 모델 유기체에 대한 전체 게놈 서열을 생산했습니다. 그러나 이러한 풍부한 서열 정보에도 불구하고 포괄적 인 유전자 주석 노력은 특히 작은 단백질의 경우 도전적인 것으로 입증되었습니다. 주목할 만하게, 종래의 단백질 주석 방법은 게놈 전체에 걸쳐 기하급수적으로 더 많은 수의 스퓨리어스 비코딩 sORF를 걸러내기 위해 길이가 300개 미만인 짧은 오픈 리딩 프레임(sORFs)에 의해 코딩되는 추정 단백질을 의도적으로 배제하도록 설계되었다. 그 결과, 마이크로단백질(<100개 아미노산 길이)이라고 불리는 수백 개의 기능적 작은 단백질이 비코딩 RNA로 잘못 분류되거나 완전히 간과되었다.

여기서 우리는 진화적 보존에 기초한 마이크로단백질 코딩 잠재력에 대한 게놈 영역을 쿼리하기 위해 공개적으로 이용 가능한 자유롭고 공개적으로 이용 가능한 생물정보학 도구를 활용하는 상세한 프로토콜을 제공한다. 특히, 우리는 사용자 친화적 인 캘리포니아 산타 크루즈 대학 (UCSC) 게놈 브라우저에서 계통 발생 코돈 치환 주파수 (PhyloCSF)를 사용하여 서열 보존 및 코딩 가능성을 검사하는 방법에 대한 단계별 지침을 제공합니다. 또한, 우리는 아미노산 서열 보존을 시각화하고 예측 된 도메인 구조를 포함하여 마이크로 단백질 특성을 분석하기위한 자원을 권장하기 위해 확인 된 마이크로 단백질 서열의 여러 종 정렬을 효율적으로 생성하는 단계를 자세히 설명합니다. 이러한 강력한 도구는 비정준 게놈 영역에서 추정적 마이크로단백질 코딩 서열을 확인하거나 관심있는 비코딩 전사체에서 번역 잠재력을 갖는 보존된 코딩 서열의 존재를 배제하는 데 사용될 수 있다.

Introduction

게놈에서 코딩 요소의 완전한 세트의 확인은 인간 게놈 프로젝트의 개시 이후 주요 목표였으며, 생물학적 시스템에 대한 이해와 유전 기반 질병의 병인학을 향한 핵심 목표로 남아 있습니다 1,2,3,4. NGS 기술의 발전은 척추동물, 무척추동물, 효모 및 식물5을 포함한 광범위한 수의 유기체에 대한 전체 게놈 서열의 생산으로 이어졌다. 추가적으로, 고처리량 전사 시퀀싱 방법은 세포 전사체의 복잡성을 더욱 밝혀냈고, 단백질 코딩 및 비코딩 기능 모두를 갖는 수천 개의 새로운 RNA 분자를 확인하였다6,7. 이러한 방대한 양의 서열 정보를 해독하는 것은 진행중인 과정이며, 포괄적 인 유전자 주석 노력8에 대한 과제가 남아 있습니다.

보솜 프로파일링9,10 및 폴리리보솜 시퀀싱 11을 포함한 번역 프로파일링 방법의 최근 개발은 수백 개의 비정규 번역 사건이 게놈 전체에 걸쳐 현재 주석이 없는 sORF에 매핑된다는 증거를 제공했으며, 마이크로단백질 또는 마이크로펩티드12,13,14,15,16이라고 불리는 작은 단백질을 생성할 가능성이 있으며, 17. 마이크로 단백질은 작은 크기 (<100 아미노산)와 고전적인 단백질 코딩 유전자 특성 8,12,18,19,20의 부족으로 인해 표준 유전자 주석 방법에 의해 간과 된 다목적 단백질의 새로운 클래스로 부상했습니다. 미세단백질 은 효모21,22, 파리 17,23,24, 포유류25,26,27,28포함한 거의 모든 유기체에서 기술되었으며, 발달, 대사 및 스트레스 신호 전달 19,20,29를 포함한 다양한 과정에서 중요한 역할을 하는 것으로 나타났습니다. 30,31,32,33,34. 따라서, 오랫동안 간과되어 온 기능적 작은 단백질 클래스의 추가 구성원을 위해 게놈을 계속 채굴하는 것이 필수적입니다.

마이크로 단백질의 생물학적 중요성에 대한 광범위한 인식에도 불구하고,이 부류의 유전자는 게놈 주석에서 크게 과소 대표되고 있으며, 정확한 식별은 현장에서 진전을 방해하는 지속적인 도전으로 계속되고 있습니다. 마이크로단백질 코딩 서열을 확인하는 것과 관련된 어려움을 극복하기 위해 다양한 전산 도구 및 실험 방법이 최근에 개발되었다(몇몇 포괄적인 리뷰 8,35,36,37에서 광범위하게 논의됨). 최근의 많은 미세단백질 동정 연구 38,39,40,41,42,43,44,45,46,47 은 PhyloCSF 48,49라고 불리는 알고리즘 중 하나의 사용에 크게 의존해 왔다. , 게놈의 보존된 단백질 코딩 영역과 비코딩되는 영역을 구별하기 위해 활용될 수 있는 강력한 비교 유전체학 접근법.

PhyloCSF는 단백질 코딩 유전자의 진화적 시그니처를 검출하기 위해 다종 뉴클레오티드 정렬과 계통발생 모델을 사용하는 코돈 치환 빈도(CSF)를 비교한다. 이러한 경험적 모델-기반 접근법은 단백질이 뉴클레오티드 서열보다는 아미노산 수준에서 주로 보존된다는 전제에 의존한다. 따라서, 동일한 아미노산을 인코딩하는 동의어 코돈 치환, 또는 보존된 특성(즉, 전하, 소수성, 극성)을 갖는 아미노산에 대한 코돈 치환은 긍정적으로 점수가 매겨지는 반면, 오센스 및 넌센스 치환을 포함하는 비동의어 치환은 부정적으로 점수가 매겨진다. PhyloCSF는 전체 게놈 데이터에 대해 훈련되고 표준 단백질 코딩 유전자48,49의 미세 단백질 또는 개별 엑손을 분석 할 때 필요한 전체 서열로부터 분리 된 코딩 서열 (CDS)의 짧은 부분을 채점하는 데 효과적이라는 것이 입증되었습니다.

특히, 캘리포니아 산타크루즈 대학(UCSC) 게놈 브라우저(49,50,51)에 PhyloCSF 트랙 허브의 최근 통합은 모든 배경의 조사관이 단백질 코딩 잠재력에 대한 관심 게놈 영역을 쿼리하기 위해 사용자 친화적인 인터페이스에 쉽게 액세스할 수 있게 한다. 아래에 요약된 프로토콜은 UCSC 게놈 브라우저에 PhyloCSF 트랙 허브를 로드하는 방법에 대한 자세한 지침을 제공하며, 이어서 관심 게놈 영역을 조사하여 고신뢰도 단백질 코딩 영역(또는 그 부족)을 조사합니다. 추가적으로, 양성 PhyloCSF 스코어가 관찰되는 경우에, 마이크로단백질 코딩 잠재력을 추가로 분석하고 종간 서열 보존을 예시하기 위해 확인된 아미노산 서열의 다중 종 정렬을 효율적으로 생성하기 위한 단계들이 기술된다. 마지막으로, 예측된 도메인 구조 및 추정적 마이크로단백질 기능에 대한 통찰력을 포함하여 확인된 마이크로단백질 특성을 조사하기 위해 논의에 몇 가지 추가적인 공개적으로 이용 가능한 자원 및 도구가 도입된다.

Protocol

아래에 설명 된 프로토콜은 UCSC 게놈 브라우저에서 PhyloCSF 브라우저 트랙을로드하고 탐색하는 단계를 자세히 설명합니다 (Mudge et al.49에 의해 생성됨). UCSC 게놈 브라우저에 관한 일반적인 질문은 광범위한 게놈 브라우저 사용자 안내서가 여기에서 찾을 수 있습니다 : https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html. <p class="jove_…

Representative Results

여기서는 검증된 마이크로단백질 미토레귤린(Mtln)을 예로 들어 보존된 sORF가 UCSC 게놈 브라우저에서 쉽게 시각화 및 분석할 수 있는 양성 PhyloCSF 점수를 생성하는 방법을 시연합니다. 미토레귤린은 이전에 비코딩 RNA (이전의 인간 유전자 ID LINC00116 및 마우스 유전자 ID 1500011K16Rik)로서 주석을 달았다. 비교 유전체학 및 서열 보존 분석 방법은 초기 발견 40,57,58,59,60,61<sup class="xref…

Discussion

여기에 제시된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저 48,49,50,51에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 관심있는 게놈 영역을 조사하는 방법에 대한 자세한 지침을 제공합니다. 위에서 설명한 바와 같이, PhyloCSF는 계통발생 모델과 코돈 치환 빈도를 통합하여 단백질 코?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 연구는 국립 보건원 (HL-141630 및 HL-160569)과 신시내티 아동 연구 재단 (수탁자 상)의 보조금으로 지원되었습니다.

Materials

Website Website Address Requirements
Clustal Omega Multiple Sequence Alignment Tool https://www.ebi.ac.uk/Tools/msa/clustalo/ Web browser Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdb https://coxpresdb.jp Web browser Provides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQs https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ Web browser Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/all Web browser Comprehensive list of freely available websites, tools and data resources
Expasy – Swiss Bioinformatics Resource Portal https://www.expasy.org Web browser Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Web browser Search tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35 http://pfam.xfam.org Web browser Protein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browser Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0 https://services.healthtech.dtu.dk/service.php?SignalP-6.0 Web browser Predicts the presence of signal peptides and the location of their cleavage sites
TMHMM – 2.0 https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 Web browser Prediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Search https://genome.ucsc.edu/cgi-bin/hgBlat Web browser Tool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gateway https://genome.ucsc.edu/cgi-bin/hgGateway Web browser Direct link to the UCSC Genome Browser Gateway
UCSC Genome Browser Home https://genome.ucsc.edu/ Web browser Home website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubs https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs Web browser Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guide https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html Web browser Comprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORT https://wolfpsort.hgc.jp Web browser Protein subcellular localization prediction tool

References

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Play Video

Cite This Article
Brito-Estrada, O., Hassel, K. R., Makarewich, C. A. An Integrated Approach for Microprotein Identification and Sequence Analysis. J. Vis. Exp. (185), e63841, doi:10.3791/63841 (2022).

View Video