Protokollen beskrevet her giver detaljerede instruktioner om, hvordan man analyserer genomiske regioner af interesse for mikroproteinkodningspotentiale ved hjælp af PhyloCSF i den brugervenlige UCSC Genome Browser. Derudover anbefales flere værktøjer og ressourcer til yderligere at undersøge sekvensegenskaber for identificerede mikroproteiner for at få indsigt i deres formodede funktioner.
Næste generations sekventering (NGS) har drevet genomforskningsområdet fremad og produceret hele genomsekvenser for adskillige dyrearter og modelorganismer. På trods af dette væld af sekvensoplysninger har omfattende genannoteringsindsatser imidlertid vist sig at være udfordrende, især for små proteiner. Især blev konventionelle proteinannoteringsmetoder designet til bevidst at udelukke formodede proteiner kodet af korte åbne læserammer (sORF’er) mindre end 300 nukleotider i længden for at filtrere det eksponentielt højere antal falske ikke-kodende sORF’er i hele genomet. Som et resultat er hundredvis af funktionelle små proteiner kaldet mikroproteiner (<100 aminosyrer i længden) fejlagtigt blevet klassificeret som ikke-kodende RNA'er eller overset helt.
Her leverer vi en detaljeret protokol til at udnytte gratis, offentligt tilgængelige bioinformatiske værktøjer til at forespørge genomiske regioner om mikroproteinkodende potentiale baseret på evolutionær bevarelse. Specifikt giver vi trinvise instruktioner om, hvordan man undersøger sekvensbevarelse og kodningspotentiale ved hjælp af fylogenetiske codonsubstitutionsfrekvenser (PhyloCSF) i den brugervenlige University of California Santa Cruz (UCSC) Genome Browser. Derudover beskriver vi trin til effektivt at generere flere arters justeringer af identificerede mikroproteinsekvenser for at visualisere aminosyresekvensbevarelse og anbefale ressourcer til at analysere mikroproteinegenskaber, herunder forudsagte domænestrukturer. Disse kraftfulde værktøjer kan bruges til at hjælpe med at identificere formodede mikroproteinkodende sekvenser i ikke-kanoniske genomiske regioner eller til at udelukke tilstedeværelsen af en konserveret kodningssekvens med translationelt potentiale i et ikke-kodende transkript af interesse.
Identifikationen af det komplette sæt kodende elementer i genomet har været et vigtigt mål siden indledningen af Human Genome Project og er fortsat et centralt mål for forståelsen af biologiske systemer og ætiologien af genetisk baserede sygdomme 1,2,3,4. Fremskridt inden for NGS-teknikker har ført til produktion af hele genomsekvenser for et omfattende antal organismer, herunder hvirveldyr, hvirvelløse dyr, gær og planter5. Derudover har transkriptionelle sekventeringsmetoder med høj kapacitet yderligere afsløret kompleksiteten af det cellulære transkriptom og identificeret tusindvis af nye RNA-molekyler med både proteinkodende og ikke-kodende funktioner 6,7. Afkodning af denne enorme mængde sekvensinformation er en løbende proces, og der er stadig udfordringer med omfattende genannoteringsindsatser8.
Den seneste udvikling af translationelle profileringsmetoder, herunder ribosomprofilering 9,10 og poly-ribosomsekventering11, har givet bevis for, at hundredvis af ikke-kanoniske translationshændelser kortlægges til aktuelt ikke-kommenterede sORF’er i hele genomet med potentiale til at generere små proteiner kaldet mikroproteiner eller mikropeptider 12,13,14,15,16 17. Mikroproteiner er opstået som en ny klasse af alsidige proteiner, der tidligere blev overset af standardgenannoteringsmetoder på grund af deres lille størrelse (<100 aminosyrer) og mangel på klassiske proteinkodende genkarakteristika 8,12,18,19,20. Mikroproteiner er blevet beskrevet i stort set alle organismer, herunder gær21,22, fluer 17,23,24 og pattedyr 25,26,27,28, og har vist sig at spille kritiske roller i forskellige processer, herunder udvikling, metabolisme og stresssignalering 19,20,29, 30,31,32,33,34. Det er således bydende nødvendigt at fortsætte med at udvinde genomet for yderligere medlemmer af denne længe oversete klasse af funktionelle små proteiner.
På trods af den udbredte anerkendelse af mikroproteiners biologiske betydning er denne klasse af gener fortsat stærkt underrepræsenteret i genomannoteringer, og deres nøjagtige identifikation er fortsat en løbende udfordring, der har hindret fremskridt på området. Forskellige beregningsværktøjer og eksperimentelle metoder er for nylig blevet udviklet for at overvinde vanskelighederne forbundet med at identificere mikroproteinkodende sekvenser (diskuteret udførligt i flere omfattende anmeldelser 8,35,36,37). Mange nylige mikroproteinidentifikationsundersøgelser 38,39,40,41,42,43,44,45,46,47 har været stærkt afhængige af brugen af en sådan algoritme kaldet PhyloCSF48,49 , en kraftfuld komparativ genomisk tilgang, der kan udnyttes til at skelne konserverede proteinkodende regioner i genomet fra dem, der ikke er kodende.
PhyloCSF sammenligner codonsubstitutionsfrekvenser (CSF) ved hjælp af multi-species nukleotidjusteringer og fylogenetiske modeller til at detektere evolutionære signaturer af proteinkodende gener. Denne empiriske modelbaserede tilgang er afhængig af den forudsætning, at proteiner primært bevares på aminosyreniveau snarere end nukleotidsekvensen. Derfor scores synonyme codonsubstitutioner, der koder for den samme aminosyre, eller codonsubstitutioner til aminosyrer med konserverede egenskaber (dvs. ladning, hydrofobicitet, polaritet) positivt, mens ikke-synonyme substitutioner, herunder missense og nonsenssubstitutioner, scorer negativt. PhyloCSF er trænet på helgenomdata og har vist sig at være effektiv til at score korte dele af en kodende sekvens (CDS) isoleret fra den fulde sekvens, hvilket er nødvendigt ved analyse af mikroproteiner eller individuelle exoner af standardproteinkodende gener48,49.
Især den nylige integration af PhyloCSF-sporhubs i University of California Santa Cruz (UCSC) Genome Browser 49,50,51 gør det muligt for efterforskere af alle baggrunde let at få adgang til en brugervenlig grænseflade for at forespørge genomiske regioner af interesse for proteinkodningspotentiale. Protokollen beskrevet nedenfor giver detaljeret instruktion om, hvordan man indlæser PhyloCSF-sporhubs på UCSC Genome Browser og efterfølgende forhører genomiske regioner af interesse for at undersøge for proteinkodende regioner med høj tillid (eller manglen på samme). I tilfælde af, hvor der observeres en positiv PhyloCSF-score, afgrænses trin for yderligere at analysere mikroproteinkodende potentiale og effektivt generere flere artsjusteringer af de identificerede aminosyresekvenser for at illustrere bevarelse af sekvenser på tværs af arter. Endelig introduceres flere yderligere offentligt tilgængelige ressourcer og værktøjer i diskussionen for at undersøge identificerede mikroproteinegenskaber, herunder forudsagte domænestrukturer og indsigt i formodet mikroproteinfunktion.
Protokollen, der præsenteres her, giver detaljerede instruktioner om, hvordan man forhører genomiske regioner af interesse for mikroproteinkodningspotentiale ved hjælp af PhyloCSF på den brugervenlige UCSC Genome Browser 48,49,50,51. Som beskrevet ovenfor er PhyloCSF en kraftfuld komparativ genomisk algoritme, der integrerer fylogenetiske modeller og codonsubstitutionsfrekvenser for at iden…
The authors have nothing to disclose.
Dette arbejde blev støttet af tilskud fra National Institutes of Health (HL-141630 og HL-160569) og Cincinnati Children’s Research Foundation (Trustee Award).
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources |
https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy – Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search |
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description |
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth |
Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM – 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |