The Journal of Visualized Experiments (JoVE) is a peer reviewed, PubMed-indexed video journal. Our mission is to increase the productivity of scientific research.
This translation into Swedish was automatically generated through Google Translate.
English Version | Other Languages
1Center for Computational Medicine and Bioinformatics, University of Michigan, 2Center for Bioinformatics and Department of Molecular Bioscience, University of Kansas
Roy, A., Xu, D., Poisson, J., Zhang, Y. A Protocol for Computer-Based Protein Structure and Function Prediction. J. Vis. Exp. (57), e3259, doi:10.3791/3259 (2011).
Genomsekvenseringsprojekt projekt har chiffrerat miljontals protein sekvens, som kräver kunskap om deras struktur och funktion för att förbättra förståelsen för deras biologiska roll. Även experimentella metoder kan ge detaljerad information för en liten bråkdel av dessa proteiner är datormodellering behövs för majoriteten av proteinmolekyler som experimentellt är uncharacterized. I-TASSER server är en on-line arbetsbänk för högupplöst modellering av proteiners struktur och funktion. Givet ett protein sekvens, innehåller en typisk effekt från I-TASSER server sekundär struktur förutsägelse, förutspådde lösningsmedel tillgängligheten av varje rester, homolog mall proteiner detekteras genom att trä-och väglinjer struktur, upp till fem fullängds tertiär strukturella modeller, och struktur-baserade funktionella anteckningar för enzym klassificering, Gene Ontology termer och protein-ligand bindningsställen. Alla prognoser är märkta med ett självförtroende värdering somberättar hur noggranna förutsägelser utan att känna till experimentella data. För att underlätta särskilda önskemål av slutanvändare ger servern kanalerna att acceptera användardefinierade mellan rester avstånd och kontakt kartor att interaktivt ändra I-TASSER modellering, utan också tillåter användare att ange några proteiner som mall, eller att utesluta någon mall proteiner under simuleringarna struktur montering. Den strukturella informationen kan samlas in av användare baserat på experimentella bevis eller biologiska insikter i syfte att förbättra kvaliteten på I-TASSER förutsägelser. Servern bedömdes som de bästa programmen för proteiners struktur och förutsägelser funktion i den senaste hela gemenskapen Casp experiment. Det finns för närvarande> 20.000 registrerade forskare från över 100 länder som använder online-I-TASSER server.
Metod översikt
Efter sekvensen till struktur-till-funktion paradigmet, innebär I-TASSER förfarande 1-4 för struktur och funktion modellering fyra på varandra följande steg: (a) mall identifiering av LOMETS 5, (b) fragment struktur återmontering av replika- utbyte Monte Carlo-simuleringar 6, (c) atomär nivå struktur förfining med REMO 7 och FG-MD 8, och (d) struktur-baserad funktion tolkningar med hjälp av kofaktor 9.
Mall identifiering: För en fråga sekvens som lämnats av användaren, är sekvensen first träs genom ett representativt preliminära struktur bibliotek genom en lokalt installerad LOMETS meta-threading server. Threading är en sekvens-struktur anpassning förfarande som används för att identifiera mall proteiner som kan ha liknande struktur eller innehåller liknande strukturella motiv som frågan protein. För att öka täckningen av homologa Templåt upptäckter kombinerar LOMETS flera state-of-the-art algoritmer som täcker olika gäng metoder. Eftersom olika gäng program har olika poängsystem och känslighet anpassning, är kvaliteten på den genererade trådning anpassningar från varje gäng program utvärderas av normaliserade Z-score, som definieras som: 
där Z-score är poängen i standardavvikelse enheter i förhållande till den statistiska medelvärdet av alla anpassningar som genereras av programmet, och Z 0 är ett program-specifik Z-score cutoff bestäms utifrån den storskaliga gäng benchmark-tester 5 att skilja "bra "och" dåliga "mallar. En mall med ett högt Z-score innebär att den övre mallar har en anpassning poäng betydligt högre än de flesta andra mallar, som oftast innebär att justeringen motsvarar en bra modell. Om de flesta av de bästa trådning mallar har hiGH normaliserade Z-värdena är noggrannhet i det slutliga I-TASSER modell vanligtvis hög. Men om proteinet är stort och täckning gängning anpassningar är begränsad till en liten region i frågan protein, inte en hög normaliserade Z-score inte nödvändigtvis betyda en stor modell noggrannhet för full längd modell. Topp två gäng väglinjer från varje gäng program samlas in och används för nästa steg i strukturen montering.
Iterativ simulering struktur montering: Efter gängning förfarande, frågan sekvensen delas upp i trä anpassad och icke-justerade regioner. Kontinuerlig fragment i gängning anpassning är censurerade från mallar och används direkt för strukturen montering, medan den icke-justerade slingan regioner byggs av ab initio modellering. Strukturen montering proceduren utförs på ett galler system som styrs av repliken utbyte Monte Carlo-simuleringar 6. I-TASSER kraftfält inkluderar vätgas-boENDE interaktioner 10, kunskapsbaserade statistiska gäller energi kommer från kända proteinstrukturer i det preliminära budgetförslaget 11, sekvens-baserade kontakt förutsägelser från SVMSEQ 12, och rumsliga begränsningar som samlats in från LOMETS 5 gäng mallar. Den konformationsanalys lockbete genereras i låg temperatur repliker under simuleringarna är grupperade i SPICKER 13 för att identifiera strukturer av låg fri energi stater. Cluster centroids av de kluster erhålls som genomsnittet av de 3D-koordinater för alla klustrade strukturella vettar och används för den slutliga modellen generationen. Simuleringen och klustring procedur upprepas två gånger för att ta bort steriska sammandrabbningar och ytterligare förfina den globala topologi.
Atomär nivå modellbygge och förfining: Klustret centroids erhållits efter SPICKER klustring reduceras protein modeller (varje rest representeras av dess C α och sidokedjan masscentrum) och have begränsade biologiska ansökan. Byggandet av full-atommodell från reducerade modellerna görs i två steg. I det första steget är REMO 7 används för att konstruera full atommodeller från C-alfa-spår genom att optimera H-band nätverk. I det andra steget, är REMO full atommodeller vidareutvecklats av FG-MD 14, vilket förbättrar vinklarna ryggraden vridning, längder band och sidokedjan riktlinjer rotamer genom molekylära dynamiska simuleringar, som styrs av de strukturella fragment sökte från preliminära strukturer av TM-align. Den FG-MD raffinerade modeller används som slutlig modeller för tertiärstruktur förutsägelser av I-TASSER.
Kvaliteten på den genererade modeller beräknas utifrån ett förtroende poäng (C-poäng), vilket definieras baseras på Z-score av LOMETS threading anpassningar och konvergens av I-TASSER simuleringar, matematiskt formuleras som: 
där 13, M tot är det totala antalet av lockbeten in till klustring;
C-värdering har ett starkt samband med kvaliteten på I-TASSER modeller. Genom att kombinera C-score och protein längd, kan riktigheten i den första I-TASSER modeller skattas med ett medelfel på 0,08 för TM-poäng och 2 A för RMSD 15. I allmänhet modeller med C-score> - är 1,5 förväntas ha en korrekt fold. Här RMSD och TM-poäng är båda kända åtgärder av topologiska likhet mellan modell och infödda struktur. TM-poäng VALUES-serien i [0, 1], där en högre poäng indikerar en bättre struktur match 16,17. Men för lägre rankade modellerna (dvs 2: a -5: e modeller), är korrelationen av C-poäng med TM-poäng och RMSD mycket svagare (~ 0,5), och kan inte användas för tillförlitlig uppskattning av absoluta modell kvalitet.
Är första modell alltid är den bästa modellen i I-TASSER simuleringar? Svaret på denna fråga beror på målet typ. För enkla mål, är den första modellen oftast den bästa modellen och dess C-värdering är vanligtvis mycket högre än resten av modellerna. Men för hårda mål, där trä inte har betydande mall träffar, är den första modellen inte nödvändigtvis den bästa modellen och I-TASSER faktiskt har svårt att välja ut de bästa mallen och modeller. Det rekommenderas därför att analysera alla fem modeller för hårda mål och väljer dem utifrån experimentell information och biologisk kunskap.
Funktion Predictions: I det sista steget, är slutgiltiga 3D-modeller som genererats från FG-MD användas för att förutsäga tre aspekter av proteiners funktion, nämligen: en) Enzyme kommissionen (EC) nummer 18 och (b) Gene Ontology (GO) 19 termer och ( c) bindningsställen för liten molekyl ligander. För alla de tre aspekterna, är funktionella tolkningar genereras med kofaktor, vilket är en ny metod för att förutsäga proteinets funktion bygger på globala och lokala likhet med mallen proteiner i det preliminära budgetförslaget med känd struktur och funktioner. För det första är den globala topologi förutspådde modellerna matchas mot funktionell mall bibliotek med hjälp av strukturell anpassning programmet TM-align 20. Därefter är en uppsättning proteiner som mest liknar målet modellerna väljs från biblioteket baserat på deras globala struktur likhet, och en omfattande lokal sökning utförs för att identifiera struktur och ordning likheten nära den aktiva / bindningsställe regionen. Den resulterande globala och lokala likhet poäng används för att rangordnamall proteiner (funktionell homologer) och överför Noten (EG siffror och Gene Ontology 19 termer) baserat på toppen poänggivande träffar. Likaså är ligand bindningsställe rester och ligandbindande läget härledas baserat på den lokala anpassningen av frågan med känd ligand bindningsställe rester i toppen mallar poäng funktion 9.
Kvaliteten på funktion (EG och GO sikt) förutsägelse i I-TASSER utvärderas baseras på funktionella homologi poäng (FH-poäng), som är ett mått på globala och lokala likhet mellan sökfråga och mallen, och definieras som: 
där C-poäng är en uppskattning av kvaliteten på förutspådde modellen enligt Ekv. (2), TM-poäng mäter globala strukturell likhet mellan modell och proteiner mall, RMSD Ali är RMSD mellan modell och mallen struktur i strukturellt anpassade regionen från TM-align 20, Cov representerar täckning av den strukturella anpassningen (dvs. förhållandet mellan strukturellt anpassade rester dividerat med frågan längd), ID-Ali är sekvensen identitet i TM-align justering. Den beräknade förtroende poäng för EG-nummer prognoser innehåller även en term för utvärdering av verksamma site match (ACM) mellan fråga och mall inom ett definierat lokala regionen, beräknas som: 
där N T betecknar antalet mallen rester som finns inom det lokala området, är N Ali numret på den linje query-mall rester par, är D II C α avståndet mellan I th par anpassade rester, är d 0 = 3.0 A avståndet cutoff, M II BLOSUM poäng mellan ed par anpassade rester. I allmänhet är det FH-poäng i intervallet [0, 5] och ACM värdering är mellan [0, 2], Där högre poäng indikerar mer självsäker funktionell uppdrag. ACM poäng används också för att utvärdera den lokala strukturen och sekvensen likheten nära ligand-bindningsställen som kallas BS-poäng.
1. Inlämning av protein sekvens
2. Tillgång till resultat
3. Sekundär struktur och vätska förutsägelser tillgänglighet
4. Tertiärstruktur förutsägelser
5. LOMETS mål mall anpassning
6.Strukturella analoger i det preliminära budgetförslaget
7. Funktion förutsägelse med hjälp kofaktor
8. Enzym kommissionen antalet prognos
9. Gene Ontology (GO) sikt förutsägelser
10. Protein-ligand bindningsställe förutsägelser
11. Representativa resultat

Figur 1 Ett utdrag av I-TASSER resultatsidan med (A) Fasta formaterad fråga sekvens;. (B) förutspådde sekundär struktur och tillhörande poäng förtroende, och (C) förutspådde lösningsmedel tillgänglighet rester. Analyseras kärna regionen och potentiella hydrering plats i frågan är markerade i cyan och röda rektanglar, respektive.

Figur 2.

Figur 3. Ett exempel på I-TASSER resultat sida som visar de tio bästa identifierat gäng mallar och anpassningar av LOMETS 5 trådning program. Kvaliteten på gängning anpassningar utvärderas baserat på normaliserade Z-score (markerad i grönt), där ett värde> 1 avspeglar en säker linje. Alliansfria rester i den mall som är identiska med motsvarande fråga rester markeras med färg för att indikera förekomst av bevarade rester / motiv, medan en brist på anpassning i de flesta av topp mallar indikerar närvaro av flera domäner i frågan protein och den icke-justerade återstoden motsvarar regioner domän länkaren. Klicka här för att se fullstor version av figur 3.

Figur 4. Ett exempel på resultat sida som visar de tio bästa identifierade strukturella analoger och strukturella anpassningar, som identifierats av TM-align 20 strukturell anpassning programmet. Den rangordning av analoger som visas i är baserat på TM-poäng (markeras i blått) av den strukturella anpassningen. En TM-poäng> 0,5 indikerar att två jämfört strukturer som har en liknande topologi, medan en TM-score <0,3 innebär en likhet mellan två slumpmässiga strukturer. Strukturellt linje rester par är markerade i färg baserat på deras aminosyror egendom, medan den icke-justerade regioner markeras med "-".ove.com/files/ftp_upload/3259/3259fig4large.jpg "> Klicka här för att se fullstor version av figur 4.

Figur 5. Ett exempel på I-TASSER resultat sida som visar identifierade enzym homologer av frågan protein i det preliminära budgetförslaget biblioteket. Den konfidensnivå på EG-nummer förutsägelse är analyseras utifrån EG-score (markerad i grönt), där EG-score> 1,1 indikerar funktionella likheten (samma första 3 siffrorna i EG-nummer) mellan fråga och mall protein.

Figur 6. Ett exempel på I-TASSER resultat sida som visar GO sikt prognoser för frågan protein. Funktionell homologer för frågan protein i Gene Ontology mallbiblioteket rangordnas utifrån deras FH-poäng (i orange rektangel). Gemensamma funktionella egenskaper från dessa top-poänggivande träffar härrör att generera åt den slutliga GO sikt prognoser för frågan protein. Kvaliteten på den förväntade GO termer beräknas baserat på GO-score (visas i grönt), där en GO-poäng> 0,5 indikerar en tillförlitlig förutsägelse. Klicka här för att se fullstor version av figur 6.

Figur 7. Ett exempel på I-TASSER resultat sida som visar de tio bästa protein ligand bindningsställe förutsägelser med kofaktor 9 algoritm. Rangordningen av den förväntade bindningsställen är baserat på antalet förutspådde ligand konformationer som delar gemensamma bindande fickan i frågan. BS-score (markerade i rött) är ett mått på lokal ordning och struktur likheten mellan den förväntade och mallens bindningsställe, och är användbart för att analysera bevarandet av bindningsställe fickor.
les/ftp_upload/3259/3259fig8.jpg "/>
Figur 8. Ett exempel på externa återhållsamhet filer som används för att för att ange rester rester kontakt / begränsningar avstånd.

Figur 9. Exempel på återhållsamhet filer som används för att ange en mall protein till I-TASSER server. Användare kan ange frågan-template anpassning antingen (A) Fasta-format, eller (b) 3D-format.

Figur 10. Ett exempel på fil som används för att utesluta mall under I-TASSER struktur modellering förfarande. Den första kolumnen innehåller det preliminära budgetförslaget ID mallen proteiner som ska uteslutas. Den andra kolumnen används för att ange cutoff sekvensen identitet som kommer att användas för andra liknande mallar i mallen bibliotek.
Protokollet presenteras ovan är en allmän riktlinje för struktur och funktion modellering med hjälp av I-TASSER server. Även om detta automatiserad procedur fungerar mycket bra för de flesta av de proteiner, mänskliga ingrepp hjälper ofta att avsevärt förbättra modelleringen noggrannhet, särskilt för de proteiner som saknar nära mallar i det preliminära budgetförslaget biblioteket. Användare kan ingripa vid I-TASSER modellering på följande sätt: (a) uppdelning av multi-domän proteiner, (b) tillhandahålla yttre begränsningar för att förbättra strukturen församlingen, och (c) att ta bort mallar under modellering.
Dela upp multi-domain protein:
Många långa proteinsekvenser innehåller ofta flera domäner uppbundna genom flexibla länkare regioner, vilket gör att deras struktur belysning svårt med både experimentella och beräkningsteknik. Men som domäner är självständigt fällbara enheter och kan utföra olika molekylära funktionen, det ärönskvärt att dela upp långa multi-domän proteiner och modell varje domän separat. Modellering domäner individuellt kommer inte bara att påskynda förutsägelse processen, men ökar också kvaliteten i query-mall anpassning, vilket resulterar i mer tillförlitlig struktur och förutsägelser funktion.
Domain gränser i proteinsekvenser kan förutsägas med hjälp av fritt tillgängliga externa online-program som NCBI CDD 24, PFAM 25 eller InterProScan 26. Dessutom, om LOMETS gäng anpassningar finns tillgängliga för frågan proteinet kan domängränser placeras genom att visuellt identifiera långa sträckor av icke-justerade rester i toppen gäng mallar (se steg 5.4). Dessa icke-justerade regioner motsvarar mestadels till områden domän länkaren. Om flera domäner mallar finns redan i mallen preliminära biblioteket med alla de anpassade frågan domäner, då frågan proteinet kan modelleras som full längd.
Ge externa begränsningar
A. Ange kontakt / distans begränsningar
Experimentellt kännetecknas mellan rester kontakter / avstånd, t.ex. från NMR ellerförnätning experiment, kan specificeras genom att ladda upp en återhållsamhet fil. Ett exempel på filen visas i Figur 8, där kolumn 1 anger vilken typ av återhållsamhet, dvs "DIST" eller "kontakt". Vid distansavtal fasthållningsanordningar (DIST), kolumnerna 2 och 4 innehåller rester position (i, j), kolumnerna 3 och 5 innehåller atom-typer i återstoden och kolumn 6 anger avståndet mellan de två angivna atomer. För kontakt begränsningar (kontakt), kolumnerna 2 och 3 innehåller de positioner (i, j) av restprodukter som bör vara i kontakt. Avståndet mellan sidokedjor centrum för dessa kontakta rester par avgörs baserat på observerade avstånd i kända strukturer i det preliminära budgetförslaget. I-TASSER kommer att försöka dra dessa atom par nära visst avstånd under simuleringarna strukturen förfining.
B. Ange en mall proteinstruktur
LOMETS gängning program använder en representant preliminära bibliotek för att hitta rimliga veck för frågan protein. Även med hjälp av ett bibliotek representant struktur bidrar till att minska den tid som krävs för att beräkna sekvens-struktur väglinjer, är det möjligt att en bra mall protein missas i biblioteket eller mallen kanske inte har identifierats av LOMETS gäng program, även om det är som finns i biblioteket. I dessa fall bör användaren ange önskat proteinstruktur som mall.
För att ange proteinstruktur som en extra mall kan användare ladda upp antingen ett preliminärt budgetförslag formaterad struktur fil eller ange det preliminära budgetförslaget ID för en deponeras proteinstruktur i det preliminära budgetförslaget bibliotek. I-TASSER kommer att generera frågan-template anpassning med hjälp av UPPBJUDA programmet 23 och kommer att samlas rumsliga begränsningar från såväl angivna användaren mallen och LOMETS mallar för att styra simuleringen struktur montering. Eftersom noggrannheten i LOMETS begränsningar är olika för olika mål, är vikten av LOMETS begränsningar starkare i lätt (homolog) TArgets än i hårda (icke-homologa) mål, som har systematiskt inställda i vår jämförelseindex träning.
Användarna kan även ange sin egen query-mall anpassningar. Servern tar emot anpassning i två format: den Fasta format (Figur 9A) och 3D-format (Figur 9B). Den Fasta format är standard och beskrivs på http://zhanglab. ccmb.med.umich.edu / Fasta / . 3D-formatet liknar den vanliga preliminära budgetförslaget format ( http://www.wwpdb.org/documentation/format32/sect9.html ), men två ytterligare kolumner från mallarna läggs till ATOM poster (se Figur 9B):
Kolumnerna 1-30: Atom (C-alfa bara) och rester namn för frågan sekvensen.
Kolumnerna 31-54: Koordinater för C-alfa atomer i frågan kopierade från motsvarande atomer i mallen.
Kolumnerna 55-59: motsvarande resthalter siffra i mallen baseras på anpassning
Kolumnerna 60-64: motsvarande resthalter namn i mallen
Uteslut mallar proteiner
Proteiner är flexibla molekyler och kan anta flera konformationsanalys stater att ändra deras biologiska aktivitet. Till exempel har strukturer av många proteinkinaser och membranproteiner lösts i både aktiva och inaktiva konformation. Också närvaron eller frånvaron av bundna ligand kan orsaka stora strukturella rörelser. Medan alla konformationsändringar stater i mallen är lika för gängning program, är det önskvärt att modellera frågan med mallar i endast en viss stat. Ett nytt alternativ på servern tillåter användaren att utesluta mall proteiner under uppbyggnad modellering. Denna funktion skulle också möjliggöra för användaren att välja den homologi nivån av mallar som ska användas för modellering. Användare kan utesluta mall proteiner frOm I-TASSER bibliotek genom att:
A. Ange ett cutoff sekvens identitet
Användarna kan använda denna möjlighet att utesluta homologa proteiner från I-TASSER mall bibliotek. Den homologi är inställd bygger på sekvensen identitet cutoff, dvs antal identiska rester mellan frågan och mallen protein dividerat med sekvens längden på frågan sekvensen. Till exempel, om användaren skriver i "70%" i formuläret, alla mallar proteiner som har en sekvens identitet> 70% till frågan proteinet I-kommer att uteslutas från I-TASSER mall bibliotek.
B. utesluta viss mall proteiner
Specifik mall proteiner kan uteslutas från I-TASSER mallbibliotek genom att ladda upp en lista som innehåller preliminära ID av de strukturer som ska undantas. Ett exempel på fil visas i Figur 10. Eftersom samma protein kan existera som flera poster i det preliminära budgetförslaget biblioteket, I-TASSER SEtill floden som standard utesluter den angivna mallar (i kolumn1) samt alla andra mallar från biblioteket som har en identitet> 90% till angiven mallar. Användarna kan även ange en annan identitet cutoff, t.ex. 70%, där alla mallar med identitet> 70% till angiven mall proteiner kommer att uteslutas.
Inga intressekonflikter deklareras.
Projektet stöds delvis av Alfred P. Sloan Foundation, NSF Career Award (DBI 1.027.394) och National Institute of General Medical Sciences (GM083107, GM084222).
| Name | Company | Catalog Number | Comments |
| Material Name | Type | Company | Catalogue Number |
| FASTA formatted amino acid sequence of the protein to be modeled (see, http://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml). | |||
| A personal computer with access to the internet and a web browser. | |||
| Molecular visualizing software, e.g. RASMOL or PYMOL, for analyzing the predicted tertiary structure and functional sites. |
1
ReplyPosted by: Alexandre BuenoNovember 3, 2011, 2:35 PM