RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
German
Menu
Menu
Menu
Menu
DOI: 10.3791/3259-v
Please note that some of the translations on this page are AI generated. Click here for the English version.
This article describes the I-TASSER pipeline for predicting the 3D structures and functions of proteins from their amino acid sequences. The process involves threading, fragment assembly, and functional inference based on known protein structures.
Richtlinien für die computergestützte strukturelle und funktionelle Charakterisierung von Proteinen unter Verwendung der I-Tasser Pipeline beschrieben. Ab Abfrage Proteinsequenz sind 3D-Modelle generiert mit mehreren Threading Ausrichtungen und iterative strukturellen Aufbau-Simulationen. Funktionelle Konsequenzen werden anschließend auf der Grundlage Übereinstimmungen mit Proteinen mit bekannter Struktur und Funktionen gezeichnet.
Ziel dieses Verfahrens ist es, dreidimensionale Strukturen und biologische Funktionen von Proteinmolekülen ausgehend von ihren Aminosäuresequenzen rechnerisch vorherzusagen. Dies wird erreicht, indem zunächst die Sekundärstruktur der Proteine durch maschinelles Lernen vorhergesagt wird. Die Sequenzen und die vorhergesagte Sekundärstruktur werden dann mit den gelösten Strukturen in der PDB-Bibliothek abgeglichen, um die bestmöglichen Strukturvorlagen zu identifizieren.
Dieses Verfahren wird als Threading bezeichnet. Nach dem Threading-Verfahren teilt das IT-AER-Programm die Vorlagen basierend auf den Ausrichtungen der Sequenzvorlagen in Fragmente auf und setzt die Fragmente dann im dritten Schritt wieder zu Modellen in voller Länge zusammen. Vollständige atomare Modelle werden durch Verfeinerungen auf atomarer Ebene konstruiert, um Wasserstoffbrückenbindungsnetzwerke zu optimieren und Überlappungen von ster zu entfernen.
Der letzte Schritt des Verfahrens besteht darin, die biologische Funktion der Proteine zu identifizieren, indem die Vorhersagestrukturen mit Proteinen mit bekannter Funktion in der Funktionsbibliothek abgeglichen werden. Der Hauptvorteil von ITER gegenüber der bestehenden Strukturmodellierungsmethode ist der inhärente Ansatz der Strukturfragmentassemblierung, der die Threading-Achsen konsequent näher an den nativen Zustand bringen kann. Diese qualitativ hochwertigen Strukturmodelle bilden auch die Grundlage für genaue strukturbasierte funktionale Annotationen, um die Nutzung von ITER in der wissenschaftlichen Gemeinschaft zu fördern.
Unser Labor hat eine Website zur Verfügung gestellt, auf der die Proteinsequenzen bei iter eingereicht werden können. Diese Website fungiert als Knotenpunkt, bei dem die Benutzer weltweit eine Schnittstelle zu einem Computercluster registrieren können, der ITER-Simulationen verwaltet und ausführt. Ein ITER-Simulationsauftrag besteht aus mehr als einem Dutzend kleinerer Teilsimulationen.
Wenn diese Simulationen auf einem einzelnen Computer mit einem einzigen Prozessorkern ausgeführt werden, können sie über hundert Stunden dauern. Der Computercluster des Zang-Labors nimmt diese Untersimulationen auf und verteilt sie auf Hunderte von Computern und ist in der Lage, über 2000 Simulationen durchzuführen. Parallel zu unserem Computercluster sind wir in der Lage, jeden Tag Hunderte von Schnuppersimulationen durchzuführen.
Selbst mit dieser Kapazität muss viel Arbeit geleistet werden, um das System zu optimieren und die Wartezeit für unsere Online-IT-AER-Benutzer zu minimieren. Um mit dem Struktur- und Funktionsmodellierungsexperiment zu beginnen, loggen Sie sich auf der IT-VRE-Webseite ein. Die URL-Adressen aller hier besprochenen relevanten Webseiten finden Sie im schriftlichen Protokoll.
Kopieren Sie die Aminosäuresequenz und fügen Sie sie in das bereitgestellte Formular ein, oder laden Sie die Sequenz direkt hoch, indem Sie auf die Schaltfläche "Durchsuchen" klicken. Geben Sie eine E-Mail-Adresse und einen Namen für den Auftrag an. Der Benutzer kann optional externe Rückstandskontakt- oder Abstandssicherungen festlegen.
Fügen Sie ein zusätzliches Template hinzu oder schließen Sie einige Template-Proteine während des Strukturmodellierungsprozesses aus. Um die Sequenz einzureichen, klicken Sie auf die Schaltfläche "Run it Taser". Überprüfen Sie den Status des übermittelten Auftrags, indem Sie die Seite für die IT-Taser-Warteschlange besuchen.
Klicken Sie auf die Registerkarte "Suchen" und verwenden Sie die Job-ID-Nummer oder die Abfragesequenz, um nach dem übermittelten Job zu suchen. Nachdem die Struktur- und Funktionsmodellierung abgeschlossen ist, wird eine Benachrichtigungs-E-Mail mit einem Bild der vorhergesagten Strukturen und einem Weblink an die angegebene E-Mail-Adresse gesendet. Klicken Sie auf diesen Link, um die Ergebnisse anzuzeigen und herunterzuladen.
Beginnen Sie mit der Strukturanalyse, indem Sie die Vorhersage der Sekundärstruktur untersuchen, die als H für Alpha-Helix, S für Beta-Strang oder C für Spule angezeigt wird. Berücksichtigen Sie auch den Konfidenzwert der Vorhersage für jeden Rückstand. Suchen Sie nach Regionen mit langen Strukturen regelmäßiger Sekundärstrukturvorhersagen, um die Kernregion im Protein zu schätzen.
Die Strukturklasse des Proteins kann auch anhand der Verteilung der Sekundärstrukturelemente analysiert werden. Zeigen Sie die prognostizierte Zugänglichkeit von Lösungsmitteln an, um vergrabene und lösungsmittelexponierte Bereiche zu ermitteln. In der Abfrage reichen die Werte der vorhergesagten Lösungsmittelzugänglichkeit von einem Wert von null für einen verborgenen Rückstand bis zu einem Wert von neun für einen freiliegenden Rückstand.
Regionen, die hauptsächlich vergrabene Rückstände enthalten, können verwendet werden, um die Kernregion im Protein abzugrenzen, während Regionen mit lösungsmittelfreiliegenden und hydrophilen Rückständen potenzielle Hydratations- oder Funktionsstellen darstellen. Um die vorhergesagten tertiären Strukturen des Abfrageproteins anzuzeigen, scrollen Sie nach unten zur angezeigten interaktiven JMO-App links. Klicken Sie auf das Applet, um das Aussehen der angezeigten Struktur zu ändern.
Zoomen Sie in einen bestimmten Bereich, wählen Sie bestimmte Rückstandstypen im vorhergesagten Modell aus oder berechnen Sie in Rückstandsabstände. Analysieren Sie die Konfidenzwerte der Tragwerksmodellierung, um die Qualität der vorhergesagten Strukturen zu schätzen. Csco-Werte liegen in der Regel im Bereich von minus fünf bis zwei, wobei eine höhere Bewertung ein Modell mit besserer Qualität widerspiegelt.
Der geschätzte TM-Score und der RMSD des ersten Modells werden als geschätzte Genauigkeit des ersten Modells angezeigt. Klicken Sie auf den Link Mehr über csco. Um die CSCO-Clustergröße und -Clusterdichte aller Modelle zu analysieren, analysieren Sie die 10 wichtigsten Threadingvorlagen des Abfrageproteins, die von Threadingprogrammen mit niedrigem METS identifiziert wurden.
Wenn Sie auf der Ergebnisseite nach unten scrollen, können Sie den normalisierten Z-Wert anzeigen, um die Qualität der Threading-Achsen zu analysieren. Alignments mit einem normalisierten csco größer als eins spiegeln ein zuverlässiges Alignment wider und weisen höchstwahrscheinlich die gleiche Faltung wie das Abfrageprotein auf. Untersuchen Sie die Sequenzidentität in der Threading-ausgerichteten Region und für die gesamte Kette, um die Homologie zwischen der Abfrage und den Template-Proteinen zu bewerten.
Eine hohe Sequenzidentität ist ein Indikator für die evolutionäre Verwandtschaft zwischen dem Abfrage- und dem Template-Protein. Zeigen Sie die farbig dargestellten Threading-ausgerichteten Reste an, um konservierte Reste oder Motive in der Abfrage und die Template-Proteine visuell zu identifizieren. Eine höhere Sequenzidentität in der Threading-ausgerichteten Region im Vergleich zur Ausrichtung der gesamten Kette weist auch auf das Vorhandensein konservierter Strukturmotive oder Domänen in der Abfrage hin. Beurteilen Sie die Abdeckung der Gewindeausrichtung, indem Sie die Ausrichtung überprüfen.
Wenn die Abdeckung des Top-Alignments gering und nur auf einen kleinen Bereich des Abfrageproteins beschränkt ist oder für ein langes Segment der Abfragesequenz nicht vorhanden ist, bedeutet dies, dass das Abfrageprotein mehr als eine Domäne enthält. In diesem Fall empfiehlt es sich, die Sequenz aufzuteilen und die Domänen einzeln zu modellieren. In der nächsten Tabelle der Ergebnisseite finden Sie die 10 wichtigsten strukturellen Analoga des ersten vorhergesagten Modells, die durch das Strukturausrichtungsprogramm TM align identifiziert wurden.
Ein TM-Score größer als 0,5 zeigt an, dass das erkannte Analogon und das Modell eine ähnliche Topologie aufweisen und zur Bestimmung der Strukturklasse oder Proteinfamilie des Abfrageproteins verwendet werden können. Diejenigen mit einem TM-Wert von weniger als 0,3 bedeuten eine zufällige Strukturähnlichkeit. Analysieren Sie die Sequenzidentität und den RMSD im strukturell ausgerichteten Bereich, um die Konservierung von räumlichen Motiven im Modell und im strukturellen Analogon zu bewerten.
Prüfen Sie visuell die farbigen und ausgerichteten Restpaare in der Ausrichtung, um diese strukturell konservierten Rückstände und Motive zu identifizieren. Schauen Sie sich die Tabelle mit den vorhergesagten EC-Zahlen an, um die fünf wichtigsten potenziellen Enzym-OGs des Abfrageproteins anzuzeigen. Das Konfidenzniveau der Vorhersage der EC-Zahl unter Verwendung dieser Vorlagen wird als EC-Wert auf der Grundlage einer Benchmarking-Analyse angezeigt.
Die funktionelle Ähnlichkeit zwischen der Abfrage und dem Template-Protein kann mit einem EC-Score von mehr als 1,1 zuverlässig interpretiert werden. Suchen Sie als Nächstes nach einem Konsens der Funktion unter den Vorlagen, die eine ähnliche Faltung wie das Abfrageprotein haben. Wenn mehrere Vorlagen die gleiche EC-Zahl haben und der EC-Wert größer als 1,1 ist, ist das Konfidenzniveau der Vorhersage sehr hoch.
Ist der EC-Score jedoch hoch, aber kein Konsens unter den identifizierten Treffern, wird die Vorhersage weniger zuverlässig und den Anwendern wird empfohlen, die Genetik zu konsultieren. Termvorhersagen Zeigen Sie die Tabelle mit vorhergesagten Genontologiebegriffen an, um die Top 10 Homologe von Abfrageproteinen in der PDB-Bibliothek zu identifizieren, die mit Genontologiebegriffen annotiert sind, jedes Protein ist in der Regel mit mehreren Genontologiebegriffen verknüpft, die seine molekularen Funktionen, biologischen Prozesse und seine zelluläre Position beschreiben. Klicken Sie auf jeden Begriff, um die amigo-Website zu besuchen und seine Definition und Abstammung zu analysieren.
Analysieren Sie die Spalte für den funktionellen Homologie-Score, um auf die funktionelle Ähnlichkeit zwischen der Abfrage und den Template-Proteinen zuzugreifen. Das Konfidenzniveau der Übertragung der funktionellen Annotation von diesen Proteinen kann ebenfalls abgeschätzt werden. Sehen Sie sich die Tabelle mit der Konsensvorhersage von Gen-Ontologie-Begriffen an, um die Übereinstimmung der Funktionen zwischen den Vorlagen zu analysieren.
Diese allgemeinen Funktionen werden verwendet, um die genontologischen Terme des Abfrageproteins vorherzusagen und das Konfidenzniveau von Vorhersagen für Geobegriffe zu bewerten. Scrollen Sie schließlich zum Ende der Seite, um die 10 wichtigsten Vorhersagen der Ligandenbindungsstellen für die Abfrage anzuzeigen. Die von Proteinen vorhergesagten Bindungsstellen werden basierend auf der Anzahl der vorhergesagten Ligandenbestätigungen eingestuft, die sich eine gemeinsame Bindungstasche teilen. Die am besten identifizierte Bindungsstelle wird bereits in der JM OL-App angezeigt.
Klicken Sie auf die Optionsfelder, um andere Vorhersagen zu analysieren und die Ligandenwechselwirkungsreste zu visualisieren. Der BS-Score zeigt die lokale Ähnlichkeit zwischen dem Modell und der Bindungsstelle der Vorlagen. Ein BS-Score von mehr als 1,1 deutet auf eine hohe Sequenz- und Strukturähnlichkeit in der Nähe der vorhergesagten Bindungsstelle hin.
Im Vergleich zu der bekannten Bindungsstelle in der Vorlage enthält die IT ist eine Hauptwebseite Links für andere nützliche Funktionen. Die Forenfunktion ermöglicht es dem Benutzer, ein Online-Konto zu erstellen und sich an andere ITER-Benutzer zu wenden, um Hilfe bei der Strukturmodellierung oder bei der Interpretation der Ergebnisse zu erhalten. Die Download-Funktion ermöglicht es Benutzern, Iter und verwandte Pakete herunterzuladen und auf ihrem Computer zu installieren.
Dies trägt dazu bei, den Zeitaufwand für die Durchführung der Modellierungsexperimente zu reduzieren. Mit der Warteschlangenfunktion kann der Status aller übermittelten Aufträge auf der Seite "IT a Q" angezeigt werden. Benutzer können auch das Bild von modellierten Strukturen visuell auf abgeschlossene Aufträge überprüfen.
Auf dieser Seite finden Sie auch einen Auszug aus der IT-AER-Ergebnisseite, die die schneller formatierte Abfragesequenz, die vorhergesagte Sekundärstruktur und die damit verbundenen Konfidenzwerte sowie die vorhergesagte Lösungsmittelzugänglichkeit der Rückstände zeigt. Die analysierte Kernregion und die potenzielle Hydratationsstelle in der Abfrage werden in cyanfarbenen bzw. roten Rechtecken hervorgehoben. Hier werden die tertiären Strukturvorhersagen für die Abfrageproteine gezeigt.
Die vorhergesagten Modelle werden in einer interaktiven JML-App-Filiale angezeigt, so dass der Benutzer die Anzeige des Moleküls ändern kann. Die Modelle können auch heruntergeladen werden, indem Sie auf die Download-Links klicken, der Konfidenzwert zur Schätzung der Qualität des Modells wird als CSCO angegeben. Ein Beispiel für die itta Eine Ergebnisseite, die die Top 10 der identifizierten Gewindevorlagen und Ausrichtungen durch Loomis-Gewindeprogramme zeigt, wird vorgestellt.
Die Qualität der Gewindeausrichtungen wird auf der Grundlage des normalisierten Z-Werts bewertet, wobei ein Wert größer als eins eine zuverlässige Ausrichtung darstellt. Ausgerichtete Reste in der Vorlage, die mit den entsprechenden Abfrageresten identisch sind, werden farblich hervorgehoben, um das Vorhandensein eines konservierten Rests oder Motivs anzuzeigen. Umgekehrt deutet ein Mangel an Ausrichtung in den meisten der Top-Templates auf das Vorhandensein mehrerer Domänen im Abfrageprotein hin, und die nicht ausgerichteten Reste entsprechen den Domänen-Linker-Regionen.
Diese Tabelle zeigt die 10 wichtigsten identifizierten strukturellen Analoga und strukturellen Ausrichtungen, die durch das TM aligned Structural alignment Program identifiziert wurden. Die Rangfolge der Analoga basiert auf dem TM-Score des strukturellen Alignments. Ein TM-Wert von mehr als 0,5 gibt an, dass die beiden verglichenen Strukturen eine ähnliche Topologie aufweisen.
Während ein TM-Wert von weniger als 0,3 eine Ähnlichkeit zwischen zwei Zufallsstrukturen bedeutet. Strukturell ausgerichtete Restpaare werden basierend auf ihrer Aminosäureeigenschaft farblich hervorgehoben, während die nicht ausgerichteten Bereiche durch einen Strich gekennzeichnet sind. Hier ist ein Beispiel für die ITR-Ergebnisseite, die identifizierte Enzymhomologe des Abfrageproteins in der PDB-Bibliothek zeigt.
Das Konfidenzniveau der EC-Zahlvorhersage wird auf der Grundlage des EC-Scores analysiert, wobei ein EC-Score von mehr als 1,1 auf eine funktionelle Ähnlichkeit zwischen Abfrage- und Template-Protein hinweist. Die Vorhersagetabelle für genontologische Begriffe für das Abfrageprotein enthält funktionelle Homologe für das Abfrageprotein in der Genontologie-Vorlagenbibliothek, die basierend auf ihrem funktionellen Homologie-Score eingestuft werden. Gemeinsame funktionelle Merkmale aus diesen Treffern mit der höchsten Punktzahl werden abgeleitet, um die endgültigen Vorhersagen für den Gen-Ontologie-Begriff für das Abfrageprotein zu generieren.
Die Qualität der vorhergesagten Gen-Ontologie-Begriffe wird auf der Grundlage des Geo-Scores geschätzt, wobei ein Geo-Score von mehr als 0,5 auf eine zuverlässige Vorhersage hinweist, die hier als Beispiel für die IT-AZA-Ergebnisseite gezeigt wird, auf der die Top 10 der Vorhersagen der Proteinliganden-Bindungsstelle unter Verwendung des Cofaktor-Algorithmus angezeigt werden. Die Rangfolge der vorhergesagten Bindungsstellen basiert auf der Anzahl der vorhergesagten Ligandenbestätigungen, die sich eine gemeinsame Bindungstasche teilen. In der Abfrage ist der BS-Score ein Maß für die lokale Sequenz und Strukturähnlichkeit zwischen der vorhergesagten und der Vorlagen-Bindungsstelle und ist nützlich für die Analyse der Konservierung von Bindungsstellentaschen.
Obwohl ISER einer der effizientesten Algorithmen für die Vorhersage von Proteinstrukturen und -funktionen ist, ist es wichtig, sich daran zu erinnern, dass es sich nur um eine Vorhersage von Computeralgorithmen handelt. Alle experimentellen Daten oder Funktionseinblicke, z. B. Rückstandskontakte, Bindungsinformationen, sind äußerst nützlich, um die Genauigkeit von Vorhersagen zu erhöhen. Der IT-VRE-Server verfügt über ein Portal, um diese Informationen während des Modellierungsprozesses einzubeziehen, um dem zunehmenden Interesse daran gerecht zu werden.
Aer, das Zang-Labor, hat die IT-AER-Software kostenlos für die nichtkommerzielle Forschung veröffentlicht. Wir entwickeln aktiv eine sich verbessernde IT-AER und einen besseren Augenverkoster, und in der Hoffnung, dass seine Verfügbarkeit zu einer großflächigen Anwendung außerhalb des Zang-Labors führen und die weitere Forschung in der wissenschaftlichen Gemeinschaft fördern und anregen wird.
Related Videos
10:58
Related Videos
17.7K Views
09:51
Related Videos
16.2K Views
07:49
Related Videos
7.5K Views
09:37
Related Videos
4.1K Views
06:50
Related Videos
2.7K Views
05:08
Related Videos
1.3K Views
19:16
Related Videos
21.2K Views
07:57
Related Videos
17.1K Views
15:02
Related Videos
11.3K Views
09:27
Related Videos
65.7K Views