$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Der oben beschriebene Workflow wurde auf eine MS-Dataset auf der PRIDE-Repository38,39angewendet. Die ursprüngliche Studie entwickelt eine Methode (iMixPro), mit stabilen Isotopen Kennzeichnung der Aminosäuren in der Zellkultur (SILAC), um Fehlalarme aus Affinitätsreinigung MS zu beseitigen (AP-MS) Experimente38. Kurz gesagt, besteht darin, ein AP-MS-Experiment Perlen-gebundenen Antikörper, um ein Protein des Interesses (Köder) und seine Interaktoren (Beute) zu holen. Die gesammelten Proteine werden dann verdaut und für MS vorbereitet. Die Sample-Vorbereitung-Methode und die Geräteeinstellungen werden in der ursprünglichen Studie und auf das stolz-Repository (PXD004246) beschrieben. Eine Herausforderung in solchen Experimenten ist die Fülle von false Positives, vor allem aus Proteine binden an die Perlen aber nicht den Köder. Hier wir SILAC verwendet, um unterschiedliche Isotopenverhältnisse zwischen wahren Beute und Fehlalarme zu generieren: 3 Kontrollproben (ohne Köder) kultiviert in Lichtmedium, 1 Probe mit dem Ausdruck des Köders in Lichtmedium kultiviert und 1 Probe mit dem Ausdruck des Köders in schweren Medium kultiviert werden mit Perlen und weiteren Massenspektrometrie Analyse verarbeitet. Mit solch Design haben unspezifische Proteine binden an die Perlen eine schwer-leicht-Verhältnis von 1:4; Wann werden echte Beute haben ein Verhältnis von 1:1-38.
Wir analysiert erneut ihre AP-MS-Daten mithilfe der OpenProt-Datenbank; die Köder enthalten drei körpereigene Proteine (PTPN14, JIP3 und IQGAP1) und zwei ausgedrückt über Proteine (RAF1 und RNF41). Da die Experimente SILAC verwendet, diente der Galaxy-Workflow für Protein Quantifizierung (Ergänzende Material S3, Abbildung 2). Der Workflow wurde mit der ganzen OpenProt (OpenProt_all) oder eingeschränkte OpenProt Datenbank (OpenProt_2pep, einschließlich nur Proteine, die zuvor mit einem Minimum von zwei einzigartigen Peptiden erkannt) ausgeführt.
Proteinidentifizierung und Quantifizierung waren gut und reproduzierbar auf die unterschiedlichen verwendeten Datenbanken. Wie in Abbildung 3dargestellt, wurden die meisten Proteine identifiziert in der Originalpublikation auch identifiziert mit Hilfe der OpenProt_2pep oder OpenProt_all Datenbank (eine ausführliche Liste ist verfügbar in Ergänzenden Material S5). Dieses Ergebnis zeigt, dass die hier beschriebenen Pipeline und die OpenProt Datenbanken herstellen Proteinidentifizierung und Quantifizierung des aktuellen Verfahren basierend auf der UniProtKB Datenbanken40vergleichbar sind. Die Verwendung von OpenProt Datenbanken hat jedoch den einzigartigen Vorteil Erkennung neuer und bisher nicht nachweisbar Proteine, wie in diesem Fall zeigt studieren.
11 untermauerten Proteine (1 Isoform und 10 AltProts), aber derzeit nicht kommentierte in Datenbanken wurden über alle Datensätze mit zuversichtlich Peptide, Verwendung der OpenProt_2pep-Datenbank (alle Protein Beitritte, sowie die Anzahl der unterstützen identifiziert. Peptide, gibt es in Ergänzenden Material S5). Diese Datenbank ermöglicht die Verwendung einer traditionellen 1 % FDR als die Erhöhung der Suche Raum bleibt moderat. Diese 11 Proteine wurden nicht in der ursprünglichen Studie identifiziert, als sie abwesend waren aus der Datenbank.
29 neue Proteine (16 Isoformen und 13 AltProts) entdeckte man über alle Datensätze mit zuversichtlich Peptide, Verwendung der OpenProt_all-Datenbank (alle Protein Beitritte, zusammen mit der Anzahl entsprechender Peptide sind erhältlich in ergänzende Material S6 ). Wie in Abbildung 3dargestellt, beeinflusste die empfohlenen strengen FDR die zuversichtlichsten Protein Identifikationen, nicht obwohl es die Gesamtzahl der identifizierten Proteine zu verringern. Vergleichsweise kann mit der OpenProt_2pep-Datenbank, eine höhere Anzahl von neuen Proteine selbstbewusst identifiziert werden. Alle diese neuartige Proteine fehlen aus der OpenProt_2pep-Datenbank. Dies unterstreicht die entscheidende Rolle der ausgewählten Datenbank für MS-basierte Proteomics.
Ein neuartiges Protein wurde als ein Interaktor des RAF1 Proteins (IP_637643) entdeckt. Nutzung der Internetseite OpenProt kann man dieses Protein hatte nicht von MS noch Ribosom Profilerstellung bis jetzt erkannt wurden (OpenProt v1. 3). Das Protein ist 46 Aminosäuren lang und kann nur zwei einzigartige Peptide auf tryptic Verdauung geben. Das Peptid entdeckt in RAF1 AP-MS Dataset (Teil 18) hatte ein gutes Spektrum, wie in Abbildung 4dargestellt, und ein schwer-leicht-Verhältnis von 1,09 angezeigt. Das Protein wird im NANOGNBP1 -Gen kodiert ein Pseudogene NANOGNBist. Das Transkript (ENST00000448444), derzeit als nicht-kodierenden, kommentiert wurde über mehrere Gewebe nach der GTEx Portal40erkannt. Das Protein enthält eine vorhergesagte funktionale Domäne DNA-Bindung (Gene Ontology GO: 0003677)41zugeordnet.

Abbildung 1 : Datenbank-Wahl für Proteomics Analysen Diagramm. Analysen von MS Daten, insbesondere die Datenbank Wahl, hängen die Forschungsziele. Drei gemeinsame Ziele werden in blau (klassische Proteomic Pipeline), grün (erschöpfende Proteomic Suche) und Orange (Proteomic Entdeckung) beschrieben. Jedes Ziel richtet sich nach einer entsprechenden Datenbank und Pipeline. Eine einheitliche Kennzeichnung Werkzeug verwendet werden, für eine erschöpfende und klassischen Proteomics Rohrleitungen. Für die Proteomik-Entdeckung-Pipeline empfehlen wir mehrere Identifikation-Engines. Empfohlene FDRs werden in rot angezeigt, und Protein-Datenbank-Größen werden im grauen Kästchen angezeigt. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 2 : Grafische Darstellung des Galaxy Workflows verwendet. Schrittweise Darstellung des Proteomic Analysen Workflows für Re-Analyse von Eyckerman Et Al. Daten38verwendet. Eingabedateien, Suche Peptid und Protein Quantifizierung sind durch orange Box angezeigt. Blauen Kästen entsprechen die eingesetzten Werkzeuge und graue Kästchen entsprechen die Ausgabedateien erzeugt. Verschiedene Suchmaschinen (MS-GF + und X! Tandem) werden durch verschiedene Farben (bzw. rot und violett) als auch die Pfeile, die die notwendigen ein- und Ausgänge angezeigt. Das grüne Feld zeigt das Tool eine Liste von Protein Identifikationen erzeugen. Wenn mehrere Ausgaben generiert werden, für die nachgelagerten Stufen angegeben am nächsten auf den Pfeil. Dieser Workflow ist in Ergänzenden Material S2frei verfügbar. X! Tandem Standardkonfigurationsdatei Parameter gibt es in Ergänzenden Material S4. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 3 : Vergleich der interactor Identifikation pro Köder mit unterschiedlichen Datenbanken. Venn-Diagramme von Protein Identifikationen mit die zuversichtlichsten OpenProt-Datenbank (in Orange, Nachweise von mindestens 2 einzigartige Peptide, OpenProt_2pep) mit einem 1 % FDR oder die ganze OpenProt Datenbank (in blau, OpenProt_all) mit einer 0,001 % FDR, oder wie berichtet in der ursprünglichen Papier (in grau)38. Jedes Diagramm entspricht identifizierten Interaktoren für die erwähnten Köder: RAF1, RNF41, PTPN14, JIP3 und IQGAP1. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 4 : MS/MS-Spektrum der ermittelten MDNLWAK(13 6) Peptid aus neuartiges Protein IP_637643. Intensität ist relativ (0 bis 100 %). Ausgewählten Spitzen sind in rot, y-Ionen Anmerkungen in dunklem Rot und b Ionen Anmerkungen in grün sind angegeben. Auszug aus der TOPPview-Software-34. Vorläufer-Fehler = 2,70 ppm, PEP-Score = 0,12. Bitte klicken Sie hier für eine größere Version dieser Figur.
| Begriff | Definition | Referenz |
| Alternative ORF (AltORF) | nicht-kanonische ORF derzeit nicht im Genom Anmerkungen kommentiert, sondern kommentiert in OpenProt. | 15 |
| Referenz ORF (RefORF) | kanonische ORF kommentierte in Genom Anmerkungen und OpenProt. | 15 |
| Alternative Protein (AltProt) | neuartiges Protein kodiert durch eine AltORF, mit keine deutliche Ähnlichkeit mit einem RefProt. Beitritt-Präfix: IP_. | 15 |
| Referenzproteins (RefProt) | Protein derzeit kommentiert in Protein Sequenzdatenbanken wie UniProtKB, Ensembl oder NCBI RefSeq, und auch in OpenProt. | 15 |
| Neuartige Isoform | neuartiges Protein kodiert durch eine AltORF, mit eine deutliche Ähnlichkeit mit einem RefProt. Beitritt-Präfix: II_. | 15 |
| OpenProt_2pep Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine vorhergesagt durch OpenProt, mit einem Minimum von 2 einzigartige Peptide bereits erkannt. | 15 |
| OpenProt_1pep Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine vorhergesagt durch OpenProt, mit einem Minimum von 1 einzigartige Peptid bereits erkannt. | 15 |
| OpenProt_all Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine von OpenProt vorhergesagt. | 15 |
Tabelle 1: Definition der Begriffe, die in OpenProt und in das Protokoll
Ergänzende Material S1: Galaxy-Workflow für die Handhabung von Datenbanken. Dies wird die CRAPome und Köder-Sequenzen (rückwärts) mit der Eingabe-Datenbank anhängen. Ausgabe ist einer Fasta-Datei. Bitte klicken Sie hier, um download.
Ergänzende Material S2: Galaxy-Workflow für Proteinidentifizierung. Dies erkennt Proteine aus einer Massenspektrometrie-Datendatei mit zwei Suchmaschinen (MS-GF + und X! (Tandem). Jeder Parameter kann abgestimmt werden bevor Sie den Workflow ausführen wie gewünscht. Bitte klicken Sie hier, um download.
Ergänzende Material S3: Galaxy-Workflow für Protein Quantifizierung mit stabilen Isotopen Kennzeichnung (SIL). Dies wird identifizieren und quantifizieren Proteine aus einer Massenspektrometrie-Datendatei mit zwei Suchmaschinen (MS-GF + und X! (Tandem). Jeder Parameter kann abgestimmt werden bevor Sie den Workflow ausführen wie gewünscht. Bitte klicken Sie hier, um download.
Ergänzende Material S4: X! Tandem Parameter Standardkonfigurationsdatei. Dieser XML-Datei ist zum Ausführen von X erforderlich! TandemAdapter-Tool auf der Galaxy-Plattform. Bitte klicken Sie hier, um download.
Ergänzende Material S5: quantifiziert Proteine aus iMixPro Datasets. Datendateien von Eyckerman Et Al. 201638 wurden mit OpenProt Datenbanken verarbeitet und quantifizierte Proteine sind für jede Bedingung aufgeführt. Köder sind PTPN14, JIP3, IQGAP1, RAF1 und RNF41. Gen Namen angegeben in grün entsprechen Proteine auch in der ursprünglichen Papier38identifiziert. Gen Namen angegeben in Orange entsprechen bekannten Interaktoren nach BioGrid, die nicht in der Originalpublikation gemeldet wurden. Gen Namen angegeben in hellblau entsprechen neuartige Proteine identifiziert als Interacter (die entsprechende Protein-Zbl-Nummer ist in Klammern angegeben). Gen Namen angegeben in hellem Grau und kursiv entsprechen wahrscheinlich Verunreinigungen (Keratin Proteine). Bitte klicken Sie hier, um download.
Ergänzende Material S6: neuartige Proteine aus iMixPro Datasets identifiziert. Datendateien von Eyckerman Et Al. 201638 wurden mit OpenProt Datenbanken verarbeitet und neue identifizierte Proteine sind für jede Bedingung aufgeführt. Köder sind PTPN14, JIP3, IQGAP1, RAF1 und RNF41. Protein-Beitritt-Nummern sind aufgeführt, beginnend mit II_ für neuartige Isoformen eines bekannten Proteins und mit IP_ für neue Proteine aus einer alternativen ORF (AltProt). Die Anzahl der Unterstützung Peptide sind in Klammern angegeben. Bitte klicken Sie hier, um download.