Genetics

Eine schnelle und Quantitative Methode für Post-translationale Modifikation und Variante aktiviert Mapping von Peptiden mit Genomen

Published: May 22, 2018 doi: 10.3791/57633

Christoph N. Schlaffner^1,2,3, Georg J. Pirklbauer², Andreas Bender³, Judith A.J. Steen¹, Jyoti S. Choudhary^2,4

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

Hier stellen wir Ihnen das Proteogenomic-Tool PoGo und Protokolle für den schnellen, quantitativen, Post-translationale Modifikation und Variante aktiviert Zuordnung von Peptiden durch Massenspektrometrie auf Referenz Genomen identifiziert. Dieses Tool ist von nutzen, zu integrieren und Proteogenomic und persönliche Proteomik-Studien mit orthogonalen Genomik Daten zu visualisieren.

Abstract

Übersprechen zwischen Genen, Abschriften und Proteinen ist der Schlüssel zur zellulären Reaktionen; Daher wird Analyse der molekularen Niveaus als getrennte Einheiten für integrative Studien um das Verständnis der molekularen Dynamik innerhalb der Zellen zu verbessern langsam ausgebaut. Aktuellen Tools für die Visualisierung und die Integration der Proteomik mit anderen Omics-Datasets sind unzureichend für groß angelegte Studien. Darüber hinaus erfassen sie nur grundlegende Sequenz identifiziert haben, verwerfen, Post-translationalen Modifikationen und Quantifizierung. Um diese Probleme anzugehen, entwickelten wir PoGo um Peptide mit zugehörigen Post-translationalen Modifikationen und Quantifizierung Genom Anmerkung verweisen zuzuordnen. Darüber hinaus wurde das Tool entwickelt, um die Zuordnung der Peptide identifiziert von angepassten Sequenzdatenbanken integrieren einzelne Aminosäure Varianten ermöglichen. PoGo ist ein Kommandozeilen-Tool, ermöglicht die grafische Oberfläche PoGoGUI nicht Bioinformatik Forschern problemlos Peptide 25 Arten von Ensembl Genome Annotation unterstützt zugeordnet. Die generierte Ausgabe leiht Datei-Formate aus dem Bereich Genomik und Visualisierung wird daher in den meisten Genom-Browsern unterstützt. Für groß angelegte Studien gestützt PoGo TrackHubGenerator Web zugänglichen Sammlungen von Daten zugeordnet, Genome, die es auch ermöglichen eine einfache Weitergabe von Proteogenomics Daten zu erstellen. Mit wenig Aufwand kann dieses Tool Millionen von Peptiden Genome in nur wenigen Minuten verweisen übertrifft andere Tools verfügbar-Sequenz-Identität zuordnen. Dieses Protokoll zeigt die besten Ansätze für die Proteogenomics Zuordnung durch PoGo mit öffentlich verfügbaren Datensätzen der quantitativen sowie Phosphoproteomics und groß angelegte Studien.

Introduction

In Zellen Genom, Transkriptom und Proteom beeinflussen sich gegenseitig, um eine Reaktion auf interne und externe Reize zu modulieren und beeinflussen sich gegenseitig, bestimmte Aufgaben zu Gesundheit und Krankheit. Charakterisierung und Quantifizierung von Genen, Abschriften und Proteinen ist demzufolge entscheidend für zelluläre Prozesse vollständig zu verstehen. Next Generation Sequencing (NGS) ist eines der am häufigsten angewandten Strategien zu identifizieren und quantifizieren gen und Transkript Ausdruck. Protein-Expression wird jedoch häufig durch Massenspektrometrie (MS) bewertet. Bedeutende Fortschritte in der MS-Technologie in den letzten zehn Jahren hat es mehr eine vollständige Identifizierung und Quantifizierung der Proteome, sodass die Daten vergleichbar mit Transkriptom¹ermöglicht. Proteogenomics und Multi-Omics als Mittel zur Integration von NGS und MS Daten geworden leistungsfähige Ansätze über mehrere Molekulare Ebenen, zelluläre Prozesse einzuschätzen Subtypen von Krebs zu erkennen und führt zu neuartigen mögliche Drogeziele Krebs² ^, ³. es ist wichtig zu beachten, dass Proteogenomics wurde zunächst zur Proteomic gen und Transkript Anmerkungen⁴belegen. Mehrere vorher gedacht, um nicht-kodierende Gene wurden erst kürzlich eine erneute Bewertung unter Berücksichtigung der großen menschlichen Gewebes Datasets⁵^,⁶^,⁷durchgemacht. Darüber hinaus werden Proteomic Daten erfolgreich zur Annotation unterstützen-Modellorganismen⁸^,⁹. Jedoch Proteogenomic-Daten-Integration weiter Höhepunkt Proteinexpression in Bezug auf genomische Funktionen genutzt werden kann und Übersprechen zwischen Transkripte und Proteine zu erhellen, indem Sie eine kombinierte Bezugssystem und Methoden für Co-Visualisierung.

Um einen gemeinsamen Referenzrahmen für Proteomics, Transkriptom und Genomik Daten zu gewährleisten, wurden zahlreiche Werkzeuge für Zuordnung Peptide identifiziert durch MS auf Genom Koordinaten¹⁰^,¹¹^,¹² ^{implementiert ,}¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. Ansätze unterscheiden sich in Aspekten wie Zuordnung Referenz, Unterstützung von Genom-Browsern und Grad der Integration mit anderen Proteomics-Tools wie in Abbildung 1dargestellt. Während einige Tools reverse übersetzten Peptide auf ein Genom¹⁶Karte, verwenden andere eine Suchmaschine kommentiert Position im Protein und gen Annotation, um die Nukleotidsequenz der Peptid-¹⁵zu rekonstruieren. Noch verwenden andere 3 oder 6-Rahmen Übersetzung des Genoms Peptide gegen¹¹^,¹³zuordnen. Zu guter Letzt mehrere Tools überspringen die Nukleotidsequenzen und Verwendung Aminosäure-Sequenz Übersetzungen von RNA-Sequenzierung abgebildet Transkripte als Zwischenprodukt der zugehörigen Genom Koordinaten¹⁰^,¹²^{Peptide zuordnen,} ¹⁴^,¹⁷. Aber die Übersetzung von Nukleotidsequenzen ist ein langsamer Prozess und benutzerdefinierte Datenbanken sind anfällig für Fehler, die an das Peptid Mapping weitergegeben. Für schnelle und Hochdurchsatz-Mapping ist eine kleine und umfassende Referenz entscheidend. Daher unbedingt eine standardisierte Protein-Referenz mit zugehörigen Genom Koordinaten für genaue Peptid Genom Zuordnung. Neue Aspekte in Proteogenomics, wie die Einbeziehung von Varianten und Post-translationalen Modifikationen (PTMs)²^,³, werden durch neuere Studien immer wichtiger. Jedoch sind diese im Allgemeinen nicht unterstützt von aktuellen Proteogenomic mapping-Tools wie in Abbildung 1dargestellt. Zur Verbesserung der Geschwindigkeit und Qualität des Mappings wurde PoGo entwickelt, ein Tool, das die schnelle und quantitative Zuordnung von Peptiden, Genome¹⁸. Darüber hinaus ermöglicht PoGo die Zuordnung von Peptiden mit bis zu zwei Sequenzvarianten und kommentierten Post-translationalen Modifikationen.

PoGo wurde entwickelt, um mit der raschen Zunahme der quantitativen hochauflösenden Datasets Erfassung Proteome und globale Änderungen zu bewältigen und bietet ein zentrale Dienstprogramm für groß angelegte Analysen wie persönliche Variation und präzisionsmedizin. Dieser Artikel beschreibt die Anwendung dieses Instruments, das Vorhandensein von Post-translationale Modifikation in Bezug auf genomische Funktionen zu visualisieren. Darüber hinaus unterstreicht dieses Artikels die Identifizierung von alternativen Spleißen Ereignisse durch zugeordnete Peptide und die Zuordnung von Peptiden, die durch benutzerdefinierte Variante Datenbanken zu einer Referenz-Genoms identifiziert. Dieses Protokoll setzt öffentlich verfügbare Datensätzen heruntergeladen vom stolz Archiv¹⁹ um diese Funktionalitäten der PoGo zu demonstrieren. Dieses Protokoll beschreibt darüber hinaus die Anwendung von TrackHubGenerator für die Erstellung von online-zugänglichen Naben von Peptiden zugeordnet Genome für groß angelegte Proteogenomics Studien.

Protocol

1. Vorbereitung, Download und Setup

Hinweis: Die Datei- und Ordnernamen Pfad Beispiele sind in einem Windows-Format für die Leichtigkeit des Zugangs für Standardbenutzer gezeigt. PoGo und PoGoGUI sind auch für MacOS und Linux-Betriebssysteme zur Verfügung.

PoGo und PoGoGUI von GitHub herunterladen
1. Öffnen Sie einen Webbrowser und navigieren Sie zu PoGo auf GitHub (http://github.com/cschlaffner/PoGo/). Versionen auswählen und Herunterladen der neuesten Version ZIP-komprimierten Datei. Extrahieren Sie die komprimierte Datei in den ausführbaren Dateien Ordner (z.B.C:\PoGo\executables\).
2. Navigieren Sie im Web-Browser zu PoGoGUI auf GitHub (http://github.com/cschlaffner/PoGoGUI/). Versionen auswählen und Herunterladen der neuesten Version Jar-Datei (z. B. "PoGoGUI-v1.0.2.jar"). Speichern Sie die Jar-Datei im Ordner "Programme".
Laden Sie die Genom-Anmerkung und übersetzte Protein-kodierenden Sequenzen
Hinweis: Laden Sie die Genom-Anmerkung und übersetzte Protein-kodierenden Sequenzen für unterstützten Arten von GENCODE⁷ (www.gencodegenes.org) oder Ensembl²⁰ (www.ensembl.org) in der allgemeinen Transfer Format (GTF) und die Proteinsequenzen in FASTA-Format.
1. Im Web-Browser, navigieren Sie zu www.gencodegenes.org und wählen Sie Daten | Menschlichen | Aktuelle Version. Die umfassende gen Anmerkung über den GTF-Link downloaden und entpacken Sie die Gz-komprimierte Datei in den Data-Ordner (z.B.C:\PoGo\Data\) mit einem entpacken-Programm (z.B.7-Zip).
2. Downloaden Sie der Protein-kodierenden Transkript Übersetzung Sequenzen über den FASTA-Link und entpacken Sie die Gz-komprimierte Datei in den Data-Ordner, die im vorherigen Schritt erstellt.
  1. Alternativ navigieren im Web-Browser zu www.ensembl.org, und wählen Sie Downloads , gefolgt von Daten per FTP herunterladen. Finden Sie einen unterstützten Arten (z.B.Mensch). Laden Sie die neuesten Release-Datei für Transkript Anmerkung über den GTF-Link in der Spalte Gene festgelegt . Wählen Sie die Datei mit Namen "species.release.gtf.gz", und extrahieren Sie die Gz-komprimierte Datei in den Ordner Data.
3. Laden Sie die neueste Version Protein kodierenden Transkript Übersetzung Sequenzen mit der FASTA in der Proteinsequenz (FASTA) Spalte verbinden. Wählen Sie die Datei mit dem Namen "species.release.pep.all.fa.gz", und extrahieren Sie die Gz-komprimierte Datei in den Ordner Data.
Peptid Identifikation Dateien vorbereiten
Hinweis: PoGo unterstützt nur eine 4-Spalten-Format mit Probe-ID, Peptidsequenz, Anzahl der Peptid-Spektrum-Matches (Pvsm) und quantitativer Wert. Jedoch PoGoGUI unterstützt standardisierte Identifizierung Datei Formate: MzIdentML, Mzid und MzTab, und wandelt sie in PoGo 4-Spalten-Format mit den öffentlich zugänglichen Rahmen ms-Daten-Kern-API-²¹. Dateien in MzIdentML, Mzid oder MzTab-Format können vom stolz Archiv¹⁹heruntergeladen werden. Alternativ können die Angaben in eine tabulatorgetrennte Datei-Format mit der Erweiterung haben.TSV oder .pogo. Das Format enthält 4 Spalten mit den folgenden Spaltenüberschriften: Probe-ID (Beispiel), Peptid-Sequenzen (Peptid), Anzahl der Peptid-Spektrum-Matches (Pvsm) und Peptid Quantifizierung (Quant). Ein Beispiel ist in Abbildung 2dargestellt.
1. Laden Sie eine Beispieldatei im MzTab-Format von einer Proteomics-Studie über menschliche Hoden vom stolz Archiv¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²).
2. Speichern Sie und extrahieren Sie die Gz-komprimierte Datei in den Ordner Data im Schritt 1.2.1 erstellt.
  Hinweis: Alternativ herunterladen Sie Beispieldaten für menschliche Phosphoproteomics gesucht mit MaxQuant aus dem stolz-Archiv (Datei "Traktman_2013_MaxQuantOutput-full.zip" aus https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³).
3. Speichern Sie und extrahieren Sie die Zip-komprimierte Datei im Ordner "Daten", die in Schritt 1.2.1 erstellt wurde.
4. Eine leere Kalkulationstabelle öffnen und importieren Sie die peptides.txt-Datei aus dem Ordner C:/PoGo/Daten/Traktman_2013_MaxQuantOutput-voll/kombiniert/Txt/mithilfe der Option Daten | Aus Text/CSV-Datei. Klicken Sie im sich öffnenden Fenster auf Bearbeiten.
5. Entfernen Sie alle Spalten mit Ausnahme von "Sequence", "Experiment BR1", "Experiment BR2", "Experiment BR3", "Verhältnis H/L normalisiert BR1", "Verhältnis H/L normalisiert BR2" und "Verhältnis H/L normalisiert BR3".
6. Wählen Sie die Spalten "Verhältnis H/L normalisiert BR1", "Verhältnis H/L normalisiert BR2" und "Verhältnis H/L normalisiert BR3" und klicken Sie auf Transformation | UNPIVOT Spalten. Wählen Sie die Spalten "Experiment BR1", "Experiment BR2" und "Experiment BR3" und wiederholen Sie den Vorgang Unpivot.
7. Wählen Sie die resultierende Spalte "Attribute" und der Inhalt mit Transformation | Split Spalte | Durch Trennzeichen. Leerzeichen als Trennzeichen in der Drop-Down-Menü auswählen. Wiederholen Sie den Vorgang für die Spalte "Attribute.1".
8. Die daraus resultierende Spalten "Attribute.1.1", "Attribute.2", "Attribute.3" und "Attribute.1.1.1" entfernen.
9. Fügen Sie eine Spalte mithilfe von die Spalte hinzufügen | Benutzerdefinierte Spalte Option. Anpassen die benutzerdefinierten Spaltenformel um Folgendes darzustellen: "= [Attribute.4]=[Attribute.1.2]".
10. Anwenden eines Filters auf die generierte benutzerdefinierte Spalte herausfiltern alle Zeilen mit "FALSE"; nur Zeilen mit "TRUE" werden bleiben.
11. Entfernen Sie die Spalten "Attribute.1.2" und "Benutzerdefiniert" und ändern Sie die Reihenfolge der übrigen Spalten Folgendes: "Attribute.4", "Sequence", "Value.1" und "Wert".
12. Ändern Sie die Spaltennamen in "Experiment", "Peptid", "Pvsm" und "Quant", beziehungsweise. Laden Sie die Datei mit Home | Schließen & laden.
13. Speichern Sie die Datei als eine tabulatorgetrennte Datei mit Datei | Speichern als , und wählen Sie "Text (Tab getrennt) (*.txt)". Ändern Sie den Namen in "peptides_pogo.txt" und speichern Sie sie in den Ordner C:/PoGo/Daten.

2. Zuordnung Peptide mit kommentierten Post-translationalen Modifikationen und Visualisierung mit Quantifizierung

Hinweis: Die resultierende Ausgabedatei kann in jedem Browser erweiterbare Daten (Bett) Format unterstützen Genom-Browser geladen werden. Eine Auswahl an Browsern ist die Integrative Genome Browser (IGV)-²⁴ (die im folgenden verwendet wird), der UCSC Genome Browser²⁵und Ensembl Genome Browser²⁰. Es ist wichtig zu beachten, dass die Annotation GTF und Protein FASTA Versionen für PoGo-Mapping verwendet die Version des Genoms im Genom Browser übereinstimmen. Verwenden Sie für die menschlichen Ensembl Releases 57-75 und GENCODE Versionen 3d-19 GRCh37/hg19; Verwenden Sie für die Ensembl Versionen 76 oder höher und GENCODE 20 oder höher GRCh38/hg38. Für die Maus Ensembl Versionen 74 oder höher und GENCODE M2 oder höher, verwenden Sie GRCm38.

Karte mit PoGoGUI Peptide (siehe Abbildung 3).
1. Navigieren Sie zu der ausführbaren Dateien Ordner. Starten Sie das Programm durch Doppelklick auf das Symbol PoGoGUI-vX.X.X.jar.
  Hinweis: Die grafische Oberfläche startet und ermöglichen einfache und visuelle Auswahl der Optionen.
2. Verwenden Sie die Select -Taste neben der "PoGo ausführbaren Datei". Navigieren Sie dann im Ordner "ausführbare Dateien" in den relevanten Betriebssysteme Unterordner (z.B.C:\PoGo\Executables\Windows\). Wählen Sie die ausführbare Datei des PoGo (z.B.PoGo.exe) und bestätigen Sie ihre Auswahl durch Klicken auf die Schaltfläche Öffnen .
3. Wählen Sie die Referenz-Eingabedatei für Proteinsequenzen durch Anklicken auswählen. Navigieren Sie zu den Data-Ordner und wählen Sie die Übersetzung FASTA-Datei. Bestätigen Sie ihre Auswahl durch Klicken auf die Schaltfläche Öffnen .
4. Wählen Sie die Aufzeichnungsdatei Anmerkung mit der Schaltfläche " auswählen ". Navigieren Sie zu den Data-Ordner und wählen Sie die Anmerkungsdatei GTF. Bestätigen Sie die Auswahl durch Klicken auf die Schaltfläche Öffnen .
5. Fügen Sie die Peptid-Identifikation-Datei – Datei-Mehrfachauswahl aktiviert ist – mithilfe der Schaltfläche " Hinzufügen " neben "Peptid-Dateien". Wählen Sie eine Datei im Format unterstützt MzTab, MzIdentML oder Mzid oder in die tabulatorgetrennte 4-Spalten-Format heruntergeladen und in Schritt 1.3 vorbereitet.
6. Deaktivieren Sie die Kontrollkästchen neben Bett und GTF in der Ausgabe-Formate-Auswahl. Nur lassen Sie PTM Bett und GCT überprüft.
7. Wählen Sie die geeignete Art für die Daten aus der Drop-Down-Auswahl. Es ist wichtig, dass die FASTA-Datei, die GTF-Datei und die Drop-Down-Auswahl für die gleiche Art sind.
8. Zuordnen, indem Sie auf die Schaltfläche " START " starten.
  Hinweis: Falls erforderlich, PoGoGUI wird die Eingabedatei in Pogo-Format umwandeln, bieten die Pogo-Dateien im selben Ordner für zukünftige Bequemlichkeit und Starten des Zuordnungsprozesses. Die Umwandlung einer einzigen MzTab-Datei in Schritt 1.3.1 heruntergeladen dauert zwischen 10-20 min vor Beginn Zuordnung.
Visualisierung im integrative Genomics viewer
Hinweis: Siehe Abbildung 4.
1. Der PoGo Ausgabedatei die Endung "_ptm.bed" in der IGV durch Datei laden | Aus Datei laden und wählen Sie die Datei.
  Hinweis: Aufgrund der Größe möglicherweise einige Dateien die Erzeugung eines Indexes zu ermöglichen ein schnelles Nachladen der genomischen Regionen. Die IGV wird der Benutzer automatisch an die Generation aufgefordert. Folgen Sie den Anweisungen angegeben.
2. Wiederholen Sie die Belastung für die Datei die Endung "_noptm.bed". Diese Datei enthält alle Peptide gefunden, ohne jede Änderung.
3. Beachten Sie, dass jedes geladene Datei als separate Spuren mit den Namen der Datei Identifizierung der Streckengleis angezeigt werden. Ordnen Sie Tracks per Drag & Drop an die gewünschte Position in der Liste.
4. Beachten Sie, dass jede Spur zunächst in einer eingestürzten Weise gezeigt wird. Erweitern sie, einen Rechtsklick auf den Track-Namen und wählen entweder erweitert für eine Vollansicht der Peptide einschließlich der Sequenzen oder für eine gestapelte Ansicht gequetscht.
5. Wiederholen Sie die Belastung für die Datei die Endung ".gct". Diese Datei enthält die Peptid-Quantifizierung pro kommentierte Probe.
6. Im Gegensatz zu für die Dateien geladen, wird als eine separate Spur jede kommentierte Probe geladen. Reorganisieren der Proben durch drag & drop-Operationen.
7. Navigieren Sie innerhalb des Genoms durch Auswahl eines Chromosoms im Drop-Down-Menü, genomische Koordinaten geben Sie ein, suchen Sie eine gen-Symbol oder klicken Sie und halten Sie, wählen einen Abschnitt eines Chromosoms zu vergrößern.

3. Zuordnung Peptide identifiziert durch eine benutzerdefinierte Variante Datenbank zu einer Referenz-Genom

Hinweis: PoGo-Mapping kann mithilfe der grafischen Benutzeroberfläche (GUI) oder durch den Kommandozeilen-Schnittstelle erfolgen. Sie sind austauschbar. In diesem Teil des Protokolls wird die Kommandozeilen-Schnittstelle zur Austauschbarkeit zu markieren. Der zweite Teil dieses Abschnitts Protokoll erfordert Software Tool R²⁶. Bitte stellen Sie sicher, dass das Paket installiert ist.

Ordnen Sie die Referenz-Peptide das Referenz-Genom.
1. Öffnen Sie eine Eingabeaufforderung (Cmd) und navigieren Sie zu der ausführbaren Dateien Ordner von PoGo (z.B.C:\PoGo\Executables\).
2. Geben Sie den folgenden Befehl:
  PoGo.exe - Gtf \PATH\TO\GTF Fasta - \PATH\TO\FASTA-im \PATH\TO\IN-format Bett-Arten MYSPECIES
  1. Ersetzen Sie die \PATH\TO\GTF, \PATH\TO\FASTA und \PATH\TO\IN mit Pfaden, die Annotation GTF Proteinsequenz FASTA und Peptid-Identifikation-Datei (in der 4-Spalten-Format mit Datei-Endung "haben.TSV" oder ".pogo") beziehungsweise. Auch ersetzen Sie MYSPECIES mit den Arten, die konsistent mit den Daten (z.B. Mensch).
3. Bestätigen Sie die Ausführung durch Drücken der Taste "Enter". Warten Sie, bis die Ausführung abgeschlossen ist, bevor weiter voran.
  Hinweis: Dies kann einige Minuten dauern. Die resultierende Datei wird in demselben Ordner wie die Peptid-input-Datei gespeichert werden und wird als \PATH\TO\OUT.pogo.bed im folgenden betrachtet werden.
Extrahieren Sie nur variant Peptide aus der Eingabedatei.
1. Offenen R und Belastung der Input-Datei \PATH\TO\IN mit dem folgenden Befehl:
  InputData <-read.table("PATH/TO/IN",header=TRUE,sep="\t")
2. Laden Sie die bereits zugeordneten Peptide mit dem Befehl:
  Mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE)
3. Entfernen Sie Peptide, die bereits zugeordnet wurden aus der Inputdata:
  Peptidesnotmapped <-Inputdata [! () InputData$ Peptid % % Mappedpeptides$ V4)]
4. Die nicht zugeordneten Peptide in eine neue Eingabedatei zu drucken:
  Write.Table (Peptidesnotmapped, "PATH\TO\IN.notmapped.pogo" Header = FALSE, Sep = "\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
Ordnen Sie die verbleibenden Peptide das Referenz-Genom so dass Diskrepanzen.
1. Wie in Schritt 3.1 Öffnen Sie die Eingabeaufforderung und navigieren Sie zu der ausführbaren Dateien Ordner von PoGo.
2. Geben Sie den Befehl unten so dass 1 Aminosäure-Ungleichgewicht und ersetzen Sie die \PATH\TO\GTF, \PATH\TO\FASTA und \PATH\TO\IN.notmapped.pogo mit Pfaden zu den Annotation GTF Proteinsequenz FASTA und Peptid-Identifikation-Datei in Schritt 3.2 erstellt. Auch ersetzen Sie MYSPECIES mit den Arten, die konsistent mit den Daten (z.B.Mensch).
  1. PoGo.exe - Gtf \PATH\TO\GTF Fasta - \PATH\TO\FASTA-im \PATH\TO\IN-format Bett-Arten MYSPECIES -mm 1
3. Bestätigen Sie die Befehlsausführung durch Drücken der Taste "Enter". Warten Sie, bis die Ausführung abgeschlossen ist, bevor weiter voran.
  Hinweis: Dies kann einige Minuten dauern. Die resultierende Datei wird in demselben Ordner wie die Peptid-input-Datei gespeichert werden und wird als \PATH\TO\OUT.pogo_1MM.bed im folgenden betrachtet werden.
Visualisieren Sie die Peptide abgebildet ohne und mit Missverhältnis in der IGV wie unter Punkt 2.2 beschrieben.

4. Zuordnung mehrerer Dateien verwenden und Track Naben für große Datasets erzeugen

Mapping-Peptide aus mehreren Dateien, die mit PoGoGUI
1. Navigieren Sie zu der ausführbaren Dateien-Ordner und starten Sie das Programm GUI durch Ausführen PoGoGUI-vX.X.X.jar.
2. Wählen Sie die PoGo ausführbare Datei für das Betriebssystem im Einsatz (hier Linux), sowie die Referenzdatei Eingabe Protein-Sequenzen FASTA und GTF Anmerkungsdatei wie Protokoll 2.1.2 - 2.1.4 beschrieben.
3. Fügen Sie die Peptid-Identifikation-Dateien mithilfe der Schaltfläche " Hinzufügen " neben "Peptid-Dateien"; Datei-Mehrfachauswahl aktiviert ist, sowie Drag-and-Drop in das leere Feld unter "Peptid-Dateien".
4. Deaktivieren Sie die Kontrollkästchen neben PTM Bett, GTF und GCT in den Bereich der Ausgabe-Formate und nur aus Bett überprüft.
5. Wählen Sie die Option Zusammenführen mehrere Eingabedateien in Einzelausgabe.
  Hinweis: Dies wird in eine einzige Ausgabedatei kombinieren alle Peptide der Eingabedateien führen. Verlassen diese Option nicht ausgewählt wird eine sequentielle Ausführung des Programms für jeden input-Datei separat führen.
6. Wählen Sie die geeignete Art für die Daten aus der Dropdown-Auswahl die FASTA und GTF-Dateien entsprechen.
7. Zuordnen, indem Sie auf die Schaltfläche " START " starten. Falls erforderlich, wird das Programm die Eingabedateien in Pogo-Format konvertieren. Dies kann einige Zeit ausführen dauern. In der Zwischenzeit herunterladen der benötigten Werkzeuge und Skripte für die Track-Hub-Generation.
Vorbereitung für Track-Hub-generation
1. Öffnen Sie einen Webbrowser, navigieren Sie zu https://github.com/cschlaffner/TrackHubGenerator und laden Sie die Datei "TrackHubGenerator.pl". Speichern Sie die Datei in den ausführbaren Dateien Ordner.
2. Navigieren Sie im Web-Browser zu www.hgdownload.soe.ucsc.edu/admin/exe/ und wählen Sie den Ordner für das Betriebssystem im Einsatz (hier Linux). Das Tool BedToBigBed und das Skript FetchChromSizes in den ausführbaren Dateien Ordner²⁷herunterladen.
Einen Track Hub aus zugeordneten Peptide zu generieren
Hinweis: Nach Abschluss PoGoGUI Kartierung der Peptide kann ein Track Hub für die resultierenden Dateien im Bett-Format im gleichen Ordner gespeichert automatisch generiert werden.
1. Öffnen Sie ein terminal-Fenster und geben Sie den folgenden Befehl:
  Perl TrackHubGenerator.pl/Pfadnamen/Montage FBED UCSC E-Mail
  1. Ersetzen PATH/TO/NAME mit einem Dateipfad und Namen für den Track-Hub (z.B. ~/PoGo/Data/Mytrackhub), Montage mit der Genom-Montage auf dem ist die Annotation basierend (z. B.hg38 für Menschenrechte), FBED durch den Pfad zu dem Ordner mit den Bett-Dateien auf die Schiene Nabe basieren wird (z.B. ~/PoGo/Data/), UCSC mit den Ordner wo die Werkzeuge von UCSC heruntergeladen werden (z.B. ~/PoGo/Executables/), und e-Mail-Adresse eine e-Mail-Adresse des Ansprechpartners für den Track Hub.
2. Bestätigen Sie die Ausführung durch Drücken der Taste "Enter"; die Ausführung wird nur eine kurze Zeit in Anspruch nehmen.
3. Übertragen Sie die generierten Track Hub (d.h. die erstellten Ordner ~/PoGo/Data/Mytrackhub/) mit seinem Inhalt zu einem Web zugänglichen FTP-Server.
  Hinweis: Ein FTP-Server mit einem zugehörigen Webserver ermöglicht Zugriff auf die Track-Hub über die Protokolle ftp und http wird bevorzugt. Github Repositories (github.com) und Figshare (figshare.com) unterstützen diese Art von Zugriff und können anstelle eines FTP-Servers verwendet werden.
Visualisierung eines Track-Hubs im Genom UCSC browser
1. In einem Webbrowser, navigieren Sie zu https://genome.ucsc.edu/ und wählen Sie MyData | Verfolgen Sie Hubs. Klicken Sie auf die Registerkarte " My Hubs.
2. Kopieren Sie die URL in das Textfeld mit dem Track-Hub.
  Hinweis: Die URL besteht aus die Serveradresse, die Track-Hub-Standort und Namen und die hub.txt-Datei (z.B. http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt).
3. Laden Sie den Track Hub, indem Hinzufügen Hub.
  Hinweis: Der Hub wird geladen, und eine kurze Nachricht erscheint, unter Angabe der Einzelheiten des Track Hub wie seinen Namen, die Kontaktdaten des Verantwortlichen für den Track-Hub und die Genom-Assembly verwendet. Die Website wird zur Hauptseite zurück.
4. Wählen Sie GenomeBrowser geben Sie die Browser-Ansicht.
  Hinweis: Die benutzerdefinierte Track Hub wird am oberen Rand der Liste angezeigt. Wenn mehrere Bett Dateien die Grundlage für den Track Hub gebaut, wird jede der Dateien als eine separate Spur innerhalb der Nabe dargestellt werden.

Representative Results

Eine grafische Darstellung Hervorhebung auf der Bühne eines regelmäßigen Proteomic Workflows PoGo¹⁸ , sowie nachgeschaltete Möglichkeiten der Visualisierung angewendet ist, ist in Abbildung 5dargestellt. Schrotflinte Proteomics (d.h. die proteolytische Verdauung von Proteinen, gefolgt von Flüssigkeitschromatographie gekoppelt mit Tandem-Massenspektrometrie) ist eine vorausgehende Schritt Proteogenomic Mapping. Die daraus resultierende Tandem Massenspektren werden häufig mit theoretischen Spektren abgeleitet von Protein Sequenzdatenbanken verglichen. Proteogenomics Studien vorstellen Übersetzung Sequenzen von neuartigen Protokolle mit Codierung Potenzial und nicht Synonym für Einzel-Nukleotid-Varianten (SNVs) in der Datenbank, so dass es schwer zu leicht diese wieder auf die Referenz-Genom-⁸beziehen. Die grafische Benutzeroberfläche von PoGo (PoGoGUI) unterstützt Datei-Formate für die standardisierte Meldung von Peptid Identifikationen von Massenspektrometrie Experimente und wandelt sie in das vereinfachte 4-Säulen-Pogo-Format. PoGoGUI umschließt das Kommandozeilen-Tool PoGo und ermöglicht so die Zuordnung von Peptiden auf Genom-Koordinaten mit Hilfe der Referenz-Annotation von Protein-kodierenden Gene, die häufig in den GTF und übersetzte Abschrift Sequenzen im FASTA-Format zur Verfügung gestellt. Verschiedene Ausgabeformate entstehen durch PoGo ermöglichen die Visualisierung der verschiedenen Aspekte der Peptide identifiziert durch Massenspektrometrie, einschließlich Post-translationalen Modifikationen und Peptid Ebene Quantifizierung. Ausgabedateien im Bett können weiter umgewandelt und in online-zugänglichen Verzeichnisse namens Track Naben kombiniert werden. Einzelne Ausgabedateien sowie Track Naben können dann im Browser wie z. B. der UCSC Genome Browser²⁵, Ensembl Genome Browser²⁰IGV²⁴und Biodalliance²⁸ (siehe Abbildung 5 unten) visualisiert werden.

Wir PoGo auf der Reanalyse des Entwurfs des menschlichen Proteoms Karten gefiltert bei hohen Stellenwert wie in Wright Et Al. beschrieben angewendet ⁷ und zwei weitere Tools für die Proteogenomic Zuordnung, nämlich iPiG¹⁴ und PGx¹⁰gegenüber. Das Dataset besteht 233.055 einzigartige Peptide über 59 adulten und embryonalen Gewebe, wodurch insgesamt mehr als 3 Millionen Sequenzen. PoGo übertraf diese Werkzeuge in der Runtime (6,9 x und 96.4 x schneller, beziehungsweise) und Speichernutzung (20 % und 60 % weniger Speicher, beziehungsweise) wie in Abbildung 6¹⁸dargestellt. Ein Beispiel für ein erfolgreich zugeordneten Peptid ist in Abbildung 7dargestellt.

Während PoGo deutlich besser die anderen Tools in Geschwindigkeit und Speicher als, ist es auch in der Lage, Zuordnung Post-translationalen Modifikationen und quantitative Informationen im Zusammenhang mit Peptiden auf das Genom. Abbildung 8A zeigt schematisch die Visualisierung des Formates Bett in einem Genom-Browser für Peptide, die Zuordnung zu einem Exon und über Kreuzungen Spleißen. PoGo nutzt die Färbung Möglichkeit, einfache visuelle Hilfe in Bezug auf die Einzigartigkeit des Peptid Mapping innerhalb des Genoms. Zuordnungen in rot zeigen Einzigartigkeit ein einzelnes Protokoll beim schwarzen Highlights, die Zuordnung zu einem einzelnen gen. Dennoch ist das Peptid zwischen verschiedenen Transkripte geteilt. Graue Zuordnungen zeigen eine Peptid geteilt zwischen mehreren Genen. Dies sind zum Beispiel weniger zuverlässig für die Quantifizierung eines Gens oder unzuverlässig die Expression eines Gens zu nennen. Die Möglichkeit, PTM Bett PoGo definiert den Farbcode um verschiedene Arten von Post-translationalen Modifikationen zu berücksichtigen, wie in Abbildung 8dargestellt. Darüber hinaus sind PTMs durch dicken Blöcken angezeigt (siehe Abbildung 8). Ein einzelnes PTM eines Typs ist durch ein dicker Klotz an der Position des modifizierten Aminosäurerest hervorgehoben, während mehrere PTMs des gleichen Typs von ein dicker Klotz aus die erste modifizierte Aminosäure zum letzten überspannt werden.

Auf ein Dataset 50 colorectal Krebs-Zell-Linien einschließlich ganze Proteom und Phosphoproteome²⁹angewendet wir PoGo und anschließend TrackHubGenerator. Während der Track Hub geladen im Genom UCSC Browser die Peptide, die auf das Genom abgebildet zeigt und die Einzigartigkeit der Zuordnungen und die Phosphorylierung Websites unterstreicht (siehe Abbildung 9), werden zusätzliche Daten im Ordner "ergänzende" bereitgestellt. Die GCT-Dateien können dann die Visualisierung von Peptid und Phosphopeptide Quantifizierung in einem genomischen Kontext. GCT-Dateien bieten eine einfache Visualisierung von Peptiden spanning über Spleiß-Knoten (siehe Abbildung 10 oben) jedoch nicht. Die Peptide in Spleiß Kreuzungen sind in Zuordnung zu den Exons Teilen aufgeteilt. Es ist, zwar möglich, Spleiß Peptide durch die gleichen quantitativen Werte der Exon-Zuordnungen zu identifizieren wie Bett oder GTF, die durch eine dünne Intron-Line-Support über die Exons verbinden Dateien laden Sequenz-basierte Zuordnung die Auslegung (siehe Abbildung 10 (unten).

Um das Dienstprogramm Variante aktiviert Zuordnung zu markieren, haben wir in zwei Konfigurationen zu einem Dataset menschliche Hoden Proteoms gesucht gegen NeXtProt für fehlende Proteine mit einem Multi-Enzym-Strategie²²jagen PoGo angewandt. Die NeXtProt umfasst neben Referenz Proteinsequenzen über 5 Millionen einzelne Aminosäure Varianten³⁰. Mapping-Peptide identifiziert mit einer einzigen Aminosäure-Variante wird nicht durch andere Mapping-Tools unterstützt. Insgesamt 177.012 einzigartige Peptide wurden identifiziert. Von diesen wurden 99,8 % (176.694) Peptide zuerst erfolgreich zugeordnet, ohne dass Diskrepanzen. Entfernen aus der Liste der identifizierten Peptid ergab 0,2 % (318) Peptide, die anschließend zugeordneten ermöglicht eine Aminosäure-Substitution waren. Dies führte zu 3.446 Zuordnungen von 162 Peptide, die nicht an die Referenz-Genom mit anderen vorhandenen Werkzeug zugeordnet haben würde. Während die durchschnittliche Anzahl der Zuordnungen, einschließlich ein Missverhältnis hoch ist, waren 62 Peptide nur einen einzigen Locus, zeigt wahre Variante Sequenzen zugeordnet. Ein Beispiel für ein Peptid abgebildet mit einer einzigen Aminosäure-Substitution ist mit seiner Sequenz und der übersetzten genomischen Sequenz in Abbildung 11hervorgehoben.

Abbildung 1: Visueller Vergleich der verschiedenen Peptid-Genom-Mapping-Tools. Der Vergleich ist im Hinblick auf verschiedene Aspekte dargestellt. Diese Aspekte sind eine Mapping-Referenz, das Niveau der Integration in die Rahmenbedingungen und die Unterstützung der Online- und offline-Browser. Darüber hinaus neuartige Aspekte von Proteogenomics und deren Funktion Betreuung wird gesondert hervorgehoben. PoGo fehlt nur die Fähigkeit, eine Genomsequenz im Vergleich zu anderen Tools direkt zuzuordnen. Es unterstützt jedoch alle Neuerungen, die meisten anderen Tools nicht unterstützen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 2: Beispiel-Eingabedatei für Zuordnung Peptide. PoGo akzeptiert Eingabedaten in eine tabulatorgetrennte Format mit 4 Spalten. Spaltenüberschriften in der ersten Zeile sind "Experimentieren", "Peptid", "Pvsm" und "Quant", in den folgenden Zeilen angibt, das Experiment oder Probe-Bezeichner, der Peptidsequenz, die Anzahl der Übereinstimmungen Peptid-Spektrum und ein quantitativer Wert für das Peptid bzw.. Dateinamenerweiterungen unterstützt werden *.txt, TSV und *.pogo. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 3. PoGoGUI Schnittstelle mit markierten Schritte zur Dateiauswahl und Parameteroptionen. Die Abbildung zeigt die Schritte zum auswählen und laden alle erforderlichen Dateien und die Auswahl der Optionen für die Zuordnung Peptide mit Post-translationalen Modifikationen auf die menschlichen Bezug Genom. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 4. Screenshot der Integrative Genomics Viewer (IGV) Daten hochladen Verfahren. Die Abbildung zeigt die Schritte für das Hochladen von PoGo Ausgabedateien in den IGV-Browser. Darüber hinaus zeigt es die Möglichkeit der Erweiterung der Strecke von zugeordneten Peptiden, markieren Sie die Zuordnung und Reihenfolge. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 5. Vereinfachte Workflow Schritte von LC-MS/MS Visualisierung in Genom Browser. PoGo-Mapping folgt die Identifizierung von Peptiden von Massenspektren Tandem. Um die Zuordnung des Genoms zu erreichen, nutzt PoGo Verweis Anmerkung als Genom Anmerkung (GTF) und Transkript Übersetzung Sequenzen (FASTA) zur Verfügung gestellt. Verschiedene Formate sind generierte Ausgabe, die im Genom Browser separat geladen werden kann. Darüber hinaus können Dateien im Bett-Format in Track Naben unterstützt Visualisierung von großen Datasets kombiniert werden. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 6. Benchmarking-PoGo gegen PGx und iPiG. PoGo übertrifft die anderen Tools zum benchmarking. Zuordnen von 233.055 einzigartige Peptide über 59 adulten und embryonalen Gewebe, was zu mehr als 3 Millionen Sequenzen, betrug PoGo 6,9 x 96.4 x schneller als PGx und iPiG, bzw.. Darüber hinaus verpflichtet PoGo 20 % und 60 % weniger im Vergleich zu PGx und iPiG, bzw. Speicher. PoGo und PGx erfolgreich abgeschlossen, doch wegen iPiG ein Speicherfehler bei 16 GB. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 7. Genom der UCSC Browser Beispielansicht zugeordneten Peptide. Die Abbildung zeigt Peptide gen mTOR zugeordnet. Während der kombinierte Track die Peptide spanning über Spleiß-Knoten und ein Exon mit den zugehörigen Sequenzen nur zuordnen zeigt, markieren die gewebespezifischen Tracks nur die Zuordnung in eine komprimierte Format. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 8: Mapping-Visualisierung und Farbcodierung schematische. (A) In der standard Bett Ausgabedatei Peptide, die Zuordnung zu einer Exon werden als einzelne Blöcke (links), während Peptide Zuordnung über mehrere Exons Highlight das Exon die Teile als Blöcke (rechts) angezeigt. Introns sind so dünn verketten Linien dargestellt. PoGo Bereichssuche die Einzigartigkeit der Zuordnung oder Peptiden, Gene und Protokolle, die mit einer 3-Tier-System. (B) zusätzlich die Blockstruktur des Formates Bett PTM Bett Ausgabe zeigt die Position des Post-translationalen Modifikationen als dicken Blöcken. Das Vorhandensein von einem einzigen PTM eines Typs highlights der modifizierten Aminosäurerest mit ein dicker Klotz, während mehrere Standorte des gleichen PTM zu lange Blöcke überspannt von der ersten bis zur letzten Änderung Seite zusammengefasst sind. Peptid-Zuordnungen werden von PTM Art und Farbe Codec basierend auf der Änderung weiter unterteilt. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 9. Hub-Ansicht im Browser UCSC Genom des kolorektalen Karzinoms Proteom und Phosphoproteome Daten zu verfolgen. Der Track Hub umfasst ganze Proteom Daten sowie Phosphoproteome. Während die rote Farbe in das Proteom und Phosphoproteome Tracks zeigen die Einzigartigkeit der Zuordnung zu den einzigen Abschrift des SFN, zeigen Spuren in _ptm endet die Phosphorylierung Seiten innerhalb von Peptiden. Hier gibt die rote Farbe die Art der Änderung als Phosphorylierung. Nur zwei Peptide sind mit jeder zeigt ein einzelnes Phosphorylierung (dicken Blöcken) identifiziert worden. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 10. Blick auf Darmkrebs-Phosphopeptides und damit verbundenen Quantifizierung in IGV. Die Abbildung zeigt einen Teil der 50 Krebszelllinien. Es zeigt außerdem vier Spalten der Blöcke in unterschiedlichen Schattierungen von Licht rot. Die Farbe zeigt die relative Häufigkeit von Low (weiß), hoch (rot). Während die vier Spalten zunächst um zu glauben, dass es 4 Peptide gibt führen könnte, wird deutlich, mit der damit verbundenen Sequenz-basierte GTF Ausgabedatei, dass diese in der Tat zwei Peptide sind jeder überspannt ein Spleiß-Knoten. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 11. Ansicht des Peptids mit Aminosäure-Variante im IGV. Die Abbildung zeigt eine Peptid mit einer einzigen Aminosäure-Variante auf das Referenz-Genom zu Beginn der Übersetzung des GPSM1-Gens abgebildet. Die Variante ist Aminosäurerest 8 und Ergebnisse in der Substitution von Alanin, Valin (A→V) positioniert. Die Übersetzung Sequenzen der annotierten Transkripte (blau) markieren Sie die Variante im Vergleich zu der Peptidsequenz. Bitte klicken Sie hier für eine größere Version dieser Figur.

Discussion

Dieses Protokoll beschreibt, wie das Software-Tool PoGo und seiner grafischen Benutzeroberfläche PoGoGUI eine schnelle Zuordnung der Peptide auf Genom-Koordinaten ermöglichen. Das Tool bietet einzigartige Features wie quantitative, Post-translationale Modifikation und Variante-fähigen Mapping mit Genomen mit Referenz-Beschriftung. Dieser Artikel veranschaulicht die Methode auf eine groß angelegte Proteogenomic-Studie und unterstreicht seine Geschwindigkeit und Effizienz im Vergleich zu anderen verfügbaren Tools¹⁸. In Kombination mit dem Tool TrackHubGenerator, schafft die online zugängliche Naben der genomischen und Genom verknüpft Daten, PoGo, mit seiner grafischen Benutzeroberfläche ermöglicht großflächige Proteogenomics Studien, ihre Daten in Zusammenhang mit genomischen schnell zu visualisieren. Darüber hinaus zeigen wir Ihnen die Besonderheiten des PoGo mit Datensätzen gesucht gegen Variante Datenbanken und quantitative Phosphoproteomics²²^,²⁹.

Einzelne Dateien, z. B. die GCT-Datei bieten wertvolle Visualisierung und Links zwischen Peptid-Features und genomic Loci. Es ist jedoch wichtig zu beachten, dass eine Interpretation anhand dieser allein schwierig oder aufgrund ihrer Beschränkung auf einzelne Aspekte der Proteogenomics wie Einzigartigkeit, Post-translationalen Modifikationen und quantitative Werte irreführend sein kann. Daher ist es wichtig, sorgfältig zu wählen, welche Ausgabedateien, Optionen und Kombinationen eignen sich für die Proteogenomic-Frage auf der hand, und ändern Sie die Kombinationen. Z. B. möglicherweise Informationen über die Einzigartigkeit der Zuordnung zu einer spezifischen genomischen Locus von großem Wert für die Kommentierung der genomischen Funktion⁷, während die Quantifizierung über verschiedene Proben für Untersuchungen im Zusammenhang mit angebrachter sein könnte genomische-Features, Änderungen im Protein Fülle²⁹. Die Ausgabe sollte für jede Einstellung von PoGo generiert. Für den Fall, dass keine Ausgabe generiert wird, oder leere Dateien im Ordner "Ausgabe" angezeigt werden, es empfiehlt sich, die input-Dateien für den gewünschten Inhalt und das gewünschte Dateiformat zu überprüfen. In Fällen, wo die Datei-Format oder den Inhalt nicht die Erwartungen der PoGo folgt (z. B.die FASTA-Datei angeblich mit der Abschrift Übersetzung Sequenzen enthält die Nukleotidsequenzen der Abschriften), Fehlermeldungen angezeigt werden, bitten Sie den Benutzer Überprüfen Sie die Eingaben-Dateien.

Einschränkungen des Protokolls und das Tool basieren meist auf die Wiederverwendung von Dateiformaten, die allgemein verwendet in der Genomik. Neuorientierung in der Genomik für Proteogenomic-Anwendungen verwendet Dateiformate wird begleitet von besonderen Beschränkungen. Diese werden durch die unterschiedlichen Sets von Anforderungen für Genom zentriert Visualisierung der genomischen und Proteogenomic Daten, wie zum Beispiel die Notwendigkeit, Post-translationalen Modifikationen von Proteomics-Daten zu visualisieren. Dies ist in den Dateiformaten Genomics durch Nutzung der einzelnen Features eingeschränkt. Viele Ansätze und Werkzeuge wurden für Proteomics, Post-translationalen Modifikationen innerhalb Peptid Sequenzen³¹^,³²^,³³^,³⁴selbstbewusst zu lokalisieren. Jedoch ist die Visualisierung von mehreren Änderungen in eine einzigartige und erkennbare Weise über das Genom durch die Struktur der genomischen Dateiformate behindert. Daher die Einzelsatz-Visualisierung von mehreren PTMs des gleichen Typs stellt keine Unklarheiten in der Modifikation Seiten aber ergibt sich aus der unterschiedlichen Anforderung aus der Genomik-Community, nur einzelne Funktionen gleichzeitig visualisieren. PoGo hat jedoch den Vorteil der Zuordnung Post-translationalen Modifikationen auf genomische Koordinaten, Studien über die Wirkung von genomischen Features wie Einzel-Nukleotid-Varianten auf Post-translationalen Modifikationen zu ermöglichen. Variant-Mapping erhöht mit PoGo, die Anzahl der insgesamt Zuordnungen. Allerdings zeigt die einzigartige Farbcodierung der zugeordneten Peptide zuverlässige Zuordnungen von unzuverlässigen. Die Zuordnung der variant Peptide identifiziert aus bekannten Einzel-Nukleotid-Varianten kann durch die Visualisierung der zugeordneten Peptide neben den Varianten im VCF-Format begleitet werden. Auf diese Weise den Farbcode zeigt eine unzuverlässige Zuordnung der variant Peptid wird durch die Anwesenheit von bekannten Nukleotid-Variante überstimmt.

Ein entscheidender Schritt für die Verwendung von PoGo ist die Verwendung der richtigen Dateien und Formate. Die Verwendung von übersetzte Abschrift Sequenzen als Proteinsequenzen, die Anmerkung im GTF-Format zu begleiten ist das Hauptkriterium. Ein weiteres wichtiges Element, wenn man bedenkt, mit PoGo Peptide mit Aminosäure Fehlanpassungen zu zuordnen ist Erinnerung. Während Speicher hocheffizient für eine Standardanwendung, führt die deutlich und exponentiell zunehmende Zahl von möglichen Zuordnungen mit ein oder zwei Fehlanpassungen zu einem ähnlich exponentiellen Anstieg der Speicher Verbrauch¹⁸. Wir schlagen eine inszenierte Zuordnung, wie beschrieben in diesem Protokoll zunächst Karte die Peptide ohne Fehlanpassungen und entfernen sie aus dem Satz. Die nachfolgenden bisher nicht zugeordnete Peptide dann abgebildet werden können mit einem Missverhältnis und das Verfahren kann mit zwei Abweichungen für die verbleibenden nicht zugeordnete Peptide wiederholt werden.

Da der Durchsatz der Massenspektrometrie deutlich gestiegen ist und Studien Anbindung genomic und Proteomic Daten häufiger in den letzten Jahren immer werden, sind Hilfsmittel, ohne weiteres erlauben solche Daten im gleichen Koordinatensystem Anbindung zunehmend unverzichtbar. Das hier vorgestellte Tool hilft die Notwendigkeit, genomische kombinieren und Proteomic Daten zu verbessern, ein besseres Verständnis der integrativen Studien über kleine und große Datenmengen durch die Zuordnung der Peptide auf eine Referenz-Beschriftung. Erfreulicherweise ist PoGo angewendet worden, um Peptide gen Kandidaten zur Verfügung gestellt, in das gleiche Format wie die Referenz-Anmerkung Anmerkung Anstrengungen der neuartige Gene in menschliche Hoden³⁵unterstützen zuzuordnen. Der hier vorgestellte Ansatz ist unabhängig von Datenbanken für Peptid Identifikation verwendet. Das Protokoll möglicherweise Hilfe bei der Identifizierung und Visualisierung von Roman Übersetzung Produkte mithilfe von Eingabedateien von Übersetzung Sequenzen angepasst und damit verbundenen GTF Dateien von RNA-Seq-Experimente.

Mehrere Ansätze und Instrumente mit einer breiten Palette von speziellen Anwendungsszenarien genomische Koordinaten, angefangen bei Peptiden die Genomsequenz RNA-Sequenzierung geführte Zuordnung direkt zuordnen Peptide zuordnen wurden eingeführte¹⁰^, ¹¹ ^, ¹² ^, ¹³ ^, ¹⁴ ^, ¹⁵ ^, ¹⁶ ^, ¹⁷. jedoch können diese Resultate in eine Nichtbeachtung der Peptide korrekt zuordnen, wenn Post-translationalen Modifikationen vorhanden sind und Fehler in der zugrunde liegenden Zuordnung des RNA-Sequenzierung lautet auf die Peptid-Ebene weitergegeben werden können. PoGo wurde entwickelt, speziell jene Hindernisse zu überwinden und zu bewältigen, die rasche Zunahme des quantitativen hochauflösenden Proteomic Datasets mit orthogonalen Genomics Plattformen zu integrieren. Das hier beschriebene Werkzeug kann Hochdurchsatz-Workflows integriert werden. Über die grafische Oberfläche PoGoGUI das Tool ist einfach zu bedienen und erfordert keine spezielle Bioinformatik Ausbildung.

Disclosures

Die Autoren haben nichts preisgeben.

Acknowledgments

Diese Arbeit wurde von der Wellcome Trust (WT098051) und der NIH Grant (U41HG007234) zum GENCODE Projekt finanziert.

Materials

Name	Company	Catalog Number	Comments
PoGo (software)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (software)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (software)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (software)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genome browser (website)	NA	NA	https://genome.ucsc.edu/
GENCODE (website)	NA	NA	http://gencodegenes.org
Ensembl (website)	NA	NA	http://ensembl.org
bedToBigBed (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

DOWNLOAD MATERIALS LIST

References

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778 (2016).
Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293 (2016).
Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246 (2012).
Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Genetics

Eine schnelle und Quantitative Methode für Post-translationale Modifikation und Variante aktiviert Mapping von Peptiden mit Genomen

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.