Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Informatischen Analyse von Sequenzdaten von Batch-Hefe-2-Hybrid-Bildschirme

Published: June 28, 2018 doi: 10.3791/57802

Summary

Tiefe Sequenzierung der Hefe Bevölkerung ausgewählt für positive Hefe 2-Hybrid Interaktionen potenziell liefert eine Fülle von Informationen über interagierenden Partner Proteine. Hier beschreiben wir den Betrieb von bestimmten Bioinformatik und aktualisierte Individualsoftware Sequenzdaten von solchen Bildschirmen zu analysieren.

Abstract

Wir haben die Hefe 2-Hybrid Assay um gleichzeitig entdecken Sie Dutzende von Transienten und statische Protein-Interaktionen in einem einzigen Bildschirm nutzen Hochdurchsatz-kurze lesenden DNA-Sequenzierung angepasst. Die daraus resultierende Sequenz Datasets können nicht nur verfolgen, welche Gene in einer Population, die bei Auswahl für positive Hefe 2-Hybrid Interaktionen angereichert sind, sondern auch geben detaillierte Informationen über die entsprechenden Subdomains von Proteinen ausreichend für Interaktion. Hier beschreiben wir eine vollständige Suite von Stand-Alone-Softwareprogramme, mit denen nicht-Experten, der Bioinformatik und statistische Schritte zur Verarbeitung und Analyse von DNA-Sequenz Fastq Dateien aus einem Batch Hefe 2-Hybrid Assay durchzuführen. Die Verarbeitungsschritte von dieser Software abgedeckt sind: (1) Mapping und Zählung Sequenz liest entspricht jeder Kandidat Protein kodiert in einer Hefe-2-Hybrid Beute-Bibliothek; (2) eine statistische Analyse-Programm, das die Anreicherung profile bewertet; und 3) Werkzeuge die translationale Rahmen und Position innerhalb der kodierenden Region des jedes angereicherten Plasmid, das die interagierenden interessierenden Proteine kodiert zu prüfen.

Introduction

Ein Ansatz zur Protein-Interaktionen zu entdecken ist die Hefe 2-Hybrid (Y2H) Assay, welche Heldentaten Hefe-Zellen entwickelt, die wachsen nur, wenn ein Protein des Interesses zu einem Fragment eines interagierenden Partner1bindet. Erkennung von mehreren Y2H Interaktionen kann nun mit Hilfe von massiven parallelen Hochdurchsatz-Sequenzierung erfolgen. Mehrere Formate wurden2,3,4,5 darunter eine, die wir entwickelt, wo die Populationen in Batch unter Bedingungen angebaut werden, die für die Hefe enthalten Plasmide, die produzieren auswählen beschrieben eine positive Y2H Interaktion6. Der Workflow entwickelt, bezeichnet DEEPN (dynamische Bereicherung für Evaluation of Protein Networks), identifiziert differentielle Interactomes aus der gleichen Beute-Bibliotheken, um Proteine zu identifizieren, die mit einem Protein (oder Domäne) Vsinteragieren. ein weiteres Protein oder einer conformationally unterschiedliche mutierten Domäne. Eines der wichtigsten Schritte in diesem Workflow ist ordnungsgemäße Verarbeitung und Analyse der DNA-Sequenzierungsdaten. Einige Erkenntnisse können durch einfach zählen die Anzahl der Lesevorgänge für jedes Gen sowohl vor als auch nach der Auswahl von Y2H-Interaktionen in einer Art und Weise analog zu einem RNA-Seq-Experiment. Jedoch kann viel tiefer gehende Informationen aus dieser Datensätze, einschließlich Informationen über die Subdomain eines bestimmten Proteins, das in der Lage, eine Y2H-Interaktion ist extrahiert werden. Darüber hinaus während der DEEPN Ansatz wertvoll ist, kann viele Wiederholungen der Probe zu analysieren umständlich und teuer werden. Dieses Problem wird mithilfe eines statistischen Modells, das entwickelt wurde speziell für DEEPN Datasets wo ist die Anzahl der Wiederholungen begrenzt6gemildert. Verarbeitung und Analyse der DNA-Sequenzierung Datasets zuverlässige, vollständige, robuste und zugänglich für Ermittler ohne Bioinformatik-Kompetenz machen, entwickelten wir eine Suite von Software-Programmen, die alle Schritte der Analyse zu decken.

Diese Suite von Stand-alone-Software-Programme, die auf Desktopcomputern ausgeführt umfasst MAPster, DEEPN und Stat_Maker. MAPster ist eine grafische Benutzeroberfläche, die ermöglicht, dass jede Fastq-Datei in der Warteschlange für das Mapping, das Genom, die mit dem HISAT2 Programm7, Herstellung einer standard .sam-Datei zur Verwendung in downstream-Anwendungen. DEEPN besteht aus mehreren Modulen. Es ordnet und zählt liest, ähnlich wie eine RNA-Seq Typ Quantifizierung mit Hilfe des Moduls 'Gene Count' gen entspricht. Auch die Sequenzen entsprechend der Kreuzung zwischen der Gal4 transkriptionelle Domäne und die Beute Sequenz extrahiert und sammelt die Position dieser Kreuzungen zu deren Prüfung durch vergleichende Tabellen und Grafiken (mit Hilfe des Moduls "Junction_Make") Das Modul "Blast_Query" ermöglicht einfache Inspektion, Quantifizierung und Vergleich der Kreuzung Gal4 Kreuzung Sequenzen. Stat_Maker wertet die Lesevorgänge pro gen angereicherte Daten statistisch als eine Möglichkeit der Priorisierung wahrscheinlich Y2H-Hits. Hier beschreiben wir, wie diese Software-Programme verwenden und vollständig analysieren die DNA-Sequenz, mit denen Daten aus einem DEEPN Y2H experimentieren. Versionen von DEEPN sind auf PC, Mac und Linux Systeme ausgeführt. Andere Programme, wie das Mapping-Programm MAPster und DEEPN-Statistik-Modul Stat_Maker Vertrauen auf Unterroutinen, die unter Unix laufen und sind nur auf Mac und Linux-Systeme verfügbar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Fastq Zuordnungsdateien

Hinweis: DEEPN Software sowie viele Bioinformatik-Programme verwenden DNA-Sequenzdaten, wobei jede Sequenz lesen zugeordnet wurde, für seine Position in der Referenz DNA. Eine Vielzahl von Mapping-Programme kann verwendet werden, für diese einschließlich der MAPster Schnittstelle hier, die das HISTAT2-Programm verwendet, um .sam Dateien, die in den nachfolgenden Schritten verwendet zu produzieren.

  1. Die richtige Version des Genoms der Sequenzdaten zuordnen. Für Y2H Bibliotheken Maus Ursprungs verwenden der UCSC mm10 Genom; für die Verwendung von menschlichen Genen verwenden der UCSC hg38 Bezug genom für Saccharomyces Cerevisiae Gene, verwenden der UCSC SacCer3 Bezug Genom.
  2. MAPster zu installieren.
    1. MAPster Software herunterladen und installieren. Die Software finden Sie in einem Web Browser unter folgender: https://github.com/emptyewer/MAPster/releases. HISAT2 läuft auf Unix-basierten Systemen wie z. B. Apple Macintosh. Aus diesem Grund läuft das Programm MAPster nur auf kompatiblen Systemen wie z. B. Apple Macintosh und Linux.
      Hinweis: Die Systemanforderungen für einen Apple Mac sind: OSX 10.10 + > 4 Gb RAM, > 500 Gb Speicherplatz und Internet-Zugang für das Herunterladen von Referenz-Genome. Benutzer müssen möglicherweise mit einer institutionellen es Person beraten, wenn ihr Unternehmen Sicherheitsprotokolle Administratorrechte und Berechtigungen zu beschränken hat.
  3. Geben Sie die erforderlichen Dateien und Parameter über die Registerkarte "Main" (Abbildung 1). Wählen Sie den entsprechenden "Pairwise"-Button, geben Dateien entweder als Paare oder ungepaarte mit FASTQ als Standard-Dateiformat.
    1. DEEPN Analyse biegen Sie in die "Pairwise" Option auf "Off" im einzelnen lesen Format ausgeführt.
    2. Laden Sie Dateien in MAPster, einfach per Drag and Drop in das entsprechende Fenster.
    3. Wählen Sie eine Referenz-DNA/Genom-Quelle, die die Quelle der Y2H Beute Bibliothek Einsätze entspricht. Indizierte Genomen von verschiedenen Modellorganismen sind im Feld "Genom" aufgeführt und automatisch heruntergeladen werden von der Johns Hopkins University Center for Computational Biology. Referenz-Genome werden lokal zur späteren Verwendung gespeichert werden.
    4. Geben Sie die Anzahl der Computer verarbeitet seit HISAT2 unterstützt Multithreading die Mapping-Programm unter dem Feld "Threads" gewidmet sein. MAPster wird suchen Sie den Computer und die maximale Anzahl von Prozessoren verfügbar als Standard vorschlagen.
    5. Der Name einer Ausgabedatei angeben. Dieser Dateiname wird während des Prozesses DEEPN verwendet werden, so wird ein kurzer, aber aussagekräftiger Namen ohne Leerzeichen oder Sonderzeichen empfohlen. Geben Sie einen Ordner, um die zugeordneten Dateien über den Button "Open Output Directory" ausgegeben.
    6. Nachdem Sie die entsprechenden Dateien und Parameter ausgewählt haben, fügen Sie die Mapping-Arbeit zur Arbeitsplätze Warteschlange über den Button "Add to Queue hinzu". Die Dateinamen im Hauptfenster können gelöscht und ersetzt mit einer neuen Probe entsprechend Dateien und können nach der Bereitstellung eines entsprechenden Ausgang Dateiname zur Warteschlange hinzugefügt werden.
    7. Klicken Sie auf "Warteschlange starten", sobald alle Aufträge in der Auftragswarteschlange eingegeben werden.
      Hinweis: Sobald ein Zuordnung Auftrag in der Warteschlange platziert wurde, führt auswählen, dass Jobs die Parameter-Einstellungen im Fenster "Parameter" und die Befehlszeile Anweisung mit allen Argumenten in der "Job-Befehl" Fenster angezeigt werden sollen angezeigt werden. Die Ausgabeoptionen umfassen Regie ob zu halten liest, die nicht zum Ausrichten und Festlegen der Anzahl der primären Ausrichtungen zugelassen für jeden zu lesen. Die Standard-Ausgabe-Datei von MAPster ist im SAM-Format (z.B. eine Datei ".sam"). Es enthält alle der Reihenfolge liest aus den Fastq-Dateien für diese Probe, einschließlich derer, die waren (zugeordnet) angegeben und waren nicht (unzugeordnet) angegebenen Geome erfolgreich zugeordnet.

(2) Bioinformatic Verarbeitung mit DEEPN Software

Anmerkung: DEEPN Software ist derzeit für den Einsatz mit Beute Bibliotheken mit Maus cDNA Sequenzen, menschliche DNA-Sequenzen oder S. Cerevisiae genomische DNA-Sequenzen enthalten. DEEPN akzeptiert die standard .sam-Datei-Format und kann SAM (.sam) Datei mit zugeordneter und nicht zugeordneter liest oder separate Dateien für jeden der nicht zugeordneten und zugeordneten lautet akzeptieren.

  1. DEEPN Software herunterladen und installieren. Die Software finden Sie in einem Web Browser unter folgender: https://github.com/emptyewer/DEEPN/releases. Wählen Sie, welche Version der computing-Plattform und Download übereinstimmt. Um zu installieren, öffnen Sie das heruntergeladene Installationspaket.
    Hinweis: Versionen von DEEPN sind verfügbar für PC, Mac und Linux Sysrems. Mac und PC Systeme müssen > 500 Gb Festplattenspeicher und > 4 Gb RAM.
  2. Öffnen Sie die DEEPN Software. Wählen Sie aus dem Hauptfenster (Abbildung 2) die entsprechende Beute Bibliothek Information aus der Top-Auswahl-Box. Wählen Sie einen Ordner, wo die verarbeiteten Dateien gehen kann durch Anklicken des Buttons "Arbeitsverzeichnis" und navigieren zu dem Ordner/Verzeichnis. Man kann ein neues Verzeichnis/Ordner erstellen, bei Bedarf. Sobald ein "Arbeitsverzeichnis" ausgewählt ist, wird DEEPN drei Unterordner unter dem Titel Unmapped_sam_files, Mapped_sam_files und Sam_files erstellen.
    1. Wenn mittels .sam Dateien mit zugeordneter und nicht zugeordneter liest wie Sie mit den Standardeinstellungen des Programms MAPster erzeugt, legen Sie sie in den Ordner "Sam_files". Ansonsten setzen Sie entsprechend .sam Dateien in die Unmapped_sam_files und Mapped_sam_files.
  3. Verarbeitung durch Anklicken des Buttons "Gen Count + Junction macht" zu initiieren.
    Hinweis: Verarbeitung beginnt mit dem Gene Graf-Modul, die Zuordnung Positionen verwendet werden, um zu zählen, wieviele liest jedes Gen entsprechen. Kreuzung machen extrahiert dann Kreuzung Sequenzen (die Sequenzen verschmolzen direkt unterhalb von Gal4-Aktivierungsdomäne) aus der liest und identifizieren sie mit Hilfe des Blast-Algorithmus. Dadurch entsteht eine ganze Reihe von Ordnern, die in Abbildung 3dargestellt. Bearbeitungszeit hängt von der Größe und Anzahl der Sequenz Datendateien und Verarbeitungsgeschwindigkeit des Computers verwendet. Typische Zeiten reichen von 12 bis 30 h für eine experimentelle Dataset von 250 Millionen liest. Die Anzahl der Gene und Junction_Make Verfahren können individuell durch Klicken auf die Schaltfläche "Gene" oder die "Kreuzung machen"-Taste gestartet werden.
  4. Downloaden Sie und installieren Sie Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Dies ist eine statistische Analyse-Paket für DEEPN Datasets, die funktioniert derzeit nur auf Unix Mac-Systemen entwickelt.
    1. Öffnen Sie Stat_Maker und klicken Sie auf die Schaltfläche "Überprüfen Installation" (Abbildung 4). Wenn zum ersten Mal ausgeführt, installiert Stat_Maker R, Zacken und Bioconductor automatisch durch diese Ressourcen aus dem Internet ziehen. Sobald R, Zacken und Bioconductor erkannt werden, werden Stat_Maker aktiv und ermöglichen weitere Benutzereingabe.
    2. Klicken Sie auf "Ordner auswählen", um in den Arbeitsordner zu navigieren, die DEEPN verarbeitet. Stat_Maker automatisch finden und Liste der Dateien für die statistische Analyse im Fenster.
    3. Per Drag & drop die entsprechenden Dateien aus dem Datei-Liste-Fenster oben in der Datei Windows unten für jeden Vektor und Köder Dataset und für jede Wachstumsbedingungen: nicht ausgewählt (seine + Medien) und ausgewählt (seine - Media). Wichtig ist, erfordert Stat_Maker doppelte Datensätze für leere Vektor allein, zwei Proben von nicht ausgewählten Populationen und zwei Proben von ausgewählt. Dies gibt eine Schätzung der Variabilität innerhalb des Experiments.
    4. Klicken Sie auf die Schaltfläche "Ausführen". Abhängig von der Geschwindigkeit des Computers dauert die Berechnung zwischen 5 – 15 Minuten.
  5. Überprüfen Sie die Ergebnisse aus der Stat_Maker Ausgabe, die in einen neuen Unterordner in dem Hauptwerk-Ordner mit der Bezeichnung "Stat_Maker Ergebnisse" platziert werden.
    Hinweis: Die Ergebnisse werden in eine CSV-Datei (durch Kommas getrennte Werte) gefunden, die gemeinsam Tabellenkalkulationsprogrammen geöffnet werden können. Stat_Maker wird gen Hits gehören, die voraussichtlich differentiell bei der Auswahl mit dem Köder von Interesse über die leeren pTEF-GBD (Abbildung 5) angereichert werden. Auch tabellarisch liegt der Prozentsatz der Lesevorgänge für jedes Dataset gen einfügen vorgelagerten, flussabwärts, oder in den offenen Leserahmen und ob das Gen auch innerhalb der richtigen translationale Leseraster gefunden wird. Oft wird DEEPN robuste Y2H-Interaktionen der Köder mit Teile einer bestimmten cDNA erfassen, die aus den richtigen Leseraster des entsprechenden Proteins oder auf einen Teil der cDNA, die seine entsprechenden offenen Leserahmen nachgeschaltet ist. Scannen die kombinierte Ausgabe von Stat_Maker rationalisiert die Erkennung und Beseitigung von diese irrelevanten Treffer.
  6. Um die Daten zu jedem potentiellen Bewerber zu überprüfen, öffnen Sie die DEEPN Software, wählen Sie die entsprechende Beute Bibliothek Information und dann den richtigen Arbeitsordner mithilfe des Ordners"Arbeit".
    1. Klicken Sie auf "Blast Query". Dadurch wird ein neues Fenster (Abbildung 6) geladen. Geben Sie in das obere Textfeld Gen Namen oder Nummern der GenBank NM das Kandidaten-gen des Interesses auswählen. Diese Gen-Namen entsprechen den in der StatMaker Ausgabe-Datei aufgelisteten Namen. Typ geben Sie oder zurückkehren, die initiiert Abruf des Gens von Interesse.
    2. Wählen Sie aus, welche Datensätze für die Analyse über die Menüs "Dataset auswählen" verwendet wird. In der Regel dazu gehören den Vektor nur und Köder Proben nicht-selektiven Bedingungen angebaut und der Köder-Probe unter Selektionsbedingungen angebaut. Zunächst die Datasets dauert ein paar Augenblicke zu laden, jedoch nachfolgende Abfrage der gleichen Datasets mit verschiedenen Genen wird schnell gehen. Blast_Query zeigt die Fusion Sehenswürdigkeiten entlang der Sequenz und wie reichlich jedes Schmelzpunkt ist. Dies kann sowohl in einem Tabellenformat mithilfe der Registerkarte "Ergebnisse" oder ein grafisches Format mithilfe der Registerkarte "Plot" angezeigt werden. Diese Ergebnisse können in eine CSV-Datei exportiert werden, indem Sie auf die Schaltfläche "Speichern .csv" in der oberen rechten Ecke.

3. Prüfung der Kandidaten durch DEEPN identifiziert

Hinweis: Die DEEPN und Stat_Maker soll Kandidaten-Gene zu identifizieren, die eine positive Y2H Interaktion geben. Überprüfung solcher Y2H-Interaktionen kann sein erfolgt mit einem traditionellen Y2H Binärformat mit dem Köder-Plasmid von Interesse gepaart mit dem leeren Gal4-Aktivierung Domäne "Beute" Plasmid sowie gepaart mit der Beute Plasmid trägt das Gen/cDNA Fragment von Interesse. Es ist nicht möglich, die tatsächliche Plasmid von Interesse in der Mischung von DNA isoliert von der Hefe Bevölkerung ausgesetzt Y2H Auswahl isolieren. Jedoch kann eine rechnerisch rekonstruieren, was das Gen/cDNA Fragment ist, dass das Y2H Zusammenspiel produziert, Primer für 5' und 3' Ende dieses Fragment entwerfen und diesem Fragment aus der DNA isoliert von der Hefe Bevölkerung zu verstärken. Dieser Abschnitt beschreibt, wie das 5' und 3' Ende des Fragments Kandidat Beute zu finden.

  1. Öffnen Sie die DEEPN-Software und wählen Sie die Parameter "Ausgewählte Parameter" und die Arbeitsordner "wählen Sie arbeiten", das Projekt entspricht. Starten Sie das Blast_Query-Modul, durch Klicken auf die Schaltfläche "Blast-Abfrage".
  2. Geben Sie den Namen der das Gen des Interesses oder der GenBank "NM" Nummer in das obere Textfeld ein. Wählen Sie aus dem Pulldown Menü das Dataset, das die ausgewählte Hefe Bevölkerung für den Köder von Interesse zum Abrufen der Tabelle der Kreuzung Positionen auf der Registerkarte "Ergebnisse" entspricht. Standardmäßig werden Blast_Query die verschiedenen Positionen, die nach ihrer Fülle im Dataset, quantifiziert durch die ppm an der Gesamtzahl der Kreuzungen in der Datenbank gefunden bestellen.
    1. Finden Sie die am häufigsten vorkommende positionieren, ist "im ORF" und "In Frame". Der Wert für Position entspricht der Nukleotid-Position des Gens mit der NCBI Referenzsequenz ("NM" Anzahl) gefunden in das obere Textfeld ein. Diese Sequenz kann aus GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) abgerufen werden oder aus dem unteren Textfeld im Fenster "Blast_Query" kopiert werden.
      Hinweis: Ein Beispiel finden Sie in Abbildung 6, mittleren Bereich. Im Zentrum Dataset, die "Ergebnisse" zeigen als der am häufigsten vorkommende Kreuzung: "Position": 867; '#Junctions': 20033.821; "Abfrage starten", 1; CDS: Im ORF; und "Frame": im Rahmen. Nukleotid 867 der GenBank NCBI referenzsequenz NM_019648 ist der Anfang des Fragments Beute.
  3. Wenn die Abfrage zu starten 1 ist, entwerfen Sie 5'-Ende des Primers einzuschließende die Nukleotide, die Positionsnummer entspricht und reichen Sie 25 Nukleotide stromabwärts von dieser Position (Abbildung 7). Wenn Abfrage starten mehr als 1 ist, bedeutet dies, dass gibt es zusätzliche Nukleotide zwischen der Gal4-Aktivierung-Domäne und die Beute-Reihenfolge des Interesses und der Primer stromabwärts nach Abfrage Startwert weitere beginnen sollte.
  4. Klicken Sie aus dem DEEPN Fenster auf "Lesen Sie Tiefe" unter"analysieren". Sobald das Lesen Tiefe Fenster geöffnet ist, geben Sie die NCBI-Referenz-Sequenz (NM) oder gen Name in das obere Textfeld ein. Verwenden Sie Pull-Down-Menü den entsprechenden Datensatz auswählen, der das angereicherte gen von Interesse enthält. Anhand der Tabelle auf der linken Seite und das Grafikdisplay auf der rechten Seite, um festzustellen, wie viele Lesevorgänge in den Daten gefunden wurden, die das Gen des Interesses (Abb. 7B) entsprechen.
  5. Entwerfen Sie eine 3' Ende Grundierung, die die Sequenz des Gens Fragments berechnet durch Lesen Tiefe erfassen wird. Wenn der ORF die Fülle der Lesevorgänge hinausgeht und Codon zu stoppen, die Grundierung zu entwerfen, so dass es das Stopp-Codon und der Region gerade stromaufwärts von der Stopp-Codon enthält. Wenn die Sequenzen für das Gen nicht, über das Stopp-Codon hinaus, verwenden die Ergebnistabelle, die am weitesten entfernten 3' Region finden, die erkannt und nutzen Sie diese Position als die am weitesten 3' Stellung, die Grundierung zu platzieren.
    Hinweis: Das Lesen Sie Tiefe Programm scannt in Abständen Sequenzen zu finden, die die angegebenen gen/cDNA von Interesse zu entsprechen. Dies hilft vorherzusagen, wo die häufigste Beute Fragment 5' und 3' Ende für dieses Gen in der Probe. Lesen Sie ausführlich über die Länge der Sequenz Schwankungen sind normal, wie in Abbildung 7ersichtlich. Wenn die erfahren Sie Tiefe eindeutig vorbei das Stopp-Codon ist, bedeutet dies, dass die Beute Fragment erstreckt sich über das Stopp-Codon und somit der 3'-Primer kann einfach die Region rund um das Stopp-Codon entsprechen.
  6. Durchführen einer PCR-Reaktion 50 µL pro gen. Jede Reaktion enthält 25 Pmol jedes vorwärts und rückwärts Grundierung passend die Beute-Bibliothek-Plasmid (siehe Tabelle der Materialien). Reaktionen enthalten auch 25 µL der High-Fidelity-2 X PCR Master Mix, 5 µg DNA-Probe und Wasser bis zu 50 µL.
    1. Verstärken Sie Reaktionen für 25 Zyklen mit Verlängerung von 3 min bei 72 ° C, annealing Temperatur von 55 ° C für 30 s und Denaturierung bei 98 ° C für 10 s. vorauszugehen, Radfahren durch eine 30 s Denaturierung bei 98 ° C und folgen mit einer 5 min Inkubation bei 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fastq Daten zuordnen: der erste Schritt
In praktisch allen NGS Anwendungen einschließlich DEEPN die erste Ausgabe eine kurze Sequenz liest-Datei ist, die durch Ausrichtung auf genomische zugeordnet werden müssen, verweisen transkriptomischen oder anderen DNA-8. Vor kurzem wurde das HISAT2 Ausrichtung Programm entwickelt, das State-of-the-Art Indexierung Algorithmen verwendet, um die Zuordnung Geschwindigkeit7,9drastisch erhöhen. HISAT2 läuft effizient auf einem Desktop-Computer und kann in der Regel große Karte Datei lesen in Minuten. Dadurch konnten wir wickeln HISAT2 in einer grafischen Benutzeroberfläche namens MAPster, die Fastq Dateien lokal, abbilden kann, erlaubt Benutzern, zu vermeiden, unter Berufung auf Remotecomputer Hochleistungs-Cluster, die in der Regel mit Befehlszeilen Sprache (Abbildung 1). Wichtige Merkmale der MAPster sind das Vorhandensein von voreingestellten Parametern für RNA-Seq und ganze Genom Zuordnung Experimente, die Fähigkeit, mehrere Jobs in die Warteschlange sowie den Zugriff auf eine ganze Reihe von leicht einstellbaren HISAT2 Parameter für erfahrene Benutzer und angepasst Anwendungen. Um MAPster Funktionalität zu verdeutlichen, war das Ensemble GRChg38 Genom plus Transkript Referenz DNA eine öffentlich zugängliche eingesetzt Zelle RNA-Seq-Datendatei zugeordnet. Eingesetzt A11 replizieren 1 FASTQ Datei aus dem NCBI Reihenfolge lesen Archiv heruntergeladen wurde und enthielt 38,3 Millionen mal gelesen. MAPster wurde auf einen Apple iMac mit einem 3,5 GHz Intel Core i7 Prozessor mit Standard-RNA-Seq-Parameter für die ungepaarte lesen Sie Datei ausgeführt werden. Die Zuordnung wurde in weniger als fünf Minuten abgeschlossen. Die Gesamtrate der Ausrichtung war 96,6 %. Ähnliche Ergebnisse werden mit typischen DEEPN Datasets von 15 Millionen mal gelesen/Probe gefunden, obwohl die Gesamtrate Ausrichtung niedriger aufgrund des Vorhandenseins von Vektor-Sequenz aus dem Y2H-Beute-Plasmid.

Suche nach Kandidaten Hits mit Hilfe von Stat_Maker.
Das StatMaker-Programm erzeugt eine Excel sichtbar-Datei, die meisten mussten Kandidaten interagierenden Proteine zu identifizieren relevante Informationen zusammenfasst. Denn Stat_Maker macht benutzen von Unix-basierten Subroutinen, es läuft auf einem Mac (OS10.10 +) aber nicht PC. Zunächst fasst zusammen die Lesevorgänge in ppm für jedes Gen für Vektor-Kontrolle und Köder Populationen und auch produziert eine Wahrscheinlichkeit, ranking, ob die Anreicherung eines bestimmten Gens bei für Y2H Interaktion mit dem Köder von Interesse wirklich größer ist als die Bereicherung dieses Gens, wenn für die Interaktion mit dem nur-Vektor-Steuerelement (Abbildung 5) gewählt. Zweitens StatMaker führt die BlastQuery-Modul-Berechnungen für jedes Gen ausgewertet und verknüpfen den Prozentsatz der Kreuzung liest, die in der richtigen translationale Rahmen und die kodierende Sequenz für eine biologisch relevante Bonafide erforderlich wäre Interaktor. Diese Gesamtleistung macht es möglich, schnell Sortieren und Filtern Kandidaten, um diejenigen zu identifizieren, die durch BlastQuery näher untersucht werden können. Mit diesem Ausgang kann man zunächst für diejenigen Kandidaten mit der höchsten Probabily wird bei Auswahl für Y2H Interaktion auf dem Köder-Protein des Interesses und nicht, wenn für die Interaktion auf dem Vektor Plasmid allein ausgewählt bereichert sortieren. In der Praxis finden wir, dass P > 0,95 funktioniert gut. Dann können Kandidaten für diejenigen, die die meisten Kreuzung liest, die sowohl in der kodierenden Region den richtigen Leseraster verwenden eine einfache Sortierfunktion geordnet werden. Hier, Kandidaten mit > 85 % der Kreuzungen, sind im richtigen translationale Rahmen und befinden sich entweder innerhalb der Open reading Frame/Protein kodieren Region (ORF) oder das beginnen gerade, stromaufwärts von der Start-Codon (upstream). Dieser letztere Filter eliminiert 60 – 80 % der Anwärter, die haben einen akzeptablen Wert P, produziert eine Liste, die viel mehr biologisch relevant und für weitere Inspektion beherrschbar ist.

Die DEEPN Software.
Der Kern DEEPN Software bündelt mehrere rechnerische Module zusammen, um die Bioinformatik Schritte mit SAM-Dateien zu integrieren. Gene_Count liefert die Anzahl der Lesevorgänge pro gen, eine Berechnung ähnlich wie eine RNA-Seq-Quantifizierung. Andere Programme, die diese Art der Berechnung durchführen könnte auch verwendet werden, jedoch müsste das Dateiformat geändert werden, um mit anderen Modulen DEEPN und das Stat_Maker-Programm kompatibel. Alternativ könnte das Gene_Count-Modul verwendet werden, um RNAseq Experimente zu quantifizieren, Andere Pakete integriert mit spezifischen Statistik-Programme wurden jedoch entwickelten10. Der Prozess der Anpassung einer bestimmten zugeordneten lesen mit seiner entsprechenden gen von Interesse wurde seit dem ursprünglichen DEEPN Software mithilfe einer Datenstruktur Baum gen Zuordnung verbessert. Der Effekt davon war erheblich beschleunigt die Geschwindigkeit der Verarbeitung, so dass eine typische Dataset enthält 10 Millionen mal gelesen zugeordnet dauert 5 – 10 min auf Desktop-Computer mit minimalen Systemanforderungen. Weitere Analysen, insbesondere die Analyse der Kreuzung liest, die die Gal4-Aktivierungsdomäne erstrecken und der interagierenden Kandidat von Interesse sind eigenständig. Sie werden mit der BLAST-Alogorithm, die lokal ausgeführt wird verpackt und Analyse Verfahren korrekt Sortieren alle von die Kreuzung gelesenen und ihre Positionen für die bestimmte Gene. Einer der Nachteile der DEEPN Software ist, dass es macht nutzen spezielle formatierte Datenbanken, die definieren, welche Exons in der Referenz-Genome verwendet werden, um cDNAs oder Codierung Regionen definieren und formatiert-Datenbanken, die die Sequenz und Translationale Start- und Haltestellen angeben jede cDNA/Gene verwendet. Wir fanden, dass es schwierig ist, alle Informationen aus der Datenbank abrufen, die DEEPN in einem zuverlässigen Format, die einige vermeidbare Fehler begegneten wir erfordert fehlte mit der Indizierung von bestimmten Genen. So haben wir neue Datenbanken, dass wir Qualität kontrolliert und in die DEEPN Software für konsequente interne Referenz eingebettet. Derzeit sind Maus, Mensch und S. Cerevisiae Y2H Beute Bibliotheken durch die mitgelieferten Datenbanken unterstützt, vorausgesetzt, dass die DNA-Fastq-Dateien gegen mm10, hg38 oder SacCer3-Referenz-Datenbanken ab UCSC zugeordnet sind. Y2H Bibliotheken aus verschiedenen Organismen können durch DEEPN verarbeitet werden, vorausgesetzt, dass ähnliche Datenbanken erstellt und in die DEEPN Software platziert. Insgesamt jedoch die geschlossene Verpackung alle DEEPN Module, Datenbanken und andere Programme diese bioinformatische Analysen zugänglich zu machen Ermittler auf allen Ebenen der Erfahrung.

Figure 1
Abbildung 1 : The MAPster Schnittstelle. Screenshot des Hauptfensters von MAPster. Die Felder für die Eingabe von erforderlichen Dateien und Formate werden angezeigt. Deaktivieren Sie "Pairwise" (A) um Sequenzdateien zu behandeln, wie Single-End liest. Das Referenz-Genom ist mit dem "Genom" Menü ausgewählt bar (B). Die Anzahl der Prozessoren, die von HISAT2 verwendet wird mit dem Menü "Threads" (C) ausgewählt. Der neue Probenname kann in "Output Filename" Textfenster (D) eingegeben werden. Das Verzeichnis für die Ausgabedateien kann in (E) bezeichnet werden. Unten ist ein Fenster mit der Queueing Einend-Dateien lesen. Nach der Probe zur Warteschlange hinzugefügt wurde, kann Zuordnung mit "Ausführen Warteschlange" Taste (F) eingeleitet werden. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 2
Abbildung 2 : DEEPN Schnittstelle. Bild von der grafischen Benutzeroberfläche verwendet, um die DEEPN Module betreiben. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 3
Abbildung 3 : Abschluss Verarbeitung. Sobald DEEPN Daten verarbeitet, sind die folgenden Unterordner erstellt. Diese können besichtigt werden, aber nachgelagerte Prozesse erfordern, dass diese Unterordner innerhalb des Ordners Hauptwerk bleiben und dass sie ihre Inhalte und Namen behalten. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 4
Abbildung 4 : Stat_Maker Analyse. Bild von der grafischen Benutzeroberfläche für Stat_Maker, die mit entsprechenden Dateien zur Verarbeitung ermöglichen geladen wurde. Oben zeigt die ursprüngliche Ansicht des Stat_Maker. Sobald das Vorhandensein der zugrundeliegenden Daten Unterstützung durch Klicken auf die Schaltfläche "Überprüfen der Installation" und die ordnungsgemäße Arbeitsordner identifiziert, nach einem Klick auf die Schaltfläche "Ordner auswählen" überprüft wurden, wird die GUI, aktiv für das Laden von Dateien ermöglicht. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 5
Abbildung 5 : Auszug aus Stat_Maker. Teil der Stat_Maker Ausgabe die Anreicherung der Beute Kandidaten auf einem einzigen Köder Protein allein (leere pTEF-GBD) Vektor zu vergleichen. Auch gezeigt, ist die entsprechende Analyse der ob die Plasmiden entspricht der Beute-Kandidat den richtigen offenen Leserahmen enthalten. Jedes Gen ausgewertet hat mehrere Werte: Basis, Vec, Köder und Enr. Die "Basis" ist der durchschnittliche Anteil der Lesevorgänge (ppm), die beobachtet wurden für das Gen innerhalb der 2 Datasets, die doppelte Bevölkerung entspricht, enthält nur Vektor-allein und unter nicht-selektiven Bedingungen angebaut. "Vec" bezieht sich auf den durchschnittlichen Anteil der Lesevorgänge (ppm), die beobachtet wurden für das Gen innerhalb der 2 Datasets, die doppelte Bevölkerung entspricht, enthält nur Vektor-allein und unter selektiven Bedingungen angebaut (z. B.-sein). "Köder" bezieht sich auf den Anteil der Lesevorgänge (ppm), die für das Gen in die 2 Datensätze entsprechend der 2 Populationen mit dem Köder Plasmid beobachtet und selektiven Bedingungen angebaut wurden (z. B.-sein). "Enr" (Enrichement) ist log2 ((Bs/Bn) / (Vs/VL)) wo Bs ist die Lesevorgänge für Köder unter Auswahl, Bn ist liest für Köder unter nicht-Auswahl Vs ist Vektor allein unter Auswahl und Vn ist Vektor allein unter Auswahl. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 6
Abbildung 6 : Anzeige der Blast_Query. Ausgabe von Blast_Query auf 3 verschiedene Ansichten. Oben ist die ursprüngliche Ansicht des Stat_Maker, bevor die Datensätze des Kandidaten ausgewählt werden. Der mittleren Spalte ist eine Beispielansicht der Datentabelle anzeigen von Informationen auf einen bestimmten Kandidaten für zwei verschiedene Datensätze. Unten zeigt eine grafische Ansicht der Tabellendaten, Plotten die Anzahl der bestimmten Knotenpunkten entlang gen/cDNA von Interesse. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 7
Abbildung 7 : Finden die 5' und 3'-Primer verstärken. (A) zeigt eine hypothetische Reihenfolge und wie die 5' Oligo, den richtigen Rahmen und Fusion zu erfassen-design zwischen der Domäne Gal4-Aktivierung und die Beute-Reihenfolge des Interesses zu zeigen. In Beispiel 1 ist die Position der Schmelzpunkt an 10th -Nukleotid mit einem Q-Start des 1. Mit Hilfe den oben genannten Offset Tabelle 0 Nukleotide sind um zu finden, die 5' Startposition des Primers hinzugefügt werden. Die rekonstruierte Beute Plasmid Schmelzpunkt zeigt, dass die Gal4-Aktivierungsdomäne direkt an die Beute an Nukleotid 10 verschmolzen wird. In Beispiel 2 ist die Abfrage starten 3, die einen Offset von 1 Nukleotid erfordert, um den richtigen Startpunkt und Rahmen des Einsatzes Beute zu erfassen. Die schematische Darstellung der rekonstruierten Beute zeigt, dass es 2 Nukleotide zwischen der Gal4-Aktivierung-Domäne und die bekannte Position des Beute-Einsatzes, die berücksichtigt werden muss. (B) zeigt das Lesen Tiefe Fenster. Das Textfeld an der Spitze wird verwendet, um die NCBI Reihenfolge Referenznummer eintragen und die Pull-Down-Menü unter "Select .sam Datei" dient zur Auswahl der Daten für das Beispiel der angereicherte interagierende gen enthalten, wenn Interesse. Lesen Sie Tiefe zeigt, wie viele Sequenzen (y-Achse) in den Daten gefunden wurden, die die Nukleotid-Positionen von der Reihenfolge des Interesses (X-Achse) entsprechen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die hier beschriebenen Software-Suite erlaubt es, vollständig verarbeiten und analysieren Hochdurchsatz DNA-Sequenzierungsdaten aus einem DEEPN Experiment. Das erste Programm ist MAPster, die die DNA-Sequenz lautet in standard Fastq-Dateien und ordnet ihre Position auf eine Referenz-DNA für downstream-Processing durch eine ganze Reihe von Informatik-Programme einschließlich der DEEPN Software. Das Dienstprogramm der MAPster Schnittstelle und seiner Fähigkeit, mehrere Jobs, Mähdrescher Eingabedateien, die Warteschlange Ausgabedateien Coveniently Name, gekoppelt mit der Geschwindigkeit der zugrunde liegenden HISAT2 Programm7 von ihm kontrollierten eine einfach zu bedienende Tool-Zuordnung für eine Vielzahl von bietet Anwendungen über DEEPN. MAPster kann mehrere Parameter des Programms HISAT2 zugreifen, die für andere Arten der Datenanalyse neben DEEPN geeignet sind. Einige dieser Funktionen sind voreingestellte Parameter für RNA-Seq und ganze Genom Zuordnung Experimente und Zugriff auf eine ganze Reihe von leicht einstellbaren HISAT2 Parameter für erfahrene Anwender und für kundenspezifische Anwendungen. Beispielsweise fügt die Schaltfläche "RNA-Seq" Formatierung, die Abschrift Montage erleichtern würde. Die CRISPR-Taste Blöcke Ausrichtung um die umgekehrte Ergänzung Strang als wäre angemessen für eine Referenz-DNA-Datei abgeleitet Guide RNA-Sequenzen. Die optionalen Parameter finden Sie unter vier Registerkarten mit der Bezeichnung, "Input, Ausrichtung, Scoring und Output". Die Eingabeoptionen umfassen die Möglichkeit, input-Datei-Formate ändern und grundlegende lesen Sie trimmen Optionen angeben. Die Ausrichtung und scoring Registerkarten gehören die Optionen nur ein Strang auf dem Referenz-DNA zu wählen und die Lücke und Missverhältnis Strafen für die Ausrichtung Noten gesetzt. Die Möglichkeit, bequem mehrere kartierungsaufträge Warteschlange, die jeweils mit unterschiedlichen Parametereinstellung MAPster von Interesse für Experten und Laien Benutzer verfolgen komplexe NGS-Anwendungen machen sollte.

Die DEEPN und Stat_Maker-Software-Programme sind auf die spezifischen Bioinformatik-Analyse der Daten aus Batch Y2H Bildschirme gewidmet. Dies ist für ein breites Spektrum von Ermittlern zugänglich und bildet einen zusammenhängenden Bioinformatic Softwarepaket laufen über eine grafische Benutzeroberfläche. Dieses Paket wurde weiter optimiert und von seiner ursprünglichen Beschreibung6 integriert, so dass es schneller läuft und Analyse der Kandidaten Hits gestrafft. Die Bioinformatik-Schritte können auf einem Desktopcomputer ausgeführt werden. Die wichtigsten DEEPN Software findet, die diese Karte Positionen zu berechnen, wie viele liest, entsprechen jedes Gen dabei bilden die Grundlage für wie bei der Auswahl ein bestimmtes Gens angereichert ist. Diese Software findet auch die "Junction" Sequenzen, die den Einsatz von Interesse entsprechen, wie es auf die transkriptionelle Aktivierungsdomäne des Plasmids Beute verschmolzen ist und verknüpfen diese Ergebnisse, so dass man die verschiedenen Teile des einen bestimmten ORF visualisieren können oder cDNA ist ausreichend für die Interaktion. Darüber hinaus bietet dies auch Informationen um den Leserahmen jedes Einsatzes zu überprüfen. Der dritte Arm von der bioinformatische Software ist Stat_Maker, die Ausgabedateien von DEEPN verarbeitet verwendet, um die statistische Relevanz der Gen Bereicherungen aus Interaktionen mit einem bestimmten Köder-Protein vs. die Gal4 DNA-bindende Domäne Vektor allein (berechnen leere pTEF-GBD). Eine jüngste Verbesserung ist, dass Stat_Maker bietet nicht nur eine statistische Ranking eines jeden Kandidaten, sondern auch die entsprechenden Informationen aus die entsprechenden Junction-Sequenzen in einer einzigen Datei verknüpfen, so dass es viel leichter zugänglich zu machen für Ermittler befragen und überprüfen Sie die Ergebnisse.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts preisgeben

Acknowledgments

Diese Arbeit wurde vom National Institutes of Health unterstützt: NIH R21 EB021870-01A1 und durch NSF Research Project Grant: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetik Ausgabe 136 Protein-Interaktion Next Generation Sequencing DNA-Sequenzanalyse Hefe-2-Hybrid
Informatischen Analyse von Sequenzdaten von Batch-Hefe-2-Hybrid-Bildschirme
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter