Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Informatic analyse van sequencedata van Batch gist 2-Hybrid schermen

Published: June 28, 2018 doi: 10.3791/57802

Summary

Diepe sequentiebepaling van gist bevolking geselecteerd voor positieve gist 2-hybrid interacties mogelijk levert een schat aan informatie over interacterende eiwitten van de partner. Hier beschrijven we de werking van specifieke bioinformatica tools en bijgewerkte software voor het analyseren van de reeks gegevens uit dergelijke schermen op maat.

Abstract

De gist 2-hybrid bepaling om tegelijkertijd tientallen voorbijgaande en statische eiwitinteractie binnen één scherm met behulp van hoge-doorvoer korte-Lees DNA rangschikkend bloot te leggen, hebben we aangepast. De resulterende reeks datasets kunt bijhouden welke genen in een populatie die tijdens de selectie voor positieve gist 2-hybrid interacties zijn verrijkt, maar ook geven gedetailleerde informatie over de relevante subdomeinen van eiwitten voldoende voor interactie. Hier beschrijven we een volledige suite van zelfstandige softwareprogramma's waarmee niet-deskundigen om alle de bioinformatica en statistische stappen om te verwerken en analyseren van bestanden met fastq van DNA reeksen van een batch gist 2-hybrid test uitvoeren. De stappen van de verwerking vallende van deze software omvatten: 1) mapping en tellen volgorde leest overeenkomt met elke kandidaat-proteïne gecodeerd binnen een gist 2-hybrid prooi bibliotheek; 2) een statistische analyseprogramma dat resulteert in de profielen van de verrijking; en 3) hulpmiddelen de translationeel frame en positie binnen de codering regio van elke verrijkt plasmide die de interacterende eiwitten van belang codeert te onderzoeken.

Introduction

Een benadering te ontdekken eiwitinteractie is de gist 2-hybrid (Y2H) test, welke exploits ontworpen gistcellen die groeien alleen wanneer een proteïne van belang aan een fragment van een interactie partner1 bindt. Detectie van meerdere Y2H interacties kan nu worden gedaan met de hulp van massale parallelle high-throughput sequencing. Verschillende formaten zijn beschreven van2,3,4,5 waaronder een die we ontwikkeld waar populaties worden geteeld in batch onder voorwaarden die selecteert voor gist plasmiden die produceren met een positieve Y2H interactie6. De werkstroom we ontwikkeld, genoemd DEEPN (dynamische verrijking voor evaluatie van de netwerken van de proteïne), differentiële interactomes uit de dezelfde prooi bibliotheken te identificeren van de eiwitten die in combinatie met een eiwit (of domein) vsidentificeert. een ander eiwit of een conformationally onderscheiden mutant domein. Een van de belangrijke stappen in deze werkstroom is goede verwerking en analyse van de gegevens van DNA sequencing. Sommige informatie kan worden opgedaan door te gewoon tellen het aantal leest voor elk gen zowel vóór als na de selectie van Y2H interacties op een wijze analoog aan een RNA-seq-experiment. Echter kan veel meer gedetailleerde informatie worden geëxtraheerd uit deze datasets met inbegrip van informatie over het subdomein van een bepaald eiwit dat is geschikt voor het produceren van een Y2H-interactie. Voorts overwegende dat de aanpak van de DEEPN waardevol is, kunnen analyseren van vele monster wordt gerepliceerd omslachtige en dure. Dit probleem is verlicht met behulp van een statistisch model dat werd ontwikkeld speciaal voor DEEPN datasets waar het aantal replicatieonderzoeken is beperkt6. Om verwerking en analyse van DNA sequencing datasets betrouwbare, volledige, robuuste en toegankelijk voor onderzoekers zonder bioinformatics deskundigheid, ontwikkelden we een suite van software programma's die betrekking hebben op alle stappen van analyse.

Deze suite van stand-alone software programma's die worden uitgevoerd op desktop computers omvat MAPster, DEEPN en Stat_Maker. MAPster is een grafische gebruikersinterface waarmee dat elk fastq-bestand in de wachtrij voor toewijzing aan het genoom met behulp van de HISAT2 programma7, produceren een standaard .sam bestand voor gebruik in downstream toepassingen. DEEPN heeft verschillende modules. Het wordt toegewezen en telt leest overeenkomt met een bepaald gen vergelijkbaar met een RNA-seq type kwantificering met behulp van de module 'Gene Count'. Ook extracten van de reeksen overeenkomt met de kruising tussen de Gal4 transcriptionele domein en de volgorde van de prooi en gesorteerd van de positie van deze kruispunten toe hun inspectie door vergelijkende tabellen en grafieken (met behulp van de module 'Junction_Make') De module 'Blast_Query' laat gemakkelijk inspectie, kwantificatie en vergelijking van de kruising Gal4 junction sequenties. Stat_Maker evalueert de leest per gene verrijking gegevens statistisch gezien als een manier van het prioriteren van waarschijnlijk Y2H hits. Hier beschrijven we hoe deze software programma's te gebruiken en volledig analyseren de gegevens uit een DEEPN Y2H experimenteren opeenvolging van DNA. Versies van DEEPN worden uitgevoerd op PC, Mac en Linux systemen. Andere programma's, zoals het programma voor toewijzing MAPster en de DEEPN statistieken module Stat_Maker afhankelijk van subroutines die worden uitgevoerd onder Unix en zijn alleen beschikbaar op Mac en linux systemen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Fastq toewijzingsbestanden

Opmerking: DEEPN software, alsook vele bioinformatics-programma's gebruiken DNA-gegevens van de volgorde waarin elke sequentie lezen is toegewezen voor haar positie in verwijzing DNA. Een verscheidenheid van programma's de toewijzing kan worden gebruikt voor dit met inbegrip van de MAPster interface hier die gebruikmaakt van het HISTAT2-programma voor de productie van .sam bestanden die worden gebruikt in opeenvolgende stappen.

  1. De reeks gegevens toewijzen aan de juiste versie van het genoom. Voor de bibliotheken van de Y2H van muis oorsprong, gebruiken de UCSC mm10 genoom; voor degenen met behulp van menselijke genen, gebruik de UCSC hg38 referentie genoom, voor Saccharomyces cerevisiae genen, gebruik van het genoom van de verwijzing UCSC SacCer3.
  2. Installeren van MAPster.
    1. MAPster software downloaden en installeren. De software kan worden gevonden via een webbrowser op het volgende: https://github.com/emptyewer/MAPster/releases. HISAT2 draait op Unix gebaseerde systemen, zoals een Apple Macintosh. Hierdoor zal het MAPster-programma alleen uitgevoerd op compatibele systemen zoals Apple Macintosh en linux.
      Opmerking: Systeemvereisten voor Apple Mac zijn: OSX 10.10 +, > 4 Gb RAM, > 500 Gb beschikbare schijfruimte en de toegang tot het internet voor het downloaden van referentie genomen. Gebruikers wellicht te raadplegen met een institutionele persoon als hun onderneming beveiligingsprotocollen beperken beheerdersrechten en -machtigingen heeft.
  3. Voer vereiste bestanden en parameters via het tabblad "Main" (Figuur 1). Selecteer de juiste "Pairwise" knop om bestanden zoals paren of ongepaarde met FASTQ als de standaardbestandsindeling.
    1. Schakel de optie van de "Pairwise" op "Uit" om te draaien in één Lees formaat voor DEEPN analyse.
    2. Bestanden laden naar MAPster gewoon door slepen en neerzetten in het juiste venster.
    3. Selecteer een verwijzing bron van de DNA/genoom die correspondeert met de bron van de Y2H prooi bibliotheek inserts. Geïndexeerde genomen van verscheidene modelorganismen staan in de "Genoom" vak en kunnen automatisch worden gedownload van de Johns Hopkins University Center for Computational Biology. Referentie genomen worden lokaal opgeslagen voor later gebruik.
    4. Geeft het aantal computerprocessen worden gewijd aan het programma van de toewijzing onder het vak "Threads" sinds HISAT2 ondersteunt multi-threading. MAPster zoekt de computer en het maximale aantal processors beschikbaar als een standaard suggereren.
    5. Geef een output bestandsnaam. De naam van dit bestand zal gebruikt worden tijdens het DEEPN-proces dus een korte maar beschrijvende naam, zonder spatie of speciale tekens is aanbevolen. Geef een map voor de uitvoer van de toegewezen bestanden met behulp van de knop "Open Output Directory".
    6. Zodra de juiste bestanden en parameters hebt geselecteerd, wordt het werk van de toewijzing aan de wachtrij met behulp van de knop "Add to Queue" toevoegen. De bestandsnamen in het belangrijkste venster kunnen worden verwijderd en vervangen door bestanden die betrekking hebben op een nieuwe steekproef en ze kunnen worden toegevoegd aan de wachtrij na het verstrekken van een overeenkomstige output bestandsnaam.
    7. Klik op de "Uitvoeren wachtrij" knop zodra alle taken in de taakwachtrij zijn ingevoerd.
      Opmerking: Zodra een toewijzing baan in de wachtrij is geplaatst, selecteren die baan zorgt ervoor dat de parameterinstellingen moet worden weergegeven in het venster "Baan Parameters" en de verklaring van de bevellijn met alle argumenten worden weergegeven in het venster "Baan Command". De uitvoeropties omvatten sturen of naar houden leest die niet uitlijnen en het aantal primaire afstemmingen toegestaan voor elke lezen op te geven. De standaard output file van MAPster is in SAM formaat (bijvoorbeeld een bestand '.sam'). Het bevat alle de leesbewerkingen van de volgorde van de fastq bestanden opgegeven voor dat monster met inbegrip van de instellingen die waren (toegewezen) en waren niet (unmapped) succesvol toegewezen aan het opgegeven geome.

2. Bioinformatic verwerking met behulp van DEEPN Software

Opmerking: DEEPN software is momenteel samengesteld voor gebruik met prooi bibliotheken met muis cDNA sequenties, menselijke cDNA sequenties of S. cerevisiae genomic opeenvolgingen van DNA. DEEPN accepteert de standaard .sam-bestandsindeling en een bestand van de SAM (.sam) die zowel toegewezen en ontkoppeld leest of afzonderlijke bestanden bevat voor elk van de niet-toegewezen en toegewezen leest kan aanvaarden.

  1. DEEPN software downloaden en installeren. De software kan worden gevonden via een webbrowser op het volgende: https://github.com/emptyewer/DEEPN/releases. Selecteer welke versie overeenkomt met de computing platform en downloaden. Open het gedownloade installatie pakket om te installeren.
    Opmerking: Versies van DEEPN zijn beschikbaar voor PC, Mac en Linux sysrems. Mac en PC systemen moeten > 500 Gb harde schijfruimte en > 4 Gb RAM.
  2. De DEEPN-software niet openen. Selecteer de bijbehorende informatie van de bibliotheek van de prooi van het bovenste selectievak van het belangrijkste venster (Figuur 2). Selecteer een map waar de verwerkte bestanden kunnen gaan door te klikken op de knop "werkmap" en navigeren naar de map/directory. Een kunt een nieuwe map/directory maken indien nodig. Zodra een "werk Folder" is geselecteerd, zal DEEPN de drie submappen getiteld unmapped_sam_files, mapped_sam_files en sam_files maken.
    1. Als met behulp van .sam bestanden met zowel toegewezen en ontkoppeld leest zoals degenen die met standaardinstellingen van het programma MAPster, plaats ze in de map 'sam_files'. Anders plaats .sam bestanden dienovereenkomstig in de unmapped_sam_files en de mapped_sam_files.
  3. Verwerking starten door te klikken op de knop "Gene graaf + Junction maken".
    Opmerking: Verwerking zal beginnen met de Gene graaf-module die toewijzing posities gebruiken zal om te tellen hoeveel leest correspondeert met elk gen. Junction Make zal vervolgens uittreksel junction sequenties (de sequenties gesmolten direct stroomafwaarts van het domein van de Gal4-activering) van de leest en identificeren met behulp van het algoritme Blast. Dit zal leiden tot een volledige set mappen die zijn afgebeeld in Figuur 3. Verwerkingstijd is afhankelijk van de grootte en het aantal bestanden met reeksen gegevens en de verwerkingssnelheid van de computer gebruikt. Typische tijden variëren van 12-30 h voor een experimentele dataset van ~ 250 miljoen leest. De Gene graaf-procedure en de procedure Junction_Make kunnen individueel gestart worden door te klikken op de knop "Gene Count" of de "Junction maken".
  4. Download en installeer Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Dit is een statistische analyse-pakket ontwikkeld voor DEEPN datasets die momenteel alleen op Unix Mac-systemen werkt.
    1. Open Stat_Maker en klik op de knop 'Controleren of de installatie' (Figuur 4). Als voor de eerste keer uitvoert, Stat_Maker automatisch geïnstalleerd R, JAGS en Bioconductor door te trekken van deze bronnen van het internet. Zodra R, JAGS en Bioconductor worden gedetecteerd, zal de Stat_Maker actief geworden en verdere gebruikersinvoer toestaan.
    2. Klik op de knop 'Kies map' om te navigeren naar de map die DEEPN verwerkt. Stat_Maker automatisch vinden en lijst van de bestanden voor statistische analyse in het venster.
    3. Slepen en neerzetten van de juiste bestanden uit het bestand lijstvenster boven in het bestand ramen hieronder voor elke vector en aas dataset en voor elke groei-omstandigheden: niet-geselecteerde (zijn + media) en (zijn - media) hebt geselecteerd. Bovenal vereist Stat_Maker dubbele datasets voor lege vector alleen, twee monsters van niet-geselecteerde populaties en twee monsters van geselecteerd. Dit geeft een schatting van de variabiliteit in de experiment.
    4. Klik op de "Uitvoeren" knop. Afhankelijk van de snelheid van de computer vindt de berekening tussen 5-15 min.
  5. Bekijk resultaten van de output van de Stat_Maker, die in een nieuwe submap in de map van de belangrijkste werk met het label "Stat_Maker resultaten" zijn ingedeeld.
    Opmerking: De resultaten zijn gevonden in een CSV (comma separated values) bestand dat gemeen spreadsheetprogramma's kan worden geopend. Stat_Maker zal rang gene hits die dreigen te worden voor het differentieel verrijkt selectie met het aas van belang bij het over het lege pTEF-GBD (Figuur 5). Ook tabelvorm is het percentage van luidt voor elke dataset waar de gene invoegen gevonden stroomopwaarts, stroomafwaarts, of binnen de open leesraam en of het gen ook binnen het juiste translationeel leesraam wordt gevonden. Vaak zal DEEPN robuust Y2H interacties van een aas met gedeelten van een bepaalde cDNA die zijn uit het juiste leesraam van het overeenkomstige eiwit of aan een gedeelte van de cDNA dat stroomafwaarts van de overeenkomstige open-leesraam vangen. Scannen van de gecombineerde output van Stat_Maker stroomlijnt detectie en eliminatie van deze irrelevant hits.
  6. Als u wilt bekijken van de gegevens over elke potentiële kandidaat, de DEEPN-software niet openen, selecteert u de bijbehorende informatie van de bibliotheek van de prooi waarna naar de juiste map met behulp van de "werk Folder".
    1. Klik op de knop "Query Blast". Dit laadt een nieuw venster (Figuur 6). Typ in het bovenste tekstvak, GenBank NM nummer te selecteren van de kandidaat-gen van belang of de naam van het gen. Deze gen namen komen overeen met de namen in het uitvoerbestand StatMaker. Type enter of return, die initieert ophalen van het gen van belang.
    2. Selecteer welke datasets gebruikt zal worden voor de analyse met behulp van de "Selecteer Dataset" menu's. Meestal deze omvatten alleen de Vector en aas monsters gekweekt onder niet-selectieve omstandigheden en het monster van de aas geteeld onder omstandigheden van de selectie. Aanvankelijk de datasets duurt een paar ogenblikken te laden, daaropvolgende query van de dezelfde datasets met verschillende genen zal gaan echter snel. Blast_Query verschijnt de fusion punten langs de opeenvolging van belang en hoe overvloedig elk punt van de fusie is. Dit kan zowel in een tabel via het tabblad "Resultaten" en een grafisch formaat via het tabblad "Plot" worden weergegeven. Deze resultaten kunnen worden geëxporteerd naar een CSV-bestand door te klikken op de "Save.csv" knop in de rechterbovenhoek.

3. verificatie van de kandidaten aangeduid met DEEPN

Opmerking: Het doel van DEEPN en Stat_Maker is om kandidaat-genen die een positieve interactie van de Y2H geven te identificeren. Controleren van dergelijke Y2H interactie kan worden gedaan met behulp van een traditionele binaire Y2H-formaat met behulp van het aas plasmide van belang gecombineerd met de lege Gal4-activering domein 'prooi' plasmide evenals gecombineerd met de prooi plasmide die het gen/cDNA fragment van belang. Het is niet haalbaar om te isoleren van de werkelijke plasmide van belang in het mengsel van DNA geïsoleerd van de gist bevolking onderworpen aan Y2H selectie. Echter kan een computationeel reconstrueren wat het gen/cDNA fragment is dat produceert de Y2H interactie, ontwerpen van inleidingen voor de 5' en 3' einden van dat fragment, en versterken van dat fragment uit het DNA afgezonderd van de gist bevolking. In deze sectie wordt beschreven hoe het 5' en 3' einde van het fragment van de prooi kandidaat te vinden.

  1. Open de DEEPN software en kies de parameters "Select Parameter" en de werkmap "Selecteer werken" overeenkomt met het project. Start de module van de Blast_Query door te klikken op de knop "Query Blast".
  2. Typ de naam van het gen van belang of de GenBank "NM" nummer in het bovenste tekstvak. Selecteer in het pull-downmenu de dataset die correspondeert met de geselecteerde gist bevolking voor het aas van belang om op te halen van de inhoudsopgave junction posities onder het tabblad 'Resultaten'. Standaard Blast_Query zal het bestellen van de verschillende standpunten die volgens hun overvloed in de dataset, gekwantificeerd door de ppm van het totale aantal knooppunten die zijn gevonden in de database.
    1. Vind de overvloedigste standpunt dat is "In ORF" en "In Frame". De waarde voor de positie komt overeen met de positie van de nucleotide van het gen met de NCBI referentie opeenvolging ('NM' nummer) gevonden in het bovenste tekstvak. Deze volgorde kan worden opgehaald uit GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) of gekopieerd uit het onderste tekstvak in het Blast_Query-venster.
      Opmerking: Een voorbeeld kan gevonden worden in Figuur 6, middelste deelvenster. In de dataset center, de 'resultaten' weergeven als de overvloedigste kruising: 'Positie': 867; '#Junctions': 20033.821; 'Query Start', 1; CDS: In ORF; en 'Frame': In Frame. Nucleotide 867 van de GenBank NCBI referentie reeks NM_019648 is het begin van het fragment van de prooi.
  3. Als de Query Start 1 is, ontwerpen van het einde 5' van de primer op te nemen van de nucleotide overeenkomt met het positienummer en uitbreiden van 25 nucleotiden stroomafwaarts vanuit die positie (Figuur 7). Query Start is meer dan 1, geeft aan dat er extra nucleotiden tussen het domein van de activering Gal4 en de opeenvolging van de prooi van belang zijn en dat de primer met verder stroomafwaarts volgens de Query Start waarde beginnen.
  4. Klik op de knop "Read diepte" onder "Gegevens analyseren" vanuit het venster DEEPN. Zodra het lezen diepte-venster geopend is, de NCBI referentie sequentie (NM) nummer of gene naam typen in het bovenste tekstvak. Gebruik het pull-down menu om te selecteren van de relevante dataset waarin de verrijkte gen van belang. Gebruik de tabel aan de linkerkant en de afbeeldingen worden weergegeven op het recht om te bepalen hoeveel leest werden gevonden in de gegevens die overeenkomen met het gen van belang (Figuur 7B).
  5. Ontwerp een einde primer 3', die de volgorde van het fragment van de gene berekend door lezen diepte zal vangen. Indien de overvloed van luidt overschrijdt de ORF en stop codon, ontwerp van de primer, zodat hierin de stop codon en de regio slechts stroomopwaarts van de stop codon. Als de reeksen voor het gen het niet tot voorbij de stop codon uitstrekt doen, gebruikt u de tabel van de resultaten te vinden van de meest afgelegen regio 3' die kan worden gedetecteerd en gebruikt deze positie als de verst 3' positie voor de primer.
    Opmerking: Het lezen diepte programma scant in intervallen sequenties die overeenkomen met de opgegeven gen/cDNA van belang vinden. Dit helpt voorspellen waar het 5' en 3' eind van de overvloedigste fragment van de prooi is voor dat gen in het monster. Fluctuaties in de Lees diepte langs de lengte van de reeks zijn normaal, zoals te zien is in Figuur 7. Als de Lees diepte duidelijk voorbij de stop codon is, geeft het aan dat de prooi fragment verder reikt dan de stop codon en de 3'-primer kan dus gewoon komen overeen met de streek rond de stop codon.
  6. Het uitvoeren van een PCR-reactie van 50 µL per gen. Elke reactie bevat 25 pmol elke voorwaartse en omgekeerde primer die overeenkomen met de plasmide prooi-bibliotheek (zie tabel van materialen). Reacties bevatten ook 25 µL van High-fidelity 2 x PCR Master Mix, 5 µg DNA-monster en water tot 50 µL.
    1. Reacties versterken voor 25 cycli met extensie tijden van 3 min bij 72 ° C, onthardende temperatuur van 55 ° C gedurende 30 s denaturering bij 98 ° C gedurende 10 s. Precede fietsen door een 30 s denaturatie bij 98 ° C en volgen met een incubatieperiode van 5 min bij 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fastq gegevens in kaart te brengen: de eerste stap
In vrijwel alle NGS toepassingen met inbegrip van de eerste uitvoer is een bestand van korte opeenvolging luidt dat moet worden toegewezen door aanpassing aan de genomic DEEPN, verwijzing transcriptomic, of andere DNA8. Onlangs werd de HISAT2 aanpassing programma ontwikkeld dat maakt gebruik van state-of-the-art indexing algoritmen te drastisch verhogen de toewijzing snelheid7,9. HISAT2 efficiënt wordt uitgevoerd op een desktopcomputer en een typisch formaat kaart bestand kan lezen in minuten. Hierdoor konden wij laten teruglopen van HISAT2 in een grafische user interface genaamd MAPster die fastq bestanden lokaal toewijzen kan, toestaand gebruikers om te voorkom afhankelijkheid van externe high-performance computer clusters, die meestal met command-line taal (Figuur 1 werken). Belangrijke kenmerken van MAPster zijn de aanwezigheid van vooraf ingestelde parameters voor RNA-seq en hele genoom kartering experimenten, de mogelijkheid om meerdere taken in de wachtrij en toegang tot een volledige set van gemakkelijk instelbare parameters van de HISAT2 voor ervaren gebruikers en voor aangepast toepassingen. Om te illustreren MAPster van functionaliteit, werd een publiekelijk beschikbaar eHAP cel RNA-seq-gegevensbestand toegewezen aan het Ensemble GRChg38 genoom plus transcript referentie DNA. De eHAP A11 repliceren 1 FASTQ bestand is gedownload van de NCBI volgorde lezen archief en bevatte 38,3 miljoen leest. MAPster werd uitgevoerd op een iMac van Apple met een 3,5 GHz Intel Core i7-processor met behulp van standaard RNA-seq parameters voor de ongepaarde Lees bestand. De toewijzing is voltooid in minder dan vijf minuten. Het algemene uitlijning tezamen bedraagt 96,6%. Vergelijkbare resultaten zijn gevonden met typische DEEPN datasets van 15 – 25 miljoen leest/monster, hoewel de algemene uitlijning tarief lager als gevolg van de aanwezigheid van vector opeenvolging van het Y2H prooi plasmide is.

Het vinden van kandidaat-hits met de hulp van Stat_Maker.
Het programma StatMaker produceert een excel overgezette bestand dat geeft een overzicht van de meeste van de relevante informatie die nodig zijn voor het identificeren van kandidaat-interacterende eiwitten. Omdat Stat_Maker maakt gebruik van unix gebaseerde subroutines, het zal draaien op een Mac (OS10.10 +) maar niet PC. Ten eerste, het geeft een overzicht van het luidt in ppm voor elk gen voor vectorbestrijding en aas populaties en ook produceert een waarschijnlijkheid ranking of de verrijking van een bepaald gen wanneer geselecteerd voor Y2H interactie met het aas van belang echt groter is dan de verrijking van die gene wanneer geselecteerd voor interactie met het besturingselement alleen-vector (Figuur 5). Ten tweede, StatMaker voert de berekeningen van de module BlastQuery op elk gen geëvalueerd en het percentage van de kruising leest die in het juiste translationeel frame en de codering volgorde die nodig voor een bonafide biologisch relevante zijn zou tabulates Interactor. Deze gecombineerde uitgang maakt het mogelijk om snel sorteren en filteren kandidaten te identificeren die dichter door BlastQuery kunnen worden geïnspecteerd. Met deze uitgang, kunt een eerst sorteren voor de kandidaten met de hoogste probabily van tijdens de selectie voor de interactie van het Y2H op de aas proteïne van belang en niet wanneer geselecteerd voor interactie op de vector plasmide alleen wordt verrijkt. In de praktijk zien we dat P > 0,95 werkt goed. Kandidaten kunnen vervolgens worden gerangschikt voor degenen die hebben de meeste junction leest die zowel in de codering regio en in de juiste leesraam met behulp van een eenvoudige sorteer functie. Hier, kandidaten met > 85% van de knooppunten die zijn in het juiste translationeel frame en hetzij binnen de open frame/proteïne codering (ORF) regio lezen zijn gevonden of die net beginnen voorafgaand aan de start codon (stroomopwaarts). Deze laatste filter elimineert 60 – 80% van de kandidaten die een aanvaardbaar P waarde hebben, produceren een lijst die is veel meer biologisch relevant en beheersbaar voor nadere inspectie.

De DEEPN software.
De kern DEEPN software bundels verschillende computationele modules samen om alle bioinformatics stappen met behulp van SAM archief te integreren. Gene_Count geeft het aantal leesbewerkingen per gen, een vergelijkbaar met een RNA-seq kwantificatie berekening uitvoeren. Andere programma's die dit type berekening uitvoeren ook gebruikt kunnen worden, echter de bestandsindeling zou moeten worden gewijzigd zodat deze compatibel met andere modules van de DEEPN en het Stat_Maker-programma. U kunt ook de Gene_Count module kan worden gebruikt om het kwantificeren van RNAseq experimenten, echter andere pakketten geïntegreerde met specifieke statistieken programma's ontwikkelde10geweest. Het proces van aanpassing van een bepaalde toegewezen lezen met de bijbehorende gen van belang is verbeterd sinds de initiële DEEPN software met behulp van een boomstructuur van gegevens voor gene toewijzing. Het effect hiervan was te sterk het versnellen van de snelheid van de verwerking zodanig dat een typische dataset met 10 miljoen leest toegewezen duurt 5 – 10 min op desktop computer met minimale systeemvereisten. Andere analyses, met name de analyse van junction leest die zich uitstrekken over het domein van de Gal4-activering en de interactie kandidaat van belang, zijn self-contained. Ze zijn verpakt met de BLAST-alogorithm die lokaal wordt uitgevoerd en hebben parseren procedures te correct verzamelen alle de kruising leest en hun posities voor alle de bepaalde genen. Een van de nadelen van de DEEPN-software is dat het maakt gebruik van speciale opgemaakte databases waarmee wordt gedefinieerd welke exons in het genoom van de verwijzing worden gebruikt om cDNAs of codering van de regio's te definiëren en geformatteerd databases die opgeven van de volgorde en translationeel start en stopt van elke cDNA/genen gebruikt. We vonden dat het was moeilijk om op te halen alle de databasegegevens die DEEPN in een betrouwbare indeling die enkele van de valse fouten die we ondervonden vereist miste met het indexeren van bepaalde genen. Dus, we nieuwe databases dat we kwaliteit gecontroleerd en ze ingebed in de DEEPN-software voor consistente interne verwijzing samengesteld. Muis, mens en S. cerevisiae Y2H prooi bibliotheken worden momenteel ondersteund door de opgenomen databases mits de DNA fastq bestanden worden toegewezen tegen de mm10, hg38 of SacCer3 referentie databases beschikbaar vanaf UCSC. Y2H bibliotheken van verschillende organismen kunnen worden verwerkt door DEEPN voorwaarde dat soortgelijke databases zijn gebouwd en in de DEEPN-software geplaatst. Over het geheel genomen echter de self-contained verpakking van alle DEEPN modules, databases en andere programma's deze analyses bioinformatic toegankelijk maken voor onderzoekers op alle niveaus van expertise.

Figure 1
Figuur 1 : The MAPster interface. Schermafdruk van het hoofdvenster van MAPster. De vakken voor het invoeren van de benodigde bestanden en indelingen worden weergegeven. "Pairwise" (A) uitschakelen voor de behandeling van bestanden met reeksen als single-end leest. Het genoom van de verwijzing is geselecteerd met de 'Genoom' menu bar (B). Het aantal processors gebruikt door HISAT2 is geselecteerd met het "Threads" menu (C). De nieuwe naam van de steekproef kan worden getypt in het venster van de tekst van de "Output Filename" (D). De map voor de output bestanden kan worden aangeduid in (E). Hieronder is een venster met daarin de queueing van single-end bestanden lezen. Nadat het monster is toegevoegd aan de wachtrij, kan toewijzing worden begonnen met de "Run wachtrij" knop (F). Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2 : DEEPN interface. Foto van de grafische gebruikersinterface gebruikt om te werken de DEEPN modules. Klik hier voor een grotere versie van dit cijfer.

Figure 3
Figuur 3 : Voltooiing van de verwerking. Zodra DEEPN gegevens verwerkt, worden de volgende submappen gemaakt. Deze kunnen worden geïnspecteerd, maar downstream processen vereisen dat deze submappen binnen de map hoofdwerk blijven en dat ze hun inhoud en namen behouden. Klik hier voor een grotere versie van dit cijfer.

Figure 4
Figuur 4 : Analyse Stat_Maker. Foto van de grafische gebruikersinterface voor Stat_Maker, die is geladen met de juiste bestanden toe voor verwerking. Bovenaan ziet u de openingsweergave van Stat_Maker. Zodra de aanwezigheid van onderliggende ondersteuningsgegevens zijn geverifieerd door te klikken op de knop 'Controleren of de installatie', en de juiste werkmap geïdentificeerd na het klikken op de knop 'Kies map', zal de GUI actief worden, waardoor voor het laden van bestanden. Klik hier voor een grotere versie van dit cijfer.

Figure 5
Figuur 5 : Uittreksel uit Stat_Maker uitvoer. Gedeelte van de uitvoer van de Stat_Maker vergelijken de verrijking van prooi kandidaten op een enkele aas eiwit op vector alleen (lege pTEF-GBD). Verder wordt getoond de corresponderende analyse of de plasmiden die overeenkomt met de prooi kandidaat de juiste open-leesraam bevatten. Elk gen geëvalueerd heeft verschillende waarden: Base, Vec, aas en Enr. De 'Base' is het gemiddelde percentage van leest (ppm) die werden waargenomen voor het gen binnen de 2 datasets die overeenkomt met de dubbele populaties die bevat alleen vector alleen en gekweekt onder niet-selectieve omstandigheden. "Vec" verwijst naar het gemiddelde percentage van leest (ppm) die werden waargenomen voor het gen binnen de 2 datasets die overeenkomt met de dubbele populaties die bevat alleen vector alleen en geteeld in selectieve omstandigheden (bijvoorbeeld-zijn). 'Aas' verwijst naar het aandeel van de leest (ppm), die werden waargenomen voor het gen binnen de 2 datasets die overeenkomt met de 2 populaties met het aas plasmide en geteeld in selectieve omstandigheden (bijvoorbeeld-zijn). "Enr" (enrichement) is log2 ((Bs/Bn) / (Vs/Vn)) waar Bs is het luidt voor aas onder selectie, Bn is leest voor aas onder niet-selectie Vs is alleen onder selectie van vector en Vn is alleen onder selectie van vector. Klik hier voor een grotere versie van dit cijfer.

Figure 6
Figuur 6 : Weergave van Blast_Query. Output van Blast_Query uit 3 verschillende weergaven. Boven is de openingsweergave van Stat_Maker voordat de datasets van kandidaat zijn geselecteerd. Het middelste paneel is een voorbeeld bekijken van de gegevenstabel weergeven van informatie over een bepaald kandidaat voor twee verschillende datasets. Onderaan ziet u een grafische weergave van de gegevens in tabelvorm, uitzetten van het aantal bepaalde koppelingspunten langs het gen/cDNA van belang. Klik hier voor een grotere versie van dit cijfer.

Figure 7
Figuur 7 : Het vinden van de 5' en 3' inleidingen te versterken. (A) geeft een hypothetische sequentie en het ontwerpen van de oligo 5' te vangen het juiste frame en fusion tussen het domein Gal4-activering en de prooi opeenvolging van belang punt. In voorbeeld 1 is de positie van fusion punt op de 10th nucleotide met een Q-start van 1. Met behulp van de verschuiving van de bovenstaande tabel, 0 nucleotiden zijn worden toegevoegd aan het vinden van de 5' de beginpositie van de primer. Het gereconstrueerde prooi plasmide fusion punt toont dat het domein van de activering Gal4 rechtstreeks naar de prooi op nucleotide 10 is gesmolten. In voorbeeld 2, de Query Start is 3, waarvoor een offset van 1 nucleotide om te vangen het juiste beginpunt en het frame van de prooi invoegen. Het schema van de gereconstrueerde prooi toont aan dat er 2 nucleotiden tussen het domein van de activering Gal4 en de bekende positie van de prooi invoegen die administratief moet worden verwerkt. (B) toont het venster lezen diepte. Het tekstvak boven wordt gebruikt voor het invoeren van het NCBI referentie sequence number en het pull-down menu onder 'Select .sam bestand' wordt gebruikt voor het selecteren van de gegevens voor het monster met het verrijkte interagerende gen als rente. Lees diepte toont hoeveel sequenties (Y-as) werden gevonden in de gegevens die overeenkomen met de standpunten van de nucleotide van de opeenvolging van belang (x-as). Klik hier voor een grotere versie van dit cijfer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

De hier beschreven softwaresuite maakt het mogelijk om volledig verwerken en analyseren van hoge-doorvoer DNA sequencing gegevens uit een DEEPN experiment. Het eerste programma gebruikt is MAPster, die neemt de DNA volgorde leest in standaard fastq bestanden en kaarten van hun positie op een referentie DNA voor downstream processing door een hele reeks van informatica-programma's met inbegrip van de DEEPN software. Het nut van de MAPster-interface en haar vermogen om meerdere taken, combineren de input-bestanden van de Commissie, in de wachtrij coveniently naam uitvoerbestanden, in combinatie met de snelheid van de onderliggende HISAT2 programma7 controleert een eenvoudig te gebruiken hulpprogramma toewijzing voor een verscheidenheid van biedt toepassingen buiten DEEPN. MAPster toegang tot verschillende parameters van het HISAT2-programma die voor andere soorten gegevensanalyse naast DEEPN geschikt zijn. Sommige van deze functies zijn vooraf ingestelde parameters voor RNA-seq en hele genoom kartering experimenten en toegang tot een volledige set van gemakkelijk instelbare parameters van de HISAT2 voor ervaren gebruikers en aangepaste toepassingen. Bijvoorbeeld, voegt de RNA-seq-knop Opmaak die transcript vergadering zou vergemakkelijken. De CRISPR knop blokken uitlijning aan de bundel van de omgekeerde aanvulling als wenselijk een referentiebestand DNA afgeleid van gids RNA-sequenties. De optionele parameters zijn te vinden onder vier tabbladen met de naam, "Input, uitlijning, Scoring en Output". De opties omvatten de capaciteit om te veranderen van input bestandsformaten en fundamentele Lees trimmen opties op te geven. De uitlijning en scoren tabbladen bevatten de opties te selecteren slechts één onderdeel op de verwijzing DNA en de kloof en mismatch sancties voor de scores van de uitlijning instellen. De mogelijkheid om een gunstige wachtrij meerdere toewijzing banen, die elk met verschillende parametrering wil MAPster van belang voor zowel deskundigen als niet-deskundige gebruikers nastreven van complexe NGS-toepassingen.

De softwareprogramma's die DEEPN en Stat_Maker zijn gewijd aan de analyse van de specifieke bioinformatics vangegevens uit batch Y2H schermen. Dit is toegankelijk voor een breed scala aan onderzoekers en vormt een aaneengesloten bioinformatic softwarepakket uitvoeren via een grafische gebruikersinterface. Dit pakket is verder geoptimaliseerd en van de oorspronkelijke beschrijving6 geïntegreerd, zodat het sneller en analyse van kandidaat-hits is gestroomlijnd. Alle bioinformatics stappen kunnen worden uitgevoerd op een desktop computer. De belangrijkste DEEPN software neemt die deze kaart posities om te berekenen hoeveel leest komen overeen met elk gen daarbij vormt de basis voor hoe een bepaald gen wordt verrijkt op selectie. Deze software ook vindt het 'knooppunt' sequenties die overeenkomen met het invoegen van belang als het is gesmolten tot het domein van de transcriptionele activering van de prooi plasmide en tabulates van deze resultaten, zodat men alle verschillende delen van een bepaalde ORF kunt visualiseren of cDNA dat voldoende is voor interactie. Bovendien, levert dit ook informatie op om te controleren of het leesraam van elke toevoeging. De derde arm van de bioinformatic software is Stat_Maker, die output bestanden verwerkt door DEEPN gebruikt voor het berekenen van de statistische relevantie van gene verrijking van de wisselwerking met een bepaalde aas eiwit vs. de Gal4-DNA-bindende domein vector alleen ( lege pTEF-GBD). Een recente verbetering is dat Stat_Maker biedt niet alleen een statistische classificatie van elke kandidaat, maar ook tabulates de overeenkomstige gegevens uit de overeenkomstige junction sequenties, zodat ze beschikbaar zijn in een enkel bestand, waardoor het veel makkelijker voor onderzoekers te onderzoeken en de resultaten bekijken.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen

Acknowledgments

Dit werk werd gesteund door de National Institutes of Health: NIH R21 EB021870-01A1 en door NSF onderzoek projectsubsidie: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetica kwestie 136 Next Generation Sequencing eiwit interactie en DNA sequentieanalyse gist 2-Hybrid
Informatic analyse van sequencedata van Batch gist 2-Hybrid schermen
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter