Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

IT analyse af sekvens Data fra Batch gær 2-Hybrid skærme

Published: June 28, 2018 doi: 10.3791/57802

Summary

Dyb sekventering af gær populationer valgt for positive gær 2-hybrid interaktioner potentielt giver et væld af oplysninger om interagerende partner proteiner. Her beskriver vi driften af specifikke bioinformatik værktøjer og tilpassede opdateret software til at analysere sekvens data fra sådanne skærme.

Abstract

Vi har tilpasset gær 2-hybrid assay for at samtidig afdække snesevis af forbigående og statisk protein interaktioner indenfor en enkelt skærm udnytte høj overførselshastighed kort-Læs DNA sekvens. Den resulterende sekvens datasæt kan ikke kun spore hvad gener i en befolkning, der er beriget under markering for positive gær 2-hybrid interaktioner, men også give detaljerede oplysninger om de relevante underdomæner af proteiner tilstrækkeligt for interaktion. Her, beskriver vi en fuld suite af stand-alone-softwareprogrammer, der tillader ikke-eksperter til at udføre alle bioinformatik og statistisk skridt til at behandle og analysere DNA sekvens fastq filer fra en batch gær 2-hybrid assay. De behandlingstrin, er omfattet af disse software omfatter: 1) kortlægning og tælle sekvens læser svarende til hver kandidat protein kodet inden for en gær 2-hybrid bytte bibliotek; 2) en statistisk analyse program, der evaluerer berigelse profiler; og 3) værktøjer til at undersøge translationel ramme og position inden for regionen kodning af hver beriget plasmidet, som koder de interagerende proteiner af interesse.

Introduction

En metode til at opdage protein interaktioner er gær 2-hybrid (Y2H) analysen, som udnytter manipuleret gærceller, som vokser kun når et protein af interesse binder sig til et fragment af en interagerende partner1. Påvisning af flere Y2H interaktioner kan nu gøres med hjælp fra massive parallelle høj overførselshastighed sekvensering. Flere formater har været beskrevet2,3,4,5 herunder en, der udviklede vi hvor befolkninger er vokset i parti under betingelser, der vælger for gær som indeholder plasmider, der producerer en positiv Y2H interaktion6. Arbejdsprocessen vi udviklet, kaldes DEEPN (dynamisk berigelse for evaluering af Protein netværk), identificerer differentieret interactomes fra de samme byttedyr biblioteker til at identificere proteiner, der interagerer med en protein (eller domæne) vs. et andet protein eller en for særskilte mutant domæne. En af de vigtigste trin i arbejdsprocessen er korrekt behandling og analyse af DNA-sekventering data. Nogle oplysninger kan udledes af bare tælle antallet af læser for hvert gen både før og efter udvælgelsen af Y2H interaktioner i en mode svarer til et RNA-seq eksperiment. Men meget mere dybdegående oplysninger kan udvindes fra disse datasæt, herunder oplysningerne på underdomænet af et bestemt protein, der er i stand til at producere en Y2H interaktion. Derudover DEEPN tilgang er værdifulde, kan analysere mange prøve replikater være besværlige og dyre. Dette problem er afhjulpet ved hjælp af en statistisk model, der blev udviklet specielt til DEEPN datasæt hvor antallet af gentagelser er begrænset6. For at gøre behandling og analyse af DNA-sekventering datasæt pålidelige, fuldstændige, robust og tilgængelige for efterforskere uden Bioinformatik ekspertise, udviklede vi en suite af programmer, der dækker alle trin af analysen.

Denne suite af stand-alone software-programmer, der kører på stationære computere omfatter MAPster, DEEPN og Stat_Maker. MAPster er en grafisk brugergrænseflade, der tillader hver fastq fil i kø for tilknytningen til genom ved hjælp af HISAT2 program7, producerer en standard .sam fil til brug i downstream applikationer. DEEPN har flere moduler. Det tildeler og tæller læser svarende til bestemt gen svarende til en RNA-seq type kvantificering ved hjælp af modulet 'Genet tæller'. Det også udtrækker de sekvenser, svarende til krydset mellem Gal4 transcriptional domæne og bytte rækkefølgen og samler placeringen af disse knudepunkter at tillade deres inspektion af komparative tabeller og grafer (ved hjælp af modulet 'Junction_Make') Modulet 'Blast_Query' giver mulighed for nem inspektion, kvantificering og sammenligning af krydset Gal4 junction sekvenser. Stat_Maker evaluerer læser per gen berigelse data statistisk som en måde at prioritere sandsynligvis Y2H hits. Vi beskriver her, hvordan til at bruge disse programmer og fuldt analysere DNA sekvens data fra en DEEPN Y2H eksperimentere. Versioner af DEEPN er tilgængelig til at køre på PC, Mac og Linux-systemer. Andre programmer, såsom kortlægning program MAPster og DEEPN statistik modul Stat_Maker stole på subrutiner, der kører under Unix og findes kun på Mac og linux-systemer.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. kortlægning Fastq filer

Bemærk: DEEPN software samt mange Bioinformatik programmer bruge DNA sekvens data hvori hver sekvens læse har kortlagt for sin holdning i reference DNA. En bred vifte af mapping programmer kan bruges til dette, herunder den MAPster grænseflade her, bruger programmet HISTAT2 til at producere .sam filer bruges i efterfølgende trin.

  1. Kortdata sekvens til den korrekte version af genomet. For Y2H biblioteker af museoprindelse, bruge UCSC mm10 genom; nemlig dem benytter menneskelige gener, bruge UCSC hg38 reference genom, for Saccharomyces cerevisiae gener, bruge UCSC SacCer3 reference genom.
  2. Installere MAPster.
    1. Download MAPster softwaren og installere. Softwaren kan findes ved hjælp af en webbrowser på følgende: https://github.com/emptyewer/MAPster/releases. HISAT2 kører på Unix-baserede systemer som en Apple Macintosh. På grund af dette kører MAPster programmet kun på kompatible systemer såsom Apple Macintosh og linux.
      Bemærk: Systemkravene til en Apple Mac er: OSX 10.10 +, > 4 Gb RAM, > 500 Gb diskplads og adgang til internettet for at hente reference genomer. Brugere skal rådføre sig med en institutionel den person, hvis deres virksomhed har sikkerhedsprotokoller begrænser administratorrettigheder og -tilladelser.
  3. Angiv krævede filer og parametre via fanen "Main" (figur 1). Vælg den relevante "Pairwise" knap til at angive filer enten som par eller uparrede med FASTQ som standardfilformat.
    1. DEEPN analyse, at aktivere indstillingen "Pairwise" til "Off" til at køre i enkelt Læs format.
    2. Indlæse filer i MAPster blot ved træk og slip ind i det relevante vindue.
    3. Vælg en reference DNA/genom kilde, der svarer til kilden til Y2H bytte bibliotek skær. Indekserede genomer fra flere modelorganismer er angivet i boksen "Genom" og kan hentes automatisk fra Johns Hopkins University Center for Computational biologi. Reference genomer gemmes lokalt til senere brug.
    4. Angiv antallet af computer processer til at blive afsat til programmet kortlægning under boksen "Tråde" siden HISAT2 understøtter multi-threading. MAPster vil søge på computeren og foreslå det maksimale antal processorer tilgængelige som standard.
    5. Angive et outputfilnavn. Denne filnavn vil blive brugt under hele DEEPN, så en kort men beskrivende navn uden mellemrum eller specialtegn anbefales. Angive en mappe til output de tilknyttede filer ved hjælp af knappen "Open outputmappen".
    6. Når de relevante filer og parametre er blevet udvalgt, tilføje kortlægning job til job køen ved hjælp af knappen "Tilføj til kø". Filnavnene i hovedvinduet kan slettes og erstattes med filer, der svarer til en ny stikprøve og de kan tilføjes til køen efter at give en tilsvarende output filnavn.
    7. Klik på knappen "Køre kø", når alle arbejdspladser er trådt i jobkøen.
      Bemærk: Når en kortlægning job er blevet placeret i køen, at vælge job forårsager parameterindstillinger der skal vises i vinduet "Jobparametre" og sætningen kommandolinjen med alle argumenter skal vises i vinduet "Job kommando". Output muligheder omfatter ledelse om at holde læsninger, der undlader at justere og angivelse af antallet af primære alignments tilladt for hvert Læs. Standard outputfil fra MAPster er i SAM format (f.eks. en '.sam' fil). Det vil indeholde alle sekvens lyder fra fastq filerne angivet for at prøve, herunder dem, der var (kortlagt) og var ikke (ikke-tilknyttede) med held tilknyttet til den angivne geome.

2. Bioinformatic behandling ved hjælp af DEEPN Software

Bemærk: DEEPN software er i øjeblikket udarbejdes til brug med bytte biblioteker indeholder mus cDNA sekvenser, menneskelige cDNA sekvenser eller S. cerevisiae genomisk DNA-sekvenser. DEEPN accepterer standard .sam filformat og kan acceptere en SAM (.sam) fil, der indeholder både tilknyttede og ikke-tilknyttede læser eller separate filer for hver af de ikke-tilknyttede og tilknyttede læser.

  1. Download DEEPN softwaren og installere. Softwaren kan findes ved hjælp af en webbrowser på følgende: https://github.com/emptyewer/DEEPN/releases. Vælg hvilken version svarer til computing platform og download. Hvis du vil installere, åbne den downloadede installationspakke.
    Bemærk: Versioner af DEEPN er tilgængelig for PC, Mac og Linux sysrems. Mac og PC systemer bør har > 500 Gb skrap diskplads og > 4 Gb RAM.
  2. Åbn DEEPN software. Vælg den tilsvarende bytte biblioteksoplysninger fra top markeringsboksen fra hovedvinduet (figur 2). Vælg en mappe, hvor de behandlede filer kan gå ved at klikke på knappen "Arbejdsmappen" og navigere til den mappe/mappe. Hvis det er nødvendigt, kan man skabe en ny omslag/bibliotek. Når en "arbejdsmappen" er valgt, vil DEEPN oprette tre undermapper med titlen unmapped_sam_files, mapped_sam_files og sam_files.
    1. Hvis bruger .sam filer der indeholder både tilknyttede og ikke-tilknyttede lyder som dem, der produceres med standardindstillingerne i programmet MAPster, placere dem i mappen 'sam_files'. Ellers placere .sam filer ind i unmapped_sam_files og mapped_sam_files i overensstemmelse hermed.
  3. Indlede behandlingen ved at klikke på knappen "Gen tæller + Junction gøre".
    Bemærk: Behandlingen vil begynde med modulet genet Count, der vil bruge mapping holdninger til at tælle hvor mange læser svarer til hvert Gen. Krydset gøre vil derefter udtrække junction sekvenser (sekvenser smeltet direkte downstream fra domænet Gal4-aktivering) fra læser og identificere dem ved hjælp af Blast algoritme. Dette vil skabe et komplet sæt af mapper afbilledet i figur 3. Behandlingstiden afhænger af størrelsen og antallet af sekvens datafiler og oparbejdelse hastighed af den anvendte computer. Typiske gange spænder fra 12-30 h for en eksperimentelle datasæt på ~ 250 millioner læser. Genet optælling procedure og Junction_Make procedure kan startes individuelt ved at klikke på knappen "Genet Count" eller knappen "Junction gøre".
  4. Dataoverføre og Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Dette er en statistisk analyse pakke designet til DEEPN datasæt, der i øjeblikket arbejder kun på Unix Mac-systemer.
    1. Åbn Stat_Maker og klik på knappen "Kontroller installationen" (figur 4). Hvis kører for første gang, vil Stat_Maker automatisk installere Rasmussen, Helle og Bioconductor ved at trække disse ressourcer fra internettet. Når Rasmussen, Helle og Bioconductor er opdaget, vil Stat_Maker blive aktiv og tillader yderligere brugerinput.
    2. Klik på knappen "Vælg mappe" til at navigere til den i orden omslag, DEEPN behandles. Stat_Maker vil automatisk finde og vise filer i statistiske analyser i vinduet.
    3. Træk og slip de relevante filer fra vinduet fil liste over til windows-fil nedenfor for hver vektor og agn datasæt og for hver vækstbetingelser: ikke-valgte (hans + medier) og valgt (hans - medier). Ikke mindst kræver Stat_Maker dublerede datasæt til Tom vektor alene, to prøver af ikke-valgte befolkninger og to prøver af valgt. Dette giver et skøn over variabilitet i eksperimentet.
    4. Klik på knappen "Run". Afhængigt af hastigheden af computeren, vil beregning tage mellem 5-15 min.
  5. Gennemse resultater fra Stat_Maker output, som er placeret i en ny undermappe i mappen hovedværk mærket "Stat_Maker resultater".
    Bemærk: Resultaterne er fundet i en CSV (kommaseparerede værdier) fil, der kan åbnes i fælles regnearksprogrammer. Stat_Maker vil rang gen hits, der er tilbøjelige til at være varierende beriget ved udvælgelse med agn af interesse over den tomme pTEF-GBD (figur 5). Også i tabelform er procentdelen af læser for hvert datasæt hvor gen Indsæt er fundet opstrøms, nedstrøms, eller inden for rammen åben læsning og om genet findes også inden for den korrekte translationel læsning ramme. Ofte vil DEEPN fange robust Y2H interaktioner af en agn med dele af en given cDNA, der er uden for rammen korrekt læsning af det tilsvarende protein eller er en del af det cDNA, der er neden for tilsvarende open-læsning rammen. Scanning den kombinerede output fra Stat_Maker strømliner detection og afskaffelse af disse irrelevant hits.
  6. Du kan gennemse data på hver potentiel kandidat i åbne DEEPN software, skal du vælge de tilsvarende oplysninger i bytte bibliotek og derefter den korrekte arbejdsmappe ved hjælp af mappen"arbejde".
    1. Klik på knappen "Blast forespørgsel". Dette indlæser et nyt vindue (figur 6). Skriv gen navn eller GenBank NM antallet at vælge kandidat gen af interesse i den øverste tekstboks. Disse gen navne svarer til navnene i filen StatMaker. Type indtaste eller vende tilbage, som initierer hentning af gen af interesse.
    2. Vælg, hvilke datasæt vil blive brugt til analyse ved hjælp af menuerne "Vælg datasæt". Typisk, disse omfatter vektor kun og agn prøver dyrkes på non-selektive betingelser og agn prøven dyrkes udvalg betingelser. I første omgang, DataSet vil tage et par øjeblikke at indlæse, men efterfølgende forespørgsel på den samme datasæt med forskellige gener vil gå hurtigt. Blast_Query vil vise fusion seværdigheder langs sekvensen og hvordan rigelige hver fusion punkt er. Dette kan vises både i tabelformat ved hjælp af fanen "Resultater" eller et grafisk format ved hjælp af fanen "Plot". Disse resultater kan eksporteres til en .csv-fil ved at klikke på knappen "Gem .csv" i øverste højre.

3. efterprøvning af kandidater, identificeret ved DEEPN

Bemærk: Formålet med DEEPN og Stat_Maker er at identificere kandidat gener, der giver et positivt Y2H samspil. Kontrollere sådanne Y2H interaktioner kan være gjort ved hjælp af en traditionel binære Y2H format ved hjælp af madding plasmid interesse parret med den tomme Gal4-aktivering domæne 'bytte' plasmid samt parret med bytte plasmid bærer genet/cDNA fragment af interesse. Det er ikke muligt at isolere den faktiske plasmid af interesse i en blanding af DNA isoleret fra gær befolkningen underkastes Y2H udvalg. Dog kan beregningsmæssigt rekonstruere, hvad gen/cDNA fragment er der producerer Y2H interaktion, design primere for 5' og 3' ender af dette fragment, og forstærke fragmentet fra DNA isoleret fra befolkningens gær. Dette afsnit beskriver, hvordan at finde 5' og 3' slutningen af kandidat bytte fragment.

  1. Åbne DEEPN-software og vælge parametre "Vælg Parameter" og arbejdsmappen "Vælg arbejde mappe" svarende til projektet. Lancere modulet Blast_Query ved at klikke på knappen "Blast forespørgsel".
  2. Skriv navnet på gen interesse eller dens GenBank "NM" nummer i den øverste tekstboks. Vælg fra pull-down menu det datasæt, der svarer til den valgte gær befolkning til agn af interesse at hente tabellen over krydset positioner under fanen 'Resultater'. Som standard vil Blast_Query for de forskellige holdninger ifølge deres overflod i datasættet, kvantificeres ved ppm af det samlede antal knudepunkter fundet i databasen.
    1. Find den mest udbredte holdning, at er "i ORF" og "i rammen". Værdi for position svarer til nukleotid placering af genet med NCBI Reference sekvens («NM» nummer) findes i den øverste tekstboks. Denne sekvens kan hentes fra GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) eller kopieres fra den nederste tekstboks i vinduet Blast_Query.
      Bemærk: Et eksempel kan ses i figur 6, midterste panel. I datasættet center «Resultater» Vis som den mest rigelige junction: 'Position': 867; '#Junctions': 20033.821; 'Forespørgsel Start', 1; CD'ER: I ORF; og 'Frame': I rammen. Nukleotid 867 af GenBank NCBI reference sekvens NM_019648 er begyndelsen af bytte fragment.
  3. Hvis forespørgslen starter er 1, designe 5' slutningen af primer til også at omfatte nukleotid svarer til positionsnummeret og udvide 25 nukleotider nedstrøms fra denne position (figur 7). Hvis forespørgslen starter er mere end 1, angiver det, at der er ekstra nukleotider mellem domænet Gal4 aktivering og bytte rækkefølgen af interesse og at primeren bør starte yderligere nedstrøms ud fra forespørgslen starter værdien.
  4. Klik på knappen "Læs dybde" under "Analysere Data" fra vinduet DEEPN. Når vinduet Læs dybde er åbne, skrive NCBI reference sekvens (NM) antallet eller gen navn i den øverste tekstboks. Bruge pull-down menu til at vælge den relevante datasæt, der indeholder det berigede gen af interesse. Brug tabellen til venstre og grafikken vises på retten til at bestemme, hvor mange læser fandtes i data, der svarer til gen af interesse (fig. 7B).
  5. Designe en 3' enden primer, der vil fange sekvensen af genet fragment beregnet af Læs dybde. Hvis overfloden af læser går ud over ORF og stop codon, designe primeren, så det omfatter stop-codon og regionen bare opstrøms i stop-codon. Hvis sekvenser for gen ikke omfatter forbi stop-codon, bruge resultattabellen for at finde den mest fjerntliggende 3' region, som kan påvises og bruge denne position som den længst 3' stand til at placere primeren.
    Bemærk: Læs dybde programmet scanner i intervaller til at finde sekvenser der matcher de angivne gen/cDNA af interesse. Dette hjælper med at forudsige, hvor 5' og 3' årets mest rigelige bytte fragmentet er for at genet i prøven. Udsving i den Læs dybde langs længden af sekvensen er normale, som det kan ses i figur 7. Hvis Læs dybden er klart forbi stop-codon, angiver det, at bytte fragment strækker sig ud over stop-codon og dermed 3' primeren kan simpelthen svarer regionen omkring stop-codon.
  6. Udføre en 50 µL PCR reaktion pr. gen. Hver reaktion indeholder 25 pmol hver frem og bak primer matchende bytte-bibliotek plasmid (se tabel af materialer). Reaktioner også indeholde 25 µL af High-fidelity 2 x PCR Master Mix, 5 µg DNA-prøve, og vand op til 50 µL.
    1. Forstærke reaktioner til 25 cykler med udvidelse gange på 3 min. ved 72 ° C, udglødning temperatur på 55 ° C i 30 s, og denaturering på 98 ° C i 10 s. Precede cykling ved et 30 s denaturering på 98 ° C og følg med en 5 min inkubation ved 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Kortlægning af fastq data: det første skridt
I praktisk talt alle NGS programmer herunder DEEPN den oprindelige output er en fil af kort sekvens læser, der skal tilknyttes ved tilpasning til genomisk, reference transkriptom, eller anden DNA8. For nylig, HISAT2 justering program blev udviklet som anvender state-of-the-art indekseringsalgoritmer trækker til dramatisk øge kortlægning hastighed7,9. HISAT2 kører effektivt på en stationær computer og kan kort en typisk mellemstore læse filen i minutter. Dette tillod os at wrap HISAT2 i en grafisk brugergrænseflade kaldet MAPster, der kan kortlægge fastq filer lokalt, tillade brugernes hen til undgå stole på fjerncomputeren højtydende klynger, der typisk arbejder med kommandolinjen sprog (figur 1). Vigtige funktioner for MAPster omfatter tilstedeværelsen af forudindstillede parametre for RNA-FF. og samlede genom kortlægning eksperimenter, evnen til at stå i kø flere arbejdspladser, og adgang til et komplet sæt af let justerbare HISAT2 parametre for erfarne brugere og tilpasset applikationer. For at illustrere Mapsters funktionalitet, blev et offentligt tilgængelige eHAP celle RNA-seq datafil tilknyttet ensemblet GRChg38 genom plus udskrift reference DNA. EHAP A11 replikat 1 FASTQ fil var downloadet fra NCBI sekvens Læs arkiv og indeholdt 38,3 millioner læser. MAPster blev kørt på en Apple iMac med en 3,5 GHz Intel Core i7 processor ved hjælp af standard RNA-seq parametre for den uparrede Læs fil. Kortlægningen blev afsluttet på mindre end fem minutter. Den overordnede tilpasning var 96,6%. Lignende resultater er fundet med typiske DEEPN datasæt 15 – 25 millioner læser/prøve, selv om den overordnede tilpasning sats er lavere på grund af tilstedeværelsen af vektor sekvens fra Y2H bytte plasmid.

At finde kandidat hits ved hjælp af Stat_Maker.
Programmet StatMaker producerer en excel-ses-fil, der opsummerer de fleste relevante oplysninger nødvendige for at identificere kandidat interagerende proteiner. Fordi Stat_Maker gør brug af unix-baserede subrutiner, det vil køre på en Mac (OS10.10 +) men ikke PC. Først, det opsummerer læsninger i ppm for hvert gen for både vektor kontrol og agn populationer, og også producerer en sandsynlighed ranking om berigelse af et bestemt gen når valgt for Y2H interaktion med agn af interesse er virkelig større end den berigelse af gen, når udvalgt til interaktion med kontrolelementet vektor-only (figur 5). Andet, StatMaker udfører BlastQuery modul beregninger på hvert gen evalueret og tabulates procentdel af krydset læsninger, der er i den korrekte translationel ramme og den kodende sekvens, som ville være nødvendige for en bonafide biologisk relevante dataflowdiagrammer. Denne kombinerede output gør det muligt at hurtigt sortere og filtrere kandidater til at identificere dem, der kan undersøges nærmere af BlastQuery. Med denne udgang kan man først sortere for disse kandidater med den højeste probabily af beriges under markering for Y2H interaktion på agn protein af interesse, og ikke når udvalgt til interaktion på vektor plasmid alene. I praksis, finder vi, at P > 0,95 fungerer godt. Kandidater kan derefter placeres for dem, der har de mest junction læsninger, der er både den kodende region og korrekt læsning rammen ved hjælp af en simpel sorteringsfunktionen. Her, kandidater med > 85% af vejkryds, som i den korrekte translationel ramme og findes enten inden for den åbne læsning ramme/protein kodende region (i ORF) eller at begynde lige opstrøms af start codon (opstrøms). Denne sidstnævnte filter fjerner 60 – 80% af kandidater, der har en acceptabel P værdi, producerer en liste, der er meget mere biologisk relevante og håndterbar for yderligere inspektion.

DEEPN software.
Core DEEPN software bundter flere beregningsmæssige moduler sammen for at integrere alle Bioinformatik trin ved hjælp af SAM filer. Gene_Count giver antallet af læser per gen, udfører en beregning svarende til en RNA-seq kvantitering. Andre programmer, der udfører denne type beregning kan bruges som godt, men filformatet skulle ændres til at være kompatible med andre DEEPN moduler og programmet Stat_Maker. Alternativt, modulet Gene_Count kunne bruges til at kvantificere RNAseq eksperimenter, men andre pakker, der er integreret med specifikke statistikker programmer har været udviklet10. Processen med at matche en bestemt tilknyttet læse med dens tilsvarende gen af interesse er blevet forbedret siden den oprindelige DEEPN software ved hjælp af en data træstruktur for gen tildeling. Effekten af dette var, at høj grad fremskynde hastigheden på behandling, så en typisk datasæt indeholdende 10 millioner kortlagt læser tager 5 – 10 min på stationær computer med minimal systemkrav. Andre analyser, navnlig analysen af krydset læsninger, der spænder over domænet Gal4-aktivering og interagerende kandidat for renter, er selvstændig. De er pakket med den BLAST alogorithm, der kører lokalt og parsing procedurer til korrekt indsamle alle krydset læser og deres holdninger til alle de gener, der er givet. En af ulemperne ved DEEPN softwaren er, at det gør brug af særligt formaterede databaser, der definerer, hvilke exons i reference genomer bruges til at definere cDNAs eller kodende regioner, og formateret databaser, der angiver sekvensen og translationel start og stop af hver cDNA/gener anvendes. Vi fandt, at det var vanskeligt at hente alle de databaseoplysninger DEEPN kræver pålidelig format, der manglede nogle af de falske fejl vi stødt med indeksering af bestemte gener. Dermed, vi samlet nye databaser at vi kvaliteten kontrolleret og integreret dem i DEEPN software til konsekvent intern reference. I øjeblikket, er mus, menneskelige og S. cerevisiae Y2H bytte biblioteker understøttet af de inkluderede databaser forudsat at DNA fastq filer tilknyttes mod mm10, hg38 eller SacCer3 reference databaser tilgængelige fra UCSC. Y2H biblioteker fra forskellige organismer kan behandles af DEEPN, forudsat at lignende databaser er bygget og placeret i DEEPN software. Alt i alt dog den selvstændig emballage af alle DEEPN moduler, databaser og andre programmer stille disse bioinformatic analyser efterforskere på alle niveauer af ekspertise.

Figure 1
Figur 1 : The MAPster grænseflade. Skærmbillede af hovedvinduet i MAPster. Bokse til angivelse af nødvendige filer og formater er vist. Slå "Pairwise" (A) for at behandle sekvens filer som single-ende læser. Reference genom er markeret med 'Genom' menu bar (B). Antallet af processorer, der bruges af HISAT2 er markeret med "Tråde"-menuen (C). Den nye prøve navn kan skrives ind i "Output filnavn" tekstvindue (D). Register for output-filer kan udpeges i (E). Nedenfor er et vindue, der viser kø af single-end læse filer. Efter prøven er blevet føjet til køen, kan kortlægning indledes med knappen "Køre kø" (F). Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2 : DEEPN grænseflade. Billede af den grafiske brugergrænseflade bruges til at drive DEEPN moduler. Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3 : Afslutningen af behandlingen. Når DEEPN behandler data, oprettes følgende undermapper. Disse kan kontrolleres, men downstream processer kræver at disse undermapper forbliver i mappen vigtigste arbejde og at de bevarer deres indhold og navne. Venligst klik her for at se en større version af dette tal.

Figure 4
Figur 4 : Stat_Maker analyse. Billede af den grafiske brugergrænseflade til Stat_Maker, som er blevet indlæst med relevante filer at give mulighed for behandling. Top viser den oprindelige visning af Stat_Maker. Når tilstedeværelsen af underliggende støtte data har været bekræftet ved at klikke på knappen "Kontroller Installation", og arbejdsmappen korrekt identificeret efter at klikke på knappen "Vælg mappe", bliver GUI aktiv, giver mulighed for indlæsning af filer. Venligst klik her for at se en større version af dette tal.

Figure 5
Figur 5 : Uddrag fra Stat_Maker output. Del af Stat_Maker output sammenligne berigelse af bytte kandidater på en enkelt agn protein til vektor alene (Tom pTEF-GBD). Også vist er tilsvarende analyse om plasmider svarende til bytte kandidat indeholder korrekt open-læsning rammen. Hvert gen evalueret har flere værdier: Base, Vec, agn og Enr. 'Base' er den gennemsnitlige andel af læser (ppm) der blev observeret for gen inden for de 2 datasæt svarende til de dublerede befolkninger der indeholder kun vektor alene og dyrket non-selektive betingelser. "Vec" refererer til den gennemsnitlige andel af læser (ppm) der blev observeret for gen inden for de 2 datasæt svarende til de dublerede befolkninger der indeholder kun vektor alene og dyrket selektiv betingelser (f.eks.-hans). 'Bait' refererer til andelen af læser (ppm), der blev observeret for gen inden for de 2 datasæt svarende til de 2 populationer indeholdende agn plasmid og vokset selektiv betingelser (f.eks.-hans). "Enr" (enrichement) er log2 ((Bs/Bn) / (Vs/Vn)) hvor Bs er lyder som madding under valg, Mia er lyder som madding under ikke-udvalg, Vs er vektor alene under valg af og Vn er vektor alene under valg. Venligst klik her for at se en større version af dette tal.

Figure 6
Figur 6 : Visning af Blast_Query. Output af Blast_Query fra 3 forskellige visninger. Toppen er den oprindelige visning af Stat_Maker før datasæt kandidat er valgt. Den midterste panel er en eksempelvisning af datatabellen viser oplysninger om en bestemt kandidat for to forskellige datasæt. Bunden viser en grafisk visning af tabeldata, plotte antallet af særlige samlingspunkter langs gen/cDNA af interesse. Venligst klik her for at se en større version af dette tal.

Figure 7
Figur 7 : At finde 5' og 3' primere til at forstærke. (A) viser en hypotetisk sekvens og hvordan til at designe 5' oligo at fange den rigtige ramme og fusion punkt mellem domænet Gal4-aktivering og bytte rækkefølgen af interesse. I eksempel 1 er placeringen af fusion punkt på de 10th nukleotid med en Q start af 1. Ved hjælp af forskydningen af ovenstående tabel, 0 nukleotider er tilføjes for at finde 5' startposition af primeren. Det rekonstruerede bytte plasmid fusion punkt viser, at domænet Gal4 aktivering er smeltet direkte til bytte på nukleotid 10. I eksempel 2 er forespørgslen starter 3, der kræver en forskydning af 1 nukleotid for at fange det rigtige udgangspunkt og ramme af bytte Indsæt. Skematisk af den rekonstruerede bytte viser, at der er 2 nukleotider mellem Gal4 aktivering domæne og den kendte position af bytte indsætte, der skal gøres rede for. (B) viser vinduet Læs dybde. Tekstfeltet øverst bruges til at angive rækkefølgen NCBI referencenummer og pull-down menuen under 'Vælg .sam fil' bruges til at vælge data for prøven indeholdende beriget interagerende genet, hvis interesse. Læs dybde viser, hvor mange sekvenser (Y-akse) blev fundet i de data, der svarer til nukleotid positioner i rækkefølgen af interesse (x-akse). Venligst klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Software suite beskrevet her tillader en at helt behandle og analysere høj overførselshastighed DNA-sekventering data fra en DEEPN eksperiment. Det første program er MAPster, som tager DNA sekvens læsninger i standard fastq filer og maps deres position på en reference DNA for downstream behandling af en lang række edb-programmer, herunder DEEPN-software. Nytte af MAPster grænsefladen og dens evne til at stå i kø flere arbejdspladser, kombinere inputfiler, coveniently navn outputfiler, kombineret med hastigheden af den underliggende HISAT2 program7 kontrollerer giver en nem at bruge værktøj, kortlægning til en række programmer ud over DEEPN. MAPster kan få adgang til flere parametre af programmet HISAT2, der er egnet til andre typer af dataanalyse udover DEEPN. Nogle af disse funktioner omfatter forudindstillede parametre for RNA-FF. og samlede genom kortlægning eksperimenter og adgang til et komplet sæt af let justerbare HISAT2 parametre for erfarne brugere og tilpassede programmer. For eksempel, tilføjer knappen RNA-seq formatering, der ville lette udskrift forsamling. CRISPR knappen blokke tilpasning til reverse supplement strand som ville være passende for en reference DNA filen stammer fra guide RNA sekvenser. De valgfrie parametre findes under fire faner mærket, "Input, justering, målscoring og Output". Input-muligheder omfatter muligheden for at ændre input-filformater og angive indstillinger for grundlæggende Læs trimning. Justering og scoring faner indeholder indstillinger til at vælge kun én strand på reference DNA og angive gap og uoverensstemmelse mellem straffene for justering scores. Muligheden for at bekvemt kø flere kortlægning job hver med særskilte parametrering bør gøre MAPster af interesse for både ekspert og ikke-ekspert brugere forfølger komplekse NGS applikationer.

Programmer DEEPN og Stat_Maker er dedikeret til specifikke Bioinformatik analyse af data fra batch Y2H skærme. Dette er tilgængeligt for en bred vifte af efterforskere og udgør en sammenhængende bioinformatic softwarepakke køre gennem en grafisk brugergrænseflade. Denne pakke har været yderligere optimeret og integreret fra sin oprindelige beskrivelse6 , så det kører hurtigere og analyse af kandidat hits er strømlinet. Alle Bioinformatik trin kan køres på en stationær computer. De vigtigste DEEPN software tager disse kort positioner for at beregne, hvor mange læser svarer til hvert gen derved danner grundlag for hvordan et bestemt gen er beriget ved udvælgelsen. Denne software også finder "krydset" sekvenser, der svarer til Indsæt af interesse, da det er smeltet til domænet transcriptional aktivering af bytte plasmid og tabulates disse resultater, således at man kan visualisere alle de forskellige dele af en bestemt ORF eller cDNA, der er tilstrækkelig for interaktion. Derudover indeholder det også oplysninger for at bekræfte læsning rammen af hver Indsæt. Den tredje arm af bioinformatic software er Stat_Maker, som bruger outputfiler behandles af DEEPN til at beregne den statistiske relevansen af genet enrichments som følge af interaktion med en given agn protein vs. Gal4-DNA-bindende domæne vektor alene ( Tom pTEF-GBD). En nylig forbedring er at Stat_Maker ikke kun giver en statistisk placering af hver enkelt kandidat, men også tabulates den tilsvarende oplysninger fra de tilsvarende junction sekvenser, gøre dem tilgængelige i en enkelt fil gør det meget lettere for efterforskerne til undersøgelse og gennemgå resultaterne.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at videregive

Acknowledgments

Dette arbejde blev støttet af National Institutes of Health: NIH R21 EB021870-01A1 og af NSF Research Project Grant: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetik sag 136 Protein interaktion næste Generation Sequencing DNA Sekvensanalyse gær 2-Hybrid
IT analyse af sekvens Data fra Batch gær 2-Hybrid skærme
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter