Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Informatic analyse av sekvens Data fra satsvis gjær 2-Hybrid-skjermer

Published: June 28, 2018 doi: 10.3791/57802

Summary

Dyp sekvensering av gjær bestander valgt for positiv gjær 2-hybrid interaksjoner potensielt gir et vell av informasjon om samspill partner proteiner. Her beskriver vi spesifikt Bioinformatikk verktøy og tilpassede oppdatert programvare å analysere sekvens data fra slike skjermer.

Abstract

Vi har tilpasset gjær 2-hybrid analysen for å avdekke samtidig dusinvis av forbigående og statisk protein interaksjoner i et enkelt skjermbilde utnytte høy gjennomstrømming kort-lese DNA sekvensering. Resulterende sekvens datasett kan ikke bare spore hva gener i en befolkning som er beriket under utvalg for positiv gjær 2-hybrid interaksjoner, men også gi detaljert informasjon om relevante underdomenene proteiner tilstrekkelig for samhandling. Her beskriver vi en komplett pakke med frittstående programmer som tillater ikke-eksperter å utføre alle bioinformatikk og statistiske skritt for å behandle og analysere DNA sekvens fastq filer fra en satsvis gjær 2-hybrid analysen. Behandlingstrinnene dekket av disse programvare inkluderer: 1) kartlegging og telling sekvens leser tilsvarer hver kandidat protein kodet i et gjær 2-hybrid byttedyr bibliotek; 2) en statistisk analyseprogram som evaluerer berikelse profiler; og 3) verktøy undersøke translasjonsforskning rammen og posisjon i regionen koding av hver beriket plasmider som koder samspill proteiner av interesse.

Introduction

En tilnærming til å oppdage protein interaksjoner er gjær 2-hybrid (Y2H) analysen, som utnytter konstruert gjærceller som vokser bare når et protein rundt binder seg til et fragment av et samspill partner1. Påvisning av flere Y2H vekselsvirkningene kan nå gjøres med hjelp av massiv parallelle høy gjennomstrømming sekvensering. Flere formater har vært beskrevet2,3,4,5 inkludert en som vi utviklet hvor befolkningen er dyrket i satsvis vilkår velger for gjær som inneholder plasmider som produserer en positiv Y2H interaksjon6. Arbeidsflyten vi utviklet, kalt DEEPN (dynamisk berikelse for evaluering av Protein Networks), identifiserer differensial interactomes fra samme byttedyr bibliotekene å identifisere proteiner som samhandler med en protein (eller domenet) vs. en annen protein eller et conformationally forskjellige mutant domene. En av de viktigste trinnene i denne arbeidsflyten er riktig behandling og analyse av DNA sekvensering dataene. Noe informasjon kan merkes ved å bare telle antall leseoperasjoner for hver genet både før og etter valget av Y2H vekselsvirkningene på en måte analog til et RNA-seq eksperiment. Imidlertid kan mye mer inngående informasjon hentes fra disse datasett inkludert informasjon på underdomenet til en gitt protein som kan produsere en Y2H interaksjon. Dessuten, mens DEEPN tilnærming er verdifull, kan analysere mange eksempel gjentak være tungvinte og dyre. Dette problemet er lindres ved hjelp av en statistisk modell som ble utviklet spesielt for DEEPN datasett der antall gjentak er begrenset6. For å gjøre behandling og analyse av DNA sekvensering datasett pålitelig, komplett, robust og tilgjengelig for etterforskere uten bioinformatikk kompetanse, utviklet vi en rekke programmer som dekker alle trinnene for analyse.

Denne suiten frittstående programmer som kjører på stasjonære datamaskiner inkluderer MAPster, DEEPN og Stat_Maker. MAPster er et grafisk brukergrensesnitt som gjør at hver fastq fil i kø for tilordning til genomet bruker HISAT2 programmet7, produsere en standard Sam fil for bruk i nedstrøms programmer. DEEPN har flere moduler. Den tilordner teller leser tilsvarer bestemte genet som ligner en RNA-seq type kvantifisering ved hjelp av modulen 'Gene Count'. Det trekker sekvensene tilsvarer krysset mellom Gal4 transcriptional domenet og byttedyr sekvensen og sorterer plasseringen av de knutepunktene tillate deres inspeksjon av komparativ tabeller og grafer (med modulen 'Junction_Make') Modulen 'Blast_Query' kan enkelt, kvantifisering og sammenligning av krysset Gal4 junction sekvenser. Stat_Maker evaluerer leser per genet berikelse data statistisk som en måte å prioritere sannsynlig Y2H treff. Her beskriver vi hvordan du bruker disse programmene og fullt analysere DNA sekvensen data fra en DEEPN Y2H eksperimentere. Versjoner av DEEPN er tilgjengelig for å kjøre på PC, Mac og Linux systemer. Andre programmer, for eksempel tilordning programmet MAPster og den DEEPN modulen Stat_Maker stole på subrutiner som kjøre under Unix, og er bare tilgjengelig på Mac og linux systemer.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. kartlegging Fastq filer

Merk: DEEPN programvare samt mange bioinformatikk programmer bruke DNA sekvens data der hvert forløp lese er tilordnet for sin posisjon i referanse DNA. En rekke kartlegging programmer kan brukes for dette inkluderer MAPster grensesnittet her som bruker programmet HISTAT2 for å produsere Sam-filer som brukes i de etterfølgende trinnene.

  1. Sekvens data tilordnes riktig versjon av genomet. Y2H biblioteker av musen opprinnelse, bruke UCSC mm10 genomet; for de som bruker menneskelige gener, bruke UCSC hg38 referanse genomet, Saccharomyces cerevisiae gener, bruk UCSC SacCer3 referanse genomet.
  2. Installere MAPster.
    1. Dataoverføre MAPster programvare og. Programvaren kan finnes i en webleser på følgende: https://github.com/emptyewer/MAPster/releases. HISAT2 kjører på Unix-baserte systemer som Apple Macintosh. Derfor vil MAPster programmet bare kjøre på som Apple Macintosh og linux-kompatible systemer.
      Merk: Systemkrav for en Apple Mac er: OSX 10,10 +, > 4 Gb RAM, > 500 Gb diskplass og Internett-tilgang for å laste ned referanse genomer. Brukerne trenger å konsultere med en institusjonell det personen hvis bedriftens har sikkerhetsprotokoller begrense administratorrettigheter og -tillatelser.
  3. Angi nødvendige filer og parametere via kategorien "Main" (figur 1). Velg riktig "Pairwise" til å angi filer som parene eller unpaired med FASTQ som standard filformat.
    1. For DEEPN analyse, kan du slå alternativet "Pairwise" til "Off" i enkelt lese format.
    2. Last inn filer i MAPster ved å dra-og-slipp inn til riktig vindu.
    3. Velg en referanse DNA/genomet kilde som tilsvarer kilden til Y2H byttedyr biblioteket skivene. Indekserte genomer fra flere modell organismer er oppført i boksen "Genome" og kan lastes ned automatisk fra Johns Hopkins University Center for beregningsorientert biologi. Referanse genomer lagres lokalt for senere bruk.
    4. Angi antall datamaskinen prosesser å være viet til kartlegging programmet under boksen "Tråder" siden HISAT2 støtter multi-threading. MAPster vil søke på datamaskinen og foreslå det maksimale antallet prosessorer som er tilgjengelige som standard.
    5. Angi et utdatafilnavn. Filnavnet brukes gjennom hele DEEPN prosessen så et kort, men beskrivende navn uten mellomrom eller spesialtegn anbefales. Angi en mappe for de tilordnede utdatafiler med knappen "Åpne katalog".
    6. Når de nødvendige filene og parametere er valgt, legge til kartlegging jobben i jobbkøen med knappen "Legg til kø". Filnavnene i hovedvinduet kan være slettet og erstattet med svarer til et nytt utvalg og de kan legges til i køen etter å gi en tilsvarende utdatafilnavn.
    7. Klikk "Kjør kø" når alle jobbene er lagt inn i jobbkøen.
      Merk: Når en kartlegging jobb er plassert i køen, velge jobben fører parameterinnstillingene skal vises i vinduet "Jobbparametere" og kommandolinje setningen med alle argumentene vises i vinduet "Jobb Command". Utskriftsvalgene inkluderer regi om å holde leser som ikke klarer å justere og angi antall primære justeringer tillatt for hver leseoperasjon. Standardverdien utgang arkiv fra MAPster er i SAM format (f.eks en "Sam" fil). Det inneholder alle den sekvens lest fra fastq filer angitt for at utvalg inkludert de som var (tilordnet) ikke og (kartlagte) er tilordnet den angitte geome.

2. Bioinformatic behandling bruker DEEPN programvare

Merk: DEEPN programvaren er nå utarbeidet for bruk med byttedyr biblioteker som inneholder musen cDNA sekvenser, menneskelige cDNA sekvenser eller S. cerevisiae genomisk DNA-sekvenser. DEEPN godtar filformatet som standard Sam og kan godta en SAM (Sam) fil som inneholder både tilordnede og ikke-tilordnede leser eller separate filer for hver i lyder uten tilknytning og tilordnede.

  1. Dataoverføre DEEPN programvare og. Programvaren kan finnes i en webleser på følgende: https://github.com/emptyewer/DEEPN/releases. Velg hvilken versjon samsvarer med databehandling plattform og nedlasting. Hvis du vil installere, kan du åpne nedlastede installasjonspakken.
    Merk: Versjoner av DEEPN er tilgjengelig for PC, Mac og Linux sysrems. Mac og PC systemer må > 500 Gb harddiskplass og > 4 Gb RAM.
  2. Åpne programmet DEEPN. Velg tilsvarende byttedyr bibliotekinformasjon fra boksen øverst på hovedvinduet (figur 2). Velg en mappe der de behandlede filene kan gå ved å klikke "Arbeid mappe" og navigere til katalogen/mappen. Hvis nødvendig, kan man lage en ny mappe/katalog. Når en "arbeid mappe" er valgt, opprettes DEEPN tre undermapper kalt unmapped_sam_files, mapped_sam_files og sam_files.
    1. Hvis bruker Sam-filer som inneholder både tilordnede og ikke-tilordnede leser som de produsert med standardinnstillingene for MAPster programmet, kan du plassere dem i mappen "sam_files". Plass tilsvarende Sam-filer i unmapped_sam_files og mapped_sam_files.
  3. Start behandlingen ved å klikke "Gene Count + Junction gjør".
    Merk: Behandling starter med Gene teller modulen bruker kartlegging posisjoner til å telle hvor mange leser tilsvarer hver genet. Krysset gjør deretter trekker ut krysset sekvenser (sekvenser smeltet direkte nedstrøms fra Gal4-aktivisering domenet) fra lest og identifisere dem ved hjelp av Blast-algoritmen. Dette vil opprette et komplett sett med mapper avbildet i Figur 3. Behandlingstiden er avhengig av størrelse og antall sekvens datafiler og av datamaskinen som ble brukt. Typisk ganger spenner fra 12-30 h for en eksperimentell dataset ~ 250 millioner leser. Gene teller prosedyren og Junction_Make prosedyren kan startes individuelt ved å klikke knappen "Gene Count" eller "Krysset gjør"-knappen.
  4. Dataoverføre og Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Dette er en statistisk analyse pakke designet for DEEPN datasett som tiden jobber bare på Unix Mac-systemer.
    1. Åpne Stat_Maker og klikk på knappen "Bekreft installasjonen" (Figur 4). Hvis kjører for første gang, ville Stat_Maker automatisk installere R, JAGS og Bioconductor ved å dra disse ressursene fra Internett. Når R, JAGS og Bioconductor er oppdaget, vil Stat_Maker bli aktive og tillater ytterligere brukerinndata.
    2. Klikk "Velg mappe" å gå til arbeidsmappen som DEEPN behandlet. Stat_Maker vil automatisk finne og vise filene for statistisk analyse i vinduet.
    3. Dra og slipp de aktuelle filene fra vinduet filen over til filen windows under hver vektor og agn datasett og hver vekst forhold: ikke-valgte (hans + media) og valgt (hans - medier). Viktigere, krever Stat_Maker like datasett for tomme vektor alene, to eksempler på ikke-valgte bestander og to eksempler på valgt. Dette gir et estimat på variasjon i eksperimentet.
    4. Klikk "Kjør"-knappen. Avhengig av hastigheten på datamaskinen, vil beregning ta mellom 5-15 min.
  5. Gå gjennom resultatene fra Stat_Maker produksjon, som er plassert i en ny undermappe i mappen hovedverk merket "Stat_Maker resultater".
    Merk: Resultatene finnes i en CSV (kommadelt)-fil som kan åpnes i felles regnearkprogrammer. Stat_Maker vil rangere genet treff som kan være ulikt beriket på utvalg med agnet rundt over den tomme pTEF-GBD (figur 5). Også tabuleres er prosentandelen av leser for hvert datasett der genet innsatsen finnes oppstrøms, nedstrøms, eller i åpent lesing rammen og om genet er også funnet i translasjonsforskning leses rammen. Ofte vil DEEPN fange robust Y2H vekselsvirkningene av et agn med deler av en gitt cDNA som er riktig lesing rammen av tilsvarende protein eller en del av cDNA som er downstream for tilsvarende åpen-lesing rammen. Skanning i produksjon fra Stat_Maker strømlinjeformer oppdagelse og fjerning av disse irrelevante treff.
  6. Gjennomgå dataene på hver potensiell kandidat ved åpne DEEPN programvare, velger du den tilsvarende byttedyr bibliotek informasjonen og riktig arbeidsmappen bruker "Arbeid mappe".
    1. Klikk "Blast spørringen". Dette laster inn et nytt vindu (figur 6). I den øverste boksen skriver du inn genet navnet eller GenBank NM nummeret velge kandidat genet av interesse. Disse genet navnene tilsvarer navnene vises i utdatafilen StatMaker. Angir eller returnerer, som starter henting av genet av interesse.
    2. Velg hvilke datasett brukes for analyse bruke "Velg Dataset" menyene. Vanligvis disse inkluderer vektoren bare og agn prøver vokst under ikke-selektive forhold og agn prøven vokst under utvalg forhold. I utgangspunktet datasett vil ta en stund å laste, men påfølgende spørring av samme datasett med ulike gener går raskt. Blast_Query viser fusion punkter langs sekvensen av interesse og hvor rik hver fusion poenget er. Dette kan vises både i tabellformat i kategorien "Resultater" eller et grafisk format i kategorien «Handlingen». Disse resultatene kan eksporteres til en CSV-fil ved å klikke på "Lagre CSV"-knappen øverst til høyre.

3. bekreftelse av kandidater identifisert av DEEPN

Merk: DEEPN og Stat_Maker er å identifisere kandidat gener som gir en positiv Y2H interaksjon. Kontrollere slike Y2H vekselsvirkningene kan bli gjort ved hjelp av en tradisjonell Y2H binærformat bruker agn plasmider rundt sammen med den tomme Gal4-aktivisering domene 'prey' plasmider samt sammen med byttedyr plasmider bærer genet/cDNA fragmentet av interesse. Det er ikke mulig å isolere den faktiske plasmider av interesse i blandingen av DNA isolert fra gjær befolkningen utsatt for Y2H utvalg. Imidlertid kan beregningsmessig rekonstruere hva gene/cDNA fragmentet er som produserer Y2H samhandlingen, utforme primere for 5' og 3 endene av at fragment, og forsterke at fragment fra DNA isolert fra gjær befolkningen. Denne delen beskriver hvordan du finner 5' og 3 slutten av kandidaten byttedyr fragment.

  1. Åpne programmet DEEPN og Velg parameterne "Velg parameteren" og arbeidsmappen "Velg arbeide mappe" tilsvarer prosjektet. Starte Blast_Query modulen ved å klikke "Blast spørringen".
  2. Skriv inn navnet på genet av interesse eller sin GenBank "NM" tall i tekstboksen øverst. Velg i rullegardinmenyen datasettet som tilsvarer valgte gjær befolkningen i agnet rundt hente tabellen krysset stillinger i kategorien 'Resultater'. Standard for Blast_Query ulike stillinger ifølge sin overflod i datasettet kvantifisert ved ppm av antall veikryss funnet i databasen.
    1. Finne den mest tallrike posisjon som er "i ORF" og "i ramme". Verdien for posisjon tilsvarer nukleotid plassering av genet NCBI referanse sekvens ('NM' tall) i den øverste tekstboksen. Denne rekkefølgen kan Hentet fra GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) eller kopieres fra lavere tekstboksen i vinduet Blast_Query.
      Merk: Et eksempel kan finnes i figur 6midtre panelet. I datasettet center 'Resultater' Vis som rikeste krysset: "Stilling": 867; '#Junctions': 20033.821; "Query Start", 1; CD: I ORF; og 'Rammen': I rammen. Nukleotid 867 av GenBank NCBI referanse sekvensen NM_019648 er starten av byttedyr fragment.
  3. Hvis Start-spørring er 1, utforme 5' slutten av primer inkludere nukleotid tilsvarer posisjonsnummeret og utvide 25 nukleotider nedstrøms fra den posisjonen (figur 7). Hvis spørringen starter er mer enn 1, angir at det er ekstra nukleotider mellom Gal4 aktivisering domenet og byttedyr sekvensen av interesse og at primeren bør starte ytterligere nedstrøms i henhold til spørringen starte verdien.
  4. Fra vinduet DEEPN klikker du "Lese dybde" under "Analysere Data". Når vinduet Les dybde er åpent, Skriv inn NCBI referanse sekvens (NM) tall eller genet i øverste tekstboksen. Bruk i rullegardinmenyen til å velge den relevante datasett som inneholder beriket genet av interesse. Bruk tabellen til venstre og grafikken viser med rett til å bestemme hvor mange leser finner i dataene som svarer til genet av interesse (figur 7B).
  5. Utforme en 3 slutten primer som vil fange opp rekken av genet fragmentet beregnet av Les dybde. Hvis overflod av leser går utover ORF og stoppe codon, utforme primer slik at det inkluderer stopp codon og regionen bare oppstrøms stopp codon. Hvis sekvenser for genet ikke forlenger å siste stopp codon, bruke resultattabellen for å finne mest fjerntliggende 3 regionen kan oppdages og bruke denne posisjonen som den lengst 3' posisjon til å plassere primer.
    Merk: Les dybde programmet skanner i intervaller finne sekvenser som samsvarer med den angitte genet/cDNA av interesse. Dette hjelper forutse der 5' og 3 slutten av rikeste byttedyr fragmentet er det genet i utvalget. Svingninger i Les dybden langs sekvensen er normalt, som kan ses i figur 7. Hvis Les dybden er tydelig siste stopp codon, indikerer at byttedyr fragmentet strekker seg utover stopp codon og dermed 3 primer kan bare kommunisere regionen rundt stopp codon.
  6. Utføre en 50 µL PCR reaksjon per genet. Hver reaksjon inneholder 25 pmol av hver forover og bakover grunning matchende byttedyr-bibliotek plasmider (se tabell for materiale). Reaksjoner også inneholde 25 µL av Hi-Fi-2 x PCR Master Mix, 5 µg DNA-prøve og vann opp til 50 µL.
    1. Forsterke reaksjoner for 25 sykluser med filtypen tider med 3 min ved 72 ° C, annealing temperatur på 55 ° C for 30 s og denaturing på 98 ° C for 10 s. gå foran sykling ved en 30 s rødsprit 98 ° c og følger med en 5 min incubation ved 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tilordning av fastq data: første trinn
I praktisk talt alle NGS programmer inkludert DEEPN første resultatet er en fil av kort sekvens som må tilordnes av justeringen til genomisk, referere transcriptomic eller andre DNA8. Nylig ble HISAT2 justering programmet utviklet som bruker state-of-the-art indeksering algoritmer til å dramatisk øke kartlegging fart7,9. HISAT2 kjører effektivt på en stasjonær datamaskin og kart en typisk størrelse lese filene i minutter. Dette tillot oss å bryte HISAT2 i et grafisk brukergrensesnitt kalt MAPster som kan fastq filer lokalt, tillater brukernes å unngå stole på høy ytelse datamaskinen klynger som vanligvis opererer med kommandolinjeverktøyet språk (figur 1). Viktige egenskaper av MAPster inkluderer tilstedeværelsen av forhåndsinnstilte parameterene for RNA-seq og hele genomet kartlegging eksperimenter, flere jobber i kø, og tilgang til et fullt sett med lett å justere HISAT2 parametere for erfarne brukere og tilpasset programmer. For å illustrere Mapsters funksjonalitet, ble en offentlig tilgjengelig eHAP celle RNA-seq datafil tilordnet Ensemble GRChg38 genomet pluss transkripsjon referansen DNA. EHAP A11 replikere 1 FASTQ filen ble lastet ned fra NCBI rekkefølgen lese arkivet og inneholdt 38,3 millioner leser. MAPster ble kjørt på en Apple iMac med 3.5 GHz Intel Core i7 prosessor bruker standard RNA-seq parametere for kortet lesefilen. Tilordningen ble fullført i mindre enn fem minutter. Total justering prisen var 96.6%. Lignende resultater finnes med typisk DEEPN datasett av 15-25 millioner leser/prøve, selv om den totale justering hastigheten er lavere på grunn av tilstedeværelsen av vektor fra Y2H byttedyr plasmider.

Finne kandidat treff med hjelp av Stat_Maker.
StatMaker programmet gir et excel-format fil som oppsummerer de fleste relevant informasjon for å identifisere kandidat samspill proteiner. Fordi Stat_Maker gjør bruk av unix-baserte subroutines, det vil kjøre på en Mac (OS10.10 +) men ikke PC. Først det oppsummerer leser i ppm for hver genet for både vektor kontroll og agn befolkninger, og også produserer en sannsynlighet rangering om anriking av et bestemt gen når valgt for Y2H interaksjon med agnet rundt er virkelig større enn den anriking av det genet når valgt for interaksjon med vektor-bare kontrollen (figur 5). Andre StatMaker utfører beregninger som BlastQuery modul på hver genet evaluert og tabulerer prosentandelen av krysset i riktig translasjonsforskning rammen og koding rekkefølgen som kreves for en bonafide biologisk relevante Interactor. Denne produksjon gjør det mulig å raskt sortere og filtrere kandidater å identifisere dem som kan undersøkes nærmere ved BlastQuery. Med disse utdataene kan man først sortere de kandidater med den høyeste probabily av å være beriket i utvalg for Y2H interaksjon på agn protein av interesse, og ikke når valgt for interaksjon på vektor plasmider alene. I praksis, finner vi at P > 0,95 fungerer godt. Kandidater kan deretter rangeres for de som har den mest kryss lest som både i regionen koding og i riktig lesing rammen ved hjelp av en enkel sorteringsfunksjon. Her, kandidater med > 85% av veikryss som er i riktig translasjonsforskning rammen og finnes enten i åpne lesing ramme/protein koding regionen (ORF) eller som begynner like over start codon (oppstrøms). Sistnevnte filteret fjerner 60 – 80% av kandidater som har en akseptabel P-verdi, produsere en liste som er mye mer biologisk relevant og overkommelig for videre inspeksjon.

DEEPN programvaren.
Kjernen DEEPN programvare bunter flere beregningsorientert moduler sammen for å integrere alle bioinformatikk trinnene bruker SAM-filer. Gene_Count gir antall leser per genet, utfører beregninger som ligner en RNA-seq kvantifisering. Andre programmer som utfører denne typen utregning kan brukes også, men filformatet må endres for å være kompatibel med andre DEEPN moduler og programmet Stat_Maker. Eventuelt Gene_Count modulen kan brukes å kvantifisere RNAseq eksperimenter, men andre pakker som er integrert med bestemt statistikk programmer har vært utviklet10. Prosessen med matchende en bestemt tilordnede lese med dens tilsvarende genet av interesse er blitt forbedret siden første DEEPN programvaren ved hjelp av en trestruktur for data gen tildelingen. Effekten av dette var å sterkt akselerere hastigheten på behandling slik at typisk dataset som inneholder 10 millioner tilordnet leser tar 5-10 minutter på en stasjonær datamaskin med minimal systemkrav. Andre analyser, spesielt analyse av krysset lyder som dekker Gal4-aktivisering domenet og samspill kandidaten av interesse, er selvstendige. De er pakket med BLAST alogorithm som kjører lokalt og har analyse av prosedyrer for å riktig sortere alle krysset leser og sine posisjoner for alle gitt gener. En av ulempene med DEEPN programvaren er at det gjør bruk av spesielle formatert databaser som definerer hvilke exons i referanse genomer brukes til å definere cDNAs eller koding regioner og formatert databaser angir sekvensen og translasjonsforskning start og stopp av hver cDNA/gener brukes. Vi fant at det var vanskelig å hente alle databaseinformasjonen DEEPN krever et pålitelig format som manglet noen av de falske feilene vi møtte med indeksering av bestemte gener. Derfor samlet vi nye databaser som vi kvalitet kontrollert og innebygd dem i DEEPN programvaren for konsekvent intern referanse. Foreløpig støttes mus, menneskelige og S. cerevisiae Y2H byttedyr biblioteker av inkludert databasene forutsatt at DNA fastq filene tilordnes mot mm10, hg38, eller SacCer3 referanse databaser tilgjengelig fra UCSC. Y2H biblioteker fra ulike organismer kan behandles av DEEPN forutsatt at lignende databaser er bygget og plassert i DEEPN programvare. Samlet selvstendig emballasjen til alle DEEPN moduler, databaser og andre programmer gjør imidlertid disse bioinformatic analyser tilgjengelig for etterforskerne på alle nivåer av kompetanse.

Figure 1
Figur 1 : The MAPster grensesnittet. Skjermbilde av hovedvinduet i MAPster. Boksene for å angi nødvendige filer og formater vises. Deaktivere "Pairwise" (A) for å behandle bildesekvensfiler som enkelt-end leser. Referanse genomet er merket med 'Genome' menyen bar (B). Antallet prosessorer som brukes av HISAT2 er merket med "Tråder"-menyen (C). Det nye utvalg navnet kan skrives inn i "Output filnavn" tekstvinduet (D). Mappe for utdatafiler kan angis i (E). Nedenfor er et vindu viser kø av enkelt-end lese filer. Når prøven er lagt til køen, kan kartlegging startes med knappen "Kjøre kø" (F). Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2 : DEEPN grensesnittet. Bilde av grafiske grensesnittet brukes til å operere DEEPN modulene. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3 : Behandlingen er fullført. Når DEEPN behandler data, opprettes følgende undermapper. Dette kan kontrolleres, men nedstrøms prosesser krever at disse undermappene fortsatt være i arbeidsmappen viktigste og at de beholder sin innholdet og navn. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : Stat_Maker analyse. Bilde av grafiske brukergrensesnittet for Stat_Maker, som har blitt lastet med riktige filer for å tillate for behandling. Topp viser den første visningen av Stat_Maker. Når tilstedeværelse av underliggende støtte data er bekreftet ved å klikke knappen "Bekreft installasjonen" og arbeidsmappen riktig identifisert etter å klikke "Velg mappe", blir GUI aktive, slik at filer lastes. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5 : Utdrag fra Stat_Maker utdata. Porsjon Stat_Maker utgang sammenligne anriking av byttedyr kandidater på en enkelt agn protein til vektor alene (tom pTEF-GBD). Også vist er tilsvarende analyse av om plasmider tilsvarer byttedyr kandidaten inneholder riktig åpen-lesing rammen. Hver genet evalueres har flere verdier: Base, Vec, agn og Enr. "Base" er gjennomsnittlig andel av (ppm) som var for genet innen 2 datasett tilsvarer de dupliserte populasjonene som inneholder bare vektor alene og dyrket under ikke-selektive forhold. "Vec" refererer til gjennomsnittlig andel av (ppm) som var for genet innen 2 datasett tilsvarer de dupliserte populasjonene som inneholder bare vektor alene og dyrket under selektiv forhold (f.eks-hans). "Agn" refererer til andelen leser (ppm) som ble observert i genet innen 2 datasett tilsvarer 2 befolkningen som inneholder agn plasmider og dyrket under selektiv forhold (f.eks-hans). "Enr" (enrichement) er log2 ((Bs/Bn) / (Vs/Vn)) der Bs er lest for agn under valg, Bn er leser for agn under ikke-utvalg, Vs er vektor alene under valg og Vn er vektor alene under valg. Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6 : Visning av Blast_Query. Produksjon av Blast_Query fra 3 forskjellige visninger. Toppen er den første visningen av Stat_Maker før datasett kandidat er valgt. Midtre panelet er en eksempel visning av tabellen viser informasjon om en bestemt kandidat for to forskjellige datasets. Nederst viser en grafisk visning av tabelldata, plotting antall krysset interessepunkter langs genet/cDNA. Klikk her for å se en større versjon av dette tallet.

Figure 7
Figur 7 : Å finne 5' og 3 primerne å forsterke. (A) viser en hypotetisk sekvens og hvordan du utformer 5' oligo å ta riktige rammen og fusion punktet mellom Gal4-aktivisering domenet og byttedyr sekvensen av interesse. I eksempel 1 er fusion punkt på den 10th nukleotid med en Q-start 1. Bruke over forskyvningen tabellen 0 nukleotider er legges til finne 5' startposisjon av primer. Rekonstruert byttedyr plasmider fusion punktet viser at Gal4 aktivisering domenet er smeltet direkte til byttet på nukleotid 10. I eksempel 2 er Start-spørring 3, som krever en forskyvning av 1 nukleotid for å fange den riktige utgangspunkt og ramme av byttedyr sette. Skjematisk av rekonstruert byttet viser at det er 2 nukleotider mellom Gal4 aktivisering domenet og den kjente posisjonen av byttedyr sette som må regnskapsføres. (B) viser vinduet Les dybde. Tekstboksen øverst brukes til å angi NCBI referanse serienummer og rullegardinmenyen under "Velg Sam fil" brukes til å velge dataene for utvalget som inneholder beriket samspill genet hvis interesse. Les dybde viser hvor mange sekvenser (Y-aksen) ble funnet i dataene som svarer til nukleotid plasseringen av sekvensen av interesse (x-aksen). Klikk her for å se en større versjon av dette tallet.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Programvarepakke som er beskrevet her gjør det mulig å behandle og analysere høy gjennomstrømning DNA sekvensering data fra et DEEPN eksperiment. Det første programmet brukes er MAPster, som tar DNA sekvens leser i standard fastq filer og kart sin posisjon på en referanse DNA for nedstrøms behandling av en hel rekke informatikk programmer inkludert DEEPN programvare. Nytten av MAPster grensesnittet og dens evne til å kø flere jobber, kombinere inndatafiler, coveniently navn utdatafiler, kombinert med hastigheten til den underliggende HISAT2 programmet7 det styrer gir en lett-å-bruk verktøyet tilordning for en rekke programmer utenfor DEEPN. MAPster får flere parametere av programmet HISAT2 som er egnet for andre typer dataanalyse foruten DEEPN. Noen av disse funksjonene inkluderer forhåndsinnstilte parameterene for RNA-seq og hele genomet kartlegging eksperimenter og tilgang til et fullt sett med lett å justere HISAT2 parametere for ekspertbrukere og egendefinerte programmer. For eksempel, legger knappen RNA-seq formatering vil lette transkripsjon montering. CRISPR knappen blokker justeringen til den omvendte supplement stranden som ville være passende for en referanse DNA fil fra guide RNA sekvenser. De valgfrie parameterne finnes under fire kategorier merket, "Input, justering, Scoring og utdata". Angi alternativene inkluderer muligheten til å endre input arkiv formatter og angi grunnleggende Les trimming. Justering og scoring kategoriene inneholder alternativer å velge bare én tråd om referansen DNA og angi gap og mismatch straff for justering score. Muligheten til å enkelt kø flere kartlegging jobber med forskjellige parameterinnstillingen må MAPster av interesse for både ekspert og ikke-ekspert brukere forfølge komplekse NGS programmer.

Programmer DEEPN og Stat_Maker er dedikert til bestemte bioinformatikk analyse av data fra batch Y2H skjermer. Dette er tilgjengelig for et bredt spekter av etterforskere og utgjør en sammenhengende bioinformatic programvarepakke kjøre gjennom et grafisk brukergrensesnitt. Denne pakken er ytterligere optimalisert og integrert fra sin opprinnelige beskrivelse6 slik at det går raskere og analyse av kandidaten treff er strømlinjeformet. Alle bioinformatikk trinnene kan kjøres på en stasjonær datamaskin. De viktigste DEEPN programvare tar dette kartet posisjoner for å beregne hvor mange leser tilsvarer hver genet dermed danner grunnlaget for hvordan et bestemt gen er beriket ved valg. Denne programvaren finner også "krysset" sekvenser som tilsvarer innsatsen av interesse som er smeltet transcriptional aktivisering domenet av byttedyr plasmider og tabulerer disse resultatene slik at en kan visualisere alle de ulike delene av en bestemt ORF eller cDNA som er tilstrekkelig for samhandling. I tillegg gir dette også informasjon for å bekrefte lesing rammen av hver sette. Tredje arm bioinformatic programvaren er Stat_Maker, som bruker utdatafiler behandles av DEEPN til å beregne statistiske relevansen av gene enrichments skyldes interaksjon med en gitt agn protein vs Gal4-DNA-bindende domene vektor alene ( Tom pTEF-GBD). En siste forbedring er at Stat_Maker ikke bare gir en statistisk rangering av hver kandidat, men også tabulerer den tilsvarende informasjonen fra de tilsvarende krysset sekvensene, gjøre dem tilgjengelige i en enkeltfil som gjør det mye enklere for etterforskere undersøkelsen og se resultatene.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne ikke avsløre

Acknowledgments

Dette arbeidet ble støttet av National Institutes of Health: NIH R21 EB021870-01A1 og NSF forskningsstipend for prosjektet: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetikk problemet 136 Protein samhandling neste generasjons sekvensering DNA sekvens analyse gjær 2-Hybrid
Informatic analyse av sekvens Data fra satsvis gjær 2-Hybrid-skjermer
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter