Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Datoriserad analys av sekvensdata från Batch jäst 2-Hybrid skärmar

Published: June 28, 2018 doi: 10.3791/57802

Summary

Djupsekvensering av jäst populationer valts för positiva jäst 2-hybrid interaktioner potentiellt ger en mängd information om samverkande partner proteiner. Här, beskriver vi driften av specifika bioinformatiska verktyg och anpassade uppdaterad programvara för att analysera sekvensdata från sådana skärmar.

Abstract

Vi har anpassat jäst 2-hybrid analysen för att samtidigt avslöja dussintals övergående och statiska proteininteraktioner inom en enda skärm som utnyttjar hög genomströmning kort-Läs DNA-sekvensering. Den resulterande sekvensen datamängder kan inte bara spåra vilka gener i en population som är berikad under markeringen för positiva jäst 2-hybrid interaktioner, men också ge detaljerad information om relevanta underdomäner av proteiner tillräckligt för interaktion. Här beskriver vi en full sviten av fristående program som gör icke-experter att utföra alla bioinformatik och statistisk steg för att bearbeta och analysera DNA sekvens fastq filer från en batch jäst 2-hybrid assay. Processtegen omfattas av dessa programvara inkluderar: (1) kartläggning och räknande sekvensen läser motsvarar varje kandidat protein kodade inom ett jäst 2-hybrid prey bibliotek; (2) en statistisk analysprogram som utvärderar de berikning profilerna; och 3) verktyg för att undersöka translationell ram och ställning i regionen kodande i varje berikad plasmiden som kodar de samverkande proteinerna av intresse.

Introduction

En metod att upptäcka proteininteraktioner är jäst 2-hybrid (Y2H) analysen, som utnyttjar konstruerad jästceller som växer endast när ett protein av intresse binder till ett fragment av ett samverkande partner1. Påvisande av flera Y2H interaktioner kan nu göras med hjälp av massiva parallella hög genomströmning sekvensering. Flera format har varit beskrivs2,3,4,5 inklusive en som vi utvecklat där populationer odlas i batch villkor som väljer för jäst som innehåller plasmider som producerar en positiva Y2H interaktion6. Arbetsflödet vi utvecklat, kallas DEEPN (dynamisk anrikning för utvärdering av Protein nätverk), identifierar differential interactomes från samma prey biblioteken att identifiera proteiner som samverkar med en protein (eller domän) vs. ett annat protein eller en conformationally distinkta mutant domän. En av de största stegen i det här arbetsflödet är korrekt bearbetning och analys av DNA sekvensering data. Viss information kan härledas genom att bara räkna antalet läsningar för varje gen både före och efter markeringen av Y2H interaktioner i en mode analogt med ett RNA-seq experiment. Dock kan mycket mer ingående information utvinnas ur dessa datamängder inklusive information om underdomänen av ett visst protein som är kapabel att producera en Y2H interaktion. Den DEEPN metoden är värdefull, kan analysera många prov replikat dessutom vara, omständligt och dyrt. Problemet lindras med hjälp av en statistisk modell som utvecklats specifikt för DEEPN datauppsättningar där antalet replikat är begränsad6. För att bearbetning och analys av DNA sekvensering datamängder tillförlitlig, komplett, robust och tillgänglig utredare utan bioinformatik expertis, utvecklat vi en svit av program som täcker alla steg i analysen.

Denna svit av fristående program som körs på stationära datorer inkluderar MAPster, DEEPN och Stat_Maker. MAPster är ett grafiskt användargränssnitt som låter varje fastq fil i kö för mappning till genomet använder i HISAT2 program7, producerar en standard .sam fil för användning i efterföljande program. DEEPN har flera moduler. Det tilldelar och räkningar läser motsvarande särskild gen liknar en RNA-seq typ kvantifiering använder modulen 'Genen Count'. Också extraheras de sekvenser som motsvarar korsningen mellan Gal4 transkriptionell domänen och sekvensen bytesdjur och sammanställer placeringen av dessa korsningar att tillåta sin inspektion av jämförande tabeller och diagram (med modulen 'Junction_Make') Modulen 'Blast_Query' tillåter enkel inspektion, kvantifiering och jämförelse av korsningen Gal4 junction sekvenser. Stat_Maker utvärderar läser per gen anrikning data statistiskt som ett sätt att prioritera sannolikt Y2H träffar. Här beskriver vi hur du använder dessa program och att fullt ut analysera DNA-sekvensen data från en DEEPN Y2H experimentera. Versioner av DEEPN finns att köra på PC, Mac och Linux-system. Andra program, såsom kartläggning program MAPster och modulen DEEPN statistik Stat_Maker lita på subrutiner som körs under Unix och finns endast på Mac och linux-system.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. kartläggning Fastq filer

Obs: DEEPN programvara samt många bioinformatik program använda DNA-sekvensdata vari varje sekvens Läs har mappats för dess position i referens DNA. En mängd kartprogram kan användas för detta inklusive MAPster gränssnittet här som använder programmet HISTAT2 för att producera .sam filer som används i efterföljande steg.

  1. Mappa sekvensdata till rätt version av genomet. För Y2H bibliotek av mus ursprung, använda UCSC mm10 genomet; för dem som använder mänskliga gener, UCSC hg38 referens genomet, för Saccharomyces cerevisiae gener, Använd UCSC SacCer3 referens genomet.
  2. Installera MAPster.
    1. Hämta MAPster programvara och installera. Programvaran kan hittas med hjälp av en webbläsare på följande: https://github.com/emptyewer/MAPster/releases. HISAT2 körs på Unix-baserade system såsom en Apple Macintosh. På grund av detta, kan programmet MAPster endast köras på kompatibla system såsom Apple Macintosh och linux.
      Obs: Systemkrav för en Apple Mac är: OSX 10.10 +, > 4 Gb RAM, > 500 Gb diskutrymme och tillgång till internet för att hämta referens genomen. Användare kan behöva rådgöra med en institutionell det person om deras företag har säkerhetsprotokoll begränsa administratörsrättigheter och behörigheter.
  3. Ange nödvändiga filer och parametrar via fliken ”Main” (figur 1). Välj lämplig ”Pairwise” knappen för att ange filer antingen som par eller oparade med FASTQ som standardfilformatet.
    1. För DEEPN analys, aktivera alternativet ”Pairwise” till ”Off” att köra i enda Läs format.
    2. Ladda filer till MAPster helt enkelt genom att dra-och-släpp in i lämpliga fönster.
    3. Välj en referens DNA/genomet källa som motsvarar källan till Y2H byte bibliotek skären. Indexerade genomen från flera modellorganismer listas i rutan ”genomet” och kan laddas ner automatiskt från Johns Hopkins University Center for Computational Biology. Referens genomen lagras lokalt för senare användning.
    4. Ange antalet datorprocesser som ägnas åt det kartläggning programmet under rutan ”trådar” sedan HISAT2 stöder multi-threading. MAPster söker datorn och föreslå det maximala antalet processorer finns som standard.
    5. Ange ett utfilnamet. Det här filnamnet kommer att användas under hela DEEPN så rekommenderas en kort men beskrivande namn utan blanksteg eller specialtecken. Ange en mapp för de mappade utdatafiler med knappen ”Öppna Output Directory”.
    6. När lämpliga filer och parametrar har valts, lägga till mappning till jobb kön med knappen ”Lägg till kö”. Filnamnen i huvudfönstret kan utgå och ersättas med filer som motsvarar ett nytt stickprov och de kan läggas till kön efter att tillhandahålla en motsvarande utdatafilnamnet.
    7. Klicka på knappen ”Kör Queue” när alla jobb är trätt i jobbkön.
      Obs: När en mappning jobb har placerats i kö, att välja det jobbet orsakar parameterinställningarna som ska visas i fönstret ”jobbparametrar” och programsatsen kommandoraden med alla argument som ska visas i fönstret ”jobb Command”. Utmatningsalternativ inkluderar regi om att hålla läsningar som misslyckas med att justera och angivande av antal primära linjeföring tillåtet för varje läsning. Standard utdatafilen från MAPster är i SAM format (t.ex. en '.sam' fil). Det kommer att innehålla alla den sekvens läser från fastq filerna anges för provet inklusive dem som var (mappas) och var inte (omappade) framgångsrikt mappad till den angivna geome.

2. bioinformatiska bearbetning använder DEEPN programvara

Obs: DEEPN programvara sammanställs för närvarande för användning med prey bibliotek innehållande mus cDNA sekvenser, human cDNA sekvenser eller S. cerevisiae genomisk DNA-sekvenser. DEEPN accepterar formatet standard .sam och kan acceptera en SAM (.sam) fil som innehåller både mappade och omappade läsningar eller separata filer för varje av de omappade och mappade läser.

  1. Hämta DEEPN programvara och installera. Programvaran kan hittas med hjälp av en webbläsare på följande: https://github.com/emptyewer/DEEPN/releases. Välj vilken version matchar computing-plattform och ladda ner. För att installera, öppna hämtade installera paketet.
    Obs: Versioner av DEEPN är tillgängliga för PC, Mac och Linux sysrems. Mac och PC-system bör ha > 500 Gb hårddiskutrymme och > 4 Gb RAM.
  2. Öppna programvaran DEEPN. Markera motsvarande byte biblioteksinformation från rutan längst upp i huvudfönstret (figur 2). Välj en mapp där de bearbetade filerna kan gå genom att klicka på knappen ”arbetsmapp” och navigera till den mapp/katalogen. Om det behövs kan man skapa en ny mapp/katalog. När en ”arbetsmapp” är valt, kommer DEEPN att skapa tre undermappar rätt unmapped_sam_files, mapped_sam_files och sam_files.
    1. Om använder .sam filer som innehåller både mappade och omappade läsningar som de produceras med standardinställningarna för programmet MAPster, placera dem i mappen 'sam_files'. Annars placera .sam filer i unmapped_sam_files och mapped_sam_files med detta.
  3. Initiera bearbetning genom att klicka på knappen ”genen Count + Junction gör”.
    Obs: Behandlingen börjar med modulen genen räknas som använder mappning positioner för att räkna hur många läser motsvarar varje gen. Korsningen gör kommer sedan extrahera junction sekvenser (sekvenser smält direkt nedströms från domänen Gal4-aktivering) från läser och identifiera dem med Blast algoritm. Detta kommer att skapa en fullständig uppsättning mappar som avbildas i figur 3. Handläggningstiden beror på storlek och antal sekvens datafiler och bearbetningen fart till den dator som används. Typiska gånger varierar från 12 – 30 h för en experimentell datamängd på ~ 250 miljoner läser. Gene greve förfarandet och förfarandet för Junction_Make kan startas individuellt genom att klicka på knappen ”genen Count” eller ”Junction gör” knappen.
  4. Hämta och installera Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Detta är en statistisk analyspaket utformade för DEEPN datamängder som för närvarande fungerar bara på Unix Mac-system.
    1. Öppna Stat_Maker och klicka på knappen ”Kontrollera installationen” (figur 4). Om kör för första gången, installerar Stat_Maker automatiskt R, JAGS och Bioconductor genom att dra dessa resurser från internet. När R, JAGS och Bioconductor upptäcks, kommer Stat_Maker bli aktiva och tillåta ytterligare indata från användaren.
    2. Klicka på knappen ”Välj mapp” navigera till arbetsmappen som DEEPN bearbetas. Stat_Maker kommer att automatiskt hitta och lista filer för statistisk analys i fönstret.
    3. Dra och släppa lämpliga filer från fönstret filen ovan i filen windows nedan för varje vektor- och bete datamängd och för varje tillväxt villkorar: Ej vald (hans + media) och markerat (hans - media). Ännu viktigare, kräver Stat_Maker dubbla datamängder för tom vektor ensam, två provexemplar av icke-valda populationer och två prover av utvalda. Detta ger en uppskattning av variationen inom experimentet.
    4. Klicka på knappen ”Kör”. Beroende på hastigheten på datorn tar uträkning mellan 5 – 15 min.
  5. Granska resultat från Stat_Maker produktionen, som är placerade i en ny undermapp i mappen främsta verk märkt ”Stat_Maker resultat”.
    Obs: Resultaten finns i en CSV (kommaseparerade värden) fil som kan öppnas gemensamt kalkylprogram. Stat_Maker kommer att rangordna genen träffar som sannolikt kommer att berikas differentially vid urval med bete av intresse över tomma pTEF-GBD (figur 5). Också i tabellform är andelen läsningar för varje datamängd där genen skäret finns uppströms, nedströms, eller inom ramen öppen läsning och om genen hittas också inom ramen korrekt translationell läsning. DEEPN kommer ofta fånga robust Y2H interaktioner av ett bete med delar av en given cDNA som är ur ramen korrekt tolkning av motsvarande protein eller är en del av det cDNA som är nedströms bokramarna motsvarande öppna-läsning. Scanning kombinerade utdata från Stat_Maker effektiviserar upptäckt och eliminering av dessa irrelevanta träffar.
  6. För att granska data på varje potentiell kandidat, öppna programvaran DEEPN, Välj motsvarande byte biblioteksinformation och sedan rätta arbetsmappen använda mappen ”arbete”.
    1. Klicka på knappen ”Blast Query”. Detta laddar ett nytt fönster (figur 6). I översta rutan, skriv gen namn eller GenBank NM nummer för att välja den kandidat gen av intresse. Dessa gen namn motsvarar de namn som anges i StatMaker utdatafilen. Typ ange eller returnera, vilket initierar hämtning av genen av intresse.
    2. Välj vilka datamängder kommer att användas för analys med hjälp av ”Välj Dataset” menyerna. Vanligtvis, dessa inkluderar vektorn endast och bete prover som odlas under icke-selektiva förhållanden och bete provet odlas under urval förhållanden. Inledningsvis datamängderna kommer ta en stund att ladda, men efterföljande fråga av den samma datamängder med olika gener kommer att gå snabbt. Blast_Query visas de fusion punkterna längs sekvensen av intresse och hur rikligt varje fusion punkt är. Detta kan visas både i ett tabellformat med fliken ”resultat” eller ett grafiskt format med hjälp av ”Plot” fliken. Dessa resultat kan exporteras till en CSV-fil genom att klicka på knappen ”Spara CSV” uppe till höger.

3. kontroll av kandidater identifieras genom DEEPN

Obs: Syftet med DEEPN och Stat_Maker är att identifiera kandidatgener som ger en positiv Y2H interaktion. Verifiera sådana Y2H interaktioner kan vara gjort med hjälp av traditionella Y2H binärformat använder bete plasmiden sevärdheter parat med tomma Gal4-aktivering domän 'byte' plasmiden samt parat med prey plasmiden bär den gen/cDNA fragmentet av intresse. Det är inte möjligt att isolera faktiska plasmiden av intresse inom blandningen av DNA isolerade från jäst befolkningen utsätts för Y2H urval. Dock kan en beräkningsmässigt rekonstruera vad den gen/cDNA fragmenten är som producerar Y2H interaktionen, utforma primers för 5' och 3' ände att fragmentet och förstärka det fragmentet från DNA isolerade från jäst befolkningen. Här beskrivs hur du hittar 5' och 3' ände kandidat prey fragmentet.

  1. Öppna DEEPN och välj parametrarna ”Välj Parameter” och mappen arbete ”Välj arbeta mapp” motsvarar projektet. Starta Blast_Query modulen genom att klicka på knappen ”Blast Query”.
  2. Skriv namnet på gen av intresse eller dess GenBank ”NM” nummer i textrutan längst upp. Välj från menyn pull datamängden som motsvarar befolkningens valda jäst för betet av intresse att hämta tabellen i korsningen positioner under fliken 'Resultat'. Som standard kommer Blast_Query att beställa de olika ståndpunkter som enligt deras överflöd i datamängden, kvantifieras i ppm av det totala antalet korsningar som finns inom databasen.
    1. Hitta den vanligast förekommande position som är ”i ORF” och ”i ramen”. Värdet för position motsvarar nukleotid position av genen med NCBI referens sekvens ('NM' nummer) finns i den översta textrutan. Denna sekvens kan vara Hämtad från GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) eller kopierat från lägre textrutan i fönstret Blast_Query.
      Obs: Ett exempel kan hittas i figur 6, mellersta panelen. I center datamängden, 'Resultat' visar som vanligast förekommande korsningen: 'Position': 867; '#Junctions': 20033.821; 'Fråga Start', 1; CD: I ORF; och 'Ram': I ram. Nukleotid 867 av sekvensen GenBank NCBI referens NM_019648 är början på bytesdjur fragmentet.
  3. Om Start-fråga 1, design 5' slutet av primern att inkludera den nukleotid motsvarar positionsnumret och förlänga 25 nukleotider nedströms från den positionen (figur 7). Om frågan börjar är mer än 1, anger att det finns extra nukleotider mellan domänen Gal4 aktivering och sekvensen byten av intresse och att primern ska starta ytterligare nedströms enligt värdet Query starta.
  4. Klicka på knappen ”Läs djup” under ”analysera Data” från fönstret DEEPN. När fönstret Läs djup är öppen, typ NCBI sekvens (NM) nummer eller gen Referensnamnet i översta textrutan. Använd den nedrullningsbara menyn för att välja relevanta datamängden som innehåller genen berikad av intresse. Använd tabellen till vänster och grafik visas på rätten att bestämma hur många läser hittades i den data som motsvarar gen av intresse (figur 7B).
  5. Designa en 3' slutet primer som kommer att fånga sekvensen av genen fragmentet beräknas av Läs djup. Om överflödet av läsningar går utöver ORF och stoppa codon, design primern så att det omfattar den stop kodon och regionen bara uppströms den stop kodon. Om sekvenserna för gen inte omfattar förbi den stop kodon, använda tabellen resultat för att hitta den mest avlägsna 3' regionen som kan upptäckas och använda denna position som den mest bortersta 3' ställning att placera primer.
    Obs: Läs djup programmet genomsöker intervall att hitta sekvenser som matchar den angivna gen/cDNA sevärdheter. Detta hjälper förutsäga där 5' och 3' mest riklig byten fragmentet avslutas för att genen i provet. Läs djupet längs längden på sekvensen är normalt, vilket kan ses i figur 7. Om Läs djupet är klart förbi den stop kodon, visar att byten fragmentet sträcker sig bortom den stop kodon och således 3' primern helt enkelt kan motsvara regionen runt den stop kodon.
  6. Utföra en 50 μl PCR-reaktion per genen. Varje reaktion innehåller 25 pmol varje framåt och bakåt primer matchande byten-bibliotek plasmiden (se tabell för material). Reaktioner också innehålla 25 µL av HiFi-2 x PCR Master Mix, 5 µg av DNA-prov och vatten upp till 50 µL.
    1. Förstärka reaktioner för 25 cykler med förlängning gånger 3 min vid 72 ° C, glödgning temperatur 55 ° c i 30 s och denatureringen vid 98 ° C för 10 s. Precede cykling en 30 s denaturering på 98 ° C och följa med en 5 minuters inkubation vid 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Mappning av fastq data: det första steget
I praktiskt taget alla NGS program inklusive DEEPN inledande utdata är en fil av kort sekvens läser som måste mappas av anpassningen till genomisk, hänvisning transcriptomic, eller annan DNA8. Nyligen utvecklades HISAT2 justering programmet som använder algoritmer för indexering av state-of-the-art att dramatiskt öka den mappning hastighet7,9. HISAT2 körs effektivt på en stationär dator och kan läsa karta en vanligtvis storlek fil i minuter. Detta tillät oss att Linda HISAT2 i ett grafiskt användargränssnitt som kallas MAPster som kan mappa fastq filer lokalt, så att användarna kan undvika att förlita sig på fjärrdatorn högpresterande kluster som vanligtvis arbetar med kommandoradsverktyget språk (figur 1). Viktiga funktioner av MAPster omfattar förekomsten av förinställda parametrar för RNA-seq och hela genomet mappning experiment, förmågan att köa flera jobb, och tillgång till en fullständig uppsättning enkelt justerbara HISAT2 parametrar för expertanvändare och anpassade applikationer. För att illustrera Mapsters funktionalitet, var en offentligt tillgänglig eHAP cell RNA-seq fil mappas till Ensemble GRChg38 genomet plus avskrift hänvisningen DNA. EHAP A11 replikera 1 FASTQ filen hämtades från NCBI sekvens Läs arkivet och innehöll 38,3 miljoner läsningar. MAPster kördes på en Apple iMac med en 3,5 GHz Intel Core i7-processor som använder standard RNA-seq parametrar för den oparade Läs filen. Kartläggningen genomfördes på mindre än fem minuter. Övergripande var justering 96,6%. Liknande resultat återfinns med typiska DEEPN datamängder av 15 – 25 miljoner läsningar/sample, men den övergripande justering är lägre på grund av vektor sekvens från Y2H byte Plasmiden.

Att hitta kandidat träffar med hjälp av Stat_Maker.
Vilken StatMaker som producerar en excel-visningsbara fil som sammanfattar de flesta av den relevanta information som behövs för att identifiera kandidat samverkande proteiner. Eftersom Stat_Maker gör använda av unix-baserade subrutiner, det kommer att köras på en Mac (OS10.10 +) men inte PC. Först, det sammanfattar läser i ppm för varje gen för både vektor kontroll och bete populationer och också producerar en sannolikhet ranking om berikning av en särskild gen när valts för Y2H samverkan med bete av intresse är verkligen större än den anrikning av denna gen när valts för interaktion med endast vektor-kontroll (figur 5). Andra StatMaker utför BlastQuery modul uträkningarna på varje gen utvärderas och ordningsföljd andelen junction läspaket som är i den rätta translationell ram och den kodande sekvens som skulle krävas för en bonafide biologiskt relevanta datadestination. Denna sammanlagda produktion gör det möjligt att snabbt sortera och filtrera kandidater att identifiera de som kan inspekteras närmare av BlastQuery. Med denna utgång, kan man först sortera för dessa kandidater med de högsta probabily av att vara berikad under markeringen för Y2H interaktion på proteinet bete av intresse och inte när valts för interaktion på vektor plasmiden ensam. I praktiken finner vi att P > 0,95 fungerar bra. Sedan kan kandidaterna rangordnas för dem som har den mesta junction läser som är såväl i den kodande regionen läsas korrekt ramen med en enkel sortering funktion. Här, kandidater med > 85% av korsningar som är i rätt translationell ramen och finns antingen inom den öppna läsning ram och protein kodande regionen (i ORF) eller som börjar bara uppströms den start-kodon (uppströms). Detta sistnämnda filter eliminerar 60 – 80% av kandidaterna som har ett acceptabelt P-värde, producerar en lista som är mycket mer biologiskt relevant och hanterbara för ytterligare inspektion.

Programvaran DEEPN.
Kärnan DEEPN programvara buntar flera computational moduler tillsammans för att integrera alla bioinformatik steg med hjälp av SAM filer. Gene_Count ger antalet läsningar per gen, utför en beräkning som liknar en RNA-seq kvantifieringsmetoden. Andra program som utför denna typ av beräkning kan också användas, dock formatet skulle behöva ändras för att vara kompatibla med andra DEEPN moduler och Stat_Maker program. Alternativt, den Gene_Count modulen kan användas för att kvantifiera RNAseq experiment, andra paket som är integrerad med särskild statistikprogram har dock utvecklade10. Processen av matchande en viss mappade läsa med dess motsvarande gen av intresse har förbättrats sedan den första DEEPN-programvaran med hjälp av en data trädstruktur för genen tilldelning. Effekten av detta var att kraftigt påskynda hastigheten av bearbetning så att en typisk datamängd som innehåller 10 miljoner mappas läser tar 5 – 10 min på stationär dator med minimala systemkrav. Andra analyser, särskilt analysen av korsningen läsningar som spänner över domänen Gal4-aktivering och samverkande kandidaten av intresse, är fristående. De är förpackade med den BLAST-alogorithm som körs lokalt och parsning förfaranden som korrekt sammanställa alla korsningen läser och deras positioner för alla given generna. En av nackdelarna med programvaran DEEPN är att det gör användning av särskilda formaterade databaser som definierar vilka exonerna i referens genomen används för att definiera cDNAs eller kodande regioner och formaterade databaser som anger sekvens och translationell start och stopp varje cDNA/gener används. Vi hittade att det var svårt att hämta alla databasinformationen DEEPN kräver ett tillförlitligt format som saknade några av de falska misstag som vi stött på med indexeringen av vissa gener. Således samlat vi nya databaser att vi kvalitet kontrolleras och inbäddade dem i den DEEPN programvaran för konsekvent intern referens. För närvarande, stöds mus, mänskliga och S. cerevisiae Y2H byte bibliotek av medföljande databaserna förutsatt att DNA fastq filer mappas mot mm10, hg38 eller SacCer3 referensdatabaser tillgängliga från UCSC. Y2H bibliotek från olika organismer kan bearbetas av DEEPN förutsatt att liknande databaser byggs och placeras i programvaran DEEPN. Sammantaget dock fristående förpackning av alla DEEPN moduler, databaser och andra program göra dessa bioinformatiska analyser tillgängliga för utredare på alla nivåer av expertis.

Figure 1
Figur 1 : The MAPster gränssnittet. Skärmdump av huvudfönstret i MAPster. Rutorna för att ange nödvändiga filer och format visas. Inaktivera ”Pairwise” (A) för att behandla sekvens filer som single-end läser. Referens genomet är markerat med 'Genomet' menyn bar (B). Antalet processorer som används av HISAT2 är markerad med ”trådar”-menyn (C). Det nya prov-namnet kan skrivas i ”Output Filename” text-fönstret (D). Katalogen för utdatafilerna kan designeras i (E). Nedan är ett fönster som visar kösystemet av single-end läsa filer. Efter provet har lagts till i kön, kan kartläggning initieras med knappen ”Run Queue” (F). Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2 : DEEPN gränssnittet. Bild av det grafiska användargränssnittet som används för att driva DEEPN moduler. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3 : Avslutad behandling. När DEEPN bearbetar data, skapas följande undermappar. Dessa kan inspekteras, men nedströms processer kräver att dessa undermappar förblir inom mappen huvudsakliga arbete och att de behåller sin innehåll och namn. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4 : Stat_Maker analys. Bild av det grafiska användargränssnittet för Stat_Maker, som har laddats med lämpliga filer för bearbetning. Överst visas den inledande vyn av Stat_Maker. När förekomsten av underliggande stöd data har verifierats genom att klicka på knappen ”Kontrollera installationen” och mappen korrekt arbete identifierat efter att klicka på knappen ”Välj mapp”, blir GUI aktiv, vilket möjliggör lastning filer. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5 : Utdrag från Stat_Maker utdata. Del av Stat_Maker utdata jämföra anrikningen av bytesdjur kandidater på ett enda bete protein till vektor ensam (tom pTEF-GBD). Också visat är motsvarande analys av huruvida plasmidsna motsvarar byte kandidaten innehåller ramen korrekt öppna-läsning. Varje gen som utvärderas har flera värden: Base, Vec, bete och Enr. 'Basen' är den genomsnittliga andelen av läser (ppm) som observerades för genen inom de 2 datamängder som motsvarar de dubbla populationerna som innehåller endast vektor ensam och odlade icke-selektiva villkor. ”Vec” refererar till den genomsnittliga andelen av läser (ppm) som observerades för genen inom de 2 datamängder som motsvarar de dubbla populationerna som innehåller endast vektorgrafik ensam och odlade selektiv villkor (t.ex.-hans). 'Bete' refererar till andelen läsningar (ppm) som observerats för genen inom 2 datamängderna motsvarar 2 befolkningarna som innehåller bete plasmiden och odlas under selektiv förhållanden (t.ex.-hans). ”Enr” (anrikning) är log2 ((Bs/Bn) / (Vs/Vn)) där Bs är läser för bete under markeringen, Bn är läsningar för bete under icke-urval, Vs är vector ensam under urval och Vn är vector ensam under markeringen. Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6 : Visning av Blast_Query. Produktionen av Blast_Query från 3 olika vyer. Toppen är den inledande vyn av Stat_Maker innan datamängderna kandidat väljs. Panelen mellersta är en exempel vy över tabellen visar information om en given kandidat för två olika datamängder. Botten visar en grafisk vy av tabulär data, plottning antalet särskilda knutpunkter längs den genen/cDNA sevärdheter. Klicka här för att se en större version av denna siffra.

Figure 7
Figur 7 : Att hitta 5' och 3' primers att förstärka. (A) visar en hypotetisk sekvens och hur man utformar den 5' oligo att fånga rätt ram och fusion pekar mellan domänen Gal4-aktivering och sekvensen byten av intresse. I exempel 1 är positionen för fusion punkten på den 10: e nukleotid med Q start 1. Med hjälp av ovanstående offset tabell, 0 nukleotider är läggas till hitta de 5' startposition för primern. Den rekonstruerade prey plasmid fusion punkten visar att domänen Gal4 aktiveringen smälts samman direkt på bytet på nucleotide 10. I exempel 2 är Start-frågan 3, vilket kräver en förskjutning av 1 nukleotid för att fånga rätt utgångspunkt och ram av bytesdjur skäret. Schematiskt av rekonstruerade bytet visar att det finns 2 nukleotider mellan domänen Gal4 aktivering och prey skäret som måste redovisas för kända position. (B) visas fönstret Läs djup. Textrutan överst används för att ange NCBI sekvensnummer och den nedrullningsbara menyn under 'Välj .sam fil' används för att markera data för provet som innehåller anrikat samverkande genen om intresse. Läs djupet visar hur många sekvenser (Y-axeln) hittades i den data som motsvarar nukleotid positionerna av sekvensen av intresse (x-axeln). Klicka här för att se en större version av denna siffra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Den programserien som beskrivs här tillåter en att helt bearbeta och analysera hög genomströmning DNA sekvensering data från ett DEEPN experiment. Det första programmet som används är MAPster, som tar den DNA sekvens läser i standard fastq filer och kartor sin position på en referens DNA för nedströms behandling av en hel mängd informatik program inklusive DEEPN programvara. Verktyget MAPster gränssnittet och dess förmåga att köa flera jobb, kombinera indatafiler, 눇Mycket namn utdatafiler, tillsammans med hastigheten på den underliggande HISAT2 program7 kontrollerar ger en lätt-till-använda verktyg-mappning för en mängd program bortom DEEPN. MAPster kan komma åt flera parametrar i programmet HISAT2 som lämpar sig för andra typer av dataanalyser förutom DEEPN. Vissa av dessa funktioner inkluderar förinställda parametrar för RNA-seq och hela genomet mappning experiment och tillgång till en fullständig uppsättning enkelt justerbara HISAT2 parametrar för expertanvändare och för kundanpassade applikationer. Exempelvis knappen RNA-seq lägger till formatering som skulle underlätta avskrift montering. CRISPR knappen block anpassningen till omvänd komplement delen som skulle vara lämpligt för en referensfil för DNA som härrör från guide RNA sekvenser. De valfria parametrarna finns under fyra flikar märkt, ”Input, justering, Scoring och Output”. Inmatningsalternativ inkluderar möjligheten att ändra input format och för att ange grundläggande Läs trimning. Justering och scoring flikar inkluderar alternativen att välja bara en strand på referensen DNA och ställa gap och mismatch straffen för justering poängen. Förmågan att bekvämt kö flera mappning jobb med distinkta parameterinställning bör göra MAPster av intresse för både expert och icke-expert användare att driva komplexa NGS program.

DEEPN och Stat_Maker mjukvaruprogram är dedikerade till specifika bioinformatik analys av data från batch Y2H skärmar. Detta är tillgänglig för ett brett spektrum av utredare och utgör ett sammanhängande bioinformatisk programvarupaket kör genom ett grafiskt användargränssnitt. Detta paket har ytterligare optimerad och integrerad från dess ursprungliga beskrivning6 så att det går snabbare och analys av kandidat träffar är strömlinjeformad. Alla stegen i bioinformatik kan köras på en stationär dator. Den huvudsakliga DEEPN programvara tar dessa karta positioner för att beräkna hur många läser motsvarar varje gen därmed bildar grunden för hur en viss gen är berikad vid urval. Denna programvara också finner 'korsningen' sekvenser som motsvarar insatsen av intresse eftersom det är smält till domänen transkriptionell aktivering av bytesdjur plasmiden och ordningsföljd dessa resultat så att man kan visualisera alla de olika delarna av en viss ORF eller cDNA som är tillräcklig för interaktion. Dessutom innehåller även information för att kontrollera behandlingen ramen för varje insats. Den tredje armen av bioinformatiska programvaran är Stat_Maker, som använder utdatafiler bearbetas av DEEPN för att beräkna gen rikedomar följd av interaktion med ett visst bete protein vs på Gal4-DNA-bindande domänen vektor ensam (statistisk relevans Tom pTEF-GBD). En nyligen förbättring är att Stat_Maker inte bara ger en statistisk rankning av varje kandidat, men också ordningsföljd motsvarande information utvinns ur den motsvarande junction sekvenser, göra dem tillgängliga i en enda fil som gör det mycket lättare för utredare att kartlägga och granska resultatet.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har ingenting att avslöja

Acknowledgments

Detta arbete stöds av National Institutes of Health: NIH R21 EB021870-01A1 och av NSF forskning projektbidrag: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetik fråga 136 Protein interaktion nästa generations sekvensering DNA Sequence Analysis jäst 2-Hybrid
Datoriserad analys av sekvensdata från Batch jäst 2-Hybrid skärmar
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter