Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Informatica analisi dei dati di sequenza da Batch lievito ibrido 2 schermi

Published: June 28, 2018 doi: 10.3791/57802

Summary

Sequenziamento profondo delle popolazioni di lieviti selezionati per le interazioni di lievito positivo 2-ibrido potenzialmente produce una ricchezza di informazioni su proteine partner interagenti. Qui, descriviamo il funzionamento di strumenti bioinformatici specifico e personalizzato aggiornato il software per analizzare i dati di sequenza da questi schermi.

Abstract

Abbiamo adattato il dosaggio di 2-ibrido del lievito per scoprire contemporaneamente decine di interazioni proteina transitoria e statica in una sola schermata utilizzando il sequenziamento del DNA di alto-rendimento breve lettura. I set di dati di sequenza risultante può non solo tenere traccia di quali geni in una popolazione che si arricchiscono durante la selezione per le interazioni di 2-ibrido del lievito positivo, ma anche dare informazioni dettagliate circa i relativi sottodomini di proteine sufficienti per l'interazione. Qui, descriviamo una suite completa di programmi di software stand-alone che consentono di non-esperti eseguire tutti i bioinformatica e statistiche passaggi per elaborare e analizzare file fastq di sequenze di DNA da un dosaggio di 2-ibrido del lievito batch. Le fasi di lavorazione coperte da questi software includono: 1) mappatura e conteggio letture di sequenza corrispondente ad ogni proteina candidato codificato all'interno di una libreria di preda 2-ibrido del lievito; 2) un programma di analisi statistica che valuta i profili di arricchimento; e 3) strumenti per esaminare il telaio traslazionale e posizione all'interno della regione di codificazione di ogni plasmide arricchito che codifica le proteine interagenti di interesse.

Introduction

Un approccio per scoprire le interazioni della proteina è il dosaggio di lievito 2-ibrido (Y2H), quali exploit ingegnerizzato cellule di lievito che crescono solo quando una proteina di interesse viene associato a un frammento di un partner interagenti1. Rilevamento di interazioni multiple Y2H ora può avvenire con l'aiuto di sequenziamento massivo di high throughput parallelo. Diversi formati sono stati descritti2,3,4,5 , tra cui uno che abbiamo sviluppato dove popolazioni vengono coltivati in batch in condizioni tali da selezionare per lievito contenente plasmidi che producono un positivo di interazione Y2H6. Il flusso di lavoro abbiamo sviluppato, chiamato profondo (arricchimento dinamico per la valutazione della proteina reti), identifica differenziale Interattomi dalle stesse librerie di preda per identificare le proteine che interagiscono con una proteina (o dominio) vs. un'altra proteina o un dominio mutante conformazionalmente distinto. Uno dei passi più importanti in questo flusso di lavoro è di consentire una corretta elaborazione e analisi dei dati di sequenziamento del DNA. Alcune informazioni possono essere raccolte solo contando il numero di letture per ogni gene sia prima che dopo la selezione di Y2H interazioni in modo analogo a un esperimento di RNA-seq. Tuttavia, per maggiori informazioni possono essere estratti da tali set di dati comprese le informazioni sul sottodominio di una data proteina che è in grado di produrre un'interazione Y2H. Inoltre, considerando che l'approccio profondo è prezioso, analizzando molte repliche del campione può essere ingombrante e costoso. Questo problema è risolta utilizzando un modello statistico che è stato sviluppato specificamente per i DataSet profondo dove il numero delle ripetizioni è limitato6. Per rendere l'elaborazione e l'analisi di set di dati di sequenziamento del DNA affidabile, completo, affidabile e accessibile per gli investigatori senza competenze di bioinformatica, abbiamo sviluppato una suite di programmi software che coprono tutte le fasi dell'analisi.

Questa suite di programmi di software stand-alone che girano su computer desktop include MAPster, profondo e Stat_Maker. MAPster è un'interfaccia grafica che permette che ogni file fastq in coda per la mappatura al genoma utilizzando il programma HISAT27, producendo un file standard. Sam per l'utilizzo in applicazioni a valle. PROFONDO ha diversi moduli. Assegna e conta letture corrispondente al gene particolare simile a una quantificazione di tipo RNA-seq utilizzando il modulo 'Gene Count'. Inoltre estrae le sequenze corrispondenti alla giunzione tra il dominio di transcriptional Gal4 e la sequenza di preda e raccoglie la posizione di tali giunzioni per consentire l'ispezione di tabelle comparative e grafici (utilizzando il modulo 'Junction_Make') Il modulo 'Blast_Query' permette facile ispezione, quantificazione e confronto tra le sequenze di giunzione Gal4 di giunzione. Stat_Maker valuta le letture al gene arricchimento dati statisticamente come un modo di priorità probabile Y2H hits. Qui, descriviamo come utilizzare questi programmi software e completamente analizzare la sequenza di DNA, dei dati da un profondo Y2H sperimentare. Versioni di profondo sono disponibili per l'esecuzione su sistemi PC, Mac e Linux. Altri programmi, ad esempio il programma di mappatura MAPster e il modulo di statistiche di profondo Stat_Maker si basano su subroutine che vengono eseguiti sotto Unix e sono disponibili solo su sistemi Mac e linux.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. mappatura Fastq file

Nota: Profondo software così come molti programmi di bioinformatica è possibile utilizzare dati di sequenza di DNA in cui è stato mappato ogni sequenza leggere per la sua posizione in riferimento del DNA. Una varietà di programmi di mappatura può essere utilizzata per questo, tra cui l'interfaccia di MAPster qui che utilizza il programma di HISTAT2 per produrre file. Sam utilizzati nei passaggi successivi.

  1. Mappare i dati di sequenza alla versione corretta del genoma. Per le librerie Y2H di origine del mouse, usare il genoma di mm10 UCSC; per coloro che utilizzano geni umani, usare il genoma di riferimento di hg38 UCSC, per geni di Saccharomyces cerevisiae , usare il genoma di riferimento UCSC SacCer3.
  2. Installare MAPster.
    1. Scarica il software MAPster e installare. Il software può essere trovato utilizzando un browser web al seguente: https://github.com/emptyewer/MAPster/releases. HISAT2 gira su sistemi basati su Unix come un Apple Macintosh. Per questo motivo, il programma di MAPster verrà eseguito solo su sistemi compatibili come Apple Macintosh e linux.
      Nota: Requisiti di sistema per un Apple Mac sono: OSX 10.10 +, > 4 Gb di RAM, > 500 Gb di spazio su disco e accesso a internet per scaricare il genoma di riferimento. Agli utenti potrebbero essere necessario consultare con un istituzionale persona se loro impresa dispone di protocolli di sicurezza che limita autorizzazioni e diritti di amministratore.
  3. Inserire i file necessari e parametri tramite la scheda "Main" (Figura 1). Selezionare il pulsante "Pairwise" appropriato per inserire file o come coppie o spaiati con FASTQ come il formato di file predefinito.
    1. Per l'analisi del profondo, attivare l'opzione "Pairwise" su "Off" per eseguire in formato di sola lettura.
    2. Caricare i file in MAPster semplicemente con drag-and-drop nella finestra appropriata.
    3. Selezionare un fonte di DNA/genoma che corrisponde all'origine degli inserti Y2H preda biblioteca di riferimento. Genomi indicizzati da diversi organismi di modello sono elencati nella finestra di "Genoma" e possono essere scaricati automaticamente da Johns Hopkins University Center for Computational Biology. Genomi di riferimento saranno conservati localmente per un uso successivo.
    4. Indicare il numero di processi del computer per essere dedicato al programma di mapping sotto la casella di "Discussioni", poiché HISAT2 supporta multi-threading. MAPster sarà cercare il computer e suggerire il numero massimo di processori disponibili per impostazione predefinita.
    5. Specificare un nome di file di output. Questo nome di file verrà utilizzato durante tutto il processo di profondo quindi è consigliato un nome breve ma descrittivo senza spazi o caratteri speciali. Specificare una cartella per i file mappati utilizzando il pulsante "Open Directory di Output" di uscita.
    6. Dopo aver selezionati i file appropriati e parametri, è possibile aggiungere il processo di mapping alla coda lavori utilizzando il pulsante "Aggiungi a coda". I nomi di file nella finestra principale possono essere eliminati e sostituiti con i file corrispondenti a un nuovo campione e possono essere aggiunti alla coda dopo aver fornito un nome di file di output corrispondente.
    7. Una volta che tutti i lavori vengono inseriti nella coda di lavoro, fare clic sul pulsante di "Coda di esecuzione".
      Nota: Una volta un lavoro di mappatura è stato posizionato nella coda, selezionando tale processo fa sì che le impostazioni dei parametri da visualizzare nella finestra "Parametri di lavoro" e l'istruzione di riga di comando con tutti gli argomenti da visualizzare nella finestra "Comando Job". Le opzioni di output includono dirigendo se a tenere letture che non riescono ad allineare e specificando il numero di allineamenti primari ammessi per ogni lettura. Il file di output predefinito da MAPster è nel formato di SAM (ad es. un file '. Sam'). Esso conterrà tutte le letture di sequenza dai file fastq specificato per quel campione compresi quelli che erano (mappato) e non erano (non mappati) correttamente mappate per il geome specificato.

2. Bioinformatic elaborazione utilizzando profondo Software

Nota: Software di profondo attualmente è compilato per l'uso con preda librerie contenenti sequenze di cDNA di mouse, sequenze di cDNA umano o sequenze di DNA genomic di S. cerevisiae . PROFONDO accetta il formato di file standard. Sam e può accettare un file SAM (Sam) contenente letture sia mappate e non mappate o file separati per ogni della legge non mappati e mappate.

  1. Scarica il software di profondo e installare. Il software può essere trovato utilizzando un browser web al seguente: https://github.com/emptyewer/DEEPN/releases. Selezionare quale versione corrisponde la piattaforma informatica e il download. Per installare, aprire il pacchetto di installazione scaricato.
    Nota: Le versioni di profondo sono disponibili per impianti di PC, Mac e Linux. Sistemi Mac e PC dovrebbero avere > 500 Gb di spazio su disco rigido e > 4 Gb di RAM.
  2. Aprire il software di profondo. Dalla finestra principale (Figura 2) selezionare le informazioni della libreria preda corrispondente dalla casella di selezione superiore. Selezionare una cartella dove i file elaborati possono andare facendo clic sul pulsante "Cartella di lavoro" e navigare alla cartella/directory. Se necessario, si può creare una nuova cartella/directory. Una volta selezionata una "cartella di lavoro", profondo creerà tre sottocartelle intitolato unmapped_sam_files, mapped_sam_files e sam_files.
    1. Se utilizzando file. Sam contenenti letture sia mappate e non mappate come quelle prodotte con le impostazioni predefinite del programma MAPster, inserirli nella cartella 'sam_files'. In caso contrario posto. Sam file in unmapped_sam_files e mapped_sam_files di conseguenza.
  3. Avviare elaborazione facendo clic sul pulsante "Gene Count + Junction Make".
    Nota: L'elaborazione inizierà con il modulo di conteggio di Gene che utilizzerà posizioni di mappatura per contare quanti letture corrispondono a ogni gene. Giunzione Make estrarrà quindi sequenze di giunzione (le sequenze fuso direttamente a valle da Gal4-attivazione del dominio) dalle letture e identificarli utilizzando l'algoritmo di Blast. Questo creerà un insieme completo di cartelle raffigurato in Figura 3. Tempo di elaborazione dipende la dimensione e il numero di file di dati di sequenza e velocità di elaborazione del computer utilizzato. Tempi tipici vanno da 12 – 30 h per un set di dati sperimentali di 250 milioni di legge. La procedura di conteggio di Gene e la procedura di Junction_Make può essere avviati singolarmente cliccando il tasto "Gene Count" o il pulsante "Make di giunzione".
  4. Scaricare e installare Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Si tratta di un pacchetto di analisi statistica progettato per i DataSet di profondo che attualmente funziona solo su sistemi Unix Mac.
    1. Aprire Stat_Maker e fare clic sul pulsante "Verifica dell'installazione" (Figura 4). Se si esegue per la prima volta, Stat_Maker installerà automaticamente R, INTACCATURE e Bioconductor tirando queste risorse da internet. Una volta R, INTACCATURE e Bioconductor vengono rilevati, Stat_Maker diventerà attivo e consentono un ulteriore input dell'utente.
    2. Fare clic sul pulsante "Scegli cartella" per passare alla cartella di lavoro che profondo elaborato. Stat_Maker automaticamente trovare e l'elenco dei file per l'analisi statistica nella finestra.
    3. Trascinare e rilasciare i file appropriati dalla finestra di elenco di file sopra in windows il file qui di seguito per ogni set di dati vettoriali ed esca e per ogni condizioni di crescita: non selezionati (suo + media) e selezionato (suo - media). D'importanza, Stat_Maker richiede due campioni di selezionati e set di dati duplicati per vuoto vettore da solo, due campioni di popolazioni non selezionate. Questo dà una stima della variabilità all'interno dell'esperimento.
    4. Fare clic sul pulsante "Esegui". A seconda della velocità del computer, calcolo impiegherà tra 5 – 15 min.
  5. Risultati del riesame dall'output di Stat_Maker, che sono collocati in una nuova sottocartella all'interno della cartella di lavoro principale con l'etichetta "Stat_Maker risultati".
    Nota: I risultati si trovano in un file CSV (valori separati da virgola) che può essere aperto in comune con programmi di calcolo. Stat_Maker di grado hits di gene che sono probabili essere differenzialmente arricchita sulla selezione con l'esca di interesse sopra il vuoto pTEF-GBD (Figura 5). Anche tabulati è la percentuale di letture per ogni set di dati dove l'inserto di gene si trova a Monte, a valle, o all'interno di open reading frame del e se il gene si trova anche all'interno della cornice di lettura corretta traslazionale. Spesso, profondo catturerà robusto Y2H interazioni di un esca con porzioni di un cDNA dato che sono fuori della cornice di lettura corretta della proteina corrispondente o a una porzione del cDNA che è a valle del relativo telaio aperto-lettura corrispondente. Scansione l'output combinato da Stat_Maker semplifica il rilevamento e l'eliminazione di questi colpi irrilevanti.
  6. Per esaminare i dati su ogni potenziale candidato, aprire il software di profondo, selezionare le corrispondenti informazioni di libreria di preda e quindi la corretta cartella di lavoro utilizzando la "cartella di lavoro".
    1. Fare clic sul pulsante "Query Blast". Questo carica una nuova finestra (Figura 6). Nella casella di testo in alto, digitare il nome del gene o il numero di GenBank NM per selezionare il gene candidato di interesse. Questi nomi di gene corrispondano ai nomi elencati nel file di output di StatMaker. Tipo di invio o return, che avvia il recupero del gene di interesse.
    2. Selezionare quali set di dati verranno utilizzate per l'analisi utilizzando i menu "Selezionare Dataset". In genere, questi includono il vettore solo ed esca campioni allevati in condizioni non-selettivo e il campione di esca coltivate in condizioni di selezione. Inizialmente, i set di dati avrà qualche istante per il caricamento, tuttavia, la query successiva dei DataSet stesso con diversi geni andrà rapidamente. Blast_Query verranno visualizzati i punti di fusione lungo la sequenza di interesse e come abbondanti ogni punto di fusione è. Questo può essere visualizzato sia in un formato di tabella utilizzando la scheda "Risultati" o in un formato grafico utilizzando la scheda di "Trama". Questi risultati possono essere esportati in un file CSV facendo clic sul pulsante "Salva CSV" in alto a destra.

3. Verifica dei candidati identificati da profondo

Nota: Lo scopo del profondo e Stat_Maker è per identificare geni candidati che dare una positiva interazione Y2H. Verificare tali interazioni di Y2H può essere fatto utilizzando un formato binario tradizionale di Y2H utilizzando il plasmide esca di interesse accoppiato con il plasmide di dominio 'prey' Gal4-attivazione vuoto come pure accoppiato con il plasmide della preda che trasportano il frammento di gene/cDNA di interesse. Non è possibile isolare il plasmide effettivo di interesse all'interno della miscela di DNA isolato dalla popolazione lievito sottoposta a selezione Y2H. Tuttavia, informaticamente uno può ricostruire quello che è il frammento di gene/cDNA che produce l'interazione Y2H, disegnare primers per 5' e 3' estremità del frammento e amplificare quel frammento dal DNA isolato dalla popolazione lievito. In questa sezione viene descritto come trovare l'estremità 5' e 3' del frammento preda candidato.

  1. Aprire il software di profondo e scegliere i parametri "Selezionare il parametro" e la cartella di lavoro corrispondente al progetto "Seleziona cartella di lavoro". Avviare il modulo di Blast_Query facendo clic sul pulsante "Query Blast".
  2. Digitare il nome del gene di interesse o di sua GenBank "NM" numero nella casella di testo in alto. Selezionare dal menu pull-down il dataset che corrisponde alla popolazione di lieviti selezionati per l'esca di interesse per recuperare la tabella delle posizioni di giunzione sotto la scheda 'Risultati'. Per impostazione predefinita, Blast_Query ordinerà le diverse posizioni secondo la loro abbondanza nel dataset, quantificato mediante il ppm del numero totale di nodi trovati all'interno del database.
    1. Trovare il più abbondante la posizione che è "In ORF" e "nel Frame". Il valore per la posizione corrisponde alla posizione del nucleotide del gene con la sequenza di Riferimento NCBI (numero 'NM') trovata nella casella di testo in alto. Questa sequenza può essere Estratto da GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) o copiata dalla casella di testo inferiore nella finestra Blast_Query.
      Nota: Un esempio può essere trovato nella Figura 6, pannello centrale. Nel dataset centro, i 'risultati' mostrano come la giunzione più abbondante: «Posizione»: 867; '#Junctions': 20033.821; 'Query Start', 1; CDS: In ORF; e 'Frame': nella cornice. Nucleotide 867 della sequenza di Riferimento NCBI GenBank NM_019648 è l'inizio del frammento preda.
  3. Se la Query iniziare è 1, progettare l'estremità 5' del primer per includere il nucleotide corrispondente al numero di posizione ed estendere 25 nucleotidi a valle da quella posizione (Figura 7). Se avviare Query è maggiore di 1, indica che ci sono nucleotidi supplementari tra il dominio di attivazione Gal4 e la sequenza di preda di interesse e che il primer dovrebbe iniziare ulteriore a valle in base al valore di Start Query.
  4. Dalla finestra di profondo fare clic sul pulsante "Lettura profondità" sotto "Analisi dei dati". Una volta aperta la finestra di lettura profondità, digitare il nome di Riferimento NCBI sequenza (NM) numero o gene nella casella di testo in alto. Utilizzare il menu pull-down per selezionare il set di dati pertinenti che contiene il gene arricchito di interesse. Utilizzare la tabella a sinistra e la grafica visualizzata sulla destra per determinare quante letture sono state trovate nei dati che corrispondono al gene di interesse (Figura 7B).
  5. Progettare un primer di estremità 3' che cattura la sequenza del frammento gene calcolato da profondità di lettura. Se l'abbondanza di letture va oltre l'ORF e codone di arresto, progettare il primer in modo che esso comprende il codone di arresto e la regione appena a Monte del codone di arresto. Se le sequenze per il gene di non oltrepassare il codone di stop, è possibile utilizzare la tabella di risultati per trovare la più lontana regione 3' che può essere rilevata e utilizzare questa posizione come il più lontano 3' posizione in cui inserire il primer.
    Nota: Il programma di lettura profondità analizza in intervalli per trovare sequenze corrispondenti specificato gene/cDNA di interesse. Questo aiuta a prevedere dove estremità 5' e 3' del frammento preda più abbondante è per quel gene nel campione. Fluttuazioni nella lettura profondità lungo la lunghezza della sequenza sono normali, come si può vedere nella Figura 7. Se la profondità di lettura è chiaramente passato il codone di stop, indica che il frammento di preda si estende oltre il codone di arresto e così il primer 3' semplicemente può corrispondere la regione intorno al codone di arresto.
  6. Eseguire una reazione di PCR di 50 µ l a gene. Ogni reazione contiene 25 pmoli di ciascun primer forward e reverse, il plasmide preda-biblioteca di corrispondenza (Vedi tabella materiali). Reazioni anche contengano 25 µ l di x PCR ad alta fedeltà 2 Master Mix, 5 µ g di campione di DNA e l'acqua fino a 50 µ l.
    1. Amplificare le reazioni per 25 cicli con tempi di estensione di 3 min a 72 ° C, ricottura temperatura di 55 ° C per 30 s e denaturare a 98 ° C per 10 s. Precede in bicicletta da una denaturazione 30 s a 98 ° C e seguire con un'incubazione di 5 min a 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Mapping dei dati fastq: il primo passo
In praticamente tutte le applicazioni di NGS compreso profondo l'output iniziale è un file di letture brevi sequenze che devono essere mappati dall'allineamento di genomica, trascrittomica, o altro riferimento DNA8. Recentemente, il programma di allineamento di HISAT2 è stato sviluppato che utilizza algoritmi di indicizzazione di state-of-the-art per aumentare drammaticamente la mappatura velocità7,9. HISAT2 viene eseguito in modo efficiente su un computer desktop e può mappa una tipicamente di dimensioni leggere file in pochi minuti. Questo ci ha permesso di avvolgere il HISAT2 in un'interfaccia grafica utente chiamata MAPster in grado di mappare file fastq locale, consentendo agli utenti di evitare di fare affidamento sui cluster di computer remoto ad alte prestazioni che in genere operano con lingua della riga di comando (Figura 1). Caratteristiche importanti di MAPster comprendono la presenza di parametri preimpostati per RNA-seq ed esperimenti di mappatura intero genoma, la capacità di più processi in coda e accedere a un set completo di parametri di HISAT2 facilmente regolabili per utenti esperti e per su misura applicazioni. Al fine di illustrare le funzionalità di MAPster, un file di dati pubblicamente disponibili eHAP cell RNA-seq è stato mappato al riferimento Ensemble GRChg38 genoma più trascrizione del DNA. Il eHAP A11 replicare 1 FASTQ file è stato scaricato da NCBI sequenza lettura archivio e contenuti letture 38,3 milioni. MAPster è stato eseguito su un iMac di Apple con un 3,5 GHz processore Intel Core i7 utilizzando predefinito RNA-seq parametri per il file di lettura spaiato. Il mapping è stato completato in meno di cinque minuti. Il tasso di allineamento globale era 96,6%. Risultati simili si trovano tipici profondo dei DataSet di 15 milioni letture/campione, anche se il tasso di allineamento complessivo è inferiore a causa della presenza della sequenza di vettore dal plasmide di preda Y2H.

Ricerca di colpi di candidato con l'aiuto di Stat_Maker.
Il programma di StatMaker produce un file di excel-visualizzabile che riassume quasi tutte le informazioni pertinenti necessarie per identificare proteine interagenti candidato. Perché Stat_Maker fa uso di subroutine basati su unix, esso verrà eseguito su un Mac (OS10.10 +) ma non il PC. In primo luogo, essa riassume le letture in ppm per ogni gene per controllo vettoriale e popolazioni di esca e inoltre produce una probabilità classifica se l'arricchimento di un gene particolare quando selezionato per Y2H l'interazione con l'esca di interesse è veramente maggiore la arricchimento di quel gene quando selezionato per l'interazione con il controllo vettoriale-only (Figura 5). In secondo luogo, StatMaker esegue i calcoli di modulo BlastQuery su ogni gene valutati e cataloga la percentuale di letture di giunzione che sono nel frame corretto traslazionale e la sequenza di codificazione che sia richiesta per un bonafide biologicamente rilevanti Interactor. Questo output combinato rende possibile ai candidati rapidamente ordinare e filtrare per identificare quelli che possono essere controllati più vicino di BlastQuery. Con questa uscita, uno può ordinare dapprima per quei candidati con il più alto probabily di arricchirsi durante la selezione per l'interazione di Y2H sulla proteina esca di interesse e non quando selezionato per l'interazione sul plasmide vettore da solo. In pratica, troviamo che P > 0,95 funziona bene. Quindi i candidati possono essere classificati per coloro che hanno la maggior parte delle letture giunzione che sono sia nella regione di codificazione e nel telaio della lettura corretta utilizzando una semplice funzione di ordinamento. Qui, i candidati con > 85% di incroci che sono nel frame corretto traslazionale e si trovano sia all'interno di open reading frame/regione (in ORF) di codificazione della proteina o che iniziano appena a Monte del codone di inizio (a Monte). Questo filtro di quest'ultimo Elimina 60 – 80% dei candidati che hanno un valore accettabile di P, producendo un elenco che è molto più biologicamente rilevanti e gestibile per ulteriori controlli.

Il software di profondo.
Il core software profondo fasci diversi moduli computazionali insieme per integrare tutti i passaggi di bioinformatica utilizzando i file SAM. Gene_Count fornisce il numero di letture al gene, eseguendo un calcolo simile a una quantificazione di RNA-seq. Altri programmi che eseguono questo tipo di calcolo potrebbero essere abituati così, tuttavia, il formato di file avrebbe bisogno di essere modificato per essere compatibile con altri moduli di profondo e il programma Stat_Maker. In alternativa, il modulo di Gene_Count poteva essere utilizzato per quantificare RNAseq esperimenti, tuttavia, altri pacchetti integrato con programmi di statistiche specifiche sono stati sviluppati10. Il processo di matching una particolare lettura mappata con relativo corrispondente gene di interesse è stato migliorato dal software iniziale profondo utilizzando una struttura di dati ad albero per l'assegnazione del gene. L'effetto di questa era di accelerare notevolmente la velocità di elaborazione tale che un tipico dataset contenente 10 milioni mappato letture prende 5 – 10 min sul computer desktop con requisiti di sistema minimi. Altre analisi, in particolare l'analisi delle letture di giunzione che si estendono su Gal4-attivazione del dominio e il candidato interagente di interesse, sono indipendenti. Essi sono confezionati con la alogorithm di scoppio che viene eseguito localmente e hanno l'analisi procedure per fascicolare correttamente tutto lo svincolo legge e le loro posizioni per tutti i geni determinati. Uno degli svantaggi del software profondo è che esso fa uso di speciali database formattati che definiscono quali esoni nel genoma di riferimento vengono utilizzati per definire i cDNAs o regioni codificanti e formattato database che specificano la sequenza e inizio traslazionale e fermate di ogni cDNA/geni usati. Abbiamo trovato che era difficile recuperare tutte le informazioni del database che profondo richiede in un formato affidabile che mancava alcuni degli errori spuri che abbiamo incontrato con l'indicizzazione dei geni particolari. Così, abbiamo assemblato nuovi database che abbiamo di qualità controllato e li incorporato nel software profondo per coerenza riferimento interno. Attualmente, mouse, umani e S. cerevisiae Y2H preda librerie sono supportate dai database inclusi purché i file fastq di DNA vengono mappati contro il mm10, hg38 o SacCer3 riferimento database disponibili da UCSC. Y2H librerie da organismi differenti possono essere elaborate da profondo purché database simili sono generati e inseriti nel software profondo. Nel complesso, tuttavia, il self-contained imballaggio di tutti i moduli di profondo, database e altri programmi fare queste analisi bioinformatiche accessibile ai ricercatori a tutti i livelli di competenza.

Figure 1
Figura 1 : Interfaccia di the MAPster. Schermata della finestra principale di MAPster. Le caselle per l'immissione di formati e file necessari sono indicate. Disattivare "Pairwise" (A) per trattare i file sequenza come single-end legge. Il genoma di riferimento è selezionato con il menu "Genoma" barra (B). Il numero di processori utilizzati dal HISAT2 è selezionato con il menu di "Discussioni" (C). Il nuovo nome di campione possa essere digitato nella finestra di testo "Nome file di Output" (D). La directory per i file di output può essere designata in (E). Sotto è una finestra che mostra la coda della singolo-fine di leggere i file. Dopo che il campione è stato aggiunto alla coda, mappatura può essere avviata con il tasto di "Coda di esecuzione" (F). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2 : Interfaccia profondo. Foto dell'interfaccia utente grafica utilizzata per gestire i moduli del profondo. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3 : Completamento dell'elaborazione. Una volta profondo elabora dati, vengono create le seguenti sottocartelle. Questi possono essere controllati, ma processi di downstream richiedono che queste sottocartelle rimangono all'interno della cartella di lavoro principale e che mantengono il loro contenuto e nomi. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4 : Analisi di Stat_Maker. Foto dell'interfaccia grafica utente per Stat_Maker, che è stato caricato con file appropriati per consentire l'elaborazione. Parte superiore mostra la visualizzazione iniziale del Stat_Maker. Una volta la presenza di dati di supporto sottostanti sono stati verificati facendo clic sul pulsante "Verifica dell'installazione" e la cartella di lavoro corretto identificata dopo aver cliccato sul pulsante "Scegli cartella", la GUI diventerà attiva, consentendo per il caricamento dei file. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5 : Estratto dall'output di Stat_Maker. Parte dell'output di Stat_Maker confrontando l'arricchimento dei candidati preda su una proteina di sola esca al vettore da solo (vuoto pTEF-GBD). Viene inoltre illustrata la relativa analisi di se i plasmidi corrispondente al candidato preda contengono il telaio aperto-lettura corretta. Ogni gene valutato ha diversi valori: Base, Vec, esca ed Enr. La 'Base' è la proporzione media delle letture (ppm) sono state osservate per il gene all'interno i 2 set di dati corrispondenti alle popolazioni duplicate contenente solo vettore da solo e coltivate in condizioni di non-selettivi. "Vec" si intende la percentuale media delle letture (ppm) sono state osservate per il gene all'interno i 2 set di dati corrispondenti alle popolazioni duplicate contenente solo vettore da solo e coltivate in condizioni selettive (ad es.-sua). 'Esca' si intende la percentuale di letture (ppm) sono stati osservati per il gene all'interno i 2 set di dati corrispondenti alle 2 popolazioni contenenti il plasmide esca e coltivate in condizioni selettive (ad es.-sua). "Enr" (arricchimenti) è log2 ((Bs/Bn) / (Vs/Vn)) dove b è la legge per esca sotto selezione, Bn è letture per esca sotto non-selezione, Vs è vettore da solo sotto selezione e Vn è vettore da solo sotto selezione. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6 : Visualizzazione di Blast_Query. Output di Blast_Query da 3 diversi punti di vista. Top è la visualizzazione iniziale del Stat_Maker prima che i set di dati del candidato sono selezionati. Il pannello centrale è un esempio di visualizzazione della tabella dati, visualizzazione delle informazioni su un determinato candidato per due diversi set di dati. Parte inferiore mostra un grafico dei dati tabulari, tramando il numero di punti di giunzione particolare lungo il gene/cDNA di interesse. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 7
Figura 7 : Trovare i primer 5' e 3' di amplificare. Spettacoli (A) punto un'ipotetica sequenza e come progettare il 5' oligo per catturare i frame corretto e la fusione tra Gal4-attivazione del dominio e la sequenza di preda di interesse. Nell'esempio 1, la posizione del punto di fusione è al nucleotideth 10 con un inizio di Q di 1. Utilizzando l'offset sopra tavolo, 0 nucleotidi devono essere aggiunti per trovare il 5' posizione del primer iniziale. Il punto di fusione del plasmide preda ricostruito dimostra che il dominio di attivazione Gal4 è fusa direttamente alla preda a nucleotide 10. Nell'esempio 2, avviare la Query è 3, che richiede un offset di 1 nucleotide al fine di catturare il corretto punto di partenza e il telaio dell'inserto preda. Lo schema della preda ricostruito Mostra che ci sono 2 nucleotidi tra il dominio di attivazione Gal4 e la nota posizione dell'inserto preda che deve essere conteggiato. (B) Mostra la finestra di lettura profondità. La casella di testo nella parte superiore viene utilizzato per immettere il numero di sequenza di Riferimento NCBI e menu pull-down sotto 'file. Sam Select' viene utilizzato per selezionare i dati per l'esempio che contiene il gene interagente arricchito se interesse. Profondità di lettura Mostra quante sequenze (asse Y) sono stati trovati nei dati che corrispondono alle posizioni del nucleotide della sequenza di interesse (asse x). Clicca qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La suite di software qui descritta permette completamente elaborare e analizzare dati di sequenziamento del DNA di throughput elevato da un esperimento di profondo. Il primo programma utilizzato è MAPster, che prende le letture di sequenza di DNA nei file fastq standard e mappe loro posizione su un DNA di riferimento per l'elaborazione a valle da tutta una serie di programmi di informatica compreso il software di profondo. L'utilità dell'interfaccia MAPster e la sua capacità di coda processi multipli, di combinare file di input, coveniently nome output file, accoppiati con la velocità del HISAT2 sottostante programma7 che controlla fornisce un mapping di facile da usare strumento per una varietà di applicazioni di là di profondo. MAPster può accedere a diversi parametri del programma HISAT2 che sono adatti per altri tipi di analisi dei dati oltre a profondo. Alcune di queste funzionalità includono parametri preimpostati per RNA-seq e gli esperimenti di mappatura del genoma intero e accedere a un set completo di parametri di HISAT2 facilmente regolabili per utenti esperti e per applicazioni personalizzate. Per esempio, il pulsante di RNA-seq aggiunge formattazione che potrebbe facilitare il montaggio di trascrizione. L'allineamento di blocchi CRISPR pulsante a filo del complemento inverso come sarebbe appropriato per un file di DNA di riferimento derivato da sequenze di RNA di guida. I parametri facoltativi sono trovati in quattro schede denominate, "Input, allineamento, Scoring e Output". Le opzioni di input includono la capacità di modificare i formati di file di input e per specificare le opzioni di base rimozione della lettura. L'allineamento e il punteggio schede includono le opzioni per selezionare un solo filo sul riferimento del DNA e per impostare il gap e mancata corrispondenza sanzioni per i punteggi di allineamento. La capacità di convenientemente in coda più lavori di mappatura, che ciascuna con distinte parametro impostazione dovrebbe fare MAPster di interesse per gli utenti esperti e non esperti, perseguendo le applicazioni complesse di NGS.

I programmi di software profondo e Stat_Maker sono dedicati all'analisi bioinformatica specifici di dati da schermi di batch Y2H. Questo è accessibile a una vasta gamma di investigatori e costituisce un pacchetto di software bioinformatico contigui eseguito attraverso un'interfaccia grafica utente. Questo pacchetto è stato ulteriormente ottimizzato e integrato da sua descrizione originale6 in modo che viene eseguito più velocemente e analisi dei successi del candidato sono snella. Tutti i passaggi di bioinformatica possono essere eseguiti su un computer desktop. Il principale prende del software profondo che questi mappa posizioni per calcolare quanti legge corrispondono a ogni gene formando così la base per come un dato gene è arricchito al momento della selezione. Questo software inoltre trova 'incrocio' sequenze che corrispondono ad l'inserto di interesse è fusa per il dominio di attivazione trascrizionale del plasmide preda ed elabora questi risultati in modo che si possono visualizzare tutte le diverse porzioni di una particolare ORF o cDNA che è sufficiente per l'interazione. Inoltre, fornisce anche informazioni per verificare la struttura di lettura di ogni inserto. Il terzo braccio del software bioinformatico è Stat_Maker, che utilizza il file di output elaborati dal profondo per calcolare la rilevanza statistica degli arricchimenti di gene risultante da interazioni con una proteina esca dato contro il dominio Gal4-DNA-binding vettoriale (da solo vuoto pTEF-GBD). Un recente miglioramento è che Stat_Maker non solo fornisce una statistica classifica di ciascun candidato, ma anche cataloga le informazioni corrispondenti estratte dalle sequenze di giunzione corrispondente, rendendoli disponibili in un unico file, rendendo molto più facile per i ricercatori di indagine e rivedere i risultati.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare

Acknowledgments

Questo lavoro è stato supportato dal National Institutes of Health: R21 NIH EB021870-01A1 e da NSF Research Project Grant: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genetica problema 136 interazione proteina sequenziamento di nuova generazione analisi di sequenza del DNA 2-ibrido del lievito
Informatica analisi dei dati di sequenza da Batch lievito ibrido 2 schermi
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter