Immunology and Infection

ExCYT: Un'interfaccia utente grafica per semplificare l'analisi dei dati Cytometry alto-dimensionali

Published: January 16, 2019 doi: 10.3791/57473

John-William Sidhom^1,2,3, Debebe Theodros^1,2,4, Benjamin Murter^1,2, Jelani C. Zarif^1,2, Sudipto Ganguly^1,2, Drew M. Pardoll^1,2, Alexander Baras^1,2,5

¹The Bloomberg~Kimmel Institute for Cancer Immunotherapy, Johns Hopkins University School of Medicine, ²The Sidney Kimmel Comprehensive Cancer Center, Johns Hopkins University School of Medicine, ³Department of Biomedical Engineering, Johns Hopkins University School of Medicine, ⁴Department of Immunology, Johns Hopkins University School of Medicine, ⁵Department of Pathology, Johns Hopkins University School of Medicine

Summary

ExCYT è una base di MATLAB utente interfaccia grafica (GUI) che consente agli utenti di analizzare i dati di cytometry di flusso tramite comunemente impiegate tecniche analitiche per alto-dimensionali dati compresa la riduzione della dimensionalità via t-SNE, una varietà di manuali e automatiche clustering di metodi, heatmaps e flusso alto-dimensionali romanzo trame.

Abstract

Con l'avvento dei citometri a flusso in grado di misurare un numero crescente di parametri, gli scienziati continuano a sviluppare pannelli più grandi per esplorare fenotipico caratteristiche dei loro campioni cellulari. Tuttavia, questi progressi tecnologici rendimento alto-dimensionali insiemi di dati che sono diventati sempre più difficili da analizzare obiettivamente all'interno dei tradizionali programmi gating basati su manuale. Al fine di meglio analizzare e presentare i dati, gli scienziati collaborano con bioinformatici con competenze in analisi dei dati alto-dimensionali per analizzare i dati di citometria a flusso. Mentre questi metodi hanno dimostrati di essere altamente utile nello studio della citometria a flusso, devono ancora essere incorporato in un pacchetto semplice e facile da usare per gli scienziati che non hanno competenze di programmazione o computazionale. Per soddisfare questa esigenza, abbiamo sviluppato ExCYT, una base di MATLAB utente interfaccia grafica (GUI) che semplifica l'analisi dei dati di cytometry di flusso alto-dimensionali implementando comunemente impiegate tecniche analitiche per l'inclusione di dati alto-dimensionali riduzione di dimensionalità di t-SNE, una varietà di metodi di clustering automatizzati e manuali, heatmaps e flusso alto-dimensionali romanzo trame. ExCYT fornisce inoltre opzioni Gate tradizionali delle popolazioni selezionate di interesse per ulteriore t-SNE e analisi, nonché la possibilità di applicare cancelli direttamente su t-SNE appezzamenti di clustering. Il software offre l'ulteriore vantaggio di lavorare con entrambi compensata o non compensata FCS file. Nel caso in cui è richiesta la compensazione post-acquisizione, l'utente può scegliere di fornire il programma in una directory di singole macchie e un campione senza macchia. Il programma rileva eventi positivi in tutti i canali e utilizza questi dati selezionare per calcolare più obiettivamente la matrice di compensazione. In sintesi, ExCYT fornisce una pipeline di analisi completa per prendere la citometria a flusso di dati sotto forma di file di FCS e consentire qualsiasi individuo, indipendentemente dalla formazione computazionale, di utilizzare i più recenti metodi algoritmici nella comprensione dei propri dati.

Introduction

Progressi in citometria a flusso, nonché l'avvento di massa cytometry ha permesso ai medici e scienziati rapidamente identificare e caratterizzare fenotipicamente biologicamente e clinicamente interessanti campioni con nuovi livelli di risoluzione, creando grande insiemi di dati alto-dimensionali che sono informazioni ricchi¹^,²^,³. Mentre i metodi convenzionali per l'analisi dei dati di cytometry di flusso quali gating manuale sono stati più semplici per gli esperimenti dove ci sono alcuni indicatori che tali marcatori hanno popolazioni visivamente percepibile, questo approccio può non riuscire a generare riproducibilità dei risultati quando l'analisi di insiemi di dati più alto-dimensionali o quelli con marcatori che macchia su uno spettro. Ad esempio, in uno studio multi-istituzionale, dove intra-cellulare (ICS) la macchiatura saggi furono eseguiti per valutare la riproducibilità di quantificazione risposte di cellule T antigene-specifiche, nonostante la buona precisione interlaboratorio, analisi, particolarmente gating, presentare una significativa fonte di variabilità⁴. Inoltre, il processo di gating manualmente popolazione degli interessi, oltre ad essere altamente soggettiva è altamente in termini di tempo e di lavoro ad alta intensità. Tuttavia, il problema di analizzare set di dati di dimensioni elevate in maniera robusta, efficiente e tempestiva non è uno nuovo per la ricerca di scienze. Studi di espressione genica spesso generano insiemi di dati estremamente alto-dimensionali (spesso dell'ordine di centinaia di geni) dove forme manuale di analisi sarebbe semplicemente non fattibile. Al fine di affrontare l'analisi di questi insiemi di dati, c'è stato molto lavoro nello sviluppo di strumenti bioinformatici per analizzare l'espressione genica dei dati⁵. Questi approcci algoritmici appena sono state recentemente adottati nell'analisi di citometria a dati come il numero di parametri è aumentato e hanno dimostrato di essere prezioso per l'analisi di questi insiemi di dati dimensionali alta⁶^,⁷.

Nonostante la generazione e l'applicazione di una varietà di algoritmi e pacchetti software che permettono agli scienziati di applicare questi approcci bioinformatici alto-dimensionali ai loro dati di citometria a flusso, queste tecniche analitiche rimangono ancora in gran parte inutilizzate. Mentre ci può essere una varietà di fattori che hanno limitato l'adozione diffusa di questi approcci per citometria a dati⁸, l'ostacolo principale abbiamo il sospetto in uso di questi approcci dagli scienziati, è una mancanza di conoscenza computazionale. Infatti, molti di questi pacchetti software (cioè, flowCore, flowMeans e OpenCyto) sono scritti per essere implementato in linguaggi di programmazione quali R che ancora richiedono conoscenze di programmazione sostanziali. Pacchetti software come FlowJo hanno trovato il favore fra gli scienziati grazie alla semplicità di utilizzo e 'plug-n-play' natura, nonché la compatibilità con il sistema operativo del PC. Al fine di fornire la varietà di tecniche analitiche accettati e preziosi per la programmazione di sconosciuto scienziato, abbiamo sviluppato ExCYT, un'interfaccia utente grafica (GUI) che può essere facilmente installata su un PC/Mac che tira molte delle più recenti tecniche compresa la riduzione della dimensionalità per visualizzazione intuitiva, una varietà di metodi di clustering citati nella letteratura, con caratteristiche innovative per esplorare l'output di questi algoritmi con trame di alto-dimensionali/cassa d'afflusso heatmaps e romanzo di clustering.

ExCYT è un'interfaccia di utente grafica costruita in MATLAB e pertanto può sia essere eseguito all'interno di MATLAB direttamente o un programma di installazione viene fornito che può essere utilizzato per installare il software su qualsiasi PC/Mac. Il software è disponibile presso https://github.com/sidhomj/ExCYT. Vi presentiamo un protocollo dettagliato su come importare dati, pre-elaborarlo, condurre riduzione di dimensionalità t-SNE, dati del cluster, sorta e filtrare cluster in base alle preferenze dell'utente e visualizzare informazioni sui cluster di interesse via heatmaps e romanzo trame di alto-dimensionali flusso/scatola (Figura 1). Assi in t-SNE trame sono arbitrari e in unità arbitrarie e così come non sempre mostrato nelle figure per semplicità dell'utente dell'interfaccia. La colorazione dei punti dati nel "t-SNE Heatmaps" è dal blu al giallo basato sul segnale del marcatore indicato. In soluzioni di clustering, il colore del punto dati è basato arbitrario il numero di cluster. Tutte le parti del flusso di lavoro possono essere effettuate nel pannello singolo GUI (Figura 2 & tabella 1). Infine, verrà illustrato l'utilizzo di ExCYT sui dati precedentemente pubblicati, esplorare il paesaggio immune di carcinoma renale delle cellule nella letteratura, anche analizzato con metodi simili. Il set di dati campione che abbiamo usato per creare le figure in questo manoscritto unitamente al protocollo sottostante è reperibile in https://premium.cytobank.org/cytobank/projects/875, al momento della registrazione di un account.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. raccolta e preparazione dei dati Cytometry

Inserire tutte le singole macchie in una cartella di se stessi e l'etichetta con il nome di canale (da fluoroforo, non marcatore).

2. pre-elaborazione & importazione dati

Per mettere in pausa o salvare in tutta questa pipeline di analisi, utilizzare il pulsante Salva area di lavoro in basso a sinistra del programma per salvare l'area di lavoro come un '. MAT' file che successivamente possa essere caricati tramite il pulsante di Carico dell'area di lavoro . Non eseguire più istanze del programma alla volta. Pertanto, quando si carica una nuova area di lavoro, assicurarsi di controllare non c'è nessun altra istanza di ExCYT in esecuzione.
Per iniziare la pipeline di analisi, selezionare prima il tipo di citometria (citometria a flusso o citometria di massa – CYTOF), sotto i Parametri di selezione del File selezionato numero di eventi a campione dal file (per questo esempio uso 2.000). Una volta che i dati sono stati importati con successo, una finestra di dialogo pop-up che informa l'utente che i dati sono stati importati correttamente.
Premere il pulsante di Auto-compensazione per condurre un passo opzionale auto-compensazione, come fatto da Bagwell & Adams⁹. Selezionare la directory contenente le singole macchie. Selezionare l'esempio non macchia all'interno del dialogo di interfaccia utente.
1. Posto un cancello laterale/forward-scatter su qualsiasi dei campioni in questa directory che verrà utilizzato per selezionare gli eventi per calcolare la matrice di compensazione. Si consiglia di utilizzare il sample non macchia per questo scopo. A questo punto, è stato implementato un algoritmo per impostare soglie coerente presso il 99^° percentile del campione non macchia per definire eventi positivi in ciascuna delle singole macchie per calcolare la matrice di compensazione. Quando questo è finito, una finestra di dialogo informerà l'utente che è stata eseguita la compensazione.
Successivamente, premere Gate popolazione e selezionare le popolazioni delle cellule di interesse, in quanto è la convenzione nel flusso cytometry analisi. Quando è selezionata la popolazione delle celle, immettere il numero di percentuale di eventi analisi a valle (in questa 10.000 eventi).
Successivamente, selezionare il numero di canali da utilizzare per l'analisi nella casella di riepilogo a destra della casella di pre-elaborazione (utilizzare gli specifici canali illustrati nell'esempio).

3. t-SNE analisi

Premere il pulsante t-SNE per avere il programma inizia inizio per calcolare il set di dati ridotta dimensionalità per la visualizzazione nella finestra sotto il pulsante t-SNE. Per salvare l'immagine di t-SNE, premere Salva immagine TSNE. Su un computer con 8 CPU @ 3.4 GHz ogni e GM 8 RAM questo passo dovrebbe prendere circa 2 minuti per 10.000 eventi, 10 minuti per 50.000 eventi e a 20 minuti per 100.000 eventi.
Per creare un heatmap ' t-SNE', come si è visto in parecchi CYTOF pubblicazioni¹⁰^,¹¹, selezionare un'opzione dal menu a comparsa Indicatore specifico t-SNE (utilizzare i marcatori specifici CD64 o CD3, come illustrato nell'esempio). Una figura si aprirà mostrando una rappresentazione heatmap della trama t-SNE che possa essere salvata per la generazione di figura.
Seleziona le aree di interesse per le trame di t-SNE dall'utente per ulteriori analisi successive utilizzando il pulsante Cancello t-SNE .

4. cluster Analysis

Per iniziare l'analisi di clustering, selezionare un'opzione nella casella di riepilogo Metodo di Clustering (in questo esempio ci DBSCAN con un fattore distanza 5 nel dialogo casella a destra del controllo listbox). Premere il pulsante di Cluster .
Per automatizzato algoritmi di clustering trovati nel pannello 'Parametri di Clustering automatizzato', utilizzare uno delle seguenti opzioni:
1. Hard KMEANS (il t-SNE): applicare k-means clustering di dati ridotta 2-dimensionale t-SNE e richiede il numero di cluster devono essere fornite per l' algoritmo¹².
2. Hard KMEANS (su dati HD): applicare k-means clustering per i dati originali di alto-dimensionali che è stato dato all'algoritmo t-SNE. Ancora una volta, il numero di cluster deve essere fornito per l'algoritmo.
3. DBSCAN: Applicare il metodo di clustering di clustering, chiamato Density-Based Spatial Clustering di applicazioni con rumore¹³ cluster i dati ridotta 2-dimensionale t-SNE e che richiede un fattore adimensionale distanza che determina la dimensione generale della cluster. Questo tipo di algoritmo di clustering è adatto a cluster la riduzione di t-SNE come è in grado di cluster di cluster non sferoidale che sono spesso presenti nella rappresentazione ridotta t-SNE. Inoltre, dovuto al fatto che opera sui dati 2-dimensionale, è uno degli algoritmi di clustering più velocemente.
4. Clustering gerarchico: Applicare il metodo convenzionale di clustering gerarchico ai dati alto-dimensionali dove viene calcolata la matrice di intera distanza euclidea tra tutti gli eventi prima di fornire l'algoritmo un fattore distanza che imposta la dimensione del cluster.
5. Grafico della rete- Base: Applicare un metodo di clustering che più recentemente è stato introdotto in analisi dati di citometria a flusso, quando esistono sottopopolazioni rare che l'utente desidera rilevare¹¹^,¹⁴. Questo metodo si basa sulla prima creazione di un grafico che determina le connessioni tra tutti gli eventi nei dati. Questo passaggio consiste nel fornire un parametro iniziale per creare il grafico, che è il numero di k-nearest vicini. Questo parametro determina generalmente le dimensioni dei cluster. A questo punto, un'altra finestra di dialogo si apre chiedendo all'utente di utilizzare uno dei 5 algoritmi di clustering che viene applicato al grafico. Questi includono 3 opzioni per massimizzare la modularità del grafico, il metodo di Danon e una spettrale clustering algoritmo¹⁴^,¹⁵^,¹⁶^,¹⁷^,¹⁸. Se uno vuole una soluzione di clustering generalmente più veloce, si consiglia di Spectral Clustering o la veloce massimizzazione avidi di modularità. Mentre i metodi di massimizzazione di modularità con il metodo di Danon determinano il numero ottimo di cluster, Spectral Clustering richiede il numero di cluster da attribuire al programma.
6. Autorganizzato mappa: Impiegare una rete neurale artificiale al cluster i dati alto-dimensionali.
7. GMM – Expectation Maximization: creare un modello di miscela gaussiana con tecnica Expectation Maximization (EM) per i dati di alto-dimensionali del cluster. ¹⁹ questo tipo di metodo di clustering richiede inoltre all'utente di inserire il numero di cluster.
8. Inferenza bayesiana variazionali per GMM: creare un modello gaussiano di miscela, ma a differenza di EM, esso può determinare automaticamente il numero della miscela componenti k.²⁰ mentre il programma richiede un numero di cluster da attribuire (più grande il previsto numero di cluster), l'algoritmo determina il numero ottimale sul proprio.
Per studiare una particolare area della trama t-SNE, premere il pulsante Seleziona manualmente il Cluster per disegnare una serie di cluster definito dall'utente. Di nota, i cluster non possono condividere membri (vale a dire, ogni evento può appartenere solo a 1 cluster).

5. cluster filtrazione

Set di cluster identificato sia manualmente o tramite uno dei metodi automatici descritti sopra possono essere filtraggio tramite come segue.
1. Per ordinare i cluster (nel pannello Filtro Cluster ) da uno qualsiasi degli indicatori misurati nell'esperimento, selezionare un'opzione dal menu a comparsa tipo . Per impostare se l'ordine è crescente o decrescente, premere il pulsante di Crescente/decrescente a destra del menu a comparsa tipo . Questo aggiornamento elenco dei cluster nella casella di riepilogo 'Cluster (filtrazione)' e cambiarne l'ordine in ordine decrescente di espressione mediana cluster di tale marcatore. La percentuale indicata nella casella di riepilogo 'Cluster (filtrazione)' indica la percentuale della popolazione che rappresenta questo cluster.
2. Per impostare un valore di soglia minima per un determinato cluster attraverso un canale, selezionare un'opzione dal menu a comparsa di soglia (in questo esempio noi il marcatore CD65 e impostare una soglia a 0,75). Digitare un valore nella casella numerica sotto il grafico oppure utilizzare la barra di scorrimento per impostare una soglia. Una volta che la soglia è impostata, premere Aggiungi sopra soglia o Aggiungi sotto soglia per specificare la direzione di soglia. Una volta che questa soglia è stata impostata, sarà elencato nella casella soglie accanto al pannello 'Cluster Filter' dove il marcatore, il valore di soglia e la direzione saranno elencati così l'utente è a conoscenza di quali soglie attualmente applicate. Infine, la trama di t-SNE aggiornerà sfocando fuori mazzi che non soddisfano i requisiti della filtrazione e 'Cluster (filtrazione)' listbox verrà aggiornato per visualizzare i cluster che soddisfano i requisiti di filtrazione.
3. Per impostare una soglia minima per la frequenza di un cluster, immettere un valore di soglia numerica della Soglia di frequenza di Cluster (%) casella nel pannello filtro Cluster (in questo esempio uso 1%).

6. cluster Analysis & visualizzazione

Per selezionare i cluster per ulteriori analisi e visualizzazione, selezionare cluster In cluster (filtrazione) listbox e premere il pulsante di à selezionare per spostarli al controllo listbox Cluster analizzare .
Per creare heatmaps dei cluster, selezionare i gruppi di interesse nella casella di riepilogo Cluster analizzare e premere il pulsante HeatMap dei cluster . Quando viene premuto questo pulsante, una figura pop-up contenente una mappa di calore insieme dendrogrammi sugli assi cluster e parametro. Il dendrogramma sull'asse verticale verrà raggruppati in cluster da coloro che sono strettamente correlati mentre il dendrogramma sull'orizzontale asse raggrupperà marcatori che sono co-associati. Per salvare heatmap, premere File | Installazione di esportazione | Esportare.
Per creare un 'Alta dimensionale Box Plot' o 'High Dimensional flusso Plot', selezionare i gruppi di interesse nella casella di riepilogo Cluster analizzare e premere il pulsante Alta dimensionale Box Plot o il pulsante Alto flusso dimensionale Plot . Queste trame possono essere utilizzate per valutare visivamente la distribuzione del dato canali dei vari cluster in tutte le dimensioni.
Per visualizzare i cluster in diagrammi di flusso 2D tradizionale, selezionare la trasformazione (lineare, log10, arcsinh) e canale il Plot di flusso convenzionale pannello e premere flusso convenzionale Plot.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Al fine di testare l'usabilità di ExCYT, abbiamo analizzato un set di dati a cura pubblicato da Chevrier et al. , intitolato 'An Immune Atlas di chiaro Carcinoma delle cellule renali' dove il gruppo ha condotto analisi CyTOF con un vasto pannello immune su campioni di tumore prelevati da 73 pazienti¹¹. Due pannelli separati, un pannello mieloide e linfoide, sono stati usati per caratterizzare fenotipicamente il microambiente tumorale. L'obiettivo del nostro studio era di ricapitolare i risultati delle loro t-SNE e cluster analysis, mostrando che ExCYT potrebbe essere utilizzato per venire alle stesse conclusioni, oltre a mostrare ulteriori metodi di visualizzazione e cluster di analisi.

Nel manoscritto originale, il gruppo descritto 22 aggregati di cellule T identificati dal pannello linfoide e 17 mazzi delle cellule identificate dal pannello mieloide. In Figura 3 e Figura 4 della pubblicazione, il gruppo Mostra heatmaps dei cluster, t-SNE Piazzole con soluzioni di clustering con codifica a colori e t-SNE heatmaps nei sottopannelli A, B e C. Al fine di eseguire l'analisi, abbiamo ottenuto i dati manualmente gestiti da Cytobank e campionamento 2.000 eventi da ogni file o ha preso l'intero file se avesse meno di 2.000 eventi, seguendo la pipeline di analisi illustrata nel manoscritto originale. A questo punto, abbiamo provato un totale di 100.000 eventi tramite il nostro parametro di sottocampionamento post-gating, condotto analisi t-SNE e usato una varietà di metodi di clustering per esplorare i dati in vari modi.

In primo luogo, abbiamo esaminato il pannello mieloide seguendo la stessa pipeline di analisi come il manoscritto originale completando l'analisi t-SNE e creazione heatmaps dei vari marcatori (Figura 3A). Mentre il manoscritto originale ha normalizzato il t-SNE heatmaps per il 99^° percentile di ogni segno, ExCYT non fa questo tipo di normalizzazione per sua heatmaps. Tuttavia, simili distribuzioni di co-espressione di marcatori sono stati osservati come descritto nel manoscritto originale. Abbiamo poi applicato un metodo basato su Network Graph di clustering di dati creando il grafico con i vicini per il k-nearest 100 e il grafico di clustering tramite ottimizzazione la modularità del grafico utilizzando il Fast-Greedy implementazione all'interno di ExCYT, dove abbiamo trovato 19 sottopopolazioni di cellule (Figura 3B). Quando confrontando l'heatmap di questi cluster creato da ExCYT con l'heatmap pubblicato nel manoscritto originale, abbiamo notato che eravamo in grado di identificare i cluster simili delle cellule mieloidi (Figura 3). Della nota, il manoscritto originale identificato e contrapposto due sottopopolazioni di cellule mieloidi che abbiamo identificato nella nostra analisi definita da HLA-DR^intCD68^intCD64^intCD36⁺CD11b⁺ (Cluster 13) e HLA-DR⁺CD4⁺CD68⁺CD64⁺CD36 CD11b^–^– (Cluster 18). Visualizzazione di alto-dimensionali box-plot di queste due popolazioni ha rivelato differenze statisticamente significative (Mann-Whitney) in sei indicatori menzionati (Figura 1).

Successivamente, abbiamo analizzato il pannello linfoide con un approccio più convenzionale e più velocemente gerarchico clustering. Questo approccio ha reso distribuzioni simili marcatore via t-SNE heatmaps (Figura 4A). Clustering di dati via gerarchica clustering (Figura 4B), inoltre, ha dimostrato simili aggregati di cellule linfoidi (Figura 4). Di nota, abbiamo anche identificato la popolazione cellulare T regolamentazione unica dal manoscritto originale definita come CD4⁺CD25⁺Foxp3⁺⁺CD127 CTLA-4^– (Cluster 17) tramite la nostra trama di flusso alto-dimensionali (Figura 4).

Infine, abbiamo voluto impiegare un metodo all'interno di ExCYT rapidamente e quantitativamente valutare co-associazioni tra i marcatori. Abbiamo iniziato utilizzando un algoritmo di clustering k-means difficile stabilire 5.000 cluster sui dati bidimensionali t-SNE (Figura 4E). Allora abbiamo usato l'espressione mediana di tutti i marcatori di tutti i questi cluster per creare una mappa di concentrazione da questi cluster (Figura 4F). Poiché questi heatmaps cluster righe così come le colonne che sono simili, questo metodo di astrarre i dati applicando una maglia fine dei cluster e quindi la creazione di una mappa di concentrazione permette di raccogliere le co-associazioni facilmente, come ad esempio co-l'associazione di Tim-3, PD-1, CD38, e 4-1BB.

Figura 1: caratteristiche & ExCYT Pipeline. (A) ExCYT inizia l'importazione di dati grezzi di FCS, applicando compensazione opzionale, gating e sottocampionamento casuale prima dell'analisi a valle. In questo modo tutti gli eventi analizzati sono rilevanti per l'esperimento analizzato. riduzione di dimensionalità t-SNE viene quindi eseguita per visualizzare tutti gli eventi e t-SNE heatmaps possono essere generati per visualizzare distribuzioni fenotipiche. Infine, una varietà di algoritmi di clustering può essere applicata su alto-dimensionali dati grezzi o di trasformazione t-SNE. (B) caratteristiche di ordinamento e soglia romanzo consentono agli utenti di ordinare rapidamente attraverso forse centinaia di cluster per trovare quelli di interesse. (C) Heatmaps dei cluster possono essere creati per esaminare come più cluster confrontare a vicenda così come quali marcatori co-associano. (D) romanzo alto-dimensionali flusso/box trame possono essere generati come una forma di retro-gating cluster su dati originali pur apprezzando la natura alto-dimensionali dei dati. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2: interfaccia utente grafica ExCYT: Il ExCYT permette di interfaccia utente grafica per una semplificata lavoro flusso lavorare da sinistra a destra del pannello come l'utente importa i loro dati, conduce riduzione di dimensionalità t-SNE, clustering, cluster finale analisi e visualizzazione. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3: Ricapitolazione delle sottopopolazioni mieloidi da Chevrier et al. (A) Token t-SNE heatmaps trama mieloide pannello (B) t-SNE di colore del pannello mieloide codificati da algoritmo di clustering Network-Graph (C) Heatmap dei cluster identificato dalla soluzione di clustering sul pannello mieloide (D) comparativa alta dimensionale box-plot confrontando a contrasto in sottopopolazioni mieloidi (cluster 13 & 18) a cui fa riferimento nel manoscritto originale Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4: Ricapitolazione delle sottopopolazioni linfoidi da Chevrier et al. (A) Token t-SNE heatmaps trama linfoide pannello (B) t-SNE di colore del pannello linfoide codificati da algoritmo di clustering gerarchico (C) Heatmap dei cluster identificato dalla soluzione di clustering sul flusso dimensionale alta di pannello linfoide (D) trama della cellula T regolatrice identificati popolazione (Cluster 17) nel manoscritto originale (E) soluzione di Clustering di 5.000 cluster duro k-medie analisi sui dati t-SNE Heatmap (F) di cluster identificato dalla soluzione di clustering k-medie su linfoide co-le associazioni di indicatore che Mostra pannello. Clicca qui per visualizzare una versione più grande di questa figura.

Lol	Descrizione	Nome (in GUI)
1	Selezionare il tipo di citometria	NA
2	Sottocampionamento casuale di dati grezzi	NA
3	Selezionare i file per l'analisi	Seleziona i file
4	Auto-compensazione dei dati grezzi basati sulla directory di singole macchie fornito al software	Auto-compensazione
5	Gating per selezionare gli eventi per t-SNE e analisi di clustering	Popolazione di cancello
6	Sottocampionamento casuale di gated dati (numero assoluto)	NA
7	Sottocampionamento casuale di gated dati (per cento della popolazione con cancello)	NA
8	Selezionare i canali per l'analisi	NA
9	Eseguire la riduzione di dimensionalità t-SNE	t-SNE
10	t-SNE finestra	NA
11	Salva area di lavoro	Salva area di lavoro
12	Carico dell'area di lavoro	Carico dell'area di lavoro
13	Creare t-SNE heatmap sul marcatore di selezione	NA
14	T-SNE del cancello per ri-fare analisi t-SNE della popolazione seleziona	Porta t-SNE
15	T-SNE finestra Salva come immagine	Salva immagine TSNE
16	Selezionare l'algoritmo di Clustering	Metodo di clustering
17	Immettere il parametro Clustering per dato algoritmo	NA
18	Analisi dei cluster	Cluster
19	Disegnare i cluster manualmente	Selezionare Cluster manualmente
20	Cancella tutti i cluster di rifare le analisi dei cluster	Deselezionare i cluster
21	Visualizza i cluster nelle attuali condizioni di filtro	Cluster (filtrazione)
22	Rimuovere selezionare cluster dal Cluster analizzare listbox	Rimuovere <...
23	Aggiungere cluster a Cluster analizzare listbox	Seleziona-->
24	Creare heatmap convenzionale di tutti gli eventi in analisi	Mappa di concentrazione di eventi
25	Cluster di sorta di selezionare indicatore	Ordinamento
26	Soglia impostata dal marcatore di selezione	Soglia
27	Creare heatmap convenzionale di selezionare cluster dal Cluster analizzare listbox	HeatMap dei cluster
28	Ordine di tipo di vibrazione	Crescente/decrescente
29	Deselezionare tutte le soglie	Deselezionare tutte le soglie
30	Soglia di frequenza impostata per i cluster	Soglia di frequenza di cluster (%)
31	Elenco delle attuali soglie attive su listbox 'Cluster (filtrazione)'	Soglie
32	Alta dimensionale Box-Plot	Alta dimensionale Box-Plot
33	Ad alto flusso dimensionale trama	Ad alto flusso dimensionale trama
34	Parametro di asse orizzontale per trama di flusso convenzionale	NA
35	Parametro di asse verticale per trama di flusso convenzionale	NA
36	Trasformazione di dati per flusso convenzionale trama sull'asse orizzontale	NA
37	Trasformazione di dati per flusso convenzionale trama sull'asse verticale	NA
38	Creare il diagramma di flusso convenzionale	Diagramma di flusso convenzionale
39	Visualizza i cluster per l'analisi	NA

Tabella 1: Panoramica di tutte le funzioni presenti in ExCYT GUI

Nome del pacchetto di Software	ExCYT	CYT	FCS Express	flowCore	openCyto	FlowMeans
Tipo di programma	MATLAB	MATLAB	Applicazione stand-alone	R	R	R
Prezzo per utente	Gratis	Gratis	$1.000	Gratis	Gratis	Gratis
Interfaccia utente grafica	Sì	Sì	Sì	No	No	No
Tecniche di riduzione della dimensionalità	t-SNE	t-SNE, PCA	t-SNE, PCA, vanga	nessuno	nessuno	nessuno
Algoritmi di clustering	K-Means DBSCAN Clustering gerarchico Mappa auto-organizzato Multiple Network-grafico basato su metodi GMM - EM GMM - variazionali inferenza bayesiana	K-Means GMM - EM Singolo rete-grafico basato su metodo (Phenograph)	K-Means	nessuno	automazione del flusso di lavoro di colata manuale	K-Means
Capacità di ordinamento/filtro cluster	Sì	No	No	No	No	No
Ad alto flusso dimensionale trame	Sì	No	No	No	No	No

Tabella 2: Panoramica delle soluzioni di analisi di citometria a flusso Software-assistita

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Qui vi presentiamo ExCYT, un'interfaccia di utente grafica romanzo che esegue algoritmi basati su MATLAB, per semplificare l'analisi dei dati di alto-dimensionali cytometry, permettendo che gli individui senza sfondo di programmazione per implementare le ultime in alto-dimensionali dati algoritmi di analisi. La disponibilità di questo software per la più ampia comunità scientifica permetterà agli scienziati di esplorare i dati di cytometry di flusso in un flusso di lavoro intuitivo e semplice. Attraverso lo svolgimento di riduzione di dimensionalità t-SNE, applicando un metodo di clustering, essendo in grado di ordinamento/filtro attraverso questi cluster rapidamente e fare heatmaps flessibile, personalizzabile e alto-dimensionali/cassa d'afflusso piazzole, gli scienziati saranno in grado non solo capire le sottopopolazioni in modo univoco definite nei loro campioni, ma sarà in grado di creare effetti grafici che sono intuitivi e facilmente comprensibili dai loro colleghi.

Mentre il programma è flessibile nella gestione di una varietà di tipi di dati (citometria a flusso convenzionale vs cytometry massa), esistono alcune considerazioni per utilità ottimale del programma. Il primo di questi è per quanto riguarda la qualità dei dati, in particolare dei dati di citometria a flusso. Un compenso appropriato e risoluzione di sovrapposizione di spettri di emissione è di fondamentale importanza. Dati scarsamente compensati inavvertitamente possono portare a false co-associazioni di marcatori e formazione di cluster che non sono di vero significato biologico. Di conseguenza, è altamente consigliabile che i dati di input sono di qualità del suono prima di procedere con l'analisi di t-SNE e ulteriori analisi a valle. Utilizzo dell'algoritmo di compensazione automatica implementata in ExCYT prevede inoltre che le macchie chiare singole per tutti i canali al fine di calcolare con precisione i parametri di compensazione.

Un'altra considerazione importante per l'uso di ExCYT è quando la concatenazione di più file di FCS in uno analisi (come dimostrato in questo manoscritto), devono essere comparabili attraverso tutti i canali. In primo luogo, ciò significa che il pannello stesso deve essere utilizzato in tutti i campioni e che non esiste nessuna deriva tra i campioni in tutti i canali. Ad esempio, se si dovesse leggere due campioni in giorni separati e CD8 macchiato in FITC su entrambi i giorni ma la tensione del citometro è stato impostato in modo diverso su un giorno in una popolazione di CD8 leggermente spostata, uno potrebbe generare false cluster nell'analisi a valle , come questo cambiamento è stato generato in funzione della variazione di strumento e non a causa del significato biologico. Mentre le versioni future di ExCYT possono essere in grado di normalizzare i campioni alle loro singole macchie, a questo punto, attenta considerazione deve essere fatto che file FCS possono essere paragonati a vicenda prima di importarli in ExCYT.

Infine, il processo di clustering non è uno che è assoluto/rigida. Parametri e diversi algoritmi di clustering possono generare diverse soluzioni di clustering. Se la soluzione dell'algoritmo è appropriata è per l'utente determinare mediante la sintesi di loro comprensione della biologia con la soluzione di clustering. Ad esempio, quando la comprensione dell'ambiente immune dei tumori, uno può essere interessato a cluster macroscopico (cioè, T cellule vs B cellule vs cellule mieloidi) mentre un altro potrebbe essere interessato in sottopopolazioni di cluster macroscopica. La risoluzione dei cluster è determinata dall'utente e di conseguenza, nessun singolo soluzione di clustering è 'corretto'. Questo è uno dei principali vantaggi di utilizzare le trame di alto flusso dimensionale disponibile in ExCYT. La possibilità di visualizzare la distribuzione di un determinato cluster attraverso tutti i canali può aiutare l'utente a determinare se essi sono raggruppati in un biologicamente rilevante non solo modo ma in un modo che è rilevante per la domanda scientifica nell'esperimento. Mentre il nostro obiettivo è quello di fornire una pletora di metodi utilizzati in letteratura per dati di citometria a flusso alto-dimensionali di cluster, fornendo ulteriori metodi di clustering, si consiglia di utilizzare metodi come k-means e DBSCAN per esplorare rapidamente i dati tramite rielaborare il numero di cluster e la dimensione e la mossa verso rete-grafico e approcci gaussiana-misto modello per approcci più robusti ma richiede più tempo.

Tenuto conto di queste considerazioni, è ancora uno strumento altamente flessibile e prezioso per esplorare dati cytometry dimensionale ad alta ExCYT e offre caratteristiche uniche/differenziazione rispetto ad altri pacchetti disponibili per condurre questo tipo di analisi (tabella 2) . In primo luogo, ExCYT si differenzia negli approcci di analisi di citometria a flusso più utilizzando la riduzione della dimensionalità e algoritmi di clustering dalla sua capacità di essere utilizzato senza alcuna conoscenza di scripting/programmazione. Inoltre, mediante l'aggregazione di molti algoritmi di clustering citati in tutta la letteratura, crediamo che mettiamo a disposizione la maggior parte delle opzioni per il clustering di dati. Infine, la nostra caratteristica unica di filtrazione di cluster e ordinamento insieme display tramite romanzo ad alto flusso dimensionale trame, consente agli utenti di esplorare le caratteristiche dei loro raggruppamenti, rapido ed efficiente, rendendo il processo di 'scoprire' rara sottopopolazioni semplice ed efficiente.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare.

Acknowledgments

Gli autori non hanno nessun ringraziamenti.

Materials

Name	Company	Catalog Number	Comments
Desktop	SuperMicro	Custom Build	Computer used to run analysis
MATLAB	Mathworks	N/A	Software used to develop ExCYT

DOWNLOAD MATERIALS LIST

References

Benoist, C., Hacohen, N. Flow cytometry, amped up. Science. 332 (6030), 677-678 (2011).
Ornatsky, O., et al. Highly multiparametric analysis by mass cytometry. Journal of immunological methods. 361 (1), 1-20 (2010).
Tanner, S. D., et al. Flow cytometer with mass spectrometer detection for massively multiplexed single-cell biomarker assay. Pure and Applied Chemistry. 80 (12), 2627-2641 (2008).
Maecker, H. T., et al. Standardization of cytokine flow cytometry assays. BMC immunology. 6 (1), 13 (2005).
Brazma, A., Vilo, J. Gene expression data analysis. FEBS letters. 480 (1), 17-24 (2000).
Pyne, S., et al. Automated high-dimensional flow cytometric data analysis. Proceedings of the National Academy of Sciences. 106 (21), 8519-8524 (2009).
Ge, Y., Sealfon, S. C. flowPeaks: a fast unsupervised clustering for flow cytometry data via K-means and density peak finding. Bioinformatics. 28 (15), 2052-2058 (2012).
Venkatesh, V. Determinants of perceived ease of use: Integrating control, intrinsic motivation, and emotion into the technology acceptance model. Information systems research. 11 (4), 342-365 (2000).
Bagwell, C. B., Adams, E. G. Fluorescence spectral overlap compensation for any number of flow cytometry parameters. Annals of the New York Academy of Sciences. 677 (1), 167-184 (1993).
Lavin, Y., et al. Innate immune landscape in early lung adenocarcinoma by paired single-cell analyses. Cell. 169 (4), 750-765 (2017).
Chevrier, S., et al. An immune atlas of clear cell renal cell carcinoma. Cell. 169 (4), 736-749 (2017).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Ester, M., Kriegel, H. P., Sander, J., Xu, X. Density-based spatial clustering of applications with noise. International Conference Knowledge Discovery and Data Mining. 240, (1996).
Levine, J. H., et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis. Cell. 162 (1), 184-197 (2015).
Blondel, V. D., Guillaume, J. L., Lambiotte, R., Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment. 2008 (10), P10008 (2008).
Le Martelot, E., Hankin, C. Fast multi-scale detection of relevant communities in large-scale networks. The Computer Journal. 56 (9), 1136-1150 (2013).
Newman, M. E. Fast algorithm for detecting community structure in networks. Physical review E. 69 (6), 066133 (2004).
Hespanha, J. P. An efficient matlab algorithm for graph partitioning. , University of California. 1-8 (2004).
Moon, T. K. The expectation-maximization algorithm. IEEE Signal processing. 13 (6), 47-60 (1996).
Bishop, C. M. Pattern recognition and machine learning. , Springer. (2006).

Immunology and Infection

ExCYT: Un'interfaccia utente grafica per semplificare l'analisi dei dati Cytometry alto-dimensionali

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.