January 2nd, 2011
Visual analytics (VA) è un nuovo approccio di analisi dei dati in modo interattivo. In questo video si discute il problema di sovraccarico di dati causata da esperimenti biologici high-throughput, VA e proporre come soluzione a tale problema. Il video mostra l'analisi all'interno e tra le serie di dati immunologici usando uno strumento chiamato Tableau VA.
Facilitare l'analisi dei dati immunologici con tecniche di analisi visiva. Mentre la capacità di raccogliere e archiviare i dati è progredita rapidamente, la capacità di elaborarli e analizzarli e in confronto ha fatto pochi progressi. Di conseguenza, nei laboratori biomedici esistono spesso grandi set di dati, che non vengono analizzati in modo efficace o efficiente.
Con ciò, le informazioni potenzialmente ricche e potenti si perdono nell'abisso dei sistemi di archiviazione. L'analisi visiva o VA è emersa come un nuovo modo per analizzare grandi set di dati complessi. Le tecniche VA si basano su visualizzazioni che consentono agli analisti di utilizzare la loro intelligenza visiva per individuare modelli nei dati come tendenze generali o valori anomali.
Queste visualizzazioni rapide consentono una rapida formazione di ipotesi durante l'esplorazione dei dati. La flessibilità degli strumenti VA consente all'analista di ingrandire, approfondire e creare connessioni tra più set di dati, esplorando al contempo le loro relazioni. Attraverso l'applicazione di VA a fonti di dati integrate, l'utente può rivelare nuove e importanti scoperte.
L'analisi parentale è un approccio VA in cui un esperto di strumenti VA e un tecnico, noto anche come esperto di dominio, lavorano insieme in modo che l'esperto di dominio ponga domande biologicamente rilevanti sui dati. L'esperto di strumenti VA crea quindi visualizzazioni che possono aiutare a rivelare modelli che aiutano a rispondere a questa domanda o portare a ulteriori esplorazioni. Questo processo può essere ripetuto per creare diverse visualizzazioni che forniscono informazioni dettagliate.
Abbiamo deciso di testare l'idoneità di un approccio VA di analisi accoppiata a un ampio set di dati biomedici complessi. Negli esperimenti pilota preliminari, abbiamo valutato diversi strumenti VA esistenti per il problema attuale. Abbiamo scelto il software Tableau by Tableau come lo strumento più adatto all'attività da svolgere.
I criteri di selezione in questi esperimenti pilota si sono basati su parametri soggettivi come la facilità d'uso, l'usabilità complessiva, nonché su caratteristiche tecniche oggettive come una serie di tecniche di interazione e funzionalità di visualizzazione. Abbiamo qui un insieme di dati in un foglio di calcolo Microsoft Excel tipico di un laboratorio che lavora nel campo delle malattie infettive. Questo set contiene i dati identificativi del soggetto sulla variazione delle sequenze genetiche di DNA.
In questo caso NF kappa BIA polimorfismi a singolo nucleotide o SNS per il soggetto, così come la concentrazione osservata di diverse molecole biologiche in questo caso, citochine prodotte dalle cellule immunitarie del soggetto dopo la stimolazione delle cellule immunitarie con stimoli specifici. Scorreremo ora verso il basso fino al foglio di calcolo. Per darvi un'idea del volume di questo set di dati, siamo interessati a scoprire se esiste una relazione generale tra il genotipo, cioè i diversi snips, in questo caso, del gene NF Kappa BIA, e la risposta delle citochine osservata.
Dopo la stimolazione, ora collegheremo il set di dati con Tableau, assicurandoci di importare la tabella BIA NF kappa. Sul lato sinistro puoi vedere che Tableau è collegato alla tabella corretta e ha separato automaticamente le variabili di colonna in ciò che Tableau chiama, dimensioni e misura. Le dimensioni sono semplicemente le colonne che categorizzano i dati e misurano i valori quantitativi in tale colonna.
Per questa visualizzazione, tracceremo ora i livelli di concentrazione dello stimolo rispetto alla concentrazione di risposta delle citochine osservata. Ora facciamo la media dei valori dei livelli di concentrazione di citochine. L'ordine dei livelli di concentrazione è sbagliato, ma è abbastanza facile ricorrere rapidamente a questo.
Quindi possiamo cambiare la vista per adattarla allo schermo e consentire una visualizzazione più semplice dei dati. Dal momento che vogliamo indagare su come differenziare tra i diversi genotipi, tutto ciò che dobbiamo fare è inserire la dimensione del genotipo in questa sezione di colore. La visualizzazione si separa automaticamente e immediatamente in base al genotipo.
Ora possiamo provare diversi formati di visualizzazione. Ad esempio, un grafico a linee potrebbe rivelare meglio un modello che vogliamo acquisire. Ci sono ovviamente molte altre opzioni.
I biologi in questa analisi accoppiata suggeriscono che iniziamo esplorando le relazioni della produzione di uno dei marcatori di citochine chiamato QNF alfa dopo la stimolazione con un reagente chiamato 3M oh oh due. Per fare ciò, dobbiamo filtrare la dimensione del marcatore, TNF alfa e la dimensione dello stimolo 3M oh oh due. Per rendere il processo di filtraggio più flessibile, possiamo scegliere l'opzione mostra filtro rapido sia per le dimensioni del marcatore che per quelle dello stimolo, assicurandoci che si tratti di un unico elenco di valori.
Questa visualizzazione mostra chiaramente una differenza con la produzione di TNF alfa dopo diversi livelli di tre MO oh due stimolazioni separate per genotipo in colori diversi, possiamo scegliere qualsiasi altra combinazione di valori di marcatori e filtri stimolo e la visualizzazione cambierebbe di conseguenza. Analogamente a Excel, potremmo creare diverse visualizzazioni in schede separate. A scopo di presentazione, possiamo anche generare una vista riassuntiva di più analisi.
In questo caso, abbiamo studiato una produzione di TNF alfa in diversi soggetti con un diverso genotipo snip di NF Kappa BIAS. In questa dimostrazione, abbiamo prodotto con successo una serie di potenti visualizzazioni in circa un minuto e 30 secondi utilizzando un approccio VA di analisi accoppiata. Un set simile di visualizzazioni richiede in genere 30 minuti per la generazione in Excel da parte di un ricercatore biomedico.
Un esempio precedente era una semplice analisi bidimensionale. Il vero potere di VA è la capacità di visualizzare più dimensioni allo stesso tempo. Ad esempio, Tableau supporta l'analisi tra set di dati tramite join logici di valori chiave.
Di seguito sono riportati due fogli di calcolo inseriti nella stessa cartella di lavoro. Il primo set di dati è uno del precedente esempio dimostrativo e l'altro è un set di dati di cellule analizzate con una tecnica chiamata citometria a flusso per la produzione di più citochine nella stessa cellula. Allo stesso tempo, una misura chiamata grado di polifunzionalità o PFD, è possibile denominare il foglio in modo che sia più facile identificarli durante la fase di importazione.
Ciò consente a Tableau di collegare i due fogli di calcolo. Dopo aver scelto l'opzione di tabella multipla, è possibile utilizzare la funzione Aggiungi nuova tabella per unire le due tabelle. Questa funzione aggiunge il secondo foglio di calcolo al primo e utilizza le istruzioni di join per combinare i set di dati utilizzando chiavi identiche come il tipo di cella, il livello di concentrazione, la fase, lo stimolo di gruppo e l'identificatore del soggetto.
Si noti che le dimensioni sono separate dal nome del foglio di calcolo. Questo ci permette di utilizzare le dimensioni che non facevano parte dell'affermazione logica congiunta. La definizione di polifunzionalità, ad esempio, è la percentuale di cellule che producono più di una citochina.
Ad esempio, una cellula che produce due citochine come PFD di due e una cellula che produce tre citochine come PFD di tre. In questo caso viene creato un campo calcolato per combinare questi valori in un'unica misura che è possibile utilizzare in una visualizzazione visiva. A questo punto è possibile iniziare a creare la visualizzazione.
Innanzitutto, tracciamo la concentrazione dei livelli di citochine rispetto ai PFD su due e, come nell'ultima demo, prendiamo il valore medio dei PFD maggiore di due. Disponiamo anche le etichette di concentrazione dal basso verso l'alto impostandole manualmente. Poiché le informazioni sul genotipo sono disponibili solo per alcuni membri di questo gruppo, è necessario filtrare le righe di dati che non contengono informazioni sul genotipo.
Proprio come prima, possiamo inserire rapidamente il genotipo nell'etichetta colorata, permettendoci di differenziare anche ogni diverso genotipo. Quindi possiamo cambiare la vista per adattarla allo schermo e consentire una visualizzazione più semplice dei dati. Possiamo anche cambiare il grafico a barre due.
Ad esempio, un grafico a linee che lo ha testato fornisce una buona idea di come la risposta CYT e la risposta PFP variano in base ai modelli specifici per ciascun genotipo. Si nota immediatamente che lo SNP NF kappa b con il genotipo GG ha un pattern di risposta diverso rispetto agli altri genotipi. Possiamo esplorare ulteriormente questo aspetto studiando l'impatto di diversi stimoli su questo modello.
Si noti che dopo aver aggiunto LPS nella dimensione dello stimolo, i tre genotipi principali mostrano un livello di PFD simile a tutte le concentrazioni, ma con il MO 3M o solo due stimoli, il genotipo GG mostra un forte PFD da bassa ad alta concentrazione di stimolo. Questa scoperta ci consente di generare un'ipotesi da testare in esperimenti futuri, vale a dire che il tipo di stimolo influisce sulla PFD. Nelle ultime due dimostrazioni, abbiamo visto la rapida generazione di visualizzazioni per rilevare modelli potenzialmente significativi sia all'interno che tra i set di dati.
La potenza dell'analisi visiva può essere rapidamente estesa a set di dati di grandi dimensioni, aumentando le dimensioni dell'analisi a seconda dell'applicazione, integrando le informazioni in vasti set di dati. Ad esempio, con i numerosi silos di dati generati negli studi di coorte, l'VA è un approccio altamente trasferibile che può potenzialmente essere applicato a qualsiasi dominio con una grande quantità di molti tipi diversi di dati, inclusi set di dati basati su categorie e numerici. L'approccio VA offre due vantaggi principali.
Uno, la generazione flessibile di ipotesi. L'utente può generare ipotesi sui dati sul posto derivate dai risultati attuali e creare rapidamente nuove visualizzazioni che esplorano l'ipotesi per un doppio risparmio di tempo. L'usabilità e l'efficienza degli strumenti UVA sono il loro principale vantaggio rispetto ai tradizionali strumenti di visualizzazione delle informazioni.
Lo sforzo tipicamente richiesto per la creazione di grafici con metodi tradizionali può richiedere diversi giorni lavorativi per completare ciò che è prontamente realizzabile con due o tre ore su una piattaforma VA come Tableau. Chiaramente, sono e probabilmente saranno altre piattaforme applicative, ognuna con vantaggi e svantaggi specifici. Il vantaggio aggiuntivo di affrontare questo compito con la para analisi si aggiunge chiaramente al vantaggio complessivo di un approccio basato su VA all'analisi di dati multidimensionali complessi.
View the full transcript and gain access to thousands of scientific videos
Questo video discute le sfide dell'analisi di grandi set di dati immunologici e introduce l'analisi visiva (VA) come soluzione. Le tecniche VA sfruttano le visualizzazioni per aiutare gli analisti a identificare modelli e tendenze in dati complessi.