January 2nd, 2011
Visual Analytics (VA) ist ein neuer Ansatz zur Analyse von Daten interaktiv. In diesem Video sprechen wir die Daten Überlastung Problem durch High-Throughput-biologische Experimente gebracht werden, und schlagen VA als eine Lösung für dieses Problem nicht. Das Video demonstriert Analyse innerhalb und zwischen den immunologischen Datensätze mit einem VA-Tool namens Tableau.
Erleichterung der Analyse immunologischer Daten mit visuellen Analysetechniken. Während sich die Fähigkeit, Daten zu sammeln und zu speichern, rasant weiterentwickelt hat, hat die Fähigkeit, sie zu verarbeiten und zu analysieren, im Vergleich dazu kaum Fortschritte gemacht. Das hat zur Folge, dass in biomedizinischen Laboren oft große Datensätze existieren, die nicht effektiv oder effizient analysiert werden.
Dadurch gehen potenziell reichhaltige und leistungsstarke Informationen in den Abgründen der Speichersysteme verloren. Visual Analytics (VA) hat sich als neue Methode zur Analyse großer komplexer Datensätze herausgestellt. VA-Techniken basieren auf Visualisierungen, die es Analysten ermöglichen, ihre visuelle Intelligenz zu nutzen, um Muster in Daten wie allgemeine Trends oder Ausreißer zu erkennen.
Diese schnellen Visualisierungen ermöglichen eine schnelle Bildung von Hypothesen bei der Untersuchung von Daten. Die Flexibilität von VA-Tools ermöglicht es dem Analysten, mehrere Datensätze sowohl zu vergrößern, aufzuschlüsseln als auch Verbindungen herzustellen, während er deren Beziehungen untersucht. Durch die Anwendung von VA auf integrierte Datenquellen kann der Anwender neue und wichtige Erkenntnisse offenbaren.
Die übergeordnete Analyse ist ein VA-Ansatz, bei dem ein Experte für VA-Tools und ein Techniker, der auch als Domänenexperte bekannt ist, zusammenarbeiten, sodass der Domänenexperte biologisch relevante Fragen zu den Daten stellt. Der VA-Tool-Experte erstellt dann Visualisierungen, die dazu beitragen können, Muster aufzudecken, die bei der Beantwortung dieser Frage helfen oder zu weiteren Untersuchungen führen. Dieser Prozess kann iteriert werden, um verschiedene Visualisierungen zu erstellen, die Einblicke bieten.
Wir haben uns zum Ziel gesetzt, die Eignung eines VA-Ansatzes für die gepaarte Analyse eines großen komplexen biomedizinischen Datensatzes zu testen. In ersten Pilotversuchen haben wir mehrere der vorhandenen VA-Tools für das aktuelle Problem evaluiert. Wir haben uns für Tableau by Tableau Software als das Tool entschieden, das für die anstehende Aufgabe am besten geeignet ist.
Die Auswahlkriterien in diesen Pilotversuchen basierten auf subjektiven Parametern wie Benutzerfreundlichkeit, allgemeiner Usability sowie objektiven technischen Merkmalen wie einer Reihe von Interaktionstechniken und Visualisierungsfunktionen. Wir haben hier einen Datensatz in einer Microsoft Excel-Tabelle, der typisch für ein Labor ist, das auf dem Gebiet der Infektionskrankheiten arbeitet. Dieses Set enthält einen Probandenidentifikator mit Daten zur Variation in genetischen DNA-Sequenzen.
In diesem Fall NF kappa BIA Einzelnukleotid-Polymorphismen oder SNS für das Subjekt, sowie die beobachtete Konzentration mehrerer biologischer Moleküle, in diesem Fall, Zytokine, die von Immunzellen des Probanden nach Stimulation der Immunzellen mit spezifischen Stimuli produziert werden. Wir scrollen nun nach unten zur Tabelle. Um Ihnen ein Gefühl für das Volumen dieses Datensatzes zu geben, sind wir daran interessiert herauszufinden, ob es eine allgemeine Beziehung zwischen dem Genotyp, d. h. den verschiedenen Schnitten des NF Kappa BIA-Gens, und der beobachteten Zytokinreaktion gibt.
Nach der Stimulation verbinden wir nun den Datensatz mit Tableau und stellen sicher, dass wir die NF kappa BIA-Tabelle importieren. Auf der linken Seite sehen Sie, dass Tableau mit der richtigen Tabelle verbunden ist und die Spaltenvariablen automatisch in die von Tableau aufgerufenen Dimensionen, Dimensionen und Kennzahlen unterteilt hat. Dimensionen sind einfach die Spalten, die die Daten kategorisieren und die quantitativen Werte in dieser Spalte messen.
Für diese Visualisierung stellen wir nun die Reizkonzentration im Vergleich zur beobachteten Konzentration der Zytokinreaktion dar. Wir mitteln nun die Werte der Zytokinkonzentrationen. Die Reihenfolge der Konzentrationsstufen ist falsch, aber es ist ziemlich einfach, dies schnell zu korrigieren.
Dann können wir die Ansicht so umschalten, dass sie an den Bildschirm angepasst wird, was eine einfachere Visualisierung der Daten ermöglicht. Da wir untersuchen wollen, wie man zwischen den verschiedenen Genotypen unterscheiden kann, müssen wir nur die Genotyp-Dimension in diesen Farbabschnitt einfügen. Die Visualisierung trennt automatisch und sofort nach Genotyp.
Jetzt können wir ein anderes Anzeigeformat ausprobieren. Ein Liniendiagramm kann beispielsweise ein Muster besser darstellen, das wir erfassen möchten. Es gibt natürlich noch viele andere Möglichkeiten.
Die Biologen in dieser gepaarten Analyse schlagen vor, dass wir damit beginnen, die Beziehungen der Produktion eines der Zytokinmarker namens QNF alpha nach der Stimulation mit einem Reagenz namens 3M oh oh two zu untersuchen. Dazu müssen wir die Marker-Dimension, TNF alpha und die Stimulus-Dimension 3M oh oh two filtern. Um den Filterprozess flexibler zu gestalten, können wir die Option Schnellfilter anzeigen sowohl für die Marker- als auch für die Stimulus-Dimension auswählen und sicherstellen, dass es sich um eine Liste mit einzelnen Werten handelt.
Diese Visualisierung zeigt deutlich einen Unterschied zur TNF-alpha-Produktion nach verschiedenen Niveaus von drei MO oh zwei Stimulation, getrennt nach Genotyp in verschiedenen Farben, wir können eine beliebige andere Kombination von Marker- und Stimulusfilterwerten wählen, und die Visualisierung würde sich entsprechend ändern. Ähnlich wie bei Excel könnten wir verschiedene Visualisierungen in separaten Registerkarten erstellen. Zu Präsentationszwecken können wir auch eine zusammenfassende Ansicht mehrerer Analysen erstellen.
In diesem Fall haben wir die Produktion von TNF Alpha bei mehreren Probanden mit einem unterschiedlichen NF Kappa BIAS Snip-Genotyp untersucht. In dieser Demonstration haben wir erfolgreich eine Reihe leistungsstarker Visualisierungen in etwa einer Minute und 30 Sekunden mit einem gekoppelten Analyse-VA-Ansatz erstellt. Für die Erstellung einer ähnlichen Reihe von Visualisierungen benötigt ein biomedizinischer Forscher in der Regel 30 Minuten, um sie in Excel zu erstellen.
Ein vorheriges Beispiel war eine einfache zweidimensionale Analyse. Die wahre Stärke von VA liegt in der Fähigkeit, mehrere Dimensionen gleichzeitig zu visualisieren. Tableau unterstützt beispielsweise die Analyse zwischen Datensätzen durch logische Verknüpfungen von Schlüsselwerten.
Hier sind zwei Tabellenkalkulationen, die in derselben Arbeitsmappe platziert sind. Der erste Datensatz stammt aus dem vorherigen Demonstrationsbeispiel, und der andere ist ein Datensatz von Zellen, die mit einer Technik namens Durchflusszytometrie analysiert wurden, um mehrere Zytokine in derselben Zelle zu produzieren. Gleichzeitig können Sie das Blatt mit einem Maß namens Poly-Funktionalitätsgrad oder PFD benennen, damit es während der Importphase leichter zu identifizieren ist.
Auf diese Weise kann Tableau die beiden Tabellenkalkulationen miteinander verbinden. Nachdem Sie die Option für mehrere Tabellen ausgewählt haben, können Sie die Funktion "Neue Tabelle hinzufügen" verwenden, um die beiden Tabellen zu verbinden. Diese Funktion fügt die zweite Tabelle zur ersten hinzu und verwendet die join-Anweisungen, um die Datensätze mit identischen Schlüsseln wie Zelltyp, Konzentrationsstufe sowie Gruppenstimulus und Probandenidentifikator zu kombinieren.
Beachten Sie, dass die Dimensionen durch den Namen der Tabelle getrennt sind. Dies ermöglicht es uns, die Dimensionen zu verwenden, die nicht Teil der logischen gemeinsamen Aussage waren. Die Definition für die Polyfunktionalität ist zum Beispiel der Prozentsatz der Zellen, die mehr als ein Zytokin produzieren.
Zum Beispiel eine Zelle, die zwei Zytokine als PFD von zwei bildet, und eine Zelle, die drei Zytokine produziert, eine PFD von drei. Hier erstellen wir ein berechnetes Feld, um diese Werte zu einer Kennzahl zu kombinieren, die wir in einer visuellen Darstellung verwenden können. Jetzt können wir mit dem Erstellen der Visualisierung beginnen.
Zuerst stellen wir die Konzentration der Zytokinspiegel im Vergleich zu PFDs über zwei dar und nehmen wie in der letzten Demo den Durchschnittswert von PFDs größer als zwei. Wir ordnen auch die Konzentrationsetiketten von niedrig bis hoch an, indem wir sie manuell einstellen. Da Genotypinformationen nur für einige in dieser Gruppe verfügbar sind, müssen wir die Datenzeilen herausfiltern, die keine Genotypinformationen enthalten.
Genau wie zuvor können wir den Genotyp schnell in das Farbetikett einfügen, was uns ermöglicht, auch die verschiedenen Genotypen zu unterscheiden. Dann können wir die Ansicht so umschalten, dass sie an den Bildschirm angepasst wird, was eine einfachere Visualisierung der Daten ermöglicht. Wir können auch das Balkendiagramm um zwei ändern.
Zum Beispiel gibt ein Liniendiagramm, das dies getestet hat, ein gutes Gefühl dafür, wie die CYT-Reaktion und die PFP-Reaktion je nach den für jeden Genotyp spezifischen Mustern variieren. Man merkt sofort, dass der NF kappa b SNP mit dem GG-Genotyp ein anderes Reaktionsmuster aufweist als die anderen Genotypen. Wir können dies weiter erforschen, indem wir den Einfluss verschiedener Reize auf dieses Muster untersuchen.
Beachten Sie, dass nach dem Hinzufügen von LPS in der Stimulusdimension die drei Hauptgenotypen bei allen Konzentrationen ein ähnliches PFD-Niveau aufweisen, aber mit dem 3M MO oh nur zwei Stimuli zeigt der GG-Genotyp eine starke PFD-Sättigung von niedriger zu hoher Stimuluskonzentration. Diese Erkenntnis ermöglicht es uns, eine Hypothese zu generieren, die wir in zukünftigen Experimenten testen können, nämlich dass die Art des Stimulus die PFD beeinflusst. In den letzten beiden Demonstrationen haben wir die schnelle Generierung von Visualisierungen gesehen, um potenziell aussagekräftige Muster sowohl innerhalb als auch zwischen Datensätzen zu erkennen.
Die Leistungsfähigkeit der visuellen Analyse kann schnell auf große Datensätze ausgeweitet werden, indem die Analysedimensionen je nach Anwendung skaliert und Informationen über große Datensätze hinweg integriert werden. Angesichts der vielen Datensilos, die in Kohortenstudien entstehen, ist VA beispielsweise ein hochgradig übertragbarer Ansatz, der potenziell auf jeden Bereich mit einer großen Menge an vielen verschiedenen Datentypen angewendet werden kann, einschließlich kategorialer und numerischer Datensätze. Der VA-Ansatz bietet zwei wesentliche Vorteile.
Erstens, flexible Hypothesengenerierung. Der Benutzer kann vor Ort Hypothesen über die Daten generieren, die aus aktuellen Erkenntnissen abgeleitet werden, und schnell neue Visualisierungen erstellen, die die Hypothese untersuchen, um zwei Mal Zeit zu sparen. Die Benutzerfreundlichkeit und Effizienz von UVA-Tools sind ihr Hauptvorteil gegenüber herkömmlichen Informationsvisualisierungstools.
Der Aufwand, der normalerweise mit der Erstellung von Grafiken mit herkömmlichen Methoden verbunden ist, kann mehrere Arbeitstage in Anspruch nehmen, um das zu erledigen, was auf einer VA-Plattform wie Tableau mit zwei bis drei Stunden leicht zu bewerkstelligen ist. Es liegt auf der Hand, dass es sich um andere Anwendungsplattformen handelt, die jeweils spezifische Vor- und Nachteile haben. Der zusätzliche Nutzen, der sich dieser Aufgabe mit der Para-Analyse nähert, trägt deutlich zum Gesamtnutzen eines VA-basierten Ansatzes für die Analyse komplexer mehrdimensionaler Daten bei.
View the full transcript and gain access to thousands of scientific videos
Dieses Video diskutiert die Herausforderungen bei der Analyse großer immunologischer Datensätze und stellt visuelle Analyse (VA) als Lösung vor. VA-Techniken nutzen Visualisierungen, um Analysten bei der Identifizierung von Mustern und Trends in komplexen Daten zu unterstützen.