January 2nd, 2011
Analityka wizualna (VA) to nowe podejście do interaktywnej analizy danych. W tym filmie omawiamy problem przeciążenia danymi spowodowany wysokoprzepustowymi eksperymentami biologicznymi i proponujemy VA jako rozwiązanie tego problemu. Film przedstawia analizę w obrębie i pomiędzy zestawami danych immunologicznych przy użyciu narzędzia VA o nazwie Tableau.
Ułatwienie analizy danych immunologicznych za pomocą wizualnych technik analitycznych. Podczas gdy zdolność do gromadzenia i przechowywania danych szybko się rozwinęła, zdolność do ich przetwarzania i analizowania oraz porównywania poczyniła niewielkie postępy. W rezultacie w laboratoriach biomedycznych często znajdują się duże zbiory danych, które nie są analizowane skutecznie ani wydajnie.
W ten sposób potencjalnie bogate i potężne informacje giną w otchłaniach systemów pamięci masowej. Analityka wizualna lub VA pojawiła się jako nowy sposób analizowania dużych, złożonych zestawów danych. Techniki VA opierają się na wizualizacjach, które pozwalają analitykom wykorzystać swoją inteligencję wizualną do dostrzegania wzorców w danych, takich jak ogólne trendy lub wartości odstające.
Te szybkie wizualizacje pozwalają na szybkie tworzenie hipotez podczas eksplorowania danych. Elastyczność narzędzi VA pozwala analitykowi zarówno powiększać, drążyć, jak i tworzyć połączenia w wielu zestawach danych, jednocześnie badając ich relacje. Dzięki zastosowaniu VA do zintegrowanych źródeł danych, użytkownik może ujawnić nowe i ważne ustalenia.
Analiza nadrzędna to jedno z podejść VA, w którym ekspert ds. narzędzi VA i ekspert techniczny, znany również jako ekspert domenowy, współpracują ze sobą, aby ekspert dziedziny zadawał biologicznie istotne pytania dotyczące danych. Następnie ekspert ds. narzędzi VA tworzy wizualizacje, które mogą pomóc w ujawnieniu wzorców, które pomogą odpowiedzieć na to pytanie lub doprowadzą do dalszych badań. Ten proces można iterować w celu tworzenia różnych wizualizacji, które zapewniają szczegółowe informacje.
Postanowiliśmy przetestować przydatność podejścia VA do analizy sparowanej w odniesieniu do dużego złożonego zestawu danych biomedycznych. We wstępnych eksperymentach pilotażowych oceniliśmy kilka istniejących narzędzi VA pod kątem obecnego problemu. Wybraliśmy oprogramowanie Tableau by Tableau jako narzędzie najbardziej odpowiednie do danego zadania.
Kryteria wyboru w tych eksperymentach pilotażowych opierały się na subiektywnych parametrach, takich jak łatwość obsługi, ogólna użyteczność, a także obiektywne cechy techniczne, takie jak szereg technik interakcji i funkcje wizualizacji. Mamy tu do czynienia ze zbiorem danych w arkuszu kalkulacyjnym Microsoft Excel typowym dla laboratorium pracującego w obszarze chorób zakaźnych. Zestaw ten zawiera dane identyfikacyjne podmiotu dotyczące zmienności w genetycznych sekwencjach DNA.
W tym przypadku polimorfizmy pojedynczego nukleotydu NF kappa BIA lub SNS dla badanego, a także obserwowane stężenie kilku cząsteczek biologicznych w tym przypadku, cytokin wytwarzanych przez komórki odpornościowe podmiotu po stymulacji komórek odpornościowych określonymi bodźcami. Przewiniemy teraz w dół do arkusza kalkulacyjnego. Aby dać Ci wyobrażenie o objętości tego zestawu danych, jesteśmy zainteresowani ustaleniem, czy istnieje ogólny związek między genotypem, który jest różnymi fragmentami, w tym przypadku genu NF Kappa BIA, a zaobserwowaną odpowiedzią cytokin
.Po stymulacji połączymy teraz zbiór danych z Tableau, upewniając się, że zaimportowaliśmy tabelę NF kappa BIA. Po lewej stronie widać, że tableau jest połączone z właściwą tabelą i automatycznie rozdziela zmienne kolumny na to, co Tableau wywołuje, wymiary i miary. Wymiary to po prostu kolumny, które kategoryzują dane i mierzą wartości ilościowe w tej kolumnie.
Na potrzeby tej wizualizacji wykreślimy teraz poziomy stężenia bodźca w stosunku do obserwowanego stężenia odpowiedzi cytokinowej. Teraz uśredniamy wartości poziomów stężeń cytokin. Kolejność poziomów koncentracji jest błędna, ale dość łatwo jest to szybko wykorzystać.
Następnie możemy przełączyć widok tak, aby pasował do ekranu i umożliwiał łatwiejszą wizualizację danych. Ponieważ chcemy zbadać, jak rozróżnić różne genotypy, wszystko, co musimy zrobić, to wrzucić wymiar genotypu do tej sekcji kolorów. Wizualizacja automatycznie i natychmiast rozdziela się na podstawie genotypu.
Teraz możemy wypróbować różne formaty wyświetlania. Na przykład wykres liniowy może lepiej pokazać wzorzec, który chcemy uchwycić. Istnieje oczywiście wiele innych opcji.
Biolodzy w tej sparowanej analizie sugerują, że powinniśmy zacząć od zbadania zależności produkcji jednego z markerów cytokin zwanych QNF alfa po stymulacji odczynnikiem o nazwie 3M oh oh dwa. Aby to zrobić, musimy przefiltrować wymiar znacznika, TNF alfa i wymiar bodźca 3M oh oh two. Aby proces filtrowania był bardziej elastyczny, możemy wybrać opcję pokaż szybki filtr zarówno dla wymiarów znacznika, jak i bodźca, upewniając się, że jest to lista z pojedynczymi wartościami.
Ta wizualizacja wyraźnie pokazuje różnicę w produkcji TNF alfa po różnych poziomach trzech MO i dwóch stymulacji oddzielonych genotypem w różnych kolorach, możemy wybrać dowolną inną kombinację wartości markera i filtra bodźca, a wizualizacja zmieni się odpowiednio. Podobnie jak w przypadku Excela, mogliśmy budować różne wizualizacje w osobnych zakładkach. Dla celów prezentacyjnych możemy również wygenerować widok podsumowujący wiele analiz.
W tym przypadku zbadaliśmy produkcję TNF Alpha u kilku osób o innym genotypie nocytów NF Kappa BIAS. W tej demonstracji udało nam się stworzyć serię potężnych wizualizacji w ciągu około minuty i 30 sekund przy użyciu podejścia VA do analizy sparowanej. Wygenerowanie podobnego zestawu wizualizacji w programie Excel zazwyczaj wymaga od badacza biomedycznego 30 minut.
Poprzednim przykładem była prosta analiza dwuwymiarowa. Prawdziwą mocą VA jest możliwość wizualizacji wielu wymiarów w tym samym czasie. Na przykład Tableau obsługuje analizę między zestawami danych za pomocą logicznych sprzężeń wartości kluczy.
Oto dwa arkusze kalkulacyjne umieszczone w tym samym skoroszycie. Pierwszy zestaw danych pochodzi z poprzedniego przykładu demonstracyjnego, a drugi to zestaw danych komórek analizowanych za pomocą techniki zwanej cytometrią przepływową w celu produkcji wielu cytokin w tej samej komórce. W tym samym czasie, miara o nazwie stopień polifunkcjonalności lub PFD, możesz nazwać arkusz, aby łatwiej było je zidentyfikować na etapie importu.
Dzięki temu Tableau może połączyć dwa arkusze kalkulacyjne. Po wybraniu opcji wielu tabel możesz użyć funkcji dodaj nową tabelę, aby połączyć dwie tabele. Ta funkcja dodaje drugi arkusz kalkulacyjny do pierwszego i używa instrukcji sprzężenia do łączenia zestawów danych przy użyciu identycznych kluczy, takich jak typ komórki, poziom koncentracji, etap oraz bodziec grupowy i identyfikator podmiotu.
Zwróć uwagę, że wymiary są oddzielone nazwą arkusza kalkulacyjnego. Dzięki temu możemy użyć wymiarów, które nie były częścią logicznego wspólnego zestawienia. Definicja polifunkcjonalności, na przykład, to procent komórek, które wytwarzają więcej niż jedną cytokinę.
Na przykład komórka, która wytwarza dwie cytokiny jako PFD z dwóch i komórka wytwarzająca trzy cytokiny jako PFD z trzech. W tym miejscu tworzymy jedno pole obliczeniowe, aby połączyć te wartości w jedną miarę, której możemy użyć w prezentacji wizualnej. Teraz możemy przystąpić do budowania wizualizacji.
Najpierw wykreślamy stężenie cytokin w stosunku do PFD w ciągu dwóch i podobnie jak w poprzednim demo przyjmujemy średnią wartość PFD większą niż dwa. Układamy również etykiety stężeń od niskich do wysokich, ustawiając je ręcznie. Ponieważ informacje o genotypie są dostępne tylko dla niektórych osób z tej grupy, musimy odfiltrować wiersze danych, które nie zawierają informacji o genotypie.
Tak jak poprzednio, możemy szybko umieścić genotyp na kolorowej etykiecie, co pozwala nam również na rozróżnienie każdego innego genotypu. Następnie możemy przełączyć widok tak, aby pasował do ekranu i umożliwiał łatwiejszą wizualizację danych. Możemy również zmienić wykres słupkowy dwa.
Na przykład wykres liniowy, który to przetestował, daje dobre wyobrażenie o tym, jak odpowiedź CYT i odpowiedź PFP różnią się w zależności od wzorców specyficznych dla każdego genotypu. Od razu można zauważyć, że NF kappa b SNP z genotypem GG ma inny wzorzec odpowiedzi w porównaniu z innymi genotypami. Możemy to dalej badać, badając wpływ różnych bodźców na ten wzorzec.
Należy zauważyć, że po dodaniu LPS w wymiarze bodźca, trzy główne genotypy wykazują podobny poziom PFD we wszystkich stężeniach, ale przy 3M MO i tylko dwóch bodźcach, genotyp GG wykazuje gwałtowny wzrost PFD od niskiego do wysokiego stężenia bodźca. To odkrycie pozwala nam wygenerować hipotezę do przetestowania w przyszłych eksperymentach, a mianowicie, że rodzaj bodźca wpływa na PFD. W ostatnich dwóch demonstracjach zaobserwowaliśmy szybkie generowanie wizualizacji w celu wykrycia potencjalnie istotnych wzorców zarówno w zestawach danych, jak i między nimi.
Możliwości analityki wizualnej można szybko rozszerzyć na duże zbiory danych, skalując wymiary analizy w zależności od aplikacji, integrując informacje z ogromnych zbiorów danych. Na przykład, ze względu na wiele silosów danych generowanych w badaniach kohortowych, VA jest wysoce uniwersalnym podejściem, które można potencjalnie zastosować do dowolnej domeny z dużą ilością wielu różnych typów danych, w tym zestawów danych kategorycznych i numerycznych. Podejście VA ma dwie główne zalety.
Jedno, elastyczne generowanie hipotez. Użytkownik może na miejscu generować hipotezy dotyczące danych pochodzących z bieżących ustaleń i szybko tworzyć nowe wizualizacje, które badają hipotezę, oszczędzając dwa razy czas. Użyteczność i wydajność narzędzi UVA to ich główna przewaga nad tradycyjnymi narzędziami do wizualizacji informacji.
Wysiłek zwykle związany z tworzeniem wykresów przy użyciu tradycyjnych metod może zająć kilka dni roboczych, aby ukończyć to, co można łatwo osiągnąć w ciągu dwóch do trzech godzin na platformie VA, takiej jak Tableau. Oczywiście są to i prawdopodobnie będą inne platformy aplikacji, z których każda ma określone zalety i wady. Dodatkowa korzyść płynąca z podejścia do tego zadania za pomocą analizy paratechnicznej wyraźnie zwiększa ogólne korzyści płynące z podejścia opartego na VA do analizy złożonych danych wielowymiarowych.
View the full transcript and gain access to thousands of scientific videos
To video omawia wyzwania związane z analizą dużych zestawów danych immunologicznych i przedstawia analizy wizualne (VA) jako rozwiązanie. Techniki VA wykorzystują wizualizacje, aby pomóc analitykom w identyfikacji wzorców i trendów w złożonych danych.