January 2nd, 2011
Visual analytics (VA) é uma nova abordagem de análise de dados de forma interativa. Neste vídeo, discutimos o problema de sobrecarga de dados causada por high-throughput experimentos biológicos, e propor VA como uma solução para esse problema. O vídeo demonstra a análise dentro e entre os conjuntos de dados imunológicos usando uma ferramenta chamada Tableau VA.
Facilitar a análise de dados imunológicos com técnicas analíticas visuais. Embora a capacidade de coletar e armazenar dados tenha avançado rapidamente, a capacidade de processá-los e analisá-los em comparação fez pouco progresso. Como resultado, geralmente existem grandes conjuntos de dados em laboratórios biomédicos, que não são analisados de forma eficaz ou eficiente.
Com isso, informações potencialmente ricas e poderosas se perdem no abismo dos sistemas de armazenamento. A análise visual ou VA surgiu como uma nova maneira de analisar grandes conjuntos de dados complexos. As técnicas de VA são baseadas em visualizações que permitem que os analistas usem sua inteligência visual para detectar padrões em dados, como tendências gerais ou discrepâncias.
Essas visualizações rápidas permitem a rápida formação de hipóteses durante a exploração de dados. A flexibilidade das ferramentas de VA permite que o analista amplie, faça uma busca detalhada e crie conexões em vários conjuntos de dados enquanto explora seus relacionamentos. Por meio da aplicação do VA a fontes de dados integradas, o usuário pode revelar novas e importantes descobertas.
A análise dos pais é uma abordagem de VA em que um especialista em ferramentas de VA e um técnico, também conhecido como especialista em domínio, trabalham juntos para que o especialista em domínio faça perguntas biologicamente relevantes sobre os dados. O especialista em ferramentas VA cria visualizações que podem ajudar a revelar padrões que ajudam a responder a essa pergunta ou levar a uma exploração mais aprofundada. Esse processo pode ser iterado para criar diferentes visualizações que fornecem insights.
Decidimos testar a adequação de uma abordagem VA de análise emparelhada para um grande conjunto de dados biomédicos complexos. Em experimentos piloto preliminares, avaliamos várias das ferramentas VA existentes para o problema atual. Escolhemos o software Tableau by Tableau como a ferramenta mais adequada para a tarefa em questão.
Os critérios de seleção nesses experimentos piloto foram baseados em parâmetros subjetivos, como facilidade de uso, usabilidade geral, bem como características técnicas objetivas, como uma variedade de técnicas de interação e recursos de visualização. Temos aqui um conjunto de dados em uma planilha do Microsoft Excel típica de um laboratório que trabalha na área de doenças infecciosas. Este conjunto contém dados identificadores de assunto sobre variação nas sequências genéticas de DNA.
Neste caso, polimorfismos de nucleotídeo único NF kappa BIA ou SNS para o sujeito, bem como a concentração observada de várias moléculas biológicas, neste caso, citocinas produzidas pelas células imunes do sujeito após a estimulação das células imunes com estímulos específicos. Agora vamos rolar para baixo até a planilha. Para dar uma ideia do volume desse conjunto de dados, estamos interessados em descobrir se existe uma relação geral entre o genótipo que são os diferentes recortes, neste caso, do gene NF Kappa BIA e a resposta de citocinas observada.
Após a estimulação, agora conectaremos o conjunto de dados ao Tableau, certificando-nos de importar a tabela NF kappa BIA. Você pode ver no lado esquerdo que o Tableau está conectado à tabela correta e separou automaticamente as variáveis de coluna no que o Tableau chama de dimensões e medidas. As dimensões são simplesmente as colunas que categorizam os dados e medem os valores quantitativos nessa coluna.
Para esta visualização, agora traçaremos os níveis de concentração do estímulo em relação à concentração de resposta de citocinas observada. Agora calculamos a média dos valores dos níveis de concentração de citocinas. A ordem dos níveis de concentração está errada, mas é muito fácil recorrer a isso rapidamente.
Em seguida, podemos alternar a visualização para caber na tela e permitir uma visualização mais fácil dos dados. Como queremos investigar como diferenciar entre os diferentes genótipos, tudo o que precisamos fazer é colocar a dimensão do genótipo nesta seção de cores. A visualização se separa automática e imediatamente com base no genótipo.
Agora, podemos tentar diferentes formatos de exibição. Por exemplo, um gráfico de linhas pode revelar melhor um padrão que queremos capturar. Obviamente, existem muitas outras opções.
Os biólogos nesta análise pareada sugerem que comecemos explorando as relações da produção de um dos marcadores de citocinas chamado QNF alfa após a estimulação com um reagente chamado 3M oh oh two. Para fazer isso, precisamos filtrar a dimensão do marcador, TNF alfa e a dimensão do estímulo 3M oh oh dois. Para tornar o processo de filtragem mais flexível, podemos escolher a opção mostrar filtro rápido para as dimensões do marcador e do estímulo, certificando-se de que seja uma única lista de valores.
Esta visualização mostra claramente uma diferença com a produção de TNF alfa após diferentes níveis de três MO oh dois estímulos separados por genótipo em cores diferentes, podemos escolher qualquer outra combinação de valores de marcador e filtro de estímulo, e a visualização mudaria de acordo. Semelhante ao Excel, poderíamos criar visualizações diferentes em guias separadas. Para fins de apresentação, também podemos gerar uma visão resumida de várias análises.
Neste caso, investigamos uma produção de TNF Alpha em vários indivíduos com um genótipo de recorte NF Kappa BIAS diferente. Nesta demonstração, produzimos com sucesso uma série de visualizações poderosas em cerca de um minuto e 30 segundos usando uma abordagem VA de análise emparelhada. Um conjunto semelhante de visualizações normalmente requer um pesquisador biomédico 30 minutos para ser gerado no Excel.
Um exemplo anterior foi uma análise bidimensional simples. O verdadeiro poder do VA é a capacidade de visualizar várias dimensões ao mesmo tempo. Por exemplo, o Tableau oferece suporte à análise entre conjuntos de dados por meio de junções lógicas de valores de chave.
Aqui estão duas planilhas colocadas na mesma pasta de trabalho. O primeiro conjunto de dados é um do exemplo de demonstração anterior e o outro é um conjunto de dados de células analisadas por técnica chamada citometria de fluxo para a produção de múltiplas citocinas na mesma célula. Ao mesmo tempo, uma medida chamada grau de polifuncionalidade ou PFD, você pode nomear a planilha para que seja mais fácil identificá-la durante o estágio de importação.
Isso permite que o Tableau conecte as duas planilhas. Depois de escolher a opção de várias tabelas, você pode usar o recurso adicionar nova tabela para unir as duas tabelas. Esse recurso adiciona a segunda planilha à primeira e usa as instruções de junção para combinar os conjuntos de dados usando chaves idênticas, como tipo de célula, estágio de nível de concentração e estímulo de grupo e identificador de sujeito.
Observe que as dimensões são separadas pelo nome da planilha. Isso nos permite usar as dimensões que não faziam parte da instrução conjunta lógica. A definição de polifuncionalidade, por exemplo, é a porcentagem de células que produzem mais de uma citocina.
Por exemplo, uma célula que produz duas citocinas como um PFD de dois e uma célula que produz três citocinas como um PFD de três. Aqui, criamos um campo calculado para combinar esses valores em uma medida que podemos usar em uma exibição visual. Agora podemos começar a construir a visualização.
Primeiro, traçamos a concentração dos níveis de citocinas em relação aos PFDs em dois e, como na última demonstração, obtemos o valor médio dos PFDs maior que dois. Também organizamos os rótulos de concentração de baixo para alto, configurando-os manualmente. Como as informações de genótipo estão disponíveis apenas para alguns neste grupo, precisamos filtrar as linhas de dados que não contêm informações de genótipo.
Assim como antes, podemos colocar rapidamente o genótipo no rótulo de cores, permitindo-nos diferenciar cada genótipo diferente também. Em seguida, podemos alternar a visualização para caber na tela e permitir uma visualização mais fácil dos dados. Também podemos alterar o gráfico de barras dois.
Por exemplo, um gráfico de linhas que testou isso fornece uma boa noção de como a resposta CYT e a resposta PFP variam de acordo com os padrões específicos para cada genótipo. Você percebe imediatamente que o SNP NF kappa b com o genótipo GG tem um padrão de resposta diferente em comparação com os outros genótipos. Podemos explorar isso mais investigando o impacto de diferentes estímulos nesse padrão.
Observe que depois de adicionar LPS na dimensão do estímulo, os três genótipos principais exibem um nível de PFD semelhante em todas as concentrações, mas com o 3M MO oh apenas dois estímulos, o genótipo GG mostra um acentuado no PFD de baixa para alta concentração de estímulo. Essa descoberta nos permite gerar uma hipótese para testar em experimentos futuros, ou seja, que o tipo de estímulo afeta o PFD. Nas duas últimas demonstrações, vimos a rápida geração de visualização para detectar padrões potencialmente significativos dentro e entre conjuntos de dados.
O poder da análise visual pode ser rapidamente estendido a grandes conjuntos de dados, ampliando as dimensões da análise dependendo do aplicativo, integrando informações em vastos conjuntos de dados. Por exemplo, com os muitos silos de dados gerados em estudos de coorte, o VA é uma abordagem altamente transferível que pode ser aplicada a qualquer domínio com grande quantidade de muitos tipos diferentes de dados, incluindo conjuntos de dados categóricos e numéricos. A abordagem VA oferece duas vantagens principais.
Um, geração de hipóteses flexíveis. O usuário pode gerar hipóteses sobre os dados no local derivados das descobertas atuais e criar rapidamente novas visualizações que exploram a hipótese para economizar duas vezes. A usabilidade e eficiência das ferramentas UVA são sua principal vantagem sobre as ferramentas tradicionais de visualização de informações.
O esforço normalmente envolvido na representação gráfica usando métodos tradicionais pode levar vários dias úteis para concluir o que é prontamente realizado com duas a três horas em uma plataforma VA como o Tableau. Claramente, eles são e provavelmente serão outras plataformas de aplicativos, cada uma com vantagens e desvantagens específicas. O benefício adicional de abordar esta tarefa com a análise para aumenta claramente o benefício geral de uma abordagem baseada em VA para a análise de dados multidimensionais complexos.
View the full transcript and gain access to thousands of scientific videos
Este vídeo discute os desafios de analisar grandes conjuntos de dados imunológicos e introduz a análise visual (VA) como uma solução. As técnicas de VA aproveitam visualizações para ajudar os analistas a identificar padrões e tendências em dados complexos.