January 2nd, 2011
La analítica visual (AV) es un nuevo enfoque de análisis de datos de forma interactiva. En este video, se discute el problema de la sobrecarga de datos causada por experimentos de alto rendimiento biológico y proponer VA como una solución a tal problema. El video muestra el análisis dentro y entre los conjuntos de datos inmunológicos utilizando una herramienta llamada Tableau VA.
Facilitar el análisis de datos inmunológicos con técnicas de analítica visual. Si bien la capacidad de recopilar y almacenar datos ha avanzado rápidamente, la capacidad de procesarlos y analizarlos y, en comparación, ha avanzado poco. Como resultado, a menudo existen grandes conjuntos de datos en los laboratorios biomédicos, que no se analizan de manera efectiva o eficiente.
Con eso, la información potencialmente rica y poderosa se pierde en el abismo de los sistemas de almacenamiento. La analítica visual o VA ha surgido como una nueva forma de analizar grandes conjuntos de datos complejos. Las técnicas de AV se basan en visualizaciones que permiten a los analistas utilizar su inteligencia visual para detectar patrones en los datos, como tendencias generales o valores atípicos.
Estas visualizaciones rápidas permiten la formación rápida de hipótesis mientras se exploran los datos. La flexibilidad de las herramientas de VA permite al analista acercar, profundizar y crear conexiones entre múltiples conjuntos de datos mientras explora sus relaciones. A través de la aplicación de VA a fuentes de datos integradas, el usuario puede revelar hallazgos nuevos e importantes.
El análisis principal es un enfoque de AV en el que un experto en herramientas de AV y un técnico, también conocido como experto en dominio, trabajan juntos para que el experto en dominio haga preguntas biológicamente relevantes sobre los datos. A continuación, el experto en herramientas de AV crea visualizaciones que pueden ayudar a revelar patrones que ayuden a responder a esta pregunta o que conduzcan a una mayor exploración. Este proceso se puede iterar para crear diferentes visualizaciones que proporcionen información.
Nos propusimos probar la idoneidad de un enfoque de AV de análisis pareado para un conjunto de datos biomédicos grandes y complejos. En experimentos piloto preliminares, evaluamos varias de las herramientas de AV existentes para el problema actual. Elegimos el software Tableau by Tableau como la herramienta más adecuada para la tarea en cuestión.
Los criterios de selección en estos experimentos piloto se basaron en parámetros subjetivos, como la facilidad de uso, la usabilidad general, así como en características técnicas objetivas, como una serie de técnicas de interacción y funciones de visualización. Tenemos aquí un conjunto de datos en una hoja de cálculo de Microsoft Excel típica de un laboratorio que trabaja en el campo de las enfermedades infecciosas. Este conjunto contiene datos de identificación de sujeto sobre la variación en las secuencias genéticas de ADN.
En este caso NF kappa BIA polimorfismos de un solo nucleótido o SNS para el sujeto, así como la concentración observada de varias moléculas biológicas en este caso, citoquinas producidas por las células inmunitarias del sujeto después de la estimulación de las células inmunitarias con estímulos específicos. Ahora nos desplazaremos hacia abajo hasta la hoja de cálculo. Para que te hagas una idea del volumen de este conjunto de datos, nos interesa averiguar si existe una relación general entre el genotipo que son los diferentes cortes de, en este caso, el gen NF Kappa BIA, y la respuesta de citocinas observada.
Después de la estimulación, ahora conectaremos el conjunto de datos con Tableau, asegurándonos de importar la tabla NF kappa BIA. Puede ver en el lado izquierdo que Tableau está conectado a la tabla correcta y separó automáticamente las variables de columna en lo que Tableau llama, dimensiones y medidas. Las dimensiones son simplemente las columnas que categorizan los datos y miden los valores cuantitativos de esa columna.
Para esta visualización, ahora trazaremos los niveles de concentración de estímulos frente a la concentración de respuesta de citocinas observada. Ahora promediamos los valores de los niveles de concentración de citocinas. El orden de los niveles de concentración es incorrecto, pero es bastante fácil recurrir rápidamente a esto.
Luego podemos cambiar la vista para que se ajuste a la pantalla y permitir una visualización más fácil de los datos. Dado que queremos investigar cómo diferenciar entre los diferentes genotipos, todo lo que tenemos que hacer es colocar la dimensión del genotipo en esta sección de color. La visualización se separa de forma automática e inmediata en función del genotipo.
Ahora, podemos probar diferentes formatos de visualización. Por ejemplo, un gráfico de líneas podría revelar mejor un patrón que queremos capturar. Obviamente hay muchas otras opciones.
Los biólogos en este análisis pareado sugieren que comencemos explorando las relaciones de la producción de uno de los marcadores de citoquinas llamado QNF alfa después de la estimulación con un reactivo llamado 3M oh oh dos. Para ello, necesitamos filtrar la dimensión del marcador, el TNF alfa y la dimensión del estímulo 3M oh oh dos. Para flexibilizar el proceso de filtrado, podemos elegir la opción de mostrar filtro rápido tanto para las dimensiones del marcador como para las del estímulo, asegurándonos de que se trata de una sola lista de valores.
Esta visualización muestra claramente una diferencia con la producción de TNF alfa después de diferentes niveles de tres MO oh dos estimulaciones separadas por genotipo en diferentes colores, podemos elegir cualquier otra combinación de valores de marcador y filtro de estímulo, y la visualización cambiaría en consecuencia. De manera similar a Excel, podríamos crear diferentes visualizaciones en pestañas separadas. Para fines de presentación, también podemos generar una vista resumida de múltiples análisis.
En este caso, hemos investigado una producción de TNF Alpha en varios sujetos con un genotipo de corte NF Kappa BIAS diferente. En esta demostración, producimos con éxito una serie de visualizaciones potentes en aproximadamente un minuto y 30 segundos utilizando un enfoque de análisis VA emparejado. Un conjunto similar de visualizaciones suele requerir que un investigador biomédico tenga 30 minutos para generarse en Excel.
Un ejemplo anterior fue un simple análisis bidimensional. El verdadero poder de VA es la capacidad de visualizar múltiples dimensiones al mismo tiempo. Por ejemplo, Tableau admite el análisis entre conjuntos de datos a través de combinaciones lógicas de valores clave.
Aquí hay dos hojas de cálculo colocadas en el mismo libro de trabajo. El primer conjunto de datos es uno del ejemplo de demostración anterior, y el otro es un conjunto de datos de células analizadas mediante una técnica llamada citometría de flujo para la producción de múltiples citocinas en la misma célula. Al mismo tiempo, una medida llamada grado de polifuncionalidad o PFD, puede nombrar la hoja para que sea más fácil identificarlos durante la etapa de importación.
Esto permite que Tableau conecte las dos hojas de cálculo. Después de elegir la opción de varias tablas, puede usar la función agregar nueva tabla para unir las dos tablas. Esta función agrega la segunda hoja de cálculo a la primera y utiliza las instrucciones de combinación para combinar los conjuntos de datos utilizando claves idénticas, como el tipo de celda, el nivel de concentración, la etapa y el estímulo de grupo y el identificador de sujeto.
Observe que las dimensiones están separadas por el nombre de la hoja de cálculo. Esto nos permite utilizar las dimensiones que no formaban parte de la instrucción conjunta lógica. La definición de polifuncionalidad, por ejemplo, es el porcentaje de células que producen más de una citocina.
Por ejemplo, una célula que produce dos citocinas como un PFD de dos y una célula que produce tres citocinas como un PFD de tres. Aquí creamos un campo calculado para combinar estos valores en una medida que podemos usar en una visualización visual. Ahora podemos empezar a construir la visualización.
En primer lugar, graficamos la concentración de los niveles de citocinas frente a las PFD superiores a dos y, al igual que en la última demostración, tomamos el valor medio de las PFD superiores a dos. También organizamos las etiquetas de concentración de menor a mayor configurándolas manualmente. Dado que la información del genotipo solo está disponible para algunos de este grupo, debemos filtrar las filas de datos que no contienen información del genotipo.
Al igual que antes, podemos colocar rápidamente el genotipo en la etiqueta de color, lo que nos permite diferenciar también cada genotipo diferente. Luego podemos cambiar la vista para que se ajuste a la pantalla y permitir una visualización más fácil de los datos. También podemos cambiar el gráfico de barras dos.
Por ejemplo, un gráfico de líneas que probó esto proporciona una buena idea de cómo la respuesta CYT y la respuesta de PFP varían de acuerdo con los patrones específicos de cada genotipo. Inmediatamente se nota que el SNP NF kappa b con el genotipo GG tiene un patrón de respuesta diferente en comparación con los otros genotipos. Podemos explorar esto más a fondo investigando el impacto de diferentes estímulos en este patrón.
Tenga en cuenta que después de agregar LPS en la dimensión del estímulo, los tres genotipos principales muestran un nivel similar de PFD en todas las concentraciones, pero con los 3M MO oh dos estímulos solamente, el genotipo GG muestra una fuerte concentración de PFD de baja a alta concentración de estímulo. Este hallazgo nos permite generar una hipótesis para probar en futuros experimentos, a saber, que el tipo de estímulo afecta a la PFD. En las dos últimas demostraciones, vimos la rápida generación de visualización para detectar patrones potencialmente significativos tanto dentro como entre conjuntos de datos.
El poder de la analítica visual se puede extender rápidamente a grandes conjuntos de datos, ampliando las dimensiones del análisis en función de la aplicación, integrando información en vastos conjuntos de datos. Por ejemplo, con la gran cantidad de silos de datos generados en los estudios de cohortes, el AV es un enfoque altamente transferible que potencialmente se puede aplicar a cualquier dominio con una gran cantidad de muchos tipos diferentes de datos, incluidos conjuntos de datos categóricos y numéricos. El enfoque de VA ofrece dos ventajas principales.
Uno, la generación flexible de hipótesis. El usuario puede generar hipótesis sobre los datos sobre el terreno derivados de los hallazgos actuales y crear rápidamente nuevas visualizaciones que exploren la hipótesis para ahorrar dos veces. La usabilidad y eficiencia de las herramientas UVA son su principal ventaja frente a las herramientas tradicionales de visualización de información.
El esfuerzo que suele implicar la creación de gráficos con métodos tradicionales puede tardar varios días hábiles en completarse, lo que se logra fácilmente con dos o tres horas en una plataforma de VA como Tableau. Claramente, son y probablemente serán otras plataformas de aplicaciones, cada una con ventajas y desventajas específicas. El beneficio adicional de abordar esta tarea con el análisis de paraanálisis se suma claramente al beneficio general de un enfoque basado en el AV para el análisis de datos multidimensionales complejos.
View the full transcript and gain access to thousands of scientific videos
Este video discute los desafíos de analizar grandes conjuntos de datos inmunológicos e introduce el análisis visual (AV) como solución. Las técnicas de AV aprovechan las visualizaciones para ayudar a los analistas a identificar patrones y tendencias en datos complejos.