January 2nd, 2011
Визуальный аналитики (VA) представляет собой новый подход анализа данных в интерактивном режиме. В этом видео, мы обсуждаем проблемы перегрузки данных вызванные высокой пропускной биологические эксперименты, и предложить В.А. в качестве решения такой проблемы. Видео показывает анализ внутри и между наборами данных иммунологических использованием В. А. инструмент под названием таблицы.
Облегчение анализа иммунологических данных с помощью методов визуального анализа. В то время как возможности сбора и хранения данных быстро развиваются, способность обрабатывать и анализировать их и сравнивать с ними достигла незначительного прогресса. В результате в биомедицинских лабораториях часто существуют большие наборы данных, которые не анализируются эффективно и результативно.
При этом потенциально богатая и мощная информация теряется в бездне систем хранения. Визуальная аналитика или VA появилась как новый способ анализа больших сложных наборов данных. Методы VA основаны на визуализации, которая позволяет аналитикам использовать свой визуальный интеллект для выявления закономерностей в данных, таких как общие тенденции или выбросы.
Такая быстрая визуализация позволяет быстро формировать гипотезы при изучении данных. Гибкость виртуальных инструментов позволяет аналитику увеличивать масштаб, детализировать и создавать связи между несколькими наборами данных, изучая их взаимосвязи. Благодаря применению VA к интегрированным источникам данных пользователь может выявить новые и важные результаты.
Родительский анализ — это один из подходов VA, при котором эксперт по инструментам VA и технический эксперт, также известный как эксперт в предметной области, работают вместе, чтобы эксперт в предметной области задавал биологически значимые вопросы о данных. Затем эксперт по инструментам VA создает визуализации, которые могут помочь выявить закономерности, помогающие ответить на этот вопрос или привести к дальнейшим исследованиям. Этот процесс можно повторять для создания различных визуализаций, которые обеспечивают понимание.
Мы решили проверить пригодность подхода VA, основанного на парном анализе, к большому сложному набору биомедицинских данных. В предварительных пилотных экспериментах мы оценили несколько существующих инструментов VA для решения текущей проблемы. Мы выбрали Tableau от Tableau software как инструмент, наиболее подходящий для поставленной задачи.
Критерии отбора в этих пилотных экспериментах основывались на субъективных параметрах, таких как удобство для пользователя, общее удобство использования, а также на объективных технических характеристиках, таких как набор техник взаимодействия и функций визуализации. Перед нами набор данных в виде таблицы Microsoft Excel, типичной для лаборатории, работающей в области инфекционных заболеваний. Этот набор содержит субъект идентификатора данных о вариациях в генетических последовательностях ДНК.
В этом случае NF kappa BIA однонуклеотидные полиморфизмы или SNS для испытуемого, а также наблюдаемая концентрация нескольких биологических молекул, в данном случае цитокинов, продуцируемых иммунными клетками испытуемого после стимуляции иммунных клеток специфическими стимулами. Теперь мы прокрутим вниз до таблицы. Чтобы дать вам представление об объеме этого набора данных, мы заинтересованы в том, чтобы выяснить, существует ли общая связь между генотипом, который представляет собой различные фрагменты, в данном случае гена NF Kappa BIA, и наблюдаемым цитокиновым ответом.
После стимуляции мы свяжем набор данных с Tableau, убедившись, что импортируем таблицу NF kappa BIA. Слева вы можете видеть, что Tableau соединена с правильной таблицей и автоматически разделяет переменные столбца на то, что Tableau называет, измерения и меры. Измерения — это столбцы, которые классифицируют данные и измеряют количественные значения в этом столбце.
Для этой визуализации мы построим график зависимости концентраций стимула от наблюдаемой концентрации цитокинового ответа. В настоящее время мы усредняем значения концентраций цитокинов. Порядок уровней концентрации неправильный, но быстро прибегнуть к этому довольно просто.
Затем мы можем переключить вид в соответствии с экраном и упростить визуализацию данных. Поскольку мы хотим исследовать, как различать различные генотипы, все, что нам нужно сделать, это опустить измерение генотипа в эту цветовую секцию. Визуализация автоматически и немедленно разделяется на основе генотипа.
Теперь мы можем попробовать разные форматы отображения. Например, линейный график может лучше показать закономерность, которую мы хотим зафиксировать. Очевидно, есть много других вариантов.
Биологи в этом парном анализе предполагают, что мы начнем с изучения взаимосвязи производства одного из цитокиновых маркеров под названием QNF альфа после стимуляции реагентом под названием 3M oh oh two. Для этого нам нужно отфильтровать размерность маркера, TNF alpha и размерность стимула 3M oh two. Чтобы сделать процесс фильтрации более гибким, мы можем выбрать опцию «Показать быстрый фильтр» как для маркерных, так и для стимульных измерений, убедившись, что это один список значений.
Эта визуализация ясно показывает разницу с продукцией TNF альфа после разных уровней трех MO или двух стимуляций, разделенных по генотипу разными цветами, мы можем выбрать любую другую комбинацию значений маркера и фильтра стимула, и визуализация изменится соответственно. Как и в Excel, мы могли бы создавать разные визуализации в отдельных вкладках. Для презентационных целей мы также можем создать сводное представление нескольких анализов.
В данном случае мы исследовали продукцию TNF Alpha у нескольких пациентов с разным генотипом NF Kappa BIAS snip. В этой демонстрации мы успешно создали серию мощных визуализаций примерно за минуту и 30 секунд, используя подход VA-анализа парного анализа. Подобный набор визуализаций обычно требует от биомедицинского исследователя 30 минут для создания в Excel.
Предыдущий пример представлял собой простой двумерный анализ. Истинная сила VA заключается в способности визуализировать несколько измерений одновременно. Например, Tableau поддерживает анализ между наборами данных с помощью логических соединений ключевых значений.
Вот две электронные таблицы, помещенные в одну книгу. Первый набор данных — это набор данных из предыдущего демонстрационного примера, а другой — набор данных клеток, проанализированных с помощью метода, называемого проточной цитометрией, на предмет производства нескольких цитокинов в одной и той же клетке. В то же время, мера называется степенью полифункциональности или PFD, вы можете назвать лист, чтобы его было легче идентифицировать на этапе импорта.
Это позволяет Tableau соединить две таблицы. Выбрав вариант с несколькими столами, вы можете использовать функцию добавления нового стола, чтобы объединить два стола. Эта функция добавляет вторую таблицу к первой и использует операторы join для объединения наборов данных с использованием идентичных ключей, таких как тип ячейки, уровень концентрации, групповой стимул и идентификатор субъекта.
Обратите внимание, что размеры разделены по имени электронной таблицы. Это позволяет использовать размерности, которые не входили в логическое совместное утверждение. Определение полифункциональности, например, — это процент клеток, которые производят более одного цитокина.
Например, клетка, которая производит два цитокина как PFD из двух, и клетка, производящая три цитокина как PFD из трех. Здесь мы создаем одно вычисляемое поле, чтобы объединить эти значения в одну меру, которую мы можем использовать в визуальном отображении. Теперь можно приступать к построению визуализации.
Во-первых, мы построили график концентрации цитокинов в зависимости от ПФД в пределах двух и, как и в предыдущей демонстрации, взяли среднее значение ПФД больше двух. Мы также располагаем этикетки концентрации от низкой к высокой, устанавливая ее вручную. Поскольку информация о генотипе доступна только для некоторых из этой группы, нам необходимо отфильтровать строки данных, которые не содержат информацию о генотипе.
Как и раньше, мы можем быстро поместить генотип в цветовую метку, что позволяет нам дифференцировать каждый отдельный генотип. Затем мы можем переключить вид в соответствии с экраном и упростить визуализацию данных. Мы также можем изменить гистограмму два.
Например, линейный график того, кто это проверял, дает хорошее представление о том, как ответ CYT и ответ PFP изменяются в соответствии с паттернами, специфичными для каждого генотипа. Вы сразу заметите, что NF kappa b SNP с генотипом GG имеет другой паттерн ответа по сравнению с другими генотипами. Мы можем исследовать это дальше, исследуя влияние различных стимулов на этот паттерн.
Следует отметить, что после добавления ЛПС в стимульном измерении три основных генотипа демонстрируют сходный уровень ПДП при всех концентрациях, но при использовании только двух стимулов 3М МО генотип GG демонстрирует резкое ПБД от низкой до высокой концентрации стимула. Это открытие позволяет нам сформулировать гипотезу для проверки в будущих экспериментах, а именно, что тип стимула влияет на PFD. В последних двух демонстрациях мы наблюдали быстрое создание визуализации для обнаружения потенциально значимых закономерностей как внутри, так и между наборами данных.
Возможности визуальной аналитики могут быть быстро расширены для больших наборов данных, масштабирования измерений анализа в зависимости от приложения, интеграции информации из обширных наборов данных. Например, с учетом большого количества разрозненности данных, генерируемых в когортных исследованиях, VA является подходом с высокой переносимостью, который потенциально может быть применен к любой области с большим объемом различных типов данных, включая категориальные и числовые наборы данных. Подход VA имеет два основных преимущества.
Единая, гибкая генерация гипотез. Пользователь может генерировать гипотезы о данных на месте, полученных на основе текущих результатов, и быстро создавать новые визуализации, которые исследуют гипотезу для двукратной экономии времени. Удобство использования и эффективность инструментов UVA являются их главным преимуществом перед традиционными инструментами визуализации информации.
Усилия, обычно связанные с построением графиков с использованием традиционных методов, могут занять несколько рабочих дней, чтобы выполнить то, что легко выполнить за два-три часа на платформе VA, такой как Tableau. Очевидно, что они являются и, скорее всего, будут другими платформами приложений, каждая из которых имеет свои преимущества и недостатки. Дополнительное преимущество подхода к этой задаче с помощью пара-анализа явно добавляет к общему преимуществу подхода к анализу сложных многомерных данных, основанного на VA.
View the full transcript and gain access to thousands of scientific videos
Это видео обсуждает вызовы анализа больших иммунологических наборов данных и представляет визуальную аналитику (VA) как решение. Техники VA используют визуализации, чтобы помочь анализаторам определить паттерны и тенденции в сложных данных.