January 2nd, 2011
視覚的な分析(VA)は、対話的にデータを分析の新しいアプローチです。このビデオでは、我々はハイスループット生物学的実験によってもたらされるデータの過負荷の問題を議論し、そのような問題に対する解決策として、VA提案する。ビデオでは、内と場札と呼ばれるVAツールを使用して免疫学的データセット間の分析を示しています。
視覚分析技術による免疫学的データの分析を容易にします。データの収集と保存の能力は急速に進歩していますが、データを処理して分析する能力は、それに比べてほとんど進歩していません。その結果、生物医学研究所には大規模なデータセットが存在することが多く、効果的かつ効率的に分析されていません。
そのため、潜在的に豊富で強力な情報は、ストレージシステムの深淵で失われます。ビジュアル分析(VA)は、大規模で複雑なデータセットを分析する新しい方法として登場しました。ボット技術は、アナリストがビジュアルインテリジェンスを使用して、一般的な傾向や外れ値などのデータのパターンを特定できるようにする視覚化に基づいています。
これらの迅速な視覚化により、データを探索しながら仮説を迅速に形成できます。VAツールの柔軟性により、アナリストは複数のデータセットをズームイン、ドリルダウン、および接続を構築しながら、それらの関係を調査できます。VAを統合データソースに適用することで、ユーザーは新しく重要な発見を明らかにすることができます。
親分析は、VAツールの専門家と技術系(ドメイン専門家とも呼ばれる)が協力して、ドメインの専門家がデータについて生物学的に関連する質問をするVAアプローチの1つです。その後、ボットツールの専門家は、この質問に答えたり、さらなる調査につながるパターンを明らかにするのに役立つビジュアライゼーションを作成します。このプロセスを反復して、洞察を提供するさまざまな視覚化を構築できます。
私たちは、大規模で複雑な生物医学データセットに対するペア分析VAアプローチの適合性をテストすることに着手しました。予備的なパイロット実験では、現在の問題に対して既存のVAツールのいくつかを評価しました。私たちは、目の前のタスクに最も適したツールとして、Tableau by Tableauソフトウェアを選択しました。
これらのパイロット実験の選択基準は、使いやすさ、全体的なユーザビリティなどの主観的なパラメータと、さまざまなインタラクション技術や視覚化機能などの客観的な技術的特徴に基づいていました。ここには、感染症の分野で働く研究室に典型的なMicrosoft Excelスプレッドシートのデータセットがあります。このセットには、遺伝的DNA配列の変異に関する被験者識別子データが含まれています。
この場合、対象に対するNFカッパBIA一塩基多型またはSNS、ならびにこの場合のいくつかの生体分子の観察された濃度、特定の刺激による免疫細胞の刺激後に対象の免疫細胞によって産生されるサイトカイン。次に、スプレッドシートまで下にスクロールします。このデータセットの量を把握するために、NF Kappa BIA遺伝子の異なる切り口である遺伝子型と、観察されたサイトカイン応答との間に一般的な関係があるかどうかを調べることに関心があります。
スティミュレーション後、データセットを Tableau に接続し、NF kappa BIA テーブルをインポートします。左側では、Tableau が正しいテーブルに接続され、列変数が Tableau の呼び出し、ディメンション、メジャーに自動的に分離されていることがわかります。ディメンションは、データを分類し、その列の量的値を測定する列です。
この視覚化では、観察されたサイトカイン応答濃度に対する刺激濃度レベルをプロットします。次に、サイトカイン濃度レベルの値を平均化します。濃度レベルの順序が間違っていますが、これにすばやく頼るのは非常に簡単です。
その後、画面に合わせてビューを切り替えて、データを視覚化しやすくなります。異なる遺伝子型を区別する方法を調査したいので、遺伝子型の次元をこの色セクションにドロップするだけです。視覚化は、遺伝子型に基づいて自動的かつ迅速に分離します。
これで、さまざまな表示形式を試すことができます。たとえば、折れ線グラフを使用すると、キャプチャしたいパターンがより明確になる場合があります。もちろん、他にも多くのオプションがあります。
この対になった分析の生物学者は、3M oh oh twoと呼ばれる試薬で刺激した後のQNFアルファと呼ばれるサイトカインマーカーの1つの産生の関係を調査することから始めることを示唆しています。そのためには、マーカー次元、TNFアルファ、および刺激次元3M oh oh twoをフィルタリングする必要があります。フィルタリングプロセスをより柔軟にするために、マーカーとスティミュラスの両方のディメンションに対してshow quick filterオプションを選択し、それが単一の値リストであることを確認できます。
この視覚化は、異なる色の遺伝子型で区切られた3つのMO oh 2刺激の異なるレベルの後のTNFアルファ産生との違いを明確に示しており、マーカーと刺激フィルターの値の他の組み合わせを選択でき、視覚化はそれに応じて変化します。Excelと同様に、別々のタブでさまざまな視覚化を作成できます。プレゼンテーションの目的で、複数の分析のサマリービューを生成することもできます。
この場合、NF Kappa BIASスニップ遺伝子型が異なる複数の被験者にわたるTNFアルファの産生を調査しました。このデモでは、ペア分析VAアプローチを用いて、約1分30秒で一連の強力な可視化を行うことに成功しました。同様のビジュアライゼーションのセットは、通常、生物医学研究者が Excel で生成するのに 30 分かかります。
前の例は、単純な 2 次元解析でした。VAの真の力は、複数の次元を同時に視覚化する能力です。たとえば、Tableau は、キー値の論理結合によるデータセット間の分析をサポートしています。
以下は、同じワークブックに配置された 2 つのスプレッドシートです。最初のデータセットは、前のデモンストレーション例のデータセットであり、もう 1 つは、フローサイトメトリーと呼ばれる手法で解析された、同じ細胞内で複数のサイトカインを産生する細胞のデータセットです。同時に、ポリファンクショナルディグリーまたはPFDと呼ばれる指標は、シートに名前を付けて、インポート段階でシートを識別しやすくすることができます。
これにより、Tableau は 2 つのスプレッドシートを接続できます。複数テーブル オプションを選択した後、新しいテーブルの追加機能を使用して 2 つのテーブルを結合できます。この機能は、2 番目のスプレッドシートを 1 番目のスプレッドシートに追加し、結合ステートメントを使用して、細胞タイプ、濃度レベルステージ、グループ刺激、被験者識別子などの同一のキーを使用してデータセットを結合します。
ディメンションはスプレッドシート名で区切られています。これにより、論理的な共同ステートメントの一部ではなかったディメンションを使用できます。例えば、ポリ機能性の定義は、複数のサイトカインを産生する細胞の割合です。
例えば、PFDが2の場合に2つのサイトカインを産生する細胞と、PFDが3の場合に3つのサイトカインを産生する細胞などです。ここでは、1 つの計算フィールドを作成して、これらの値を視覚的な表示で使用できる 1 つのメジャーに結合します。これで、視覚化の作成を開始できます。
まず、PFDに対するサイトカインレベルの濃度を2以上プロットし、最後のデモと同様に、PFDの平均値が2より大きい値を取ります。また、濃度ラベルは手動で設定することで、低から高へと配置しています。遺伝子型情報はこのグループの一部しか利用できないため、遺伝子型情報を含まないデータの行を除外する必要があります。
以前と同じように、遺伝子型をカラーラベルにすばやくドロップできるため、それぞれ異なる遺伝子型を区別することもできます。その後、画面に合わせてビューを切り替えて、データを視覚化しやすくなります。棒グラフを2つ変更することもできます。
たとえば、これをテストした折れ線グラフは、CYT応答とPFP応答が各遺伝子型に固有のパターンによってどのように変化するかをよく理解できます。GG遺伝子型のNF kappa b SNPは、他の遺伝子型と比較して応答パターンが異なることにすぐに気付きます。このパターンに対するさまざまな刺激の影響を調査することで、これをさらに調査できます。
刺激次元にLPSを追加した後、3つの主要な遺伝子型はすべての濃度で同様のPFDレベルを示しますが、3M MO oh 2刺激のみでは、GG遺伝子型は低濃度から高濃度の刺激までPFDでシャープを示します。この発見により、将来の実験で検証するための仮説、つまり刺激の種類がPFDに影響を与えるという仮説を立てることができます。最後の 2 つのデモでは、データセット内とデータセット間の両方で意味のあるパターンを検出するためのビジュアライゼーションの迅速な生成が見られました。
ビジュアル分析の能力は、大規模なデータセットに迅速に拡張でき、アプリケーションに応じて分析の次元をスケールアップし、膨大なデータセット間で情報を統合します。例えば、コホート研究で生成される多くのデータサイロにより、VAは、カテゴリや数値ベースのデータセットなど、大量の異なるタイプのデータを持つあらゆるドメインに適用できる可能性のある、非常に移転可能なアプローチです。VAアプローチには、主に2つの利点があります。
1つは、柔軟な仮説生成。ユーザーは、現在の知見から導き出されたデータに関する仮説をその場で生成し、仮説を探求する新しいビジュアライゼーションを迅速に作成して、2つの時間を節約できます。UVAツールの使いやすさと効率性は、従来の情報視覚化ツールに対する主な利点です。
従来の方法を使用したグラフ作成では、通常、Tableau などの VA プラットフォームでは 2 時間から 3 時間で簡単に達成できることを完了するのに数日かかる場合があります。明らかに、それらはそれぞれ特定の長所と短所を持つ他のアプリケーションプラットフォームであり、おそらくそうなるでしょう。パラ分析を使用してこのタスクに取り組む追加の利点は、複雑な多次元データの分析に対するVAベースのアプローチの全体的な利点を明確に追加します。
View the full transcript and gain access to thousands of scientific videos
このビデオでは、大規模な免疫学的データセットの分析の課題について議論し、その解決策としてビジュアル分析(VA)を紹介します。VA技術は、分析者が複雑なデータのパターンと傾向を特定するのに役立つ視覚化を活用します。