Summary
多くの研究者は、「中規模」「低速」「多次元データ」を生成し、スプレッドシートではなくデータベースでより効率的に管理できます。ここでは、多次元データの視覚化、リレーショナル データベース構造内のテーブルのリンク、半自動化されたデータ パイプラインのマッピング、データベースを使用したデータの意味の解明など、データベースの概念的な概要を示します。
Abstract
サイエンスは、進歩のためにますます複雑化するデータセットに依存していますが、スプレッドシートプログラムなどの一般的なデータ管理方法は、この情報の規模と複雑さの増大には不十分です。データベース管理システムは、これらの問題を是正する可能性を秘めていますが、ビジネスや情報学の分野以外では一般的に利用されていません。しかし、多くの研究室はすでに「中規模」、低速度、多次元データを生成しており、同様のシステムを実装することで大きなメリットを得ています。この記事では、データベースがどのように機能し、組織工学アプリケーションで提供される利点を説明する概念的な概要を説明します。ラミンA/C突然変異を有する個体からの構造線維芽細胞データは、特定の実験文脈内の例を例示するために使用された。たとえば、多次元データの視覚化、リレーショナル データベース構造内のテーブルのリンク、生データを構造化形式に変換するための半自動化データ パイプラインのマッピング、クエリの基になる構文の説明などがあります。データ分析の結果は、ハッチンソン・ギルフォード・プロジェリア、よく知られたアミノ症、および他のすべての実験群の陽性制御との間の整列環境における細胞組織において、様々な配置および意義のプロットを作成するために使用された。スプレッドシートと比較すると、データベースメソッドは非常に時間効率が良く、一度設定した使い方が簡単で、元のファイルの場所にすぐにアクセスでき、データの厳格性が向上しました。国立衛生研究所(NIH)が実験的な厳しさに重点を置いているのに対し、複雑なデータを効果的に組織化する能力が強いため、多くの科学分野が最終的にデータベースを一般的な慣行として採用する可能性が高い。
Introduction
科学的進歩がテクノロジーによって大きく推進される時代において、大量のデータの取り扱いは、あらゆる分野にわたる研究の不可欠な側面となっています。計算生物学やゲノミクスなどの新しい分野の出現は、技術の積極的な利用がいかに重要であるかを強調しています。これらの傾向は、ムーアの法則と技術の進歩から得られた着実な進歩のために続くことは確実です1,2.ただし、その結果、以前に実行可能だった組織の方法の機能を超える生成データの量が増加します。ほとんどの学術研究室には複雑なデータセットを処理するための十分な計算リソースがありますが、多くのグループには、ニーズの開発に適したカスタムシステムを構築するために必要な技術的専門知識が不足しています。このようなデータセットを管理および更新するスキルを持つことは、効率的なワークフローと出力のために重要です。データと専門知識のギャップを埋めることは、多面的なデータの広い範囲を効率的に処理、再更新、分析するために重要です。
スケーラビリティは、大規模なデータ セットを処理する際に不可欠な考慮事項です。例えば、ビッグデータは、膨大なボリューム、大きな異質性、およびオーディオやビデオ4、5などの高い生成率を特徴とするデータの処理から新たな洞察を明らかにする研究の繁栄分野です。このフィールドでは、データの急流を適切に処理するために、自動化された方法の編成と分析が必須です。ただし、ビッグ データで使用される多くの技術用語は明確に定義されていないため、混乱を招く可能性があります。たとえば、"高速" データは 1 日あたり数百万の新しいエントリに関連付けられますが、"低速" データは、アカデミック ラボの設定など、1 日あたり数百のエントリしか作成されない場合があります。ビッグデータを使用して発見されていない多くのエキサイティングな発見がありますが、ほとんどの学術ラボは、独自の科学的な質問に対処するためのそのような方法の範囲、パワー、および複雑さを必要としません5.時間6の場合、科学データがますます複雑化していることは疑いの余地がありませんが、多くの科学者は、拡大するデータニーズを満たさなくなった組織の方法を使用し続けています。たとえば、便利なスプレッドシート プログラムは、科学的なデータを整理するために頻繁に使用されますが、長期的には、スケーラブルでエラーが発生しやすく、時間効率が悪くなります。逆に、データベースはスケーラブルで比較的安価で、進行中のプロジェクトのさまざまなデータ セットを処理する場合に使いやすいため、問題に対する効果的な解決策です。
データ編成のスキーマを検討する際に生じる当面の懸念は、トレーニングと使用のためのコスト、アクセシビリティ、および時間の投資です。ビジネスの設定で頻繁に使用されるデータベース プログラムは、ビッグ データ システムの使用をサポートするために必要な資金よりも、比較的安価または無料で、経済的です。実際、Oracle データベース、MySQL、Microsoft (MS) Access9など、データベースを作成および保守するための、市販のソフトウェアとオープン ソース ソフトウェアの両方が存在します。また、多くの研究者は、MS Access に複数の MS Office アカデミック パッケージが付属しており、コストに関する考慮事項をさらに最小限に抑えることを学ぶことも奨励されます。さらに、ほぼすべての開発者がオンラインで広範なドキュメントを提供しており、Codecademy、W3Schools、SQLBoltなどの無料のオンラインリソースが多数あり、研究者が構造化クエリ言語(SQL)10、11、12を理解し、利用するのに役立ちます。他のプログラミング言語と同様に、SQL を使用してデータベースとコードを使用する方法を習得するには時間がかかりますが、十分なリソースがあれば、プロセスは簡単で、投資する価値があります。
データベースは、データのアクセシビリティと集約を容易にするための強力なツールですが、組織をより細かく制御できるデータを識別することが重要です。多次元性とは、測定をグループ化できる条件の数を指し、データベースは多くの異なる条件13を管理する際に最も強力である。逆に、次元の低い情報は、スプレッドシート プログラムを使用して処理するのが最も簡単です。たとえば、年と各年の値を含むデータセットには、可能なグループ化 (年に対する測定値) が 1 つだけ含まれます。臨床設定からのような高次元データは、効果的に維持するために大量の手動組織を必要とし、スプレッドシートプログラム13の範囲を超えて退屈でエラーが起こりやすいプロセスである。非リレーショナル (NoSQL) データベースは、主にデータが行と列14に適切に編成されないアプリケーションにおいて、さまざまな役割を果たします。これらの組織スキーマには、頻繁にオープン ソースになるだけでなく、グラフィカルな関連付け、時系列データ、またはドキュメント ベースのデータも含まれます。NoSQL は SQL よりもスケーラビリティに優れていますが、複雑なクエリを作成できないため、一貫性、標準化、および頻繁に大規模なデータ変更が必要な状況では、リレーショナル データベースの方が優れています。データベースは、科学的設定13、16で頻繁に必要とされる大規模なコンフォメーション配列にデータを効果的にグループ化して再更新するのが最適です。
したがって、この研究の主な目的は、データベースが「中規模」の「中型」、低速データのスケーラブルなデータ管理システムとしての可能性を科学界に知らせるとともに、患者の供給細胞株実験の具体例を用いた一般的なテンプレートを提供することです。他の同様のアプリケーションは、河川床の地理空間データ、縦方向の臨床研究からのアンケート、および増殖媒体17、18、19における微生物増殖条件を含む。この作業では、生データを構造化形式に変換するために必要なデータ パイプラインと組み合わせたデータベースの構築に関する一般的な考慮事項と有用性を強調します。SQL のデータベース インターフェイスとデータベースのコーディングの基本事項を示し、基本的なフレームワークの構築に適用できる知識を他のユーザーが得られるようにする例を示します。最後に、サンプルの実験データセットは、さまざまな方法で多面的なデータを集計するようにデータベースを簡単かつ効果的に設計できることを示しています。この情報は、独自の実験的なニーズに合わせてデータベースを実装するための道筋を仲間の科学者を支援するためのコンテキスト、解説、およびテンプレートを提供します。
研究室でスケーラブルなデータベースを作成する目的で、過去3年間にヒト線維芽細胞を用いた実験のデータを収集しました。このプロトコルの主な焦点は、ユーザーが可能な限りコストと時間効率の高い方法でデータを集計、更新、および管理できるように、コンピュータ ソフトウェアの構成を報告することですが、関連する実験方法も提供されます。コンテキスト。
実験的なセットアップ
サンプルを調製するための実験プロトコルは、前に20、21で説明されており、ここで簡単に説明する。コンストラクトは、ポリジメチルシロキサン(PDMS)と硬化剤の10:1混合物を用いたスピンコーティング長方形ガラスカバーリップによって調製し、その後、未組織化(等方性)または5μmギャップマイクロパターン配置(ライン)のいずれかで0.05 mg/mLフィブロネクチンを適用した。線維芽細胞を最適な密度でカバーリップに通路7(または正のコントロールの通路16)に播種し、24時間後に媒体が変化して48時間成長させた。次いで、細胞を4%パラホルムアルデヒド(PFA)溶液および0.0005%非イオン性界面活性剤を用いて固定し、続いてカバースリップを細胞核(4',6'-ジアミノジノ-2-フェニリノドール[DAPI])、アクチン(アレクサ・フルオール488ファロイジン)、およびフィブロネクチン(ポリクロンラジック)を用いて固定した。ヤギ抗ウサギIgG抗体(アレクサ・フルオール750ヤギ抗ウサギ)を用いたフィブロネクチンの二次染色を適用し、蛍光色素の退色を防ぐために全てのカバースリップに保存剤を取り付けた。マニキュアは、顕微鏡スライドにカバーリップを密封し、24時間乾燥させるために使用されました。
蛍光画像は、逆電動顕微鏡に搭載されたデジタル電荷結合装置(CCD)カメラと組み合わせた40倍油浸漬目的を用いて先に説明したように得られた。無作為に選択された10個の視野は、6.22ピクセル/μmの解像度に対応する40倍の倍率でカバースリップごとに画像化されました。カスタム記述コードは、核、アクチンフィラメント、フィブロネクチンを記述する画像とは異なる変数を定量するために使用されました。対応する値、組織パラメータ、ジオメトリ パラメータは、自動的にデータ ファイルに保存されました。
セルの線
すべてのサンプル データ セルラインに関するより広範なドキュメントは、以前の出版物20にあります。簡単に説明するために、データ収集は承認され、インフォームド・コンセントはUCアーバイン機関審査委員会(IRB # 2014-1253)に従って行われました。ヒト線維芽細胞は、ラミンA/C(LMNA)遺伝子変異の異なる変動の3つのファミリーから収集された:ヘテロ接合LMNAスプライス部位突然変異(c.357-2A>G)22(ファミリーA);。除数423(ファミリーB)におけるLMNAナンセンス突然変異(c.736 C>T、pQ246X)およびLMNAミスセンス突然変異 (c.1003C>T, pR335W) エキソン 624 (ファミリー C) における。線維芽細胞はまた、関連する突然変異陰性対照として各ファミリーの他の個体から回収され、「コントロール」と呼ばれ、他のものは「ドナー」と呼ばれる無関係な突然変異陰性対照として購入された。陽性対照として、ハッチンソン・グリフォード・プロジェリア(HGPS)を有する個体からの線維芽細胞を購入し、LMNA G608G点突然変異25を有するHGPSを有する8歳の女性患者から採取した皮膚生検から増殖させた。合計で、22個体からの線維芽細胞を試験し、この研究のデータとして使用した。
データ型
線維芽細胞データは、細胞核変数(すなわち、変形性核のパーセンテージ、核の面積、核偏心)20または方位順序パラメータ(OOP)21、26、27(すなわち、アクチンOOP、フィブロネクチンOOP、OOP核)の2つのカテゴリーのいずれかに分類された。このパラメータは、すべての方位ベクトルの平均順序テンソルの最大固有値と等しく、以前の出版物26,28で詳細に定義されている。これらの値は、年齢、性別、疾患の状態に対する値、特定の症状の存在など、さまざまな可能な立体構造に集約されます。これらの変数の使用方法の例については、結果セクションを参照してください。
コードとファイルの例
上記のデータに基づくコードおよびその他のファイルの例は、このペーパーでダウンロードでき、その名前と種類を表1にまとめます。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
注: このプロトコルで使用されるソフトウェア バージョンについては、マテリアルの表を参照してください。
1. データがデータベース組織スキームの恩恵を受けるかどうかを評価する
- コードとデータベースの例をダウンロードします (表 1にまとめた補足コーディング ファイルを参照)。
- 図 1を使用して、対象のデータセットが "多次元" であるかどうかを評価します。
注:図 1は、サンプル・データ・セット用に提供される多次元データベースをグラフィカルに表したものです。 - 例のような「多次元」形式でデータを可視化でき、特定の実験結果を任意の次元(条件)に関連付ける能力があれば、利用可能なデータに対するより大きな科学的洞察が得られる場合は、リレーショナル データベースを構築します。
2. データベース構造の整理
注 : リレーショナル データベースは、テーブル形式で情報を格納します。テーブルは、スプレッドシートと同様に行と列のスキーマで編成され、データベース内の識別情報をリンクするために使用できます。
- データ ファイルを整理して、一意の名前をよく考え出します。ファイルの名前付け規則とフォルダ サブフォルダ構造を適切に行うと、ファイルに手動でアクセスする読みやすさを損なうことなく、幅広いデータベーススケーラビリティを実現することをお勧めします。"20XX-YY-ZZ" などの一貫した形式で日付ファイルを追加し、メタデータに従ってサブフォルダに名前を付けるのもその一例です。
- データベース構造が設計されているように、異なるテーブルのフィールド間にリレーションシップを描画します。したがって、多次元性は、個々のテーブル内の異なるフィールド (テーブル内の列) を相互に関連付けることによって処理されます。
- 手順 2.2 で作成したデータベースとリレーションシップを説明する Readme ドキュメントを作成します。異なるテーブル間のエントリがリンクされると、関連するすべての情報がそのエントリに関連付けられ、複雑なクエリを呼び出して目的の情報にフィルタを適用できます。
注: Readme ドキュメントは、構造に不均一なデータを追加することなく、プロジェクトに関する補足情報とデータベース構造情報を提供するための一般的なソリューションです。 - 手順 2.1-2.3 に従って、個人の異なる特性 (図 2A)がそれらの個人の関連実験データに関連する場合に、この例と同様の結果を得ます (図 2B)。パターン型 (図 2C) とデータ型 (図 2D) の列をメイン データ値テーブルの一致するエントリに関連付け、さまざまな短縮表記を説明する方法 (図 2B)を使用して同じことが行われました。
- 長距離データ収集のために記録する必要がある、重要で単に役立つデータ ポイントをすべて決定します。
注: 前述のように、スプレッドシート プログラムよりもデータベースを使用する主な利点はスケーラビリティです。- 開始する前に、個別のデータ ポイントを作成するために必要な情報を特定します。生データを変更または保存する代わりに、変更や保存を行うのではなく、再分析を可能にしてアクセスできるようにします。
注: 特定の例 (図 2)では、個人に対応する "指定子" である "パターンの種類"、"カバースリップ #"、および "変数の種類" は、関連付けられた値の区別を示す重要なフィールドでした。 - 必要に応じて、"Coverslips の合計数" などのその他の有用でない重要でない情報を追加して、実行された繰り返しの数を示し、この例でデータ ポイントが欠落しているかどうかを判断します。
- 開始する前に、個別のデータ ポイントを作成するために必要な情報を特定します。生データを変更または保存する代わりに、変更や保存を行うのではなく、再分析を可能にしてアクセスできるようにします。
3. パイプラインの設定と整理
- データ収集につながる可能性のあるさまざまな実験およびデータ分析方法と、各データ型の通常のデータ ストレージプラクティスを特定します。GitHub などのオープンソースバージョン管理ソフトウェアを使用して、ユーザーの負担を最小限に抑えながら、必要な一貫性とバージョン管理を確保します。
- 可能であれば、自動化されたパイプラインを可能にするために、一貫した名前付けとデータの格納の手順を作成します。
注: この例では、出力に一貫した名前が付けられているため、ファイルを選択すると、特定の属性を検索するデータ パイプラインを簡単に作成できます。一貫した名前付けが不可能な場合は、データベース内のテーブルを手動で設定する必要がありますが、これはお勧めしません。 - 任意の便利なプログラミング言語を使用して、データベースの新しいデータ エントリを生成します。
- 小さな「ヘルパー」テーブル (表 1のファイル #8-#10) を別々のファイルに作成し、データの自動選択をガイドします。これらのファイルは、パイプラインが操作できる可能性のテンプレートとして機能し、編集が簡単です。
- データ パイプラインの新しいデータ エントリを生成するには (図 3D)、ユーザーが選択する入力としてヘルパー テーブルを使用するようにコード (LocationPointer.m、 表 1 のファイル #1) をプログラムします (表 1のファイル #8-#10)。
- ここから、新しいエントリと前のエントリを組み合わせて、ファイルの場所の新しいスプレッドシートを作成します (図 3E)。#2 この手順を自動化するコードを作成します。
- その後、この結合されたスプレッドシートの重複を確認します。LocationPointer_Remove_Duplicates.m (表 1のファイル #3) に示すように、この手順を自動化するコードを作成します。
- さらに、スプレッドシートにエラーがないかどうかを確認し、その理由と場所をユーザーに通知します (図 3F)。BadPointerCheck.m (表 1のファイル#4) に示すように、この手順を自動化するコードを作成します。または、LocationPointer_Check.m に示すように、コンパイル済みデータベースをチェックし、1 つの手順で重複を識別するコードを記述します (表 1のファイル#5)。
- Manual_Pointer_Removal.m (表 1のファイル#6) に示すように、データベースの整合性を失うことなく、ユーザーが不正な点を手動で削除できるようにするコードを作成します。
- 次に、ファイルの場所を使用してデータ値スプレッドシート (図 3G、表 1のファイル #12) を生成し、ファイルの場所を識別したり、将来のエントリとマージしたりするためにアクセスできるエントリの最新のリストを作成します (図 3H)。Database_Generate.m に示すように、この手順を自動化するコードを作成します (表 1のファイル#7)。
- 前述のように、厳密な命名規則、自動ファイル アセンブリ コード、および自動エラー チェックが含まれているかどうかを確認して、パイプラインが実験的な厳しさに追加されることを再確認します。
4. データベースとクエリを作成する
注 : テーブルがデータベースに情報を格納する場合、クエリはデータベースに対して特定の条件を満たす情報の要求です。データベースを作成するには、空白のドキュメントから開始する方法と、既存のファイルから開始する方法の 2 つがあります。図 4は、図 2に示すデータベースリレーションシップを使用して実行するように設計された SQL 構文を使用したサンプル クエリを示しています。
- 方法 1 : データベースとクエリを最初から作成する
- 空のデータベース ドキュメントを作成します。
- [外部データ]を選択して、ヘルパー テーブル (表 1の#8#10) を読み込みます。テキスト ファイルのインポート|ファイルの選択(ファイル #8 -#10) |区切り |最初の行にヘッダーが含まれています。デフォルトのままにする|自分の主キーを選択する (セルライン ファイル #8の指定子、データ型ファイルの変数名 #9、パターンタイプ ファイルのパット名 #10) |デフォルトのままにする|終了します。
- [外部データ] メニューの [データ値テーブル (テーブル 1のファイル #12) を読み込みます。テキスト ファイルのインポート|ファイルの選択(ファイル#12) |区切り |最初の行にヘッダーが含まれています。デフォルトのままにする|主キーを追加する|テーブルにインポート: データ値|終了します。
- [データベース ツール|関係|すべてのテーブルをボードにドラッグする|リレーションシップの編集|新規作成|DataValue フィールドをヘルパー テーブル指定子と一致させる|ジョイントタイプ3.
- [作成] |クエリ デザイン:
- 関連するすべてのテーブルを選択するか、上部のウィンドウにドラッグします。この例では、'セル線'、'データ値'、'データ型'、および 'パターン型'。リレーションシップは、以前のリレーションシップ デザインに基づいて自動的に設定する必要があります。
- 目的の結果を求めるクエリ列を入力します。
- [表示]をクリックし、[ |合計.
- 最初の列 (表: データ値、フィールド: データバー、合計: グループ化:グループ化:基準: "Act_OOP")、2 番目の列 (表: データ値、フィールド: PatVar、合計: グループ化、基準: "行")、および 3 番目の列 (表: Cell_Lines、 フィールド: 指定子、合計:グループ化、並べ替え: 昇順)。
- 4 番目の列 (テーブル: データ値、フィールド: パラメーター、合計: Ave)、5 番目の列 (テーブル: データ値、フィールド: パラメーター、合計: StDev)、および 6 番目の列 (テーブル: データ値、フィールド: パラメーター、合計: カウント) を入力します。
- クエリを実行します。
- または、提供されているサンプル データベースを例の基礎として使用します。前にダウンロードしたデータベース ファイル Database_Queries.accdb (表 1のファイル #13) を開きます。既存のテーブルを目的のデータに置き換えることで、テンプレートとして使用します。
5. 有意性分析のための統計ソフトウェアへの出力テーブルの移動
- このサンプル実験データでは、さまざまな条件間の平均比較にTukeyの検定を使用して、分散の一方向分析(ANOVA)を使用します。
注: p < 0.05 の値は統計的に有意であると考えられました。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
データの多次元性
ここで提示されるデータセットの例では、「方法」セクションで説明した被験者は、心臓病を引き起こすLMNA突然変異(「患者」)、関連する非突然変異陰性対照(「コントロール」)、無関係な非突然変異陰性対照(「ドナー」)、およびハッチンソン・ギルフォード・プロジェリア症候群(HGPS)を有する3つの家族の個体群に分けられた。コントロールとドナーからの結果は、LMNA突然変異の集合的な欠如を考えると、全体的なネガティブコントロール(N.C.)グループとしてさらにグループ化することができます。すべての被験者の細胞株には、条件群に基づいて「突然変異状態」が関連付けられていた(図1 - 濃い青色軸)。各実験について、被験者由来の線維芽細胞を未組織化(等方性)またはマイクロパターン(線)フィブロネクチンの配置で培養し、「パターン型」(図1-オレンジ軸)の状態を作り出した。細胞を固定し、免疫染色し、画像化した後、「カバースリップ#」を転写した。複数の実験(すなわち、技術的複製)が同じ個体の細胞を用いて起こるので(図1-明るい緑色軸)。カスタムMATLABコード20、21は、次いで、細胞核または組織組織変数の異なる側面を「可変型」として定量するために使用された(図1 -ティールグリーン軸)。3つの因子は細胞のヒト源に関連し、その結果、「突然変異状態」に加えて「ファミリー」(図1 -濃いピンク色の軸)と「生検時の年齢」(図1-濃い緑色の軸)に関連していた。図1に含まれていないその他の次元は、問題の個人の「プレゼンテーションの年齢」、「症状」、「指定者」、「性別」であった。ここで示す例では、データ集計に対して少なくとも 10 個のディメンションが作成されます。したがって、このサンプル データは、リレーショナル データベースによる組織の主要な候補です。
図 1: LMNA突然変異データ セットからの多次元データの可視化1 つのキューブは、"変数型"、"パターン型"、および "カバースリップ #" の 3 つのディメンションによって定義されます。さらなる次元は、「突然変異状態」、「生検の年齢」(yrs)、および「家族」の軸として示されています。色付きのラベルは、各個人の立方体の生検の年齢(緑色の数字)など、表示されるさまざまな軸に対応します。ここでは、10個の可能な次元のうち6つの次元を使用して、実験データポイントの多次元性を示す。この図の大きなバージョンを表示するには、ここをクリックしてください。
パイプラインの編成
すべてのデジタル データの推定 95% が非構造化4ですが、データベースには構造化形式が必要です。それでも、データ パイプラインに適した自動化されたメソッドを作成することは、コンテキストに大きく依存します。
図 2: LMNA突然変異データ・セット内の表とデザイン・ビューの関係リレーショナル データベースには、あるテーブルのフィールドを別のテーブルの情報にリンクできるという利点があります。この例では、さまざまな情報をリンクする方法を視覚的に示します。この図の大きなバージョンを表示するには、ここをクリックしてください。
この例では、各実験から収集された画像は、担当ラボ メンバーの日付とイニシャルで指定されたフォルダーに格納され、件名とカバースリップ番号が一覧表示されるサブフォルダーが含まれています。パイプライン ファイルは、補足コーディング ファイルに記載されており、フローチャートの図 (図 3)にまとめて説明します。カスタムコード(図3B)20、21を用いて、これらの蛍光画像(図3A)から様々な実験条件から異なるメトリックを定量した。例えば、アクチン配向順序パラメータ21を、ファロイジン(図3A)で染色した組織から抽出し、異なる個体からの線維芽細胞の組織を比較するために使用される。コード出力は、ソース イメージと同じフォルダに保存されました (図 3C)。
図 3: 一般化されたコンテキストでの一般的なデータ パイプラインのニーズの例新しいエントリは、ユーザー入力と自動コードを使用して作成され、重要な情報をスプレッドシート形式に書式設定しました。これらのエントリは、ファイルの場所エントリの最新のセットと組み合わされ、エラーがないか確認し、ファイルの場所のスプレッドシートとデータ値のスプレッドシートの両方として保存されました。スケール バー = 20 μm.ここをクリックすると、この図の大きなバージョンが表示されます。
LMNA突然変異データ・セット内の新規関係の識別
多数の可能なコンフォメーションを与えると、手動のデータ集約方法を使用して新しい関係が存在する場所を特定することが困難な場合があります。この特定の文脈において、我々は、OOP27を用いて測定された複数の条件にわたる細胞下アクチンフィラメントの組織を比較することに興味を持った。
図 4: SQL 構文を使用したクエリの例SELECT ステートメントと FROM ステートメントは、クエリを生成するための要件ですが、多くの場合、追加のコマンドと条件が含まれています。GROUP BY は、データの集計方法を明確にし、HAVING ステートメントまたは WHERE ステートメントは、出力を特定の条件を満たすデータに制限し、ORDER BY は出力の配置順序を示します。この図の大きなバージョンを表示するには、ここをクリックしてください。
OOPは、異方性環境における順序の程度を定量化する数学的構成体であり、完全に等方性組織に対応するゼロに正規化され、完全に整列した組織に対応する1つである。データ・セットは、最初にパターン・タイプ別にライン (図 5A)および等方性 (図 5B)条件として分割され、フィブロネクチン・マイクロパターン化が組織組織に大きな影響を与えるため、大きく異なる Ooap が期待されていました。等方性組織を比較する際の条件間に有意な差はなかった(図5B)。逆に、パターン化された組織は、正対照細胞株(HGPS)(図5A)において統計的に組織化されておらず、データが異なるグループに集約された場合でもこの関係が保持された(図5C)。アクチンOOPは、さらに、突然変異状態およびファミリーによって分離された生検時の個体の年齢に対してプロットされ、臨床変数に対する凝集を例示した。核欠陥20とは異なり、アクチン組織と個人の年齢との間に相関関係はない(図5D)。最終的に、図 5に示すプロットは、同じデータを異なる組み合わせで分析する方法と、データベースを使用して複数のクラスに該当するデータを集計する通常の困難なタスクを簡単に実行できることを示しています。
この記事では、患者のソース線維芽細胞からのデータを条件間で比較し、突然変異の結果を決定した。本研究では、HGPSと3つのファミリーの両方が核エンベロープを破壊する可能性のあるLMNA-リンク性疾患を有するが、患者は主に心臓機能障害に関連する症状を示すのに対し、HGPS個体は22、23、24に影響を及ぼす複数の臓器系を有する。実際、HGPS患者に由来するマイクロパターン環境細胞にもかかわらず、他のどの細胞株よりも統計的に低いアクチンOOP値を有していた(図5A、C)。これは、HGPS患者が突然変異によって引き起こされる皮膚の異常を伴う研究で唯一のものであることと一緒に行います。異なるコンフォメーションで同じデータを表示することは、多様なデータセットの科学的な調査に対する追加の洞察と手段を提供するのにも役立ちます(図5)。
図 5: actin OOP 変数の条件間の比較(A、B)グループ化は、非関連ネガティブコントロールドナー、関連するネガティブコントロールコントロール、3つのファミリーからのLMNA突然変異患者、および陽性対照HGPSの4つの主要な条件に対応する。(C)すべての陰性対照(N.C.)を組み合わせ、患者を代わりに家族(PA、PB、PC)で分離した。(D) この研究のために採取された生検時の年齢に対する等方性アクチンOOPの潜在的なグラフを、状態および家族によって分離した。パネル A、C、および D はライン パターンでマイクロパターン化された組織用にプロットされ、パネル B は等方性組織用にプロットされます。p < 0.05 (*) の統計的有意性がパネル A、C、および D で見つかりました。パネル B では、ペア間に有意性は見つかりませんでした。すべての誤差範囲は、データベース内で計算された標準偏差を表します。この図の大きなバージョンを表示するには、ここをクリックしてください。
補足的なコーディング ファイル。このファイルを表示するには、ここをクリックしてください (右クリックしてダウンロードしてください)。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
プロトコルの技術的な議論
データベースの使用を検討する際の最初の手順は、データがこのような組織の恩恵を受けるかどうかを評価することです。
次の重要な手順は、ユーザーからの最小入力を要求し、テーブル データ構造を生成する自動化されたコードを作成することです。この例では、ユーザーはデータ型のカテゴリ (セルの核または構造測定)、セルラインの主題指定子、および選択されるファイルの数を入力しました。次に、関連するファイルがユーザーによって選択され (表 2、列 1)、行項目が自動的に作成され、ファイル内に含まれるすべての変数が入力されます (表 2、列 2)。さらに、別の実験的なエントリを追加する必要がある場合、ユーザーがループを続行することを選択できるように、コードが柔軟であることが重要です。そうでない場合は、ファイルが保存され、ループが終了します。この手順で説明するファイルの場所から新しいエントリを追加し、エラーをチェックし、スプレッドシートをアセンブルする基本的な機能はすべて、効率的なデータ パイプライン設定に不可欠です。
データ パイプラインの作成時にファイルの場所を使用すると、実験的な厳しさが増すことに注意する必要があります。具体的には、データ値のすべてのファイルの場所を一覧表示する対応するスプレッドシートを使用すると、ユーザーは生データを収集した研究者のラボ ノートブックに任意のデータ ポイントをバックトラックできます。数百から数万のデータ ポイントを扱う場合、プロジェクトの有効期間を通して透明性とアクセシビリティが向上します。データ値を格納するのではなく、最初にファイルの場所を保存し、後でデータの値をコンパイルすることを強くお勧めします。
データベースを作成したら、最も簡単な方法は、デザイン ビューを使用してクエリをプログラミングすることです。ユーザーは、提供されたテンプレート (表 1のファイル#13) を開始点としてダウンロードすると便利です。または、SQL 言語を使用して直接プログラムすることもできます (図 4)。
科学的議論
この記事の目的は、データ セットのスケーラビリティと透過性を解明するデータ パイプラインとデータベースを含むメソッドを配布することでした。これらの方法は、情報学やビジネス以外では広く使用されていませんが、生物学的な文脈で働く人々にとって大きな可能性を秘めています。科学がコンピュータに依存し続けるにつれて、効果的な管理システムの重要性も6、29に上がります。データベースは、大量および/または高速アプリケーションのために頻繁に使用され、特に臨床患者集団のための彼らの使用に関して、文献によく引用されている8、30、31。ラットゲノムデータベースキュレーションツールやREDCapなどの特定の分野に対して、臨床および翻訳研究用のREDCapが既に構築されているものがいくつかあります。従って、データベースの使用は、臨床領域8または大型ゲノムデータベース32において採用されているが、組織工学などの他の科学的分野では一般的ではなっていない。
スプレッドシートプログラムを使用してますます複雑化するデータを処理する問題は、科学コミュニティ34内で長い間認められてきました。ある研究では、補足ファイルを含むゲノムジャーナル論文の約20%が、誤って日付35に変換された遺伝子名を持っていたことが報告されました。これらのミスは、2010年から2015年の間に年平均15%増加し、年間4%のゲノム論文の年間増加をはるかに上回っています。多くの場合、大量のデータ内の個々のエラーを特定することは不可能です。公開された記事は、エラーの頻度を減らすために、より良いスプレッドシートの実践に関する科学者を教育するためにも存在します。データベースの最も強い利点の 1 つは、自動化された方法によるエラーの削減と、疑わしい可能性のあるデータを検証できることです (図 3)。
この方法論の重要な結果は、データ分析の厳格さの増加です。データの再現性を高めることの重要性は、NIHだけでなく、他の科学者や機関によって強調されています36,37.すべてのデータベースに対応するファイルの場所のスプレッドシートを持つことで、問題の実験のラボ ノートブックにデータ ポイントを簡単にトレースできます (図 3)。また、個々のデータ ポイントをすばやく識別し、対応するファイルの場所を使用して電子的に見つけることができます。データ・セットが時間の経過と一度に修正される場合でも、問題が発生した場合や古いバージョンをチェックする必要がある場合に備えて、過去のすべてのファイルを保持することをお勧めします。非破壊的に作業し、古いバージョンをデータ パイプライン内に保持すると、冗長性を通じてセキュリティが実現し、トラブルシューティングが向上します。
同じデータ パイプラインのニーズに使用できるコーディング言語を組み合わせた無数のリレーショナル データベース管理システムがあります。最も適切な選択は、使用されているデータとコンテキストに大きく依存します。一部のアプリケーションは、スケーラビリティ、柔軟性、信頼性、およびその他の優先順位に最適です。データベースの規模は依然として技術的に有限ですが、メモリ制限に達することは、ほとんどの科学ラボの範囲を超えたままです。たとえば、MS Access データベースのメモリ サイズ制限は 2 GB で、データとフィールド数に応じて数十万から数百万のエントリの順序でデータ セットになります。ほとんどのラボでは、この規模の実験的なニーズは決してありませんが、その場合、スプレッドシート ソフトウェアは有効な制限をはるかに超える可能性があります。これに対し、ビジネス・レベルのリレーショナル・データベース管理システムは、数百万のトランザクションを同時に処理しながら、より大きなデータ・セットを処理できます。データベースが科学研究室で一般的に使用されていない理由の一部は、過去の実験がそのようなデータの大きさのニーズをクレストすることはめったにないので、使いやすいスプレッドシートソフトウェアが代わりに普及したということです。ただし、これらのメソッドを機能させるために必要な多大な投資は、データ パイプラインを計画し、データベースを使用するための SQL を学習するために必要な時間です (図 3と図 4)。コーディングの経験はプロセスを非常に長くしますが、ほとんどの場合、SQL を最初から学習する必要があります。豊富なドキュメントは、開発者による広範なドキュメントを通じてオンラインで入手できるだけでなく、Codecademy、W3Schools、および SQLBolt10、11、12などの無料の SQL チュートリアルを参照してください。しかし、プログラム教育ウェブサイトLynda38など、サブスクリプションを必要とするいくつかの選択肢があります。データベースの基本に関する詳細な情報は、オンラインで見つけることができます。学術的な場面では、優れたラボバイインと堅牢なシステムは、クリエイターを上回り、複数の学生にわたる長年のプロジェクトを容易にするのに役立ちます。これは、セットアップ中にガイドラインと実装手順を作成することによって実現できます。確かに、十分に機能する共同データパイプラインとデータベースシステムを持つことにはすべての研究者にとって高い価値があります。
この方法の他の利点には、生データを構造化形式に変換する自動化された方法を使用する機能、データベース内に格納された使いやすさ、データセットの一定の再更新と再集計などがあります (図 3)。また、1 つのデータ ファイルから複数の変数の価値のある情報を取得し、プロンプトが表示されたときにデータ パイプラインを自動化することもできます。示されている文脈では、一般的に利用可能で経済的なソフトウェアは、高価でニッチなソフトウェアパッケージが機能的なデータベースを達成するために必須ではないことを実証する結果を達成するために使用されました。ほとんどの研究所の研究資金の限られた範囲を考えると、データベース管理の効率を高める能力は貴重な商品です。
結論として、科学的データセットがより複雑になるにつれて、データベースは科学界にとってますます重要になり、データに対する現在の広範なスプレッドシートの使用よりも一般的で、さらに効果的になる大きな可能性を秘めています。ストレージ。サイエンスにおけるデータの透明性と再現性に関する問題は、データセットのサイズと複雑さが増し続けるにつれて、将来的に拡大し続け、データベースの導入と自動化されたデータパイプライン手法の重要性を強調します。現在および将来の一般的な科学的ニーズ。
参照番号 | ファイル名 | 型 |
1 | ロケーション ポインタ.m | 配管コード |
2 | 場所ポインター コンパイル.m | 配管コード |
3 | LocationPointer_Remove_Duplicates | 配管コード |
4 | 不正なポインタチェック.m | 配管コード |
5 | LocationPointer_Check | 配管コード |
6 | Manual_Pointer_Removal | 配管コード |
7 | Database_Generate | 配管コード |
8 | Cell_Lines.csv | ヘルパー テーブル |
9 | Data_Types.csv | ヘルパー テーブル |
10 | Pattern_Types.csv | ヘルパー テーブル |
11 | DataLocation_Comp_2018_6_26_10_01.csv | データの場所ファイルの例 |
12 | DataValues_2018_6_26_10_02.csv | データ値ファイルの例 |
13 | Database_Queries.accdb | データベースの例 |
表 1: プロトコルを実行するためにアップロードできるすべてのサンプル ファイルの一覧を示します。
選択されたファイル | 変数 |
サマリー.マット | 欠陥核の割合 |
全核面積平均(μm2) | |
欠陥核面積平均(μm2) | |
正常核面積平均(μm2) | |
すべての原子核偏心平均 | |
欠陥核偏心平均 | |
正常核偏心平均 | |
すべての核MNC平均 | |
欠陥核MNC平均 | |
正常核MNC平均 | |
Act_OOP.mat | アクチンOOP |
アクティンOOPディレクターアングル | |
Fibro_OOP.mat | フィブロネクチン OOP |
フィブロネクチン OOP ディレクターアングル | |
Nuc_OOP.mat | 核OOP |
核OOPディレクターアングル |
表2:細胞核測定値または線維芽細胞構造(OOP)データの異なる変数に対応する選択ファイルをリストする。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者たちは何も開示する必要はない。
Acknowledgments
この研究は、国立衛生研究所の国立心臓・肺・血液研究所が支援し、R01 HL129008を付与しています。著者らは、特にLMNA遺伝子突然変異ファミリーメンバーの研究への参加に感謝する。また、リンダ・マッカーシーが細胞培養とラボスペースの維持に協力してくれたことに感謝し、ナサム・チョクルが細胞イメージングと核データ分析に参加してくれたことに感謝し、マイケル・A・グロスバーグは、Microsoft Accessデータベースの初期設定に関する適切なアドバイスを提供し、その他の技術的な質問に答えてくれたことを感謝します。
Materials
Name | Company | Catalog Number | Comments |
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |
References
- Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
- Mast, F. D., Ratushny, A. V., Aitchison, J. D.
Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014). - Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
- Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
- Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
- Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
- Broman, K. W., Woo, K. H.
Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018). - Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
- Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
- Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
- SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
- Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
- Pedersen, T. B., Jensen, C. S.
Multidimensional database technology. Computer. 34 (12), 40-46 (2001). - Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
- Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
- Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
- Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
- Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
- Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
- Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
- Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
- Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
- Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
- Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
- Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
- Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
- Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
- Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
- Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
- Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
- Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
- Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
- Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
- Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
- Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
- Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
- Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
- SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).