Biology

実験間比較のための細胞周期同期喪失モデルを用いた同期時系列データのアライメント

Published: June 9, 2023 doi: 10.3791/65466

Sophia A. Campione¹, Christina M. Kelliher², David A. Orlando³, Trung Q. Tran⁴, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Biology, University of Massachusetts, ³Orlando Data Science LLC, ⁴Department of Computer Science, Duke University

Summary

同期時系列実験を分析する際の課題の1つは、実験によって同期からの回復の長さと細胞周期期間が異なることが多いことです。したがって、異なる実験からの測定値をまとめて分析したり、容易に比較したりすることはできません。ここでは、フェーズ固有の比較を可能にするために実験を調整する方法について説明します。

Abstract

細胞周期の調査は、多くの場合、細胞集団を同期させて、細胞が細胞周期を通過するときに時系列のさまざまなパラメータを測定することに依存します。しかし、同様の条件下でも、複製実験では、同期からの回復と細胞周期の横断に必要な時間に違いが見られるため、各時点で直接比較することはできません。実験間で動的測定値を比較するという問題は、突然変異集団または同期回復時間および/または細胞周期期間に影響を与える代替増殖条件で悪化します。

私たちは以前、細胞の同期集団がどのように同期から解放され、細胞周期を通して進行するかを監視する、細胞周期同期の喪失の特徴付け(CLOCCS)という名前のパラメトリック数学モデルを公開しました。次に、モデルから学習したパラメータを使用して、同期時系列実験の実験時点を正規化された時間スケール(生存線点)に変換できます。ライフラインスケールは、実験開始からの経過時間を分単位で表すのではなく、同期から細胞周期への進入、そして細胞周期の段階までの進行を表します。ライフラインポイントは、同期された母集団内の平均細胞の位相に対応するため、この正規化された時間スケールにより、さまざまな期間や回復時間を含む実験間の直接比較が可能になります。さらに、このモデルは、異なる種(例えば、サッカロミセス・セレビシエおよびシゾサッカロミセス・ポンベ)間の細胞周期実験を調整するために使用されているため、細胞周期測定値の直接比較が可能になり、進化の類似点と相違点が明らかになる可能性があります。

Introduction

細胞周期の進行に合わせて同期した細胞集団に対して行われる時系列測定は、細胞周期の進行を制御するメカニズムを調べるための標準的な方法です¹、²、³、⁴、⁵、⁶、⁷^、⁸.同期/リリース時系列実験間で比較を行う機能は、これらの動的プロセスを理解するために不可欠です。調査結果を裏付けるために反復実験を使用すると、結論の再現性の信頼性を高めることができます。さらに、環境条件間、変異体間、さらには種間の比較により、細胞周期制御に関する多くの新しい洞察を明らかにすることができます。しかし、同期からの回復と細胞周期の進行速度における実験間のばらつきは、反復間または細胞周期のタイミングを変更した実験間で時間ポイント間の比較を行う能力を損ないます。これらの課題のため、反復は完全な時系列に含まれないことがよくあります(例:Spellman et ^al.4)。時系列全体の反復が収集される場合、データを集計して分析することはできず、単一の反復が分析に使用され、他の反復はしばしば補足的な数値に追いやられます(例:Orlando et ^al.8)。さらに、異なる回復または細胞周期進行特性を有する実験間の比較は困難である。関心のあるイベントと細胞周期のランドマーク(芽の出現、S期の開始、後期の開始など)の間のより短い間隔の測定は、これらのランドマークイベントが追跡される場合のエラーを減らすのに役立ちます¹、²、³、⁹、10^、¹¹^、¹²。ただし、微妙ではあるが重要な違いは、これらのアドホックな方法を使用しても検出されないか、不明瞭なままになる可能性があります。最後に、シングルセル解析では、同期やアライメントに頼らずに細胞周期の進行を解析することができますが¹³、シングルセル研究における大規模な測定は困難でコストがかかる可能性があります。

これらの困難を克服するために、同期集団で行われた時系列測定の分析を支援するために、細胞周期同期の喪失の特徴付け(CLOCCS)モデルを開発しました^14,15。CLOCCSは、細胞周期の段階が同期から解放され、細胞周期が進行するときに、細胞周期の段階にわたる同期細胞の分布を記述する柔軟な数学的モデルです。分岐プロセスの枠組みにより、このモデルは、S. cerevisiaeで観察されたように、分裂後の母細胞と娘細胞の非対称性を説明することができますが、S. pombeなどの分裂によって分裂する生物にも有用です。モデルは、さまざまな測定タイプのセットから入力を受け取り、細胞周期のフェーズを指定できます。これは、経時的な出芽細胞の割合の測定を含む出芽細胞周期相データを取り込むことができ、出芽していないG1相の外側の細胞数の推定を可能にする^14,15。このモデルは、DNA含有量を測定するフローサイトメトリーデータを取り込むこともできるため、G1からS、SからG2、MからG1への画期的な遷移の評価が可能になります¹⁵。蛍光形態マーカーは、細胞周期期を同定するためにも使用できます。ミオシンリング、核、および紡錘体極体(SPB)の蛍光標識を使用して細胞周期期を決定することができ、これらはCLOCCSモデル¹¹に組み込まれました。しかしながら、これらの測定は、このプロトコルでは記載されない。さらに、セプテーションインデックスは、S. pombe¹⁴からのデータをモデル化するための入力として使用されました。したがって、このモデルは、さまざまな生物の細胞周期解析に使用でき、さらに拡張することができます。

CLOCCSは、入力データから複数のパラメータ(出芽率、DNA含有量など)の完全なベイズ推定を可能にするパラメトリックモデルです。これらのパラメータには、同期からの回復時間、細胞周期期間の長さ(母細胞と娘細胞について別々に推定)、および各時点での細胞の平均細胞周期位置が含まれます。これらのパラメータは、集団内の平均細胞の挙動を表し、研究者が各時点を生存線点として表される細胞周期位置にマッピングできるようにします。生存線点への変換は、CLOCCSパラメータラムダ(λ)とmu0(μ₀)^14,15に依存します。パラメータλは、母細胞の平均細胞周期周期に対応する。ただし、母娘遅延^14,15のため、これは母細胞と娘細胞の両方を含む全集団の平均細胞周期期間ではありません。CLOCCSはさらに、母娘遅延に対応するパラメータデルタ(δ)を推論し、したがって、全集団の平均細胞周期期間の計算を可能にする。最後に、各実験は細胞周期同期からの解放後に開始されるため、同期法から回復するのに必要な時間は CLOCCS パラメーター μ₀ で表されます。CLOCCSは、入力された細胞周期位相データにモデルを適合し、ランダムウォークマルコフ連鎖モンテカルロアルゴリズム¹⁴^、¹⁵を使用してこれらのパラメータを推論します。複数の実験を共通の細胞周期ライフサイクル時間スケールにマッピングすることにより、反復または回復時間または細胞周期期間が同一でない実験の間で、フェーズ固有の直接比較を行うことができます⁸、¹⁴^、¹⁵。

同期された母集団は時系列^14、15^、¹⁶、¹⁷の過程である程度の割合で同期を失うため^、同期損失率の変動性も実験間の定量的比較を妨げる可能性があります。CLOCCSは、母集団の位置とその分布の分散を特定することにより、同期損失率の違いを説明します。この強力なツールは、実験間の具体的かつ詳細な比較を可能にするため、反復間だけでなく、環境条件、変異体、さらには細胞周期のタイミングが劇的に異なる種間でも関連する比較を直接行うことができます^14,15。

この論文では、CLOCCSを使用して、同期/リリース時系列実験からのデータをフィッティングすることによってパラメータを推定し、データを共通のライフラインスケールにマッピングし、反復または実験間の関連する比較を行う方法について説明します。ライフラインアライメントにより、これらの実験間でフェーズ特異的な直接比較が可能になり、反復の集約と比較が可能になり、異なる回復タイミングと細胞周期期間を持つ実験間でより関連性の高い比較を行うことができます。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 細胞周期期および実験データの収集

所望の同期法を用いて細胞周期に関して細胞を同期させる(例えば、Lemanら¹⁸に記載されるような遠心水簸またはRosebrock 19に記載されるような交配フェロモン停止;Lemanら¹⁸およびRosebrock¹⁹の両方は、同期から解放するための方法も含む)。時系列全体でサンプリングを開始し、時系列の長さが少なくとも 2 つの完全な細胞サイクル期間であることを確認し、最適には、細胞サイクルごとに少なくとも 10 個のサンプルを収集します。各時点で、以下に説明するように、細胞周期期データ(出芽またはフローサイトメトリー)用のサンプルと実験データ用のサンプルを収集します。
出芽データを細胞周期相データとして使用する場合は、CLOCCSアライメントの出芽データを収集します。
1. 時系列全体のサンプル。各時点で、細胞を収集し、Lemanらに記載されているように、200μLの超音波処理細胞培養物を200μLの固定液と混合することによってそれらを固定する¹⁸。
2. 標準的な出芽では、40倍の対物レンズと血球計算盤を備えた透過光顕微鏡を使用して、時点ごとに少なくとも200個の細胞をカウントします。ステップ1.2.1の細胞サンプルを血球計算盤に加え、密度によってカウントが妨げられる場合は希釈します。各時点での出芽セルと非出芽セルの数を記録します。出芽したセルの割合を計算し、出芽曲線の各時点についてプロットします。
  注:細胞周期相情報を指定する他の方法も利用可能ですが、これらはこのプロトコルでは説明されていません。他の方法については、CLOCCS の readme と以前の作業¹¹ で説明されています。
細胞周期相データとしてフローサイトメトリーDNA含量データを使用する場合は、フローサイトメトリーCLOCCSアライメントのためにフローサイトメトリーDNA染色データを収集します。
1. 時系列全体のサンプル。各時点について、細胞を収集し、Haase and Reed²⁰の説明に従って固定します。
2. DNAを染色し、標準的なフローサイトメトリー分析を用いて解析します。 S. cerevisiae の推奨染色プロトコルは、HaaseおよびReed²⁰に記載されています。
関連するオミクスまたは関連する実験データを収集します。標準的なトランスクリプトームデータについては、Leman et ^al.18 および Kelliher et ^al.21,22 に記載されているように収集します。データが細胞周期フェーズデータを含む時点に関連付けられていることを確認して、下流のアライメントを可能にします。最適なアライメントを行うには、実験データを含む各時点に位相データも関連付けられていることを確認します。
注:実験データはさまざまな形式をとることができます。従来、時系列トランスクリプトーム実験のアライメントについて説明したアライメント法を使用しています。しかしながら、時点に関連する任意のタイプのデータを整列させることができる(すなわち、プロテオミクス²²)。

2. 必要なソフトウェアのインストール

注: このセクションでは、Conda、Java 19、および Git が既にインストールされていることを前提としています (材料表)。

ターミナルに次のコマンドを入力して、CLOCCS_alignmentリポジトリをダウンロードします。
git クローン git クローン https://gitlab.com/haase-lab-group/cloccs_alignment.git
conda_req.yml ファイルを使用して Conda 環境を作成するには、CLOCCS_alignmentリポジトリが複製されたフォルダー内のターミナルに次のコマンドを入力します。
conda env create -f conda_req.yml

3. CLOCCSを使用して実験をパラメータ化する

CLOCCS_alignmentリポジトリの CLOCCS フォルダーにあるcloccs_v2023.jarファイルをダブルクリックし、グラフィカルユーザーインターフェイスが開くのを待ちます。この画面では、CLOCCS実行のオプションを入力することができ、実行後に結果が表示されます。
一般設定を入力します。
1. シムアニール、バーンイン、イテレーションを設定するには、関連するテキスト入力ボックスに入力します。Sim Anneal(シミュレーテッドアニーリング)は適切な開始パラメータ値を特定し、バーンインは事後モードを検索し、最終段階ではすべての事後推論を描画できます。値を大きくすると実行時間が長くなりますが、精度も向上します。
2. [温度]というテキストボックスとドロップダウンメニュー[シンクロ]を使用して、摂氏単位の温度と同期方法を指定して実験条件を入力します。それぞれメソッド。
3. 必要に応じて、[詳細設定] メニューで詳細設定を構成します。詳細設定では、各パラメータ ("mu0", "sigma0", "sigmav", "lambda", "bud.start", "bud.end") に対して事前確率を設定することができます。
  注: 詳細設定の詳細については.txt CLOCCS_alignmentリポジトリの CLOCCS フォルダーにある readme を参照してください。
出芽データで使用する設定を入力します。
1. [ モデルタイプ ]ドロップダウンメニューから適切な選択を選択します。デフォルトのオプション Bud は、出芽酵母の標準的な出芽情報用です。
  注:ドロップダウンメニューには、他のより高度なオプションもあります:分裂せずに複数の出芽サイクルを経る突然変異体の出芽情報のための 突然変異体 、出芽情報と追加の紡錘体体とミオシンリング情報のための BudSSLSMR 、および出芽情報と追加の分裂と芽頸部核情報のための BudNucDivNeck。 これらの拡張オプションについては、CLOCCS の readme および以前の作業¹¹^、¹⁴^、¹⁵ で説明されています。
2. [データのインポート] パネルを使用して、テキスト入力ボックスに入力するか、[ファイルの選択] ボタンをクリックしてファイルをアップロードして、データをインポートします。最初の列は時間ポイントを指定します。残りの 2 つの列は、出芽データを指定し、出芽していないセルの数 ([芽なし])、出芽したセルの数 ([芽])、またはセルの総数 ([合計]) のいずれかのオプションを使用できます。
フローサイトメトリーデータで使用する設定を入力します。実験ごとに、手順 3.3 または手順 3.4 を実行します 。
注:フローサイトメトリーデータと出芽データは一緒に使用できます。前にそれらを一緒に実行する^{について説明しましたが15}、このツールでは、それらを独立して実行してから比較する必要があります。
1. 補足ファイル 1 (CLOCCS_alignmentリポジトリには CLOCCS/flow_cytometry_conversion_instructions.txt として記載されています) の手順に従って、.fcs ファイルをフローサイトメトリー用の正しい CLOCCS 入力形式に変換します。
2. [モデルタイプ]ドロップダウンメニューから[フロー]を選択します。
3. [データのインポート] パネルを使用してデータをインポートします。[ファイルの選択] をクリックし、手順 3.4.1 で生成されたファイルを選択します。
4. フローサイトメトリーCLOCCS適合をプロットする時間ポイントを選択するには、 フィッティング時間 ボックスで時間ポイントを選択します。
出芽またはフローサイトメトリーのいずれかですべての入力を選択したら、適用ボタンをクリックし、画面上部の サンプル ボタンをクリックします。
予測適合値を含む出芽曲線またはフローサイトメトリープロットを表示するには、 予測適合値 タブを選択します。既定では、このタブは前の手順の直後に開きます。
各パラメータのパラメータヒストグラムを表示するには、[パラメータ ヒストグラム ]タブを選択し、 MU0、デルタ、シグマ0、シグマブ、ラムダ、バッドスタート、バッドエンドなどのオプションから目的のパラメータに対応するサブタブを選択します。
事後スコアプロットを表示するには、 事後スコア タブを選択します。
設定を表示し、[ 設定 ] タブを選択してさらに変更します。[ ログ ] タブを選択して、以前の実行のログを表示します。
事後パラメータタブを選択して、フィットからCLOCCSパラメータを取得します。結果のテーブルは、各行がパラメーターで構成され、最後の行が後方行になるという形式になります。列は、平均の予測パラメータ、2.5%の下側信頼区間、97.5%の上側信頼区間、および許容率で構成されます。
1. 各実験のアライメントに使用したパラメータ( 同期からの回復時間(μ₀) と 母細胞の平均細胞周期周期(λ))を記録します。
2. 母細胞周期(λ)と娘細胞周期(λ + δ)の平均を計算して細胞周期周期を計算します(δは娘固有の遅延です)。
  注:比較に含めるすべての実験でセクション3を繰り返します。

4. Python変換関数とCLOCCSパラメータを使用した時間ポイントの生存線ポイントへの変換

注: 時点点と生存線点の間の変換には、2 つの変換式²¹ が必要です。変換とデータの視覚化のための Python 実装は、CLOCCS_alignment リポジトリで利用でき、以下で説明します。

ターミナルに次のコマンドを入力して、Conda環境をアクティブ化しますCLOCCS_alignment。
ターミナルに次のコマンドを入力して、対話型の Python ノートブックを開きます。
目的のフォルダーに新しい Python ノートブックを作成します。
注: 標準的な使用方法を示すためにノートブックの例が含まれており、CLOCCS_ 配置リポジトリの Alignment/JOVE_example.ipynb にあります。
位置合わせ関数を含む Python ファイルをインポートするには、最初のセルで次のコマンドを実行します。
%path_to_repo/cloccs_alignment/アライメント/ユーティリティを実行します.py
1. path_to_repo を CLOCCS_alignment リポジトリへのパスに置き換えます。
出芽データをセルサイクルフェーズデータとして使用する場合は、新しいセルで次のコマンドを実行して、各時点の出芽率を含むデータフレームをインポートします。
budding_df = pd.read_csv("path_to_folder/budding_filename.tsv", Sep ="\t", index_col=0)
1. 適切なファイルパスとファイル名に置き換えてください。ファイルが.csvファイルの場合は、sep ="\t" を削除します。
出芽データを細胞周期位相データとして使用する場合は、次の関数を新しいセルに入力して、出芽データを生存線ポイントの時間スケールに合わせます。
aligned_budding_df = df_conversion_from_parameters(budding_df, 時点, param_mu0, param_lambda)
1. タイムポイントの場合は、タイムポイントのリストをbudding_dfデータフレームのインデックスに置き換えます。
2. param_mu0とparam_lambdaについては、セクション3で実行した出芽CLOCCSから学習したパラメータを実験に置き換えます。
フローサイトメトリーデータを使用する場合は、新しいセルで次のコマンドを実行してフローサイトメトリーデータをインポートします。
flow_samples = flow_cytometry_import(flow_input_folder)
1. flow_input_folderの場合は、フローサイトメトリーの .fcs ファイルを含むフォルダーへの適切なパスに置き換えてください。
フローサイトメトリーデータを使用する場合は、新しいセルに次のコマンドを入力して、各実験の時点と生存線点の間の変換テーブルを生成します。
flow_converter = convert_tp_to_ll(時点、param_mu0、param_lambda)
1. タイムポイントについては、フローサイトメトリーデータのタイムポイントのリストに置き換えます。
2. param_mu0およびparam_lambdaについては、セクション3で実行したフローサイトメトリーCLOCCSから学習したパラメーターを実験に置き換えます。
実験データを含むデータフレームをノートブックにインポートするには、新しいセルで次のコマンドを実行します。
data_df = pd.read_csv("path_to_folder/exp_data_filename.tsv", Sep ="\t", index_col=0)
1. 適切なファイルパスとファイル名に置き換えてください。ファイルが.csvファイルの場合は、sep ="\t" を削除します。
  注: これは、任意の表形式データに対して実行できます。実験データには、データフレームの列またはインデックスとして時間ポイントが含まれている必要があります。データの例については、CLOCCS_alignment リポジトリを参照してください。
新しいセルに次の関数を入力して、実験データを生存線ポイントの時間スケールに合わせます。
lifeline_aligned_df = df_conversion_from_parameters(data_df、時点、param_mu0、param_lambda、補間、下限、上限)
1. 時点については、時間時点のリストをインデックスまたは前の手順の実験data_dfの列に置き換えます。
2. param_mu0およびparam_lambdaについては、CLOCCSからセクション3で取得した値を置き換えます。
  注: パラメーターは、受け入れられたセルサイクルフェーズデータタイプのいずれかで実行される任意の CLOCCS 実行から取得できます。
3. 必要に応じて、補間を True または False に置き換えるか、空白のままにします (既定値は False です)。
  注 : False に設定すると、データは補間されません。 True に設定すると、ライフラインポイントの範囲に整数あたりのポイントが存在するように、ライフラインポイント間の値が入力されるようにライフラインポイントが丸められ、補間されます。これにより、データセット間の比較が向上します。
4. 必要に応じて、下限と上限を None または 整数値に置き換えます。
  注: None(なし)に設定すると、補間後のすべての生存線ポイントが保持されます。整数を指定すると、生存線のポイントが下限から上限の範囲になるようにデータが切り捨てられます。これにより、下限または上限が異なるデータセット間で比較できます。
新しいセルに次のコマンドを入力して、生存線にアラインされたデータセットをダウンロードします: lifeline_aligned_df.to_csv("path_to_desired_location/name_of_file.tsv", sep = "\t")
比較に含めるすべての実験で手順4.5〜4.11を繰り返します。

5. 出芽曲線とフローサイトメトリーデータの比較

Pythonユーティリティ機能を使用して整列する前に、新しいセルに次のコマンドを入力して、出芽曲線をプロットします。
plot_budding_curves(list_of_budding_curves, list_for_legend = leg_list, point_type = str_type, タイトル = str_title)
1. 必要なすべての出芽曲線のデータフレームを含むリストをプロットに置き換えます list_of_budding_curves-[bud_df1, bud_df2, bud_df3]。
2. 必要に応じて、凡例のラベルのリスト - [実験 1、実験 2、突然変異体] を leg_list に置き換えます。そうでない場合は、None を除外または置き換えます。
3. 時間をstr_typeに置き換えます。
4. 必要に応じて、文字列タイトルの比較 出芽曲線 をstr_titleに置き換えます。そうでない場合は、 None に置き換えるか、 除外します。
ステップ5.1の手順に従って、Pythonユーティリティ機能を使用してアライメント後の出芽曲線をプロットしますが、時間の代わりにlist_of_budding_curvesにアライメントされた出芽曲線のリストを、point_typeに生存線を使用します。
フローサイトメトリーデータをプロットするには、ステップ4.8で生成されたコンバーターを使用して、対応するライフラインポイントに.fcsファイルからの関連データをプロットします。
コンバーターテーブルを使用して、生存線ポイントを細胞サイクルフェーズに変換します(表1)。
注:これは、手順5.1の手順に従ってプロットすることもできますが、時間ではなくpoint_typeの位相を使用します。

6. 実験データの比較

文献情報または研究の対象となる遺伝子に基づいて、折れ線グラフにプロットする遺伝子リストを決定します。
Python ユーティリティファイルで提供されているplot_linegraph_comparisonを使用して、新しいセルに次のコマンドを入力して、元のデータフレーム、整列されたデータフレーム、または整列および補間されたデータフレームの折れ線グラフ比較を実行します。
plot_linegraph_comparison(list_of_dfs, list_for_legend, ジェネリスト, point_type = str_type, タイトル = str_title)
1. 比較する実験のデータフレームのリストをlist_of_dfsに置き換えます。
  注: データフレームは、位置合わせされていない状態でも整列されていてもかまいません。ただし、対応するpoint_typeは手順6.2.4で入力する必要があります。
2. 各データフレームのタイトルのリストを、list_for_legendのデータフレームのリストと同じ順序で置き換えます。
3. genelist用にプロットする遺伝子名のリスト(データフレームのインデックスに含める必要があります)を置き換えます。
4. str_typeをポイントタイプに置き換えます。ステップ 6.2.1 でアライメントされたデータフレームに生存線 (デフォルトは 生存線 ポイントスケール) または位相 (セルサイクルフェーズのライフラインスケール) を使用し、ステップ 6.2.1 でアライメントされていないデータフレームに時間を使用します。
5. オプションの文字列タイトルを str_title に置き換えます。
文献またはアルゴリズムを使用してヒートマップに含める遺伝子リストを決定し、上位の周期遺伝子を決定します。
注:ヒートマップを適切に比較するには、手順6.2でデータを整列、補間、タイムスケール調整する必要があります。各実験の開始生存線値と終了生存線値が同じである必要があります。
1. 周期性アルゴリズムを実行して上位周期遺伝子²³、²⁴を決定するか、または所望の代替方法を使用して遺伝子リスト(すなわち^、文献結果)を決定する。
2. .csv または .tsv 遺伝子リストファイルをノートブックにインポートするには、次のコマンドを新しいセルで実行します。
  sort_df = pd.read_csv("path_to_folder/sorting_filename.tsv", sep="\t", index_col=0)
3. 適切なファイルパスとファイル名に置き換えてください。ファイルが.csvファイルの場合は、sep="\t" を削除します。
Python ユーティリティファイルで提供されている関数plot_heatmap_comparisonを使用して、新しいセルに次のコマンドを入力して、アライメント、補間、およびフェーズアラインされたデータフレームでヒートマップ比較を実行します。
plot_heatmap_comparison(list_of_dfs, list_for_legend, ジェネリスト, タイトル = str_title)
1. 比較する実験の アラインされたデータ フレームのリストをlist_of_dfsに置き換えます。
2. 各データフレームのタイトルのリストを、list_for_legendのデータフレームのリストと同じ順序で置き換えます。
3. genelist用にプロットする遺伝子名のリスト(データフレームのインデックスに含める必要があります)を置き換えます。
4. オプションの文字列タイトルを str_title に置き換えます。
  注:リストの最初のデータフレームは、ヒートマップ内の遺伝子の順序付けに使用されるデータフレームです。遺伝子は、そのデータフレームの最初の期間の最大値によって順序付けられ、同じ順序がリスト内の後続のデータフレームに使用されます。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

上記のプロトコルと図1 のワークフローで説明したステップを5つの細胞周期同期時系列実験に適用し、異なる同期法(交配フェロモンと遠心水簸¹⁸)とシーケンシングプラットフォーム(RNAシーケンシング[RNA-seq]とマイクロアレイ)の反復間、および実験条件全体の2つの代表的な比較を示しました。 S. cerevisiaeを用いて複数の実験を行い、各実験について細胞周期期および実験データを収集した。このワークフローでは、CLOCCSを使用してさまざまな同期/リリース時系列実験をパラメーター化し、これらのパラメーターを使用して実験を共通の比較可能なライフラインスケールに調整し、これらの調整された実験を2つの代表的な比較に使用します。

反復間の代表的な比較を実証するために、条件1と呼ばれる、同じ菌株および同じ実験条件で実施された3つの実験を選択しました。これらの実験のうち2つは互いの直接複製であり、両方ともマイクロアレイ分析 によって 分析され、遠心水簸 によって 同期されました。3番目の実験はRNA-seq分析を使用して分析され、アルファ因子交配フェロモン停止 を介して 同期されました。細胞周期周期を変化させた実験間の第2の比較を実証するために、上記の条件1のRNA-seq実験(細胞周期周期:71分)を条件2(細胞周期周期:82分)、および条件3(細胞周期周期:110分)と比較した(表2)。各実験について、細胞をそれぞれの条件で増殖させ、同期させ、放出し、次いで2つ以上の細胞周期期間にわたってサンプリングした。出芽および/またはフローサイトメトリーのデータは、細胞周期期に関する情報を提供するために収集され、マイクロアレイまたはRNA-seq時系列トランスクリプトームデータのいずれかがLemanら¹⁸ (補足表S1)に記載されているように収集されました。

各実験について、データは図2に示す形式を取り、デモンストレーションの例として条件 2の実験を示します。各データセットには出芽曲線があり、細胞周期段階の推論を可能にしました。この曲線は、時系列の各時点の出芽パーセント値で構成され、それをプロットして、複数の細胞周期振動を示す出芽曲線を生成しました(図2)。細胞周期フェーズデータは、時系列の各時点のフローサイトメトリーDNA含有量染色データの形でもなりました。条件2の選択時点をプロットした(図2)。フローサイトメトリーファイルは、Pythonユーティリティのflow_cytometry_CLOCCS_file_from_fcs関数を使用してCLOCCSに入力するための各時点の各ログ蛍光ビンの細胞を含む単一のテーブルに結合されました。各データセットには実験データも含まれていました。この場合、データはトランスクリプトームデータであり、データは遺伝子の行に編成され、それぞれが実験の各時点でのRNAの存在量の値を持っています(図2)。

条件2のRNA-seqデータセットのCLOCCSの使用とライフラインポイントへの変換を実証しました。ただし、プロセスは他の実験でも同じでした。出芽情報は、プロトコルセクション3および図3Aに示すように、CLOCCSアルゴリズムに入力された。Sim アニール、バーンイン、イテレーション、詳細設定のデフォルト値が使用されました。適切な実験条件を選択した。出芽データには「Bud」のモデルタイプを使用しました。得られたCLOCCS出芽適合は、対応する適合曲線に小さな95%信頼帯を重ね合わせたデータポイントによって示されるように、出芽曲線が適切に適合していることを確認するために見られました(図3Bおよび補足図S1)。後部パラメータテーブル(図3C)のパラメータμ₀およびλは、アライメントに使用するために記録されました。条件2のフローサイトメトリーデータは、プロトコルセクション3に記載されているように、CLOCCSに個別に入力されました。現在、CLOCCSはフローサイトメーターが1,024チャンネルで10ビットデータを生成することを期待しています。ただし、最新のフローサイトメーターはより多くのチャネルを持つことができます。当社のフローサイトメーターは1,024チャンネル以上のデータを生成するため、データは1,024ビンにビン化されました。フローサイトメトリーの細胞周期フェーズデータを使用して、CLOCCSは選択された各時点に適合するCLOCCSを生成し(図3Dおよび補足図S2)、図3Cの出芽事後パラメータテーブルと同様の事後パラメータテーブルを提供します。 CLOCCSが他の各実験について実行する出芽のためのパラメータを表2に記載し、CLOCCSが実行するフローサイトメトリーのためのパラメータを補足表S2に記載する。

母細胞の細胞周期周期(λ)と回復時間(_{μ 0})に対応するCLOCCSパラメータをライフラインアライメントに使用しました。λは必ずしも細胞集団の平均細胞周期周期を表すわけではないことに注意することが重要です。細胞が完全に分裂する場合、母細胞と娘細胞の数は等しいので、平均細胞周期期間は母細胞の細胞周期期間(λ)と娘細胞の細胞周期期間(λ+ δ)の間の平均である。具体的には、デルタ(δ)は娘固有の遅延の長さです。これは、各実験の細胞周期期間に使用した計算です(表2)。各実験について、条件2で示されているように、対応するパラメータλとμ₀ を、Pythonユーティリティファイルで提供される変換関数df_conversion_from_parametersで使用しました(図4A)。出芽曲線の場合、データは補間されませんでした。ただし、実験データの場合、生存線に整合したデータセットは、プロットを改善するために各生存線ポイントに補間データが含まれるように、補間を使用してリサンプリングされました。ライフラインに沿ったデータセットの生存線ポイントの範囲が同じになるように、生存線の下限と上限を設定して、それらのポイントでデータを切り捨てました。これらの下限パラメーターと上限パラメーターは、補間が True に設定されている場合に df_conversion_from_parameters 関数に入力されました。条件 1 の比較では、すべてのデータセットでそれぞれ 44 と 270 に設定し、環境条件全体の比較では、それぞれ 50 と 300 に設定しました。アラインメントと比較のためのこれらの関数の使用例は、Python ノートブック JOVE_example.ipynb の例で確認でき、図の生成に使用されるコードは、CLOCCS_alignment リポジトリの JOVE_Figures.ipynb ノートブックで確認できます。

この時点から生存線点への変換は、_{μ 0} (回復時間) と λ (母周期) を使用した 2 つの式²¹ (図 4A) に依存します。最初の式は、 Equation 1 回復段階の式です(図4A)。この式は、回復時間に対応するため、μ 0 までの時点で構成される回復フェーズ内の時点 (μ₀ までの時点) に対してのみ使用されます。次に、時点は100個の生存線ポイントで終わるライフラインスケール範囲に変換され(表1)、回復期の終了と最初の細胞周期の開始を示します。回復後のフェーズでは、2番目の式(図4A)を使用して、 Equation 2 後続の各回復後の時点を100以降のライフラインポイントに変換します。後続の100個のライフラインポイントはそれぞれ新しい細胞周期に対応し、最初のサイクルはライフラインポイント100〜200に対応し、2番目のサイクルはライフラインポイント200〜300に対応します(表1)。時間ポイントから生存線ポイントへの変換は、そのデータセットに対応する CLOCCS パラメーターを使用して、各データセットに個別に適用されます。各データセットがライフラインスケールに変換された後、細胞周期フェーズが整列され、データセット間でフェーズ固有の比較が可能になります。

表3 は、CLOCCS実行の出芽からのパラメータを使用して、条件2データセットの代表的な変換のために、選択した時点をそれぞれの生存線点に変換する方法を示しています。条件2のRNA-seqから収集された出芽データは、Pythonノートブックでplot_budding_curvesされたPython関数を使用して、分単位の整列されていない時間スケール(図4B)とライフラインポイントの整列したタイムスケール(図4C)の両方の時間の経過に伴う出芽率を示す出芽曲線にプロットされました。ライフラインポイントは実験段階と細胞周期期の情報に簡単に変換でき(表1)、それに応じて回復期と1番目から3番目の細胞周期を手作業で色分けしました(図4B、C)。各ライフラインポイントは細胞周期フェーズに対応しているため、ライフラインアライメントによって決定される細胞サイクルフェーズを使用して、個々のフローサイトメトリープロットをPython関数 を介して 標識することができました。これらの相は、条件2のフローサイトメトリー解析 によって 決定された相と一致した。条件2データセットについて収集されたフローサイトメトリーデータを、選択した時点についてプロットし、フローサイトメトリーのライフラインアライメントから決定された細胞周期フェーズを使用して標識しました。いずれの場合も、データはアライメントによって決定された位相と一致しました(図4D)。

各サンプルの各遺伝子の発現レベルは同じままですが、時点の標識は分単位の時間からライフラインの時点に変更されていることに注意することが重要です。ただし、変換は線形ではありません。灰色で強調表示されている回復フェーズは、ライフラインポイントへの変換が実行された後、実験時間のより高い割合を占めます(図4B、C)。ライフラインスケールの利点は、詳細なフェーズ情報と実験間のフェーズ比較を可能にすることです。位相情報は、上記のようにライフラインポイントに含まれ、表1に表示されます。さらに、G1は各細胞周期の最初の15.5のライフラインポイントに含まれ、Sは次の20のライフラインポイントに含まれ、G2/Mは次の64.5のライフラインポイントに含まれています(表1)。ただし、これは、回復フェーズが元の時点スケールで非常に短く見えた場合でも、回復時間を各連続する細胞周期の同じ時間スパンに人為的に制限します。各実験のフェーズが整列しているため、比較が不明瞭になることはありません。ほとんどの場合、分単位で同時に発生する時点ではなく、同じ実験段階と生物学的段階で発生する時点でデータを比較する方が適切です。

Python ユーティリティファイルで提供されている Python 関数を使用して、すべての実験をアライメントされた生存線スケールに変換したら、それらを比較できます。ここでは、プラットフォームと同期方法間での同様の実験の反復間(図5)と、期間の長さが変化する異なる実験条件間(図6と図7)の2つの一般的な実験比較を示します。上述のように、第1の比較は、2つの水簸マイクロアレイ複製および1つのアルファ因子同期RNA-seq実験にわたる。アライメント前、2つのマイクロアレイ複製は同様の同期と細胞周期ダイナミクスを示しましたが、条件1マイクロアレイ2の複製はわずかに遅れているように見えました(図5A)。最も顕著な違いは、整列されていないデータセットを比較するときに見つかりました。条件1のRNA-seqの第2サイクルは、2つのマイクロアレイ実験の第1サイクルと一致して現れた。この違いは、トランスクリプトームプラットフォームの違いではなく、同期方法の違いに関連している可能性があります。マイクロアレイ実験の細胞集団は遠心水簸で同期し、RNA-seq実験の細胞集団は交配フェロモン処理で同期しました。実際、交配フェロモンとの同期は、水簸と比較して回復時間を大幅に短縮しました(図5Aおよび表2)。

経過時間の観点からプロットすると、反復間の明らかな違いにもかかわらず、ライフラインアライメント後、曲線はほぼ同一であり、反復間のより詳細で関連性のある比較が可能になりました(図5B)。回復段階は、各実験が同じライフラインポイントで開始されるように調整され、期間の変動はライフラインアライメントによって正規化されました。アライメントにより、反復間で同じライフラインポイントでの実験値が同じ細胞周期フェーズで発生し、反復間の実験分散の計算が可能になりました。回収期と細胞周期期は、各実験における細胞周期期に関する追加情報を提供するために 、図5B にラベル付けされています。このライフラインアライメントは、上記のように、ユーティリティファイルで提供されているPython関数df_conversion_from_parametersを使用して、実験データセット(図5C、D)に適用できます。

図5Dでは、トランスクリプトームデータをアラインメントし、CDC20遺伝子の発現動態をPythonノートブックのplot_linegraph_comparison Python関数を使用してプロットしました。アライメントの前に、マイクロアレイ実験の第1のピーク発現がRNA-seq実験の第2のピークと整列したかのように現れた(図5C)。しかし、アラインメント後、各データセットの最初の細胞周期ピークは適切にアラインメントされた(図5D)。さらに、RNA-seqデータセットとマイクロアレイデータセットでは実験のピーク幅が異なるように見えましたが、アライメント後はピーク幅がより整列しました(図5C、D)。

2番目の比較は、異なる細胞周期期間の異なる環境条件での実験間のものです(図6)。以上のように、ここでは、条件1の S. cerevisiae データセットを、それぞれ71分、82分、110分の細胞周期に相当する条件2および条件3と比較しました。細胞周期期間におけるこれらの違いは、整列していない出芽曲線に示すように、細胞周期位相整列前の実験間で比較すると不確実性をもたらした。周期の違いは、整列していない出芽曲線に見られます(図6A)。しかし、このプロトコルを使用してCLOCCSアラインメントすると、3つの曲線が非常に類似しているように見え、実験データの比較が可能になりました(図6B)。

フローサイトメトリーのCLOCCSパラメータを使用して、条件1と条件2を共通のライフラインスケールに合わせ、DNA含有量のヒストグラムを条件2と条件1の同等のライフラインポイントにプロットしました。ライフラインポイントにわたるDNA含量のフローサイトメトリー測定を比較した(図6C)。DNA含有量の測定は連続的ではなく、簡単に補間できなかったため、最も近いライフラインポイントしか比較できませんでした。比較可能な各ライフラインポイントの細胞周期フェーズデータは、2つの条件間で同一ではなく(図6C)、これは、CLOCCS適合と結果のパラメータが条件1に対してわずかにずれている可能性が高いことを示しています。これは、条件2と比較して、条件1のフローサイトメトリーデータに対するCLOCCSの適合度が低いことが原因である可能性があります(補足図2)。ただし、アライメントは1つのサンプルでしかずれていないため、フェーズ固有の比較を改善することができます。

次に、条件1、条件2、条件3(図7)のRNA-seq実験の実験データに、実験データのdf_conversion_from_parameters関数の出芽CLOCCSパラメータを使用して、出芽ライフラインのアライメントを適用しました。トランスクリプトームデータをアラインメントし、各時系列の遺伝子 CDC20 の遺伝子発現を3つの実験について示した。アラインメント前は、 CDC20 の転写産物動態は重複していませんでした(図7A)。アラインメント後、 CDC20 遺伝子発現の1番目と2番目のピークは、3つのデータセットすべてではるかに密接に整列しました。アライメント後、ピークは同じ細胞周期期に発生することが明らかになりましたが、曲線の形状は異なります(図7B)。条件3は、細胞周期期間の違いを考慮した後でも、他の2つの条件と比較して低く、より広い最初のピークを有し、これらの差が試験中の実験条件に関連している可能性が高いことを示唆している(図7B)。

大規模なトランスクリプトーム比較も可能である。これらの比較のために、各データセットで周期性アルゴリズムJTK_CYCLE²³ を実行し、上位の周期遺伝子の交点を取ることによって、278個の遺伝子が選択された。しかしながら、遺伝子は、任意の所望の方法を用いて、または文献から選択することができる。これらの遺伝子は、Pythonノートブックのplot_heatmap_comparison Python関数を使用して、アラインされていないヒートマップ(図7C)と整列されたヒートマップ(図7D)の両方の3つの条件すべてについて同じ順序でプロットされました。これらのヒートマップにより、何百もの遺伝子レベルの比較を同時に行うことができます。曲線ダイナミクスの変化、隣接する遺伝子に対するピーク時間、および期間の長さなどに関して、整列していない実験間の比較を行うことができます(図7C)。ただし、時間ポイントが条件全体で同じ細胞周期フェーズと必ずしも相関するとは限らないため、詳細なフェーズ固有の比較を行うことができませんでした。アライメント後、2番目のサイクルは類似しているように見えましたが、最初のサイクルは条件間でわずかにシフトしました(図7D)。このシフトは、出芽細胞周期期の情報が条件3に対して低品質であったという事実を反映している可能性がある。それにもかかわらず、3つの条件に対する実験の調整により、フェーズ固有の比較を改善することができました。アラインメント前は、各条件における発現の最初のピークが同じ細胞周期期で発生するかどうかは不明でした(図7C)。ただし、アライメント後、実験はフェーズ固有の方法で比較できます(図7D)。アライメント前は、条件3のピークは他の2つの条件よりもはるかに広く見えました(図7C)。しかし、アライメント後、条件3のピークは、アライメントしたときの他の条件と同様の幅であることが明らかになりました(図7D)。

これらの代表的な結果は、実験を共通の時間スケールに合わせるためにCLOCCSを使用するプロセスを示しています。アライメントの前に、直接的な時点の比較は、多くの場合、同様の細胞周期段階と相関しません。経過実験時間を分単位で細胞周期の段階を表すライフラインポイントに変換することで、細胞周期の同じ時点での実験間の相特異的で生物学的に関連する比較が可能になります。

図1:CLOCCSライフラインアライメントワークフローの概要。 CLOCCSを使用して2つのサンプルデータセットをアライメントするための実験ワークフローと、それに続くデータセット間の代表的な比較。プロトコルからの主要なステップが示されています:各データセットの整列されていない細胞周期段階と実験データの収集(ステップ1)、各データセットのパラメータ化のためのCLOCCSの使用(ステップ2とステップ3)、共通のライフラインへのデータセットのアライメント(ステップ4)、そして最後に、細胞周期段階と実験ダイナミクスの比較(ステップ5とステップ6)。アライメントされていない細胞周期フェーズデータは、学習されたパラメータを提供するためにCLOCCSに入力され、共通のライフラインスケールへのアライメントに使用されます。次に、これらのアラインされたデータセットが比較されます。略語:CLOCCS =細胞周期同期の喪失を特徴付ける。この図の拡大版を表示するには、ここをクリックしてください。

図2:ワークフローに必要な細胞周期期のフォーマットと実験データ。ワークフローに必要なデータは、細胞周期相データと細胞周期実験データの2つの主要コンポーネントで構成されています。細胞周期相データは、時系列の各時点の細胞周期出芽データまたはフローサイトメトリーDNA含量データから構成することができる。実験データにはさまざまな形式がありますが、この場合はトランスクリプトームデータであり、時系列の各時点ごとの各遺伝子の遺伝子発現データで構成されます。この図の拡大版を表示するには、ここをクリックしてください。

図3: 出芽酵母 細胞周期データセットでCLOCCSを実行した結果の例。 (A) 条件2の出芽データに指定された入力値と設定を含むCLOCCSグラフィカルユーザーインターフェイスのスクリーンショット。時間、出芽していないセルの数、出芽したセルの数、モデルの種類、反復、条件などが入力されます。 (B)結果の「予測適合」タブにある条件2に対する結果のCLOCCS出芽適合のスクリーンショット。各データポイントには、データの95%二項比率信頼区間に対応するサンプリングエラーバーが関連付けられています(各時点について、少なくとも200個の細胞がカウントされました[204〜295個のセル])。結果として得られる出芽適合曲線は、CLOCCS適合の95%信頼区間の信頼帯を紫色で示しています。(C)平均でのCLOCCSパラメータ、2.5%信頼区間、および97.5%信頼区間で構成される条件2の出芽CLOCCS実行の結果の「事後パラメータ」表のスクリーンショット。事後率と合格率も表示されます。(D)フローサイトメトリーCLOCCSのスクリーンショットは、70分および150分で条件2に適合します。この図の拡大版を表示するには、ここをクリックしてください。

図 4: 条件 2 データセット の時間ポイントから整列生存線ポイントへの変換プロセスの例。 (A) 時間ポイントからライフラインポイントへの変換に使用される変換式。変換と出芽曲線のプロットのための Python ノートブックの Python 関数のスクリーンショット。(b)各時点の出芽率を分単位で示す条件2の非整列出芽曲線。細胞周期と回復段階は、回復(灰色)、最初の細胞周期(青)、2番目の細胞周期(マゼンタ)、および3番目の細胞周期(サーモン)のように強調表示されます。(C)同じ出芽率を示すが、ライフライン整列スケールにプロットされた整列された条件2の出芽曲線。細胞周期と回復段階は、パネル Cのように強調表示されています。(D)ライフラインスケールに基づく異なる細胞周期段階に対応する条件2から選択された時点のアラインメントされたフローサイトメトリープロット:G1の開始、S期の開始、G2/Mの開始、および後期G2/M。この図の拡大版を表示するには、ここをクリックしてください。

図5:アラインされた条件1とアラインされていない実験の比較のための代表的な結果。条件1の比較は、条件1のRNA-seq(青)、条件1のマイクロアレイ1(紫)、および条件1のマイクロアレイ2(灰色)を複製します。(A) 条件 1 データセットのアライメントされていない出芽曲線。(B) 条件1データセットの整列した出芽曲線。生存線のポイントは細胞周期フェーズに変換され、x 軸の下に色分けされています。(C)条件1のデータセットに対する代表的な遺伝子 CDC20の非整列遺伝子発現。(D)条件1のデータセットに対する代表的な遺伝子 CDC20の整列した遺伝子発現。この図の拡大版を表示するには、ここをクリックしてください。

図6:さまざまな期間の実験における整列した細胞周期相データと整列していない細胞周期相データを比較した代表的な結果。条件1 RNA-seq(細胞周期周期:71分)、条件2 RNA-seq(細胞周期周期:82分)、条件3 RNA-seq(細胞周期周期:110分)の3つの異なる環境条件、つまり3つの異なる細胞周期期間を持つデータセットの細胞周期相データを比較。(A)データセットの整列されていない出芽曲線。(B) データセットの整列した出芽曲線。(C)条件2(上段)のフローサイトメトリーDNA含量ヒストグラムを、条件1(下段)の同等のライフラインポイントと比較したもの。この図の拡大版を表示するには、ここをクリックしてください。

図7:さまざまな期間の実験におけるアラインメントされたトランスクリプトミクスデータとアラインされていないトランスクリプトームデータを比較した代表的な結果。図6のデータセットに関連するトランスクリプトミクスデータの比較:条件1 RNA-seq、条件2、および条件3。(A)条件1、条件2、および条件3のRNA-seqデータセットに対する代表的な遺伝子CDC20の非整列遺伝子発現。(B)データセットに対するCDC20の遺伝子発現の整列。(C)各データセットについて、上位細胞周期周期遺伝子の同じ順序でのアラインされていないヒートマップ。(D)パネルCからの同じ細胞周期周期遺伝子のライフライン整列ヒートマップ。紫色の破線は、ライフラインポイント 100 と 200 に対応しています。この図の拡大版を表示するには、ここをクリックしてください。

表1:ライフラインは細胞周期への相変換を指します。 生存線のポイントスケールと実験の対応するフェーズとの間の変換キー。ライフラインポイント0〜100は、同期からの回復に対応します。後続の100個のライフラインポイントはそれぞれ新しい細胞周期に対応し、最初の15.5個のライフラインポイントはG1に対応し、次の20個のライフラインポイントはS期に対応し、残りのライフラインポイントはG2 / Mに対応します。この表をダウンロードするには、ここをクリックしてください。

表2:出芽するCLOCCSパラメータ。 得られた出芽CLOCCSパラメータ「λ」および「mu0」を代表結果から各実験について得た。さらに、娘固有の遅延「デルタ」と計算された細胞周期期間が実験ごとに表示されます。この表をダウンロードするには、ここをクリックしてください。

表3:条件2の分単位の時点とそれに対応する生存線点との間の変換を示す変換表。この表をダウンロードするには、ここをクリックしてください。

補足図S1:CLOCCSの出芽は条件1と条件3に適合します。 得られたCLOCCS出芽フィットのスクリーンショットは、(A)条件1のRNAseq出芽データ、(B)条件1のマイクロアレイ1出芽データ、(C)条件1のマイクロアレイ2出芽データ、および(D)条件3の出芽データについて適合する。条件2に対するCLOCCSの出芽適合は、 図3Bに見ることができます。95%信頼帯とサンプリング誤差バーは、CLOCCSのドキュメント¹⁴^、¹⁵および図3に記載されているとおりです。各時系列の各時点について、約 200 個のセルがカウントされました。このファイルをダウンロードするには、ここをクリックしてください。

補足図S2:CLOCCSフローサイトメトリーは条件1および条件2に適合します。 フローサイトメトリーCLOCCSのスクリーンショットは、条件2(上段:A-D)および条件1(下段:E、F)について図6Cに示すサンプルに適合します。このファイルをダウンロードするには、ここをクリックしてください。

補足図S3:CLOCCSパラメータの変動に対するアライメントの感度。条件1のRNA-Seqデータセットのアライメントを、CLOCCS適合の信頼区間内のCLOCCSパラメータλおよびμ0の変動(A-C)およびパラメータの変動が大きい(D,E)を用いて比較した。(A)パラメータμ0、(B)パラメータλ、(C)パラメータμ0およびλの両方について、CLOCCSによってパラメータテーブルに出力された2.5%および97.5%信頼値と平均値との比較。(D)μ0パラメータの大きな変動(μ0の200%〜0.25%)と比較したμ0の平均値を使用したアライメントの比較。(E)λパラメータの大きなばらつき(λの200%〜0.25%)と比較したλの平均値を用いたアライメントとの比較。このファイルをダウンロードするには、ここをクリックしてください。

補足表S1:各実験のデータ収集の説明。 各実験について、この表は、出芽データ、フローサイトメトリーデータ、トランスクリプトームデータ、および同期法の説明を提供します。このファイルをダウンロードするには、ここをクリックしてください。

補足表S2:フローサイトメトリーCLOCCS実行からのCLOCCSパラメータ。 条件 1 および条件 2 のフローサイトメトリー CLOCCS を実行するための CLOCCS パラメーター "mu0" および "λ" を使用します。このファイルをダウンロードするには、ここをクリックしてください。

補足ファイル1:フローサイトメトリーデータをCLOCCS入力形式に変換するための手順。 フローサイトメトリーデータでCLOCCSを使用するには、特定の入力フォーマットが必要です。このファイルは、Python ユーティリティ関数を使用してこの変換を実行する方法を説明するために、プロトコルステップ 3.4.1 に関するより詳細な手順を提供します。このファイルをダウンロードするには、ここをクリックしてください。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

本論文では、同期した細胞集団に関する時系列実験のデータをより正確かつ定量的に評価する方法を提示する。この方法は、出芽データやフローサイトメトリーDNA含量データなどの入力細胞周期相データを使用するベイズ推論モデルであるCLOCCSから学習したパラメータを利用して、各実験をパラメータ化します^14,15。CLOCCSは、入力された細胞周期フェーズデータを使用して各実験のパラメータを推測し、共通のライフラインスケールへのアライメントに使用されます。複数の同期/リリース時系列実験を単一のライフラインに合わせた時間スケールに変換することで、以前は困難または不可能であった実験と複数の反復実験の集約との間のフェーズ固有の関連性のある比較が可能になります。

このプロトコルの重要なステップには、データの収集、CLOCCSの実行、データセットのアライメント、およびデータセット間の比較が含まれます。まず、このプロトコルで使用するためにデータを収集する必要があります。データは、対象とする問題に関する実験データを含む情報(トランスクリプトームデータ、遺伝子発現データ、プロテオームデータ)と、細胞周期のフェーズに関する情報を含む細胞周期フェーズデータ(出芽データ、フローサイトメトリーDNA含量データ)の両方から構成する必要があります。次に、細胞周期フェーズデータをCLOCCSで使用して、各実験のパラメーター情報を収集できます。_{パラメータμ 0}(回復期の長さ)およびλ(母細胞周期周期)は、時点を生存線点に変換するために使用される。生存線のポイントの配置により、整列した時系列を直接比較できます。

この方法の 1 つの制限は、適切なアライメントがデータへの適切な適合を識別することに依存することです。最高のCLOCCS適合を達成するには、細胞周期相データの品質、およびCLOCCSでの実験に正しい入力設定を使用する必要があります。細胞周期位相データへの適合度は、学習されたパラメータの精度を決定し、したがって、これらのパラメータの使用に依存するため、アライメントの精度に大きく影響します。パラメータの広範な変化はアライメントに大きく影響するため、変化はCLOCCS出力で提供される信頼区間内で最小限に抑えられます(補足図S3)。パラメータの変動に対するこの感度は、細胞周期のタイミングが変化するデータセット間のアライメントを可能にするものでもあることに注意することが重要です。

CLOCCSフィットの精度は、結果のCLOCCSフィット曲線と対応するエラーバーとエラーバンドを使用して決定できます(図3B、D、補足図S1、および補足図S2)。CLOCCS適合タブには、元のデータポイントと、CLOCCS適合の信頼区間に対応する信頼帯と、データの95%二項比率信頼区間に対応するエラーバーを持つCLOCCS適合曲線が表示されます(度数は独立した二項確率変数¹⁴であると仮定されるため)。たとえば、出芽データの信頼度バーは、特定のサンプルの出芽セルの比率の信頼度を測定します。

CLOCCS適合値の品質を決定する1つの方法は、データのエラーバーがCLOCCS適合の信頼区間バンドと重なっているかどうかを判断することです。別の指標は、CLOCCS適合の95%信頼帯の広さです。一般に、バンドの幅は、適合度が増すにつれて減少します。アライメント不良の兆候は、元のデータの細胞周期フェーズがアライメントから推測される細胞サイクルフェーズと一致しない場合です。各アライメントは、各時点について、細胞周期相情報データによって示される位相が、アライメントによって割り当てられた細胞周期位相と一致することを確認することによって再確認することができる。

CLOCCSフィット不良またはアライメント不良は、細胞周期相データの質が低いことが原因である可能性があります。高品質の出芽データは、逮捕直後の出芽率は非常に低く、最初のピーク時の出芽率は非常に高いです。後続の山と谷は同期を失いますが、明確で等間隔にする必要があります。ライフラインポイントは集団の平均細胞周期フェーズを表すため、同期が不十分な場合も適切なアライメントを妨げる可能性があります。高品質のフローサイトメトリーDNA含量データは、適切な細胞周期段階に対応する各時点に対して、異なる1Cおよび2Cピークを有する。さらに、細胞周期相のデータが不十分な場合、パラメータの識別可能性の問題が生じます。十分なデータがある場合、パラメータは推測でき、CLOCCSの実行間で実質的に変化しません。ただし、このプロトコルに記述されているパラメータ(λ、delta、mu0)は、細胞周期相データに1つの完全な細胞周期しか含まれていない場合、解きほぐすことはできません。パラメータ推定を改善するには、十分かつ適切に構築された細胞周期データをCLOCCS適合^14,15に使用する必要があります。さらに、CLOCCSモデルは、Orlando et ^al.15に記載されているような事前情報を使用するが、この情報は、使用される実験条件によりよく適合するように調整することができる。

細胞周期相データの品質が良好な場合は、CLOCCS設定を再調整すると、より正確なフィットが得られる場合があります。たとえば、選択する反復回数を増やして精度を向上させることができます。CLOCCSで正しい同期方法が選択されたことを確認することも、アルファ因子停止は水簸と比較して回復時間が短いため、有用です。

この方法は、現在サポートされている細胞周期相データの種類に関しても制限されています。ただし、CLOCCS は柔軟性があり、他のタイプのデータをサポートするように適合させることができます。例えば、CLOCCSは、細胞周期相識別子として使用するために、紡錘体極体、ミオシン環、および核¹¹ の細胞周期蛍光標識をサポートするように以前に適合されてきた。さらに、 S. cerevisiae 以外の種とのCLOCCSの使用も可能になりました。CLOCCSは、 S. pombe¹⁴の細胞周期期のマーカーとしてセプテーションインデックス、および多くの種で簡単に収集できるフローサイトメトリーDNA含有量データ^{を受け入れます15}。これにより、2つのまったく異なる種の細胞周期の同じ段階での実験データの比較が可能になり、進化にわたる細胞周期の変化に関する洞察を得ることができます。

このライフラインアライメント法では、サポートされている形式の細胞周期位相データのみを使用できますが、この方法は、使用される時系列実験データの種類に依存しません。このプロトコルでは、個々の遺伝子の遺伝子発現をアラインメントする上での使用、および数百の遺伝子の時系列トランスクリプトームデータを並行して実証しました。この手法は、プラットフォーム間での比較に利用できることを示し、RNA-seqデータセットと類似条件で撮影したマイクロアレイデータセットを比較できます。また、この方法を用いて、水簸化したデータセット(条件1マイクロアレイ)とアルファ因子を阻止したデータセット(条件1 RNA-seq)を比較することで、異なる同期法でデータセットをアライメントできることを示しました。以前は、CLOCCSは、出芽細胞周期相データ²²を使用して時系列トランスクリプトームデータと時系列プロテオミクスデータをアラインメントするためにも使用されており、mRNAダイナミクスと対応するタンパク質のダイナミクスを直接比較することができました。CLOCCSは、S. cerevisiaeとS. pombe¹⁴の間、およびS. cerevisiaeと病原性酵母Cryptococcus neoformans²¹の間のアライメントなど、種間で時系列データをアライメントするためにも使用されています。最後に、CLOCCSアライメントは現在、細胞周期の時系列データに固有であり、他のタイプのリズミカルなプロセスでの使用にはまだ適合していません。これが特に興味深い分野の1つは概日リズムであり、概日時間(CT)は実験を整列させるために慣習的に使用されていますが、その実装は一貫して適用されていません。もう一つの関心領域は、マラリア原虫のような発達リズムを調査することです。例えば、Smithら²⁵に記載されているように、熱帯熱マラリア原虫株を異なる期間にアラインメントすることで、菌株間のより詳細な比較が可能になります。比較のためにこれらの周期的なプロセスを調整することで、これらの重要なリズミカルな生物学的機能をよりよく理解することができます。これらのタイプの細胞周期比較は、このプロトコルで説明されているように、ライフラインアライメントにCLOCCSを使用することによって可能になりました。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

著者は、開示すべき利益相反はありません。

Acknowledgments

S. CampioneとS. Haaseは、米国国立科学財団(DMS-1839288)と米国国立衛生研究所(5R01GM126555)からの資金提供を受けて支援されました。さらに、著者らは、原稿へのコメントとプロトコルのベータテストについて、Huarui Zhou(デューク大学)に感謝したいと思います。また、Java コードに協力してくれた Francis Motta 氏 (フロリダ・アトランティック大学) と Joshua Robinson氏にも感謝します。

Materials

Name	Company	Catalog Number	Comments
2x PBS			For Fixative Solution. Described in Leman 2014.
4% formaldehyde			For Fixative Solution.
100% Ethanol			For flow cytometry fixation. Described in Haase 2002.
CLOCCS			https://gitlab.com/haase-lab-group/cloccs_alignment.git
Flow Cytometer			For flow cytometry protocol.
Git			https://git-scm.com/
Java 19			https://www.oracle.com/java/technologies/downloads/#java19
Microscope			For counting cells and buds.
Miniconda			https://docs.conda.io/en/latest/
Protease solution			For flow cytometry protocol. Described in Haase 2002.
RNAse A solution			For flow cytometry protocol. Described in Haase 2002.
SYTOX Green Nucleic Acid Stain	Invitrogen	S7020	For flow cytometry staining. Described in Haase 2002.
Tris			pH 7.5

DOWNLOAD MATERIALS LIST

References

Tyers, M., Tokiwa, G., Futcher, B. Comparison of the Saccharomyces cerevisiae G1 cyclins: Cln3 may be an upstream activator of Cln1, Cln2 and other cyclins. EMBO Journal. 12 (5), 1955-1968 (1993).
Schwob, E., Nasmyth, K. CLB5 and CLB6, a new pair of B cyclins involved in DNA replication in Saccharomyces cerevisiae. Genes and Development. 7, 1160-1175 (1993).
Polymenis, M., Schmidt, E. V. Coupling of cell division to cell growth by translational control of the G1 cyclin CLN3 in yeast. Genes and Development. 11 (19), 2522-2531 (1997).
Spellman, P. T., et al. Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Molecular Biology of the Cell. 9 (12), 3273-3297 (1998).
Cho, R. J., et al. A genome-wide transcriptional analysis of the mitotic cell cycle. Molecular Cell. 2 (1), 65-73 (1998).
Bar-Joseph, Z. Analyzing time series gene expression data. Bioinformatics. 20 (16), 2493-2503 (2004).
Pramila, T., Wu, W., Miles, S., Noble, W. S., Breeden, L. L. The Forkhead transcription factor Hcm1 regulates chromosome segregation genes and fills the S-phase gap in the transcriptional circuitry of the cell cycle. Genes and Development. 20 (16), 2266-2278 (2006).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Nash, R., Tokiwa, G., Anand, S., Erickson, K., Futcher, A. B. The WHI1+ gene of Saccharomyces cerevisiae tethers cell division to cell size and is a cyclin homolog. EMBO Journal. 7 (13), 4335-4346 (1988).
Basco, R. D., Segal, M. D., Reed, S. I. Negative regulation of G1 and G2 by S-phase cyclins of Saccharomyces cerevisiae. Molecular and Cellular Biology. 15 (9), 5030-5042 (1995).
Mayhew, M. B., Robinson, J. W., Jung, B., Haase, S. B., Hartemink, A. J. A generalized model for multi-marker analysis of cell cycle progression in synchrony experiments. Bioinformatics. 27 (13), 295-303 (2011).
Qu, Y., et al. Cell cycle inhibitor Whi5 records environmental information to coordinate growth and division in yeast. Cell Reports. 29 (4), 987-994 (2019).
Di Talia, S., Skotheim, J. M., Bean, J. M., Siggia, E. D., Cross, F. R. The effects of molecular noise and size control on variability in the budding yeast cell cycle. Nature. 448 (7156), 947-951 (2007).
Orlando, D. A., et al. A probabilistic model for cell cycle distributions in synchrony experiments. Cell Cycle. 6 (4), 478-488 (2007).
Orlando, D. A., Iversen, E. S., Hartemink, A. J., Haase, S. B. A branching process model for flow cytometry and budding index measurements in cell synchrony experiments. Annals of Applied Statistics. 3 (4), 1521-1541 (2009).
Duan, F., Zhang, H. Correcting the loss of cell-cycle synchrony in clustering analysis of microarray data using weights. Bioinformatics. 20 (11), 1766-1771 (2004).
Darzynkiewicz, Z., Halicka, H. D., Zhao, H. Cell synchronization by inhibitors of DNA replication induces replication stress and DNA damage response: analysis by flow cytometry. Methods in Molecular Biology. 761, 85-96 (2011).
Leman, A. R., Bristow, S. L., Haase, S. B. Analyzing transcription dynamics during the budding yeast cell cycle. Methods in Molecular Biology. 1170, 295-312 (2014).
Rosebrock, A. P. Synchronization and arrest of the budding yeast cell cycle using chemical and genetic methods. Cold Spring Harbor Protocols. 2017 (1), (2017).
Haase, S. B., Reed, S. I. Improved flow cytometric analysis of the budding yeast cell cycle. Cell Cycle. 1 (2), 132-136 (2002).
Kelliher, C. M., Leman, A. R., Sierra, C. S., Haase, S. B. Investigating conservation of the cell-cycle-regulated transcriptional program in the fungal pathogen, Cryptococcus neoformans. PLoS Genetics. 12 (12), e1006453 (2016).
Kelliher, C. M., et al. Layers of regulation of cell-cycle gene expression in the budding yeast Saccharomyces cerevisiae. Molecular Biology of the Cell. 29 (22), 2644-2655 (2018).
Hughes, M. E., Hogenesch, J. B., Kornacker, K. JTK_CYCLE: An efficient nonparametric algorithm for detecting rhythmic components in genome-scale data sets. Journal of Biological Rhythms. 25 (5), 372-380 (2010).
Deckard, A., Anafi, R. C., Hogenesch, J. B., Haase, S. B., Harer, J. Design and analysis of large-scale biological rhythm studies: A comparison of algorithms for detecting periodic signals in biological data. Bioinformatics. 29 (24), 3174-3180 (2013).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

実験間比較のための細胞周期同期喪失モデルを用いた同期時系列データのアライメント

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.