Summary
このプロトコルの目的は、オープンソースソフトウェアを使用して低分子構造ライブラリを効率的に生成し、キュレーションすることです。
Abstract
分子構造の網羅的な生成には、ドラッグデザイン、分子データベースの構築、代替生化学の探索など、数多くの化学的および生化学的用途があります。数学的に言えば、これらは化学的制約を持つグラフジェネレータです。現場では、現在最も効率的な発電機(MOLGEN)は市販品であり、その使用を制限しています。それに代わる、別の分子構造ジェネレーターであるMAYGENは、MOLGENに匹敵する効率と、ユーザーが新しい機能を追加することでパフォーマンスを向上させる能力を備えた最近のオープンソースツールです。この発展から恩恵を受けることができる研究分野の1つはアストロバイオロジーです。構造ジェネレータにより、研究者は実験データを代替生化学の計算可能性で補完することができます。このプロトコルは、アストロバイオロジーにおける構造生成の1つのユースケース、すなわちα-アミノ酸ライブラリの生成とキュレーションを詳述している。オープンソースの構造ジェネレータとケミンフォマティクスツールを使用すると、ここで説明するプラクティスは、アストロバイオロジーを超えて実装され、あらゆる研究課題のための化学構造ライブラリの低コストの作成とキュレーションが可能になります。
Introduction
分子構造生成は、網羅的なグラフ生成の一般的な問題の実用的なアプリケーションとして機能します。いくつかのノード(原子)とその接続性に関する制約(例えば、価数、結合多重度、望ましい/望ましくない部分構造)を考えると、いくつの接続されたグラフ(分子)が可能ですか?構造発生器は、創薬および医薬品開発において広範な用途に応用されており、 in silico スクリーニングのための新規構造の膨大なライブラリを作成することができます1。
最初の構造ジェネレータであるCONGENは、有機化学における最初の人工知能プロジェクトであるDENDRAL2 (DENDRitic ALgorithmの略)のために開発されました。DENDRALのいくつかのソフトウェア後継者が文献で報告されている。しかし、それらのすべてが維持または効率的であったわけではありませんでした。現在、MOLGEN3 は最先端の分子構造発生装置です。残念ながら、ほとんどの潜在的なユーザーにとっては、クローズドソースであり、ライセンス料が必要です。したがって、特定のアプリケーションに簡単に適応できる効率的なオープンソース構造ジェネレータが必要でした。効率的な構造ジェネレータの課題の1つは、組み合わせ爆発の管理です。分子式のサイズが大きくなると、化学探索空間のサイズは指数関数的に増加します。最近のレビューでは、分子構造生成4の歴史と課題をさらに探求しています。
2021年以前は、並列分子ジェネレータ(PMG)5 は最速のオープンソース構造ジェネレータでしたが、それでもMOLGENよりも桁違いに遅かったです。MAYGEN6 はPMGの約47倍、MOLGENの約3倍の速度で、MAYGENは最速かつ最も効率的なオープンソース構造ジェネレーターとなっています。より詳細な比較とベンチマークテストは、MAYGEN6を紹介する論文で見つけることができます。このプログラムの主な特徴は、Schreier-Sims7 アルゴリズムに基づく整然としたグラフ生成方法である正規構造の辞書式順序付けベースのテストです。ソフトウェアは、簡単に他のプロジェクトに統合し、ユーザーのニーズに合わせて強化することができます。
MOLGENやPMGと同様に、MAYGENはユーザー定義の分子式を取り、その式に可能なすべての構造を生成します。例えば、ユーザが式C5H12を用いてMAYGENを実行すると、MAYGENは5個の炭素原子および12個の水素原子を含むすべての可能な構造を生成する。オープンソースのPMGとは異なり、MAYGENは、各元素の数に離散数の代わりに間隔を使用する「あいまいな」分子式にも対応できます。例えば、ユーザが式C5−7H12−15を用いてMAYGENを実行する場合、MAYGENは、5〜7個の炭素原子および12〜15個の水素原子を含むすべての可能な構造を生成し、広範囲の原子組成を有する構造の単純な生成を可能にする。
アストロバイオロジーは、分子構造発生器の恩恵を受けることができるそのような分野の1つです。アストロバイオロジーで人気のあるトピックは、地球上のすべての現存する生命が共有するアミノ酸アルファベットの進化です。最後の普遍的な共通祖先(LUCA)の決定的な特徴の1つは、タンパク質構築のための20の遺伝的にコードされたアミノ酸の使用です8,9。複数の分野10、11、12における研究のメタアナリシスに基づいて、これらのアミノ酸(Gly、Ala、Val、Asp、Glu、Ser、Thr、Leu、Ile、Pro)の約10個が非生物的条件下で容易に形成され、LUCA以前の生物のアミノ酸アルファベットを構成している可能性が高い。時間が経つにつれて、この「初期の」アルファベットは、さまざまな構造的および機能的ニーズに応じて拡張されました。例えば、Moosmann13の最近のレビューでは、遺伝的にコードされたアミノ酸(すなわち、Met、Tyr、およびTrp)のより最近のメンバーの追加は、活性酸素種の細胞内増殖を防止することによって、酸素が豊富な環境での生存を可能にしたと主張している。
増え続ける分析化学技術スイートは、非生物条件下で形成され得るアミノ酸構造への洞察を可能にする。Simkusらによる最近のレビュー14は、隕石中の多数の有機化合物、ならびに初期の地球環境のin vitroシミュレーションからの有機化合物を検出するために使用される方法を詳述している15,16,17。化学構造の体系的な生成により、研究者は計装によって検出された有機化合物を超えて探索し、分析化学によって特定された構造「島」の周りの構造空間に埋め込むことができます。「初期の」アミノ酸の場合、この系統的な構造生成は、非生物合成条件下で実験的に検出された構造に探査を制限することなく、早期に利用可能なタンパク質化学の可能性を示しています。オープンソースのケムインフォマティクスツールキットとMAYGENなどの効率的な構造ジェネレータにより、新しい化学構造ライブラリの作成と探索がこれまで以上に簡単になり、生命の代替化学に関するより詳細な調査を導くことができます。
Protocol
メモ:プロトコルの概要については 図1 を、使用するソフトウェアの詳細については 材料表 を参照してください。
図 1: プロトコルの概要フローチャート。 この図の拡大版を表示するには、ここをクリックしてください。
1. ソフトウェアとファイルのダウンロード
メモ: すべてのプログラムは個人使用は無料で、パーソナルコンピュータ上で実行できます。
- このプロジェクトの新しいディレクトリを作成します。ファイルと実行可能ファイルをここに配置して、簡単にアクセスできるようにします。
- 必要なソフトウェアパッケージをダウンロードしてインストールします。
- MAYGENの最新バージョンを.jarファイルとしてダウンロードしてください。
注:MAYGENは.jarファイルとして自由に入手でき https://github.com/MehmetAzizYirik/MAYGEN/releases - パッケージ管理ソフトウェアCondaとケムインフォマティクスツールキットRDKit18をダウンロードしてインストールします。
注:RDKitはMAYGENによって生成された分子構造をフィルタリングし、Conda環境で最適に動作します。Condaプラットフォームをダウンロードする手順については、https://conda.io/projects/conda/en/latest/user-guide/install/index.html を参照してください。RDKit のインストールと環境のセットアップ手順については、https://www.rdkit.org/docs/Install.html を参照してください。- Anaconda プロンプトを使用して、別の RDKit 環境ではなく、メインの Conda 環境に RDKit をインストールします。Windowsシステムでは、「Anacondaプロンプト」を検索し、結果のショートカットをクリックして実行します。MacOS および Linux システムでは、追加のプログラムを実行せずに端末から Conda と対話します。次に、次のコマンドを入力し、 Enter キーを押して実行し、インストール中に発生する質問に「はい」と答えます。
conda install -c rdkit rdkit.
自由に利用できる記述子計算プログラムは数多くありますが、この例では、分子記述子と指紋用の自由で高速な計算機であるPaDEL-Descriptor19を使用しています。
- Anaconda プロンプトを使用して、別の RDKit 環境ではなく、メインの Conda 環境に RDKit をインストールします。Windowsシステムでは、「Anacondaプロンプト」を検索し、結果のショートカットをクリックして実行します。MacOS および Linux システムでは、追加のプログラムを実行せずに端末から Conda と対話します。次に、次のコマンドを入力し、 Enter キーを押して実行し、インストール中に発生する質問に「はい」と答えます。
- .jarファイルをダウンロードしてプロジェクトフォルダに保存します。
注:PaDELディスクリプタは http://www.yapcwsoft.com/dd/padeldescriptor/ から無料でダウンロードできます。
- MAYGENの最新バージョンを.jarファイルとしてダウンロードしてください。
- 補足 ファイル 1-5 から Jupyter ノートブックと下部構造パターンのテキスト ファイルをダウンロードします。
メモ: Jupyter ノートブックは、次の GitHub ページからダウンロードすることもできます: https://github.com/cmayerb1/AA-structure-manip.
2. マイゲンを用いた構造生成
- コマンドプロンプトで、MAYGEN .jar実行可能ファイルを含むディレクトリに移動します。
- 目的の化学式ごとに、次のコマンドを使用して MAYGEN を実行します。
java -jar [MAYGEN .jar ファイル名] -f [化学式] -v -o [MAYGEN 出力用フォルダ] -m -sdf.
メモ: これにより、.sdfファイルが、使用された数式にちなんで名付けられた指定されたフォルダに保存されます。- 式が離散式ではなくファジー式である場合は、 -f フラグを -fuzzy フラグに置き換え、要素間隔を括弧で囲みます (例えば、C[5-7]H[12-15] を使用して、生成されるすべての構造が 5 ~ 7 個の炭素原子と 12 ~ 15 個の水素原子を持つようにします)。
3. 望ましくない部分構造を有する化合物をろ過する
- Anaconda プロンプトを開き (手順 1.2.2.1 を参照)、 補足ファイル 1 からダウンロードした Jupyter ノートブックを含むフォルダーに移動します。
- 次のコマンドを使用して、Jupyter ノートブックを開き、サブストラクチャのフィルタリングを行います。
jupyter notebook [ノートブックのファイル名] - ノートブックの先頭にある指定されたセルに、入力.sdfファイル(MAYGENによって生成された)のフルファイルパス、目的の.sdf出力ファイルのフルファイルパス、および「badlist」ファイルのファイルパスを文字列(引用符で囲む)として入力します。不良リストの例については、 補足ファイル 2 を参照してください。
- フィルタリングされたライブラリ内の一部の下位構造(グッドリスト)を保持する場合は、それらのサブストラクチャ(グッドリスト)のSMARTSパターン20 の.txtファイルを作成し、ノートブックの先頭の指定された行にグッドリストファイルパスを配置します。グッドリストの例については、 補足ファイル 3 を参照してください。
- ノートブックカーネルを再起動し、すべてのセルを実行して(上部のメニューから [カーネル]、[再起動]、[すべて実行]の順に選択)、指定した出力フォルダに目的の名前の.sdfファイルを取得します。
- ステップ 2 で MAYGEN によって生成された各ストラクチャー・ファイルについて、前の 2 つのステップを繰り返します。
4. (オプション) 追加の構造変更
注: これらはこの例では実行されますが、他のライブラリのキュレーションには必要ない場合があります。
- 擬似原子置換。
注:ここで、擬似原子は、生成されたすべての構造によって共有されるより大きな部分構造を表すために使用されるユニークな原子であり、したがって、MAYGENの生成時間を短縮する。擬似原子置換の例については、 補足ファイル 4 を参照してください。- Anaconda プロンプトを開き (手順 1.2.2.1 を参照)、Jupyter ノートブックを含むフォルダーに移動します。
- 擬似原子置換のためにJupyterノートブックを開きます。
jupyter notebook [ノートブックのファイル名] - ノートブックの先頭にある指定されたセルに、入力.sdfファイルの完全ファイル パスと、目的の.sdf出力ファイルの完全ファイル パスを文字列 (引用符で囲む) として入力します。
- ノートブックカーネルを再起動し、すべてのセルを実行して、指定された出力フォルダに目的の名前の.sdfファイルを取得します。
- アミノ酸N末端およびC末端キャッピング
注:この手順はα-アミノ酸に特異的であり、α-アミノ酸骨格のN末端およびC末端にモレキュラーキャップを追加します。アミノ酸キャッピングの例については、 補足ファイル5 を参照してください。- Anaconda プロンプトを開き (手順 1.2.2.1 を参照)、Jupyter ノートブックを含むフォルダーに移動します。
- アミノ酸キャッピングのためにJupyterノートブックを開きます。
jupyter notebook [ノートブックのファイル名] - ノートブックの先頭にある指定されたセルに、入力.sdfファイルの完全ファイル パスと、目的の.sdf出力ファイルの完全ファイル パスを文字列 (引用符で囲む) として入力します。
- ノートブックカーネルを再起動し、すべてのセルを実行して、指定された出力フォルダに目的の名前の.sdfファイルを取得します。
5. 記述子の生成
- 記述子を生成する前に、記述子が計算されるすべての.sdfファイルを 1 つのフォルダーに配置します。
メモ: まだ行っていない場合は、記述子の生成後に簡単にフィルタリングできるように、これらのファイルにわかりやすい名前を付けます。 - コマンドプロンプトを開き、PaDEL-Descriptor .jarファイルを含むフォルダに移動します。
- 次のコマンドを使用して、収集された.sdfファイルに対して PaDEL-Descriptor を実行します。
java -jar PaDEL-Descriptor.jar -dir [.sdf ファイルのディレクトリ] -file [結果のための.csvファイルのファイルパス] -2d -保持順序 -usefilenameasmolname
注: 結果ファイルの最初の列には分子名が、後続の列には各記述子があります。 - これらのデータを任意のスプレッドシートソフトウェアにエクスポートして、さらに分析します。
Representative Results
図書館 | 式 | 追加の制約 | 「早期」コード化アミノ酸 | 生成時間 (ミリ秒) | 構造 | ||||
イニシャル | 最終的な | ||||||||
1 | グリー | C 2 H5いいえ2 | Glyサブストラクチャーを含む | グリー | 192 | 84 | 1 | ||
2 | ベイル | PC0-3 H 3-9 | ヴァル、アラ、イル、レウ | 172 | 70 | 22 | |||
3 | デスト | PC0-3O1-2 H 3-5 | Asp, Glu, Ser, Thr | 481 | 1928 | 254 | |||
4 | プロ | C 2-5 いいえ2H7-11 | N-meGlyまたはN-meAlaサブストラクチャを含める | プロ | 4035 | 79777 | 16 | ||
5 | VAIL_S | PSC0-2H3-7 | 122 | 65 | 31 | ||||
6 | DEST_S | PSC0-2 O 1-2H3 | 349 | 1075 | 79 | ||||
7 | Pro_S | C 2-4 SNO2H7-9 | N-meGlyまたはN-meAlaサブストラクチャを含める | 3999 | 75734 | 10 |
表 1: この例で使用した複合ライブラリ。 式1-4(Gly、VAIL、DEST、およびPro)から構築されたライブラリは、「早期」コード化アミノ酸21の以前に公開されたファジィ式に基づいており、式5-7(VAIL_S、DEST_S、およびPro_S)から構築されたライブラリは、炭素原子の1つを置き換える2価の硫黄を想像する式2-4の変異体に基づいている。構造カウントは、各式についてMAYGENによって生成された分子の数(「初期」)と、不要な部分構造を有する分子を除外した後に残る分子の数(「最終」)を反映します。略語:VAIL =バリン、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン;X_S = 2価の硫黄がライブラリXの炭素の1つを置き換えます。N-meX = N-メチルX.
上記の一般的な方法は、Meringer et al.21 Badlist構造の手順に従って、「初期の」コード化されたアミノ酸に基づく式に適用され、この同じソースから取得され、SMARTS文字列に変換されて部分構造パターンを容易に表現しました。この例では、2つの不良リスト部分構造は使用されなかった:構造018(CH3-CH-N)は、それ自体が不安定ではないプロリンのほぼ異性体と一致した。構造106(R-C-C-OH、ここでR=アラニン部分構造がβ-炭素で結合している)は、コード化されたアミノ酸であるグルタミン酸と一致した。これらの化学式に加えて、2価の硫黄が炭素原子と2つの水素原子の代わりになる変異体が作成されました。性能上の理由から、これらの式のいくつかは、アラニン部分構造のβ−炭素の代替物として3価のリン原子(例えば、「擬原子」)を使用する。表 1 に、この例で生成されたライブラリー、それらの生成に使用された式、およびそれに含まれる化合物の数をリストします。ライブラリ名は、それらが由来するコード化されたアミノ酸に基づいています:3文字の略語(Gly = グリシン、Pro = プロリン)または1文字の略語(VAIL = Valine、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン)。「_S」接尾辞は、元のライブラリの式で硫黄が炭素に置換されたことを示します(例えば、VAIL_SはVAILと同じファジィ式で構築されていますが、炭素の1つを置き換える2価の硫黄で構築されています)。
MAYGENによる構造生成後、得られたライブラリーを、不良リストに含まれる少なくとも1つの部分構造を含む化合物の濾過を行った。この濾過に続いて、任意のリン原子をアラニン部分構造で置換した。次に、すべての構造の「キャップ付き」バージョンが作成され、N末端にアセチル基が付加され、C末端にN-メチルアミド基が付加された。これは、α−アミノ酸骨格中の遊離アミンおよびカルボン酸基の疎水性に対する効果を除去するために行われた。PaDEL-Descriptorは、すべてのキャップされた構造についてXLogPを計算するために使用され、すべてのキャップされていない構造についてファンデルワールス体積(VABC)を計算した。
図 2 は、VABC 記述子および XLogP 記述子によって定義された、フィルター処理されたライブラリーの化学空間を示しています。ここで、可能なlogP値の範囲は、明示的に親水性側鎖を欠いているライブラリー(例えば、VAIL、Pro)内であっても、分子体積とともに増加する。炭化水素側鎖を有するコードされたアミノ酸は、それらのそれぞれのライブラリーからの同程度の体積の他のほとんどのアミノ酸よりも疎水性であった。これは、同様のボリュームを持つVAIL_Sライブラリの他のメンバーと比較して、MetとCysにも当てはまるようです。ヒドロキシル側鎖(SerおよびThr)を有するコード化アミノ酸は、DASHライブラリーの最小メンバーの1つであり、AspはThrよりわずかに大きいだけであった。
図3および図4は、2価の硫黄がα-アミノ酸側鎖の炭素を置換した場合の体積およびlogPへの影響を示す。硫黄置換は、すべてのライブラリーにおいて分子体積のわずかな増加をもたらした(図3)。logPに対する硫黄置換の効果は、体積ほど均質ではありません(図4)。VAIL_Sライブラリの平均logPはVAILライブラリの平均logPよりわずかに低いですが、この効果は他のライブラリペア(DESTとDEST_S、ProとPro_S)のいずれにも見られません。
図5は 、共通の部分構造のために立っている擬似原子の構造生成への影響を定量化しています。ここで、構造生成時にアラニン部分に置換された3価のPである。構造生成に擬似原子を使用すると、生成される構造の数が約3桁減少し(図5A)、それらの構造を生成するのに必要な合計時間が1〜2桁減少しました(図5B)。
図2:濾過された全てのアミノ酸ライブラリーの化学空間。 黒いマーカーは、硫黄を含まないライブラリからのアミノ酸を表します。黄色のマーカーは、硫黄富化ライブラリーからのアミノ酸を表す。サークル:ベイルとVAIL_S;正方形:DESTとDEST_S;三角形:プロとPro_S。星:コード化されたアミノ酸。2つの硫黄含有コード化アミノ酸(MetおよびCys)は、「早期」アミノ酸とは見なされず、VAIL_Sライブラリーに存在することに注意してください。略語: XLogP = 分配係数;VAIL = バリン、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン;X_S = 2価の硫黄がライブラリXの炭素の1つを置き換えます 。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図3:硫黄の有無にかかわらずライブラリの平均ファンデルワールス体積(Å3)。 黒いバーは硫黄を含まないライブラリの平均体積(VAIL、DEST、Pro)を表し、黄色のバーはこれらのライブラリの硫黄置換バージョン(VAIL_S、DEST_S、Pro_S)の平均体積を表します。エラーバーは標準偏差を示します。略語:VAIL =バリン、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン;X_S = 2価の硫黄がライブラリXの炭素の1つに置き換わります。 この図の拡大版を見るにはここをクリックしてください。
図4:硫黄を含むライブラリと硫黄を含まないライブラリの平均XLogP値。 黒いバーは硫黄のないライブラリ(VAIL、DEST、Pro)を表し、黄色のバーはこれらのライブラリの硫黄置換バージョン(VAIL_S、DEST_S、Pro_S)を表します。エラーバーは標準偏差を示します。略語: XLogP = 分配係数;VAIL = バリン、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン;X_S = 2価の硫黄がライブラリXの炭素の1つを置き換えます 。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図5:MAYGEN構造生成に対する3価の擬似原子の影響 すべてのテストは、2.8 GHz の Intel i7-7700HQ プロセッサ、16 GB の RAM、ファイルに構造体を保存できないこと、およびマルチスレッドを使用する -m オプションを搭載した PC で行われました。擬似原子を用いた試験は、 表1に記載したようなファジィ式を用いた。擬似原子を含まない試験の場合、使用したファジィ式は 表1 に記載したものと同じで、次の変更が加えられた:PはNに置き換えられた。炭素数は3増加しました。水素数は7増加した。酸素数は2だけ増加した。黒いバーは擬似原子で生成されたライブラリを示します。灰色のバーは、擬似原子なしで生成されたライブラリを示します。(A)アラニン部分構造に置換する3価のリンの有無にかかわらず、VAILおよびDESTライブラリを構築するために使用されるファジィ式を使用して生成された構造の数。(B)アラニン部分構造に代用する3価リンの有無にかかわらず、VAILおよびDESTライブラリーを構築するのに必要な時間(ms単位)。略語:VAIL =バリン、アラニン、イソロイシン、ロイシン;DEST=アスパラギン酸、グルタミン酸、セリン、スレオニン。 この図の拡大版を表示するには、ここをクリックしてください。
補足ファイル1:下部構造スクリーニングノート。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 2: 不良リストの例。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル3:サンプルグッドリスト。 このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル4:擬似原子交換ノート。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル5:アミノ酸キャッピングノート。 このファイルをダウンロードするには、ここをクリックしてください。
Discussion
「初期の」アミノ酸の特徴の1つは、硫黄の欠乏である。前述のメタアナリシスでは、一般に、硫黄含有コード化アミノ酸(CysおよびMet)は遺伝暗号への比較的遅い追加であったと考えられており、隕石および火花管実験における硫黄含有アミノ酸の欠如によって支持された結論である。しかし、有機硫黄化合物は彗星や隕石22で容易に検出され、H2Sガスを用いた火花管の再分析実験により、硫黄16を含むアミノ酸やその他の有機化合物が見つかった。代替アミノ酸アルファベットを検討する場合、硫黄が豊富なものは探索する価値があります。
上記のプロトコルでは、構造生成と部分構造フィルタリングは重要なステップと見なされます。完成した構造ライブラリの構成によっては、研究者はこれら2つのステップを実行するだけでよい場合があります。追加のアクション(擬似原子置換および部分構造の追加(この場合はアミノ酸キャッピング))のための指示およびソフトウェアは、より関連性の高い記述子計算(キャッピングは、XLogP計算が主鎖アミンまたはカルボキシル基ではなく側鎖によって影響を受けることを確実にする)および擬似原子の使用によるより速い構造生成のために含まれている。さらに、記述子計算は、生成された構造の多様性を視覚化し、完成したライブラリ内の硫黄濃縮の効果を比較する簡単な方法としてここで行われます。
PaDEL-Descriptorは何千もの分子特性を計算できますが、ここでは2つの異なる理由で分子体積(計算されたファンデルワールス体積)と分配係数(XLogPとして)が使用されました。まず、これら2つの記述子は、ほとんどの化学者や生物学者に馴染みのある分子特性(それぞれサイズと疎水性)を測定します。第二に、アミノ酸の場合、これら2つの特性は重要である。何十年もの間、アミノ酸サイズと疎水性はタンパク質フォールディングの熱力学に影響を与えることが知られていました23。これら2つの特性は、タンパク質の進化を理解するために不可欠なアミノ酸置換頻度を説明するのに役立ちます24。
上記の例は、研究された2つの記述子(分子体積および疎水性)において、炭素および2つの水素を2価の硫黄に置き換えても大きな変化をもたらさないことを示している。硫黄置換による平均分子体積のわずかな、有意でない増加(図3)は、sp 3(〜75 pm)またはsp 2(〜73 pm)炭素25のいずれかと比較して、硫黄のより大きな共有結合半径(〜103 pm)に起因する可能性がある。同様に、硫黄置換は平均XLogPに最小限の影響しか及ぼさない(図4)。最大の効果は、VALELライブラリとVAIL_Sライブラリの間であり、おそらくVAILライブラリが特に疎水性であり(側鎖は炭化水素のみである)、スルフヒドリル基がメチル基よりもはるかに酸性であることの組み合わせによるものである。硫黄置換の最小効果は図2で明らかであり、硫黄置換を有するライブラリーは、硫黄置換のない類似ライブラリーと同じ化学空間を占める。
擬似原子を使用する場合の構造の数の減少(図5A)とそれらの構造を生成するのに必要な時間(図5B)は驚くべきことではない。擬似原子を使用すると、化学グラフに組み込む必要がある重原子の数が減り、グラフノードの数が減り、生成時間と構造の数が指数関数的に減少します。ここで、擬似原子としての3価のリンの選択は、基本的な生化学(リン酸基の翻訳後付加がなく、遺伝的にコードされたアミノ酸はリンを含まない)およびそれを置き換える原子の価数(3価のリンは、他の原子または原子群に単独で結合している4価の炭素で容易に置換することができる)に由来する。擬似原子置換のための提供されたコードは、3価のリンをアラニン部分構造で置き換えることに特有であるが、ユーザーは、異なる擬似原子または置換部分構造で動作するようにコードをカスタマイズすることができ、潜在的に最初の構造生成中に複数の擬似原子を使用し、その後、各擬似原子をより大きな分子部分構造で置き換える。
MAYGENによって採用されているものと同様の構造生成方法(およびニューラルネットワークなどの他の方法)は、 インシリコ スクリーニング用の化合物ライブラリーを生成するために創薬においてすでに使用されている。最近のレビュー4 では、これらの方法をより詳細に説明しています。これらの方法は主に薬物様分子の作成を目的としているため、生物学的または薬学的特性を使用して作成される構造を制限する(逆QSPR / QSAR)か、予め設定された数の部分構造ビルディングブロックから構造を作成するなど、分子を生成する能力にはいくつかの制限があります。アストロバイオロジーは、最終生成物やその特性よりも不合理に形成できる多数の有機化合物に焦点を合わせているため、MAYGENの徹底的な構造生成は、アストロバイオロジカルな問題に対処するための構造ライブラリの作成に最適です。ここで説明するサブストラクチャーフィルタリングのアプローチ(外部プログラムを介してストラクチャー生成後に実行される)は、MOLGENのサブストラクチャーフィルタリングがストラクチャー生成中に発生するという点で、競合プログラムMOLGENとは異なります。MAYGENはオープンソースであるため、MOLGENのライセンスコストのためにMOLGENよりもアクセスしやすいだけでなく、構造生成中にサブストラクチャーフィルタリングなどの新機能を実装することができます。
書かれているように、ここで説明するプロトコルは、比較的小さなα-アミノ酸のライブラリを生成してキュレーションすることに焦点を当てています。異なるライブラリーを生成するために、ユーザーは異なる分子式をMAYGENに与えたり、最大許容環サイズと結合価数を変更して部分構造フィルタリングを変更したり、グッドリストファイルとバッドリストファイルを編集して部分構造パターンを追加または削除したりできます。原子および部分構造の追加または置換方法の変更(擬似原子置換および分子キャッピング)を伴うプロトコル修正は可能であるが、修飾構造内の誤った原子価に関するRDKitエラーを回避するために、価数制限にもっと注意が必要である。
上記で詳述したプロトコルは、小さなα-アミノ酸用に設計されています。しかし、一般的な形式(擬似原子を用いた包括的な構造生成、その後の部分構造フィルタリングおよび分子修飾)は、小さなアミノ酸を超える化合物に対して非常に柔軟である。アストロバイオロジーにおいても、MOLGENを用いた同様の最近の手順が核酸の体質異性体を調べるために使用された26。上記のツールに加えて、MAYGENは他のオープンソースのケミンフォマティクスツールと組み合わせて、新しい化学構造の作成と分析を手頃な価格で幅広い研究分野に利用できるようにすることができます。
Disclosures
著者らは、開示すべき利益相反はありません。
Acknowledgments
メイはカールツァイス財団による資金提供を認めています。すべての数値は、マイクロソフトエクセルを使用して生成されました。
Materials
Name | Company | Catalog Number | Comments |
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |
References
- Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
- Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
- Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
- Yirik, M. A., Steinbeck, C.
Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021). - Jaghoori, M. M., et al.
PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013). - Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
- Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
- Mat, W. -K., Xue, H., Wong, J. T. -F.
The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008). - Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
- Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
- Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
- Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
- Moosmann, B.
Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021). - Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
- Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
- Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
- Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
- RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
- Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
- SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
- Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
- Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
- Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
- Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
- Cordero, B., et al.
Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008). - Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).