Method Article

ケモインフォマティクスの応用による分析法の構造検索可能データベースの開発

DOI:

10.3791/68194

June 6th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この記事では、研究者が分析法やスペクトルデータに簡単にアクセスできるように設計されたケモインフォマティクスアプリケーションである、ウェブベースの分析法およびオープンスペクトルデータベースであるAMOSについて説明します。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

分析法は、詳細な規制文書からより単純な要約まで多岐にわたります。規制方法には、適切な分析種、サポートマトリックス、必要な試薬、統計的パフォーマンス、ラボ間バリデーション、およびその他の詳細に関する情報が含まれる場合があります。通常、サマリーには、試薬、装置、および多くの場合、分析物の短いリストの一般的な概要が記載されています。米国環境保護庁(USEPA)、米国地質調査所(USGS)、米国農務省(USDA)、食品医薬品局(FDA)などの米国政府機関の分析方法により、詳細な手続き情報が得られます。Agilent、Shimadzu、Thermo Fisher Scientific、Sciexなどの機器ベンダーも、要約方法と見なされる可能性のある数百のアプリケーションノートへのアクセスを提供しています。この研究では、分析法の文書から化学物質を抽出し、識別子(名前および/またはChemical Abstracts Service 登録番号(CASRN))を化学構造にマッピングした、ケモインフォマティクス対応のデータベースを開発しました。得られたデータベースには約 7,000 のメソッドが含まれており、識別子、化学構造、構造類似性で検索でき、約 100 万のパブリックドメインスペクトル(LC/MS、GC/MS、NMR、IR)が補完されています。このアプリケーションは、分析メソッドの検索と、分析種、機能的使用法、メソッドソース、およびその他の関連メタデータに基づくフィルタリングをサポートしています。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Webベースの化学データをコミュニティに配信することは、PubChem1、ChemSpider2、CompTox Chemicals Dashboard(CCD)3などのアプリケーションによって実証されています。分析法の詳細を、ジャーナル論文に掲載されたもの、装置ベンダーがテクニカルアプリケーションノートとして発表したもの、政府機関が標準的な操作手順書や規制方法として提供したもの、国際標準化機構(ISO)などの標準化団体が発行したものなど、さまざまな形で流通させています。これらの情報源では、数万種類の化学物質がさまざまな条件と分析技術の下で研究されてきました。この広範な情報源は、特定のマトリックス(血液など)中の単一の化学物質の定量化から、特定の作物中の農薬とその残留物の混合物、飲料水で特定された数百の化学物質まで、さまざまな物質を網羅しています。多くの分析方法は公開検索エンジン 見つけることができますが、すべてが無料で利用できる、またはオープンアクセスであるわけではありません。

関心のある特定の情報を見つけるのは難しい場合があります。汎用検索エンジンは化学データ用に最適化されておらず、そのランキングアルゴリズムは、狭い視聴者を対象とした高品質のコンテンツを覆い隠す可能性があります。ジャーナルのウェブサイトを横断して検索すると、より的を絞った結果が得られる可能性がありますが、アクセスが制限されていることが多く、公開されている抄録のみであるため、メソッドの有用性を評価することは困難です。さらに、サンプルマトリックス、検出限界、定量などの重要なパラメーターは、構造化された形式で保存されていないことがよくあります。もう1つの大きな課題は、単一の化学物質に関連する化学物質の識別子、名前、および同義語の多様性と不一致にあります。構造化された分析法データが不足しているため、数十年にわたって蓄積された分析化学の知識や関連論文を活用できるソフトウェアツールの開発が制限されています。

これらの課題と制限の結果として、分析手法を調和させ、検索するためのキュレーションされた化学指向のアプリケーションが必要とされています。これは、他の場所では特定できなかったものです。このギャップに対処するために、米国環境保護庁は、AMOS、Analytical Methods and Open Spectraデータベース、およびWebベースのアプリケーションを開発しました。AMOSは現在、分析方法、さまざまな分析スペクトル、およびファクトシートと総称される広範なカテゴリの補足文書の3種類のデータレコードを収集し、整理しています。各レコードは、分析法のターゲット化学分析種および試薬にリンクされています。データは、テキストクエリ、化学構造、構造的またはスペクトル的類似性など、複数の方法で検索できます。

AMOS アプリケーションは、主にオープン・アクセスおよびオープン・データ・レコードの提供に重点を置いています。可能な場合、データベース内のレコードは元のソースにハイパーリンクされます。オープンライセンスではないため、データベースに直接保存されていないレコードは、他の方法が利用可能であれば、URL を介して 統合およびアクセスできます。これは、ペイウォールの背後にある分析方法(通常はEPAがアクセスできるジャーナルまたは標準化団体からのもの)と、利用可能だがログインアクセスが必要なスペクトルの2種類のレコードに適用されます。

データソースはレコードの構造によって異なるため、コンテンツを組み立てて調和させるには、抽出とキュレーションに多大な労力が必要です。ほとんどのレコードは物質識別子(CASRN、DTXSID、InChIKey、一般名など)を提供し、多くの場合、抽出は簡単です。ただし、これらの識別子を化学構造や物質の詳細と照合することは複雑になる可能性があります。一部の識別子は、EPAのDistributed Structure-Searchable Toxicity(DSSTox)データベース4のエントリと直接一致させることができます。一致が見つからない場合は、識別子が既存の物質にリンクされるか、新しい物質が登録されます。その結果、AMOSイニシアチブにより、DSSToxデータベースが拡張され、CompTox Chemicals Dashboard3などの他のEPAデータベースやアプリケーションをサポートする基本データが改善されました。

特定の貴重な追加情報については、手動キュレーションが必要です。分析法では、検出限界や定量限界、サンプルマトリックス、分析方法などの実験パラメーターが標準化された方法で整理されておらず、自動化されたツールはストレージに一貫性がないため、これらの情報を識別できません。

記録情報の 2 つの要素、つまりサンプルに関連付けられた培地と分析種の機能的使用は、汚染物質による危険性と曝露の懸念を監視するための継続的な取り組みに大きく関連しています。そのため、レコードデータ内でこれらの属性を構造化することにかなりの注意が払われました。このプロジェクトのために、機能的使用分類のオントロジーが開発されました。このオントロジーは、物質の機能的使用を、より一般的な「親」の使用からより具体的な「子」の使用まで、階層構造に整理します。オントロジーは、アプリケーションの観点から物質の調査を促進し、曝露とハザードを評価する手段として機能的使用を強調する研究イニシアチブをサポートします5,6。さらに、分析法は、EPA のマルチメディアモニタリングデータベース(MMDB)7 で指定されているように、サンプルの整合培地カテゴリーに従って標識しました。この分類により、特定の媒体中での化学物質の産出量に基づいて化学物質を検索できるようになり、特定の環境サンプルや生物学的サンプル中の化学物質の検出に焦点を当てたソリューションの開発が効率化されます。これらのアノテーションにより、EPA内で開発中の曝露指向および危険指向のワークフローへのAMOSの統合が強化されます。

スペクトルを組み立てる際には、さまざまなファイル形式(一部は名目上標準化されているだけ)を処理し、付随するメタデータの解析には、多くの場合、カスタム処理が必要になります。スペクトルコレクションがパブリケーションにリンクされている場合、パブリケーション内に文書化された詳細をデータの読み込みのために手動で抽出する必要があります。この取り組みにより、これらの異なるスペクトルを統合して構造化するデータベースが生まれ、研究者は将来の取り組みで面倒なキュレーションの必要性を回避することができました。

2025年3月現在、データベースには約935,000のスペクトルが含まれており、そのうち約99%が質量スペクトルと、NMR(~2,000)とIR(~400)の小さなコレクションです。さらに、約 770,000 の外部リンク スペクトル (SpectraBase データベース8 に接続)、~36,000 のファクト シート、~7,400 の分析方法があります。このアプリケーションに統合されている物質は、CompTox Chemicals Dashboard(CCD)に組み込まれており、120万を超える物質を含むDSSToxデータベースの物質のサブセットです。

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

AMOS の機能の大部分は、特定の物質のレコードの検索、特定の物質のコレクションの検索、レコードのカテゴリ間の検索の 3 つのカテゴリに分類できます。これらの機能の個々のページはすべて、各ページの上部にあるナビゲーションバーからアクセスできます。アプリケーションは現在、AMOS モジュール を介して https://hcd.rtpnc.epa.gov/#/ でデプロイされています。この調査で使用したソフトウェアツールは、 資料の表に記載されています。

1. 特定物質の記録の検索

  1. 一般検索: 一般検索を実行して、1 つの物質に関連付けられているすべてのタイプのレコードのリストを取得します ( 図 1 を参照)。
    1. ナビゲーションバーの左上にあるテキストフィールドまたはフロントページの検索フィールドに、物質名、CASRN、InChIKey、またはDSSTox物質識別子(DTXSID)を入力します。Enterキーを押すか、[検索]をクリックして検索を実行します。
      注:フロントページの検索バーには、部分文字列で検索する追加のオプションがあります。詳細については、部分識別子検索 (ステップ 2.2) のセクションを参照してください。
    2. 検索された識別子が認識され、単一の物質と一致する場合、ページの左側には、物質に関するいくつかの基本情報と、その物質に関連するすべてのレコードをリストした表が表示されます。そのテーブルの行を選択すると、関連付けられたレコードがデータベースに直接保存されている場合は、ページの右側に表示されます。
    3. 検索された識別子が複数の物質と一致する場合(たとえば、複数の物質に使用されている略語)、曖昧さ回避プロンプトが表示され、ユーザーは表示したい物質を選択できます。そのリストから物質を選択すると、1つが認識された物質の表示にリダイレクトされます。
    4. 結果のテーブルをフィルタリングするには、テーブルのすぐ上にあるタブをクリックしてレコードタイプでフィルタリングし(これにより、さまざまな列が非表示および再表示されます)、テーブル上部のフィールドにテキストを入力してデータの他の側面をフィルタリングし、タブの上にあるチェックボックスを選択してデータの広範なプロパティをフィルタリングします。
  2. バッチ検索: バッチ検索を実行して、特定の物質リストに関連付けられているデータベース内のすべてのレコードに関する情報をリストするスプレッドシート ファイルを生成してダウンロードします。( 図2を参照)。
    1. 入力データ・フィールドに、検索する DTXSID のリストを 1 行に 1 つずつ入力します。DTXSID が使用できない場合は、ページ上のリンクを使用して、他の ID を指定して DTXSID を提供できる CCD ツールに移動します。
    2. [検索オプション] の下のチェックボックスを使用して、結果を除外したり、レコードに追加情報を追加したりします。オプションは、レコードタイプによるフィルタリング、分析手法によるフィルタリング、結果ファイルへの物質レベル情報の追加、レコードレベル情報の追加(現在はマススペクトルのみ使用可能)、および一部のその他のオプションの5つのカテゴリにグループ化されています。
      注: 破線の下線が引かれたオプションには、オプションについてより詳細に説明するテキストがあります。オプションのラベルにカーソルを合わせると、表示されます。
    3. ページ下部の「 検索 」をクリックして、検索を実行します。
      注:出力スプレッドシートには、物質識別子、ソースリンク、およびその他の基本情報とともに、物質とレコードの関連付けのリストが含まれています。検索した物質が1つのレコードに複数出現した場合、レコードは物質ごとに1回出現します。
  3. 構造的類似性検索:この検索を実行すると、検索された物質または十分に高い谷本構造類似性係数を持つ物質を含むデータベース内の方法とファクトシートのリストを取得できます( 図3を参照)。
    注:この検索は、関心のある物質がどの方法にも現れない場合に役立ちますが、非常に類似した物質を含む方法が参照として使用される可能性があります。
    1. 検索フィールドに DTXSID、InChIKey、CASRN、または物質名を入力し、[ 検索 ]をクリックするか 、Enterキーを押します。検索が完了するまでに 20 秒から 30 秒かかる場合があります。
    2. 検索が完了すると、タブ付きのテーブルが下に表示されます。タブを選択して、検索結果を確認します。
      1. 最初の 2 つのタブには、見つかった方法とファクトシートが一覧表示されます。いずれかを選択すると、ページの右側にそのドキュメントのビューが表示されます。検索された物質を含むメソッドまたはファクトシートは太字で記載されています。
      2. 3 番目のタブには、メソッドまたはファクトシートに出現した類似物質がリストされています。テーブル内の行を選択すると、検索された物質とテーブルから選択した物質との比較が表示されます。検索した物質自体が文献から見つかった場合は、太字のフォントで表示されます。
      3. 上部にある 「Filter minimum substance similarity 」セレクターを使用して、選択した類似性のしきい値を下回る物質が不足している検索結果を非表示にします。

figure-protocol-1
図 1: コレステロールを含むレコードの検索結果。 「cholesterol」を一般的に検索すると、テーブル内の一致するレコードのリストが表示されます (左)。選択したレコードのマススペクトルが右側に表示されます。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-2
図2:バッチ検索インターフェース。 検索フィールドには、DTXSIDによって識別された2つの物質が含まれています。クエリにはデフォルトの検索オプションが選択されています。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-3
図3:1P-LSDの構造検索結果。 この表は、構造的に類似した物質を含む方法をリストしています。選択した方法が右側に表示されます。表に太字のエントリは、1P-LSDがリストされているどの方法にも現れないことを示しています。 この図の拡大版を表示するには、ここをクリックしてください。

2. 物質の探索

  1. ClassyFire検索:この検索を実行して、ClassyFire分類9 の特定の最初の4つのレベルに属するすべての物質をリストします( 図4を参照)。
    1. ページ上部の 4 つのフィールドを使用して、分類の上位 4 つのレベルを一度に 1 つずつ選択します。最初の 3 つをそれぞれ選択した後、そのフィールドの下にあるボタンを使用して、分類の一覧を 1 つ下のレベルに取得します。4番目のボタンでは、下のボタンで検索を実行します。
      注:検索が完了すると、その分類の下に存在する物質のリストが下の表に入力されます。このテーブルには、一般的な識別子と物質情報に加えて、AMOS に存在するレコードの数が含まれています。
    2. クラス選択とテーブルの間にあるボタンを使用して、次の 4 ビットの機能を許可します。
      1. 分類をURLにコピー」 をクリックしてURLをクリップボードにコピーすると、新しいブラウザタブまたはウィンドウに読み込まれると、分類レベルが自動的に事前入力され、検索が実行されます。
      2. 「Reset Selection」をクリックして、分類フィールドの選択をリセットします。見つかった物質のテーブルをリセットしません。
      3. 「Download Table」をクリックすると、サブスタンス画像以外のテーブル内のすべての可視フィールドとレコードを含むスプレッドシートファイルのダウンロードが開始されます。結果テーブルの上部にあるフィルターが使用中の場合、ダウンロードした結果もフィルターされますが、フィルターの内容は含まれません。
      4. Send Selected Substances to Batch Searchをクリックすると、バッチ検索の新しいタブが開き、ClassyFireの検索結果から選択した化学物質が事前に入力されたDTXSIDをリストするフィールドが表示されます。個々の物質の選択は、各行のチェックボックスで行うことができます。すべての物質の選択または選択解除は、テーブルのヘッダーのチェックボックスをクリックすることで実行できます。バッチ検索の詳細については、ステップ 1.2 を参照してください。
  2. 部分識別子検索:これを実行して、一意でない識別子に一致するすべての物質を見つけます( 図5を参照)。現在のオプションは、名前部分文字列 (EPA が推奨する名前と一般的な同義語の両方をカバー)、InChIKey 最初のブロック、正確な分子式、およびモノアイソトピック質量の範囲です。
    1. ページの上部で識別子を選択し、隣接するフィールドに情報を入力します。
    2. [ 検索 ]をクリックして検索を実行します。
    3. 検索が完了すると、テーブルには、部分識別子に一致する物質のリストに加えて、AMOSのデータベースや他の文献に出現する頻度に関する情報が入力されます。テーブルの列の上部にあるフィルターを使用して結果をさらに絞り込み、[ Show multicomponent substances ] チェックボックスを使用して、複数の化合物で構成される物質を表示または非表示にします。
      注: 名前の部分文字列の検索が実行された場合は、見つかったシノニムを一覧表示する列が表示されます。物質が同義語によってのみ検出される場合、つまり、優先名に部分文字列 が含まれていない 場合、優先名はイタリック体になります。

figure-protocol-4
図4:ClassyFire分類検索結果。 結果には、物質レベルの情報と分類グループごとのレコード数が含まれます。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-5
図5:「trazine」の部分識別子検索結果。 検索では、優先名またはサブストリング「trazine」を含むシノニムを持つ物質が取得されます。3つの結果のうち2つは、同義語にのみ「trazine」を含み、好ましい名前は含まれていません。 この図の拡大版を表示するには、ここをクリックしてください。

3. レコードの検索

  1. ファクトシートとメソッドリスト: このページには、データベース内のすべてのファクト シートとメソッドが一覧表示され、それらをフィルター処理するさまざまな方法が一覧表示されます ( 図 6 参照)。2 つのページの機能はほぼ同じであるため、ここではグループ化します。
    注: ページに移動すると、テーブルをロードするように求められます。これは、存在するレコードの数により、少し時間がかかる場合があります。
    1. テーブルが読み込まれたら、各列の上部にある入力を使用して、データとさまざまなフィールドをフィルタリングします。正確なフィールドはテーブルによって異なりますが、ほとんどのフィールドは選択またはフィルタリングできます。
    2. テーブルの上にある [フル テーブル フィルター ] フィールドを使用して、特定の文字列のすべての列を確認します。
      注: メソッド リストには、デフォルトでは非表示になっている 2 つのフィールド (author と publisher) が含まれています。フル テーブル フィルターは、これらのフィールドのいずれかに検索された用語を持つレコードをキャッチします。
    3. ファクトシートリストでは、特定の物質を検索して個々の結果をフィルタリングできます。 物質名(CASRN、InChIKey、 または DTXSID)を入力し、 検索 を押してテーブルをフィルタリングします。 「フィルターのクリア 」をクリックして、物質フィルターをクリアします。
      注:両方のテーブルには、次のボタンがあります:クリップボード にフィルターをコピー は、ブラウザがアクセスすると、リストをロードし、テーブル内のフィルターフィールドに現在の値を事前入力するURLをコピーします。 「Download Table 」は、テーブルに表示されるすべての結果とフィルターのリストをダウンロードします。 物質のダウンロード (フィルタリングされた)テーブルに表示されるすべての物質のリストをダウンロードします。 「フィルターのリセット」 は、フルテーブルフィルターを含むすべてのテーブルフィルターをクリアします。
  2. マススペクトル検索:この検索を実行すると、ユーザーが指定したスペクトルに基づいてデータベースからマススペクトルの一致リストが取得されます( 図7を参照)。
    1. 4つの必須入力フィールドに入力または調整します:ダルトン単位の対象物質の 質量範囲 、ダルトン単位または百万分の一(ppm)単位の誤差範囲。GC/MSまたはLC/MSのいずれかの 方法論。電荷対質量および強度ペアのリストとして与えられる質量スペクトル。ピーク類似性の 質量ウィンドウのサイズ
    2. これらのフィールドに入力したら、その下にある [検索 ]ボタンをクリックします。
      注:検索が完了したときにスペクトルが見つかった場合、質量範囲に一致するすべての物質から選択した方法に一致するスペクトルをリストするページの右側に、ユーザーが提出したスペクトルとデータベーススペクトルの間のエントロピー類似性でソートされたテーブルが表示されます。
    3. テーブル内の行を選択すると、ユーザー・スペクトラムとデータベース・スペクトラムの比較を示すプロットが表示されます (それぞれプロットの上部と下部に表示されます)。[ 表示する最小類似性 ] フィールドを使用して、特定のエントロピー類似性を下回る結果を非表示にします。
  3. 機能使用分類の視覚化: このページでは、AMOS の機能使用オントロジーを視覚化し、それらの使用クラスの方法とファクトシートへのリンクを示します。クラスは有向グラフで表され、エッジは一般的な親クラスからより具体的な子クラスに移動します ( 図 8 を参照)。
    1. 右側の検索フィールドを使用して、機能使用クラスのリストを検索します。使用クラス名にカーソルを合わせると、グラフ内の対応するノードが強調表示されます。
    2. グラフを直接調べる場合は、指定したノードにカーソルを合わせると、そのクラスの簡単な説明が表示され、そのノードの直接の親クラスまたは子クラスが強調表示されます。
    3. ページの右側にあるリストから クラス名 またはグラフ内の ノード を右クリックすると、メソッドとファクトシートのリストのオプションを含むメニューが表示されます。これらのいずれかを選択すると、新しいブラウザー タブが開き、そのリストが表示され、選択した機能クラスで機能クラス フィールドが事前にフィルター処理されます。
  4. 土壌三角プロット:このページは、米国農務省の土壌テクスチャ分類を再現し、土壌タイプによるAMOSの方法の検索を可能にします。
    1. プロットの領域にカーソルを合わせると、その構成の詳細が表示されます。
    2. プロットの領域をクリックすると、メソッドリストの新しいタブが開き、選択した土壌分類でマトリックスフィールドが事前にフィルタリングされています。

figure-protocol-6
図6:フィルタリングされた分析方法のリスト。 この表は、分析種とマトリックスでろ過され、水中のPFAS(パーフルオロアルキル物質およびポリフルオロアルキル物質)に関連する方法のみが表示されます。対応するファクトシートのリストは、このレイアウトとよく似ています。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-7
図7:スペクトル類似性の検索結果。 AMOS データベースからのカフェインスペクトルが入力として使用されます。類似スペクトルは物質ごとにグループ化され、最大類似性スコアは1.0です。ミラーリングされたプロットには、入力スペクトル (上) と選択したデータベース スペクトル (下) が表示されます。水色のピークは入力に固有で、オレンジ色のピークはデータベース一致に固有で、濃い青色のピークは共有されます。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-8
図8:機能使用分類の視覚化。 階層構造は、カーソルが「Industrial Chemicals」ノード(黄色で囲まれた部分)の上に置かれた状態で表示されます。その子クラスは緑色で囲まれています。 この図の拡大版を表示するには、ここをクリックしてください。

figure-protocol-9
図9:土壌三角プロットの視覚化。 プロットには、土壌サンプルの組成データが表示されます。右上のツールチップには、現在カーソルの下にある領域の正確な構成が表示されます。 この図の拡大版を表示するには、ここをクリックしてください。

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

上記のAMOSのスクリーンショットは、対象物質の検索とスペクトル、ファクトシート、メソッドの両方を含む、アプリケーションの個々の検索からの典型的な結果を示しています。データベースを調査するさまざまな方法は、データとそれらが関連する物質をより深く調査できる方法で、最も可能性が高く、最も有用な種類の検索をカバーすることを目的としています。

ユーザーの検索を支援するために、多くの機能は、利用可能なデータをより深く調査することを目的とした方法で相互接続されています。ワークフローの例として、機能使用分類の視覚化は、その機能クラスに関連する方法とファクトシートのビューにリンクしており、そこから物質のリストを抽出してバッチ検索に入力したり、個々のドキュメントを調べたり、それらのドキュメント内の個々の物質をさらに調査したりできます。分析法に含まれる多くの物質は、データベースにも実験用質量スペクトルがあるため、研究者は物質のカテゴリーから、特定の物質の存在をテストできる一連の方法とスペクトルにすばやく移行できます( 図9を参照)。

結果は、検索対象と実行される検索に大きく依存するため、アプリケーション全体の代表的な結果を定義することは困難です。全体として、ユーザーエクスペリエンスの観点から「成功」を説明する方が正確かもしれません。その場合、一般的に次のことが当てはまることが望まれます:検索とフィルタリングの方法(および異なる検索とフィルター間を移動する機能)は、ユーザーが必要な情報のサブセットを特定するのに効果的であること。ユーザーが見つけた結果が正確で有用であること。 図 10 は、AMOS の機能を示すワークフローの例を示しています。

figure-results-1
図10:AMOS機能を示すワークフローの例。 ワークフローは、機能使用分類(呼吸器系薬剤)から始まり、血液中の呼吸器系薬剤に関連する方法をフィルタリングし、1 つの特定の方法を調べ、その方法に含まれる物質のスペクトルを特定します。 この図の拡大版を表示するには、ここをクリックしてください。

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

多くのプロジェクトやアプリケーションは、メソッド、ファクトシート、特定の種類のスペクトルなど、単一のタイプのレコードから情報を収集し、標準化することに重点を置いていますが、AMOSは、複数のレコードタイプにわたって大量の情報をコンパイルし、統合する最初のツールとして特定されています。これらの多様なソースからのデータの統合、調和、構造化により、分析化学方法論へのアクセスを必要とするワークフローに容易に組み込むことができるデータベースが実現します。いくつかの補完的な方法でデータベースを検索する機能により、複数のWebサイトやツールで大規模な手作業が必要になる可能性のある情報を効率的に取得できます。

一般公開に先立ち、AMOSの有用性は、EPAのスタッフが幅広いプロジェクトを支援するために使用することで実証されました。EPA は、ノンターゲット分析 10,11 に対する質量分析の応用に持続的な関心を持っており、複数のイニシアチブが AMOS の実験質量スペクトルを活用して、DSSTox 化学物質12,13 から生成された大規模な in silico スペクトルライブラリに対する検索を強化しています。他のプロジェクトでは、構造的類似性検索を使用して新しい方法を開発するための出発点を特定し、既存の方法を調べて検出限界と定量限界を評価し、方法にリンクされた化学物質のコレクションを分析して化学空間のカバレッジの範囲を評価しました。

AMOSの潜在的なトレーニングデータの集約は、ノンターゲット分析(NTA)ワークフローを推進するための主要なニーズである分析方法14の適合性の定量的モデルの開発をさらにサポートします。AMOS内のキュレーションの取り組みは、方法論的カバレッジ14に関連する化学空間をモデル化、探索、視覚化するイニシアチブも促進します。

AMOSのコア機能は成熟していますが、継続的な開発はユーザーからのフィードバックによって導かれます。現在のタスクには、追加データの組み込み、フィルタリングを強化するための追加のメタデータのキュレーション、検索機能の拡張などがあります。EPAの利害関係者と協力して、グラフィカルユーザーインターフェース(GUI)が非効率的である可能性のあるユースケースに対処するために、プログラムによるアクセスを可能にするアプリケーションプログラミングインターフェース(API)を開発中です。リリース ノート ページがアプリケーションに統合され、コードの更新を経時的に追跡および伝達できます。

現在、新しいデータレコードと化学物質は毎週追加されています。ただし、一般公開後はリリーススケジュールが遅くなることが予想されます。レコードと関連するメタデータの正確性を確保するために多大な努力が払われていますが、データの多くは公開データベースから取得されています。そのため、すべてのレコードを完全に検証することは不可能であり、ユーザーは絶対的なデータ精度が保証されないことに注意する必要があります。

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本稿は、必ずしも米国環境保護庁の見解や政策を代表するものではありません。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者らは、データベースの化学物質のキュレーションに尽力してくれたキュレーションチームに感謝し、AMOSの構築と展開における技術サポートを提供してくれたJoshua Powell氏、Asif Rashid氏、Freddie Valone氏に感謝しています。また、原稿の査読をしてくださったCharles Lowe氏にも感謝します。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Git該当なしhttps://git-scm.com/オープンソースのバージョン管理システム。
JavaScript該当なしhttps://ecma-international.org/publications-and-standards/standards/ecma-262/プログラミング言語。ECMA国際規格で定義されています。
PostgreSQLPostgreSQLグローバル開発グループhttps://postgresql.org/about/licenceオープンソースのデータベース管理システム。
ニシキヘビPythonソフトウェア財団https://www.python.org/オープンソースのプログラミング言語。

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).">Kim, S., et al. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).
  2. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).">Pence, H. E., Williams, A. J. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).
  3. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).">Williams, A. J., Grulke, C. M., Edwards, J. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).
  4. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).">Grulke, C. M., Williams, A. J., Thillanadarajah, I., Richard, A. M. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).
  5. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).">Tickner, J. A., Schifano, J. N., Blake, A., Rudisill, C., Mulvihill, M. J. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).
  6. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).">Phillips, K. A., Wambaugh, J. F., Grulke, C. M., Dionisio, K. L., Isaacs, K. K. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).
  7. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).">Isaacs, K. K., et al. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).
  8. https://spectrabase.com/ (2025).">SpectraBase. , https://spectrabase.com/ (2025).
  9. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).">Djoumbou Feunang, Y., et al. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).
  10. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).">Ulrich, E. M., et al. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).
  11. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).">Sobus, J. R., et al. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).
  12. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).">Chao, A., et al. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).
  13. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).">McEachran, A. D., et al. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).
  14. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).">Charest, N., et al. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Cheminformatics DatabaseStructure Searchable DatabaseAnalytical MethodsChemical Structure SearchMethod Identifier MappingPublic Domain SpectraLC MS SpectraGC MS SpectraNMR SpectraIR Spectra

Related Articles