Method Article

Zastosowanie chemininformatyki do opracowania bazy danych metod analitycznych z możliwością przeszukiwania struktury

DOI:

10.3791/68194

June 6th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W tym artykule opisano AMOS, internetową bazę danych Analytical Methods and Open Spectra, aplikację cheminoinformatyczną zaprojektowaną w celu zapewnienia naukowcom łatwego dostępu do metod analitycznych i danych spektralnych.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Metody analityczne mogą obejmować zarówno szczegółowe dokumenty regulacyjne, jak i prostsze podsumowania. Metody regulacyjne mogą obejmować informacje o podatnych analitach, obsługiwanych matrycach, wymaganych odczynnikach, wydajności statystycznej, walidacji międzylaboratoryjnej i innych szczegółach. Podsumowania zazwyczaj zawierają ogólny przegląd odczynników, oprzyrządowania, a często także krótką listę analitów. Metody analityczne stosowane przez organy rządowe Stanów Zjednoczonych, w tym Agencję Ochrony Środowiska Stanów Zjednoczonych (USEPA), U.S. Geological Survey (USGS), Departament Rolnictwa Stanów Zjednoczonych (USDA), Agencję ds. Żywności i Leków (FDA) i inne, oferują szczegółowe informacje proceduralne. Dostawcy urządzeń, tacy jak Agilent, Shimadzu, Thermo Fisher Scientific, Sciex i inni, zapewniają również dostęp do setek not aplikacyjnych, które można uznać za metody podsumowujące. W ramach tego badania opracowano bazę danych metod, w której substancje chemiczne są ekstrahowane z dokumentów dotyczących metod, z identyfikatorami (nazwami i/lub numerami rejestru Chemical Abstracts Service (CASRN)) przypisanymi do struktur chemicznych. Powstała w ten sposób baza danych, zawierająca około 7000 metod, jest przeszukiwana według identyfikatora, struktury chemicznej i podobieństwa strukturalnego, a uzupełnia ją około miliona widm z domeny publicznej (LC/MS, GC/MS, NMR i IR). Aplikacja obsługuje wyszukiwanie metod analitycznych i filtrowanie na podstawie analitów, użycia funkcjonalnego, źródeł metod i innych powiązanych metadanych.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Przykładem internetowego dostarczania danych chemicznych do społeczności są aplikacje takie jak PubChem1, ChemSpider2 i CompTox Chemicals Dashboard (CCD)3. Podjęto wysiłki w celu rozpowszechniania szczegółowych informacji na temat metod analitycznych publikowanych w artykułach w czasopismach, publikowanych przez dostawców przyrządów jako techniczne noty aplikacyjne, dostarczanych przez agencje rządowe jako standardowe procedury operacyjne lub metody regulacyjne oraz wydawanych przez organizacje normalizacyjne, takie jak Międzynarodowa Organizacja Normalizacyjna (ISO). Dziesiątki tysięcy substancji chemicznych zostało przebadanych przez te źródła w szerokim zakresie warunków i technik analitycznych. Ten obszerny zbiór źródeł obejmuje różne substancje i obejmuje scenariusze, począwszy od kwantyfikacji pojedynczej substancji chemicznej w określonej matrycy (np. krwi), poprzez mieszaniny pestycydów i ich pozostałości w określonych uprawach, aż po setki substancji chemicznych zidentyfikowanych w wodzie pitnej. Chociaż wiele metod analitycznych można znaleźć za pośrednictwem publicznych wyszukiwarek, nie wszystkie są dostępne bezpłatnie lub w otwartym dostępie.

Znalezienie konkretnych interesujących informacji może być trudne. Wyszukiwarki ogólnego przeznaczenia nie są zoptymalizowane pod kątem danych chemicznych, a ich algorytmy rankingowe mogą przesłaniać wysokiej jakości treści przeznaczone dla wąskiego grona odbiorców. Przeszukiwanie stron internetowych czasopism może przynieść bardziej ukierunkowane wyniki, ale dostęp do nich jest często ograniczony, a publicznie dostępne są tylko streszczenia, co utrudnia ocenę przydatności metody. Ponadto parametry krytyczne, takie jak matryce próbek, granice wykrywalności i oznaczanie ilościowe, często nie są przechowywane w ustrukturyzowanym formacie. Innym istotnym wyzwaniem jest zmienność i niespójność identyfikatorów chemicznych, nazw i synonimów związanych z pojedynczą substancją chemiczną. Brak ustrukturyzowanych metod i danych ogranicza rozwój narzędzi programowych, które mogłyby wykorzystać zgromadzoną przez dziesięciolecia wiedzę z zakresu chemii analitycznej i powiązane publikacje.

W wyniku tych wyzwań i ograniczeń istnieje zapotrzebowanie na wyselekcjonowaną, zorientowaną na chemię aplikację do harmonizacji i poszukiwania metod analitycznych - taką, która nie została zidentyfikowana nigdzie indziej. Aby wypełnić tę lukę, amerykańska Agencja Ochrony Środowiska opracowała AMOS, bazę danych Analytical Methods and Open Spectra oraz aplikację internetową. AMOS gromadzi obecnie i porządkuje trzy rodzaje rekordów danych: metody analityczne, różne widma analityczne oraz szeroką kategorię dokumentów uzupełniających określanych zbiorczo jako arkusze informacyjne. Każdy rekord jest powiązany z docelowymi analitami i odczynnikami chemicznymi metody. Dane można przeszukiwać na wiele sposobów, w tym według zapytań tekstowych, struktury chemicznej oraz podobieństwa strukturalnego lub spektralnego.

Aplikacja AMOS skupia się przede wszystkim na dostarczaniu otwartego dostępu i otwartych rekordów danych. Tam, gdzie to możliwe, rekordy w bazie danych są hiperłącza do ich oryginalnych źródeł. Rekordy, które nie są objęte licencją otwartą, a zatem nie są przechowywane bezpośrednio w bazie danych, mogą być nadal integrowane i dostępne za pośrednictwem adresu URL, pod warunkiem, że są dostępne w inny sposób. Dotyczy to dwóch typów rekordów: metod analitycznych, które znajdują się za zaporami płatnymi, zazwyczaj z czasopism lub organizacji normalizacyjnych, do których EPA ma dostęp, oraz widm, które są dostępne, ale wymagają dostępu do logowania.

Źródła danych różnią się pod względem struktury rekordów, co wymaga znacznego wysiłku w zakresie ekstrakcji i selekcji w celu zebrania i zharmonizowania zawartości. Większość rekordów zawiera identyfikatory substancji (np. CASRN, DTXSID, InChIKey, nazwy zwyczajowe), a w wielu przypadkach ekstrakcja jest prosta. Jednak dopasowanie tych identyfikatorów do struktur chemicznych i szczegółów substancji może być skomplikowane. Niektóre identyfikatory mogą być bezpośrednio dopasowane do wpisów w bazie danych EPA dotyczącej rozproszonej toksyczności możliwej do przeszukiwania (DSSTox)4; W przypadku gdy nie zostaną znalezione dopasowania, identyfikatory są łączone z istniejącymi substancjami lub rejestrowane są nowe substancje. Inicjatywa AMOS doprowadziła w konsekwencji do rozszerzenia bazy danych DSSTox, poprawiając podstawowe dane wspierające inne bazy danych i aplikacje EPA, takie jak CompTox Chemicals Dashboard3.

W przypadku niektórych cennych informacji dodatkowych wymagane jest ręczne sprawdzanie. W przypadku metod analitycznych parametry eksperymentalne, takie jak granice wykrywalności i oznaczania ilościowego, matryca próbki i metodologia analityczna, nie są zorganizowane w ustandaryzowany sposób, a zautomatyzowane narzędzia nie mogą zidentyfikować tych informacji ze względu na ich niespójne przechowywanie.

Dwa elementy zapisu informacji, media związane z próbką i funkcjonalne zastosowanie analitu, są bardzo istotne dla bieżących wysiłków na rzecz monitorowania zagrożeń i obaw związanych z narażeniem na zanieczyszczenia. W związku z tym wiele uwagi poświęcono uporządkowaniu tych atrybutów w ramach danych rekordowych. Na potrzeby tego projektu opracowano ontologię klasyfikacji użytkowania funkcjonalnego. Ontologia ta organizuje funkcjonalne zastosowania substancji w strukturę hierarchiczną, począwszy od bardziej ogólnych zastosowań "rodzicielskich" do bardziej szczegółowych zastosowań "podrzędnych". Ontologia ułatwia eksplorację substancji z perspektywy zastosowań, wspierając inicjatywy badawcze, które kładą nacisk na zastosowania funkcjonalne jako sposób oceny narażenia i zagrożenia 5,6. Ponadto metody zostały oznaczone zgodnie z kategorią zharmonizowanych pożywek dla ich próbek, zgodnie z bazą danych monitorowania multimediów EPA (MMDB)7. Kategoryzacja ta umożliwia wyszukiwanie substancji chemicznych na podstawie ich występowania w określonych podłożach, usprawniając opracowywanie rozwiązań skoncentrowanych na wykrywaniu substancji chemicznych w określonych próbkach środowiskowych lub biologicznych. Adnotacje te zwiększają integrację AMOS z przepływami pracy zorientowanymi na narażenie i zagrożenia, które są opracowywane w ramach EPA.

Podczas tworzenia widm wyzwanie polegające na przetwarzaniu różnych formatów plików - z których niektóre są tylko nominalnie ustandaryzowane - i analizowaniu towarzyszących metadanych często wymaga niestandardowej obsługi. W przypadkach, gdy kolekcje widmowe są połączone z publikacją, może być konieczne ręczne wyodrębnienie szczegółów udokumentowanych w publikacji w celu załadowania danych. Wysiłki te zaowocowały stworzeniem bazy danych, która integruje i strukturyzuje te rozbieżne widma, co pozwala naukowcom uniknąć konieczności pracochłonnego kuratorowania w przyszłych przedsięwzięciach.

Według stanu na marzec 2025 roku, baza danych zawiera około 935 000 widm, z czego prawie 99% to widma masowe i mniejsze zbiory NMR (~2 000) i IR (~400). Dodatkowo istnieje około 770 000 zewnętrznie połączonych widm (połączonych z bazą danych SpectraBase8), ~36 000 arkuszy informacyjnych i ~7 400 metod analitycznych. Substancje zintegrowane z aplikacją są podzbiorem substancji z bazy danych DSSTox, która jest włączona do CompTox Chemicals Dashboard (CCD) i zawiera ponad 1,2 miliona substancji.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Większość funkcjonalności AMOS można podzielić na trzy kategorie: wyszukiwanie rekordów dla danych substancji, wyszukiwanie określonych zbiorów substancji lub wyszukiwanie wśród kategorii rekordów. Dostęp do poszczególnych stron tych funkcji można uzyskać z paska nawigacyjnego u góry każdej strony. Aplikacja jest obecnie wdrażana w https://hcd.rtpnc.epa.gov/#/ za pośrednictwem modułu AMOS. Narzędzia programowe wykorzystane w tym badaniu są wymienione w Tabeli Materiałów.

1. Wyszukiwanie rekordów dla określonych substancji

  1. Wyszukiwanie ogólne: należy przeprowadzić wyszukiwanie ogólne w celu uzyskania wykazu wszystkich rodzajów rekordów powiązanych z pojedynczą substancją (zob . rysunek 1).
    1. W polu tekstowym w lewym górnym rogu paska nawigacyjnego lub w polu wyszukiwania na stronie głównej wprowadź nazwę substancji, CASRN, InChIKey lub identyfikator substancji DSSTox (DTXSID). Naciśnij Enter lub kliknij Szukaj , aby przeprowadzić wyszukiwanie.
      UWAGA: Pasek wyszukiwania na stronie głównej ma dodatkową opcję wyszukiwania według podciągu; Aby uzyskać więcej informacji, zobacz sekcję dotyczącą wyszukiwania częściowego identyfikatora (krok 2.2).
    2. Jeśli wyszukiwany identyfikator zostanie rozpoznany i będzie pasował do pojedynczej substancji, w lewej części strony zostaną wyświetlone podstawowe informacje o substancji oraz tabela z listą wszystkich rekordów związanych z tą substancją. Zaznacz wiersz w tej tabeli, aby wyświetlić skojarzony rekord po prawej stronie strony, jeśli jest przechowywany bezpośrednio w bazie danych.
    3. Jeśli wyszukiwany identyfikator pasuje do wielu substancji – np. skrótu, który jest używany w odniesieniu do więcej niż jednej substancji – pojawi się monit o ujednoznacznienie, który pozwoli użytkownikowi wybrać substancję, którą chce zobaczyć. Wybierz substancję z tej listy, a jedna z nich zostanie przekierowana do wyświetlacza dla rozpoznanej substancji.
    4. Aby przefiltrować tabelę wyników, kliknij karty tuż nad tabelą, aby filtrować według typu rekordu (spowoduje to również ukrywanie i odkrywanie różnych kolumn), wprowadź tekst w polach u góry tabeli, aby filtrować według innych aspektów danych, a następnie zaznacz pola wyboru nad kartami, aby filtrować według szerszych właściwości danych.
  2. Wyszukiwanie wsadowe: Wykonaj wyszukiwanie wsadowe, aby wygenerować i pobrać plik arkusza kalkulacyjnego zawierający informacje o wszystkich rekordach w bazie danych, które są skojarzone z daną listą substancji. (patrz rysunek 2).
    1. W polu Dane wejściowe wprowadź listę identyfikatorów DTXSID do przeszukania, po jednym w każdym wierszu. Jeśli identyfikatory DTXSID nie są dostępne, użyj łącza na stronie, aby przejść do narzędzia CCD, które może dostarczyć identyfikatory DTXSID o innych identyfikatorach.
    2. Użyj pól wyboru w obszarze Opcje wyszukiwania , aby odfiltrować wyniki lub dołączyć dodatkowe informacje do rekordów. Opcje są pogrupowane w pięć kategorii: filtrowanie według typów rekordów, filtrowanie według metodologii analitycznych, dołączanie dodatkowych informacji na poziomie substancji do pliku wynikowego, dołączanie dodatkowych informacji na poziomie rekordu (obecnie dostępne tylko dla widm masowych) oraz niektóre różne opcje.
      UWAGA: Opcje z podkreśleniem przerywanym mają tekst, który dokładniej wyjaśnia opcję. Najedź kursorem na etykietę opcji, aby ją wyświetlić.
    3. Kliknij Szukaj u dołu strony, aby przeprowadzić wyszukiwanie.
      UWAGA: Wyjściowy arkusz kalkulacyjny zawiera listę powiązań między substancjami a rekordami wraz z identyfikatorami substancji, linkami źródłowymi i kilkoma innymi podstawowymi informacjami. Jeżeli w rekordzie pojawi się wiele wyszukiwanych substancji, rekord pojawi się raz dla każdej substancji.
  3. Wyszukiwanie podobieństwa strukturalnego: Wyszukiwanie to należy przeprowadzić, aby uzyskać wykazy metod i arkuszy informacyjnych w bazie danych, które zawierają albo poszukiwaną substancję, albo substancję o wystarczająco wysokim współczynniku podobieństwa strukturalnego Tanimoto (zob. rysunek 3).
    UWAGA: Wyszukiwanie to może być przydatne w przypadkach, gdy substancja będąca przedmiotem zainteresowania nie pojawia się w żadnej metodzie, ale metody z bardzo podobnymi substancjami mogą być potencjalnie wykorzystane jako odniesienie.
    1. Wprowadź DTXSID, InChIKey, CASRN lub nazwę substancji w polu wyszukiwania i kliknij Szukaj lub naciśnij Enter. Wyszukiwanie może potrwać 20-30 sekund.
    2. Po zakończeniu wyszukiwania poniżej pojawi się tabela z zakładkami. Wybierz kartę, aby przejrzeć wyniki wyszukiwania.
      1. Pierwsze dwie karty zawierają listę znalezionych metod i arkuszy informacyjnych. Wybierz jedną z nich, aby wyświetlić widok tego dokumentu po prawej stronie strony. Metody lub arkusze informacyjne, które zawierają poszukiwaną substancję, są pogrubione czcionką.
      2. Trzecia zakładka zawiera listę podobnych substancji, które pojawiły się w metodach lub arkuszach informacyjnych. Wybierz wiersz w tabeli, aby wyświetlić porównanie między poszukiwaną substancją a substancją wybraną z tabeli. Jeśli sama poszukiwana substancja została znaleziona w jakichkolwiek dokumentach, będzie ona napisana pogrubioną czcionką.
      3. Użyj selektora Filtruj minimalne podobieństwo substancji u góry, aby ukryć wyniki wyszukiwania, w których brakuje substancji poniżej wybranego progu podobieństwa.

figure-protocol-1
Rysunek 1: Wyniki wyszukiwania rekordów zawierających cholesterol. Ogólne wyszukiwanie hasła "cholesterol" powoduje wyświetlenie listy pasujących rekordów w tabeli (po lewej). Widmo masowe wybranego rekordu jest pokazane po prawej stronie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-2
Rysunek 2: Interfejs wyszukiwania wsadowego. Pole wyszukiwania zawiera dwie substancje zidentyfikowane za pomocą ich identyfikatorów DTXSID. Dla zapytania wybierane są domyślne opcje wyszukiwania. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-3
Rysunek 3: Wyniki wyszukiwania struktury dla 1P-LSD. W tabeli wymieniono metody zawierające strukturalnie podobne substancje. Wybrana metoda jest wyświetlana po prawej stronie. Żadne pogrubione wpisy w tabeli nie wskazują, że 1P-LSD nie pojawia się w żadnej z wymienionych metod. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

2. Poszukiwanie substancji

  1. Wyszukiwanie ClassyFire: Wykonaj to wyszukiwanie, aby sporządzić listę wszystkich substancji, które należą do podanych pierwszych czterech poziomów klasyfikacji ClassyFire9 (patrz rysunek 4).
    1. Korzystając z czterech pól w górnej części strony, wybierz pojedynczo cztery pierwsze poziomy klasyfikacji. Po wybraniu każdej z pierwszych trzech użyj przycisku poniżej tego pola, aby przejść do listy klasyfikacji o jeden poziom niżej. W przypadku czwartego przycisk poniżej uruchomi wyszukiwanie.
      UWAGA: Po zakończeniu wyszukiwania poniższa tabela zostanie wypełniona wykazem substancji, które istnieją w ramach tej klasyfikacji. Tabela zawiera wspólne identyfikatory i informacje o substancjach, a także liczbę rekordów istniejących w AMOS.
    2. Użyj przycisków między wyborem klasy a tabelą, aby umożliwić korzystanie z czterech bitów funkcjonalności:
      1. Kliknij Kopiuj klasyfikację do adresu URL , aby skopiować adres URL do schowka, który po załadowaniu do nowej karty lub okna przeglądarki automatycznie wypełni poziomy klasyfikacji i uruchomi wyszukiwanie.
      2. Kliknij przycisk Resetuj wybór , aby zresetować wybory w polach klasyfikacji. Nie resetuje tabeli znalezionych substancji.
      3. Kliknij przycisk Pobierz tabelę , aby wyświetlić monit o pobranie pliku arkusza kalkulacyjnego zawierającego wszystkie widoczne pola i rekordy w tabeli, z wyjątkiem obrazów substancji. Jeśli filtry w górnej części tabeli wyników są używane, pobrane wyniki również zostaną przefiltrowane, ale zawartość filtrów nie zostanie uwzględniona.
      4. Kliknij na Wyślij wybrane substancje do wyszukiwania partii , aby otworzyć nową kartę wyszukiwania partii z polem do wyszczególnienia identyfikatorów DTXSID wstępnie wypełnionych substancjami wybranymi z wyników wyszukiwania ClassyFire. Wyboru poszczególnych substancji można dokonać za pomocą pola wyboru w każdym wierszu; Wyboru lub odznaczenia wszystkich substancji można dokonać, klikając pole wyboru w nagłówku tabeli. Zobacz krok 1.2, aby uzyskać szczegółowe informacje na temat wyszukiwania wsadowego.
  2. Częściowe wyszukiwanie identyfikatorów: Wykonaj tę czynność, aby znaleźć wszystkie substancje, które pasują do niepowtarzalnego identyfikatora (zob . rysunek 5). Obecne opcje to podciąg nazwy (który obejmuje zarówno nazwę preferowaną przez EPA, jak i popularne synonimy), pierwszy blok InChIKey, dokładny wzór cząsteczkowy i zakres mas monoizotopowych.
    1. U góry strony wybierz identyfikator i wprowadź informacje w sąsiednich polach.
    2. Kliknij Szukaj , aby uruchomić wyszukiwanie.
    3. Po zakończeniu wyszukiwania tabela zostanie wypełniona listą substancji, które pasują do częściowego identyfikatora, a także informacjami o tym, jak często pojawiają się one w bazie danych AMOS i w innej literaturze. Użyj filtrów w górnej części kolumn tabeli, aby jeszcze bardziej zawęzić wyniki, i użyj pola wyboru Pokaż substancje wieloskładnikowe , aby pokazać lub ukryć substancje, które składają się z wielu związków.
      UWAGA: Jeśli uruchomiono wyszukiwanie podciągu nazwy, pojawi się kolumna z listą znalezionych synonimów. Jeśli substancja jest znaleziona tylko przez synonimy - tj. jeśli preferowana nazwa nie zawiera podciągu - preferowana nazwa zostanie zapisana kursywą.

figure-protocol-4
Rysunek 4: Wyniki wyszukiwania klasyfikacji ClassyFire. Wyniki obejmują informacje na poziomie substancji oraz liczbę rekordów w podziale na grupy klasyfikacyjne. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-5
Rysunek 5: Częściowe wyniki wyszukiwania identyfikatora dla słowa "trazyna". Wyszukiwanie powoduje pobranie substancji o preferowanych nazwach lub synonimach zawierających podciąg "trazyna". Dwa z trzech wyników zawierają słowo "trazyna" tylko w ich synonimach, a nie w preferowanych nazwach. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

3. Przeszukiwanie rekordów

  1. Arkusz informacyjny i lista metod: Na tych stronach wymieniono wszystkie arkusze informacyjne i metody, które znajdują się w bazie danych, wraz z różnymi sposobami ich filtrowania (patrz rysunek 6). Ponieważ funkcjonalność obu stron jest w dużej mierze taka sama, są one tutaj zgrupowane razem.
    UWAGA: Przejście do strony spowoduje wyświetlenie monitu o załadowanie tabel. Może to chwilę potrwać ze względu na liczbę obecnych rekordów.
    1. Po załadowaniu tabeli użyj danych wejściowych w górnej części każdej kolumny, aby przefiltrować dane i różne pola. Dokładne pola różnią się w zależności od tabeli, ale większość z nich można wybrać lub przefiltrować.
    2. Użyj pola Filtr pełnej tabeli nad tabelą, aby sprawdzić wszystkie kolumny pod kątem określonego ciągu.
      UWAGA: Lista metod zawiera dwa pola, które są domyślnie ukryte - autor i wydawca. Filtr pełnej tabeli przechwyci rekordy, które mają wyszukiwany termin w jednym z tych pól.
    3. Lista arkuszy informacyjnych pozwala na filtrowanie poszczególnych wyników poprzez wyszukiwanie danej substancji. Wprowadź nazwę substancji, CASRN, InChIKey lub DTXSID i naciśnij przycisk wyszukiwania , aby przefiltrować tabelę. Kliknij Wyczyść filtr , aby wyczyścić filtr substancji.
      UWAGA: W obu tabelach dostępne są następujące przyciski: Kopiuj filtry do schowka kopiuje adres URL do schowka, który po uzyskaniu dostępu przez przeglądarkę załaduje listę i wstępnie wypełni pola filtrów w tabeli bieżącymi wartościami; Pobierz tabelę pobiera listę wszystkich widocznych wyników i filtrów w tabeli; Pobierz substancje Pobiera listę wszystkich substancji, które pojawiają się w (filtrowanej) tabeli; Opcja Resetuj filtry czyści wszystkie filtry tabel, w tym filtr całej tabeli.
  2. Wyszukiwanie widma masowego: Wykonaj to wyszukiwanie, aby pobrać listę dopasowań widma masowego z bazy danych na podstawie widma dostarczonego przez użytkownika (patrz rysunek 7).
    1. Wypełnić lub dostosować cztery wymagane pola wejściowe: zakres masy dla substancji docelowej w daltonach, z marginesem błędu w daltonach lub częściach na milion (ppm); metodykę, GC/MS lub LC/MS; widmo masowe, podane jako lista par ładunek-masa i natężenie; oraz rozmiar okna masy dla podobieństwa szczytu.
    2. Po wypełnieniu tych pól kliknij przycisk Szukaj pod nimi.
      UWAGA: Po zakończeniu wyszukiwania, jeśli zostaną znalezione jakiekolwiek widma, po prawej stronie strony pojawi się tabela z listą widm pasujących do wybranej metodologii spośród wszystkich substancji pasujących do zakresu masy, posortowanych według podobieństwa entropii między widmem przesłanym przez użytkownika a widmem w bazie danych.
    3. Wybierz wiersz w tabeli, aby wyświetlić wykres przedstawiający porównanie widma użytkownika z widmem bazy danych (odpowiednio na górze i na dole wykresu). Użyj pola Minimalne podobieństwo do pokazania , aby ukryć wyniki, które są poniżej danego podobieństwa entropii.
  3. Wizualizacja klasyfikacji zastosowań funkcjonalnych: Ta strona wizualizuje ontologię funkcjonalnego użycia AMOS oraz linki do metod i arkuszy informacyjnych dla tych klas zastosowań. Klasy są reprezentowane na wykresie skierowanym, z krawędziami przechodzącymi od bardziej ogólnych klas nadrzędnych do bardziej szczegółowych klas podrzędnych (patrz rysunek 8).
    1. Użyj pola wyszukiwania po prawej stronie, aby przeszukać listę funkcjonalnych klas użycia. Najedź kursorem na nazwę klasy użycia, aby podświetlić odpowiedni węzeł na wykresie.
    2. Jeśli badasz graf bezpośrednio, najedź kursorem na określony węzeł, aby wyświetlić krótki opis tej klasy, a także wyróżnić wszystkie bezpośrednie klasy nadrzędne lub podrzędne dla tego węzła.
    3. Kliknij prawym przyciskiem myszy nazwę klasy z listy po prawej stronie strony lub węzeł na wykresie, aby wyświetlić menu z opcjami dla listy metod i arkuszy informacyjnych. Wybierz jedną z nich, a otworzy się nowa karta przeglądarki z tą listą, z polem klasy funkcjonalnej wstępnie przefiltrowanym za pomocą wybranej klasy funkcjonalnej.
  4. Wykres trójskładnikowy gleby: Ta strona odtwarza klasyfikację tekstury gleby Departamentu Rolnictwa Stanów Zjednoczonych, umożliwiając wyszukiwanie metod AMOS według rodzaju gleby.
    1. Najedź kursorem na obszar działki, aby zobaczyć szczegóły dotyczące jej składu.
    2. Kliknij region powierzchni, aby otworzyć nową kartę listy metod ze wstępnie przefiltrowanym polem macierzy dla wybranej klasyfikacji gruntu.

figure-protocol-6
Rysunek 6: Przefiltrowana lista metod analitycznych. Tabela jest filtrowana przez analit i matrycę, wyświetlając tylko metody związane z PFAS (substancjami per- i polifluoroalkilowymi) w wodzie. Odpowiednia lista arkuszy informacyjnych jest bardzo podobna do tego układu. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-7
Rysunek 7: Wyniki wyszukiwania podobieństwa widma. Jako dane wejściowe wykorzystywane jest widmo kofeiny z bazy danych AMOS. Podobne widma są pogrupowane według substancji, z maksymalnym wynikiem podobieństwa 1,0. Wykres lustrzany przedstawia widmo wejściowe (na górze) i wybrane widmo bazy danych (na dole). Jasnoniebieskie szczyty są unikatowe dla danych wejściowych, pomarańczowe szczyty są zgodne z bazą danych, a ciemnoniebieskie szczyty są udostępniane. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-8
Rysunek 8: Wizualizacja klasyfikacji zastosowań funkcjonalnych. Struktura hierarchiczna jest pokazana po najechaniu kursorem na węzeł "chemikalia przemysłowe" (zaznaczony na żółto). Jego klasy podrzędne są oznaczone kolorem zielonym. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-protocol-9
Rysunek 9: Wizualizacja poletka trójskładnikowego gleby. Na wykresie wyświetlane są dane dotyczące składu próbek gleby. Etykietka narzędzia w prawym górnym rogu pokazuje dokładny skład regionu znajdującego się obecnie pod kursorem. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zrzuty ekranu AMOS pokazane powyżej pokazują typowe wyniki poszczególnych wyszukiwań w aplikacji, w tym zarówno wyszukiwania substancji będących przedmiotem zainteresowania, jak i wśród widm, arkuszy informacyjnych i metod. Różnorodność sposobów przeszukiwania bazy danych ma na celu uwzględnienie najbardziej prawdopodobnych i najbardziej użytecznych rodzajów wyszukiwania w sposób, który pozwoli na dokładniejsze zbadanie danych i substancji, do których się odnoszą.

Aby ułatwić użytkownikowi wyszukiwanie, wiele funkcji jest ze sobą połączonych w sposób mający na celu wsparcie głębszego badania dostępnych danych. Jako przykładowy przepływ pracy wizualizacja klasyfikacji zastosowań funkcjonalnych łączy się z widokami metod i arkuszy informacyjnych związanych z tą klasą funkcjonalną, z których można wyodrębnić listy substancji i wprowadzić je do wyszukiwania partii lub zbadać poszczególne dokumenty, a poszczególne substancje w tych dokumentach można dalej badać. Ponieważ wiele substancji w metodach ma również eksperymentalne widma masowe w bazie danych, może to pozwolić badaczowi na szybkie przejście od kategorii substancji do zestawu metod i widm, które mogą testować obecność określonej substancji (zob. rysunek 9).

Ponieważ wyniki będą w dużym stopniu zależeć od tego, co jest wyszukiwane i które wyszukiwanie lub wyszukiwania są uruchamiane, reprezentatywne wyniki dla całej aplikacji są trudne do zdefiniowania. Ogólnie rzecz biorąc, bardziej trafne może być opisanie "sukcesu" w kategoriach doświadczenia użytkownika; W takim przypadku należy mieć nadzieję, że następujące zasady będą ogólnie prawdziwe: że metody wyszukiwania i filtrowania (oraz możliwość przechodzenia między różnymi wyszukiwaniami i filtrami) są skuteczne w identyfikowaniu, których podzbiorów informacji chce użytkownik; że wyniki znalezione przez użytkownika są dokładne i przydatne. Rysunek 10 przedstawia przykładowy przepływ pracy demonstrujący funkcje AMOS.

figure-results-1
Rysunek 10: Przykładowy przepływ pracy demonstrujący funkcje AMOS. Przepływ pracy rozpoczyna się od klasyfikacji funkcjonalnego zastosowania (leki oddechowe), filtruje metody związane z lekami oddechowymi we krwi, bada jedną konkretną metodę i identyfikuje widma dla substancji zawartej w tej metodzie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Podczas gdy wiele projektów i aplikacji koncentruje się na gromadzeniu i standaryzacji informacji z jednego typu rekordu, takiego jak metody, arkusze informacyjne lub określony rodzaj widm, AMOS jest pierwszym zidentyfikowanym narzędziem, które kompiluje i integruje duże ilości informacji z wielu typów rekordów. Ujednolicenie, harmonizacja i ustrukturyzacja danych z tych różnych źródeł skutkują powstaniem bazy danych, którą można łatwiej włączyć do przepływów pracy wymagających dostępu do metodologii chemii analitycznej. Możliwość przeszukiwania bazy danych na kilka uzupełniających się sposobów umożliwia efektywne wyszukiwanie informacji, które w przeciwnym razie wymagałyby dużego wysiłku ręcznego w wielu witrynach internetowych lub narzędziach.

Przed publicznym udostępnieniem użyteczność AMOS została zademonstrowana poprzez wykorzystanie go przez pracowników EPA do wspierania szerokiego zakresu projektów. EPA jest stale zainteresowana zastosowaniem spektrometrii mas do analizy nieukierunkowanej10,11, a wiele inicjatyw wykorzystało eksperymentalne widma mas w AMOS w celu usprawnienia poszukiwań w dużej bibliotece spektralnej in silico wygenerowanej z chemikaliów DSSTox12,13. W ramach innych projektów wykorzystano wyszukiwanie podobieństw strukturalnych w celu zidentyfikowania punktów wyjścia do opracowania nowych metod, zbadano istniejące metody oceny granic wykrywalności i kwantyfikacji, a także przeanalizowano kolekcje substancji chemicznych powiązanych z metodami oceny zakresu pokrycia przestrzeni chemicznej.

Agregacja potencjalnych danych treningowych w ramach projektu AMOS dodatkowo wspiera rozwój ilościowych modeli dostosowania metod analitycznych14, co jest podstawową potrzebą rozwoju przepływów pracy związanych z analizą nieukierunkowaną (NTA). Działania kuratorskie w ramach AMOS ułatwiają również inicjatywy mające na celu modelowanie, badanie i wizualizację przestrzeni chemicznych związanych z zakresem metodologicznym14.

Chociaż podstawowa funkcjonalność AMOS jest dojrzała, ciągły rozwój opiera się na opiniach użytkowników. Bieżące zadania obejmują włączanie dodatkowych danych, zarządzanie dalszymi metadanymi w celu ulepszonego filtrowania oraz rozszerzanie możliwości wyszukiwania. We współpracy z interesariuszami EPA opracowywane są interfejsy programowania aplikacji (API), które umożliwią dostęp programowy, rozwiązując problemy z przypadkami użycia, w których graficzny interfejs użytkownika (GUI) może być nieefektywny. Strona z informacjami o wersji została zintegrowana z aplikacją w celu śledzenia i komunikowania aktualizacji kodu w czasie.

Nowe rekordy danych i substancje chemiczne są obecnie dodawane co tydzień; Przewiduje się jednak, że po publicznej premierze harmonogram wydawniczego będzie wolniejszy. Chociaż dokłada się znacznych starań w celu zapewnienia dokładności rekordów i powiązanych metadanych, wiele danych pochodzi z publicznych baz danych. W związku z tym pełna weryfikacja każdego rekordu nie jest możliwa, a użytkownicy powinni mieć świadomość, że nie można zagwarantować absolutnej dokładności danych.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Niniejszy dokument niekoniecznie reprezentuje poglądy lub politykę Amerykańskiej Agencji Ochrony Środowiska.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy dziękują zespołowi kuratorskiemu za całą ich pracę związaną z opieką nad substancjami chemicznymi w bazie danych oraz Joshui Powellowi, Asifowi Rashidowi i Freddiemu Valone za wsparcie techniczne w budowie i wdrożeniu AMOS. Dziękujemy również Charlesowi Lowe'owi za recenzję manuskryptu.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
GitN/Ahttps://git-scm.com/System kontroli wersji typu open source.
Język JavaScriptN/Ahttps://ecma-international.org/publications-and-standards/standards/ecma-262/Język programowania.  Zdefiniowany zgodnie z międzynarodowymi standardami ECMA.
PostgreSQLGlobalna grupa rozwojowa PostgreSQLhttps://postgresql.org/about/licenceSystem zarządzania bazami danych typu open source.
PytonFundacja oprogramowania Pythonhttps://www.python.org/Język programowania typu open source.

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).">Kim, S., et al. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).
  2. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).">Pence, H. E., Williams, A. J. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).
  3. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).">Williams, A. J., Grulke, C. M., Edwards, J. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).
  4. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).">Grulke, C. M., Williams, A. J., Thillanadarajah, I., Richard, A. M. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).
  5. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).">Tickner, J. A., Schifano, J. N., Blake, A., Rudisill, C., Mulvihill, M. J. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).
  6. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).">Phillips, K. A., Wambaugh, J. F., Grulke, C. M., Dionisio, K. L., Isaacs, K. K. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).
  7. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).">Isaacs, K. K., et al. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).
  8. https://spectrabase.com/ (2025).">SpectraBase. , https://spectrabase.com/ (2025).
  9. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).">Djoumbou Feunang, Y., et al. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).
  10. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).">Ulrich, E. M., et al. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).
  11. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).">Sobus, J. R., et al. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).
  12. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).">Chao, A., et al. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).
  13. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).">McEachran, A. D., et al. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).
  14. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).">Charest, N., et al. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Cheminformatics DatabaseStructure Searchable DatabaseAnalytical MethodsChemical Structure SearchMethod Identifier MappingPublic Domain SpectraLC MS SpectraGC MS SpectraNMR SpectraIR Spectra

Related Articles