W tym artykule opisano AMOS, internetową bazę danych Analytical Methods and Open Spectra, aplikację cheminoinformatyczną zaprojektowaną w celu zapewnienia naukowcom łatwego dostępu do metod analitycznych i danych spektralnych.
Method Article
W tym artykule opisano AMOS, internetową bazę danych Analytical Methods and Open Spectra, aplikację cheminoinformatyczną zaprojektowaną w celu zapewnienia naukowcom łatwego dostępu do metod analitycznych i danych spektralnych.
Metody analityczne mogą obejmować zarówno szczegółowe dokumenty regulacyjne, jak i prostsze podsumowania. Metody regulacyjne mogą obejmować informacje o podatnych analitach, obsługiwanych matrycach, wymaganych odczynnikach, wydajności statystycznej, walidacji międzylaboratoryjnej i innych szczegółach. Podsumowania zazwyczaj zawierają ogólny przegląd odczynników, oprzyrządowania, a często także krótką listę analitów. Metody analityczne stosowane przez organy rządowe Stanów Zjednoczonych, w tym Agencję Ochrony Środowiska Stanów Zjednoczonych (USEPA), U.S. Geological Survey (USGS), Departament Rolnictwa Stanów Zjednoczonych (USDA), Agencję ds. Żywności i Leków (FDA) i inne, oferują szczegółowe informacje proceduralne. Dostawcy urządzeń, tacy jak Agilent, Shimadzu, Thermo Fisher Scientific, Sciex i inni, zapewniają również dostęp do setek not aplikacyjnych, które można uznać za metody podsumowujące. W ramach tego badania opracowano bazę danych metod, w której substancje chemiczne są ekstrahowane z dokumentów dotyczących metod, z identyfikatorami (nazwami i/lub numerami rejestru Chemical Abstracts Service (CASRN)) przypisanymi do struktur chemicznych. Powstała w ten sposób baza danych, zawierająca około 7000 metod, jest przeszukiwana według identyfikatora, struktury chemicznej i podobieństwa strukturalnego, a uzupełnia ją około miliona widm z domeny publicznej (LC/MS, GC/MS, NMR i IR). Aplikacja obsługuje wyszukiwanie metod analitycznych i filtrowanie na podstawie analitów, użycia funkcjonalnego, źródeł metod i innych powiązanych metadanych.
Przykładem internetowego dostarczania danych chemicznych do społeczności są aplikacje takie jak PubChem1, ChemSpider2 i CompTox Chemicals Dashboard (CCD)3. Podjęto wysiłki w celu rozpowszechniania szczegółowych informacji na temat metod analitycznych publikowanych w artykułach w czasopismach, publikowanych przez dostawców przyrządów jako techniczne noty aplikacyjne, dostarczanych przez agencje rządowe jako standardowe procedury operacyjne lub metody regulacyjne oraz wydawanych przez organizacje normalizacyjne, takie jak Międzynarodowa Organizacja Normalizacyjna (ISO). Dziesiątki tysięcy substancji chemicznych zostało przebadanych przez te źródła w szerokim zakresie warunków i technik analitycznych. Ten obszerny zbiór źródeł obejmuje różne substancje i obejmuje scenariusze, począwszy od kwantyfikacji pojedynczej substancji chemicznej w określonej matrycy (np. krwi), poprzez mieszaniny pestycydów i ich pozostałości w określonych uprawach, aż po setki substancji chemicznych zidentyfikowanych w wodzie pitnej. Chociaż wiele metod analitycznych można znaleźć za pośrednictwem publicznych wyszukiwarek, nie wszystkie są dostępne bezpłatnie lub w otwartym dostępie.
Znalezienie konkretnych interesujących informacji może być trudne. Wyszukiwarki ogólnego przeznaczenia nie są zoptymalizowane pod kątem danych chemicznych, a ich algorytmy rankingowe mogą przesłaniać wysokiej jakości treści przeznaczone dla wąskiego grona odbiorców. Przeszukiwanie stron internetowych czasopism może przynieść bardziej ukierunkowane wyniki, ale dostęp do nich jest często ograniczony, a publicznie dostępne są tylko streszczenia, co utrudnia ocenę przydatności metody. Ponadto parametry krytyczne, takie jak matryce próbek, granice wykrywalności i oznaczanie ilościowe, często nie są przechowywane w ustrukturyzowanym formacie. Innym istotnym wyzwaniem jest zmienność i niespójność identyfikatorów chemicznych, nazw i synonimów związanych z pojedynczą substancją chemiczną. Brak ustrukturyzowanych metod i danych ogranicza rozwój narzędzi programowych, które mogłyby wykorzystać zgromadzoną przez dziesięciolecia wiedzę z zakresu chemii analitycznej i powiązane publikacje.
W wyniku tych wyzwań i ograniczeń istnieje zapotrzebowanie na wyselekcjonowaną, zorientowaną na chemię aplikację do harmonizacji i poszukiwania metod analitycznych - taką, która nie została zidentyfikowana nigdzie indziej. Aby wypełnić tę lukę, amerykańska Agencja Ochrony Środowiska opracowała AMOS, bazę danych Analytical Methods and Open Spectra oraz aplikację internetową. AMOS gromadzi obecnie i porządkuje trzy rodzaje rekordów danych: metody analityczne, różne widma analityczne oraz szeroką kategorię dokumentów uzupełniających określanych zbiorczo jako arkusze informacyjne. Każdy rekord jest powiązany z docelowymi analitami i odczynnikami chemicznymi metody. Dane można przeszukiwać na wiele sposobów, w tym według zapytań tekstowych, struktury chemicznej oraz podobieństwa strukturalnego lub spektralnego.
Aplikacja AMOS skupia się przede wszystkim na dostarczaniu otwartego dostępu i otwartych rekordów danych. Tam, gdzie to możliwe, rekordy w bazie danych są hiperłącza do ich oryginalnych źródeł. Rekordy, które nie są objęte licencją otwartą, a zatem nie są przechowywane bezpośrednio w bazie danych, mogą być nadal integrowane i dostępne za pośrednictwem adresu URL, pod warunkiem, że są dostępne w inny sposób. Dotyczy to dwóch typów rekordów: metod analitycznych, które znajdują się za zaporami płatnymi, zazwyczaj z czasopism lub organizacji normalizacyjnych, do których EPA ma dostęp, oraz widm, które są dostępne, ale wymagają dostępu do logowania.
Źródła danych różnią się pod względem struktury rekordów, co wymaga znacznego wysiłku w zakresie ekstrakcji i selekcji w celu zebrania i zharmonizowania zawartości. Większość rekordów zawiera identyfikatory substancji (np. CASRN, DTXSID, InChIKey, nazwy zwyczajowe), a w wielu przypadkach ekstrakcja jest prosta. Jednak dopasowanie tych identyfikatorów do struktur chemicznych i szczegółów substancji może być skomplikowane. Niektóre identyfikatory mogą być bezpośrednio dopasowane do wpisów w bazie danych EPA dotyczącej rozproszonej toksyczności możliwej do przeszukiwania (DSSTox)4; W przypadku gdy nie zostaną znalezione dopasowania, identyfikatory są łączone z istniejącymi substancjami lub rejestrowane są nowe substancje. Inicjatywa AMOS doprowadziła w konsekwencji do rozszerzenia bazy danych DSSTox, poprawiając podstawowe dane wspierające inne bazy danych i aplikacje EPA, takie jak CompTox Chemicals Dashboard3.
W przypadku niektórych cennych informacji dodatkowych wymagane jest ręczne sprawdzanie. W przypadku metod analitycznych parametry eksperymentalne, takie jak granice wykrywalności i oznaczania ilościowego, matryca próbki i metodologia analityczna, nie są zorganizowane w ustandaryzowany sposób, a zautomatyzowane narzędzia nie mogą zidentyfikować tych informacji ze względu na ich niespójne przechowywanie.
Dwa elementy zapisu informacji, media związane z próbką i funkcjonalne zastosowanie analitu, są bardzo istotne dla bieżących wysiłków na rzecz monitorowania zagrożeń i obaw związanych z narażeniem na zanieczyszczenia. W związku z tym wiele uwagi poświęcono uporządkowaniu tych atrybutów w ramach danych rekordowych. Na potrzeby tego projektu opracowano ontologię klasyfikacji użytkowania funkcjonalnego. Ontologia ta organizuje funkcjonalne zastosowania substancji w strukturę hierarchiczną, począwszy od bardziej ogólnych zastosowań "rodzicielskich" do bardziej szczegółowych zastosowań "podrzędnych". Ontologia ułatwia eksplorację substancji z perspektywy zastosowań, wspierając inicjatywy badawcze, które kładą nacisk na zastosowania funkcjonalne jako sposób oceny narażenia i zagrożenia 5,6. Ponadto metody zostały oznaczone zgodnie z kategorią zharmonizowanych pożywek dla ich próbek, zgodnie z bazą danych monitorowania multimediów EPA (MMDB)7. Kategoryzacja ta umożliwia wyszukiwanie substancji chemicznych na podstawie ich występowania w określonych podłożach, usprawniając opracowywanie rozwiązań skoncentrowanych na wykrywaniu substancji chemicznych w określonych próbkach środowiskowych lub biologicznych. Adnotacje te zwiększają integrację AMOS z przepływami pracy zorientowanymi na narażenie i zagrożenia, które są opracowywane w ramach EPA.
Podczas tworzenia widm wyzwanie polegające na przetwarzaniu różnych formatów plików - z których niektóre są tylko nominalnie ustandaryzowane - i analizowaniu towarzyszących metadanych często wymaga niestandardowej obsługi. W przypadkach, gdy kolekcje widmowe są połączone z publikacją, może być konieczne ręczne wyodrębnienie szczegółów udokumentowanych w publikacji w celu załadowania danych. Wysiłki te zaowocowały stworzeniem bazy danych, która integruje i strukturyzuje te rozbieżne widma, co pozwala naukowcom uniknąć konieczności pracochłonnego kuratorowania w przyszłych przedsięwzięciach.
Według stanu na marzec 2025 roku, baza danych zawiera około 935 000 widm, z czego prawie 99% to widma masowe i mniejsze zbiory NMR (~2 000) i IR (~400). Dodatkowo istnieje około 770 000 zewnętrznie połączonych widm (połączonych z bazą danych SpectraBase8), ~36 000 arkuszy informacyjnych i ~7 400 metod analitycznych. Substancje zintegrowane z aplikacją są podzbiorem substancji z bazy danych DSSTox, która jest włączona do CompTox Chemicals Dashboard (CCD) i zawiera ponad 1,2 miliona substancji.
Większość funkcjonalności AMOS można podzielić na trzy kategorie: wyszukiwanie rekordów dla danych substancji, wyszukiwanie określonych zbiorów substancji lub wyszukiwanie wśród kategorii rekordów. Dostęp do poszczególnych stron tych funkcji można uzyskać z paska nawigacyjnego u góry każdej strony. Aplikacja jest obecnie wdrażana w https://hcd.rtpnc.epa.gov/#/ za pośrednictwem modułu AMOS. Narzędzia programowe wykorzystane w tym badaniu są wymienione w Tabeli Materiałów.
1. Wyszukiwanie rekordów dla określonych substancji

Rysunek 1: Wyniki wyszukiwania rekordów zawierających cholesterol. Ogólne wyszukiwanie hasła "cholesterol" powoduje wyświetlenie listy pasujących rekordów w tabeli (po lewej). Widmo masowe wybranego rekordu jest pokazane po prawej stronie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2: Interfejs wyszukiwania wsadowego. Pole wyszukiwania zawiera dwie substancje zidentyfikowane za pomocą ich identyfikatorów DTXSID. Dla zapytania wybierane są domyślne opcje wyszukiwania. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Wyniki wyszukiwania struktury dla 1P-LSD. W tabeli wymieniono metody zawierające strukturalnie podobne substancje. Wybrana metoda jest wyświetlana po prawej stronie. Żadne pogrubione wpisy w tabeli nie wskazują, że 1P-LSD nie pojawia się w żadnej z wymienionych metod. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
2. Poszukiwanie substancji

Rysunek 4: Wyniki wyszukiwania klasyfikacji ClassyFire. Wyniki obejmują informacje na poziomie substancji oraz liczbę rekordów w podziale na grupy klasyfikacyjne. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5: Częściowe wyniki wyszukiwania identyfikatora dla słowa "trazyna". Wyszukiwanie powoduje pobranie substancji o preferowanych nazwach lub synonimach zawierających podciąg "trazyna". Dwa z trzech wyników zawierają słowo "trazyna" tylko w ich synonimach, a nie w preferowanych nazwach. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
3. Przeszukiwanie rekordów

Rysunek 6: Przefiltrowana lista metod analitycznych. Tabela jest filtrowana przez analit i matrycę, wyświetlając tylko metody związane z PFAS (substancjami per- i polifluoroalkilowymi) w wodzie. Odpowiednia lista arkuszy informacyjnych jest bardzo podobna do tego układu. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 7: Wyniki wyszukiwania podobieństwa widma. Jako dane wejściowe wykorzystywane jest widmo kofeiny z bazy danych AMOS. Podobne widma są pogrupowane według substancji, z maksymalnym wynikiem podobieństwa 1,0. Wykres lustrzany przedstawia widmo wejściowe (na górze) i wybrane widmo bazy danych (na dole). Jasnoniebieskie szczyty są unikatowe dla danych wejściowych, pomarańczowe szczyty są zgodne z bazą danych, a ciemnoniebieskie szczyty są udostępniane. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 8: Wizualizacja klasyfikacji zastosowań funkcjonalnych. Struktura hierarchiczna jest pokazana po najechaniu kursorem na węzeł "chemikalia przemysłowe" (zaznaczony na żółto). Jego klasy podrzędne są oznaczone kolorem zielonym. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 9: Wizualizacja poletka trójskładnikowego gleby. Na wykresie wyświetlane są dane dotyczące składu próbek gleby. Etykietka narzędzia w prawym górnym rogu pokazuje dokładny skład regionu znajdującego się obecnie pod kursorem. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
Zrzuty ekranu AMOS pokazane powyżej pokazują typowe wyniki poszczególnych wyszukiwań w aplikacji, w tym zarówno wyszukiwania substancji będących przedmiotem zainteresowania, jak i wśród widm, arkuszy informacyjnych i metod. Różnorodność sposobów przeszukiwania bazy danych ma na celu uwzględnienie najbardziej prawdopodobnych i najbardziej użytecznych rodzajów wyszukiwania w sposób, który pozwoli na dokładniejsze zbadanie danych i substancji, do których się odnoszą.
Aby ułatwić użytkownikowi wyszukiwanie, wiele funkcji jest ze sobą połączonych w sposób mający na celu wsparcie głębszego badania dostępnych danych. Jako przykładowy przepływ pracy wizualizacja klasyfikacji zastosowań funkcjonalnych łączy się z widokami metod i arkuszy informacyjnych związanych z tą klasą funkcjonalną, z których można wyodrębnić listy substancji i wprowadzić je do wyszukiwania partii lub zbadać poszczególne dokumenty, a poszczególne substancje w tych dokumentach można dalej badać. Ponieważ wiele substancji w metodach ma również eksperymentalne widma masowe w bazie danych, może to pozwolić badaczowi na szybkie przejście od kategorii substancji do zestawu metod i widm, które mogą testować obecność określonej substancji (zob. rysunek 9).
Ponieważ wyniki będą w dużym stopniu zależeć od tego, co jest wyszukiwane i które wyszukiwanie lub wyszukiwania są uruchamiane, reprezentatywne wyniki dla całej aplikacji są trudne do zdefiniowania. Ogólnie rzecz biorąc, bardziej trafne może być opisanie "sukcesu" w kategoriach doświadczenia użytkownika; W takim przypadku należy mieć nadzieję, że następujące zasady będą ogólnie prawdziwe: że metody wyszukiwania i filtrowania (oraz możliwość przechodzenia między różnymi wyszukiwaniami i filtrami) są skuteczne w identyfikowaniu, których podzbiorów informacji chce użytkownik; że wyniki znalezione przez użytkownika są dokładne i przydatne. Rysunek 10 przedstawia przykładowy przepływ pracy demonstrujący funkcje AMOS.

Rysunek 10: Przykładowy przepływ pracy demonstrujący funkcje AMOS. Przepływ pracy rozpoczyna się od klasyfikacji funkcjonalnego zastosowania (leki oddechowe), filtruje metody związane z lekami oddechowymi we krwi, bada jedną konkretną metodę i identyfikuje widma dla substancji zawartej w tej metodzie. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
Podczas gdy wiele projektów i aplikacji koncentruje się na gromadzeniu i standaryzacji informacji z jednego typu rekordu, takiego jak metody, arkusze informacyjne lub określony rodzaj widm, AMOS jest pierwszym zidentyfikowanym narzędziem, które kompiluje i integruje duże ilości informacji z wielu typów rekordów. Ujednolicenie, harmonizacja i ustrukturyzacja danych z tych różnych źródeł skutkują powstaniem bazy danych, którą można łatwiej włączyć do przepływów pracy wymagających dostępu do metodologii chemii analitycznej. Możliwość przeszukiwania bazy danych na kilka uzupełniających się sposobów umożliwia efektywne wyszukiwanie informacji, które w przeciwnym razie wymagałyby dużego wysiłku ręcznego w wielu witrynach internetowych lub narzędziach.
Przed publicznym udostępnieniem użyteczność AMOS została zademonstrowana poprzez wykorzystanie go przez pracowników EPA do wspierania szerokiego zakresu projektów. EPA jest stale zainteresowana zastosowaniem spektrometrii mas do analizy nieukierunkowanej10,11, a wiele inicjatyw wykorzystało eksperymentalne widma mas w AMOS w celu usprawnienia poszukiwań w dużej bibliotece spektralnej in silico wygenerowanej z chemikaliów DSSTox12,13. W ramach innych projektów wykorzystano wyszukiwanie podobieństw strukturalnych w celu zidentyfikowania punktów wyjścia do opracowania nowych metod, zbadano istniejące metody oceny granic wykrywalności i kwantyfikacji, a także przeanalizowano kolekcje substancji chemicznych powiązanych z metodami oceny zakresu pokrycia przestrzeni chemicznej.
Agregacja potencjalnych danych treningowych w ramach projektu AMOS dodatkowo wspiera rozwój ilościowych modeli dostosowania metod analitycznych14, co jest podstawową potrzebą rozwoju przepływów pracy związanych z analizą nieukierunkowaną (NTA). Działania kuratorskie w ramach AMOS ułatwiają również inicjatywy mające na celu modelowanie, badanie i wizualizację przestrzeni chemicznych związanych z zakresem metodologicznym14.
Chociaż podstawowa funkcjonalność AMOS jest dojrzała, ciągły rozwój opiera się na opiniach użytkowników. Bieżące zadania obejmują włączanie dodatkowych danych, zarządzanie dalszymi metadanymi w celu ulepszonego filtrowania oraz rozszerzanie możliwości wyszukiwania. We współpracy z interesariuszami EPA opracowywane są interfejsy programowania aplikacji (API), które umożliwią dostęp programowy, rozwiązując problemy z przypadkami użycia, w których graficzny interfejs użytkownika (GUI) może być nieefektywny. Strona z informacjami o wersji została zintegrowana z aplikacją w celu śledzenia i komunikowania aktualizacji kodu w czasie.
Nowe rekordy danych i substancje chemiczne są obecnie dodawane co tydzień; Przewiduje się jednak, że po publicznej premierze harmonogram wydawniczego będzie wolniejszy. Chociaż dokłada się znacznych starań w celu zapewnienia dokładności rekordów i powiązanych metadanych, wiele danych pochodzi z publicznych baz danych. W związku z tym pełna weryfikacja każdego rekordu nie jest możliwa, a użytkownicy powinni mieć świadomość, że nie można zagwarantować absolutnej dokładności danych.
Niniejszy dokument niekoniecznie reprezentuje poglądy lub politykę Amerykańskiej Agencji Ochrony Środowiska.
Autorzy dziękują zespołowi kuratorskiemu za całą ich pracę związaną z opieką nad substancjami chemicznymi w bazie danych oraz Joshui Powellowi, Asifowi Rashidowi i Freddiemu Valone za wsparcie techniczne w budowie i wdrożeniu AMOS. Dziękujemy również Charlesowi Lowe'owi za recenzję manuskryptu.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Git | N/A | https://git-scm.com/ | System kontroli wersji typu open source. |
| Język JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Język programowania. Zdefiniowany zgodnie z międzynarodowymi standardami ECMA. |
| PostgreSQL | Globalna grupa rozwojowa PostgreSQL | https://postgresql.org/about/licence | System zarządzania bazami danych typu open source. |
| Pyton | Fundacja oprogramowania Python | https://www.python.org/ | Język programowania typu open source. |
Request permission to reuse the text or figures of this JoVE article
Request Permission