Method Article

Informatica toepassen om een structuur doorzoekbare database van analytische methoden te ontwikkelen

DOI:

10.3791/68194

June 6th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit artikel beschrijft AMOS, de webgebaseerde database Analytical Methods and Open Spectra, een cheminformatische applicatie die is ontworpen om onderzoekers gemakkelijk toegang te geven tot analytische methoden en spectrale gegevens.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Analytische methoden kunnen variëren van gedetailleerde regelgevingsdocumenten tot eenvoudigere samenvattingen. Regelgevende methoden kunnen informatie omvatten over vatbare analyten, ondersteunde matrices, vereiste reagentia, statistische prestaties, interlaboratoriumvalidatie en andere bijzonderheden. Samenvattingen geven meestal een algemeen overzicht van reagentia, instrumentatie en vaak een korte lijst van analyten. Analytische methoden van Amerikaanse overheidsinstanties, waaronder het Amerikaanse Environmental Protection Agency (USEPA), U.S. Geological Survey (USGS), het Amerikaanse ministerie van landbouw (USDA), de Food and Drug Administration (FDA) en anderen, bieden gedetailleerde procedurele informatie. Instrumentverkopers zoals Agilent, Shimadzu, Thermo Fisher Scientific, Sciex en anderen bieden ook toegang tot honderden toepassingsnotities, die als samenvattende methoden kunnen worden beschouwd. Deze studie heeft een op chemie gebaseerde database ontwikkeld met methoden waarin chemicaliën worden geëxtraheerd uit methodedocumenten, waarbij identificatiegegevens (namen en/of registratienummers van de Chemical Abstracts Service (CASRN)) worden toegewezen aan chemische structuren. De resulterende database, die ongeveer 7.000 methoden bevat, is doorzoekbaar op identificatie, chemische structuur en structurele gelijkenis, en wordt aangevuld met ongeveer een miljoen spectra uit het publieke domein (LC/MS, GC/MS, NMR en IR). De applicatie ondersteunt het doorzoeken van analytische methoden en het filteren op basis van analyten, functioneel gebruik, methodebronnen en andere gerelateerde metadata.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Webgebaseerde levering van chemiegegevens aan de gemeenschap wordt geïllustreerd door toepassingen zoals PubChem1, ChemSpider2 en het CompTox Chemicals Dashboard (CCD)3. Er zijn inspanningen geleverd om details van analytische methoden te verspreiden die zijn gepubliceerd in tijdschriftartikelen, die door instrumentverkopers zijn vrijgegeven als technische toepassingsnotities, die door overheidsinstanties zijn verstrekt als standaard operationele procedures of regelgevende methoden, en die zijn uitgegeven door normalisatie-organisaties zoals de International Organization for Standardization (ISO). Tienduizenden chemicaliën zijn door deze bronnen bestudeerd onder een breed scala aan omstandigheden en analytische technieken. Dit uitgebreide scala aan bronnen omvat diverse stoffen en omvat scenario's variërend van de kwantificering van een enkele chemische stof in een specifieke matrix (bijv. bloed), tot mengsels van pesticiden en hun residuen in specifieke gewassen, tot honderden chemicaliën die in drinkwater zijn geïdentificeerd. Hoewel veel analytische methoden via openbare zoekmachines kunnen worden ontdekt, zijn ze niet allemaal vrij beschikbaar of vrij toegankelijk.

Het vinden van specifieke interessante informatie kan een uitdaging zijn. Zoekmachines voor algemeen gebruik zijn niet geoptimaliseerd voor scheikundegegevens en hun rangschikkingsalgoritmen kunnen inhoud van hoge kwaliteit verbergen die bedoeld is voor een beperkt publiek. Zoekopdrachten op websites van tijdschriften kunnen meer gerichte resultaten opleveren, maar de toegang is vaak beperkt, met alleen samenvattingen die openbaar beschikbaar zijn, waardoor het moeilijk is om het nut van een methode te beoordelen. Bovendien worden kritische parameters, zoals steekproefmatrices, detectielimieten en kwantificering, vaak niet in een gestructureerd formaat opgeslagen. Een andere belangrijke uitdaging ligt in de variatie en inconsistentie van chemische identificatiemiddelen, namen en synoniemen die verband houden met een enkele chemische stof. Het gebrek aan gestructureerde methoden, gegevens beperkt de ontwikkeling van softwaretools die gebruik kunnen maken van tientallen jaren opgebouwde analytische scheikundige kennis en gerelateerde publicaties.

Als gevolg van deze uitdagingen en beperkingen is er behoefte aan een gecureerde, chemie-georiënteerde toepassing voor het harmoniseren en doorzoeken van analytische methoden - een die nergens anders is geïdentificeerd. Om deze kloof te dichten, heeft het Amerikaanse Environmental Protection Agency AMOS ontwikkeld, de database Analytical Methods and Open Spectra en de webgebaseerde applicatie. AMOS verzamelt en organiseert momenteel drie soorten gegevensbestanden: analytische methoden, verschillende analytische spectra en een brede categorie aanvullende documenten die gezamenlijk factsheets worden genoemd. Elk record is gekoppeld aan de chemische analyten en reagentia van de methode. De gegevens zijn op meerdere manieren doorzoekbaar, onder meer door middel van tekstquery's, chemische structuur en structurele of spectrale gelijkenis.

De AMOS-applicatie richt zich primair op het leveren van open access en open data records. Waar mogelijk worden records in de database gehyperlinkt naar hun oorspronkelijke bronnen. Records die niet onder een open licentie vallen en daarom niet rechtstreeks in de database zijn opgeslagen, kunnen nog steeds worden geïntegreerd en toegankelijk zijn via URL, op voorwaarde dat ze anderszins beschikbaar zijn. Dit geldt voor twee soorten records: analytische methoden die zich achter betaalmuren bevinden, meestal van tijdschriften of standaardisatie-instellingen waartoe de EPA toegang heeft, en spectra die beschikbaar zijn maar inlogtoegang vereisen.

Gegevensbronnen variëren in de manier waarop records zijn gestructureerd, waardoor aanzienlijke inspanningen nodig zijn op het gebied van extractie en curatie om de inhoud samen te stellen en te harmoniseren. De meeste records bevatten stof-ID's (bijv. CASRN, DTXSID, InChIKey, veelvoorkomende namen), en in veel gevallen is extractie eenvoudig. Het kan echter complex zijn om deze identificatiegegevens te koppelen aan chemische structuren en stofdetails. Sommige identificatiegegevens kunnen rechtstreeks worden gekoppeld aan vermeldingen in de Distributed Structure-Searchable Toxicity (DSSTox)-database van de EPA4; Wanneer er geen overeenkomsten worden gevonden, worden identificatiecodes gekoppeld aan bestaande stoffen of worden nieuwe stoffen geregistreerd. Het AMOS-initiatief heeft vervolgens geleid tot de uitbreiding van de DSSTox-database, waardoor de fundamentele gegevens ter ondersteuning van andere EPA-databases en -toepassingen, zoals het CompTox Chemicals Dashboard3, zijn verbeterd.

Handmatige curatie is vereist voor bepaalde waardevolle aanvullende informatie. Voor analytische methoden zijn experimentele parameters zoals detectie- en kwantificeringslimieten, monstermatrix en analytische methodologie niet op een gestandaardiseerde manier georganiseerd, en geautomatiseerde tools kunnen deze informatie niet identificeren vanwege de inconsistente opslag.

Twee elementen van de registratie-informatie, de media die bij het monster horen en het functionele gebruik van de analyt, zijn zeer relevant voor de voortdurende inspanningen om de gevaren en blootstellingsproblemen van verontreinigende stoffen te monitoren. Als zodanig werd veel aandacht besteed aan het structureren van deze attributen binnen de recordgegevens. Voor dit project werd een ontologie van functionele gebruiksclassificaties ontwikkeld. Deze ontologie organiseert het functionele gebruik van stoffen in een hiërarchische structuur, variërend van meer algemeen 'ouder'-gebruik tot meer specifiek 'kind'-gebruik. De ontologie vergemakkelijkt de verkenning van stoffen vanuit een toepassingsperspectief en ondersteunt onderzoeksinitiatieven die de nadruk leggen op functioneel gebruik als middel om blootstelling en gevaar te beoordelen 5,6. Bovendien werden de methoden gelabeld op basis van de categorie geharmoniseerde media van hun monsters, zoals gespecificeerd in de multimediamonitoringdatabase van de EPA (MMDB)7. Deze categorisering maakt het mogelijk om naar chemicaliën te zoeken op basis van hun voorkomen in specifieke media, waardoor de ontwikkeling van oplossingen wordt gestroomlijnd die gericht zijn op het detecteren van chemicaliën in specifieke milieu- of biologische monsters. Deze annotaties verbeteren de integratie van AMOS in blootstellings- en gevarengeoriënteerde workflows die in ontwikkeling zijn binnen de EPA.

Bij het samenstellen van de spectra vereist de uitdaging van het verwerken van verschillende bestandsindelingen - waarvan sommige alleen nominaal gestandaardiseerd zijn - en het parseren van bijbehorende metadata vaak een aangepaste behandeling. In gevallen waarin spectrale verzamelingen zijn gekoppeld aan een publicatie, moeten de details die in de publicatie zijn gedocumenteerd mogelijk handmatig worden geëxtraheerd om gegevens te laden. Deze inspanning heeft geresulteerd in een database die deze ongelijksoortige spectra integreert en structureert, waardoor onderzoekers de noodzaak van moeizame curatie bij toekomstige inspanningen kunnen vermijden.

Vanaf maart 2025 bevat de database ongeveer 935.000 spectra, waarvan bijna 99% massaspectra en kleinere verzamelingen NMR (~2.000) en IR (~400). Daarnaast zijn er ongeveer 770.000 extern gekoppelde spectra (verbonden met de SpectraBase-database8), ~36.000 factsheets en ~7.400 analytische methoden. De stoffen die in de applicatie zijn geïntegreerd, zijn een subset van die uit de DSSTox-database, die is opgenomen in het CompTox Chemicals Dashboard (CCD) en meer dan 1,2 miljoen stoffen bevat.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het grootste deel van de functionaliteit van AMOS kan worden onderverdeeld in drie categorieën: zoeken naar records voor bepaalde stoffen, zoeken naar bepaalde collecties van stoffen of zoeken tussen categorieën records. De afzonderlijke pagina's voor deze functionaliteiten zijn allemaal toegankelijk via de navigatiebalk bovenaan elke pagina. De applicatie wordt momenteel op https://hcd.rtpnc.epa.gov/#/ uitgerold via de AMOS-module. De softwaretools die in dit onderzoek zijn gebruikt, staan vermeld in de Materiaaltabel.

1. Zoeken naar records voor specifieke stoffen

  1. Algemeen zoeken: Voer een algemene zoekopdracht uit om een lijst te verkrijgen van alle soorten records die verband houden met een enkele stof (zie figuur 1).
    1. Voer in het tekstveld linksboven in de navigatiebalk of in het zoekveld op de voorpagina een stofnaam, CASRN, InChIKey of DSSTox-stofidentificatie (DTXSID) in. Druk op Enter of klik op Zoeken om de zoekopdracht uit te voeren.
      OPMERKING: De zoekbalk op de voorpagina heeft een extra optie om te zoeken op substring; Zie het gedeelte over de gedeeltelijke ID-zoekopdracht (stap 2.2) voor meer informatie.
    2. Als de gezochte ID wordt herkend en overeenkomt met een enkele stof, wordt aan de linkerkant van de pagina wat basisinformatie over de stof weergegeven en een tabel met alle records die aan die stof zijn gekoppeld. Selecteer een rij in die tabel om de bijbehorende record aan de rechterkant van de pagina weer te geven als deze rechtstreeks in de database is opgeslagen.
    3. Als de gezochte ID overeenkomt met meerdere stoffen - bijvoorbeeld een afkorting die voor meer dan één stof wordt gebruikt - verschijnt er een ondubbelzinnigheidsprompt waarmee de gebruiker kan selecteren welke stof hij wil zien. Selecteer een stof uit die lijst en er wordt er een doorgestuurd naar het display voor een herkende stof.
    4. Als u de tabel met resultaten wilt filteren, klikt u op de tabbladen net boven de tabel om te filteren op recordtype (hierdoor worden ook verschillende kolommen verborgen en zichtbaar gemaakt), voert u tekst in velden boven aan de tabel in om te filteren op andere aspecten van de gegevens en schakelt u de selectievakjes boven de tabbladen in om te filteren op bredere eigenschappen van de gegevens.
  2. Batchzoekopdracht: Voer een batchzoekopdracht uit om een spreadsheetbestand te genereren en te downloaden met informatie over alle records in de database die zijn gekoppeld aan een bepaalde lijst met stoffen. (zie figuur 2).
    1. Voer in het veld voor invoergegevens een lijst in met DTXSID's die moeten worden doorzocht, één per regel. Als DTXSID's niet beschikbaar zijn, gebruikt u de koppeling op de pagina om naar een CCD-hulpprogramma te navigeren dat DTXSID's kan leveren op basis van andere id's.
    2. Gebruik de selectievakjes onder Zoekopties om resultaten uit te filteren of aanvullende informatie aan records toe te voegen. De opties zijn gegroepeerd in vijf categorieën: filteren op recordtypes, filteren op analytische methodologieën, aanvullende informatie op stofniveau toevoegen aan het resultatenbestand, aanvullende informatie op recordniveau toevoegen (momenteel alleen beschikbaar voor massaspectra) en enkele diverse opties.
      OPMERKING: Opties met een onderbroken streep hebben tekst die de optie grondiger uitlegt. Beweeg de muisaanwijzer over het label van de optie om het te zien.
    3. Klik op Zoeken onderaan de pagina om de zoekopdracht uit te voeren.
      OPMERKING: De uitvoerspreadsheet bevat een lijst met associaties tussen stofrecords, samen met stof-ID's, bronkoppelingen en enkele andere basisinformatie. Als er meerdere gezochte stoffen in een record voorkomen, wordt het record voor elke stof één keer weergegeven.
  3. Zoeken naar structurele gelijkenis: Voer deze zoekopdracht uit om lijsten met methoden en factsheets in de database te verkrijgen die de gezochte stof bevatten of een stof met een voldoende hoge Tanimoto structurele gelijkeniscoëfficiënt (zie figuur 3).
    OPMERKING: Deze zoekopdracht kan nuttig zijn in gevallen waarin een interessante stof in geen enkele methode voorkomt, maar methoden met zeer vergelijkbare stoffen kunnen mogelijk als referentie worden gebruikt.
    1. Voer een DTXSID-, InChIKey-, CASRN- of stofnaam in het zoekveld in en klik op Zoeken of druk op Enter. Het zoeken kan 20-30 s in beslag nemen.
    2. Zodra de zoekopdracht is voltooid, verschijnt hieronder een tabel met tabbladen. Selecteer een tabblad om de resultaten van de zoekopdracht te bekijken.
      1. De eerste twee tabbladen geven een overzicht van de gevonden methoden en factsheets. Selecteer er een om een weergave van dat document aan de rechterkant van de pagina weer te geven. Methoden of factsheets die de gezochte stof bevatten, zijn vetgedrukt.
      2. Het derde tabblad geeft een overzicht van vergelijkbare stoffen die in methoden of factsheets voorkomen. Selecteer een rij in de tabel om een vergelijking weer te geven tussen de gezochte stof en de stof die in de tabel is geselecteerd. Als de gezochte stof zelf in documenten is gevonden, staat deze in een vetgedrukt lettertype.
      3. Gebruik de selector voor minimale gelijkenis van stoffen bovenaan om resultaten te verbergen voor de zoekopdracht die geen stoffen bevatten die lager zijn dan de geselecteerde gelijkenisdrempel.

figure-protocol-1
Figuur 1: Zoekresultaten voor records die cholesterol bevatten. Een algemene zoekopdracht naar "cholesterol" toont een lijst met overeenkomende records in de tabel (links). Het massaspectrum van een geselecteerde record wordt aan de rechterkant weergegeven. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-2
Afbeelding 2: Interface voor batchzoekopdrachten. Het zoekveld bevat twee stoffen die worden geïdentificeerd door hun DTXSID's. De standaardzoekopties zijn geselecteerd voor de zoekopdracht. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-3
Figuur 3: Structuur van de zoekresultaten voor 1P-LSD. De tabel geeft een overzicht van methoden die structureel vergelijkbare stoffen bevatten. Aan de rechterkant wordt een geselecteerde methode weergegeven. Er zijn geen vetgedrukte vermeldingen in de tabel die aangeven dat 1P-LSD in geen enkele vermelde methode voorkomt. Klik hier om een grotere versie van deze figuur te bekijken.

2. Zoeken naar stoffen

  1. ClassyFire-zoekopdracht: Voer deze zoekopdracht uit om een lijst te maken van alle stoffen die behoren tot de gegeven eerste vier niveaus van een ClassyFire-classificatie9 (zie afbeelding 4).
    1. Selecteer met behulp van de vier velden boven aan de pagina de vier bovenste niveaus van de classificatie één voor één. Nadat u elk van de eerste drie hebt geselecteerd, gebruikt u de knop onder dat veld om de lijst met classificaties een niveau lager te krijgen. Voor de vierde zal de onderstaande knop de zoekopdracht uitvoeren.
      OPMERKING: Zodra de zoekopdracht is voltooid, wordt de onderstaande tabel gevuld met een lijst van stoffen die onder die classificatie vallen. De tabel bevat algemene identificatiegegevens en stofinformatie, plus tellingen van het aantal records dat in AMOS bestaat.
    2. Gebruik de knoppen tussen de klasseselectie en de tabel om vier bits functionaliteit mogelijk te maken:
      1. Klik op Classificatie naar URL kopiëren om een URL naar het klembord te kopiëren, die, indien geladen in een nieuw browsertabblad of -venster, automatisch de classificatieniveaus vooraf invult en de zoekopdracht uitvoert.
      2. Klik op Selectie resetten om de selecties in de classificatievelden opnieuw in te stellen. Het reset de tabel met gevonden stoffen niet.
      3. Klik op Tabel downloaden om een spreadsheetbestand te downloaden met alle zichtbare velden en records in de tabel, met uitzondering van de afbeeldingen van de stof. Als de filters boven aan de resultatentabel in gebruik zijn, worden de gedownloade resultaten ook gefilterd, maar wordt de inhoud van de filters niet opgenomen.
      4. Klik op Geselecteerde stoffen naar batchzoekopdracht sturen om een nieuw tabblad te openen voor de batchzoekopdracht met het veld voor het weergeven van DTXSID's die vooraf zijn ingevuld met de stoffen die zijn geselecteerd uit de ClassyFire-zoekresultaten. Selectie van individuele stoffen kan worden gedaan met het selectievakje in elke rij; Selectie of deselectie van alle stoffen kan worden gedaan door het selectievakje in de kop van de tabel aan te vinken. Zie stap 1.2 voor meer informatie over het zoeken naar batches.
  2. Zoeken naar gedeeltelijke identificatiecodes: voer dit uit om alle stoffen te vinden die overeenkomen met een niet-unieke identificatiecode (zie figuur 5). De huidige opties zijn de naamsubstring (die zowel de EPA-voorkeursnaam als de gebruikelijke synoniemen omvat), het eerste blok van InChIKey, de exacte molecuulformule en een reeks mono-isotopische massa's.
    1. Selecteer boven aan de pagina een ID en voer de informatie in de aangrenzende velden in.
    2. Klik op Zoeken om de zoekopdracht uit te voeren.
    3. Wanneer de zoekopdracht is voltooid, wordt de tabel gevuld met een lijst van stoffen die overeenkomen met de gedeeltelijke identificatiecode, plus informatie over hoe vaak ze voorkomen in de database van AMOS en in andere literatuur. Gebruik de filters boven aan de kolommen van de tabel om de resultaten verder te verfijnen en gebruik het selectievakje Stoffen met meerdere componenten weergeven om stoffen weer te geven of te verbergen die uit meerdere verbindingen bestaan.
      OPMERKING: Als er een zoekopdracht naar een naamsubreeks is uitgevoerd, verschijnt er een kolom met de gevonden synoniemen. Als een stof alleen door synoniemen wordt gevonden - d.w.z. als de voorkeursnaam de substring niet bevat - wordt de voorkeursnaam cursief weergegeven.

figure-protocol-4
Figuur 4: Zoekresultaten van de ClassyFire-classificatie. De resultaten omvatten informatie op stofniveau en het aantal records per indelingsgroep. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-5
Afbeelding 5: Zoekresultaten voor gedeeltelijke identificatiecodes voor 'trazine'. Bij het zoeken worden stoffen gevonden met voorkeursnamen of synoniemen die de subtekenreeks 'trazine' bevatten. Twee van de drie resultaten bevatten "trazine" alleen in hun synoniemen, niet in hun voorkeursnamen. Klik hier om een grotere versie van deze figuur te bekijken.

3. Records doorzoeken

  1. Factsheet en lijst met methoden: Deze pagina's geven een overzicht van alle factsheets en methoden die zich in de database bevinden, met diverse manieren om ze te filteren (zie Figuur 6). Omdat de functionaliteit van de twee pagina's grotendeels hetzelfde is, zijn ze hier gegroepeerd.
    OPMERKING: Als u naar de pagina navigeert, worden de tabellen geladen. Dit kan even duren vanwege het aantal aanwezige records.
    1. Zodra een tabel is geladen, gebruikt u de invoer boven aan elke kolom om de gegevens en verschillende velden te filteren. De exacte velden variëren per tabellen, maar de meeste kunnen worden geselecteerd of gefilterd.
    2. Gebruik het veld Volledig tabelfilter boven de tabel om alle kolommen op een bepaalde tekenreeks te controleren.
      OPMERKING: De lijst met methoden bevat twee velden die standaard verborgen zijn: auteur en uitgever. Het filter voor de volledige tabel vangt records op met de zoekterm in een van deze velden.
    3. De factsheetlijst maakt het mogelijk om individuele resultaten te filteren door te zoeken naar een bepaalde stof. Voer een stofnaam in, CASRN, InChIKey of DTXSID, en klik op zoeken om de tabel te filteren. Klik op Filter wissen om het stoffilter te wissen.
      OPMERKING: In beide tabellen zijn de volgende knoppen beschikbaar: Filters naar klembord kopiëren kopieert een URL naar het klembord die, wanneer deze door een browser wordt geopend, de lijst laadt en de filtervelden in de tabel vooraf vult met de huidige waarden; Download Tabel downloadt een lijst met alle zichtbare resultaten en filters in de tabel; Download Stoffen downloadt een lijst van alle stoffen die in de (gefilterde) tabel voorkomen; Met Filters opnieuw instellen wist u alle tabelfilters, inclusief het volledige tabelfilter.
  2. Zoeken naar massaspectrum: Voer deze zoekopdracht uit om een lijst met massaspectrale overeenkomsten uit de database op te halen op basis van een door de gebruiker geleverd spectrum (zie afbeelding 7).
    1. Vul de vier vereiste invoervelden in of pas ze aan: een massabereik voor de doelstof in Daltons, met een foutmarge in Daltons of delen per miljoen (ppm); een methodologie, GC/MS of LC/MS; een massaspectrum, gegeven als een lijst van lading-tot-massa en intensiteitsparen; en de grootte van het massavenster voor piekgelijkenis.
    2. Zodra die velden zijn ingevuld, klikt u op de knop Zoeken eronder.
      OPMERKING: Wanneer het zoeken is voltooid en er spectra zijn gevonden, verschijnt er aan de rechterkant van de pagina een tabel met spectra die overeenkomen met de geselecteerde methodologie van alle stoffen die overeenkomen met het massabereik, gesorteerd op de entropieovereenkomst tussen het door de gebruiker ingediende spectrum en het databasespectrum.
    3. Selecteer een rij in de tabel om een grafiek weer te geven met een vergelijking van het gebruikersspectrum met het databasespectrum (respectievelijk aan de boven- en onderkant van de grafiek). Gebruik het veld Minimale gelijkenis om resultaten te verbergen die onder een bepaalde entropieovereenkomst liggen.
  3. Visualisatie van classificatie van functioneel gebruik: Deze pagina visualiseert de ontologie van functioneel gebruik van AMOS en linkt naar de methoden en factsheets voor die gebruiksklassen. De klassen worden weergegeven in een gerichte grafiek, waarbij de randen gaan van meer algemene bovenliggende klassen naar meer specifieke onderliggende klassen (zie Figuur 8).
    1. Gebruik het zoekveld aan de rechterkant om te zoeken in de lijst met functionele gebruiksklassen. Beweeg de muisaanwijzer over de naam van een gebruiksklasse om het corresponderende knooppunt in de grafiek te markeren.
    2. Als u de grafiek rechtstreeks bekijkt, plaatst u de muisaanwijzer op een opgegeven knooppunt om een korte beschrijving van die klasse weer te geven en om eventuele directe bovenliggende of onderliggende klassen voor dat knooppunt te markeren.
    3. Klik met de rechtermuisknop op een klassenaam uit de lijst aan de rechterkant van de pagina of op een knooppunt in de grafiek om een menu te openen met opties voor de methode- en factsheetlijsten. Selecteer een van deze en er wordt een nieuw browsertabblad geopend in die lijst, waarbij het veld voor de functionele klasse vooraf is gefilterd met de geselecteerde functionele klasse.
  4. Bodem ternair plot: Deze pagina geeft de classificatie van de bodemtextuur van het Amerikaanse ministerie van landbouw weer, waardoor de methoden van AMOS op grondtype kunnen worden doorzocht.
    1. Beweeg de muisaanwijzer over het gebied van het perceel om details over de samenstelling te zien.
    2. Klik op een gebied van het perceel om een nieuw tabblad te openen in de lijst met methoden met het matrixveld dat is voorgefilterd op de geselecteerde bodemclassificatie.

figure-protocol-6
Figuur 6: Gefilterde lijst van analytische methoden. De tabel is gefilterd op analyt en matrix, waarbij alleen methoden worden weergegeven die verband houden met PFAS (per- en polyfluoralkylstoffen) in water. De bijbehorende lijst met factsheets lijkt sterk op deze lay-out. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-7
Figuur 7: Zoekresultaten voor spectrumgelijkenis. Als input wordt een cafeïnespectrum uit de AMOS-database gebruikt. Vergelijkbare spectra zijn gegroepeerd per stof, met een maximale gelijkenisscore van 1,0. De gespiegelde grafiek toont het invoerspectrum (boven) en een geselecteerd databasespectrum (onder). Lichtblauwe pieken zijn uniek voor de invoer, oranje pieken voor de database komen overeen en donkerblauwe pieken worden gedeeld. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-8
Figuur 8: Visualisatie van classificatie van functioneel gebruik. De hiërarchische structuur wordt weergegeven met de cursor die over het knooppunt "industriële chemicaliën" zweeft (geel omlijnd). De kinderklassen zijn groen omlijnd. Klik hier om een grotere versie van deze figuur te bekijken.

figure-protocol-9
Figuur 9: Visualisatie van het ternaire perceel van de bodem. De grafiek geeft samenstellingsgegevens voor grondmonsters weer. Een tooltip in de rechterbovenhoek toont de precieze samenstelling van het gebied dat momenteel onder de cursor staat. Klik hier om een grotere versie van deze figuur te bekijken.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De hierboven getoonde screenshots van AMOS tonen typische resultaten van de afzonderlijke zoekopdrachten in de toepassing, zowel bij het zoeken naar interessante stoffen als tussen spectra, factsheets en methoden. De verscheidenheid aan manieren om de database te ondervragen is bedoeld om de meest waarschijnlijke en meest bruikbare soorten zoekopdrachten te dekken op een manier die dieper onderzoek mogelijk maakt naar de gegevens en de stoffen waarop ze betrekking hebben.

Om een gebruiker te helpen bij het zoeken, is een groot deel van de functionaliteit met elkaar verbonden op manieren die bedoeld zijn om dieper onderzoek van de beschikbare gegevens te ondersteunen. Als voorbeeldworkflow is de visualisatie van de classificatie voor functioneel gebruik gekoppeld aan weergaven van de methoden en factsheets die betrekking hebben op die functionele klasse, waaruit lijsten van stoffen kunnen worden geëxtraheerd en ingevoerd in de batchzoekopdracht, of individuele documenten kunnen worden onderzocht en individuele stoffen in die documenten verder kunnen worden onderzocht. Aangezien veel stoffen in methoden ook experimentele massaspectra in de database hebben, kan een onderzoeker hierdoor snel van een categorie stoffen naar een reeks methoden en spectra gaan die kunnen testen op de aanwezigheid van een specifieke stof (zie figuur 9).

Aangezien de resultaten sterk afhangen van waarnaar wordt gezocht en welke zoekopdracht of zoekopdrachten worden uitgevoerd, zijn representatieve resultaten voor de hele applicatie moeilijk te definiëren. Over het algemeen kan het nauwkeuriger zijn om een "succes" te beschrijven in termen van gebruikerservaring; In dat geval is het te hopen dat het volgende over het algemeen waar zal zijn: dat de methoden van zoeken en filteren (en de mogelijkheid om tussen verschillende zoekopdrachten en filters te schakelen) effectief zijn bij het identificeren van welke subsets van informatie een gebruiker wil; dat de resultaten die de gebruiker vindt nauwkeurig en nuttig zijn. Figuur 10 toont een voorbeeldworkflow die AMOS-functionaliteiten demonstreert.

figure-results-1
Figuur 10: Voorbeeld van een workflow die de AMOS-functionaliteiten demonstreert. De workflow begint met een classificatie voor functioneel gebruik (respiratoire geneesmiddelen), filtert methoden met betrekking tot respiratoire geneesmiddelen in bloed, onderzoekt een specifieke methode en identificeert spectra voor een stof die in die methode is opgenomen. Klik hier om een grotere versie van deze figuur te bekijken.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Hoewel veel projecten en toepassingen zich richten op het verzamelen en standaardiseren van informatie uit een enkel type record, zoals methoden, factsheets of een specifiek soort spectra, is AMOS de eerste geïdentificeerde tool die grote hoeveelheden informatie verzamelt en integreert in meerdere recordtypen. De unificatie, harmonisatie en structurering van gegevens uit deze verschillende bronnen resulteren in een database die gemakkelijker kan worden opgenomen in workflows die toegang tot analytische chemiemethodologieën vereisen. De mogelijkheid om de database op verschillende complementaire manieren te doorzoeken, maakt het mogelijk om efficiënt informatie op te halen die anders veel handmatige inspanning zou vereisen op meerdere websites of tools.

Vóór de publieke release werd het nut van AMOS gedemonstreerd door het gebruik ervan door EPA-personeel om een breed scala aan projecten te ondersteunen. De EPA heeft een aanhoudende interesse in de toepassing van massaspectrometrie voor niet-gerichte analyse10,11, en meerdere initiatieven hebben de experimentele massaspectra in AMOS gebruikt om zoekopdrachten te verbeteren tegen een grote in silico spectrale bibliotheek die is gegenereerd uit DSSTox-chemicaliën12,13. Andere projecten hebben het zoeken naar structurele gelijkenis gebruikt om startpunten te identificeren voor het ontwikkelen van nieuwe methoden, bestaande methoden onderzocht om detectie- en kwantificeringslimieten te beoordelen, en verzamelingen chemicaliën geanalyseerd die zijn gekoppeld aan methoden om de mate van dekking van de chemische ruimte te evalueren.

De aggregatie van potentiële trainingsgegevens door AMOS ondersteunt verder de ontwikkeling van kwantitatieve modellen van geschiktheid voor analytische methoden14, een kernbehoefte voor het bevorderen van workflows voor niet-gerichte analyse (NTA). De curatie-inspanningen binnen AMOS vergemakkelijken ook initiatieven om chemische ruimtes te modelleren, te verkennen en te visualiseren die verband houden met methodologische dekking14.

Hoewel de kernfunctionaliteit van AMOS volwassen is, wordt de voortdurende ontwikkeling geleid door feedback van gebruikers. Huidige taken zijn onder meer het opnemen van aanvullende gegevens, het beheren van verdere metadata voor verbeterde filtering en het uitbreiden van zoekmogelijkheden. In samenwerking met EPA-belanghebbenden zijn Application Programming Interfaces (API's) in ontwikkeling om programmatische toegang mogelijk te maken, waarbij gebruiksscenario's worden aangepakt waarin de grafische gebruikersinterface (GUI) inefficiënt kan zijn. Er is een pagina met release-opmerkingen in de applicatie geïntegreerd om code-updates in de loop van de tijd bij te houden en te communiceren.

Nieuwe gegevensrecords en chemicaliën worden momenteel wekelijks toegevoegd; Er wordt echter een langzamer releaseschema verwacht na de publieke lancering. Hoewel er aanzienlijke inspanningen worden geleverd om de nauwkeurigheid van records en bijbehorende metadata te waarborgen, is een groot deel van de gegevens afkomstig uit openbare databases. Als zodanig is volledige verificatie van elk record niet haalbaar en moeten gebruikers zich ervan bewust zijn dat absolute nauwkeurigheid van de gegevens niet kan worden gegarandeerd.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit document vertegenwoordigt niet noodzakelijkerwijs de standpunten of het beleid van het Amerikaanse Environmental Protection Agency.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs bedanken het curatieteam voor al hun werk bij het samenstellen van chemicaliën voor de database, en Joshua Powell, Asif Rashid en Freddie Valone voor technische ondersteuning bij de bouw en implementatie van AMOS. We danken ook Charles Lowe voor zijn recensie van het manuscript.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
GitN/Ahttps://git-scm.com/Open-source version control system.
JavaScriptN/Ahttps://ecma-international.org/publications-and-standards/standards/ecma-262/Programming language.  Defined by ECMA International standards.
PostgreSQLPostgreSQL Global Development Grouphttps://postgresql.org/about/licenceOpen-source database management system.
PythonPython Software Foundationhttps://www.python.org/Open-source programming language.

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).">Kim, S., et al. PubChem substance and compound databases. Nucleic Acids Res. 44 (D1), D1202-D1213 (2016).
  2. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).">Pence, H. E., Williams, A. J. ChemSpider: An online chemical information resource. J Chem Educ. 87 (11), 1123-1124 (2010).
  3. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).">Williams, A. J., Grulke, C. M., Edwards, J. The CompTox chemistry dashboard: A community data resource for environmental chemistry. J Cheminform. 9, 61(2017).
  4. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).">Grulke, C. M., Williams, A. J., Thillanadarajah, I., Richard, A. M. EPA's DSSTox database: History of development of a curated chemistry resource supporting computational toxicology research. Comput Toxicol. 12, 100096(2019).
  5. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).">Tickner, J. A., Schifano, J. N., Blake, A., Rudisill, C., Mulvihill, M. J. Advancing safer alternatives through functional substitution. Environ Sci Technol. 49 (2), 742-749 (2015).
  6. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).">Phillips, K. A., Wambaugh, J. F., Grulke, C. M., Dionisio, K. L., Isaacs, K. K. High-throughput screening of chemicals as functional substitutes using structure-based classification models. Green Chem. 19 (4), 1063-1074 (2017).
  7. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).">Isaacs, K. K., et al. A harmonized chemical monitoring database for support of exposure assessments. Sci Data. 9, 314(2022).
  8. https://spectrabase.com/ (2025).">SpectraBase. , https://spectrabase.com/ (2025).
  9. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).">Djoumbou Feunang, Y., et al. ClassyFire: Automated chemical classification with a comprehensive, computable taxonomy. J Cheminform. 8, 61(2016).
  10. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).">Ulrich, E. M., et al. EPA's non-targeted analysis collaborative trial (ENTACT): Genesis, design, and initial findings. Anal Bioanal Chem. 411 (4), 853-866 (2019).
  11. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).">Sobus, J. R., et al. Using prepared mixtures of ToxCast chemicals to evaluate non-targeted analysis (NTA) method performance. Anal Bioanal Chem. 411 (4), 835-851 (2019).
  12. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).">Chao, A., et al. In silico MS/MS spectra for identifying unknowns: A critical examination using CFM-ID algorithms and ENTACT mixture samples. Anal Bioanal Chem. 412 (6), 1303-1315 (2020).
  13. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).">McEachran, A. D., et al. Revisiting five years of CASMI contests with EPA identification tools. Metabolites. 10 (6), 260(2020).
  14. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).">Charest, N., et al. Improving predictions of compound amenability for liquid chromatography-mass spectrometry to enhance non-targeted analysis. Anal Bioanal Chem. 416 (10), 2565-2579 (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Cheminformatics DatabaseStructure Searchable DatabaseAnalytical MethodsChemical Structure SearchMethod Identifier MappingPublic Domain SpectraLC MS SpectraGC MS SpectraNMR SpectraIR Spectra

Related Articles