Dit artikel beschrijft AMOS, de webgebaseerde database Analytical Methods and Open Spectra, een cheminformatische applicatie die is ontworpen om onderzoekers gemakkelijk toegang te geven tot analytische methoden en spectrale gegevens.
Method Article
Dit artikel beschrijft AMOS, de webgebaseerde database Analytical Methods and Open Spectra, een cheminformatische applicatie die is ontworpen om onderzoekers gemakkelijk toegang te geven tot analytische methoden en spectrale gegevens.
Analytische methoden kunnen variëren van gedetailleerde regelgevingsdocumenten tot eenvoudigere samenvattingen. Regelgevende methoden kunnen informatie omvatten over vatbare analyten, ondersteunde matrices, vereiste reagentia, statistische prestaties, interlaboratoriumvalidatie en andere bijzonderheden. Samenvattingen geven meestal een algemeen overzicht van reagentia, instrumentatie en vaak een korte lijst van analyten. Analytische methoden van Amerikaanse overheidsinstanties, waaronder het Amerikaanse Environmental Protection Agency (USEPA), U.S. Geological Survey (USGS), het Amerikaanse ministerie van landbouw (USDA), de Food and Drug Administration (FDA) en anderen, bieden gedetailleerde procedurele informatie. Instrumentverkopers zoals Agilent, Shimadzu, Thermo Fisher Scientific, Sciex en anderen bieden ook toegang tot honderden toepassingsnotities, die als samenvattende methoden kunnen worden beschouwd. Deze studie heeft een op chemie gebaseerde database ontwikkeld met methoden waarin chemicaliën worden geëxtraheerd uit methodedocumenten, waarbij identificatiegegevens (namen en/of registratienummers van de Chemical Abstracts Service (CASRN)) worden toegewezen aan chemische structuren. De resulterende database, die ongeveer 7.000 methoden bevat, is doorzoekbaar op identificatie, chemische structuur en structurele gelijkenis, en wordt aangevuld met ongeveer een miljoen spectra uit het publieke domein (LC/MS, GC/MS, NMR en IR). De applicatie ondersteunt het doorzoeken van analytische methoden en het filteren op basis van analyten, functioneel gebruik, methodebronnen en andere gerelateerde metadata.
Webgebaseerde levering van chemiegegevens aan de gemeenschap wordt geïllustreerd door toepassingen zoals PubChem1, ChemSpider2 en het CompTox Chemicals Dashboard (CCD)3. Er zijn inspanningen geleverd om details van analytische methoden te verspreiden die zijn gepubliceerd in tijdschriftartikelen, die door instrumentverkopers zijn vrijgegeven als technische toepassingsnotities, die door overheidsinstanties zijn verstrekt als standaard operationele procedures of regelgevende methoden, en die zijn uitgegeven door normalisatie-organisaties zoals de International Organization for Standardization (ISO). Tienduizenden chemicaliën zijn door deze bronnen bestudeerd onder een breed scala aan omstandigheden en analytische technieken. Dit uitgebreide scala aan bronnen omvat diverse stoffen en omvat scenario's variërend van de kwantificering van een enkele chemische stof in een specifieke matrix (bijv. bloed), tot mengsels van pesticiden en hun residuen in specifieke gewassen, tot honderden chemicaliën die in drinkwater zijn geïdentificeerd. Hoewel veel analytische methoden via openbare zoekmachines kunnen worden ontdekt, zijn ze niet allemaal vrij beschikbaar of vrij toegankelijk.
Het vinden van specifieke interessante informatie kan een uitdaging zijn. Zoekmachines voor algemeen gebruik zijn niet geoptimaliseerd voor scheikundegegevens en hun rangschikkingsalgoritmen kunnen inhoud van hoge kwaliteit verbergen die bedoeld is voor een beperkt publiek. Zoekopdrachten op websites van tijdschriften kunnen meer gerichte resultaten opleveren, maar de toegang is vaak beperkt, met alleen samenvattingen die openbaar beschikbaar zijn, waardoor het moeilijk is om het nut van een methode te beoordelen. Bovendien worden kritische parameters, zoals steekproefmatrices, detectielimieten en kwantificering, vaak niet in een gestructureerd formaat opgeslagen. Een andere belangrijke uitdaging ligt in de variatie en inconsistentie van chemische identificatiemiddelen, namen en synoniemen die verband houden met een enkele chemische stof. Het gebrek aan gestructureerde methoden, gegevens beperkt de ontwikkeling van softwaretools die gebruik kunnen maken van tientallen jaren opgebouwde analytische scheikundige kennis en gerelateerde publicaties.
Als gevolg van deze uitdagingen en beperkingen is er behoefte aan een gecureerde, chemie-georiënteerde toepassing voor het harmoniseren en doorzoeken van analytische methoden - een die nergens anders is geïdentificeerd. Om deze kloof te dichten, heeft het Amerikaanse Environmental Protection Agency AMOS ontwikkeld, de database Analytical Methods and Open Spectra en de webgebaseerde applicatie. AMOS verzamelt en organiseert momenteel drie soorten gegevensbestanden: analytische methoden, verschillende analytische spectra en een brede categorie aanvullende documenten die gezamenlijk factsheets worden genoemd. Elk record is gekoppeld aan de chemische analyten en reagentia van de methode. De gegevens zijn op meerdere manieren doorzoekbaar, onder meer door middel van tekstquery's, chemische structuur en structurele of spectrale gelijkenis.
De AMOS-applicatie richt zich primair op het leveren van open access en open data records. Waar mogelijk worden records in de database gehyperlinkt naar hun oorspronkelijke bronnen. Records die niet onder een open licentie vallen en daarom niet rechtstreeks in de database zijn opgeslagen, kunnen nog steeds worden geïntegreerd en toegankelijk zijn via URL, op voorwaarde dat ze anderszins beschikbaar zijn. Dit geldt voor twee soorten records: analytische methoden die zich achter betaalmuren bevinden, meestal van tijdschriften of standaardisatie-instellingen waartoe de EPA toegang heeft, en spectra die beschikbaar zijn maar inlogtoegang vereisen.
Gegevensbronnen variëren in de manier waarop records zijn gestructureerd, waardoor aanzienlijke inspanningen nodig zijn op het gebied van extractie en curatie om de inhoud samen te stellen en te harmoniseren. De meeste records bevatten stof-ID's (bijv. CASRN, DTXSID, InChIKey, veelvoorkomende namen), en in veel gevallen is extractie eenvoudig. Het kan echter complex zijn om deze identificatiegegevens te koppelen aan chemische structuren en stofdetails. Sommige identificatiegegevens kunnen rechtstreeks worden gekoppeld aan vermeldingen in de Distributed Structure-Searchable Toxicity (DSSTox)-database van de EPA4; Wanneer er geen overeenkomsten worden gevonden, worden identificatiecodes gekoppeld aan bestaande stoffen of worden nieuwe stoffen geregistreerd. Het AMOS-initiatief heeft vervolgens geleid tot de uitbreiding van de DSSTox-database, waardoor de fundamentele gegevens ter ondersteuning van andere EPA-databases en -toepassingen, zoals het CompTox Chemicals Dashboard3, zijn verbeterd.
Handmatige curatie is vereist voor bepaalde waardevolle aanvullende informatie. Voor analytische methoden zijn experimentele parameters zoals detectie- en kwantificeringslimieten, monstermatrix en analytische methodologie niet op een gestandaardiseerde manier georganiseerd, en geautomatiseerde tools kunnen deze informatie niet identificeren vanwege de inconsistente opslag.
Twee elementen van de registratie-informatie, de media die bij het monster horen en het functionele gebruik van de analyt, zijn zeer relevant voor de voortdurende inspanningen om de gevaren en blootstellingsproblemen van verontreinigende stoffen te monitoren. Als zodanig werd veel aandacht besteed aan het structureren van deze attributen binnen de recordgegevens. Voor dit project werd een ontologie van functionele gebruiksclassificaties ontwikkeld. Deze ontologie organiseert het functionele gebruik van stoffen in een hiërarchische structuur, variërend van meer algemeen 'ouder'-gebruik tot meer specifiek 'kind'-gebruik. De ontologie vergemakkelijkt de verkenning van stoffen vanuit een toepassingsperspectief en ondersteunt onderzoeksinitiatieven die de nadruk leggen op functioneel gebruik als middel om blootstelling en gevaar te beoordelen 5,6. Bovendien werden de methoden gelabeld op basis van de categorie geharmoniseerde media van hun monsters, zoals gespecificeerd in de multimediamonitoringdatabase van de EPA (MMDB)7. Deze categorisering maakt het mogelijk om naar chemicaliën te zoeken op basis van hun voorkomen in specifieke media, waardoor de ontwikkeling van oplossingen wordt gestroomlijnd die gericht zijn op het detecteren van chemicaliën in specifieke milieu- of biologische monsters. Deze annotaties verbeteren de integratie van AMOS in blootstellings- en gevarengeoriënteerde workflows die in ontwikkeling zijn binnen de EPA.
Bij het samenstellen van de spectra vereist de uitdaging van het verwerken van verschillende bestandsindelingen - waarvan sommige alleen nominaal gestandaardiseerd zijn - en het parseren van bijbehorende metadata vaak een aangepaste behandeling. In gevallen waarin spectrale verzamelingen zijn gekoppeld aan een publicatie, moeten de details die in de publicatie zijn gedocumenteerd mogelijk handmatig worden geëxtraheerd om gegevens te laden. Deze inspanning heeft geresulteerd in een database die deze ongelijksoortige spectra integreert en structureert, waardoor onderzoekers de noodzaak van moeizame curatie bij toekomstige inspanningen kunnen vermijden.
Vanaf maart 2025 bevat de database ongeveer 935.000 spectra, waarvan bijna 99% massaspectra en kleinere verzamelingen NMR (~2.000) en IR (~400). Daarnaast zijn er ongeveer 770.000 extern gekoppelde spectra (verbonden met de SpectraBase-database8), ~36.000 factsheets en ~7.400 analytische methoden. De stoffen die in de applicatie zijn geïntegreerd, zijn een subset van die uit de DSSTox-database, die is opgenomen in het CompTox Chemicals Dashboard (CCD) en meer dan 1,2 miljoen stoffen bevat.
Het grootste deel van de functionaliteit van AMOS kan worden onderverdeeld in drie categorieën: zoeken naar records voor bepaalde stoffen, zoeken naar bepaalde collecties van stoffen of zoeken tussen categorieën records. De afzonderlijke pagina's voor deze functionaliteiten zijn allemaal toegankelijk via de navigatiebalk bovenaan elke pagina. De applicatie wordt momenteel op https://hcd.rtpnc.epa.gov/#/ uitgerold via de AMOS-module. De softwaretools die in dit onderzoek zijn gebruikt, staan vermeld in de Materiaaltabel.
1. Zoeken naar records voor specifieke stoffen

Figuur 1: Zoekresultaten voor records die cholesterol bevatten. Een algemene zoekopdracht naar "cholesterol" toont een lijst met overeenkomende records in de tabel (links). Het massaspectrum van een geselecteerde record wordt aan de rechterkant weergegeven. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 2: Interface voor batchzoekopdrachten. Het zoekveld bevat twee stoffen die worden geïdentificeerd door hun DTXSID's. De standaardzoekopties zijn geselecteerd voor de zoekopdracht. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Structuur van de zoekresultaten voor 1P-LSD. De tabel geeft een overzicht van methoden die structureel vergelijkbare stoffen bevatten. Aan de rechterkant wordt een geselecteerde methode weergegeven. Er zijn geen vetgedrukte vermeldingen in de tabel die aangeven dat 1P-LSD in geen enkele vermelde methode voorkomt. Klik hier om een grotere versie van deze figuur te bekijken.
2. Zoeken naar stoffen

Figuur 4: Zoekresultaten van de ClassyFire-classificatie. De resultaten omvatten informatie op stofniveau en het aantal records per indelingsgroep. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 5: Zoekresultaten voor gedeeltelijke identificatiecodes voor 'trazine'. Bij het zoeken worden stoffen gevonden met voorkeursnamen of synoniemen die de subtekenreeks 'trazine' bevatten. Twee van de drie resultaten bevatten "trazine" alleen in hun synoniemen, niet in hun voorkeursnamen. Klik hier om een grotere versie van deze figuur te bekijken.
3. Records doorzoeken

Figuur 6: Gefilterde lijst van analytische methoden. De tabel is gefilterd op analyt en matrix, waarbij alleen methoden worden weergegeven die verband houden met PFAS (per- en polyfluoralkylstoffen) in water. De bijbehorende lijst met factsheets lijkt sterk op deze lay-out. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 7: Zoekresultaten voor spectrumgelijkenis. Als input wordt een cafeïnespectrum uit de AMOS-database gebruikt. Vergelijkbare spectra zijn gegroepeerd per stof, met een maximale gelijkenisscore van 1,0. De gespiegelde grafiek toont het invoerspectrum (boven) en een geselecteerd databasespectrum (onder). Lichtblauwe pieken zijn uniek voor de invoer, oranje pieken voor de database komen overeen en donkerblauwe pieken worden gedeeld. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 8: Visualisatie van classificatie van functioneel gebruik. De hiërarchische structuur wordt weergegeven met de cursor die over het knooppunt "industriële chemicaliën" zweeft (geel omlijnd). De kinderklassen zijn groen omlijnd. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 9: Visualisatie van het ternaire perceel van de bodem. De grafiek geeft samenstellingsgegevens voor grondmonsters weer. Een tooltip in de rechterbovenhoek toont de precieze samenstelling van het gebied dat momenteel onder de cursor staat. Klik hier om een grotere versie van deze figuur te bekijken.
De hierboven getoonde screenshots van AMOS tonen typische resultaten van de afzonderlijke zoekopdrachten in de toepassing, zowel bij het zoeken naar interessante stoffen als tussen spectra, factsheets en methoden. De verscheidenheid aan manieren om de database te ondervragen is bedoeld om de meest waarschijnlijke en meest bruikbare soorten zoekopdrachten te dekken op een manier die dieper onderzoek mogelijk maakt naar de gegevens en de stoffen waarop ze betrekking hebben.
Om een gebruiker te helpen bij het zoeken, is een groot deel van de functionaliteit met elkaar verbonden op manieren die bedoeld zijn om dieper onderzoek van de beschikbare gegevens te ondersteunen. Als voorbeeldworkflow is de visualisatie van de classificatie voor functioneel gebruik gekoppeld aan weergaven van de methoden en factsheets die betrekking hebben op die functionele klasse, waaruit lijsten van stoffen kunnen worden geëxtraheerd en ingevoerd in de batchzoekopdracht, of individuele documenten kunnen worden onderzocht en individuele stoffen in die documenten verder kunnen worden onderzocht. Aangezien veel stoffen in methoden ook experimentele massaspectra in de database hebben, kan een onderzoeker hierdoor snel van een categorie stoffen naar een reeks methoden en spectra gaan die kunnen testen op de aanwezigheid van een specifieke stof (zie figuur 9).
Aangezien de resultaten sterk afhangen van waarnaar wordt gezocht en welke zoekopdracht of zoekopdrachten worden uitgevoerd, zijn representatieve resultaten voor de hele applicatie moeilijk te definiëren. Over het algemeen kan het nauwkeuriger zijn om een "succes" te beschrijven in termen van gebruikerservaring; In dat geval is het te hopen dat het volgende over het algemeen waar zal zijn: dat de methoden van zoeken en filteren (en de mogelijkheid om tussen verschillende zoekopdrachten en filters te schakelen) effectief zijn bij het identificeren van welke subsets van informatie een gebruiker wil; dat de resultaten die de gebruiker vindt nauwkeurig en nuttig zijn. Figuur 10 toont een voorbeeldworkflow die AMOS-functionaliteiten demonstreert.

Figuur 10: Voorbeeld van een workflow die de AMOS-functionaliteiten demonstreert. De workflow begint met een classificatie voor functioneel gebruik (respiratoire geneesmiddelen), filtert methoden met betrekking tot respiratoire geneesmiddelen in bloed, onderzoekt een specifieke methode en identificeert spectra voor een stof die in die methode is opgenomen. Klik hier om een grotere versie van deze figuur te bekijken.
Hoewel veel projecten en toepassingen zich richten op het verzamelen en standaardiseren van informatie uit een enkel type record, zoals methoden, factsheets of een specifiek soort spectra, is AMOS de eerste geïdentificeerde tool die grote hoeveelheden informatie verzamelt en integreert in meerdere recordtypen. De unificatie, harmonisatie en structurering van gegevens uit deze verschillende bronnen resulteren in een database die gemakkelijker kan worden opgenomen in workflows die toegang tot analytische chemiemethodologieën vereisen. De mogelijkheid om de database op verschillende complementaire manieren te doorzoeken, maakt het mogelijk om efficiënt informatie op te halen die anders veel handmatige inspanning zou vereisen op meerdere websites of tools.
Vóór de publieke release werd het nut van AMOS gedemonstreerd door het gebruik ervan door EPA-personeel om een breed scala aan projecten te ondersteunen. De EPA heeft een aanhoudende interesse in de toepassing van massaspectrometrie voor niet-gerichte analyse10,11, en meerdere initiatieven hebben de experimentele massaspectra in AMOS gebruikt om zoekopdrachten te verbeteren tegen een grote in silico spectrale bibliotheek die is gegenereerd uit DSSTox-chemicaliën12,13. Andere projecten hebben het zoeken naar structurele gelijkenis gebruikt om startpunten te identificeren voor het ontwikkelen van nieuwe methoden, bestaande methoden onderzocht om detectie- en kwantificeringslimieten te beoordelen, en verzamelingen chemicaliën geanalyseerd die zijn gekoppeld aan methoden om de mate van dekking van de chemische ruimte te evalueren.
De aggregatie van potentiële trainingsgegevens door AMOS ondersteunt verder de ontwikkeling van kwantitatieve modellen van geschiktheid voor analytische methoden14, een kernbehoefte voor het bevorderen van workflows voor niet-gerichte analyse (NTA). De curatie-inspanningen binnen AMOS vergemakkelijken ook initiatieven om chemische ruimtes te modelleren, te verkennen en te visualiseren die verband houden met methodologische dekking14.
Hoewel de kernfunctionaliteit van AMOS volwassen is, wordt de voortdurende ontwikkeling geleid door feedback van gebruikers. Huidige taken zijn onder meer het opnemen van aanvullende gegevens, het beheren van verdere metadata voor verbeterde filtering en het uitbreiden van zoekmogelijkheden. In samenwerking met EPA-belanghebbenden zijn Application Programming Interfaces (API's) in ontwikkeling om programmatische toegang mogelijk te maken, waarbij gebruiksscenario's worden aangepakt waarin de grafische gebruikersinterface (GUI) inefficiënt kan zijn. Er is een pagina met release-opmerkingen in de applicatie geïntegreerd om code-updates in de loop van de tijd bij te houden en te communiceren.
Nieuwe gegevensrecords en chemicaliën worden momenteel wekelijks toegevoegd; Er wordt echter een langzamer releaseschema verwacht na de publieke lancering. Hoewel er aanzienlijke inspanningen worden geleverd om de nauwkeurigheid van records en bijbehorende metadata te waarborgen, is een groot deel van de gegevens afkomstig uit openbare databases. Als zodanig is volledige verificatie van elk record niet haalbaar en moeten gebruikers zich ervan bewust zijn dat absolute nauwkeurigheid van de gegevens niet kan worden gegarandeerd.
Dit document vertegenwoordigt niet noodzakelijkerwijs de standpunten of het beleid van het Amerikaanse Environmental Protection Agency.
De auteurs bedanken het curatieteam voor al hun werk bij het samenstellen van chemicaliën voor de database, en Joshua Powell, Asif Rashid en Freddie Valone voor technische ondersteuning bij de bouw en implementatie van AMOS. We danken ook Charles Lowe voor zijn recensie van het manuscript.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Git | N/A | https://git-scm.com/ | Open-source version control system. |
| JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
| PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
| Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Request permission to reuse the text or figures of this JoVE article
Request Permission