$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
La entrega de datos químicos a la comunidad basada en la web se ejemplifica con aplicaciones como PubChem1, ChemSpider2 y CompTox Chemicals Dashboard (CCD)3. Se han hecho esfuerzos para hacer circular los detalles de los métodos analíticos publicados en artículos de revistas, publicados por los proveedores de instrumentos como notas técnicas de aplicación, proporcionados por agencias gubernamentales como procedimientos operativos estándar o métodos regulatorios, y emitidos por organizaciones de normalización como la Organización Internacional de Normalización (ISO). Decenas de miles de productos químicos han sido estudiados por estas fuentes bajo una amplia gama de condiciones y técnicas analíticas. Este extenso cuerpo de fuentes abarca diversas sustancias e incluye escenarios que van desde la cuantificación de un solo producto químico en una matriz específica (por ejemplo, sangre), hasta mezclas de plaguicidas y sus residuos en cultivos específicos, hasta cientos de productos químicos identificados en el agua potable. Si bien muchos métodos analíticos se pueden descubrir a través de motores de búsqueda públicos, no todos están disponibles de forma gratuita o son de acceso abierto.
Localizar información específica de interés puede ser un desafío. Los motores de búsqueda de propósito general no están optimizados para datos de química, y sus algoritmos de clasificación pueden oscurecer el contenido de alta calidad destinado a audiencias limitadas. Las búsquedas en los sitios web de revistas pueden arrojar resultados más específicos, pero el acceso a menudo es restringido, ya que solo los resúmenes están disponibles públicamente, lo que dificulta la evaluación de la utilidad de un método. Además, los parámetros críticos, como las matrices de muestras, los límites de detección y la cuantificación, a menudo no se almacenan en un formato estructurado. Otro desafío importante radica en la variación e inconsistencia de los identificadores, nombres y sinónimos químicos asociados con un solo producto químico. La falta de datos de métodos estructurados limita el desarrollo de herramientas de software que podrían aprovechar décadas de conocimiento acumulado en química analítica y publicaciones relacionadas.
Como resultado de estos desafíos y limitaciones, existe la necesidad de una aplicación curada y orientada a la química para armonizar y buscar métodos analíticos, una que no se identificó en ningún otro lugar. Para abordar esta brecha, la Agencia de Protección Ambiental de los Estados Unidos (EPA, por sus siglas en inglés) desarrolló AMOS, la base de datos de Métodos Analíticos y Espectros Abiertos y una aplicación basada en la web. En la actualidad, AMOS recopila y organiza tres tipos de registros de datos: métodos analíticos, diversos espectros analíticos y una amplia categoría de documentos complementarios denominados colectivamente hojas informativas. Cada registro está vinculado a los analitos y reactivos químicos objetivo del método. Los datos se pueden buscar de múltiples maneras, incluidas las consultas de texto, la estructura química y la similitud estructural o espectral.
La aplicación AMOS se centra principalmente en la entrega de registros de datos y acceso abiertos. En la medida de lo posible, los registros de la base de datos tienen hipervínculos a sus fuentes originales. Los registros que no están bajo licencia abierta y, por lo tanto, no se almacenan directamente en la base de datos, aún se pueden integrar y acceder a ellos a través de una URL, siempre que estén disponibles de otra manera. Esto se aplica a dos tipos de registros: los métodos analíticos que están detrás de muros de pago, generalmente de revistas u organizaciones de estándares a los que la EPA tiene acceso, y los espectros que están disponibles pero requieren acceso de inicio de sesión.
Las fuentes de datos varían en la forma en que se estructuran los registros, lo que requiere un esfuerzo sustancial de extracción y conservación para ensamblar y armonizar el contenido. La mayoría de los registros proporcionan identificadores de sustancias (por ejemplo, CASRN, DTXSID, InChIKey, nombres comunes) y, en muchos casos, la extracción es sencilla. Sin embargo, hacer coincidir estos identificadores con las estructuras químicas y los detalles de las sustancias puede ser complejo. Algunos identificadores pueden coincidir directamente con las entradas de la base de datos de la EPA Distributed Structure-Searchable Toxicity (DSSTox)4; Cuando no se encuentran coincidencias, los identificadores se vinculan a sustancias existentes o se registran nuevas sustancias. En consecuencia, la iniciativa AMOS ha llevado a la expansión de la base de datos DSSTox, mejorando los datos fundamentales que respaldan otras bases de datos y aplicaciones de la EPA, como CompTox Chemicals Dashboard3.
La curación manual es necesaria para cierta información adicional valiosa. En el caso de los métodos analíticos, los parámetros experimentales, como los límites de detección y cuantificación, la matriz de muestras y la metodología analítica, no están organizados de forma estandarizada, y las herramientas automatizadas no pueden identificar esta información debido a su almacenamiento inconsistente.
Dos elementos de la información de registro, el medio asociado con la muestra y el uso funcional del analito, son muy relevantes para los esfuerzos en curso para monitorear los problemas de peligro y exposición a los contaminantes. Como tal, se prestó considerable atención a la estructuración de estos atributos dentro de los datos de registro. Para este proyecto se desarrolló una ontología de clasificaciones de uso funcional. Esta ontología organiza los usos funcionales de las sustancias en una estructura jerárquica, que va desde los usos "padres" más generales hasta los usos "secundarios" más específicos. La ontología facilita la exploración de sustancias desde una perspectiva de aplicación, apoyando iniciativas de investigación que enfatizan los usos funcionales como un medio para evaluar la exposición y el peligro 5,6. Además, los métodos se etiquetaron de acuerdo con la categoría de medios armonizados de sus muestras, según lo especificado en la base de datos de monitoreo multimedia (MMDB) de la EPA)7. Esta categorización permite la búsqueda de sustancias químicas en función de su presencia en medios específicos, agilizando el desarrollo de soluciones centradas en la detección de sustancias químicas en muestras ambientales o biológicas específicas. Estas anotaciones mejoran la integración de AMOS en los flujos de trabajo orientados a la exposición y los peligros que se están desarrollando dentro de la EPA.
Al ensamblar los espectros, el desafío de procesar varios formatos de archivo, algunos de los cuales solo están nominalmente estandarizados, y analizar los metadatos que los acompañan a menudo requiere un manejo personalizado. En los casos en los que las colecciones espectrales están vinculadas a una publicación, es posible que sea necesario extraer manualmente los detalles documentados en la publicación para la carga de datos. Este esfuerzo ha dado como resultado una base de datos que integra y estructura estos espectros dispares, lo que permite a los investigadores evitar la necesidad de una curación laboriosa en futuros esfuerzos.
A partir de marzo de 2025, la base de datos contiene aproximadamente 935,000 espectros, de los cuales casi el 99% son espectros de masas y colecciones más pequeñas de RMN (~2,000) e IR (~400). Además, hay aproximadamente 770.000 espectros enlazados externamente (conectados a la base de datos SpectraBase8), ~36.000 hojas informativas y ~7.400 métodos analíticos. Las sustancias integradas en la aplicación son un subconjunto de las de la base de datos DSSTox, que está incorporada en el CompTox Chemicals Dashboard (CCD) y contiene más de 1,2 millones de sustancias.