Minería de conjuntos de datos de transcriptómica espacial mediante DeepSpaceDB

Nupura Prabhune; Yilin Du; Afeefa Zainab; Satoru Ebihara; Shinji Takeoka; Shinpei Kawaoka; Alexis Vandenbon

doi:10.3791/68892

Method Article

Minería de conjuntos de datos de transcriptómica espacial mediante DeepSpaceDB

DOI:

10.3791/68892

⸱

September 5th, 2025

Nupura Prabhune¹^,² , Yilin Du¹^,³ , Afeefa Zainab⁴ , Satoru Ebihara³ , Shinji Takeoka² , Shinpei Kawaoka¹^,⁵ , Alexis Vandenbon⁴^,⁶

¹Department of Integrative Bioanalytics, Institute of Development, Aging and Cancer, Tohoku University, ²Department of Life Science and Medical Bioscience, Graduate School of Advanced Science and Engineering, Waseda University, ³Department of Rehabilitation Medicine, Tohoku University Graduate School of Medicine, ⁴Institute for Life and Medical Sciences, Kyoto University, ⁵Inter-Organ Communication Research Team, Institute for Life and Medical Sciences, Kyoto University, ⁶Institute for Liberal Arts and Sciences, Kyoto University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este artículo presenta un protocolo para usar DeepSpaceDB, una base de datos dinámica e interactiva para transcriptómica espacial, que ofrece flujos de trabajo de análisis y ejemplos para explorar la organización de tejidos y la expresión génica relacionada con enfermedades.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La transcriptómica espacial es una tecnología en rápida evolución que permite la captura de patrones de expresión génica en muestras de tejido mientras se preserva la información posicional. Tiene una amplia gama de aplicaciones en investigación biológica y bioinformática, lo que permite a los investigadores investigar y rastrear variaciones espaciales en la expresión génica en diferentes tejidos, afecciones y enfermedades. Con el análisis de datos de transcriptómica espacial ganando terreno, la cantidad de conjuntos de datos disponibles públicamente está aumentando. Sin embargo, la transcriptómica espacial sigue siendo una técnica experimental altamente especializada, con importantes limitaciones técnicas y financieras. Para facilitar el acceso a los datos espaciales, hemos desarrollado recientemente DeepSpaceDB, una base de datos completa y dinámica para la exploración de datos transcriptómicos espaciales. Este artículo presenta flujos de trabajo detallados que describen los componentes de la base de datos y su navegación con la ayuda de algunos ejemplos. Primero, se demuestra el análisis de una muestra de cerebro de ratón, explorando indicadores de calidad, genes y vías espacialmente variables y variaciones de expresión génica entre el hipocampo y el hipotálamo. A continuación, se explora más a fondo la identificación y anotación de genes expresados diferencialmente asociados con la actividad inmune comparando regiones metastásicas de origen colorrectal con áreas distantes de tejido sano en hígados murinos. DeepSpaceDB, con sus herramientas avanzadas y funciones interactivas, sirve como un recurso valioso para la investigación de la transcriptómica espacial, lo que permite una exploración más profunda de la organización de los tejidos y la biología de la enfermedad.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La transcriptómica espacial es una nueva tecnología que permite a los investigadores analizar la expresión génica mientras retienen información espacial dentro de una sección de tejido, lo que permite el estudio de la arquitectura del tejido, la heterogeneidad celular y las influencias microambientales con una resolución sin precedentes ^1,2. Sin embargo, a pesar del potencial de esta tecnología, el acceso y el análisis siguen siendo limitados, la transcriptómica espacial tiene un costo prohibitivo para muchos laboratorios y el análisis de datos requiere habilidades bioinformáticas avanzadas.

El desarrollo de bases de datos públicas es una forma de ampliar el acceso a esta modalidad experimental emergente. Se han creado varias bases de datos de transcriptómica espacial. El primero fue SpatialDB, pero contiene solo un número limitado de muestras y no se ha actualizado³. Las bases de datos SODB, SOAR y STOmicsDB incluyen un gran número de muestras de muchas plataformas diferentes y cumplen un gran papel como repositorios de datos ^4,5,6. Sin embargo, las herramientas de análisis son limitadas y carecen de interactividad. Para abordar este problema, hemos desarrollado recientemente DeepSpaceDB, una base de datos seleccionada y fácil de usar de conjuntos de datos de transcriptómica espacial disponibles públicamente diseñada para reducir las barreras técnicas y ampliar la accesibilidad⁷. Este artículo ilustra varias herramientas en esta base de datos, incluida la búsqueda en la base de datos, la inspección de la calidad de la muestra, las herramientas de visualización y la comparación de regiones seleccionadas interactivamente dentro de cortes de tejido. Presenta protocolos detallados utilizando dos ejemplos representativos: el análisis de una muestra de cerebro de ratón y un hígado murino con metástasis colorrectales para demostrar estas herramientas en contextos prácticos. A través de estas herramientas, DeepSpaceDB permite a una gama más amplia de investigadores aprovechar la transcriptómica espacial sin necesidad de sus propios datos o capacidad bioinformática interna. Honcharuk et al⁷ proporcionan en detalle una descripción completa de la recopilación de datos, el control de calidad, el flujo de trabajo de procesamiento, así como los datos y las características incluidas en DeepSpaceDB.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Ejemplo 1: Análisis de una muestra de cerebro de ratón

NOTA: En esta sección, se ilustra el análisis de una muestra de cerebro de ratón, navegando a través de las diferentes características y gráficos disponibles en DeepSpaceDB (un enlace a la base de datos está disponible en la Tabla de materiales).

Selección de muestras
1. Haga clic en la pestaña Base de datos y use el filtro para seleccionar el organismo ratón, el órgano cerebro y la fuente zenodo. Desplácese por las muestras resultantes y seleccione DSID001557 muestra. Como alternativa, use el cuadro de búsqueda para buscar en la base de datos el término "DSID001557" y seleccione este ejemplo.
2. Haga clic en la muestra y confirme la descripción como 2 ×^{10 6} células en 100 μL de solución salina-NK (inyección intravenosa una vez a la semana para un total de 5 veces).
Análisis de calidad
1. Haga clic en la pestaña Calidad para evaluar la calidad de la muestra seleccionada. En el menú desplegable de medidas de calidad , seleccione diferentes opciones como Genes detectados (Figura 1A), Recuento de lectura (Figura 1B) y Mito (Figura 1C), para visualizar los parámetros respectivos en cada punto del segmento de muestra.
Anotación de imagen
1. Vaya a la pestaña Anotación de imagen para identificar las diferentes regiones del sector de muestra.
2. Mueva el cursor del mouse sobre el sector de muestra. Las anotaciones predichas por un modelo de lenguaje grande (LLM) se muestran para partes de la imagen de muestra de una manera basada en cuadrícula, con información sobre la anatomía y la condición^{asociada 8}.
Análisis de conglomerados
1. Para obtener una comprensión más profunda de los clústeres de tipos de celda en el segmento de muestra, vaya a la pestaña Clústeres . Se mostrará una incrustación 2D de los clústeres, junto con una representación de clústeres codificados por colores en los puntos del segmento de muestra (Figura 1E).
Genes y vías espacialmente variables
1. Navegue a la pestaña Genes y tome nota de los genes espacialmente variables (SVG; genes cuyos niveles de expresión difieren según las ubicaciones del tejido) en la muestra ^9,10. Estos SVG se predicen utilizando la función singleCellHaystack, que adopta la medida de divergencia de Kullback-Leibler (D_KL en la tabla) para evaluar qué tan distinto es el patrón de expresión de cada gen de lo que se esperaría al azar (Figura 2). Los genes con un valor p bajo (log.p.adj negativo grande en la tabla) se enumeran como SVG.
  NOTA: Los datos de expresión génica se normalizaron utilizando los parámetros predeterminados utilizados en el paquete¹¹ de Seurat R (versión 5). En la práctica, las lecturas de cada gen en cada punto se dividieron por el recuento total de lecturas en ese lugar y se multiplicaron por el factor de escala 10,000. A continuación, se calculó el logaritmo natural después de la adición de 1, para evitar problemas con log(0). El gráfico que se muestra en la pestaña Genes muestra estos datos normalizados.
2. Haga clic en algunos de los principales genes de la lista. Esto genera un gráfico espacial para los genes en el corte de tejido, con puntos codificados por colores para el nivel de expresión (Figura 2). Los genes con la puntuación más alta tienen patrones espaciales de expresión claramente distintos.
3. Vaya a la pestaña Vías para inspeccionar la actividad de conjuntos de genes (por ejemplo, genes asociados con una vía biológica común) en lugar de genes individuales. Las vías espacialmente variables se enumeran de manera similar a los SVG discutidos anteriormente (Figura 3). Las actividades de la vía se estiman en función de los niveles de expresión de los genes asociados a ellas ^7,11.
  NOTA: Las actividades de la ruta se estimaron utilizando la función del paquete Seurat R addModuleScore¹¹. En resumen, esta función toma como entrada un conjunto de genes (por ejemplo, un conjunto de genes involucrados en una vía común) y devuelve sus niveles de expresión promedio, después de varios pasos de procesamiento. En la práctica, los valores positivos implican una actividad superior a la media, y los valores negativos una actividad inferior a la media. El gráfico que se muestra en la pestaña Rutas muestra los datos de puntuación de este módulo.
4. Haga clic en algunas de las rutas principales de la lista. Esto genera un gráfico espacial para las vías a través del corte de tejido, con puntos codificados por colores para el nivel de actividad. Varias vías tienen distintos patrones espaciales de actividad (Figura 3).
Comparación de la expresión génica dentro de la muestra
1. Vaya a la pestaña Explorador de tejidos y seleccione Selección manual (si aún no se ha seleccionado). A continuación, use el cursor del mouse para seleccionar los puntos en la región del hipocampo de la rebanada de cerebro de ratón, en el lado izquierdo. Haga clic en el conjunto 1 y seleccione agregar al conjunto. Esto resaltará todos los puntos seleccionados en la rebanada del lado derecho (Figura 4A).
2. Ahora haga clic en el conjunto 2 y use el cursor del mouse para seleccionar los puntos en la región hipotalámica del corte de cerebro del ratón. Haga clic en agregar para establecer, lo que resaltará todos los puntos seleccionados en la rebanada en el lado derecho (Figura 4A).
3. Después de completar el proceso de selección de puntos, haga clic en el botón Comparar expresión génica . Esto generará una tabla con los valores promedio de expresión génica de los puntos seleccionados entre ambas regiones, junto con una representación de diagrama de dispersión. Mueva el cursor sobre puntos individuales para confirmar los nombres de los genes y la expresión promedio de genes en ambas regiones.
4. Con base en los resultados de la comparación de expresión génica, identifique los genes expresados diferencialmente y vuelva a navegar a la pestaña Genes para visualizar su expresión en el segmento de muestra (Figura 4B, C).
  NOTA: A través de los pasos detallados anteriormente, DeepSpaceDB se puede utilizar para investigar las características de una muestra de transcriptómica espacial de cerebro de ratón.

2. Ejemplo 2: Identificación y anotación de genes expresados diferencialmente asociados con la actividad inmune en regiones metastásicas de origen colorrectal en hígados de ratón

NOTA: En la sección actual se explora una comparación entre muestras. Esto se ilustra a través de la identificación y anotación de genes expresados diferencialmente entre regiones metastásicas de origen colorrectal y regiones distantes de tejido sano dentro de una sección hepática, basadas en dos muestras diferentes. La expresión espacial de genes específicos desregulados relevantes para la actividad inmune se visualiza más adelante en las secciones de tejido.

Navegación por la base de datos y selección de muestras
1. Haga clic en la pestaña Base de datos y use el filtro para seleccionar el organismo ratón, el órgano hígado y la afección cáncer. De las muestras resultantes, seleccione DSID001005 de muestra. Haga clic en la muestra y confirme la descripción indicando que la muestra es de un hígado de ratón que contiene metástasis de origen de cáncer colorrectal.
2. Vaya a la pestaña Explorador de tejidos y seleccione Selección manual. A continuación, utilizando el cursor del ratón, seleccione las manchas en la región tumoral (metástasis colorrectales) de la muestra hepática DSID001005, identificadas en función de la expresión positiva del marcador Epcam (Figura 5A). Haga clic en el conjunto 1 y seleccione agregar al conjunto. Esto resalta todos los puntos seleccionados en la rebanada del lado derecho (Figura 5C).
3. Ahora haga clic en el conjunto 2 y use el cursor del mouse para seleccionar los puntos en la región distante no tumoral de la muestra de hígado. Haga clic en agregar para establecer, lo que resaltará todos los puntos seleccionados en la rebanada en el lado derecho (Figura 5C).
Comparación de la expresión génica entre puntos seleccionados
1. Después de completar el proceso de selección de puntos, haga clic en el botón Comparar expresión génica . Esto genera una tabla con los valores promedio de expresión génica de los puntos seleccionados entre ambas regiones, junto con una representación de diagrama de dispersión. Mueva el cursor del mouse sobre puntos individuales e inspeccione los nombres de los genes y la expresión promedio de genes en ambas regiones.
2. Para realizar un análisis más profundo con los datos de expresión génica, seleccione la opción Descargar CSV . Esto genera un archivo de valores separados por comas (CSV) de los datos de expresión génica para las dos regiones de la muestra.
3. Repita los pasos 2.1.1-2.1.3 y 2.2.1-2.2.2 para la muestra "DSID001007". Confirmar su descripción como otro corte de un hígado de ratón que contiene metástasis de origen de cáncer colorrectal.
Análisis de datos con programación R
1. Confirme que los pasos anteriores dieron como resultado 2 archivos CSV, uno de DSID001005 de muestra y otro de DSID001007 de muestra. Ambos archivos contienen 2 columnas que representan la expresión génica promedio en las 2 selecciones (tejido tumoral y tejido no tumoral) que se realizaron en cada muestra.
2. Lea los archivos CSV en R y combínelos para un análisis posterior posterior con dos réplicas por afección (es decir, región tumoral con metástasis de cáncer colorrectal y tejido sano distante en el hígado). Consulte el script de R y los archivos de datos en los materiales complementarios.
3. Utilice el paquete limma (versión 3.62.2) en R (versión 4.4.2)¹² para realizar un análisis de expresión diferencial de los datos, categorizando las regiones de metástasis colorrectales de ambas muestras como cáncer y las regiones distantes y sanas de ambas muestras como control. Obtenga los genes regulados al alza con un filtro de logFC > 0,5 y un valor p ajustado < 0,05. De manera similar, obtenga los genes regulados a la baja con un filtro de logFC < -0.5 y un valor p ajustado < 0.05.
  NOTA: Estos conjuntos de genes se utilizan para identificar las vías biológicas que se ven afectadas por el tumor en el siguiente paso (Figura 6A, B).
4. Utilice el paquete clusterProfiler (versión 4.14.6) en R¹³ para realizar el análisis de las vías de la Enciclopedia de Genes y Genomas de Kioto (KEGG)¹⁴ para los genes regulados a la baja y al alza. Con base en un filtro estricto de valor q < 0.05, identifique las vías significativas asociadas con los genes regulados a la baja y al alza. Centrarse en los genes asociados con vías inmunológicas, actividades inmunes o firmas relevantes (Figura 6B).
Minería de datos específicos de genes
1. A continuación, busque los nombres de los genes en la sección Genes espacialmente variables para confirmar la expresión espacial de los genes diana. Haga clic en el nombre de un gen para generar un gráfico espacial para el gen a través del corte de tejido, con puntos codificados por colores para el nivel de expresión (Figura 7).
2. Identificar genes específicos con patrones espaciales de expresión en el sitio de las metástasis colorrectales, frente al tejido hepático sano y distante. La relevancia funcional de los genes, o su expresión en otros órganos o afecciones, se puede explorar más a fondo en la base de datos.
3. Seleccione la pestaña Buscar y elija la especie como ratón. Haga clic en la opción de búsqueda por gen y escriba el nombre de un gen. Se mostrará una descripción general de la distribución de órganos y condiciones de los genes y se puede analizar más a fondo.
  NOTA: A través de los pasos detallados anteriormente, DeepSpaceDB se puede utilizar para investigar patrones de expresión génica entre regiones metastásicas y no metastásicas en muestras de transcriptómica espacial de hígado de ratón.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El ejemplo 1 demostró el análisis de una muestra de cerebro de ratón, validando parámetros como el recuento de lecturas, genes y vías espacialmente variables y variaciones de expresión génica entre el hipocampo y la corteza. Primero, la calidad de la muestra de cerebro de ratón DSID001557 se evaluó en función de varias medidas de calidad: "Genes detectados" (Figura 1A), "Recuento de lecturas" (Figura 1B) y "Mito" (el porcentaje de lecturas mitocondriales; Figura 1C). Esto destacó claramente una región con menor calidad en el lado izquierdo de la muestra cerebral, según el bajo número de genes detectados y el bajo recuento de lecturas. Para comprender la calidad relativa de la muestra en comparación con todas las demás muestras, se hizo clic en la pestaña Calidad relativa de la muestra en la base de datos, que mostraba un gráfico de Recuento frente a No. de genes detectados por mancha (Media). Para la muestra analizada, se detectaron entre 3500 y 4000 genes por punto (Figura 1D). Las características anatómicas de la muestra se analizaron más a fondo utilizando la pestaña Anotación de imagen . Como nota general, estas anotaciones se han generado cortando imágenes de tejido en partes más pequeñas y pidiendo a un LLM que describa las características observables⁸. Son indicaciones aproximadas para ayudar a la interpretación de la muestra y deben interpretarse con cuidado. Para un subconjunto de muestras (especialmente muestras de cáncer de mama humano), también están disponibles las anotaciones de un especialista humano. Sin embargo, teniendo en cuenta la menor calidad de las imágenes de Visium H&E en comparación con las imágenes utilizadas para el diagnóstico de rutina, las anotaciones proporcionadas son solo para fines de investigación. Para DSID001557 de muestra, mueva el cursor sobre las anotaciones mostradas en el segmento de las diferentes regiones del cerebro del ratón, como la región del hipocampo, las capas corticales, las capas celulares densas con gliosis, etc. A partir de la comprensión de las características anatómicas básicas del corte de muestra, se exploraron más a fondo características detalladas como grupos de tipos de células y genes y vías espacialmente variables. La muestra de cerebro de ratón tenía 15 grupos en total, que se representaron con códigos de colores en el segmento de muestra (Figura 1E). Algunos de los principales genes espacialmente variables asociados con la muestra son Nrgn, Slc17a7, Ly6h y Ddn (Figura 2). Nrgn exhibió alta expresión en la región del hipocampo, de acuerdo con la evidencia literaria que indica el papel de la proteína codificada por Nrgn (neurogranina) en la mediación de la plasticidad sináptica y el aprendizaje espacial¹⁵. Slc17a7, un gen que codifica para un transportador vesicular de glutamato crucial para la neurotransmisión en las neuronas glutaminérgicas¹⁶, y Ddn, un gen que codifica para una proteína que modula la estructura del citoesqueleto postsináptico¹⁷, también se expresaron en gran medida en la región del hipocampo. En contraste, la expresión del gen Ly6h se localizó en la región cortical, de acuerdo con la literatura que indica el papel sináptico restrictivo de Ly6h en las membranas de las células corticales¹⁸. De manera similar, se visualizó la actividad de las vías a través del segmento de muestra (Figura 3). Se observó que las vías espacialmente variables se activaban en concordancia con los roles funcionales de los genes espacialmente variables, con la regulación de la plasticidad sináptica y la actividad de los neurotransmisores en la región del hipocampo, y la señalización de neuropéptidos en la región cortical.

Finalmente, para identificar genes expresados diferencialmente entre la región del hipocampo y el hipotálamo de la muestra de cerebro de ratón, se utilizó la pestaña Tissue Explorer . Los puntos asociados con las regiones de interés se seleccionaron con la guía de la anotación de la imagen (Figura 4A). A partir del diagrama de dispersión generado, algunos de los genes expresados diferencialmente identificados se encontraban entre los principales genes espacialmente variables (Nrgn, Slc17a7, Ddn), además de algunos otros, como Pmch y Ttr. La expresión de estos genes se visualizó en el corte de la muestra. Pmch se sobreexpresó específicamente en la región hipotalámica lateral (Figura 4B; compare con el área verde seleccionada en la Figura 4A). Este gen codifica el precursor de la hormona concentradora de melanina, y está involucrado en el mantenimiento de la homeostasis energética¹⁹. Por el contrario, el gen Ttr se expresó específicamente en la región del hipocampo (Figura 4C; comparar con el área roja seleccionada en la Figura 4A), de acuerdo con su papel funcional en el aprendizaje y la memoria espacial²⁰. Al realizar comparaciones dentro de la muestra entre diferentes regiones del cerebro del ratón utilizando esta base de datos, pudimos resaltar las características funcionales específicas de la región basadas en la expresión génica espacial y la actividad de la vía.

En el ejemplo 2, la base de datos se utilizó para la identificación de firmas inmunes asociadas con metástasis colorrectales en el hígado. Se realizó una comparación intramuestra entre la región tumoral con metástasis colorrectales y el tejido hepático sano distante, mediante la selección de puntos apropiados para las dos muestras: DSID001005 (Figura 5A-C) y DSID001007 (Figura 5D-F). Los datos se volvieron a analizar con dos réplicas por afección utilizando R. El análisis de expresión diferencial realizado entre la región tumoral con metástasis colorrectal y el tejido hepático sano reveló la regulación a la baja de 138 genes y la regulación al alza de 115 genes, según los parámetros seleccionados (Figura 6A, B). El análisis de la vía KEGG demostró el enriquecimiento de las vías de los genes regulados a la baja, como el metabolismo de los fármacos y la carcinogénesis química (Figura 6C), mientras que los genes regulados al alza exhibieron firmas correspondientes a la migración transendotelial de leucocitos, la adhesión focal y el ciclo celular, entre otros (Figura 6D). Centrándonos en la relevancia de la migración transendotelial de leucocitos para la actividad inmune, se identificaron los principales genes detectados en la categoría y se observó su expresión espacial en DeepSpaceDB. Curiosamente, los genes Cldn7, Cldn4 y Actg1 detectados en la categoría de migración transendotelial de leucocitos, exhibieron una regulación positiva en la región tumoral (sitio Epcam⁺) de las muestras, y no en la región distante con tejido hepático sano (Figura 7). Esto proporcionó información sobre la naturaleza de la actividad inmune impulsada en el sitio del tumor del hígado, con el reclutamiento activo de leucocitos. En resumen, el análisis intramuestra utilizando DeepSpaceDB permite la extracción de diversos conocimientos biológicos. Al comparar los datos transcriptómicos espaciales a través de herramientas interactivas y flujos de trabajo de reanálisis, los investigadores pueden generar y validar hipótesis sobre la expresión génica específica del tejido y la heterogeneidad funcional.

figure-results-1
Figura 1: Medidas de calidad de la muestra. (A) Número de genes detectados, (B) recuento de lecturas y (C) porcentaje de lecturas mitocondriales por mancha. (D) El número promedio de genes detectados por punto en esta muestra, en comparación con la distribución de todas las demás muestras en la base de datos. (E) Detecte grupos a través del corte de tejido. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-2
Figura 2: Expresión de genes espacialmente variables superiores. (a) nrgn, (b) slc17a7, (c) ly6h y (d) ddn. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-3
Figura 3: Actividad de las vías espacialmente variables superiores. (A) Señalización de neuropéptidos, (B) Regulación de la plasticidad sináptica, (C) Transporte de neurotransmisores. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-4
Figura 4: Comparación de patrones de expresión génica entre dos regiones seleccionadas del cerebro del ratón. (A) Selección de puntos en regiones hipotalámicas e hipocampales para comparaciones dentro de la muestra. La región seleccionada 1 se muestra en rojo y la región 2 en verde. Patrones de expresión espacial de genes expresados diferencialmente (B) Pmch y (C) Ttr entre regiones hipotalámicas e hipocampales. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-5
Figura 5: Propiedades de dos muestras de hígado de ratón metastásico. Para DSID001005 muestras: (A) expresión del marcador Epcam , (B) grupos puntuales y (C) regiones seleccionadas en regiones cancerosas y distantes para comparaciones dentro de la muestra. Para DSID001007 muestras: (D) expresión del marcador Epcam , (E) grupos puntuales y (F) regiones seleccionadas en regiones cancerosas y distantes para comparaciones dentro de la muestra. Para ambas muestras, las manchas tumorales están en las regiones que se muestran en rojo y las manchas no tumorales están en las regiones que se muestran en verde. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-6
Figura 6: Resultados del reanálisis. (A) Resumen esquemático del flujo de trabajo utilizado en el reanálisis. (B) Gráfico de volcán que representa los genes expresados diferencialmente entre regiones cancerosas y distantes. Enriquecimiento de la vía KEGG de (C) genes regulados al alza y (D) genes regulados a la baja. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-7
Figura 7: Expresión espacial de genes. (A) Cldn7, (B) Cldn4 y (C) Actg1 en DSID001005 de corte de tejido. Expresión espacial de genes. (D) Cldn7, (E) Cldn4 y (F) Actg1 en el corte de tejido DSID001007. Haga clic aquí para ver una versión más grande de esta figura.

Archivos complementarios 1-4: Archivos de datos y script R para ejemplo de metástasis hepática. Haga clic aquí para descargar este archivo.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Aquí, presentamos dos protocolos integrales que describen la navegación, recuperación y análisis de datos transcriptómicos espaciales en DeepSpaceDB. Mientras que la mayoría de las bases de datos ómicas espaciales se centran en la recopilación de datos de un gran número de muestras, generadas utilizando varias plataformas 3,4,5,6, DeepSpaceDB se centra en el desarrollo de herramientas interactivas que permiten a los usuarios explorar de forma profunda y eficiente las características transcriptómicas espaciales. Para habilitar este nivel de funcionalidad, la versión actual se centra exclusivamente en la plataforma Visium. Con la aparición de plataformas de alta resolución, planeamos expandir DeepSpaceDB en consecuencia, desarrollando nuevas estrategias para el procesamiento e integración de dichos datos de una manera fácil de usar.

DeepSpaceDB permite a los usuarios evaluar las métricas de calidad de la muestra (por ejemplo, recuentos de genes, profundidad de lectura) y compararlas en conjuntos de datos. La base de datos incluye anotaciones de múltiples capas: agrupación no supervisada en toda la base de datos con etiquetas asignadas, detección basada en LLM de características estructurales y patológicas a partir de imágenes histológicas y anotaciones histológicas expertas para un subconjunto creciente de muestras. Además, los usuarios pueden seleccionar de forma interactiva regiones de interés dentro o entre muestras para comparar la expresión génica, lo que permite estudios de contrastes espaciales entre regiones como tumor versus estroma o regiones enfermas versus sanas. Tales características generalmente faltan en otras bases de datos 3,4,5,6. También están disponibles otras características, como genes y vías espacialmente variables, predicciones de tipo de célula y resultados de agrupación. En conjunto, esta base de datos reduce significativamente las barreras para explorar datos transcriptómicos espaciales. Las muestras de una amplia gama de tejidos y afecciones son de libre acceso, y los usuarios pueden navegar por ellas a través de simples interacciones de apuntar y hacer clic; no se requieren conocimientos avanzados de bioinformática. Dicho esto, es probable que se necesite algún conocimiento previo de los genes marcadores y la arquitectura del tejido para la interpretación precisa de los patrones de expresión y para seleccionar regiones de interés en la herramienta Tissue Explorer.

Aunque no se presenta aquí, los usuarios también pueden cargar sus propias muestras y aplicar muchas de las mismas herramientas para analizarlas. La base de datos también admite comparaciones entre muestras entre 2 cortes de tejido diferentes, lo que permite, por ejemplo, comparaciones entre tejidos enfermos y tejidos de control sanos. Finalmente, los datos sin procesar y procesados, junto con todos los resultados de análisis derivados, están disponibles para su descarga, lo que respalda los flujos de trabajo posteriores y los análisis personalizados. Para varias de estas herramientas, hay videos tutoriales cortos disponibles en la página de tutoriales de la base de datos.

Todavía hay aspectos de la base de datos que requieren mejoras. Una es la predicción precisa de los tipos de células y las composiciones de los tipos de células en cada ubicación dentro de los cortes de tejido. En la versión actual de DeepSpaceDB (versión 1.0), predijimos la composición del tipo de célula de cada punto de Visium utilizando un método llamado descomposición robusta del tipo de célula (RCTD)²¹. RCTD tuvo un desempeño relativamente bueno en un estudio de referencia reciente²². Las predicciones hechas por RCTD también podrían validarse experimentalmente en nuestro reciente estudio de los hígados de ratones portadores de cáncer²³. Sin embargo, no se ha realizado una evaluación exhaustiva de la precisión de las predicciones del tipo de célula. Un problema relacionado es que RCTD y otros métodos de predicción de tipos de celdas requieren un conjunto de datos de referencia con tipos de celdas anotados. En general, los tipos de células (o composiciones de tipos de células) en cada ubicación espacial se predicen mediante la comparación con los patrones de expresión génica en este conjunto de datos de referencia. Sin embargo, seleccionar una referencia adecuada para cada muestra de Visium no siempre es sencillo. Las referencias pueden carecer de tipos de células clave o, por el contrario, pueden incluir tipos de células que no están presentes en el corte de tejido²⁴. Además, dentro de un tipo de célula, las células pueden estar en estados drásticamente diferentes, como células inmunitarias inactivas frente a activadas²⁵. Los estados celulares presentes en los conjuntos de datos de referencia no coinciden necesariamente con los de las muestras espaciales, que a menudo se obtienen de modelos de enfermedades de pacientes. Es probable que ambos problemas resulten en predicciones inexactas. Esperamos abordar este problema en el futuro.

A medida que el campo de la transcriptómica espacial continúa evolucionando rápidamente, se está desarrollando un número creciente de herramientas computacionales para analizar diversos aspectos de los datos espaciales, incluidas las interacciones célula-célula, los dominios espaciales y la predicción de genes espacialmente variables (véase, por ejemplo, 26,27,28). Si bien esta proliferación refleja el dinamismo del campo, también presenta un desafío para curar e integrar herramientas en esta base de datos. Para garantizar que se incluyan los métodos más sólidos y ampliamente aplicables, existe una necesidad urgente de estudios de referencia sistemáticos que evalúen el rendimiento de las herramientas en los conjuntos de datos y las tareas de análisis 22,29,30. Esos esfuerzos serán esenciales para orientar la selección informada y la priorización de los instrumentos para su inclusión en la base de datos.

Mientras que otras bases de datos de transcriptómica espacial intentan recopilar un gran número de muestras de muchas plataformas diferentes, en DeepSpaceDB hemos decidido utilizar una estrategia diferente: centrarse en unas pocas plataformas populares e implementar herramientas interactivas e intuitivas que permitan al usuario explorar fácilmente los datos con más detalle. Aunque nuestra base de datos contiene solo muestras de Visium en la versión actual 1.0, también planeamos incluir muestras de otras plataformas en una actualización futura.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores no tienen nada que revelar.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores desean agradecer a Y. Harada por su asistencia secretarial. Este trabajo fue apoyado por JST NBDC (Grant Number JPMJND2303, A.V.) y AMED (Grant Number JP24gm2010003, A.V.) Este trabajo también contó con el apoyo de JSPS KAKENHI (20H03451, 24K02236 y 24KK0147; S.K.), JST FOREST (JPMJFR2062; S.K), JST Moonshot (JPMJMS2011-61; S.K). Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
clusterProfiler		Paquete R: versión 4.14.6
DeepSpaceDB		Versión > 1.0	Un enlace a la base de datos: www.deepspacedb.com
Lima		Paquete R: versión 3.62.2
R		Versión 4.4.2
RStudio	Postular	Versión 2024.12

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).">Tian, L., Chen, F., Macosko, E. Z. The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).
Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).">Moses, L., Pachter, L. Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).
SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).">Fan, Z., Chen, R., Chen, X. SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).
SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).">Yuan, Z., et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).
STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).">Xu, Z., et al. STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).
SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).">Li, Y., et al. SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).
DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).">Honcharuk, V., et al. DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).
arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).">GPT-4 technical report. arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).
A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).">Vandenbon, A., Diez, D. A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).
A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).">Vandenbon, A., Diez, D. A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).
Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).">Hao, Y., et al. Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).
Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).">Ritchie, M. E., et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).
ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).">Yu, G., Wang, L. G., Han, Y., He, Q. Y. ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).
KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).">Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).
Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).">Zhang, Y., et al. Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).
Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).">Sreedharan, S., et al. Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).
Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).">Twine, N. A., Janitz, C., Wilkins, M. R., Janitz, M. Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).
Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).">Thomsen, M. S., et al. Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).
The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).">Li, N., Nattie, E., Li, A. The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).
Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).">Iqbal, J. Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).
Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).">Cable, D. M., et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).
Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).">Li, B., et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).
Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).">Vandenbon, A., et al. Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).
Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).">Ivich, A., et al. Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).
A periodic table of cell types. Development. 146 (12), dev169854(2019).">Xia, B., Yanai, I. A periodic table of cell types. Development. 146 (12), dev169854(2019).
Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).">Dong, K., Zhang, S. Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).
Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).">Zhu, J., et al. Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).
Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).">Dries, R., et al. Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).
Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).">Yuan, Z., et al. Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).
Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).">Chen, X., et al. Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Minería de conjuntos de datos de transcriptómica espacial mediante DeepSpaceDB

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles