Mineração de conjuntos de dados transcriptômicos espaciais usando o DeepSpaceDB

Nupura Prabhune; Yilin Du; Afeefa Zainab; Satoru Ebihara; Shinji Takeoka; Shinpei Kawaoka; Alexis Vandenbon

doi:10.3791/68892

Method Article

Mineração de conjuntos de dados transcriptômicos espaciais usando o DeepSpaceDB

DOI:

10.3791/68892

⸱

September 5th, 2025

Nupura Prabhune¹^,² , Yilin Du¹^,³ , Afeefa Zainab⁴ , Satoru Ebihara³ , Shinji Takeoka² , Shinpei Kawaoka¹^,⁵ , Alexis Vandenbon⁴^,⁶

¹Department of Integrative Bioanalytics, Institute of Development, Aging and Cancer, Tohoku University, ²Department of Life Science and Medical Bioscience, Graduate School of Advanced Science and Engineering, Waseda University, ³Department of Rehabilitation Medicine, Tohoku University Graduate School of Medicine, ⁴Institute for Life and Medical Sciences, Kyoto University, ⁵Inter-Organ Communication Research Team, Institute for Life and Medical Sciences, Kyoto University, ⁶Institute for Liberal Arts and Sciences, Kyoto University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este artigo apresenta um protocolo para usar o DeepSpaceDB, um banco de dados dinâmico e interativo para transcriptômica espacial, oferecendo fluxos de trabalho de análise e exemplos para explorar a organização do tecido e a expressão gênica relacionada à doença.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A transcriptômica espacial é uma tecnologia em rápida evolução que permite a captura de padrões de expressão gênica em amostras de tecido, preservando as informações posicionais. Tem amplas aplicações em pesquisa biológica e bioinformática, permitindo que os pesquisadores investiguem e rastreiem variações espaciais na expressão gênica em diferentes tecidos, condições e doenças. Com a análise de dados de transcriptômica espacial ganhando força, o número de conjuntos de dados disponíveis publicamente está aumentando. No entanto, a transcriptômica espacial continua sendo uma técnica experimental altamente especializada, com restrições técnicas e financeiras significativas. Para facilitar o acesso a dados espaciais, desenvolvemos recentemente o DeepSpaceDB, um banco de dados abrangente e dinâmico para exploração de dados transcriptômicos espaciais. Este artigo apresenta fluxos de trabalho detalhados descrevendo os componentes do banco de dados e sua navegação com a ajuda de alguns exemplos. Primeiro, a análise de uma amostra de cérebro de camundongo é demonstrada, explorando indicadores de qualidade, genes e vias espacialmente variáveis e variações de expressão gênica entre o hipocampo e o hipotálamo. Em seguida, a identificação e anotação de genes diferencialmente expressos associados à atividade imune são exploradas comparando regiões metastáticas de origem colorretal com áreas distantes de tecido saudável em fígados murinos. O DeepSpaceDB, com suas ferramentas avançadas e recursos interativos, serve como um recurso valioso para a pesquisa em transcriptômica espacial, permitindo uma exploração mais profunda da organização do tecido e da biologia da doença.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A transcriptômica espacial é uma nova tecnologia que permite aos pesquisadores analisar a expressão gênica enquanto retém informações espaciais dentro de uma seção de tecido, permitindo assim o estudo da arquitetura do tecido, heterogeneidade celular e influências microambientais em resolução sem precedentes ^1,2. No entanto, apesar do potencial dessa tecnologia, o acesso e a análise permanecem limitados, a transcriptômica espacial tem um custo proibitivo para muitos laboratórios e a análise de dados requer habilidades avançadas de bioinformática.

O desenvolvimento de bancos de dados públicos é uma forma de ampliar o acesso a essa modalidade experimental emergente. Vários bancos de dados transcriptômicos espaciais foram criados. O primeiro foi o SpatialDB, mas contém apenas um número limitado de amostras e não foi atualizado³. Os bancos de dados SODB, SOAR e STOmicsDB incluem um grande número de amostras de muitas plataformas diferentes e desempenham um grande papel como repositórios de dados ^4,5,6. No entanto, as ferramentas de análise são limitadas e carecem de interatividade. Para resolver esse problema, desenvolvemos recentemente o DeepSpaceDB, um banco de dados com curadoria e fácil de usar de conjuntos de dados transcriptômicos espaciais disponíveis publicamente, projetados para reduzir as barreiras técnicas e expandir a acessibilidade⁷. Este artigo ilustra várias ferramentas neste banco de dados, incluindo pesquisa no banco de dados, inspeção da qualidade da amostra, ferramentas de visualização e comparação de regiões selecionadas interativamente em fatias de tecido. Apresenta protocolos detalhados usando dois exemplos representativos: a análise de uma amostra de cérebro de camundongo e um fígado murino com metástases colorretais para demonstrar essas ferramentas em contextos práticos. Por meio dessas ferramentas, o DeepSpaceDB capacita uma gama mais ampla de pesquisadores a alavancar a transcriptômica espacial sem precisar de seus próprios dados ou capacidade interna de bioinformática. Uma descrição abrangente da coleta de dados, controle de qualidade, fluxo de trabalho de processamento, bem como os dados e recursos incluídos no DeepSpaceDB, é fornecida em detalhes por Honcharuk et al⁷.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Exemplo 1: Análise de uma amostra de cérebro de camundongo

NOTA: Nesta seção, a análise de uma amostra de cérebro de camundongo é ilustrada, navegando pelos diferentes recursos e gráficos disponíveis no DeepSpaceDB (um link para o banco de dados está disponível na Tabela de Materiais).

Seleção da amostra
1. Clique na guia Banco de dados e use o filtro para selecionar o camundongo organismo, o cérebro do órgão e o zenodo de origem. Percorra as amostras resultantes e selecione a DSID001557 de amostra. Como alternativa, use a caixa de pesquisa para pesquisar o termo "DSID001557" no banco de dados e selecione este exemplo.
2. Clique na amostra e confirme a descrição como 2 × 10⁶ células em 100 μL de célula salina-NK (injeção intravenosa uma vez por semana por um total de 5 vezes).
Análise de qualidade
1. Clique na guia Qualidade para avaliar a qualidade da amostra selecionada. No menu suspenso de medidas de qualidade , selecione diferentes opções, como Genes detectados (Figura 1A), Contagem de leitura (Figura 1B) e Mito (Figura 1C), para visualizar os respectivos parâmetros em cada ponto na fatia da amostra.
Anotação de imagem
1. Navegue até a guia Anotação de imagem para identificar as diferentes regiões da fatia de amostra.
2. Mova o cursor do mouse sobre a fatia de amostra. As anotações previstas por um modelo de linguagem grande (LLM) são exibidas para partes da imagem de amostra de maneira baseada em grade, com informações sobre a anatomia e a condição associada⁸.
Análise de cluster
1. Para obter uma compreensão mais profunda dos clusters de tipo de célula na fatia de amostra, navegue até a guia Clusters . Uma incorporação 2D dos clusters será exibida, juntamente com uma representação de clusters codificados por cores nos pontos da fatia de amostra (Figura 1E).
Genes e vias espacialmente variáveis
1. Navegue até a guia Genes e anote os genes espacialmente variáveis (SVG; genes cujos níveis de expressão diferem entre os locais dos tecidos) na amostra ^9,10. Esses SVGs são previstos usando a função singleCellHaystack, que adota a medida de divergência de Kullback-Leibler (D_KL na tabela) para avaliar o quão distinto é o padrão de expressão de cada gene do que seria esperado aleatoriamente (Figura 2). Genes com um valor de p baixo (grande log.p.adj negativo na tabela) são listados como SVGs.
  NOTA: Os dados de expressão gênica foram normalizados usando os parâmetros padrão usados no pacote Seurat R (versão 5)¹¹. Na prática, as leituras de cada gene em cada ponto foram divididas pela contagem total de leituras naquele local e multiplicadas pelo fator de escala 10.000. Em seguida, o logaritmo natural foi calculado após a adição de 1, para evitar problemas com log(0). O gráfico mostrado na guia Genes mostra esses dados normalizados.
2. Clique em alguns dos principais genes da lista. Isso gera um gráfico espacial para os genes na fatia de tecido, com manchas codificadas por cores para o nível de expressão (Figura 2). Os genes de maior pontuação têm padrões espaciais de expressão claramente distintos.
3. Navegue até a guia Caminhos para inspecionar a atividade de conjuntos de genes (por exemplo, genes associados a uma via biológica comum) em vez de genes individuais. As vias espacialmente variáveis são listadas de maneira semelhante aos SVGs discutidos acima (Figura 3). As atividades das vias são estimadas com base nos níveis de expressão dos genes associados a elas ^7,11.
  NOTA: As atividades do caminho foram estimadas usando a função do pacote Seurat R addModuleScore¹¹. Em resumo, esta função toma como entrada um conjunto de genes (por exemplo, um conjunto de genes envolvidos em uma via comum) e retorna seus níveis médios de expressão, após várias etapas de processamento. Na prática, valores positivos implicam uma atividade superior à média e valores negativos uma atividade inferior à média. O gráfico mostrado na guia Caminhos mostra os dados de pontuação deste módulo.
4. Clique em alguns dos principais caminhos da lista. Isso gera um gráfico espacial para os caminhos através da fatia de tecido, com pontos codificados por cores para o nível de atividade. Várias vias têm padrões espaciais distintos de atividade (Figura 3).
Comparação de expressão gênica intra-amostra
1. Navegue até a guia Tissue Explorer e selecione Seleção manual (se ainda não tiver sido selecionado). Em seguida, use o cursor do mouse para selecionar os pontos na região do hipocampo da fatia do cérebro do camundongo, no lado esquerdo. Clique no conjunto 1 e selecione adicionar ao conjunto. Isso destacará todos os pontos selecionados na fatia do lado direito (Figura 4A).
2. Agora clique no conjunto 2 e use o cursor do mouse para selecionar os pontos na região hipotalâmica da fatia do cérebro do camundongo. Clique em adicionar ao conjunto, que destacará todos os pontos selecionados na fatia do lado direito (Figura 4A).
3. Depois de concluir o processo de seleção do local, clique no botão Comparar expressão gênica . Isso gerará uma tabela com os valores médios de expressão gênica dos pontos selecionados entre as duas regiões, juntamente com uma representação do gráfico de dispersão. Mova o cursor sobre pontos individuais para confirmar os nomes dos genes e a expressão média dos genes em ambas as regiões.
4. Com base nos resultados da comparação da expressão gênica, identifique os genes diferencialmente expressos e navegue novamente até a guia Genes para visualizar sua expressão na fatia da amostra (Figura 4B, C).
  NOTA: Por meio das etapas detalhadas acima, o DeepSpaceDB pode ser usado para investigar os recursos de uma amostra de transcriptômica espacial do cérebro de camundongo.

2. Exemplo 2: Identificação e anotação de genes diferencialmente expressos associados à atividade imune em regiões metastáticas de origem colorretal em fígados de camundongos

NOTA: Uma comparação intra-amostra é explorada na seção atual. Isso é ilustrado por meio da identificação e anotação de genes diferencialmente expressos entre regiões metastáticas de origem colorretal e regiões distantes de tecido saudável dentro de uma seção do fígado, com base em duas amostras diferentes. A expressão espacial de genes desregulados específicos relevantes para a atividade imune é visualizada nas seções de tecido.

Navegação no banco de dados e seleção de amostra
1. Clique na guia Banco de dados e use o filtro para selecionar o camundongo do organismo, o fígado do órgão e a condição câncer. Nos exemplos resultantes, selecione o DSID001005 de exemplo. Clique na amostra e confirme a descrição informando que a amostra é de um fígado de camundongo contendo metástase de origem de câncer colorretal.
2. Navegue até a guia Tissue Explorer e selecione Seleção manual. Em seguida, usando o cursor do mouse, selecione os pontos na região do tumor (metástases colorretais) da amostra de fígado DSID001005, identificados com base na expressão positiva do marcador Epcam (Figura 5A). Clique no conjunto 1 e selecione adicionar ao conjunto. Isso destaca todos os pontos selecionados na fatia do lado direito (Figura 5C).
3. Agora clique no conjunto 2 e use o cursor do mouse para selecionar os pontos na região distante não tumoral da amostra de fígado. Clique em adicionar ao conjunto, que destacará todos os pontos selecionados na fatia do lado direito (Figura 5C).
Comparação da expressão gênica entre pontos selecionados
1. Depois de concluir o processo de seleção do local, clique no botão Comparar expressão gênica . Isso gera uma tabela com os valores médios de expressão gênica dos pontos selecionados entre as duas regiões, juntamente com uma representação de gráfico de dispersão. Mova o cursor do mouse sobre pontos individuais e inspecione os nomes dos genes e a expressão média dos genes em ambas as regiões.
2. Para realizar uma análise mais profunda com os dados de expressão gênica, selecione a opção Baixar CSV . Isso gera um arquivo CSV (Valores Separados por Vírgula) dos dados de expressão gênica para as duas regiões da amostra.
3. Repita as etapas 2.1.1-2.1.3 e 2.2.1-2.2.2 para sample "DSID001007". Confirme sua descrição como outra fatia de fígado de camundongo contendo metástases de origem de câncer colorretal.
Análise de dados com programação R
1. Confirme se as etapas acima resultaram em 2 arquivos CSV, um do DSID001005 de amostra e outro do DSID001007 de amostra. Ambos os arquivos contêm 2 colunas que representam a expressão gênica média nas 2 seleções (tecido tumoral e tecido não tumoral) que foram feitas em cada amostra.
2. Leia os arquivos CSV em R e mescle-os para análise posterior a jusante com duas réplicas por condição (ou seja, região do tumor com metástases de câncer colorretal e tecido saudável distante no fígado). Consulte o script R e os arquivos de dados nos materiais suplementares.
3. Use o pacote limma (versão 3.62.2) em R (versão 4.4.2)¹² para realizar a análise de expressão diferencial para os dados, categorizando as regiões de metástases colorretais de ambas as amostras como câncer e as regiões distantes e saudáveis de ambas as amostras como controle. Obtenha os genes regulados positivamente com um filtro de logFC > 0,5 e valor de p ajustado < 0,05. Da mesma forma, obtenha os genes regulados negativamente com um filtro de logFC < -0,5 e valor de p ajustado < 0,05.
  NOTA: Esses conjuntos de genes são usados para identificar vias biológicas afetadas pelo tumor na próxima etapa (Figura 6A, B).
4. Use o pacote clusterProfiler (versão 4.14.6) em R¹³ para conduzir a análise das vias da Enciclopédia de Genes e Genomas de Kyoto (KEGG)¹⁴ para os genes regulados negativamente e regulados positivamente. Com base em um filtro rigoroso de valor q < 0,05, identifique as vias significativas associadas aos genes regulados negativamente e regulados positivamente. Concentre-se em genes associados a vias imunológicas, atividades imunológicas ou assinaturas relevantes (Figura 6B).
Mineração de dados específicos de genes
1. Em seguida, pesquise nomes de genes na seção Genes Espacialmente Variáveis para confirmar a expressão espacial dos genes-alvo. Clique no nome de um gene para gerar um gráfico espacial para o gene na fatia de tecido, com manchas codificadas por cores para o nível de expressão (Figura 7).
2. Identifique genes específicos com padrões espaciais de expressão no local das metástases colorretais, em comparação com o tecido hepático distante e saudável. A relevância funcional dos genes, ou sua expressão em outros órgãos ou condições, pode ser mais explorada no banco de dados.
3. Selecione a guia Pesquisar e escolha a espécie como mouse. Clique na opção de pesquisa por gene e digite um nome de gene. Uma visão geral da distribuição de órgãos e condições dos genes será exibida e pode ser analisada posteriormente.
  NOTA: Através das etapas detalhadas acima, o DeepSpaceDB pode ser usado para investigar padrões de expressão gênica entre regiões metastáticas e não metastáticas em amostras transcriptômicas espaciais do fígado de camundongo.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O Exemplo 1 demonstrou a análise de uma amostra de cérebro de camundongo, validando parâmetros como contagem de leitura, genes e vias espacialmente variáveis e variações de expressão gênica entre o hipocampo e o córtex. Primeiro, a qualidade da amostra de cérebro de camundongo DSID001557 foi avaliada em relação a várias medidas de qualidade: "Genes detectados" (Figura 1A), "Contagem de leituras" (Figura 1B) e "Mito" (a porcentagem de leituras mitocondriais; Figura 1C). Isso destacou claramente uma região com menor qualidade no lado esquerdo da amostra de cérebro, com base no baixo número de genes detectados e na baixa contagem de leitura. Para entender a qualidade relativa da amostra em relação a todas as outras amostras, a guia Qualidade relativa da amostra no banco de dados foi clicada, que exibia um gráfico da Contagem versus Não. de genes detectados por mancha (Média). Para a amostra analisada, foram detectados entre 3500-4000 genes por mancha (Figura 1D). As características anatômicas da amostra foram analisadas posteriormente usando a guia Anotação de imagem . Como nota geral, essas anotações foram geradas cortando imagens de tecido em partes menores e pedindo a um LLM para descrever as características observáveis⁸. São indicações aproximadas para auxiliar na interpretação da amostra e precisam ser interpretadas com cuidado. Para um subconjunto de amostras (especialmente amostras de câncer de mama humano), anotações de um especialista humano também estão disponíveis. No entanto, considerando a qualidade inferior das imagens do Visium H&E em comparação com as imagens usadas para diagnóstico de rotina, as anotações fornecidas são apenas para fins de pesquisa. Para DSID001557 de amostra, mova o cursor sobre as anotações exibidas na fatia das diferentes regiões do cérebro do camundongo, como a região do hipocampo, camadas corticais, camadas celulares densas com gliose, etc. A partir da compreensão das características anatômicas básicas da fatia da amostra, características detalhadas como grupos de tipos de células e genes e vias espacialmente variáveis foram exploradas. A amostra de cérebro de camundongo tinha 15 clusters no total, que foram representados com código de cores em toda a fatia da amostra (Figura 1E). Alguns dos principais genes espacialmente variáveis associados à amostra são Nrgn, Slc17a7, Ly6h e Ddn (Figura 2). Nrgn exibiu alta expressão na região do hipocampo, de acordo com as evidências literárias que indicam o papel da proteína codificada em Nrgn (neurogranina) na mediação da plasticidade sináptica e do aprendizado espacial¹⁵. Slc17a7, um gene que codifica um transportador vesicular de glutamato crucial para a neurotransmissão em neurônios glutaminérgicos¹⁶, e Ddn, um gene que codifica uma proteína que modula a estrutura do citoesqueleto pós-sináptico¹⁷, também foram altamente expressos na região do hipocampo. Em contraste, a expressão do gene Ly6h foi localizada na região cortical, de acordo com a literatura que indica o papel sináptico restritivo de Ly6h nas membranas das células corticais¹⁸. De maneira semelhante, a atividade das vias foi visualizada em toda a fatia da amostra (Figura 3). Observou-se que as vias espacialmente variáveis são ativadas em concordância com os papéis funcionais dos genes espacialmente variáveis, com regulação da plasticidade sináptica e atividade de neurotransmissores na região do hipocampo e sinalização de neuropeptídeos na região cortical.

Finalmente, para identificar genes diferencialmente expressos entre a região do hipocampo e o hipotálamo da amostra de cérebro de camundongo, a guia Tissue Explorer foi utilizada. Os pontos associados às regiões de interesse foram selecionados com orientação da anotação da imagem (Figura 4A). A partir do gráfico de dispersão gerado, alguns dos genes diferencialmente expressos identificados estavam entre os principais genes espacialmente variáveis (Nrgn, Slc17a7, Ddn), além de alguns outros, como Pmch e Ttr. A expressão desses genes foi visualizada na fatia da amostra. Pmch foi especificamente superexpresso na região hipotalâmica lateral (Figura 4B; compare com a área verde selecionada na Figura 4A). Esse gene codifica o precursor do hormônio concentrador de melanina e está envolvido na manutenção da homeostase energética¹⁹. Em contraste, o gene Ttr foi especificamente expresso na região do hipocampo (Figura 4C; compare com a área vermelha selecionada na Figura 4A), de acordo com seu papel funcional na aprendizagem e na memória espacial²⁰. Ao realizar comparações intra-amostra entre diferentes regiões do cérebro de camundongos usando este banco de dados, fomos capazes de destacar características funcionais específicas da região com base na expressão gênica espacial e na atividade da via.

No exemplo 2, o banco de dados foi utilizado para a identificação de assinaturas imunes associadas a metástases colorretais no fígado. A comparação intra-amostra foi realizada entre a região tumoral com metástases colorretais e o tecido hepático distante e saudável, por meio de seleção de local apropriado para as duas amostras: DSID001005 (Figura 5A-C) e DSID001007 (Figura 5D-F). Os dados foram reanalisados com duas repetições por condição usando R. A análise de expressão diferencial realizada entre a região tumoral com metástase colorretal e o tecido hepático saudável revelou a regulação negativa de 138 genes e a regulação positiva de 115 genes, com base nos parâmetros selecionados (Figura 6A,B). A análise da via KEGG demonstrou o enriquecimento das vias dos genes regulados negativamente, como metabolismo de drogas e carcinogênese química (Figura 6C), enquanto os genes regulados positivamente exibiram assinaturas correspondentes à migração transendotelial de leucócitos, adesão focal e ciclo celular, entre outros (Figura 6D). Com foco na relevância da migração transendotelial de leucócitos para a atividade imunológica, os principais genes detectados na categoria foram identificados e sua expressão espacial foi observada no DeepSpaceDB. Curiosamente, os genes Cldn7, Cldn4 e Actg1 detectados na categoria de migração transendotelial de leucócitos exibiram regulação positiva na região do tumor (local Epcam ⁺) das amostras, e não na região distante com tecido hepático saudável (Figura 7). Isso forneceu informações sobre a natureza da atividade imune impulsionada no local do tumor do fígado, com o recrutamento ativo de leucócitos. Em resumo, a análise intra-amostra usando o DeepSpaceDB permite a extração de diversos insights biológicos. Ao comparar dados transcriptômicos espaciais por meio de ferramentas interativas e fluxos de trabalho de reanálise, os pesquisadores podem gerar e validar hipóteses sobre a expressão gênica específica do tecido e a heterogeneidade funcional.

figure-results-1
Figura 1: Medidas de qualidade da amostra. (A) Número de genes detectados, (B) contagem de leituras e (C) porcentagem de leituras mitocondriais por mancha. (D) O número médio de genes detectados por ponto nesta amostra, em comparação com a distribuição de todas as outras amostras no banco de dados. (E) Aglomerados de manchas na fatia de tecido. Clique aqui para ver uma versão maior desta figura.

figure-results-2
Figura 2: Expressão dos principais genes espacialmente variáveis. (a) nrgn, (b) slc17a7, (c) ly6h e (d) ddn. Clique aqui para ver uma versão maior desta figura.

figure-results-3
Figura 3: Atividade das principais vias espacialmente variáveis. (A) Sinalização de neuropeptídeos, (B) Regulação da plasticidade sináptica, (C) Transporte de neurotransmissores. Clique aqui para ver uma versão maior desta figura.

figure-results-4
Figura 4: Comparação dos padrões de expressão gênica entre duas regiões selecionadas do cérebro do camundongo. (A) Seleção pontual nas regiões hipotalâmica e hipocampal para comparações intraamostrais. A região selecionada 1 é mostrada em vermelho e a região 2 em verde. Padrões de expressão espacial dos genes diferencialmente expressos (B) Pmch e (C) Ttr entre as regiões hipotalâmica e hipocampal. Clique aqui para ver uma versão maior desta figura.

figure-results-5
Figura 5: Propriedades de duas amostras de fígado de camundongo metastático. Para DSID001005 amostra: (A) expressão do marcador Epcam , (B) clusters pontuais e (C) regiões selecionadas em regiões cancerosas e distantes para comparações intraamostrais. Para DSID001007 amostra: (D) expressão do marcador Epcam , (E) clusters pontuais e (F) regiões selecionadas em regiões cancerosas e distantes para comparações intraamostrais. Para ambas as amostras, as manchas tumorais estão nas regiões mostradas em vermelho e as manchas não tumorais estão nas regiões mostradas em verde. Clique aqui para ver uma versão maior desta figura.

figure-results-6
Figura 6: Resultados da reanálise. (A) Resumo esquemático do fluxo de trabalho usado na reanálise. (B) Gráfico de vulcão representando os genes diferencialmente expressos entre regiões cancerígenas e distantes. Enriquecimento da via KEGG de (C) genes regulados positivamente e (D) genes regulados negativamente. Clique aqui para ver uma versão maior desta figura.

figure-results-7
Figura 7: Expressão espacial de genes. (A) Cldn7, (B) Cldn4 e (C) Actg1 na fatia de tecido DSID001005. Expressão espacial de genes. (D) Cldn7, (E) Cldn4 e (F) Actg1 na fatia de tecido DSID001007. Clique aqui para ver uma versão maior desta figura.

Arquivos suplementares 1-4: Arquivos de dados e script R para exemplo de metástase hepática. Clique aqui para baixar este arquivo.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Aqui, apresentamos dois protocolos abrangentes que descrevem a navegação, recuperação e análise de dados transcriptômicos espaciais no DeepSpaceDB. Enquanto a maioria dos bancos de dados ômicos espaciais se concentra na coleta de dados de um grande número de amostras, gerados usando várias plataformas 3,4,5,6, o DeepSpaceDB se concentra no desenvolvimento de ferramentas interativas que permitem aos usuários explorar de forma profunda e eficiente os recursos transcriptômicos espaciais. Para habilitar esse nível de funcionalidade, a versão atual se concentra exclusivamente na plataforma Visium. Com o surgimento de plataformas de alta resolução, planejamos expandir o DeepSpaceDB de acordo, desenvolvendo novas estratégias para o processamento e integração de tais dados de maneira amigável.

O DeepSpaceDB permite que os usuários avaliem as métricas de qualidade da amostra (por exemplo, contagem de genes, profundidade de leitura) e as comparem entre conjuntos de dados. O banco de dados inclui anotações em várias camadas: agrupamento não supervisionado em todo o banco de dados com rótulos atribuídos, detecção baseada em LLM de características estruturais e patológicas de imagens histológicas e anotações histológicas especializadas para um subconjunto crescente de amostras. Além disso, os usuários podem selecionar interativamente regiões de interesse dentro ou entre amostras para comparar a expressão gênica, permitindo estudos de contrastes espaciais entre regiões como tumor versus estroma ou regiões doentes versus saudáveis. Tais características geralmente estão ausentes em outras bases^de dados 3,4,5,6. Outros recursos, como genes e vias espacialmente variáveis, previsões de tipo de célula e resultados de agrupamento, também estão disponíveis. Em conjunto, esse banco de dados reduz significativamente as barreiras para explorar dados transcriptômicos espaciais. Amostras de uma ampla variedade de tecidos e condições são livremente acessíveis e os usuários podem navegar por meio de interações simples de apontar e clicar; Não é necessário conhecimento avançado em bioinformática. Dito isso, algum conhecimento prévio de genes marcadores e arquitetura de tecidos é provavelmente necessário para a interpretação precisa dos padrões de expressão e para a seleção de regiões de interesse na ferramenta Tissue Explorer.

Embora não seja apresentado aqui, os usuários também podem fazer upload de suas próprias amostras e aplicar muitas das mesmas ferramentas para analisá-las. O banco de dados também suporta comparações entre amostras entre 2 fatias de tecido diferentes, permitindo, por exemplo, comparações entre tecidos doentes e tecidos de controle saudáveis. Por fim, os dados brutos e processados, juntamente com todas as saídas de análise derivadas, estão disponíveis para download, suportando fluxos de trabalho downstream e análises personalizadas. Para várias dessas ferramentas, pequenos vídeos tutoriais estão disponíveis na página do tutorial do banco de dados.

Ainda existem aspectos do banco de dados que precisam ser melhorados. Uma é a previsão precisa dos tipos de células e composições de tipos de células em cada local dentro das fatias de tecido. Na versão atual do DeepSpaceDB (versão 1.0), previmos a composição do tipo de célula de cada ponto do Visium usando um método chamado decomposição de tipo de célula robusta (RCTD)²¹. O RCTD teve um desempenho relativamente bom em um estudo de referência recente²². As previsões feitas pelo RCTD também podem ser validadas experimentalmente em nosso estudo recente do fígado de camundongos portadores de câncer²³. No entanto, uma avaliação abrangente da precisão das previsões do tipo de célula não foi realizada. Um problema relacionado é que o RCTD e outros métodos de previsão de tipo de célula requerem um conjunto de dados de referência com tipos de células anotados. Em geral, os tipos de células (ou composições de tipos de células) em cada localização espacial são previstos por meio da comparação com padrões de expressão gênica neste conjunto de dados de referência. No entanto, selecionar uma referência adequada para cada amostra do Visium nem sempre é simples. As referências podem não ter tipos de células-chave ou, inversamente, podem incluir tipos de células que não estão presentes na fatia de tecido²⁴. Além disso, dentro de um tipo de célula, as células podem estar em estados drasticamente diferentes, como células imunes inativas versus ativadas²⁵. Os estados celulares presentes nos conjuntos de dados de referência não correspondem necessariamente aos das amostras espaciais, que geralmente são obtidas de modelos de doenças de pacientes. Ambos os problemas provavelmente resultarão em previsões imprecisas. Esperamos resolver esse problema no futuro.

À medida que o campo da transcriptômica espacial continua a evoluir rapidamente, um número crescente de ferramentas computacionais está sendo desenvolvido para analisar diversos aspectos dos dados espaciais, incluindo interações célula-célula, domínios espaciais e previsão de genes espacialmente variáveis (ver, por exemplo, 26,27,28). Embora essa proliferação reflita o dinamismo do campo, ela também apresenta um desafio para a curadoria e integração de ferramentas nesse banco de dados. Para garantir que os métodos mais robustos e amplamente aplicáveis sejam incluídos, há uma necessidade premente de estudos sistemáticos de benchmark que avaliem o desempenho da ferramenta em conjuntos de dados e tarefas de análise 22,29,30. Tais esforços serão essenciais para orientar a seleção informada e a priorização de ferramentas para inclusão no banco de dados.

Enquanto outros bancos de dados de transcriptômica espacial tentam coletar um grande número de amostras de muitas plataformas diferentes, no DeepSpaceDB decidimos usar uma estratégia diferente: focar em algumas plataformas populares e implementar ferramentas interativas e intuitivas que permitem ao usuário explorar facilmente os dados com mais detalhes. Embora nosso banco de dados contenha apenas amostras do Visium na versão atual 1.0, planejamos incluir também amostras de outras plataformas em uma atualização futura.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores não têm nada a divulgar.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores gostariam de agradecer a Y. Harada pela assistência de secretariado. Este trabalho foi apoiado por JST NBDC (Grant Number JPMJND2303, AV) e AMED (Grant Number JP24gm2010003, AV) Este trabalho também foi apoiado por JSPS KAKENHI (20H03451, 24K02236 e 24KK0147; S.K.), FLORESTA JST (JPMJFR2062; S.K), JST Moonshot (JPMJMS2011-61; S.K). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta e análise de dados, decisão de publicação ou preparação do manuscrito.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
clusterProfiler		Pacote R – versão 4.14.6
DeepSpaceDB		Versão > 1.0	Um link para o banco de dados: www.deepspacedb.com
limma		Pacote R – versão 3.62.2
R		versão 4.4.2
RStudio	Postular	Versão 2024.12

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).">Tian, L., Chen, F., Macosko, E. Z. The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).
Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).">Moses, L., Pachter, L. Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).
SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).">Fan, Z., Chen, R., Chen, X. SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).
SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).">Yuan, Z., et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).
STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).">Xu, Z., et al. STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).
SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).">Li, Y., et al. SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).
DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).">Honcharuk, V., et al. DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).
arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).">GPT-4 technical report. arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).
A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).">Vandenbon, A., Diez, D. A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).
A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).">Vandenbon, A., Diez, D. A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).
Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).">Hao, Y., et al. Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).
Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).">Ritchie, M. E., et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).
ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).">Yu, G., Wang, L. G., Han, Y., He, Q. Y. ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).
KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).">Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).
Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).">Zhang, Y., et al. Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).
Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).">Sreedharan, S., et al. Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).
Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).">Twine, N. A., Janitz, C., Wilkins, M. R., Janitz, M. Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).
Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).">Thomsen, M. S., et al. Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).
The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).">Li, N., Nattie, E., Li, A. The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).
Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).">Iqbal, J. Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).
Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).">Cable, D. M., et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).
Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).">Li, B., et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).
Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).">Vandenbon, A., et al. Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).
Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).">Ivich, A., et al. Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).
A periodic table of cell types. Development. 146 (12), dev169854(2019).">Xia, B., Yanai, I. A periodic table of cell types. Development. 146 (12), dev169854(2019).
Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).">Dong, K., Zhang, S. Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).
Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).">Zhu, J., et al. Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).
Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).">Dries, R., et al. Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).
Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).">Yuan, Z., et al. Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).
Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).">Chen, X., et al. Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Mineração de conjuntos de dados transcriptômicos espaciais usando o DeepSpaceDB

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles