Exploitation de jeux de données de transcriptomique spatiale à l’aide de DeepSpaceDB

Nupura Prabhune; Yilin Du; Afeefa Zainab; Satoru Ebihara; Shinji Takeoka; Shinpei Kawaoka; Alexis Vandenbon

doi:10.3791/68892

Method Article

Exploitation de jeux de données de transcriptomique spatiale à l’aide de DeepSpaceDB

DOI:

10.3791/68892

⸱

September 5th, 2025

Nupura Prabhune¹^,² , Yilin Du¹^,³ , Afeefa Zainab⁴ , Satoru Ebihara³ , Shinji Takeoka² , Shinpei Kawaoka¹^,⁵ , Alexis Vandenbon⁴^,⁶

¹Department of Integrative Bioanalytics, Institute of Development, Aging and Cancer, Tohoku University, ²Department of Life Science and Medical Bioscience, Graduate School of Advanced Science and Engineering, Waseda University, ³Department of Rehabilitation Medicine, Tohoku University Graduate School of Medicine, ⁴Institute for Life and Medical Sciences, Kyoto University, ⁵Inter-Organ Communication Research Team, Institute for Life and Medical Sciences, Kyoto University, ⁶Institute for Liberal Arts and Sciences, Kyoto University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cet article présente un protocole d’utilisation de DeepSpaceDB, une base de données dynamique et interactive pour la transcriptomique spatiale, proposant des flux de travail d’analyse et des exemples pour explorer l’organisation des tissus et l’expression des gènes liés à la maladie.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La transcriptomique spatiale est une technologie en évolution rapide qui permet de capturer des modèles d’expression génique dans des échantillons de tissus tout en préservant les informations de position. Il a de nombreuses applications dans la recherche biologique et la bioinformatique, permettant aux chercheurs d’étudier et de suivre les variations spatiales de l’expression des gènes dans différents tissus, affections et maladies. Avec l’analyse des données de transcriptomique spatiale qui gagne du terrain, le nombre d’ensembles de données accessibles au public augmente. Cependant, la transcriptomique spatiale reste une technique expérimentale très spécialisée, avec des contraintes techniques et financières importantes. Pour faciliter l’accès aux données spatiales, nous avons récemment développé DeepSpaceDB, une base de données complète et dynamique pour l’exploration des données de transcriptomique spatiale. Cet article présente des flux de travail détaillés décrivant les composants de la base de données et sa navigation à l’aide de quelques exemples. Tout d’abord, l’analyse d’un échantillon de cerveau de souris est démontrée, en explorant les indicateurs de qualité, les gènes et les voies spatialement variables, et les variations d’expression génique entre l’hippocampe et l’hypothalamus. Ensuite, l’identification et l’annotation de gènes exprimés différentiellement associés à l’activité immunitaire sont explorées plus en détail en comparant des régions métastatiques d’origine colorectale avec des zones éloignées de tissus sains dans des foies murins. DeepSpaceDB, avec ses outils avancés et ses fonctionnalités interactives, constitue une ressource précieuse pour la recherche en transcriptomique spatiale, permettant une exploration plus approfondie de l’organisation des tissus et de la biologie des maladies.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La transcriptomique spatiale est une nouvelle technologie qui permet aux chercheurs d’analyser l’expression des gènes tout en conservant des informations spatiales à l’intérieur d’une section de tissu, permettant ainsi l’étude de l’architecture tissulaire, de l’hétérogénéité cellulaire et des influences microenvironnementales à une résolution sans précédent ^1,2. Cependant, malgré le potentiel de cette technologie, l’accès et l’analyse restent limités, la transcriptomique spatiale est d’un coût prohibitif pour de nombreux laboratoires et l’analyse des données nécessite des compétences avancées en bioinformatique.

Le développement de bases de données publiques est un moyen d’élargir l’accès à cette modalité expérimentale émergente. Plusieurs bases de données de transcriptomique spatiale ont été créées. Le premier était SpatialDB, mais il ne contient qu’un nombre limité d’échantillons et n’a pas été mis à jour³. Les bases de données SODB, SOAR et STOmicsDB comprennent un grand nombre d’échantillons provenant de nombreuses plates-formes différentes et jouent un grand rôle en tant que référentiels de données ^4,5,6. Cependant, les outils d’analyse sont limités et manquent d’interactivité. Pour résoudre ce problème, nous avons récemment développé DeepSpaceDB, une base de données organisée et conviviale d’ensembles de données de transcriptomique spatiale accessibles au public, conçue pour réduire les obstacles techniques et élargir l’accessibilité⁷. Cet article illustre plusieurs outils de cette base de données, notamment la recherche dans la base de données, l’inspection de la qualité des échantillons, les outils de visualisation et la comparaison de régions sélectionnées de manière interactive dans des coupes de tissu. Il présente des protocoles détaillés à l’aide de deux exemples représentatifs : l’analyse d’un échantillon de cerveau de souris et d’un foie murin avec des métastases colorectales pour démontrer ces outils dans des contextes pratiques. Grâce à ces outils, DeepSpaceDB permet à un plus large éventail de chercheurs d’exploiter la transcriptomique spatiale sans avoir besoin de leurs propres données ou d’une capacité bioinformatique interne. Une description complète de la collecte de données, du contrôle de la qualité, du flux de travail de traitement, ainsi que des données et des fonctionnalités incluses dans DeepSpaceDB, est fournie en détail par Honcharuk et al⁷.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Exemple 1 : Analyse d’un échantillon de cerveau de souris

REMARQUE : Dans cette section, l’analyse d’un échantillon de cerveau de souris est illustrée, en naviguant à travers les différentes fonctionnalités et graphiques disponibles dans DeepSpaceDB (un lien vers la base de données est disponible dans la Table des matériaux).

Sélection de l’échantillon
1. Cliquez sur l’onglet Base de données et utilisez le filtre pour sélectionner la souris de l’organisme, le cerveau de l’organe et le zenodo source. Parcourez les échantillons résultants et sélectionnez DSID001557 d’échantillons. Vous pouvez également utiliser la zone de recherche pour rechercher le terme « DSID001557 » dans la base de données et sélectionner cet échantillon.
2. Cliquez sur l’échantillon et confirmez la description comme suit : 2 × 10⁶ cellules dans une cellule saline-NK de 100 μL (injection intraveineuse une fois par semaine pour un total de 5 fois).
Analyse de la qualité
1. Cliquez sur l’onglet Qualité pour évaluer la qualité de l’échantillon sélectionné. Dans le menu déroulant des mesures de qualité , sélectionnez différentes options telles que Gènes détectés (Figure 1A), Nombre de lectures (Figure 1B) et Mito (Figure 1C), pour visualiser les paramètres respectifs à chaque endroit de la tranche d’échantillon.
Annotation d’image
1. Accédez à l’onglet Annotation d’image pour identifier les différentes régions de la tranche d’échantillon.
2. Déplacez le curseur de la souris sur la tranche d’échantillon. Les annotations prédites par un grand modèle de langage (LLM) sont affichées pour certaines parties de l’image d’exemple de manière basée sur une grille, avec des informations sur l’anatomie et la condition^{associée 8}.
Analyse de cluster
1. Pour une compréhension plus approfondie des clusters de types de cellules dans l’exemple de tranche, accédez à l’onglet Clusters . Un plongement 2D des grappes sera affiché, ainsi qu’une représentation des grappes codées en couleur sur les points de la tranche d’échantillon (Figure 1E).
Gènes et voies spatialement variables
1. Accédez à l’onglet Gènes et notez les gènes spatialement variables (SVG ; gènes dont les niveaux d’expression diffèrent selon l’emplacement des tissus) dans l’échantillon ^9,10. Ces SVG sont prédits à l’aide de la fonction singleCellHaystack, qui adopte la mesure de divergence de Kullback-Leibler (D_KL dans le tableau) pour évaluer à quel point le modèle d’expression de chaque gène est distinct de ce qui serait attendu au hasard (Figure 2). Les gènes avec une faible valeur p (log.p.adj négatif important dans la table) sont répertoriés comme SVG.
  REMARQUE : Les données d’expression génique ont été normalisées à l’aide des paramètres par défaut utilisés dans le package Seurat R (version 5)¹¹. En pratique, les lectures pour chaque gène à chaque endroit ont été divisées par le nombre total de lectures à cet endroit, et multipliées par le facteur d’échelle 10 000. Ensuite, le logarithme népérien a été calculé après l’addition de 1, pour éviter les problèmes avec log(0). Le graphique affiché dans l’onglet Gènes montre ces données normalisées .
2. Cliquez sur certains des principaux gènes de la liste. Cela génère un tracé spatial pour les gènes à travers la tranche de tissu, avec des taches codées en couleur pour le niveau d’expression (Figure 2). Les gènes les mieux notés ont des modèles d’expression spatiale clairement distincts.
3. Naviguez jusqu’à l’onglet Voies pour inspecter l’activité d’ensembles de gènes (par exemple, des gènes associés à une voie biologique commune) plutôt que des gènes individuels. Les trajectoires spatialement variables sont répertoriées de la même manière que les SVG discutés ci-dessus (Figure 3). Les activités des voies sont estimées en fonction des niveaux d’expression des gènes qui leur sont associés ^7,11.
  REMARQUE : Les activités du parcours ont été estimées à l’aide de la fonction du package R de Seurat addModuleScore¹¹. En bref, cette fonction prend en entrée un ensemble de gènes (par exemple, un ensemble de gènes impliqués dans une voie commune) et renvoie leurs niveaux d’expression moyens, après plusieurs étapes de traitement. En pratique, les valeurs positives impliquent une activité supérieure à la moyenne, et les valeurs négatives une activité inférieure à la moyenne. Le graphique affiché dans l’onglet Parcours montre les données de score de ce module.
4. Cliquez sur certains des meilleurs chemins de la liste. Cela génère un tracé spatial pour les voies à travers la tranche de tissu, avec des taches codées en couleur pour le niveau d’activité. Plusieurs voies ont des modèles spatiaux d’activité distincts (figure 3).
Comparaison de l’expression génique intra-échantillon
1. Accédez à l’onglet Tissue Explorer et sélectionnez Sélection manuelle (s’il n’a pas encore été sélectionné). Ensuite, utilisez le curseur de la souris pour sélectionner les points dans la région de l’hippocampe de la tranche de cerveau de la souris, sur le côté gauche. Cliquez sur l’ensemble 1 et sélectionnez Ajouter à l’ensemble. Tous les points sélectionnés sur la tranche de droite sont mis en évidence (Figure 4A).
2. Cliquez maintenant sur l’ensemble 2 et utilisez le curseur de la souris pour sélectionner les points dans la région hypothalamique de la tranche de cerveau de la souris. Cliquez sur ajouter à l’ensemble, ce qui mettra en surbrillance tous les points sélectionnés sur la tranche sur le côté droit (Figure 4A).
3. Après avoir terminé le processus de sélection des points, cliquez sur le bouton Comparer l’expression des gènes . Cela générera une table avec les valeurs moyennes d’expression génique des points sélectionnés entre les deux régions, ainsi qu’une représentation en nuage de points. Déplacez le curseur sur des points individuels pour confirmer les noms des gènes et l’expression moyenne des gènes dans les deux régions.
4. D’après les résultats de la comparaison de l’expression génique, identifiez les gènes exprimés de manière différentielle et accédez à nouveau à l’onglet Gènes pour visualiser leur expression dans la tranche d’échantillon (Figure 4B,C).
  REMARQUE : Grâce aux étapes détaillées ci-dessus, DeepSpaceDB peut être utilisé pour étudier les caractéristiques d’un échantillon de transcriptomique spatiale du cerveau d’une souris.

2. Exemple 2 : Identification et annotation de gènes exprimés différentiellement associés à l’activité immunitaire dans les régions métastatiques d’origine colorectale dans le foie de souris

REMARQUE : Une comparaison intra-échantillon est examinée dans la présente section. Ceci est illustré par l’identification et l’annotation de gènes exprimés de manière différentielle entre des régions métastatiques d’origine colorectale et des régions éloignées de tissu sain au sein d’une coupe de foie, sur la base de deux échantillons différents. L’expression spatiale de gènes dérégulés spécifiques pertinents à l’activité immunitaire est davantage visualisée dans les coupes de tissus.

Navigation dans la base de données et sélection d’échantillons
1. Cliquez sur l’onglet Base de données et utilisez le filtre pour sélectionner l’organisme souris, l’organe du foie et la maladie cancer. Dans les échantillons obtenus, sélectionnez l’exemple DSID001005. Cliquez sur l’échantillon et confirmez la description en indiquant que l’échantillon provient d’un foie de souris contenant des métastases d’origine cancer colorectal.
2. Accédez à l’onglet Tissue Explorer et sélectionnez Sélection manuelle. Ensuite, à l’aide du curseur de la souris, sélectionnez les points dans la région tumorale (métastases colorectales) de l’échantillon de foie DSID001005, identifiés sur la base de l’expression positive du marqueur Epcam (Figure 5A). Cliquez sur l’ensemble 1 et sélectionnez Ajouter à l’ensemble. Tous les points sélectionnés sur la tranche de droite sont mis en évidence (figure 5C).
3. Cliquez maintenant sur l’ensemble 2 et utilisez le curseur de la souris pour sélectionner les points dans la région non tumorale éloignée de l’échantillon de foie. Cliquez sur ajouter à l’ensemble, ce qui mettra en surbrillance tous les points sélectionnés sur la tranche de droite (Figure 5C).
Comparaison de l’expression génique entre les points sélectionnés
1. Après avoir terminé le processus de sélection des points, cliquez sur le bouton Comparer l’expression des gènes . Cela génère un tableau avec les valeurs moyennes d’expression génique des points sélectionnés entre les deux régions, ainsi qu’une représentation de nuage de points. Déplacez le curseur de la souris sur des points individuels et inspectez les noms des gènes et l’expression moyenne des gènes dans les deux régions.
2. Pour effectuer une analyse plus approfondie des données d’expression génétique, sélectionnez l’option Télécharger CSV . Cela génère un fichier CSV (Comma-Separated Values) des données d’expression génique pour les deux régions de l’échantillon.
3. Répétez les étapes 2.1.1-2.1.3 et 2.2.1-2.2.2 pour l’échantillon « DSID001007 ». Confirmez sa description comme une autre tranche du foie d’une souris contenant des métastases d’origine cancer colorectal.
Analyse des données avec programmation R
1. Vérifiez que les étapes ci-dessus ont abouti à 2 fichiers CSV, l’un à partir de l’exemple DSID001005 et l’autre à partir de l’exemple DSID001007. Les deux fichiers contiennent 2 colonnes représentant l’expression génique moyenne dans les 2 sélections (tissu tumoral et tissu non tumoral) qui ont été faites dans chaque échantillon.
2. Lisez les fichiers CSV dans R et fusionnez-les pour une analyse ultérieure en aval avec deux répétitions par condition (c’est-à-dire une région tumorale avec des métastases de cancer colorectal et des tissus sains distants dans le foie). Reportez-vous au script R et aux fichiers de données dans les documents supplémentaires.
3. Utilisez le progiciel limma (version 3.62.2) dans R (version 4.4.2)¹² pour effectuer une analyse différentielle de l’expression des données, en catégorisant les régions des métastases colorectales des deux échantillons comme cancéreuses, et les régions éloignées et saines des deux échantillons comme témoins. Obtenez les gènes régulés à la hausse avec un filtre de logFC > 0,5 et une valeur p ajustée < 0,05. De même, obtenez les gènes régulés à la baisse avec un filtre de logFC < -0,5 et une valeur p ajustée < 0,05.
  REMARQUE : Ces ensembles de gènes sont utilisés pour identifier les voies biologiques qui sont affectées par la tumeur à l’étape suivante (Figure 6A, B).
4. Utilisez le package clusterProfiler (version 4.14.6) dans R¹³ pour effectuer l’analyse des voies de l’Encyclopédie de Kyoto des gènes et des génomes (KEGG)¹⁴ pour les gènes régulés à la baisse et à la hausse. Sur la base d’un filtre rigoureux de valeur q < 0,05, identifiez les voies significatives associées aux gènes régulés à la baisse et à la hausse. Concentrez-vous sur les gènes associés aux voies immunologiques, aux activités immunitaires ou aux signatures pertinentes (Figure 6B).
Exploration de données spécifiques aux gènes
1. Ensuite, recherchez des noms de gènes dans la section Gènes spatialement variables pour confirmer l’expression spatiale des gènes cibles. Cliquez sur le nom d’un gène pour générer un tracé spatial pour le gène à travers la tranche de tissu, avec des taches codées en couleur pour le niveau d’expression (Figure 7).
2. Identifier des gènes spécifiques avec des modèles spatiaux d’expression au site des métastases colorectales, par opposition au tissu hépatique sain et distant. La pertinence fonctionnelle des gènes, ou leur expression dans d’autres organes ou conditions, peut être explorée plus en détail dans la base de données.
3. Sélectionnez l’onglet Rechercher , puis choisissez l’espèce comme souris. Cliquez sur l’option de recherche par gène et saisissez le nom d’un gène. Une vue d’ensemble de la distribution des organes et de l’état des gènes sera affichée et pourra être analysée plus en détail.
  REMARQUE : Grâce aux étapes détaillées ci-dessus, DeepSpaceDB peut être utilisé pour étudier les modèles d’expression génique entre les régions métastatiques et non métastatiques dans des échantillons de transcriptomique spatiale du foie de souris.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’exemple 1 a démontré l’analyse d’un échantillon de cerveau de souris, validant des paramètres tels que le nombre de lectures, les gènes et les voies spatialement variables et les variations d’expression génique entre l’hippocampe et le cortex. Tout d’abord, la qualité de l’échantillon de cerveau de souris DSID001557 a été évaluée à l’aide de plusieurs mesures de qualité : « Gènes détectés » (figure 1A), « Nombre de lectures » (Figure 1B) et « Mito » (le pourcentage de lectures mitochondriales ; Figure 1C). Cela a clairement mis en évidence une région de moins bonne qualité sur le côté gauche de l’échantillon de cerveau, en raison du faible nombre de gènes détectés et du faible nombre de lectures. Pour comprendre la qualité relative de l’échantillon par rapport à tous les autres échantillons, vous avez cliqué sur l’onglet Qualité relative de l’échantillon de la base de données, ce qui a affiché un graphique du nombre en fonction du non. de gènes détectés par point (moyenne). Pour l’échantillon analysé, entre 3500 et 4000 gènes ont été détectés par point (figure 1D). Les caractéristiques anatomiques de l’échantillon ont été analysées plus en détail à l’aide de l’onglet Annotation d’image . D’une manière générale, ces annotations ont été générées en découpant des images de tissus en parties plus petites et en demandant à un LLM de décrire les caractéristiques observables⁸. Il s’agit d’indications approximatives pour aider à l’interprétation de l’échantillon et qui doivent être interprétées avec prudence. Pour un sous-ensemble d’échantillons (en particulier des échantillons de cancer du sein humain), des annotations par un spécialiste humain sont également disponibles. Cependant, compte tenu de la qualité inférieure des images Visium H&E par rapport aux images utilisées pour le diagnostic de routine, les annotations fournies sont uniquement à des fins de recherche. Pour un exemple DSID001557, déplacez le curseur sur la tranche affichée des annotations des différentes régions du cerveau de la souris, telles que la région de l’hippocampe, les couches corticales, les couches cellulaires denses avec gliose, etc. À partir de la compréhension des caractéristiques anatomiques de base de la tranche d’échantillon, des caractéristiques détaillées telles que les groupes de types cellulaires et les gènes et voies spatialement variables ont été explorées plus avant. L’échantillon de cerveau de souris comportait 15 grappes au total, qui étaient représentées par un codage couleur sur la tranche de l’échantillon (Figure 1E). Certains des gènes spatialement variables les plus associés à l’échantillon sont Nrgn, Slc17a7, Ly6h et Ddn (Figure 2). Nrgn a montré une forte expression dans la région de l’hippocampe, conformément aux preuves littéraires qui indiquent le rôle de la protéine codée par Nrgn (neurogranine) dans la médiation de la plasticité synaptique et de l’apprentissage spatial¹⁵. Slc17a7, un gène codant pour un transporteur vésiculaire de glutamate crucial pour la neurotransmission dans les neurones glutaminergiques¹⁶, et Ddn, un gène codant pour une protéine qui module la structure du cytosquelette post-synaptique¹⁷, étaient également fortement exprimés dans la région de l’hippocampe. En revanche, l’expression du gène Ly6h a été localisée dans la région corticale, conformément à la littérature qui indique le rôle synaptique restrictif de Ly6h dans les membranes des cellules corticales¹⁸. De la même manière, l’activité des voies a été visualisée à travers la tranche d’échantillon (Figure 3). On a observé que les voies spatialement variables étaient activées en concordance avec les rôles fonctionnels des gènes spatialement variables, avec la régulation de la plasticité synaptique et de l’activité des neurotransmetteurs dans la région de l’hippocampe, et la signalisation des neuropeptides dans la région corticale.

Enfin, pour identifier les gènes exprimés de manière différentielle entre la région de l’hippocampe et l’hypothalamus de l’échantillon de cerveau de souris, l’onglet Tissue Explorer a été utilisé. Les points associés aux régions d’intérêt ont été sélectionnés à l’aide de l’annotation de l’image (figure 4A). D’après le nuage de points généré, certains des gènes exprimés différentiellement identifiés figuraient parmi les gènes spatialement variables les plus élevés (Nrgn, Slc17a7, Ddn), en plus de quelques autres, tels que Pmch et Ttr. L’expression de ces gènes a été visualisée dans la tranche d’échantillon. Pmch était spécifiquement surexprimé dans la région hypothalamique latérale (figure 4B ; comparer avec la zone verte sélectionnée sur la figure 4A). Ce gène code pour le précurseur de l’hormone de concentration de la mélanine et est impliqué dans le maintien de l’homéostasie^{énergétique 19}. En revanche, le gène Ttr était spécifiquement exprimé dans la région de l’hippocampe (Figure 4C ; comparer avec la zone sélectionnée en rouge sur la Figure 4A), conformément à son rôle fonctionnel dans l’apprentissage et la mémoire spatiale²⁰. En effectuant des comparaisons intra-échantillon entre différentes régions du cerveau de souris à l’aide de cette base de données, nous avons pu mettre en évidence des caractéristiques fonctionnelles spécifiques à une région basées sur l’expression spatiale des gènes et l’activité des voies.

Dans l’exemple 2, la base de données a été utilisée pour l’identification des signatures immunitaires associées aux métastases colorectales dans le foie. Une comparaison intra-échantillon a été effectuée entre la région tumorale avec métastases colorectales et le tissu hépatique sain et distant, grâce à une sélection appropriée pour les deux échantillons : DSID001005 (Figure 5A-C) et DSID001007 (Figure 5D-F). L’analyse différentielle de l’expression entre la région tumorale avec métastases colorectales et le tissu hépatique sain a révélé la régulation négative de 138 gènes et la régulation positive de 115 gènes, sur la base des paramètres sélectionnés (Figure 6A,B). L’analyse des voies KEGG a démontré l’enrichissement des voies régulées à la baisse, comme le métabolisme des médicaments et la cancérogenèse chimique (Figure 6C), tandis que les gènes régulés à la hausse présentaient des signatures correspondant à la migration trans-endothéliale des leucocytes, à l’adhésion focale et au cycle cellulaire, entre autres (Figure 6D). En se concentrant sur la pertinence de la migration trans-endothéliale des leucocytes pour l’activité immunitaire, les principaux gènes détectés dans la catégorie ont été identifiés et leur expression spatiale a été observée dans DeepSpaceDB. Il est intéressant de noter que les gènes Cldn7, Cldn4 et Actg1 détectés dans la catégorie de la migration trans-endothéliale leucocytaire ont montré une régulation positive dans la région tumorale (site Epcam⁺) des échantillons, et non dans la région éloignée avec du tissu hépatique sain (Figure 7). Cela a permis de mieux comprendre la nature de l’activité immunitaire entraînée au niveau du site tumoral du foie, avec le recrutement actif des leucocytes. En résumé, l’analyse intra-échantillon à l’aide de DeepSpaceDB permet d’extraire diverses informations biologiques. En comparant les données transcriptomiques spatiales à l’aide d’outils interactifs et de flux de travail de réanalyse, les chercheurs peuvent générer et valider des hypothèses concernant l’expression génique spécifique aux tissus et l’hétérogénéité fonctionnelle.

figure-results-1
Figure 1 : Mesures de la qualité de l’échantillon. (A) le nombre de gènes détectés, (B) le nombre de lectures mitochondriales et (C) le pourcentage de lectures mitochondriales par point. (D) Le nombre moyen de gènes détectés par point dans cet échantillon, comparé à la distribution de tous les autres échantillons de la base de données. (E) Repérez les grappes sur la tranche de tissu. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-2
Figure 2 : Expression des gènes spatialement variables supérieurs. (a) nrgn, (b) slc17a7, (c) ly6h et (d) ddn. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-3
Figure 3 : Activité des voies spatialement variables supérieures. (A) Signalisation des neuropeptides, (B) Régulation de la plasticité synaptique, (C) Transport des neurotransmetteurs. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-4
Figure 4 : Comparaison des modèles d’expression génique entre deux régions sélectionnées du cerveau de la souris. (A) Sélection ponctuelle dans les régions hypothalamiques et hippocampiques pour les comparaisons intra-échantillon. La région 1 sélectionnée est affichée en rouge et la région 2 en vert. Modèles d’expression spatiale des gènes (B) Pmch et (C) Ttr exprimés différentiellement entre les régions hypothalamiques et hippocampiques. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-5
Figure 5 : Propriétés de deux échantillons de foie de souris métastatiques. Pour les DSID001005 d’échantillon : (A) expression du marqueur Epcam, (B) groupes ponctuels, et (C) régions sélectionnées dans les régions cancéreuses et éloignées pour les comparaisons intra-échantillon. Pour les DSID001007 d’échantillon : (D) expression du marqueur Epcam, (E) groupes de points et (F) régions sélectionnées dans les régions cancéreuses et éloignées pour les comparaisons intra-échantillon. Pour les deux échantillons, les taches tumorales se trouvent dans les régions indiquées en rouge et les taches non tumorales se trouvent dans les régions indiquées en vert. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-6
Figure 6 : Résultats de la réanalyse. (A) Résumé schématique du flux de travail utilisé dans la réanalyse. (B) Graphique du volcan représentant les gènes exprimés différentiellement entre les régions cancéreuses et les régions éloignées. Enrichissement de la voie KEGG de (C) gènes régulés à la hausse et (D) de gènes régulés à la baisse. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-7
Figure 7 : Expression spatiale des gènes (A) Cldn7, (B) Cldn4 et (C) Actg1 dans une coupe de tissu DSID001005. Expression spatiale des gènes. (D) Cldn7, (E) Cldn4 et (F) Actg1 dans une coupe de tissu DSID001007. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Fichiers supplémentaires 1-4 : Fichiers de données et script R pour l’exemple des métastases hépatiques. Veuillez cliquer ici pour télécharger ce fichier.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ici, nous avons introduit deux protocoles complets décrivant la navigation, la récupération et l’analyse des données de transcriptomique spatiale dans DeepSpaceDB. Alors que la plupart des bases de données omiques spatiales se concentrent sur la collecte de données à partir d’un grand nombre d’échantillons, générés à l’aide de diverses plates-formes 3,4,5,6, DeepSpaceDB se concentre sur le développement d’outils interactifs qui permettent aux utilisateurs d’explorer en profondeur et efficacement les caractéristiques transcriptomiques spatiales. Pour permettre ce niveau de fonctionnalité, la version actuelle se concentre exclusivement sur la plate-forme Visium. Avec l’émergence de plates-formes à haute résolution, nous prévoyons d’étendre DeepSpaceDB en conséquence, en développant de nouvelles stratégies pour le traitement et l’intégration de ces données de manière conviviale.

DeepSpaceDB permet aux utilisateurs d’évaluer les paramètres de qualité des échantillons (par exemple, le nombre de gènes, la profondeur de lecture) et de les comparer entre des ensembles de données. La base de données comprend des annotations multicouches : regroupement non supervisé dans l’ensemble de la base de données avec des étiquettes attribuées, détection basée sur LLM de caractéristiques structurelles et pathologiques à partir d’images histologiques, et annotations histologiques expertes pour un sous-ensemble croissant d’échantillons. De plus, les utilisateurs peuvent sélectionner de manière interactive des régions d’intérêt au sein ou à travers les échantillons pour comparer l’expression des gènes, ce qui permet d’étudier les contrastes spatiaux entre des régions telles que la tumeur par rapport au stroma ou les régions malades par rapport aux régions saines. De telles fonctionnalités font généralement défaut dans d’autres bases de données 3,4,5,6. D’autres caractéristiques, telles que des gènes et des voies spatialement variables, des prédictions de types cellulaires et des résultats de regroupement, sont également disponibles. Dans l’ensemble, cette base de données réduit considérablement les obstacles à l’exploration des données de transcriptomique spatiale. Les échantillons provenant d’un large éventail de tissus et d’affections sont librement accessibles, et les utilisateurs peuvent les parcourir grâce à de simples interactions pointer-cliquer ; Aucune expertise bioinformatique avancée n’est requise. Cela dit, une certaine connaissance préalable des gènes marqueurs et de l’architecture tissulaire est probablement nécessaire pour l’interprétation précise des modèles d’expression et pour sélectionner les régions d’intérêt dans l’outil Tissue Explorer.

Bien que cela ne soit pas présenté ici, les utilisateurs peuvent également télécharger leurs propres échantillons et appliquer la plupart des mêmes outils pour les analyser. La base de données prend également en charge les comparaisons inter-échantillons entre 2 coupes de tissus différentes, permettant, par exemple, des comparaisons entre des tissus malades et des tissus témoins sains. Enfin, les données brutes et traitées, ainsi que tous les résultats d’analyse dérivés, sont disponibles en téléchargement, ce qui permet de prendre en charge les flux de travail en aval et les analyses personnalisées. Pour plusieurs de ces outils, de courtes vidéos tutorielles sont disponibles sur la page tutoriel de la base de données.

Il y a encore des aspects de la base de données qui doivent être améliorés. L’une d’entre elles est la prédiction précise des types et de la composition des cellules à chaque endroit des coupes de tissu. Dans la version actuelle de DeepSpaceDB (version 1.0), nous avons prédit la composition en types cellulaires de chaque spot Visium à l’aide d’une méthode appelée décomposition robuste des types cellulaires (RCTD)²¹. Les TCCR ont obtenu des résultats relativement bons dans une étude comparative récente²². Les prédictions faites par RCTD pourraient également être validées expérimentalement dans notre récente étude sur le foie de souris porteuses de cancer²³. Cependant, aucune évaluation complète de l’exactitude des prédictions de types cellulaires n’a été effectuée. Un problème connexe est que le RCTD et d’autres méthodes de prédiction de type de cellule nécessitent un ensemble de données de référence avec des types de cellules annotés. En général, les types de cellules (ou compositions de types cellulaires) à chaque emplacement spatial sont prédits par la comparaison avec les modèles d’expression génique dans cet ensemble de données de référence. Cependant, il n’est pas toujours facile de choisir une référence appropriée pour chaque échantillon de Visium. Les références peuvent manquer de types de cellules clés ou, à l’inverse, inclure des types de cellules qui ne sont pas présents dans la tranche^{de tissu 24}. De plus, au sein d’un même type de cellule, les cellules peuvent se trouver dans des états radicalement différents, tels que des cellules immunitaires inactives ou activées²⁵. Les états cellulaires présents dans les ensembles de données de référence ne correspondent pas nécessairement à ceux des échantillons spatiaux, qui sont souvent obtenus à partir de modèles de maladies de patients. Ces deux problèmes sont susceptibles d’entraîner des prédictions inexactes. Nous espérons aborder cette question à l’avenir.

Alors que le domaine de la transcriptomique spatiale continue d’évoluer rapidement, un nombre croissant d’outils informatiques sont développés pour analyser divers aspects des données spatiales, y compris les interactions cellule-cellule, les domaines spatiaux et la prédiction de gènes spatialement variables (voir, par exemple, ²⁶^, ²⁷^, ²⁸). Si cette prolifération reflète le dynamisme du domaine, elle présente également un défi pour la conservation et l’intégration d’outils dans cette base de données. Pour s’assurer que les méthodes les plus robustes et les plus largement applicables sont incluses, il est urgent de réaliser des études comparatives systématiques qui évaluent les performances des outils dans l’ensemble des ensembles de données et des tâches d’analyse 22,29,30. Ces efforts seront essentiels pour guider la sélection et la hiérarchisation éclairées des outils à inclure dans la base de données.

Alors que d’autres bases de données de transcriptomique spatiale tentent de collecter un grand nombre d’échantillons de nombreuses plates-formes différentes, dans DeepSpaceDB, nous avons décidé d’utiliser une stratégie différente : nous concentrer sur quelques plates-formes populaires et mettre en œuvre des outils interactifs et intuitifs qui permettent à l’utilisateur d’explorer facilement les données plus en détail. Bien que notre base de données ne contienne que des échantillons de Visium dans la version actuelle 1.0, nous prévoyons d’inclure également des échantillons d’autres plates-formes dans une future mise à jour.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs n’ont rien à divulguer.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs tiennent à remercier Y. Harada pour son aide en matière de secrétariat. Ce travail a été soutenu par JST NBDC (numéro de subvention JPMJND2303, A.V.) et AMED (numéro de subvention JP24gm2010003, A.V.) Ce travail a également été soutenu par JSPS KAKENHI (20H03451, 24K02236 et 24KK0147 ; S.K.), JST FOREST (JPMJFR2062 ; S.K), JST Moonshot (JPMJMS2011-61 ; S.K). Les bailleurs de fonds n’ont joué aucun rôle dans la conception de l’étude, la collecte et l’analyse des données, la décision de publier ou la préparation du manuscrit.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
clusterProfiler		Package R - version 4.14.6
DeepSpaceDB (en anglais seulement)		Version > 1.0	Un lien vers la base de données : www.deepspacedb.com
Limma		Package R - version 3.62.2
R		Édition 4.4.2
RStudio	Énoncer	Version 2024.12

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).">Tian, L., Chen, F., Macosko, E. Z. The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).
Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).">Moses, L., Pachter, L. Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).
SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).">Fan, Z., Chen, R., Chen, X. SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).
SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).">Yuan, Z., et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).
STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).">Xu, Z., et al. STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).
SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).">Li, Y., et al. SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).
DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).">Honcharuk, V., et al. DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).
arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).">GPT-4 technical report. arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).
A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).">Vandenbon, A., Diez, D. A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).
A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).">Vandenbon, A., Diez, D. A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).
Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).">Hao, Y., et al. Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).
Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).">Ritchie, M. E., et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).
ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).">Yu, G., Wang, L. G., Han, Y., He, Q. Y. ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).
KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).">Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).
Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).">Zhang, Y., et al. Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).
Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).">Sreedharan, S., et al. Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).
Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).">Twine, N. A., Janitz, C., Wilkins, M. R., Janitz, M. Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).
Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).">Thomsen, M. S., et al. Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).
The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).">Li, N., Nattie, E., Li, A. The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).
Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).">Iqbal, J. Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).
Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).">Cable, D. M., et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).
Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).">Li, B., et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).
Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).">Vandenbon, A., et al. Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).
Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).">Ivich, A., et al. Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).
A periodic table of cell types. Development. 146 (12), dev169854(2019).">Xia, B., Yanai, I. A periodic table of cell types. Development. 146 (12), dev169854(2019).
Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).">Dong, K., Zhang, S. Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).
Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).">Zhu, J., et al. Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).
Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).">Dries, R., et al. Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).
Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).">Yuan, Z., et al. Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).
Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).">Chen, X., et al. Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Exploitation de jeux de données de transcriptomique spatiale à l’aide de DeepSpaceDB

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles