Eksploracja zbiorów danych transkryptomiki przestrzennej przy użyciu bazy danych DeepSpaceDB

Nupura Prabhune; Yilin Du; Afeefa Zainab; Satoru Ebihara; Shinji Takeoka; Shinpei Kawaoka; Alexis Vandenbon

doi:10.3791/68892

Method Article

Eksploracja zbiorów danych transkryptomiki przestrzennej przy użyciu bazy danych DeepSpaceDB

DOI:

10.3791/68892

⸱

September 5th, 2025

Nupura Prabhune¹^,² , Yilin Du¹^,³ , Afeefa Zainab⁴ , Satoru Ebihara³ , Shinji Takeoka² , Shinpei Kawaoka¹^,⁵ , Alexis Vandenbon⁴^,⁶

¹Department of Integrative Bioanalytics, Institute of Development, Aging and Cancer, Tohoku University, ²Department of Life Science and Medical Bioscience, Graduate School of Advanced Science and Engineering, Waseda University, ³Department of Rehabilitation Medicine, Tohoku University Graduate School of Medicine, ⁴Institute for Life and Medical Sciences, Kyoto University, ⁵Inter-Organ Communication Research Team, Institute for Life and Medical Sciences, Kyoto University, ⁶Institute for Liberal Arts and Sciences, Kyoto University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W tym artykule przedstawiono protokół korzystania z DeepSpaceDB, dynamicznej, interaktywnej bazy danych do transkryptomiki przestrzennej, oferującej przepływy pracy analizy i przykłady do badania organizacji tkanek i ekspresji genów związanych z chorobą.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Transkryptomika przestrzenna to szybko rozwijająca się technologia, która umożliwia uchwycenie wzorców ekspresji genów w próbkach tkanek przy jednoczesnym zachowaniu informacji o położeniu. Ma szerokie zastosowanie w badaniach biologicznych i bioinformatyce, umożliwiając naukowcom badanie i śledzenie przestrzennych różnic w ekspresji genów w różnych tkankach, stanach i chorobach. Wraz z rosnącą popularnością analizy danych transkryptomiki przestrzennej rośnie liczba publicznie dostępnych zestawów danych. Transkryptomika przestrzenna pozostaje jednak wysoce wyspecjalizowaną techniką eksperymentalną, z istotnymi ograniczeniami technicznymi i finansowymi. Aby ułatwić dostęp do danych przestrzennych, opracowaliśmy niedawno DeepSpaceDB, kompleksową i dynamiczną bazę danych do eksploracji danych transkryptomicznych przestrzennych. W tym artykule przedstawiono szczegółowe przepływy pracy przedstawiające elementy składowe bazy danych i nawigację po niej za pomocą kilku przykładów. Po pierwsze, zademonstrowano analizę próbki mózgu myszy, badając wskaźniki jakości, przestrzennie zmienne geny i szlaki oraz różnice w ekspresji genów między hipokampem a podwzgórzem. Następnie identyfikacja i adnotacja genów o zróżnicowanej ekspresji związanych z aktywnością immunologiczną jest dalej badana poprzez porównanie przerzutowych regionów pochodzenia jelita grubego z odległymi obszarami zdrowej tkanki w mysich wątrobach. DeepSpaceDB, dzięki swoim zaawansowanym narzędziom i interaktywnym funkcjom, służy jako cenne źródło do badań transkryptomiki przestrzennej, umożliwiając głębszą eksplorację organizacji tkanek i biologii chorób.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Transkryptomika przestrzenna to nowa technologia, która umożliwia naukowcom analizę ekspresji genów przy jednoczesnym zachowaniu informacji przestrzennych wewnątrz wycinka tkanki, umożliwiając w ten sposób badanie architektury tkankowej, heterogeniczności komórkowej i wpływów mikrośrodowiskowych w niespotykanej dotąd rozdzielczości ^1,2. Jednak pomimo potencjału tej technologii, dostęp i analiza pozostają ograniczone, transkryptomika przestrzenna jest zbyt kosztowna dla wielu laboratoriów, a analiza danych wymaga zaawansowanych umiejętności bioinformatycznych.

Rozwój publicznych baz danych jest jednym ze sposobów na poszerzenie dostępu do tej wyłaniającej się eksperymentalnej metody. Stworzono kilka przestrzennych baz danych transkryptomicznych. Pierwszym z nich była baza danych SpatialDB, ale zawiera ona tylko ograniczoną liczbę próbek i nie została zaktualizowana³. Bazy danych SODB, SOAR i STOmicsDB zawierają dużą liczbę próbek z wielu różnych platform i pełnią doskonałą rolę jako repozytoria danych ^4,5,6. Jednak narzędzia analityczne są ograniczone i brakuje im interaktywności. Aby rozwiązać ten problem, opracowaliśmy niedawno DeepSpaceDB, wyselekcjonowaną, przyjazną dla użytkownika bazę danych publicznie dostępnych zestawów danych transkryptomiki przestrzennej, zaprojektowaną w celu obniżenia barier technicznych i zwiększenia dostępności⁷. W tym artykule przedstawiono kilka narzędzi w tej bazie danych, w tym przeszukiwanie bazy danych, sprawdzanie jakości próbki, narzędzia do wizualizacji i porównywanie interaktywnie wybranych regionów w wycinkach tkanki. Przedstawiono w nim szczegółowe protokoły na dwóch reprezentatywnych przykładach: analizie próbki mózgu myszy i mysiej wątroby z przerzutami do jelita grubego, aby zademonstrować te narzędzia w praktycznych kontekstach. Dzięki tym narzędziom DeepSpaceDB umożliwia szerszemu gronu badaczy wykorzystanie transkryptomiki przestrzennej bez konieczności posiadania własnych danych lub własnych zdolności bioinformatycznych. Wyczerpujący opis gromadzenia danych, kontroli jakości, przepływu pracy, a także danych i funkcji zawartych w DeepSpaceDB jest szczegółowo przedstawiony przez Honcharuk i^{wsp. 7}.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Przykład 1: Analiza próbki mózgu myszy

UWAGA: W tej sekcji zilustrowano analizę próbki mózgu myszy, poruszając się po różnych obiektach i wykresach dostępnych w DeepSpaceDB (link do bazy danych jest dostępny w Tabeli materiałów).

Wybór próbki
1. Kliknij zakładkę Baza danych i użyj filtra, aby wybrać organizm mysz, narząd mózg i źródłowe zenodo. Poruszaj się po wynikowych próbkach i wybierz DSID001557 próbki. Możesz też użyć pola wyszukiwania, aby wyszukać w bazie danych termin "DSID001557" i wybrać ten przykład.
2. Kliknij na próbkę i potwierdź opis jako 2 × 10⁶ komórek w 100 μl soli fizjologicznej-NK (i.v. wstrzyknięcie raz w tygodniu, w sumie 5 razy).
Analiza jakości
1. Kliknij zakładkę Jakość , aby ocenić jakość wybranej próbki. Z menu rozwijanego miar jakości wybierz różne opcje, takie jak Wykryte geny (Rysunek 1A), Liczba odczytów (Rysunek 1B) i Mito (Rysunek 1C), aby wyświetlić odpowiednie parametry w każdym miejscu na wycinku próbki.
Adnotacja obrazu
1. Przejdź do karty Adnotacja obrazu , aby zidentyfikować różne regiony przykładowego wycinka.
2. Przesuń kursor myszy na przykładowy wycinek. Adnotacje przewidywane przez duży model językowy (LLM) są wyświetlane dla części przykładowego obrazu w sposób oparty na siatce, z informacjami o anatomii i powiązanym stanie⁸.
Analiza skupień
1. Aby uzyskać dokładniejsze informacje na temat klastrów typów komórek w przykładowym wycinku, przejdź do karty Klastry . Zostanie wyświetlone osadzenie klastrów w 2D wraz z reprezentacją klastrów oznaczonych kolorami w miejscach na wycinku próbki (rysunek 1E).
Zmienne przestrzennie geny i szlaki
1. Przejdź do zakładki Geny i zwróć uwagę na geny zmienne przestrzennie (SVG; geny, których poziomy ekspresji różnią się w zależności od lokalizacji tkanki) w próbce ^9,10. Te SVG są przewidywane za pomocą funkcji singleCellHaystack, która przyjmuje miarę dywergencji Kullbacka-Leiblera (D_KL w tabeli), aby ocenić, jak różny jest wzór ekspresji każdego genu od tego, czego można by oczekiwać losowo (Figura 2). Geny o niskiej wartości p (duży ujemny log.p.adj w tabeli) są wymienione jako SVG.
  UWAGA: Dane dotyczące ekspresji genów zostały znormalizowane przy użyciu domyślnych parametrów używanych w pakiecie Seurat R (wersja 5)¹¹. W praktyce odczyty dla każdego genu w każdym miejscu zostały podzielone przez całkowitą liczbę odczytów w tym miejscu i pomnożone przez współczynnik skali 10 000. Następnie, logarytm naturalny został obliczony po dodaniu liczby 1, aby uniknąć problemów z log(0). Wykres pokazany na karcie Geny pokazuje te znormalizowane dane.
2. Kliknij niektóre z najważniejszych genów na liście. Powoduje to wygenerowanie wykresu przestrzennego dla genów w całym wycinku tkanki, z plamkami oznaczonymi kolorami dla poziomu ekspresji (ryc. 2). Geny, które uzyskały najwyższą punktację, mają wyraźnie wyraźne przestrzenne wzorce ekspresji.
3. Przejdź dalej do karty Ścieżki, aby sprawdzić aktywność zestawów genów (np. genów związanych ze wspólnym szlakiem biologicznym), a nie pojedynczych genów. Ścieżki zmienne przestrzennie są wymienione w podobny sposób, jak w przypadku plików SVG omówionych powyżej (rysunek 3). Aktywność szlaku szacuje się na podstawie poziomów ekspresji genów z nimi związanych ^7,11.
  UWAGA: Działania ścieżki zostały oszacowane przy użyciu funkcji pakietu Seurat R addModuleScore¹¹. Krótko mówiąc, funkcja ta przyjmuje jako dane wejściowe zestaw genów (np. zestaw genów zaangażowanych we wspólną ścieżkę) i zwraca ich średnie poziomy ekspresji po kilku etapach przetwarzania. W praktyce wartości dodatnie oznaczają aktywność wyższą niż przeciętna, a wartości ujemne – aktywność niższą niż przeciętna. Wykres pokazany na karcie Ścieżki przedstawia dane dotyczące wyniku tego modułu.
4. Kliknij niektóre z najlepszych ścieżek na liście. W ten sposób generowany jest wykres przestrzenny dla ścieżek w poprzek wycinka tkanki, z plamkami oznaczonymi kolorami dla poziomu aktywności. Kilka ścieżek ma wyraźne przestrzenne wzorce aktywności (ryc. 3).
Porównanie ekspresji genów w obrębie próbki
1. Przejdź do zakładki Tissue Explorer i wybierz opcję Wybór ręczny (jeśli nie został jeszcze wybrany). Następnie użyj kursora myszy, aby wybrać miejsca w obszarze hipokampa wycinka mózgu myszy po lewej stronie. Kliknij zestaw 1 i wybierz dodaj do zestawu. Spowoduje to podświetlenie wszystkich wybranych miejsc na plasterku po prawej stronie (Rysunek 4A).
2. Teraz kliknij zestaw 2 i użyj kursora myszy, aby wybrać miejsca w obszarze podwzgórza wycinka mózgu myszy. Kliknij dodaj do zestawu, co podświetli wszystkie zaznaczone miejsca na plasterku po prawej stronie (Rysunek 4A).
3. Po zakończeniu procesu wyboru miejsca kliknij przycisk Porównaj ekspresję genów . Spowoduje to wygenerowanie tabeli ze średnimi wartościami ekspresji genów w wybranych miejscach między oboma regionami, wraz z reprezentacją wykresu rozrzutu. Najedź kursorem na poszczególne miejsca, aby potwierdzić nazwy genów i średnią ekspresję genów w obu regionach.
4. Na podstawie wyników porównania ekspresji genów zidentyfikuj geny o zróżnicowanej ekspresji i ponownie przejdź do zakładki Geny , aby zwizualizować ich ekspresję w całym wycinku próbki (Figura 4B, C).
  UWAGA: Wykonując czynności opisane powyżej, baza danych DeepSpaceDB może być wykorzystana do zbadania cech próbki transkryptomiki przestrzennej mózgu myszy.

2. Przykład 2: Identyfikacja i adnotacja genów o zróżnicowanej ekspresji związanych z aktywnością immunologiczną w przerzutowych regionach pochodzenia jelita grubego w wątrobach myszy

UWAGA: Porównanie wewnątrz próby jest omówione w bieżącej sekcji. Jest to zilustrowane poprzez identyfikację i adnotację genów o zróżnicowanej ekspresji między przerzutowymi regionami pochodzenia jelita grubego a odległymi regionami zdrowej tkanki w obrębie wycinka wątroby, na podstawie dwóch różnych próbek. Przestrzenna ekspresja specyficznych rozregulowanych genów istotnych dla aktywności immunologicznej jest dodatkowo uwidoczniona w sekcjach tkanki.

Nawigacja w bazie danych i wybór próbki
1. Kliknij zakładkę Baza danych i użyj filtra, aby wybrać organizm mysz, narząd wątroby i stan raka. Z otrzymanych próbek wybierz próbkę DSID001005. Kliknij na próbkę i potwierdź opis stwierdzający, że próbka pochodzi z wątroby myszy zawierającej przerzuty pochodzenia raka jelita grubego.
2. Przejdź do zakładki Tissue Explorer i wybierz opcję Wybór ręczny. Następnie, za pomocą kursora myszy, wybierz plamki w obszarze guza (przerzuty jelita grubego) próbki wątroby DSID001005, zidentyfikowane na podstawie dodatniej ekspresji markera Epcam (ryc. 5A). Kliknij zestaw 1 i wybierz dodaj do zestawu. Spowoduje to podświetlenie wszystkich zaznaczonych miejsc na plasterku po prawej stronie (Rysunek 5C).
3. Teraz kliknij zestaw 2 i użyj kursora myszy, aby wybrać miejsca w odległym regionie nienowotworowym próbki wątroby. Kliknij dodaj do zestawu, co podświetli wszystkie zaznaczone miejsca na plasterku po prawej stronie (Rysunek 5C).
Porównanie ekspresji genów między wybranymi plamkami
1. Po zakończeniu procesu wyboru miejsca kliknij przycisk Porównaj ekspresję genów . Spowoduje to wygenerowanie tabeli ze średnimi wartościami ekspresji genów w wybranych miejscach między oboma regionami, wraz z reprezentacją wykresu rozrzutu. Najedź kursorem myszy na poszczególne miejsca i sprawdź nazwy genów oraz średnią ekspresję genów w obu regionach.
2. Aby przeprowadzić dokładniejszą analizę danych dotyczących ekspresji genów, wybierz opcję Pobierz plik CSV . Spowoduje to wygenerowanie pliku z wartościami rozdzielanymi przecinkami (CSV) z danymi dotyczącymi ekspresji genów dla dwóch regionów próbki.
3. Powtórzyć kroki 2.1.1-2.1.3 i 2.2.1-2.2.2 dla próbki "DSID001007". Potwierdź jego opis jako kolejny wycinek z wątroby myszy zawierający przerzuty pochodzenia z raka jelita grubego.
Analiza danych za pomocą programowania w języku R
1. Upewnij się, że powyższe kroki spowodowały powstanie 2 plików CSV, jednego z przykładowej DSID001005 i jednego z przykładowej DSID001007. Oba pliki zawierają 2 kolumny reprezentujące średnią ekspresję genów w 2 selekcjach (tkanka nowotworowa i tkanka nienowotworowa), które zostały wykonane w każdej próbce.
2. Odczytaj pliki CSV do języka R i połącz je w celu dalszej analizy z dwiema powtórzeniami na stan (tj. region guza z przerzutami raka jelita grubego i odległą zdrową tkanką w wątrobie). Zapoznaj się ze skryptem języka R i plikami danych w materiałach uzupełniających.
3. Użyj pakietu limma (wersja 3.62.2) w języku R (wersja 4.4.2)¹² , aby przeprowadzić analizę różnicową wyrażeń dla danych, kategoryzując regiony przerzutów do jelita grubego w obu próbkach jako raka, a odległe, zdrowe regiony obu próbek jako kontrolę. Uzyskaj podwyższone geny za pomocą filtra logFC > 0,5 i dostosowanej wartości p < 0,05. Podobnie, uzyskaj geny regulowane w dół za pomocą filtra logFC < -0,5 i dostosowanej wartości p < 0,05.
  UWAGA: Te zestawy genów są wykorzystywane do identyfikacji szlaków biologicznych, na które wpływa guz w następnym kroku (Figura 6A, B).
4. Użyj pakietu clusterProfiler (wersja 4.14.6) w R¹³ , aby przeprowadzić analizę szlaków Encyklopedii Genów i Genomów z Kioto (KEGG)¹⁴ dla genów regulowanych w dół i w górę. Opierając się na rygorystycznym filtrze wartości q < 0,05, zidentyfikuj istotne szlaki związane z genami regulowanymi w dół i w górę. Skoncentruj się na genach związanych ze szlakami immunologicznymi, aktywnością immunologiczną lub odpowiednimi sygnaturami (Figura 6B).
Eksploracja danych specyficznych dla genów
1. Następnie wyszukaj nazwy genów w sekcji Geny zmienne przestrzennie , aby potwierdzić przestrzenną ekspresję docelowych genów. Kliknij nazwę genu, aby wygenerować wykres przestrzenny dla genu w poprzek wycinka tkanki, z plamkami oznaczonymi kolorem dla poziomu ekspresji (ryc. 7).
2. Zidentyfikuj określone geny z przestrzennymi wzorcami ekspresji w miejscu przerzutów do jelita grubego, w przeciwieństwie do odległej, zdrowej tkanki wątroby. Funkcjonalne znaczenie genów lub ich ekspresja w innych narządach lub stanach może być dalej badana w bazie danych.
3. Wybierz kartę Szukaj i wybierz gatunek jako mysz. Kliknij opcję wyszukiwania według genu i wpisz nazwę genu. Zostanie wyświetlony przegląd rozmieszczenia genów w narządach i stanach, który będzie mógł być dalej analizowany.
  UWAGA: Dzięki krokom opisanym powyżej, DeepSpaceDB może być używany do badania wzorców ekspresji genów między regionami przerzutowymi i nieprzerzutowymi w próbkach transkryptomiki przestrzennej wątroby myszy.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Przykład 1 zademonstrował analizę próbki mózgu myszy, weryfikując parametry, takie jak liczba odczytów, przestrzennie zmienne geny i szlaki oraz różnice w ekspresji genów między hipokampem a korą mózgową. Po pierwsze, jakość próbki mózgu myszy DSID001557 oceniono pod kątem kilku miar jakości: "Wykryte geny" (Figura 1A), "Liczba odczytów" (Figura 1B) i "Mito" (procent odczytów mitochondrialnych; Rysunek 1C). To wyraźnie uwydatniło obszar o niższej jakości po lewej stronie próbki mózgu, w oparciu o niską liczbę wykrytych genów i niską liczbę odczytów. Aby zrozumieć względną jakość próbki w porównaniu ze wszystkimi innymi próbkami, kliknięto kartę Względna jakość próbki w bazie danych, która wyświetlała wykres liczby w stosunku do liczby. genów wykrytych na plamkę (średnia). W analizowanej próbce wykryto od 3500 do 4000 genów na plamkę (ryc. 1D). Cechy anatomiczne próbki poddano dalszej analizie za pomocą zakładki Adnotacja obrazu . Ogólnie rzecz biorąc, adnotacje te zostały wygenerowane poprzez pocięcie obrazów tkanek na mniejsze części i poproszenie LLM o opisanie obserwowalnych cech⁸. Są to przybliżone wskazówki pomocne w interpretacji próbki i muszą być interpretowane z ostrożnością. W przypadku podzbioru próbek (zwłaszcza próbek ludzkiego raka piersi) dostępne są również adnotacje sporządzone przez specjalistę. Biorąc jednak pod uwagę niższą jakość obrazów Visium H&E w porównaniu z obrazami używanymi do rutynowej diagnozy, dostarczone adnotacje służą wyłącznie celom badawczym. Aby wyświetlić próbkę DSID001557, przesuń kursor nad wyświetlane wycinki z adnotacjami dotyczącymi różnych regionów mózgu myszy, takich jak obszar hipokampa, warstwy korowe, gęste warstwy komórkowe z glejozą itp. Na podstawie zrozumienia podstawowych cech anatomicznych wycinka próbki, dalsze badania przeprowadzono szczegółowymi cechami, takimi jak klastry typów komórek oraz przestrzennie zmienne geny i szlaki. Próbka mózgu myszy miała w sumie 15 klastrów, które były reprezentowane za pomocą kodowania kolorami na wycinku próbki (ryc. 1E). Niektóre z najważniejszych zmiennych przestrzennie genów związanych z próbką to Nrgn, Slc17a7, Ly6h i Ddn (Figura 2). Nrgn wykazywał wysoką ekspresję w regionie hipokampa, zgodnie z dowodami literackimi, które wskazują na rolę białka kodowanego przez Nrgn (neurograniny) w pośredniczeniu w plastyczności synaptycznej i uczeniu się przestrzennym¹⁵. Slc17a7, gen kodujący pęcherzykowy transporter glutaminianu kluczowy dla neuroprzekaźnictwa w neuronach glutaminergicznych¹⁶, oraz Ddn, gen kodujący białko, które moduluje strukturę cytoszkieletu postsynaptycznego¹⁷, były również silnie eksprymowane w regionie hipokampa. Natomiast ekspresja genu Ly6h była zlokalizowana w obszarze korowym, zgodnie z literaturą, która wskazuje na restrykcyjną rolę synaptyczną Ly6h w błonach komórek korowych¹⁸. W podobny sposób aktywność ścieżek została zwizualizowana w całym wycinku próbki (ryc. 3). Zaobserwowano, że szlaki zmienne przestrzennie są aktywowane zgodnie z funkcjonalnymi rolami genów zmiennych przestrzennie, z regulacją plastyczności synaptycznej i aktywności neuroprzekaźników w regionie hipokampa oraz sygnalizacją neuropeptydową w obszarze korowym.

Wreszcie, aby zidentyfikować geny o zróżnicowanej ekspresji między regionem hipokampa a podwzgórzem próbki mózgu myszy, wykorzystano zakładkę Tissue Explorer . Miejsca związane z obszarami zainteresowania zostały wybrane zgodnie ze wskazówkami z adnotacji obrazu (ryc. 4A). Z wygenerowanego wykresu rozrzutu wynika, że niektóre ze zidentyfikowanych genów o zróżnicowanej ekspresji należały do najbardziej zmiennych przestrzennie genów (Nrgn, Slc17a7, Ddn), a także kilka innych, takich jak Pmch i Ttr. Ekspresja tych genów została zwizualizowana w wycinku próbki. Pmch był specyficznie nadekspresjonowany w bocznym obszarze podwzgórza (Figura 4B; porównaj z zielonym wybranym obszarem na Rycinie 4A). Gen ten koduje prekursor hormonu koncentrującego melaninę i bierze udział w utrzymaniu homeostazy energetycznej¹⁹. W przeciwieństwie do tego, gen Ttr był specyficznie wyrażany w regionie hipokampa (Figura 4C; porównaj z czerwonym zaznaczonym obszarem na Rysunku 4A), zgodnie z jego funkcjonalną rolą w uczeniu się i pamięci przestrzennej²⁰. Przeprowadzając porównania między różnymi regionami mózgu myszy w ramach próby przy użyciu tej bazy danych, byliśmy w stanie podkreślić cechy funkcjonalne specyficzne dla regionu w oparciu o przestrzenną ekspresję genów i aktywność szlaku.

W przykładzie 2 baza danych została wykorzystana do identyfikacji sygnatur immunologicznych związanych z przerzutami do jelita grubego w wątrobie. Porównano między obszarem guza z przerzutami do jelita grubego a odległą, zdrową tkanką wątroby, poprzez odpowiedni dobór miejsca dla dwóch próbek: DSID001005 (ryc. 5A-C) i DSID001007 (ryc. 5D-F). Dane zostały ponownie przeanalizowane z dwiema powtórzeniami na stan przy użyciu R. Różnicowa analiza ekspresji przeprowadzona między regionem guza z przerzutami do jelita grubego a zdrową tkanką wątroby ujawniła regulację w dół 138 genów i regulację w górę 115 genów, w oparciu o wybrane parametry (Figura 6A, B). Analiza szlaku KEGG wykazała wzbogacenie szlaków genów regulowanych w dół, takich jak metabolizm leków i kancerogeneza chemiczna (Figura 6C), podczas gdy geny regulowane w górę wykazywały sygnatury odpowiadające między innymi migracji przezśródbłonkowej leukocytów, adhezji ogniskowej i cyklowi komórkowemu (Figura 6D). Koncentrując się na znaczeniu migracji śródbłonka leukocytów dla aktywności immunologicznej, zidentyfikowano najważniejsze geny wykryte w tej kategorii, a ich ekspresję przestrzenną zaobserwowano w DeepSpaceDB. Co ciekawe, geny Cldn7, Cldn4 i Actg1 wykryte w kategorii migracji przezśródbłonkowej leukocytów wykazywały regulację w górę w regionie guza (miejsce Epcam ⁺) próbek, a nie w odległym regionie ze zdrową tkanką wątroby (Figura 7). Dostarczyło to informacji na temat natury aktywności immunologicznej napędzanej w miejscu guza wątroby, z aktywną rekrutacją leukocytów. Podsumowując, analiza wewnątrz próbki przy użyciu DeepSpaceDB umożliwia wydobycie różnorodnych informacji biologicznych. Porównując przestrzenne dane transkryptomiczne za pomocą interaktywnych narzędzi i procesów ponownej analizy, naukowcy mogą generować i weryfikować hipotezy dotyczące specyficznej tkankowo ekspresji genów i niejednorodności funkcjonalnej.

figure-results-1
Rysunek 1: Miary jakości próby. (A) liczba wykrytych genów, (B) liczba odczytów i (C) procent odczytów mitochondriów na miejsce. (D) Średnia liczba wykrytych genów na plamkę w tej próbce, w porównaniu z rozkładem wszystkich innych próbek w bazie danych. (E) Punktowe skupiska w poprzek wycinka tkanki. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-2
Rysunek 2: Ekspresja najwyższych genów zmiennych przestrzennie. (a) Nrgn, (b) SLC17a7, (c) ly6h i (d) ddn. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-3
Rysunek 3: Aktywność górnych szlaków zmiennych przestrzennie. (A) Sygnalizacja neuropeptydowa, (B) Regulacja plastyczności synaptycznej, (C) Transport neuroprzekaźników. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-4
Rycina 4: Porównanie wzorców ekspresji genów między dwoma wybranymi regionami mózgu myszy. (A) Selekcja punktowa w regionach podwzgórza i hipokampa do porównań wewnątrz próby. Wybrany region 1 jest wyświetlany na czerwono, a region 2 na zielono. Przestrzenne wzorce ekspresji genów o zróżnicowanej ekspresji (B) Pmch i (C) Ttr między regionami podwzgórza i hipokampa. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-5
Rycina 5: Właściwości dwóch przerzutowych próbek wątroby myszy. Dla próbki DSID001005: (A) ekspresja markera Epcam , (B) klastry punktowe oraz (C) wybrane regiony w regionach nowotworowych i odległych do porównań wewnątrz próby. Dla próbki DSID001007: (D) ekspresja markera Epcam , (E) klastry punktowe oraz (F) wybrane regiony w regionach nowotworowych i odległych do porównań wewnątrz próby. W przypadku obu próbek plamki nowotworowe znajdują się w regionach pokazanych na czerwono, a plamki nienowotworowe znajdują się w obszarach pokazanych na zielono. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-6
Rysunek 6: Wyniki ponownej analizy. (A) Schematyczne podsumowanie procesu roboczego zastosowanego w ponownej analizie. (B) Wykres wulkaniczny reprezentujący geny o zróżnicowanej ekspresji między regionami nowotworowymi i odległymi. Wzbogacanie szlaku KEGG genów (C) regulowanych w górę i (D) genów regulowanych w dół. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

figure-results-7
Rycina 7: Przestrzenna ekspresja genów. (A) Cldn7, (B) Cldn4 i (C) Actg1 w DSID001005 wycinka tkanki. Przestrzenna ekspresja genów. (D) Cldn7, (E) Cldn4 i (F) Actg1 w DSID001007 wycinku tkanki. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Pliki uzupełniające 1-4: Pliki danych i skrypt R dla przykładu przerzutów do wątroby. Kliknij tutaj, aby pobrać ten plik.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W tym miejscu przedstawiliśmy dwa kompleksowe protokoły opisujące nawigację, wyszukiwanie i analizę danych transkryptomicznych przestrzennych w DeepSpaceDB. Podczas gdy większość baz danych omiki przestrzennej koncentruje się na zbieraniu danych z dużej liczby próbek, generowanych przy użyciu różnych platform 3,4,5,6, DeepSpaceDB koncentruje się na rozwoju interaktywnych narzędzi, które pozwalają użytkownikom dogłębnie i efektywnie badać przestrzenne cechy transkryptomiczne. Aby umożliwić ten poziom funkcjonalności, bieżąca wersja koncentruje się wyłącznie na platformie Visium. Wraz z pojawieniem się platform o wysokiej rozdzielczości, planujemy odpowiednio rozbudować DeepSpaceDB, opracowując nowe strategie przetwarzania i integracji takich danych w sposób przyjazny dla użytkownika.

DeepSpaceDB umożliwia użytkownikom ocenę wskaźników jakości próbki (np. liczbę genów, głębokość odczytu) i porównywanie ich w różnych zestawach danych. Baza danych zawiera wielowarstwowe adnotacje: nienadzorowane grupowanie w całej bazie danych z przypisanymi etykietami, wykrywanie cech strukturalnych i patologicznych na podstawie obrazów histologicznych w oparciu o LLM oraz adnotacje histologiczne ekspertów dla rosnącego podzbioru próbek. Co więcej, użytkownicy mogą interaktywnie wybierać interesujące regiony w obrębie próbek lub między nimi, aby porównać ekspresję genów, umożliwiając badanie kontrastów przestrzennych między regionami, takimi jak guz kontra zrąb lub chore a zdrowe regiony. Takich funkcji na ogół brakuje w innych bazach danych 3,4,5,6. Dostępne są również inne funkcje, takie jak przestrzennie zmienne geny i szlaki, przewidywania typów komórek i wyniki grupowania. Podsumowując, ta baza danych znacznie obniża bariery w eksploracji przestrzennych danych transkryptomicznych. Próbki z szerokiej gamy tkanek i schorzeń są swobodnie dostępne, a użytkownicy mogą nawigować po nich za pomocą prostych interakcji typu "wskaż i kliknij"; Nie jest wymagana zaawansowana wiedza bioinformatyczna. To powiedziawszy, pewna wcześniejsza wiedza na temat genów markerowych i architektury tkanek jest prawdopodobnie niezbędna do dokładnej interpretacji wzorców ekspresji i wyboru regionów zainteresowania w narzędziu Tissue Explorer.

Chociaż nie zostało to tutaj przedstawione, użytkownicy mogą również przesyłać własne próbki i stosować wiele tych samych narzędzi do ich analizy. Baza danych obsługuje również porównania między próbkami między 2 różnymi wycinkami tkanek, umożliwiając na przykład porównania między chorymi tkankami a zdrowymi tkankami kontrolnymi. Wreszcie, surowe i przetworzone dane, wraz ze wszystkimi pochodnymi wynikami analizy, są dostępne do pobrania, wspierając dalsze przepływy pracy i niestandardowe analizy. W przypadku kilku z tych narzędzi krótkie filmy instruktażowe są dostępne na stronie samouczka bazy danych.

Nadal istnieją aspekty bazy danych, które wymagają poprawy. Jednym z nich jest dokładne przewidywanie typów komórek i składu typów komórek w każdym miejscu w wycinkach tkanki. W obecnej wersji DeepSpaceDB (wersja 1.0) przewidzieliśmy skład typu komórki każdej plamki Visium za pomocą metody zwanej solidną dekompozycją typu komórki (RCTD)²¹. RCTD wypadło stosunkowo dobrze w niedawnym badaniu porównawczym²². Przewidywania dokonane przez RCTD mogą być również eksperymentalnie potwierdzone w naszym niedawnym badaniu wątroby myszy z rakiem²³. Nie przeprowadzono jednak kompleksowej oceny dokładności przewidywań typów komórek. Powiązanym problemem jest to, że RCTD i inne metody przewidywania typów komórek wymagają zestawu danych referencyjnych z typami komórek z adnotacjami. Ogólnie rzecz biorąc, typy komórek (lub kompozycje typów komórek) w każdej lokalizacji przestrzennej są przewidywane poprzez porównanie z wzorcami ekspresji genów w tym referencyjnym zestawie danych. Jednak wybór odpowiedniego referencji dla każdej próbki Visium nie zawsze jest prosty. Odniesienia mogą nie zawierać kluczowych typów komórek lub odwrotnie, mogą zawierać typy komórek, których nie ma w wycinku tkanki²⁴. Co więcej, w obrębie jednego typu komórek komórki mogą znajdować się w drastycznie różnych stanach, takich jak nieaktywne i aktywowane komórki odpornościowe²⁵. Stany komórek obecne w referencyjnych zestawach danych niekoniecznie pokrywają się ze stanami próbek przestrzennych, które często uzyskuje się z modeli chorobowych pacjentów. Oba problemy prawdopodobnie spowodują niedokładne prognozy. Mamy nadzieję, że uda nam się rozwiązać ten problem w przyszłości.

Ponieważ dziedzina transkryptomiki przestrzennej nadal szybko się rozwija, opracowywana jest coraz większa liczba narzędzi obliczeniowych do analizy różnych aspektów danych przestrzennych, w tym interakcji komórka-komórka, domen przestrzennych i przewidywania przestrzennie zmiennych genów (patrz na przykład 26,27,28). Chociaż to rozpowszechnienie odzwierciedla dynamikę tej dziedziny, stanowi również wyzwanie w zakresie selekcji i integracji narzędzi z tą bazą danych. Aby zapewnić uwzględnienie najbardziej niezawodnych i szeroko stosowanych metod, istnieje pilna potrzeba systematycznych badań porównawczych, które oceniałyby wydajność narzędzi w zestawach danych i zadaniach analitycznych 22,29,30. Takie wysiłki będą miały zasadnicze znaczenie dla ukierunkowania świadomego wyboru i priorytetyzacji narzędzi, które mają zostać włączone do bazy danych.

Podczas gdy inne bazy danych transkryptomiki przestrzennej próbują gromadzić dużą liczbę próbek z wielu różnych platform, w DeepSpaceDB zdecydowaliśmy się na inną strategię: skupienie się na kilku popularnych platformach i wdrożenie interaktywnych i intuicyjnych narzędzi, które pozwalają użytkownikowi w łatwy sposób eksplorować dane w bardziej szczegółowy sposób. Chociaż nasza baza danych zawiera tylko próbki Visium w obecnej wersji 1.0, planujemy dołączyć również próbki z innych platform w przyszłej aktualizacji.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy nie mają nic do ujawnienia.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy pragną podziękować J. Haradzie za pomoc w sekretariacie. Prace te były wspierane przez JST NBDC (Grant Number JPMJND2303, A.V.) i AMED (Grant Number JP24gm2010003, A.V.) Prace te były również wspierane przez JSPS KAKENHI (20H03451, 24K02236 i 24KK0147; S.K.), JST FOREST (JPMJFR2062; S.K), JST Moonshot (JPMJMS2011-61; S.K). Fundatorzy nie odgrywali żadnej roli w projektowaniu badania, gromadzeniu i analizie danych, podejmowaniu decyzji o publikacji lub przygotowaniu manuskryptu.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
clusterProfiler (moduł clusterProfiler)		Pakiet języka R — wersja 4.14.6
Baza danych DeepSpaceDB		Wersja > 1.0	Link do bazy: www.deepspacedb.com
Limma powiedział:		Pakiet języka R — wersja 3.62.2
R		Wersja 4.4.2
RStudio	Postawa	Wersja 2024.12

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).">Tian, L., Chen, F., Macosko, E. Z. The expanding vistas of spatial transcriptomics. Nat Biotechnol. 41 (6), 773-782 (2023).
Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).">Moses, L., Pachter, L. Museum of spatial transcriptomics. Nat Methods. 19 (5), 534-546 (2022).
SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).">Fan, Z., Chen, R., Chen, X. SpatialDB: A database for spatially resolved transcriptomes. Nucleic Acids Res. 48 (D1), D233-D237 (2020).
SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).">Yuan, Z., et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods. 20 (3), 387-399 (2023).
STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).">Xu, Z., et al. STOmicsDB: A comprehensive database for spatial transcriptomics data sharing, analysis and visualization. Nucleic Acids Res. 52 (D1), 1053-1061 (2024).
SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).">Li, Y., et al. SOAR elucidates biological insights and empowers drug discovery through spatial transcriptomics. Sci Adv. 11 (24), 7450(2025).
DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).">Honcharuk, V., et al. DeepSpaceDB: A spatial transcriptomics atlas for interactive in-depth analysis of tissues and tissue microenvironments. bioRxiv. , (2025).
arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).">GPT-4 technical report. arXiv. , OpenAI. http://arxiv.org/abs/2303.08774 (2023).
A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).">Vandenbon, A., Diez, D. A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data. Nat Commun. 11 (1), 1-10 (2020).
A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).">Vandenbon, A., Diez, D. A universal tool for predicting differentially active features in single-cell and spatial genomics data. Sci Rep. 13 (1), 1-14 (2023).
Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).">Hao, Y., et al. Dictionary learning for integrative, multimodal, and scalable single-cell analysis. Nat Biotechnol. 42 (2), 293-304 (2024).
Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).">Ritchie, M. E., et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47(2015).
ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).">Yu, G., Wang, L. G., Han, Y., He, Q. Y. ClusterProfiler: An R package for comparing biological themes among gene clusters. OMICS. 16 (5), 284-287 (2012).
KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).">Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51 (D1), D587-D592 (2023).
Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).">Zhang, Y., et al. Association between NRGN gene polymorphism and resting-state hippocampal functional connectivity in schizophrenia. BMC Psychiatry. 19 (1), 108(2019).
Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).">Sreedharan, S., et al. Glutamate, aspartate and nucleotide transporters in the SLC17 family form four main phylogenetic clusters: evolution and tissue expression. BMC Genomics. 11, 17(2010).
Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).">Twine, N. A., Janitz, C., Wilkins, M. R., Janitz, M. Sequencing of hippocampal and cerebellar transcriptomes provides new insights into the complexity of gene regulation in the human brain. Neurosci Lett. 541, 263-268 (2013).
Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).">Thomsen, M. S., et al. Expression of the Ly-6 family proteins Lynx1 and Ly6H in the rat brain is compartmentalized, cell-type specific, and developmentally regulated. Brain Struct Funct. 219 (6), 1923-1934 (2014).
The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).">Li, N., Nattie, E., Li, A. The role of melanin concentrating hormone (MCH) in the central chemoreflex: A knockdown study by siRNA in the lateral hypothalamus in rats. PLoS ONE. 9 (8), e103585(2014).
Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).">Iqbal, J. Transthyretin-a key gene involved in regulating learning and memory in brain, and providing neuroprotection in Alzheimer disease via neuronal synthesis of transthyretin protein. J. Behav. Brain Sci. 8 (2), 77-92 (2018).
Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).">Cable, D. M., et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 40 (4), 517-526 (2021).
Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).">Li, B., et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods. 19 (6), 662-670 (2022).
Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).">Vandenbon, A., et al. Murine breast cancers disorganize the liver transcriptome in a zonated manner. Commun Biol. 6 (1), 1-12 (2023).
Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).">Ivich, A., et al. Missing cell types in single-cell references impact deconvolution of bulk data but are detectable. Genome Biol. 26 (1), 86(2025).
A periodic table of cell types. Development. 146 (12), dev169854(2019).">Xia, B., Yanai, I. A periodic table of cell types. Development. 146 (12), dev169854(2019).
Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).">Dong, K., Zhang, S. Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nat Commun. 13 (1), 1739(2022).
Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).">Zhu, J., et al. Mapping cellular interactions from spatially resolved transcriptomics data. Nat Methods. 21, 1830-1842 (2024).
Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).">Dries, R., et al. Giotto: A toolbox for integrative analysis and visualization of spatial expression data. Genome Biol. 22 (1), 1-31 (2021).
Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).">Yuan, Z., et al. Benchmarking spatial clustering methods with spatially resolved transcriptomics data. Nat Methods. 21 (4), 712-722 (2024).
Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).">Chen, X., et al. Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics. Bioinformatics. 41 (4), btaf131(2025).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Eksploracja zbiorów danych transkryptomiki przestrzennej przy użyciu bazy danych DeepSpaceDB

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles