July 22nd, 2025
Mime to elastyczna platforma obliczeniowa do konstruowania modelu integracji opartego na uczeniu maszynowym o eleganckiej wydajności. W tym miejscu przedstawiamy szczegółową procedurę krok po kroku dotyczącą opracowywania modeli predykcyjnych z dużą dokładnością, wykorzystując złożone zestawy danych do identyfikacji krytycznych genów związanych z postępem choroby, wynikami pacjentów i reakcją terapeutyczną.
Technologia sekwencjonowania o wysokiej dokładności znacząco wpływa na nasze zrozumienie biologii i heterogeniczności nowotworów. Jednak ze względu na liczne dane dotyczące sekwencjonowania, trudno jest szybko przeprowadzić badania przesiewowe i zidentyfikować geny i biomarkery związane z chorobą. Istnieje wiele ram uczenia maszynowego, ale żadna z nich nie oferuje zintegrowanego porównania w celu podejmowania świadomych decyzji. Aby wypełnić tę lukę, opracowaliśmy Mime, ujednoliconą platformę do oceny naprężeń i słabości modelu.
Mime oferuje cztery funkcje: optymalne modelowanie prognozy, przewidywanie odpowiedzi binarnych, identyfikację cech współprognostycznych i wizualizację wydajności modelu, wykorzystując samodzielnie wyszkolone algorytmy uczenia maszynowego do zintegrowanej analizy międzykrytycznej.
Badacze często mają problemy z wyborem algorytmów predykcyjnych i zarządzaniem środowiskami uczenia maszynowego. Tworzenie pakietów Mime w języku R typu open source upraszcza konfigurację modelu, wybór parametrów i wdrażanie, umożliwiając użytkownikom łatwe analizowanie własnych danych.
Mime stanowi kamień milowy w zastosowaniu sztucznej inteligencji w biomedycynie w celu zintegrowania uczenia maszynowego w warstwie sekwencjonowania pojedynczych komórek w celu odkrycia niejednorodności wewnątrznowotworowej przy użyciu różnorodności wewnątrznowotworowej.
[Narrator] Aby rozpocząć, otwórz witrynę GitHub na komputerze stacjonarnym. Zainstaluj wersję rozwojową Mime z GitHub przy użyciu pakietu devtools w R. Przygotuj wiele kohort zawierających dane sekwencjonowania transkrypcyjnego z informacjami o przeżyciu lub odpowiedzi klinicznej. Użyj przykładowych zestawów danych Example.cohort i Example.ici, które są dostępne w repozytorium GitHub Mime. Example.cohort zawiera dwa zestawy danych glejaka z losowo wybranymi 100 próbkami odpowiednio z bazy danych TCGA i CGGA. Uwzględnij wiele zestawów danych, aby skonstruować modele predykcyjne na potrzeby prognozowania w Example.cohort. Sprawdź, czy format zestawu danych zawiera identyfikator próbki w pierwszej kolumnie, czas przeżycia i stan w drugiej i trzeciej kolumnie oraz rejestrować poziomy wyrażenia genów przekształcone w pozostałych kolumnach. Upewnij się, że zestaw danych Dataset1 jest używany do trenowania, a inne zestawy danych do walidacji. Następnie załaduj zestaw danych Example.ici i upewnij się, że format obejmuje identyfikator próbki w pierwszej kolumnie, odpowiedź terapeutyczną w drugiej kolumnie i poziomy wyrażenia genów przekształconych w dzienniku w pozostałych kolumnach. Przygotuj listę genów przy użyciu zestawu genów związanego z sygnalizacją Wnt / beta-kateniny w R z pliku genetycznego. Użyj funkcji ML.Dev.Prog.Sig i podanych kodów, aby skonstruować modele predykcyjne dla prognozy na podstawie Example.cohort i listy genów. Następnie użyj funkcji cindex_dis_all, aby wykreślić indeks C każdego modelu i zidentyfikować optymalny model. Oblicz krzywe przeżycia pacjentów za pomocą oceny ryzyka przy użyciu określonego modelu spośród różnych zestawów danych i przetwórz je w Mime przy użyciu podanych kodów. Oblicz AUC zależne od czasu dla modeli predykcyjnych za pomocą funkcji cal_AUC_ml_res i podanych kodów. Teraz wykreśl zależne od czasu AUC dla każdego modelu, korzystając z funkcji auc_dis_all i podanych kodów. Przetwarzaj zależną od czasu krzywą ROC określonego modelu wśród różnych zestawów danych w Mime przy użyciu funkcji roc_vis i podanych kodów. Aby skonstruować modele predykcyjne dla odpowiedzi terapeutycznej, użyj funkcji ML.Dev.Pred.Category.Sig na podstawie zestawu danych Example.ici i listy genów. Wizualizacja AUC dla każdego modelu odpowiedzi przy użyciu auc_vis_category_all. Następnie wygeneruj krzywe ROC dla każdego modelu za pomocą roc_vis_category. W przypadku wyboru podstawowych cech zidentyfikuj podstawowe geny związane z rokowaniem przy użyciu ML.Corefeature.Prog.Screen na podstawie Example.cohort i listy genów. Wykreśl rangę genów przefiltrowanych różnymi metodami, używając core_feature_rank, aby wyróżnić często identyfikowane geny podstawowe. Spośród 117 modeli prognostycznych skonstruowanych przez Mime, połączony model StepCox[Forward] + plsRcox wykazał najwyższy wskaźnik zgodności we wszystkich kohortach. Pacjenci z wysokimi wynikami ryzyka mieli znacznie gorsze wyniki we wszystkich kohortach. Roczny obszar pod krzywą przewidywany przez SPCOM uplasował się najwyżej spośród wszystkich modeli o najwyższej średniej wartości AUC we wszystkich kohortach. Spośród siedmiu modeli przewidywania odpowiedzi terapeutycznej model svmRadialWeights osiągnął najwyższą wydajność z obszarem pod krzywą wynoszącym 0,81 w zbiorze danych treningowych i 0,68 w zbiorze danych walidacyjnych. Selekcja cech podstawowych zidentyfikowała PSEN2, WNT5B i SKP2 jako najwyżej oceniane geny na podstawie ich nawrotu w różnych algorytmach.
View the full transcript and gain access to thousands of scientific videos
Mime to narzędzie obliczeniowe przeznaczone do konstruowania modeli integracyjnych opartych na uczeniu maszynowym do przewidywania genów związanych z chorobami. W tym artykule opisano krokową procedurę opracowywania modeli predykcyjnych o wysokiej dokładności przy użyciu złożonych zbiorów danych.