September 25th, 2021
Ten samouczek opisuje prostą metodę konstruowania algorytmu głębokiego uczenia do przeprowadzania 2-klasowej klasyfikacji sekwencji danych metagenomicznych.
Różnorodne zadania klasyfikacji sekwencji biologicznych, takie jak klasyfikacja gatunków, klasyfikacja funkcji genów i klasyfikacja gospodarzy przewodowych, są oczekiwanymi procesami w wielu analizach danych metagenomicznych. Ponieważ dane metagenomiczne zawierają dużą liczbę gatunków i genów Novo, w wielu badaniach potrzebne są organizmy klasyfikujące o wysokiej wydajności. Biolodzy często napotykają trudności ze znalezieniem odpowiednich narzędzi do klasyfikacji sekwencji i notacji dla konkretnego zadania i często nie są w stanie samodzielnie skonstruować odpowiedniego organizmu z powodu braku niezbędnej wiedzy matematycznej i obliczeniowej.
Techniki głębokiego uczenia stały się ostatnio popularnym tematem i wykazują dużą przewagę w wielu zadaniach klasyfikacyjnych. Do tej pory opracowano wiele wysoce pakietowych pakietów głębokiego uczenia, które umożliwiają biologom konstruowanie ram głębokiego uczenia zgodnie z własnymi potrzebami bez dogłębnej wiedzy na temat szczegółów organizmu. W tym samouczku przedstawiamy wskazówki dotyczące konstruowania łatwej w użyciu struktury uczenia głębokiego do klasyfikacji sekwencji bez konieczności posiadania wystarczającej wiedzy matematycznej lub umiejętności programowania.
W poniższym filmie wideo pokazano, jak używać maszyny wirtualnej do przeprowadzania klasyfikacji sekwencji biologicznych. Użytkownicy muszą pobrać plik maszyny wirtualnej ze strony głównej samouczka, a następnie pobrać oprogramowanie VirtualBox. Maszyna wirtualna jest skompresowana jako siedemdziesiąt plików.
Plik siedemdziesiąt można łatwo zdekompresować za pomocą aktualnego oprogramowania do kompresji, takiego jak WinRar, Winzip i 7-Zip. Rozpakowaliśmy maszynę wirtualną za pomocą 7-Zip. Dekompresja może zająć trochę czasu.
Poczekaj chwilę. Po dekompresji użytkownicy muszą zainstalować oprogramowanie VirtualBox. Utwórz folder, aby zainstalować VirtualBox.
Utwórz pakiet instalacyjny VirtualBox. Wybierz folder utworzony przez siebie. Następnie zainstaluj oprogramowanie VirutalBox, klikając następny przycisk w każdym kroku.
Instalacja może zająć trochę czasu, poczekaj chwilę. Otwórz oprogramowanie VirtualBox. Utwórz nowy przycisk, aby utworzyć maszynę wirtualną.
Wprowadź nazwę maszyny wirtualnej określoną przez siebie w ramce nazwy. Wybierz Linux jako system operacyjny w ramce typu. Wybierz Ubuntu w ramce wersji i kliknij przycisk Dalej.
Jeśli to możliwe, przydziel większą ilość pamięci do maszyny wirtualnej. To prawda, że używasz istniejącego wyboru pliku na dysku twardym. Wybierz plik maszyny wirtualnej pobrany ze strony głównej samouczka.
A następnie kliknij przycisk Utwórz. Kliknij przycisk Start, aby otworzyć maszynę wirtualną. Uruchomienie maszyny wirtualnej może chwilę potrwać.
Poczekaj chwilę przed kolejnym krokiem. Następnie użytkownicy muszą utworzyć folder współdzielony zarówno na hostach fizycznych, jak i na maszynie wirtualnej, aby wymieniać pliki. Na hoście fizycznym utwórz folder współdzielony o nazwie host współdzielony i na pulpicie maszyny wirtualnej utwórz folder współdzielony o nazwie współdzielony VM.In pasku ręcznym maszyny wirtualnej, klikaj kolejno urządzenia, foldery współdzielone, ustawienia folderów współdzielonych.
Kliknij przycisk w prawym górnym rogu. Wybierz folder współdzielony na utworzonym przez siebie hoście fizycznym. Wybierz opcję automatycznego montowania.
Kliknij przycisk OK. Następnie uruchom ponownie maszynę wirtualną. Ponowne uruchomienie maszyny wirtualnej może chwilę potrwać.
Poczekaj chwilę przed kolejnym krokiem. Kliknij prawym przyciskiem myszy na pulpicie maszyny wirtualnej i otwórz terminal. Wpisz następujące polecenie do terminala.
Sudo, spacji, mount, spacji, pasek T, spacji, vboxsf, spacji, współdzielony host, spacji, ukośnik kropkowy, pulpit, ukośnik, współdzielona maszyna wirtualna.Po wyświetleniu monitu o podanie hasła wprowadź je i naciśnij Enter. Skopiuj wszystkie cztery pliki sekwencji w szybszym formacie na potrzeby procesu trenowania i testowania do folderu hosta udostępnionego hosta fizycznego. W ten sposób wszystkie pliki będą również znajdować się w udostępnionym folderze maszyny wirtualnej maszyny wirtualnej.
Następnie skopiuj pliki z udostępnionego folderu maszyny wirtualnej do folderu głębokiego uczenia maszyny wirtualnej. Kliknij prawym przyciskiem myszy i otwórz terminal, a następnie wpisz następujące polecenie, aby wykonać kodowanie na gorąco. Ukośnik kropkowy, jedno kodowanie na gorąco, określ pliki do trenowania i testowania.
I określ typ sekwencji. Następnie wpisz następujące polecenie, aby rozpocząć proces trendów. Klucz spacji Pythona, pociąg kropka P Y.Następnie rozpocznie się proces trendów.
Ten proces może potrwać kilka godzin lub kilka dni, w zależności od rozmiaru zestawu danych. Po zakończeniu procesu wynik przewidywania danych testowych znajduje się w pliku CSV predict dot. W naszej poprzedniej pracy opracowaliśmy szereg narzędzi do klasyfikacji sekwencji dla danych metagenomicznych, stosując podejście podobne do tego w tym samouczku.
Na przykład opracowaliśmy narzędzie mające na celu identyfikację kompletnych i częściowych białek wirionu wirusa prokariotów na podstawie danych seryjnych. Narzędzie miało na celu identyfikację fragmentów DNA fagów na podstawie fragmentów DNA chromosomów bakteryjnych w danych metogenomicznych. Wydajność narzędzi korzystających ze skryptu tego samouczka pokazano na rysunkach a i b.
Podsumowując, ten samouczek zawiera przegląd dla biologów i początkujących projektantów organizmów, jak skonstruować łatwą w użyciu platformę głębokiego uczenia do klasyfikacji sekwencji biologicznych w danych metogenomicznych. Ten samouczek ma na celu zapewnienie intuicyjnego zrozumienia głębokiego uczenia i sprostanie wyzwaniu, jakim jest to, że początkujący często mają trudności z uruchomieniem pakietu głębokiego uczenia i napisaniem kodu dla organizmu. W przypadku niektórych prostych zadań klasyfikacyjnych użytkownicy mogą użyć naszej struktury do wykonania zadania klasyfikacji.
View the full transcript and gain access to thousands of scientific videos
Ten tutorial dostarcza wytycznych dotyczących konstruowania ram dla uczenia głębokiego dla klasyfikacji sekwencji z dwoma klasami danych metagenomowych. Ma na celu pomóc biologom w przezwyciężaniu wyzwań związanych z klasyfikacją sekwencji bez konieczności posiadania rozległej wiedzy matematycznej czy programistycznej.