March 5th, 2022
Protokół przedstawiony tutaj opisuje kompletny potok do analizy danych transkryptomu sekwencjonowania RNA, od surowych odczytów do analizy funkcjonalnej, w tym etapy kontroli jakości i wstępnego przetwarzania do zaawansowanych metod analizy statystycznej.
Witamy w protokole wysokoprzepustowej analizy transkryptomu do badania interakcji gospodarz-patogen. Ten protokół jest podzielony na następujące kroki. Kontrola jakości w celu filtrowania odczytów o niskiej jakości, a także usuwania sekwencji adapterów Sekwencjonowanie i adnotacje, gdzie musisz zmapować odczyty do genomów referencyjnych i dodać adnotacje do odczytów w genach.
Analiza statystyczna i koekspresji, która definiuje geny o zróżnicowanej ekspresji, a także znajduje moduły koekspresji. Molekularna analiza stopnia perturbacji w celu znalezienia potencjalnych próbek odstających. I wreszcie analiza funkcjonalna w celu określenia funkcji biologicznych genów o zróżnicowanej ekspresji.
Wszystkie narzędzia wykorzystujące te potoki zostały wstępnie zainstalowane w systemie Linux i zamknięte w kontenerze Docker. Próbki wykorzystujące te protokoły pochodzą z artykułu opublikowanego przez naszą grupę w PLOS Pathogen. Próbki pochodzą od 20 zdrowych osób i 39 pacjentów zakażonych wirusem Chikungunya.
Pobrano próbki krwi i przeprowadzono sekwencjonowanie RNA. Aby zainstalować Dockera w systemie Windows, musisz wykonać następujące kroki. Przejdź do oficjalnej strony internetowej Dockera i kliknij Rozpocznij.
Znajdź instalatora programu Docker Desktop dla systemu Windows. Pobierz plik. Zainstaluj lokalnie na swoim komputerze.
Upewnij się, że te dwie opcje są zaznaczone. Po zainstalowaniu programu pobiera obraz Dockera dla tego protokołu. Przejdź do terminala Windows.
Wykonaj polecenia, aby pobrać obraz. Po pobraniu obrazu możemy zobaczyć plik w pulpicie Dockera i z tego obrazu możemy zainicjować kontener. Po kliknięciu okrągłego przycisku należy rozwinąć oryginalne parametry i opcje, aby zdefiniować nazwę kontenera i skojarzyć folder na komputerze lokalnym z folderem wewnątrz Dockera.
Następnie kliknij przycisk Uruchom, aby zainicjować kontener. Następnie możesz uzyskać dostęp do terminala, który znajduje się w systemie Linux wewnątrz Dockera. Wpisz polecenia bash, a następnie możesz wykonać wszystkie polecenia tego protokołu.
Najpierw musimy uruchomić źródło, aby udostępnić wszystkie narzędzia tego protokołu. Powinieneś uzyskać dostęp do skryptów katalogu. Aby przeprowadzić analizę transkryptomiczną, należy najpierw pobrać genom referencyjny.
W tym celu musisz wykonać następujące polecenia. Po pobraniu genomu należy pobrać adnotację genów. Aby to zrobić, musisz wpisać następujące polecenia.
Następnie musisz skonfigurować fastq-dump. Umożliwia to pobranie plików sekwencjonowania przykładów. Po wpisaniu poniższych poleceń musisz użyć przycisku Tab, aby przejść do opcji Narzędzia i zaznaczyć katalog opcji currents.
Użyj przycisków Tab, aby zapisać, a następnie kliknij przycisk OK. A następnie wyjdź z narzędzia fastq-dump. Teraz możemy zainicjować pobieranie odczytów, wpisując następujące polecenia.
Kontrola jakości polega na graficznej ocenie prawdopodobieństwa wystąpienia błędów w odczytach sekwencyjnych. Na tym etapie musisz również usunąć sekwencje techniczne, takie jak adaptery. Aby wygenerować wykresy kontroli jakości, musisz uruchomić program FastQC.
Aby usunąć sekwencje adapterów i sekwencje o niskiej jakości, musisz wpisać następujące polecenia. Dzięki dobrej jakości odczytom musimy teraz zmapować odczyty do genomu referencyjnego. Po mapowaniu będziemy musieli oznaczyć geny zgodnie z ludzkimi genami, a następnie policzyć liczbę odczytów, które pasują do każdego ludzkiego genu.
Pierwszym krokiem jest zindeksowanie genomu referencyjnego poprzez wpisanie następującego polecenia. A następnie wpisujemy te polecenia, aby zmapować odczyty do ludzkiego genomu. Następnie należy uruchomić skrypty, które dodają adnotacje do odczytów.
Po mapowaniu i adnotacji można przeprowadzić analizę ekspresji różnicowej, która polega na znalezieniu genów, których ekspresja jest wyższa lub niższa w jednej grupie w porównaniu z inną. Aby zidentyfikować geny o zróżnicowanej ekspresji lub DEG, musisz uruchomić następujące polecenia. Następnie możesz przenieść wyniki danych z platformy Docker na komputer lokalny.
W tym celu przejdź do terminala i wpisz następujące polecenia, aby zapisać wszystkie wyniki w folderze lokalnym. Aby przeprowadzić pozostałą analizę, należy również skopiować wszystkie pliki danych katalogu do katalogu na komputerze lokalnym. Na komputerze lokalnym będzie można zobaczyć katalogi, w których zapisano dane z platformy Docker.
Jak widać, możesz uzyskać dostęp do wszystkich bibliotek. Można również otworzyć plik HTML zawierający raporty z kontroli jakości. Możesz również uzyskać dostęp do katalogu zawierającego geny o zróżnicowanej ekspresji.
A w tym katalogu znajdziesz wykresy wulkanów, na których możesz zobaczyć geny, które są regulowane w górę lub w dół w jednej grupie w porównaniu z drugą, w tym przypadku pacjenci zakażeni wirusem Chikungunya w porównaniu ze zdrowymi osobami z grupy kontrolnej. Wszystkie pozostałe kroki tego protokołu zostaną wykonane w narzędziach internetowych za pomocą przeglądarki. Zacznijmy najpierw od CEMiTool.
Przejdź do przeglądarki i wpisz następujący adres. CEMiTool identyfikuje moduły koekspresji ze zbiorów danych wyrażeń dostarczonych przez użytkowników. Na stronie głównej możesz przejść do menu i kliknąć w przycisk Uruchom.
Spowoduje to otwarcie nowej strony, na której możesz przesłać plik wyrażenia. Ten plik znajduje się w katalogu danych komputera lokalnego. Zobaczysz, że istnieją trzy pliki wyrażeń, a ten, którego zamierzamy użyć dla CEMiTool, to wywołanie normalizacji tmm.
Następnie musisz wybrać plik z fenodanymi, to samo dotyczy pliku zawierającego interakcje białko-białko, a na końcu przesłać plik zawierający zestawy genów lub szlaki. Plik zestawów genów umożliwia CEMiTool przeprowadzenie analizy wzbogacenia dla każdego z modułów koekspresji. Następnie należy rozwinąć sekcję parametrów i kliknąć Zastosuj VST.
Następnie możesz po prostu kliknąć Uruchom CEMiTool. Po uruchomieniu CEMiTool zobaczysz, że zidentyfikowano 12 modułów koekspresji. Klikając tutaj, możesz pobrać wszystkie wyniki tych analiz.
Innym narzędziem, które zamierzamy wykorzystać w tym protokole, jest MDP, czyli molekularny stopień perturbacji. Wystarczy, że wpiszesz w przeglądarce mdp.sysbio.tools. MDP oblicza odległość molekularną każdej próbki w porównaniu z grupą referencyjną próbek, w tym przypadku zdrowymi osobami z grupy kontrolnej, w celu znalezienia nie tylko potencjalnych wartości odstających, ale także tego, jak zaburzone są każda próbka w porównaniu z tą grupą.
Na stronie Uruchom możesz po prostu przekazać plik wyrażenia, klikając przycisk i wybierając plik. Następnie musisz przesłać plik phenodata. Następnie należy określić, która kolumna zawiera informacje o grupie lub klasie, a następnie, która klasa lub grupa odpowiada grupie kontrolnej.
Następnie możesz po prostu uruchomić MDP. Wykres słupkowy pokazuje dla każdej z próbek jako słupek wynik molekularnego stopnia perturbacji, a kolory reprezentują różne grupy. Wykres pudełkowy to kolejny sposób wizualizacji tych samych wyników, w którym na każdej kropce widać różne próbki oddzielone dwiema grupami.
Do przeprowadzenia analizy funkcjonalnej wykorzystamy narzędzie Enrichr. W tym celu musisz wybrać listę genów, które uległy zróżnicowanej ekspresji, regulowanej w górę lub w dół, i użyć jej jako listy genów wejściowych w narzędziu Enrichr. Zobaczysz, że są różne zakładki.
Wszystkie wyniki można również pobrać na komputer lokalny. Środowisko komputerowe do analizy transkryptomu zostało umieszczone na platformie Docker. Takie podejście pozwala użytkownikom bez wcześniejszego doświadczenia z systemem Linux na korzystanie z terminala.
W tym kontenerze znajduje się predefiniowana struktura folderów dla zestawu danych i skryptów, które są niezbędne do całej analizy. W ramach przygotowań użytkownicy będą wykorzystywać dane transkryptomu krwi od 20 zdrowych osób i 39 pacjentów ostro zakażonych wirusem Chikungunya. Platforma sekwencjonowania zwraca zestaw plików FASTQ zawierających sekwencję DNA, tj.
odczyty i powiązaną jakość dla każdej zasady nukleotydowej. Skala jakości Phred wskazuje prawdopodobieństwo nieprawidłowego odczytu dla każdej zasady. Narzędzia identyfikują i usuwają odczyty o niskiej jakości z próbek oraz zwiększają prawdopodobieństwo mapowania odczytów.
Na tym etapie moduł mapowania, odzyskane odczyty wysokiej jakości są wykorzystywane jako dane wejściowe w celu dopasowania ich do ludzkiego genomu referencyjnego. CEMiTool identyfikuje i analizuje moduły koekspresji. Geny w tym samym module ulegają koekspresji, co oznacza, że wykazują podobne wzorce ekspresji w próbkach zestawów danych.
Analiza sieci dostarcza informacji o najbardziej połączonych genach, czyli hubach. Nazwy tych genów są pokazane w sieci.
Rozmiar węzłów jest proporcjonalny do stopnia ich łączności. Wyniki uzyskane z analizy DEG podsumowano na wykresach wulkanicznych. Analiza molekularnego stopnia perturbacji pozwala na identyfikację zaburzonych próbek od osób zdrowych i zakażonych.
MDP sugeruje, które próbki są potencjalnymi biologicznymi wartościami odstającymi. Usunięcie tych próbek będzie miało wpływ na dalsze wyniki. Funkcjonalną analizę wzbogacenia za pomocą AURA można przeprowadzić za pomocą narzędzia Enrichr.
Kroki te pomagają zinterpretować wyniki, ujawniając wspólne role funkcjonalne kilku genów, które uległy zróżnicowanej ekspresji. Proces biologiczny pokazany na wykresach słupkowych to 10 najbardziej wzbogaconych zestawów genów na podstawie ich rankingu wartości p. Podsumowując, protokoły te obejmują wszystkie etapy analizy sekwencyjnej RNA.
Rurociąg został opracowany i zamknięty w niekomercyjnym systemie o nazwie Docker. Na obrazie i udostępnione środowisku naukowemu. Ze względu na system kontenerów, wszystkie skrypty i narzędzia są objęte tą samą konkretną wersją, aby zagwarantować odtwarzalność.
Co więcej, część analizy bioinformatycznej została przeprowadzona za pomocą bezpłatnych, przyjaznych dla użytkownika narzędzi internetowych.
View the full transcript and gain access to thousands of scientific videos
Ten protokół opisuje kompleksowy przepływ pracy dla analizy transkryptomu o wysokiej wydajności, skupiając się na interakcjach gospodarz-patogen. Obejmuje kroki od kontroli jakości surowych odczytów do zaawansowanych analiz statystycznych i oceniania funkcjonalnego ekspresji genów.