September 18th, 2021
Dostarczono szczegółowy protokół metod analizy różnicowej ekspresji dla sekwencjonowania RNA: limma, EdgeR, DESeq2.
Trzy metody analizy ekspresji różnicowej dla sekwencjonowania RNA: limma, EdgeR i DESeq2. Otwórz program RStudio, a następnie załaduj plik R DEGs. Plik można pobrać z plików uzupełniających. Jeden.
Pobieranie i wstępne przetwarzanie danych.1.1. Pobierz dane dotyczące liczby karoraka dróg żółciowych o wysokiej przepustowości z atlasu genomu raka. Tę zakładkę można łatwo osiągnąć za pomocą poniższego kodu.
Kliknij przycisk Uruchom, aby zainstalować pakiet języka R. Kliknij przycisk Uruchom, aby załadować pakiet języka R. Ustawia katalog roboczy.
Wybierz rodzaj nowotworu. Uruchom kod języka R z pliku GDCquery, aby pobrać dane. Plik GDCquery może być pobrany z dodatkowych plików/skryptów.
Po wykonaniu dane dotyczące sekwencjonowania RNA raka dróg żółciowych można pobrać i nazwać CNT, gdzie wiersze reprezentują identyfikatory genów zespołu, a kolumny reprezentują identyfikatory symboli. Proszę zwrócić uwagę na liczby na pozycjach od 14 do 15 w identyfikatorach symboli. Liczby z zakresu od 01 do 09 wskazują na guzy, a od 10 do 19 wskazują na normalne tkanki.1.2.
Konwersja identyfikatorów genów zespołu na symbole genów. Zaimportuj plik adnotacji do R, zgodnie z jego ścieżką przechowywania. Plik adnotacji można pobrać z plików dodatkowych.
Uruchom kod języka R z pliku gtf v22. Które można pobrać z dodatkowych plików/skryptów. Zastosuj inn"i przekonwertuj identyfikatory genów zespołu na symbole genów.1.3.
Filtruj geny o niskiej ekspresji. Kliknij uruchom, aby zainstalować pakiet edgeR"Kliknij uruchom, aby załadować pakiet R edgeR"Uruchom zgodnie z kodem R, aby zachować geny z liczbami na milion wartości większe niż jeden w co najmniej dwóch próbkach. Dwa. Analiza wyrażeń różnicowych za pomocą limma"Kliknij Uruchom, aby zainstalować pakiet R limma"Kliknij Uruchom, aby załadować pakiet R limma"krawędźR"Uruchom następujący kod R, aby utworzyć macierz projektową.
Wyodrębnij informacje o grupie. Ustaw 01 "jako tkankę nowotworową. Ustaw 11 "jako normalną tkankę.
Stwórz matrycę projektu. Utwórz obiekt DGEList. Znormalizuj dane.
Uruchom następujący kod języka R, aby przeprowadzić analizę wyrażeń różnicowych opartą na metodzie limma-trend. Oblicz wartość CPM. Kliknij przycisk Uruchom, aby dopasować model liniowy w celu przewidywania danych lub wnioskowania o relacji między zmiennymi.
Oblicz wartość T, wartość F i logarytm kursów na podstawie algorytmu Bayesa. Wyodrębnij tabelę wyników. Wyniki analizy wyrażeń różnicowych są zapisywane w res_limma", który zawiera wartość zmiany log2 krotności.
Średni poziom ekspresji log2 genu w eksperymencie. Zmodyfikowana statystyka T, wartość P, współczynnik fałszywych odkryć skorygowany o wartość p i logarytm szans genów o zróżnicowanej ekspresji. Zidentyfikuj geny o zróżnicowanej ekspresji.
Tak więc skorygowana wartość P mniejsza niż 0,05 i wartość bezwzględna logarytmu fałszywej zmiany większa lub równa dwóm są progami do badania przesiewowego genów o zróżnicowanej ekspresji. Wyniki res limma pokazują, że w porównaniu z normalnymi tkankami, 1 443 geny są regulowane w górę, a 1 880 genów jest regulowanych w dół. Wyprowadzanie tabeli wyników do pliku.
Kliknij Uruchom, aby zainstalować pakiet R ggplot2"Kliknij Uruchom, aby załadować pakiet R ggplot2"Uruchom kod R z pliku wulkanu, aby utworzyć wykres wulkanu, a plik wulkan można pobrać z plików dodatkowych. Geny mogą być mapowane do różnych pozycji zgodnie z ich log2 krotną zmianą i dostosowanymi wartościami P. Tak więc geny o zróżnicowanej ekspresji są zabarwione na czerwono.
a geny o zróżnicowanej ekspresji regulowane w dół są pokolorowane na zielono. Kliknij eksport"aby zapisać wykres wulkanu. Trzy. Analiza wyrażeń różnicowych za pomocą edgeR"Kliknij Uruchom, aby załadować pakiet R edgeR"Uruchom następujący kod R, aby utworzyć macierz projektową.
Kliknij przycisk Uruchom, aby utworzyć obiekt DGEList i znormalizować dane. Kliknij przycisk Uruchom, aby oszacować rozproszenie wartości ekspresji genów. Kliknij przycisk Uruchom, aby dopasować model do zliczania danych.
Przeprowadź test statystyczny. Wyodrębnij tabelę wyników. Wynik jest zapisywany w res edgeR", który obejmuje wartość zmiany składania logarytmu, logCPM, wartość F, p i skorygowaną wartość p współczynnika fałszywych wykrywań.
Zidentyfikuj geny o zróżnicowanej ekspresji. Wynik res edgeR" pokazuje, że w porównaniu z normalnymi tkankami, 3 121 genów jest regulowanych w górę, a 1 578 genów jest regulowanych w dół w tkankach raka dróg żółciowych. Wyprowadzanie tabeli wyników do pliku.
Utwórz wykres wulkanu. Kliknij przycisk eksportuj, aby zapisać wykres wulkanu. Cztery. Analiza różnicowa wyrażeń za pomocą DESeq2.
Kliknij Uruchom, aby zainstalować pakiet R DESeq2"Kliknij Uruchom, aby załadować pakiet R DESeq2"Uruchom następujący kod R, aby określić współczynnik macania. Utwórz obiekt zestawu danych DESeq2. Wykonaj analizę.
Wygeneruj tabelę wyników. Wynik jest zapisywany w res DESeq2, który zawiera średnią znormalizowanej liczby odczytów, wartość zmiany logarytmu zagięcia, standardową strzałkę zmiany logarytmu zagięcia, statystykę spawania, oryginalną wartość P i skorygowaną wartość P. Zidentyfikuj stopnie procentowe.
Wynik res DESeq2 pokazuje, że w porównaniu z normalnymi tkankami, dwa tysiące dziewięćset trzydzieści osiem genów jest regulowanych w górę, a tysiąc sześćset szesnaście genów jest regulowanych w dół w tkankach raka dróg żółciowych. Wyprowadzanie tabeli wyników do pliku. Utwórz wykres wulkanu.
Kliknij przycisk eksportuj, aby zapisać wykres wulkanu. Pięć. Diagram Venna. Kliknij przycisk Uruchom, aby zainstalować diagram venn pakietu języka R.
Kliknij przycisk Uruchom, aby załadować diagram Venn pakietu języka R. Zrób diagram Venna genów o zróżnicowanej ekspresji regulowanej w górę. Kliknij eksport, aby zapisać diagram furgonetki, Utwórz diagram Venna genów o zróżnicowanej ekspresji regulowanej w dół.
Kliknij przycisk eksportuj, aby zapisać diagram Venna. Sześć. Reprezentatywne wyniki. Rysunek pierwszy przedstawia wykresy wulkaniczne wszystkich genów nabytych przez limma, edgeR i DESeq2.
Ujemna wartość logarytmu p jest wykreślana w stosunku do zmiany zagięcia logarytmu. Czerwone punkty reprezentują geny o zróżnicowanej ekspresji w górę, a zielone punkty reprezentują geny o zróżnicowanej ekspresji w dół. Limma identyfikuje tysiąc osiemset osiemdziesiąt genów o zróżnicowanej ekspresji w dół oraz tysiąc czterysta czterdzieści trzy geny o zróżnicowanej ekspresji w górę w tkankach raka dróg żółciowych.
EdgeR identyfikuje tysiąc pięćset siedemdziesiąt osiem genów o zróżnicowanej ekspresji regulowane w dół i trzy tysiące sto dwadzieścia jeden genów o zróżnicowanej ekspresji regulowanej w górę. DESeq2 identyfikuje tysiąc sześćset szesnaście genów o zróżnicowanej ekspresji regulowanej w dół oraz dwa tysiące dziewięćset trzydzieści osiem genów o zróżnicowanej ekspresji regulowanej w górę. Rysunek drugi, diagramy Venna pokazują nakładanie się wyników podzielonych z limma edgeR i DESeq2.
Porównaj wyniki tych trzech metod: tysiąc czterysta trzydzieści jeden genów o zróżnicowanej ekspresji regulowanej w górę i tysiąc pięćset trzydzieści jeden genów o zróżnicowanej ekspresji regulowanej w dół nakłada się na siebie. Siedem. Wniosek. W tym protokole przedstawiliśmy szczegółowy protokół różnych typów analizy miar dla dużej sekwencji danych zliczania przy użyciu pakietów R, limma, edgeR i DESeq2. Trzy metody mają podobne i sztaby wśród ich procesu ich analizy.
A potem ich z tych trzech leków częściowo się pokrywają. Wszystkie trzy leki mają swoje zalety. A wybór zależy tylko od czasu twoich danych.
Jeśli istnieją moje aktualne dane, limma powinna być podana z pierwszeństwem, ale preferowane są dane sekwencjonowania generacji, w edgeR i DESeq2.
View the full transcript and gain access to thousands of scientific videos
Ten artykuł przedstawia szczegółowy protokół metod analizy różnicowej ekspresji mających zastosowanie do sekwencjonowania RNA. Omówione metody obejmują limma, EdgeR i DESeq2, które są niezbędne do analizy danych ekspresji genów.