RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
pl_PL
Menu
Menu
Menu
Menu
DOI: 10.3791/59771-v
Tiffany Kaul1, Maria E. Morales1, Emily Smither1, Melody Baddoo1,2, Victoria P. Belancio1,3, Prescott Deininger1,4
1Tulane Cancer Center,Tulane University, 2Department of Pathology,Tulane University, 3Department of Structural and Cellular Biology,Tulane University, 4Department of Epidemiology,Tulane University
Please note that some of the translations on this page are AI generated. Click here for the English version.
This study presents a bioinformatic approach to identify LINE-1 (L1) expression at the locus-specific level. By eliminating background noise from irrelevant transcripts, the method enhances the accuracy of L1 expression analysis.
Tutaj prezentujemy podejście bioinformatyczne i analizy mające na celu zidentyfikowanie ekspresji LINE-1 na poziomie specyficznym dla locus.
Elementy ruchome są jednym z głównych źródeł niestabilności genetycznej człowieka. Zrozumienie ich ekspresji w różnych tkankach i warunkach ma kluczowe znaczenie dla zrozumienia ich wpływu na genom. Ogromna liczba transkryptów L1 jest wynikiem pasywnego włączania sekwencji związanych z L1 do innych transkryptów, które nie odgrywają żadnej roli w cyklu życiowym L1.
Nasze podejście eliminuje to nieistotne tło. Protokół ten można dostosować do badań dowolnego elementu ruchomego, a nawet wirusów w dowolnym genomie sekwencyjnym. Musi istnieć przynajmniej pewna zmienność sekwencji, aby umożliwić rozróżnienie między loci.
Wizualna demonstracja tej metody ma kluczowe znaczenie dla zilustrowania rygorystyczności i staranności wymaganych do pewnej identyfikacji wyrażonych powtarzających się elementów L1 na poziomie specyficznym dla locus. Rozpocznij tę procedurę od ekstrakcji cytoplazmatycznego RNA i sekwencjonowania nowej generacji, zgodnie z opisem w protokole tekstowym. Wybierając cytoplazmatyczne RNA, odczyty związane z L1 znajdujące się w wyrażonym intronowym mRNA w jądrze są znacznie zubożone.
Kolejnym krokiem podjętym w celu zmniejszenia szumu transkrypcyjnego niezwiązanego z L1 jest wybór transkryptów poliadenylowanych. Usuwa to szum transkryptu związany z L1 występujący w gatunkach innych niż mRNA. Uruchom sekwencjonowanie paradygmatu wyrównania plików FASTQ z próbką RNA seq za pomocą bowtie1, wpisując wiersz poleceń w terminalu Linux.
Ta strategia dopasowania wymaga, aby transkrypty były jednoznacznie i współliniowo dopasowane do wyczerpującego wyszukiwania genomowego. Ta strategia zapewnia pewność wywoływania odczytów mapowania specyficznie do pojedynczego locus L1. Pasmo oddzieli wyjściowe pliki BAM za pomocą poleceń SAMtools i Linux, aby wybrać górne pasmo i dolne pasmo.
Należy pamiętać, że rzeczywiste wartości flag mogą się różnić, jeśli nie korzysta się ze standardowych protokołów sekwencjonowania nowej generacji. Ten etap separacji nici działa w celu odfiltrowania szumu transkrypcyjnego generowanego w sekwencjach L1, które nie są związane z retrotranspozycją L1, eliminując potencjalne zmapowane odczyty związane z antysensownością L1. Generuj liczby odczytów względem adnotacji dla loci L1 za pomocą narzędzi bedtools.
Najpierw wpisz wiersz polecenia, aby wygenerować liczbę odczytów dla L1 w kierunku wykrywania na górnym strun, a następnie wpisz wiersz polecenia, aby wygenerować liczbę odczytów dla L1 w kierunku wykrywania na dolnym strącie. Adnotacje używane do identyfikacji L1 oznaczają L1 o pełnej długości z funkcjonalnymi regionami promotorowymi, które działają w celu wyeliminowania szumu tła, który w przeciwnym razie pochodzi z obciętych L1. Utwórz arkusz kalkulacyjny dla odczytów zmapowanych do każdego miejsca L1 z adnotacjami.
Skopiuj wygenerowany plik tekstowy z liczbą odczytów, który został utworzony dla dolnego pasma i oznacz stronę jako minus_bottom. Posortuj wszystkie kolumny na podstawie największej do najniższej liczby odczytów znalezionych w kolumnie J.Skopiuj wygenerowany plik tekstowy zliczania odczytów, który został utworzony dla górnego pasma. Posortuj wszystkie kolumny na podstawie największej lub najmniejszej liczby odczytów znalezionych w kolumnie J.I oznacz stronę jako top_plus.
Utwórz trzecią stronę oznaczoną jako połączoną i dodaj wszystkie loci z 10 lub więcej odczytami ze stron minus_bottom i plus_top. Sortuj wszystkie kolumny na podstawie największej lub najniższej liczby odczytów znalezionych w kolumnie, J.To pomóc w mapowaniu regionów genomu, w szczególności w loci L1 lub w ich pobliżu, sparowane pliki całego genomu i sekwencjonowania gatunków będących przedmiotem zainteresowania zostały pobrane z NCBI i przekonwertowane na pliki FASTQ zgodnie z opisem w protokole tekstowym. Teraz zindeksuj pliki BAM, aby były widoczne w przeglądarce Integrative Genomics Viewer, w skrócie IGV, przed załadowaniem plików.
W IGV załaduj genom referencyjny, który Cię interesuje, aby uwidocznić geny z adnotacjami. Załaduj również plik adnotacji dla elementów L1 o pełnej długości, aby zwizualizować adnotację L1, plik BAM do ekspresji ludzkiego RNA, aby zwizualizować zmapowane transkrypty z próbki będącej przedmiotem zainteresowania oraz plik BAM dla możliwości mapowania ludzkiego genomu, aby ocenić mapowalność regionów genomu. Usuń wiersze pokrycia i skrzyżowania skojarzone z każdym plikiem BAM.
Skompresuj pliki BAM w celu ekspresji ludzkiego RNA i mapowalności ludzkiego genomu, aby wszystkie ścieżki IGV zmieściły się na jednym ekranie. Ostatnim krytycznym krokiem w eliminacji szumu transkrypcyjnego sekwencji L1 niezwiązanych z retrotranspozycją L1 jest ręczne tworzenie pełnowymiarowych L1, które zidentyfikowano jako posiadające zmapowane transkrypty RNA. Ręczna selekcja polega na wizualizacji każdego wyrażonego locus L1 w kontekście otaczającego go środowiska genomowego w celu potwierdzenia, że ekspresja pochodzi od promotora L1.
Korzystając ze współrzędnych z loci L1 wymienionych na połączonej stronie arkusza kalkulacyjnego, ręcznie wyselekcjonuj każdy locus L1 z unikalnie zmapowanymi transkryptami, badając otaczające je środowisko genomowe w IGV. Selekcjonuj locus tak, aby był autentycznie wyrażony samodzielnie, jeśli nie ma odczytów w kierunku L1 do pięciu kilozasad. Oznacz wiersz kolorem zielonym i zwróć uwagę, dlaczego jest to autentycznie wyrażony L1. Wyjątek od tej reguły istnieje, jeśli region powyżej L1 nie jest mapowalny
.W takim przypadku należy oznaczyć wiersz kolorem czerwonym i zwrócić uwagę, że nie można ocenić wyrażenia regionu przed promotorem L1, a zatem nie można z całą pewnością określić wyrażenia L1. Zadbaj o to, aby locus nie był autentycznie wyrażony przez własnego promotora, jeśli istnieją odczyty do pięciu kilozasad. Oznacz wiersz kolorem czerwonym i zanotuj, dlaczego nie jest to autentycznie wyrażony L1. Określ locus jako fałszywy, jeśli jest wyrażony w intronie wyrażonego genu w tym samym kierunku, z odczytami przed L1, jeśli znajduje się za wyrażonym genem w tym samym kierunku z odczytami przed L1 lub dla nienotowanych wzorców ekspresji z odczytami przed L1. Wyjątek od tej reguły ma zastosowanie, gdy minimalne odczyty bezpośrednio nakładają się na miejsce startowe promotora L1, ale nieznacznie powyżej miejsca startu L1. Jeśli nie ma innych odczytów przed przypadkiem L1, takim jak ten, należy uznać, że ten L1 jest autentycznie wyrażony.
Oznacz wiersz na zielono i zanotuj, dlaczego jest to autentycznie wyrażony L1. Określ locus L1 jako prawdopodobny jako fałszywy, jeśli wzorzec zmapowanych odczytów do locus nie koreluje z określonymi regionami mapowalności L1. Jeśli L1 jest wysoce mapowalny, ale ma tylko stos odczytów w skondensowanym regionie w L1, jest mniej prawdopodobne, że jest związany z ekspresją L1 z własnego promotora, a bardziej prawdopodobne, że pochodzi z nieoznaczonych źródeł, takich jak eksony lub LTR. W takich przypadkach należy nadać loci kolor pomarańczowy i zanotować, dlaczego locus jest podejrzany.
Sprawdź źródła podejrzanych nagromadzeń, sprawdzając lokalizację L1 w przeglądarce genomu UCSC. Zadbaj o to, aby locus nie był autentycznie wyrażany, jeśli znajduje się w środowisku genomowym sporadycznie wyrażanych regionów bez adnotacji. Odczyty mogą być wyrażone w odległości 10 kilozasad przed L1. Ale mniej więcej co 10 kilobaz pojawiają się zmapowane odczyty, a niektóre z tych odczytów są zgodne z L1. Te L1 prawdopodobnie mają zmapowane odczyty ze względu na nieoznaczone wzorce ekspresji genomu.
W takich przypadkach należy nadać loci kolor czerwony i zanotować, dlaczego locus jest podejrzany. Aby ułatwić mapowanie każdego loci L1, określ liczbę unikalnie zmapowanych odczytów do loci L1 za pomocą programu bedtools, adnotacji FL-L1 i dopasowanych danych sekwencji genomu. Oznacz locus L1 tak, aby miał pełną mapowalność pokrycia, gdy 400 unikalnych odczytów jest do niego wyrównanych.
Określ czynnik wymagany do skalowania odczytów wyrównanych genomowego DNA w górę lub w dół do 400 dla każdej osoby L1.To mieć skalowaną miarę ekspresji zgodnie z indywidualną mapowalnością locus L1, pomnóż czynnik przez liczbę odczytów transkryptów RNA, które są zgodne z indywidualnymi autentycznie wyrażonymi L1. Każdy krok służy do podkreślenia różnic między elementami L1 wyrażonymi przez ich własny promotor oraz wszystkich sposobów, w jakie elementy L1 mogą być włączone do innych transkryptów, które nie są związane z cyklem życia L1. Pokazano tutaj odczyty transkrypcji, które jednoznacznie mapują wszystkie nienaruszone L1 o pełnej długości w ludzkim genomie ulegające ekspresji w linii komórkowej guza prostaty DU145.
W kolorze czarnym zaznaczono konkretne loci zidentyfikowane jako autentycznie wyrażone po ręcznym kuratorowaniu. Na czerwono zaznaczono konkretne loci odrzucone jako autentycznie wyrażone odczyty po ręcznym kuratorium. W kolorze szarym znajdują się loci z mniej niż 10 odczytami odwzorowanymi na każdy.
Ponieważ te loci reprezentują niewielki ułamek odczytów transkrypcji, nie zostały one ręcznie wyselekcjonowane. Około 4500 loci nie jest pokazanych graficznie, ponieważ nie miały one żadnych zmapowanych odczytów. Po ręcznym kuratorowaniu liczba odczytów, które są jednoznacznie odwzorowywane na autentycznie wyrażone określone loci L1 w DU145, waha się od 175 odczytów do arbitralnie wybranej minimalnej wartości granicznej 10 odczytów.
Po skorygowaniu odczytów o wyniki mapowalności w każdym locus, kwantyfikacja ekspresji dla większości loci wzrosła. Liczba odczytów, które zostały odwzorowane w unikalny sposób na autentycznie wyrażone określone loci L1 z poprawkami mapowalności w DU145, wahała się od 612 do czterech odczytów i nastąpiła zmiana kolejności loci o najwyższej i najniższej ekspresji. Każdy krok odgrywa kluczową rolę w zmniejszaniu wysokiego poziomu transkrypcyjnego szumu tła.
Jednak najbardziej krytycznym krokiem jest ręczna selekcja każdego locus L1 w celu potwierdzenia transkrypcji jego własnego promotora. Około 50% loci L1 zidentyfikowanych bioinformacycznie w komórkach DU145 zostało odrzuconych jako szum tła L1 pochodzący z innych źródeł transkrypcji, co podkreśla rygor wymagany do uzyskania wiarygodnych wyników. Aby zidentyfikować najmłodsze z L1, sugerujemy użycie pięciokrotnego wyboru transkryptów L1 RACE i technologii sekwencjonowania, takiej jak PacBio, która wykorzystuje dłuższe odczyty i pozwala na bardziej unikalne mapowanie.
Dzięki takiemu podejściu możemy rygorystycznie i pewnie zidentyfikować i określić ilościowo wzorce ekspresji L1. Otwiera to drogę do lepszego zrozumienia regulacji poszczególnych loci L1 i potencjalnego wpływu.
Related Videos
12:44
Related Videos
12.8K Views
11:52
Related Videos
8.8K Views
11:52
Related Videos
11K Views
12:54
Related Videos
14.1K Views
09:34
Related Videos
35K Views
10:54
Related Videos
9.2K Views
07:09
Related Videos
10.7K Views
06:24
Related Videos
4.2K Views
06:02
Related Videos
639 Views
09:45
Related Videos
12.2K Views