$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Dogłębne zrozumienie epigenomu jest konieczne, aby osiągnąć pełny potencjał sekwencjonowania ludzkiego genomu w dostarczaniu nowych informacji biologicznych8. Obecnie istnieją tylko sposoby przeszukiwania internetowych zbiorów danych epigenomicznych według ich opisu danych i tytułu (tj. metadanych)1. To poważnie ogranicza rodzaje poszukiwań, które można przeprowadzić z danymi epigenomicznymi. Oparte na wzorcach narzędzia wyszukiwania danych epigenomicznych są niezbędne do badania relacji między różnymi znacznikami epigenomicznymi, co może prowadzić do nowych spostrzeżeń biologicznych. GeNemo, który wyszukuje według zawartości danych, a nie metadanych, jest pierwszą tego rodzaju usługą porównującą wzorce w danych epigenomicznych z opublikowanych depozytariuszy, takich jak baza danych ENCODE, z wygenerowanym przez użytkownika lub pobranym zbiorem danych5. Oznacza to początek dostępności narzędzia do wyszukiwania epigenomicznego, które jest szeroko dostępne dla naukowców na całym świecie, podobnie jak narzędzie do wyszukiwania sekwencji oparte na tekście stało się powszechnie dostępne w latach 90. Obecnie nie ma alternatywy dla opartych na wzorcach narzędzi wyszukiwania danych epigenomicznych online innych niż GeNemo.
Jednym z potencjalnych przykładów wykorzystania GeNemo jest wyszukiwanie współpojawiających się modyfikacji histonów i innych znaczników epigenetycznych z czynnikiem transkrypcyjnym E2F6 w ludzkich embrionalnych komórkach macierzystych (przykładowy plik sygnału wiązania E2F6 jest dostępny na portalu danych ENCODE lub pod adresem https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed). Używając tego pliku jako zapytania do wyszukiwania wszystkich zestawów danych ENCODE w H1-hESC, GeNemo pokaże, że sygnał wiązania E2F6 jest silnie wzbogacony o H3K4me1, H3K4me2, H3K4me3 i H3K27me3, co zgadza się z istniejącymi badaniami pokazującymi, że E2F6 reguluje niektóre geny poprzez metylację H3K279. Z drugiej strony wydaje się, że istnieje kolokalizacja miejsc wiązania E2F6 i CtBP2, o których wiadomo, że wchodzą w interakcje z czynnikiem z tej samej rodziny, E2F710. Te wyniki dla całego genomu w odniesieniu do dużej liczby znaczników epigenetycznych, sygnałów wiązania czynników transkrypcyjnych i innych sygnałów zawartych w ENCODE można dość łatwo uzyskać za pomocą GeNemo, który może dostarczyć wszystkich potencjalnych celów do dalszej analizy.
Od czasu pierwszej publikacji5 GeNemo jako internetowego narzędzia do wyszukiwania danych epigenomicznych, sekcja Wyniki GeNemo została zaktualizowana tak, aby wyglądała podobnie jak strona główna GeNemo. Stara sekcja wyników ściśle odzwierciedlała sekcję wyników przeglądarki genomu UCSC i była w dużej mierze zależna od zdalnego serwera UCSC do wyświetlania. Dzięki nowemu interfejsowi GeNemo jest bardziej przyjazny dla użytkownika i nie jest już zależny od serwera genomu UCSC (mimo że dane są nadal pobierane zdalnie). To sprawia, że GeNemo jest bardziej niezawodne i mniej podatne na problemy spowodowane zmianami w kodzie na serwerze UCSC. Co więcej, nowy, szybszy polimerowy interfejs GeNemo daje użytkownikowi więcej narzędzi do wizualizacji i analizy wzorców w danych.
Krytyczne kroki obejmują dostarczenie odpowiedniego pliku wejściowego i wybranie ścieżek danych do wyszukiwania. Zdecydowanie zachęca się użytkowników do eksperymentowania z różnymi funkcjami wyboru ścieżek, aby zapoznać się z procesem wyboru i tym, jak można łączyć różne polecenia, aby osiągnąć zamierzony wynik. W szczególności należy pamiętać, że funkcja "Dodaj" jest wymagana do dodania żądanych ścieżek wybranych do zapytania, podczas gdy "Filtruj" lub "Wyklucz" mogą być używane jako polecenia bramki logicznej odpowiednio "AND" i "OR". Funkcja "Aktualizuj" jest wymagana, aby wpłynąć na wszystkie wybory przed wdrożeniem wyszukiwania. Gdy nie zostaną zwrócone żadne wyniki, użytkownik może sprawdzić plik danych wejściowych, wyszukać więcej ścieżek lub zwiększyć zakres wyszukiwania. Za każdym razem, gdy wystąpi błąd, pojawi się okno definiujące, na czym dokładnie polega błąd. Jest jednak kilka niejednoznacznych błędów. Na przykład, gdy w oknie pojawia się komunikat "nie przesłano żadnego pliku", oznacza to, że albo żaden plik nie został przesłany, albo przesłany plik nie miał akceptowalnego formatu, a w konsekwencji program nie był w stanie poprawnie go odczytać. Dopuszczalne formaty plików do przesyłania plików to format BED i Peaks file dla obu metod przesyłania oraz bigWig tylko dla przesyłania linków online. Dopuszczalne są również spakowane wersje tych formatów plików.
Obecne ograniczenia tego podejścia obejmują jeszcze niezoptymalizowane algorytmy i funkcje stosowane w GeNemo. GeNemo nie może jeszcze udzielić żadnych wskazówek dotyczących interpretacji jakichkolwiek zwróconych zestawów danych. Zadanie to leży w gestii użytkowników, co wymaga znacznej wiedzy i doświadczenia w zakresie biologii genomu i epigenomu. Ponadto kolejnym obecnym ograniczeniem jest to, że użytkownicy nie mogą zmieniać czułości i poziomu szumów wyszukiwania. Oczekujemy, że w przyszłości będziemy nadal ulepszać i rozszerzać GeNemo w zakresie możliwości wyszukiwania wzorców i zbierania zestawów danych.