$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Aby uzyskać przykładowe wyniki, zaimplementowaliśmy algorytm CaseOLAP w dwóch nagłówkach/deskryptorach tematycznych: "Grupy wiekowe" oraz "Choroby żywieniowe i metaboliczne" jako przypadki użycia.
Grupy wiekowe. Wybraliśmy wszystkie 4 podkategorie "Grupy wiekowe" (niemowlę, dziecko, młodzież i dorosły) jako komórki w kostce tekstowej. Uzyskane metadane i statystyki przedstawiono w tabeli 3A. Porównanie liczby dokumentów między komórkami Text-Cube jest wyświetlane w Rysunek 6A. Dorosły zawiera 172 394 dokumenty, co jest najwyższą liczbą spośród wszystkich komórek. Największą liczbę udostępnionych dokumentów mają podkategorie dorosłych i młodzieży (26 858 dokumentów). Warto zauważyć, że dokumenty te obejmowały tylko jednostkę, która nas interesowała (tj. białka mitochondrialne). Diagram Venna w Rysunek 6B przedstawia liczbę jednostek (tj. białek mitochondrialnych) znajdujących się w każdej komórce i w wielu nakładających się na siebie komórkach. Liczba białek wspólnych dla wszystkich podkategorii wiekowych wynosi 162. Podkategoria dorosłych przedstawia największą liczbę unikalnych białek (151), a następnie dzieci (16), niemowlę (8) i młodzież (1). Obliczyliśmy związek białka z grupą wiekową jako wynik CaseOLAP. 10 najważniejszych białek (na podstawie średniego wyniku CaseOLAP) związanych z podkategoriami niemowląt, dzieci, młodzieży i dorosłych to 26-hydroksylaza steroli, alfa-krystalinowy łańcuch B, alfa-hydroksylaza 25-hydroksywitaminy D-1, serotransferyna, syntaza cytrynianu, L-seryl-tRNA, podjednostka alfa-3 ATPazy transportującej sód/potas, S-transferaza glutationowa omega-1, NADPH: oksydoreduktaza adrenodoksyny i reduktaza sulfotlenku metioniny peptydu mitochondrialnego (pokazana w Rysunek 6C). Podkategoria dla dorosłych wyświetla 10 komórek mapy cieplnej o większej intensywności w porównaniu z komórkami mapy cieplnej podkategorii nastolatków, dzieci i niemowląt, co wskazuje, że 10 pierwszych białek mitochondrialnych wykazuje najsilniejsze powiązania z podkategorią dorosłych. Białko mitochondrialne 26-hydroksylaza sterolu ma wysokie powiązania we wszystkich podkategoriach wiekowych, o czym świadczą komórki mapy cieplnej o wyższej intensywności w porównaniu z komórkami mapy cieplnej pozostałych 9 białek mitochondrialnych. Rozkład statystyczny bezwzględnej różnicy w wyniku między dwiema grupami pokazuje następujący przedział średniej różnicy z 99% przedziałem ufności: (1) średnia różnica między "ADLT" a "INFT" mieści się w zakresie (od 0,029 do 0,042), (2) średnia różnica między "ADLT" a "CHLD" mieści się w przedziale (0,021 do 0,030), 3) średnia różnica między "ADLT" a "ADOL" mieści się w przedziale (od 0,020 do 0,029), 4) średnia różnica między "ADOL" a "INFT" mieści się w przedziale (od 0,015 do 0,022), 5) średnia różnica między "ADOL" a "CHLD" mieści się w przedziale (od 0,007 do 0,010), (6) średnia różnica między "CHLD" a "INFT" mieści się w przedziale (od 0,011 do 0,016).
Choroby żywieniowe i metaboliczne. Wybraliśmy 2 podkategorie "Choroby żywieniowe i metaboliczne" (tj. choroby metaboliczne i zaburzenia odżywiania), aby stworzyć 2 komórki w kostce tekstowej. Uzyskane metadane i statystyki przedstawiono w tabeli 3B. Porównanie liczby dokumentów między komórkami Text-Cube jest wyświetlane w Rysunek 7A. Podkategoria choroby metaboliczne zawiera 54 762 dokumenty, a następnie 19 181 dokumentów dotyczących zaburzeń odżywiania. Podkategorie choroby metaboliczne i zaburzenia odżywiania mają 7 101 wspólnych dokumentów. Warto zauważyć, że dokumenty te obejmowały tylko jednostkę, która nas interesowała (tj. białka mitochondrialne). Diagram Venna w Rysunek 7B przedstawia liczbę jednostek znajdujących się w każdej komórce i w wielu nakładających się na siebie komórkach. Obliczyliśmy związek białka z "chorobami żywieniowymi i metabolicznymi" jako wynik CaseOLAP. 10 najważniejszych białek (na podstawie ich średniego wyniku CaseOLAP) związanych z tym przypadkiem użycia to 26-hydroksylaza sterolu, alfa-krystalinowy łańcuch B, L-seryl-tRNA, syntaza cytrynianu, syntaza pseudourydyny tRNA A, alfa-hydroksylaza 25-hydroksywitaminy D-1, S-transferaza glutationowa omega-1, NADPH: oksydoreduktaza adrenodoksyny, reduktaza sulfotlenku metioniny peptydu mitochondrialnego, inhibitor aktywatora plazminogenu 1 (pokazany w Rysunek 7C). Ponad połowa (54%) wszystkich białek dzieli się na podkategorie: choroby metaboliczne i zaburzenia odżywiania (397 białek). Co ciekawe, prawie połowa (43%) wszystkich powiązanych białek w podkategorii chorób metabolicznych jest unikalna (300 białek), podczas gdy zaburzenia odżywiania wykazują tylko kilka unikalnych białek (35). Łańcuch alfa-krystaliny B wykazuje najsilniejszy związek z podkategorią chorób metabolicznych. 26-hydroksylaza sterolowa, mitochondrialna wykazuje najsilniejszy związek w podkategorii zaburzeń odżywiania, co wskazuje, że to białko mitochondrialne jest bardzo istotne w badaniach opisujących zaburzenia odżywiania. Rozkład statystyczny bezwzględnej różnicy w wyniku między dwiema grupami "MBD" i "NTD" pokazuje zakres (od 0,046 do 0,061) dla średniej różnicy jako 99% przedział ufności.

Rysunek 1. Dynamiczny widok przepływu pracy CaseOLAP. Na rysunku przedstawiono 5 głównych kroków w przepływie pracy CaseOLAP. W kroku 1 przepływ pracy rozpoczyna się od pobrania i wyodrębnienia dokumentów tekstowych (np. z PubMed). W kroku 2 wyodrębnione dane są analizowane w celu utworzenia słownika danych dla każdego dokumentu, a także mapowania MeSH na PMID. W kroku 3 przeprowadzane jest indeksowanie danych w celu ułatwienia szybkiego i wydajnego wyszukiwania encji. W kroku 4 przeprowadzana jest implementacja informacji o kategorii dostarczonych przez użytkownika (np. root MeSH dla każdej komórki) w celu skonstruowania Text-Cube. W kroku 5 operacja zliczania jednostek jest implementowana na danych indeksu w celu obliczenia wyników CaseOLAP. Kroki te są powtarzane w sposób iteracyjny w celu zaktualizowania systemu o najnowsze informacje dostępne w publicznej bazie danych (np. PubMed). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2. Architektura techniczna przepływu pracy CaseOLAP. Na rysunku przedstawiono szczegóły techniczne przepływu pracy CaseOLAP. Dane z repozytorium PubMed pozyskiwane są z serwera FTP PubMed. Użytkownik łączy się z serwerem w chmurze (np. łącznością AWS) za pośrednictwem swojego urządzenia i tworzy potok pobierania, który pobiera i wyodrębnia dane do lokalnego repozytorium w chmurze. Wyodrębnione dane są strukturyzowane, weryfikowane i doprowadzane do odpowiedniego formatu za pomocą potoku analizowania danych. Jednocześnie, podczas kroku parsowania, tworzona jest tabela mapowania MeSH do PMID, która jest używana do budowy Text-Cube. Przeanalizowane dane są przechowywane w formacie JSON, takim jak słownik klucz-wartość z metadanymi dokumentu (np. PMID, MeSH, rok publikacji). Krok indeksowania dodatkowo ulepsza dane, implementując Elasticsearch do obsługi danych zbiorczych. Następnie tworzony jest Text-Cube z kategoriami zdefiniowanymi przez użytkownika, implementując mapowanie MeSH do PMID. Po zakończeniu kroków tworzenia i indeksowania modułu Text-Cube przeprowadzana jest inwentaryzacja jednostek. Dane dotyczące liczby jednostek są implementowane do metadanych Text-Cube. Na koniec wynik CaseOLAP jest obliczany na podstawie podstawowej struktury Text-Cube. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3. Próbka przeanalizowanego dokumentu. Próbka przeanalizowanych danych jest przedstawiona na tym rysunku. Przeanalizowane dane są rozmieszczone jako para klucz-wartość, która jest zgodna z indeksowaniem i tworzeniem metadanych dokumentu. Na tym rysunku identyfikator PMID (np. "25896987") służy jako klucz, a zbiór powiązanych informacji (np. tytuł, czasopismo, data publikacji, streszczenie, MeSH, substancje, dział i lokalizacja) są jako wartość. Pierwszym zastosowaniem takich metadanych dokumentu jest konstrukcja mapowania MeSH do PMID (Rysunek 5 i Tabela 2), która jest później implementowana do tworzenia Text-Cube i obliczania wyniku CaseOLAP z jednostkami i kategoriami dostarczonymi przez użytkownika. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4. Próbka drzewa MeSH. Drzewo MeSH "Grupy wiekowe" jest zaadaptowane ze struktury danych drzewa dostępnej w bazie danych NIH (MeSH Tree 2018, ). Deskryptory MeSH są implementowane wraz z ich identyfikatorami węzłów (np. Osoby [M01], Grupy wiekowe [M01.060], Młodzież [M01.060.057], Dorosły [M01.060.116], Dziecko [M01.060.406], Niemowlę [M01.060.703]) w celu zebrania dokumentów istotnych dla określonego deskryptora MeSH (Tabela 3A). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5. Mapowanie MeSH do PMID w grupach wiekowych. Na rysunku przedstawiono liczbę dokumentów tekstowych (z których każdy jest powiązany identyfikatorem PMID) zebranych pod deskryptorami MeSH w sekcji "Grupy wiekowe" w postaci wykresu bąbelkowego. Mapowanie MeSH do PMID jest generowane w celu zapewnienia dokładnej liczby dokumentów zebranych w ramach deskryptorów MeSH. Łączną liczbę 3 062 143 unikatowych dokumentów zebrano pod 18 potomnymi deskryptorami MeSH (zob. tabela 2). Im większa liczba identyfikatorów PMID wybranych w ramach określonego deskryptora MeSH, tym większy promień bąbelka reprezentującego deskryptor MeSH. Na przykład największą liczbę dokumentów zgromadzono w ramach deskryptora MeSH "Dorośli" (1 786 371 dokumentów), natomiast najmniej dokumentów tekstowych zgromadzono w ramach deskryptora MeSH "Niemowlęta, osoby podojrzałe" (62 dokumenty).
Dodatkowy przykład mapowania MeSH do PMID podano dla "Chorób żywieniowych i metabolicznych" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Łącznie zebrano 422 039 unikalnych dokumentów pod 361 potomnymi deskryptorami MeSH w "Chorobach żywieniowych i metabolicznych". Najwięcej dokumentów zgromadzono pod deskryptorem MeSH "Otyłość" (77 881 dokumentów), następnie "Cukrzyca typu 2" (61 901 dokumentów), natomiast najmniej dokumentów "Choroba spichrzeniowa glikogenu typu VIII" (1 dokument). Powiązana tabela jest również dostępna online pod adresem (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 6. "Grupy wiekowe" jako przypadek użycia. Na rysunku przedstawiono wyniki z przypadku użycia platformy CaseOLAP. W tym przypadku nazwy białek i ich skróty (patrz próbka w tabeli 4) są implementowane jako jednostki, a "grupy wiekowe" obejmujące komórki: niemowlę (INFT), dziecko (CHLD), młodzież (ADOL) i dorosły (ADLT) są implementowane jako podkategorie (patrz tabela 3A). oraz Liczba dokumentów w "Grupach wiekowych": Ta mapa cieplna pokazuje liczbę dokumentów rozmieszczonych w komórkach "Grup wiekowych" (szczegółowe informacje na temat tworzenia modułu Text-Cube znajdują się w Protokole 4 i Tabeli 3A). Większa liczba dokumentów jest prezentowana z ciemniejszą intensywnością komórki mapy cieplnej (patrz skala). Pojedynczy dokument może znajdować się w więcej niż jednej komórce. Mapa cieplna przedstawia liczbę dokumentów w komórce wzdłuż przekątnej (np. ADLT zawiera 172 394 dokumenty, co jest najwyższą liczbą spośród wszystkich komórek). Pozycja po przekątnej reprezentuje liczbę dokumentów mieszczących się w dwóch komórkach (np. ADLT i ADOL mają 26 858 udostępnionych dokumentów). oraz. Liczba jednostek w "Grupach wiekowych": Diagram Venna reprezentuje liczbę białek znajdujących się w czterech komórkach reprezentujących "grupy wiekowe" (INFT, CHLD, ADOL i ADLT). Liczba białek wspólnych dla wszystkich komórek wynosi 162. Grupa wiekowa ADLT charakteryzuje się największą liczbą unikalnych białek (151), a następnie CHLD (16), INFT (8) i ADOL (1). oraz Prezentacja punktacji CaseOLAP w "Grupach wiekowych": 10 pierwszych białek z najwyższymi średnimi wynikami CaseOLAP w każdej grupie przedstawiono na mapie cieplnej. Wyższy wynik CaseOLAP jest prezentowany z ciemniejszą intensywnością komórki mapy cieplnej (patrz skala). Nazwy białek są wyświetlane w lewej kolumnie, a komórki (INFT, CHLD, ADOL, ADLT) są wyświetlane wzdłuż osi x. Niektóre białka wykazują silny związek z określoną grupą wiekową (np. 26-hydroksylaza sterolu, alfa-krystalinowy łańcuch B i L-seryl-tRNA mają silne powiązania z ADLT, podczas gdy podjednostka alfa-3 ATPazy transportującej sód/potas ma silny związek z INFT). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 7. "Choroby żywieniowe i metaboliczne" jako przypadek użycia: Na rysunku przedstawiono wyniki innego przypadku użycia platformy CaseOLAP. W tym przypadku nazwy białek i ich skróty (patrz próbka w tabeli 4) są implementowane jako jednostki, a "Odżywianie i choroba metaboliczna" obejmująca dwie komórki: chorobę metaboliczną (MBD) i zaburzenia odżywiania (NTD) są implementowane jako podkategorie (patrz tabela 3B). (A). Liczba dokumentów w "Chorobach żywieniowych i metabolicznych": Ta mapa cieplna przedstawia liczbę dokumentów tekstowych w komórkach "Choroby żywieniowe i metaboliczne" (szczegółowe informacje na temat tworzenia Text-Cube znajdują się w Protokole 4 i Tabeli 3B). Większa liczba dokumentów jest prezentowana z ciemniejszą intensywnością komórki mapy cieplnej (patrz skala). Pojedynczy dokument może znajdować się w więcej niż jednej komórce. Mapa cieplna przedstawia łączną liczbę dokumentów w komórce wzdłuż przekątnej (np. MBD zawiera 54 762 dokumenty, co jest najwyższą liczbą w dwóch komórkach). Pozycja po przekątnej reprezentuje liczbę dokumentów współużytkowanych przez dwie komórki (np. MBD i NTD mają 7 101 udostępnionych dokumentów). (B). Liczba jednostek w "Chorobach żywieniowych i metabolicznych": Diagram Venna przedstawia liczbę białek znajdujących się w dwóch komórkach reprezentujących "choroby żywieniowe i metaboliczne" (MBD i NTD). Liczba białek wspólnych w obu komórkach wynosi 397. Komórka MBD przedstawia 300 unikalnych białek, a komórka NTD przedstawia 35 unikalnych białek. (C). Prezentacja punktacji CaseOLAP w "Chorobach żywieniowych i metabolicznych": 10 najlepszych białek z najwyższymi średnimi wynikami CaseOLAP w kategorii "Choroby żywieniowe i metaboliczne" przedstawiono na mapie cieplnej. Wyższy wynik CaseOLAP jest prezentowany z ciemniejszą intensywnością komórki mapy cieplnej (patrz skala). Nazwy białek są wyświetlane w lewej kolumnie, a komórki (MBD i NTD) są wyświetlane wzdłuż osi x. Niektóre białka wykazują silny związek z określoną kategorią chorób (np. alfa-krystalinowy łańcuch B ma wysoki związek z chorobą metaboliczną, a 26-hydroksylaza sterolu ma wysoki związek z zaburzeniami odżywiania). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
.
| Czas spędzony (procent całkowitego czasu) | Kroki na platformie CaseOLAP | Algorytm i struktura danych platformy CaseOLAP | Złożoność algorytmu i struktury danych | Szczegóły kroków |
| 40 proc | Pobieranie i
Analizowania | Algorytmy iteracji i analizowania drzewa | Iteracja z zagnieżdżoną pętlą i ciągłym mnożeniem: O(n^2), O(log n). Gdzie 'n' oznacza brak iteracji. | Potok pobierania iteruje każdą procedurę na wielu plikach. Analizowanie pojedynczego dokumentu uruchamia każdą procedurę na strukturze drzewa nieprzetworzonych danych XML. |
| 30% | Indeksowanie, wyszukiwanie i tworzenie kostek tekstowych | Iteracja, algorytmy wyszukiwania według Elasticsearch (sortowanie, indeks Lucene, kolejki priorytetowe, maszyny skończone, hacki z kręceniem bitów, zapytania regularne) | Złożoność związana z Elasticsearch (https://www.elastic.co/) | Dokumenty są indeksowane przez zaimplementowanie procesu iteracji w słowniku danych. Tworzenie Text-Cube implementuje metadane dokumentu i informacje o kategorii dostarczone przez użytkownika. |
| 30% | Zliczanie jednostek i obliczanie CaseOLAP | Iteracja w obliczaniu integralności, popularności, odrębności | O(1), O(n^2), wiele złożoności związanych z obliczaniem wyniku caseOLAP na podstawie typów iteracji. | Operacja zliczania jednostek wyświetla listę dokumentów i wykonuje operację zliczania na liście. Dane dotyczące liczby jednostek są używane do obliczania wyniku CaseOLAP. |
Tabela 1. Algorytmy i zawiłości. Poniższa tabela przedstawia informacje na temat czasu poświęconego (procent całkowitego czasu poświęconego) na procedury (np. pobieranie, parsowanie), strukturę danych oraz szczegóły dotyczące algorytmów zaimplementowanych na platformie CaseOLAP. CaseOLAP implementuje profesjonalną aplikację do indeksowania i wyszukiwania o nazwie Elasticsearch. Dodatkowe informacje na temat zawiłości związanych z Elasticsearch i wewnętrznymi algorytmami można znaleźć na stronie (https://www.elastic.co).
osób
TGL
TGL
osób
osób
osób
osób
osób
TGL
TGL
osób
osób
TGL
osób
osób
osób
TGL
TGLI
| Deskryptory MeSH | Liczba zebranych identyfikatorów PMID |
| dorosły | 1 786 371 |
| Średni wiek | 1 661 882 |
| sędziwy | 1 198 778 |
| nastolatek | 706 429 |
| Młody dorosły | 486 259 |
| dziecko | 480 218 |
| Wiek, 80 lat i więcej | 453 348 |
| Dziecko, Przedszkole | 285 183 |
| niemowlę | 218 242 |
| Niemowlę, Noworodek | 160 702 |
| Niemowlę, Wcześniak | 17 701 |
| Niemowlę, niska masa urodzeniowa | 5 707 |
| Wątłe osoby w podeszłym wieku | 4 811 |
| Niemowlę, bardzo niska masa urodzeniowa | 4 458 |
| Niemowlę, małe jak na wiek ciążowy | 3 168 |
| Niemowlę, skrajny wcześniak | 1 171 |
| Niemowlę, skrajnie niska masa urodzeniowa | 1 003 |
| Niemowlę, wcześniak | 62 |
Tabela 2. Statystyki mapowania MeSH do PMID. Poniższa tabela przedstawia wszystkie potomne deskryptory MeSH z "Grup wiekowych" oraz liczbę zebranych przez nie identyfikatorów PMID (dokumentów tekstowych). Wizualizację tych statystyk przedstawiono na rysunku 5.
osób
osób
osób
TGL
jedn.
osób
szt.
| ZA | Niemowlę (INFT) | Dziecko (CHLD) | Młodzież (ADOL) | Dorosły (ADLT) |
| Identyfikator główny MeSH | M01.060.703 | Silnik M01.060.406 | M01.060.057 | M01.060.116 |
| Liczba deskryptorów potomnych MeSH | 9 | cyfra arabska | 1 | 6 |
| Liczba wybranych identyfikatorów PMID | 16 466 | 26 907 | 35 158 | 172 394 |
| Liczba znalezionych jednostek | Rozdział 233 | Rozdział 297 | Rozdział 257 | Z numerem 443 |
| W | Choroby metaboliczne (MBD) | Zaburzenia odżywiania (NTD) | | |
| Identyfikator główny MeSH | Zobacz materiał C18.452 | Zobacz materiał C18.654 | | |
Liczba potomków MeSH
Deskryptory | Rozdział 308 | 53 Rozdział 53 | | |
| Liczba zebranych identyfikatorów PMID | 54 762 | 19 181 | | |
| Liczba znalezionych jednostek | 697 | Z numerem 432 | | |
Tabela 3. Metadane modułu tekstowego. Przedstawiono tabelaryczne przedstawienie metadanych modułu Text-Cube. Tabele zawierają informacje o kategoriach oraz korzeniach i potomkach deskryptora MeSH, które są implementowane w celu zbierania dokumentów w każdej komórce. W tabeli znajdują się również statystyki gromadzonych dokumentów i podmiotów. oraz "Grupy wiekowe": Jest to tabelaryczne przedstawienie "grup wiekowych", w tym niemowląt (INFT), dzieci (CHLD), młodzieży (ADOL) i dorosłych (ADLT) oraz ich identyfikatorów głównych MeSH, liczby deskryptorów MeSH potomków, liczby wybranych identyfikatorów PMID i liczby znalezionych jednostek. oraz "Choroby żywieniowe i metaboliczne": Jest to tabelaryczne przedstawienie "Chorób żywieniowych i metabolicznych", w tym chorób metabolicznych (MBD) i zaburzeń odżywiania (NTD) wraz z ich identyfikatorami głównymi MeSH, liczbą deskryptorów potomnych MeSH, liczbą wybranych identyfikatorów PMID i liczbą znalezionych jednostek.
| Nazwy białek i synonimy | Skróty |
| Syntaza N-acetyloglutaminianu, mitochondrialna, acetylotransferaza aminokwasowa, syntaza N-acetyloglutamianu w długiej formie; Syntaza N-acetyloglutamianu w postaci krótkiej; Konserwatywna forma domeny syntazy N-acetyloglutaminianu] | (EC 2.3.1.1) |
| Deglikaza białkowa/kwasów nukleinowych DJ-1 (deglikaza Maillarda) (Onkogen DJ1) (białko 7 choroby Parkinsona) (Deglikaza związana z parkinsonizmem) (Białko DJ-1) | (WE 3.1.2.-) (EC 3.5.1.-) (WE 3.5.1.124)(DJ-1) |
| Karboksylaza pirogronianowa, mitochondrialna (karboksylaza pirogronowa) | (WE 6.4.1.1)(PCB) |
| Bcl-2-wiążący składnik 3 (modulator apoptozy regulowany w górę p53) | (JFY-1) |
| Agonista śmierci domeny oddziałującej z BH3 [agonista śmierci domeny oddziałującej z BH3 p15 (p15 BID); Agonista śmierci domeny oddziałującej z BH3 p13 ; Agonista śmierci domeny oddziałującej z BH3 p11 ] | (p22 BID) (BID) (p13 BID)(p11 BID) |
| Podjednostka alfa syntazy ATP, mitochondrialna (podjednostka alfa syntazy ATP F1) | |
| Cytochrom P450 11B2, mitochondrialny (syntaza aldosteronu) (enzym syntetyzujący aldosteron) (CYPXIB2) (cytochrom P-450Aldo) (cytochrom P-450C18) (steroidowa 18-hydroksylaza) | (ALDOS) (WE 1.14.15.4) (WE 1.14.15.5) |
| 60 kDa białko szoku cieplnego, mitochondria (60 kDa chaperonina) (Chaperonina 60) (CPN60) (Białko szoku cieplnego 60) (Białko macierzy mitochondrialnej P1) (białko limfocytów P60) | (HSP-60) (HSP60) (HuCHA60)(EC 3.6.4.9) |
| Kaspaza-4 (ICE i homolog 2 Ced-3) (Proteaza TX) [Rozszczepiony na: podjednostkę kaspazy-4 1; Kaspaza-4 podjednostka 2] | (CASP-4) (EC 3.4.22.57)(ICH-2) (ICE(rel)-II) (Mih1) |
Tabela 4. Przykładowa tabela encji. Poniższa tabela przedstawia próbkę jednostek wdrożonych w naszych dwóch przypadkach użycia: "Grupy wiekowe" oraz "Choroby żywieniowe i metaboliczne" (Rysunek 6 i Rysunek 7, Tabela 3A,B). Jednostki obejmują nazwy białek, synonimy i skróty. Każda jednostka (wraz z jej synonimami i skrótami) jest wybierana pojedynczo i przechodzi przez operację wyszukiwania encji na zindeksowanych danych (patrz protokół 3 i 5). Wyszukiwanie generuje listę dokumentów, które dodatkowo ułatwiają operację zliczania jednostek.
| Ilości | Zdefiniowane przez użytkownika | Obliczana | Równanie wielkości | Znaczenie ilości |
| prawość | tak | Nie | Integralność jednostek zdefiniowanych przez użytkownika uznawanych za 1.0. | Reprezentuje znaczącą frazę. Wartość liczbowa wynosi 1,0, gdy jest to już ustalona fraza. |
| popularność | Nie | tak | Równanie popularności na rysunku 1 (Przepływ pracy i algorytm) z odnośnika 5, sekcja "Materiały i metody". | Na podstawie częstotliwości wyrażania frazy w komórce. Znormalizowane przez całkowitą częstotliwość czasową komórki. Wzrost częstotliwości terminów ma coraz mniejszy skutek. |
| Odrębności | Nie | tak | Równanie odrębności na rysunku 1 (Przebieg pracy i algorytm) z odnośnika 5, sekcja "Materiały i metody". | Na podstawie częstotliwości terminów i częstotliwości dokumentów w komórce i w sąsiednich komórkach. Znormalizowane przez łączną częstotliwość terminów i częstotliwość dokumentów. Ilościowo jest to prawdopodobieństwo, że fraza jest unikatowa w określonej komórce. |
| Wynik CaseOLAP | Nie | tak | Równanie punktacji CaseOLAP na rysunku 1 (Przepływ pracy i algorytm) z odnośnika 5, sekcja "Materiały i metody". | Oparte na uczciwości, popularności i odrębności. Wartość liczbowa zawsze mieści się w zakresie od 0 do 1. Ilościowo wynik CaseOLAP reprezentuje skojarzenie fraza-kategoria |
Tabela 5. Równania CaseOLAP: Algorytm CaseOLAP został opracowany przez Fangbo Tao i Jiawei Han et al. w 2016 roku1. W skrócie w tej tabeli przedstawiono obliczenie wyniku CaseOLAP składające się z trzech elementów: integralności, popularności i odrębności oraz związanego z nimi znaczenia matematycznego. W naszych przypadkach użycia wynik integralności dla białek wynosi 1,0 (maksymalny wynik), ponieważ są to ustalone nazwy jednostek. Wyniki CaseOLAP w naszych przypadkach użycia można zobaczyć na rysunkach 6C i 7C.