$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Probenergebnisse zu erzielen, haben wir zwei Thema Überschriften/Deskriptoren den CaseOLAP-Algorithmus umgesetzt: "Altersklassen" und "Ernährung und Stoffwechselerkrankungen" als Anwendungsfälle.
Altersgruppen. Wir haben alle 4 Unterkategorien "Altersklassen" (Säuglings-, Kinder-, Jugendlichen und Erwachsenen) als Zellen in einem Text-Cube. Die erhaltenen Metadaten und Statistiken entnehmen Sie bitte Tabelle 3A. Der Vergleich der Anzahl der Dokumente unter den Text-Cube-Zellen wird in Abbildung 6Aangezeigt. Erwachsenen enthält Dokumente, die 172.394 das ist die höchste Zahl über alle Zellen. Die Erwachsenen und Jugendlichen Unterkategorien haben die höchste Anzahl der freigegebenen Dokumente (26.858 Dokumente). Diese Dokumente enthalten vor allem die Entität unseres Interesses nur (z. B. mitochondrialen Proteine). Das Venn-Diagramm in Abbildung 6 b entspricht der Anzahl der Einrichtungen (z. B. mitochondrialen Proteine) gefunden in jede Zelle und in mehrere Überschneidungen zwischen den Zellen. Die Zahl der Proteine, die in allen Altersgruppen Unterkategorien geteilt ist 162. Der Unterkategorie "Erwachsenen" zeigt die höchste Zahl der einzigartigen Proteine (151) gefolgt von Kind (16), Kleinkind (8) und Jugendlichen (1). Der Protein-Age Group Association als CaseOLAP Partitur berechnet. Die Top-10-Proteine (basierend auf deren Durchschnittsnote CaseOLAP) Säuglings-, Kinder-, Jugendlichen und Erwachsenen Unterkategorien zugeordnet sind Sterol 26-Hydroxylase, Alpha-kristallin B-Kette, 25-Hydroxy-Vitamin-d-1-Alpha-Hydroxylase, Serotransferrin, Citrat-Synthase, L-Seryl-tRNA, Natrium/Kalium-Transport-ATPase Untereinheit Alpha-3, Glutathione-S-Transferase Omega-1 NADPH: Adrenodoxin Oxidoreductase und mitochondriale Peptid Methionin Sulfoxid Reduktase (siehe Abbildung 6). Die Erwachsenen Unterkategorie zeigt 10 Heatmap Zellen mit einer höheren Intensität im Vergleich zu der Heatmap Zellen der Jugendlicher, Kind und Säugling Unterkategorie, darauf hinweist, dass die oberen 10 mitochondrialen Proteine die stärksten Verbände der Unterkategorie "Erwachsenen" ausstellen. Die mitochondriale Protein Sterol 26-Hydroxylase hat hohe Verbände in allen Alter Unterkategorien Heatmap Zellen mit höherer Intensität im Vergleich zu der Heatmap Zellen der anderen 9 mitochondrialen Proteine zeigt. Die statistische Verteilung der in der Partitur die absolute Differenz zwischen beiden Gruppen zeigt das folgende Angebot für mittlere Differenz mit einem Konfidenzintervall von 99 %: (1) die mittlere Differenz zwischen 'ADLT' und 'INFT' liegt im Bereich (0.029 zu 0,042), (2) der Mittelwert Unterschied zwischen 'ADLT' und "CHLD" liegt im Bereich (0,021 bis 0,030) (3) die mittlere Differenz zwischen "ADLT" und 'ADOL' liegt in dem Bereich (0,020-0.029), (4) der mittleren Differenz zwischen 'ADOL' und 'INFT' liegt im Bereich (0,015 bis 0,022), (5) die mittlere Differenz zwischen 'ADOL' und "CHLD" liegt im Bereich (0,007-0.010), (6) die mittlere Differenz zwischen 'CHLD' und 'INFT' liegt im Bereich von (0,011 bis 0,016).
Ernährungs- und metabolische Krankheiten. Wir haben 2 Unterkategorien von "Ernährung und Stoffwechselerkrankungen" (d. h. Stoffwechselerkrankung und Ernährungsstörungen) 2 Zellen in einem Text-Cube zu erstellen. Die erhaltenen Metadaten und Statistiken sind in Tabelle 3 bgezeigt. Der Vergleich der Anzahl der Dokumente unter den Text-Cube-Zellen wird in Abbildung 7Aangezeigt. Die Unterkategorie Stoffwechselerkrankung enthält 54.762 Dokumente, gefolgt von 19.181 Dokumente in Ernährungsstörungen. Die Unterkategorien Stoffwechselerkrankung und Ernährungsstörungen haben 7.101 freigegebene Dokumente. Diese Dokumente enthalten vor allem die Entität unseres Interesses nur (z. B. mitochondrialen Proteine). Das Venn-Diagramm in Abbildung 7 b steht für die Anzahl der Elemente in jeder Zelle und in mehrere Überschneidungen zwischen den Zellen. Wir berechnen die Protein-"Ernährungs- und Stoffwechselkrankheiten" Verband als CaseOLAP Partitur. Die Top-10-Proteine (basierend auf deren Durchschnittsnote CaseOLAP) dieser Use Case zugeordnet sind Sterol 26-Hydroxylase, Alpha-kristallin B-Kette, L-Seryl-tRNA, Citrat-Synthase, tRNA Pseudouridine Synthase A 25-Hydroxy-Vitamin-d-1-Alpha-Hydroxylase, Glutathione-S-Transferase Omega-1, NADPH: Adrenodoxin Oxidoreductase, mitochondriale Peptid Methionin Sulfoxid Reduktase, Plasminogen-Aktivator-Inhibitor 1 (siehe Abbildung 7). Mehr als die Hälfte (54 %) alle Proteine sind zwischen den Unterkategorien Stoffwechselerkrankungen und Ernährungsstörungen (397 Proteine) geteilt. Interessant ist, fast die Hälfte (43 %) alle damit verbundenen Proteine in der Unterkategorie "Stoffwechselkrankheit" sind einzigartig (300 Proteine), während Ernährungsstörungen nur wenige eindeutige Proteine (35) aufweisen. Alpha-kristallin-B-Kette zeigt die stärkste Vereinigung der Unterkategorie Stoffwechselerkrankungen. Sterol 26-Hydroxylase, mitochondriale zeigt der stärkste Verein in der Unterkategorie "Ernährungsstörungen", darauf hinweist, dass dieser mitochondrialen Proteins in Studien beschreiben Ernährungsstörungen von hoher Relevanz ist. Die statistische Verteilung der in der Partitur die absolute Differenz zwischen beiden Gruppen "MBD" und "NTD" zeigt die Bandbreite (0.046, 0.061) für die mittlere Differenz als ein Konfidenzniveau von 99 %.

Abbildung 1: Dynamische Ansicht des CaseOLAP Workflows. Diese Zahl steht für die 5 wichtigsten Schritte in der CaseOLAP-Workflow. In Schritt 1 beginnt der Workflow durch das Herunterladen und Extrahieren von Textdokumenten (z. B. von PubMed). In Schritt 2 sind extrahierte Daten analysiert, um eine Data-Dictionary für jedes Dokument sowie ein Netz PMID Zuordnung zu erstellen. In Schritt 3 ist Indizierung der Daten durchgeführt, um schnelle und effiziente Einheit Suche zu erleichtern. Umsetzung der Benutzer bereitgestellte Kategorieinformationen (z.B.., Wurzel MeSH für jede Zelle) erfolgt in Schritt 4 um einen Text-Würfel konstruieren. In Schritt 5 wird die Entität Graf Betrieb über Indexdaten zu CaseOLAP Ergebnisse berechnen implementiert. Diese Schritte werden wiederholt, iterativ, das System mit den aktuellen Informationsstand in einer öffentlichen Datenbank (z. B. PubMed) zu aktualisieren. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 2: Technische Architektur des CaseOLAP Workflows. Diese Abbildung zeigt die technischen Details des CaseOLAP Workflows. Von der PubMed-FTP-Server sind Daten aus der PubMed-Repository. Der Benutzer verbindet sich mit dem Cloud-Server (z. B. AWS-Konnektivität) über ihr Gerät und schafft eine Download-Pipeline, die heruntergeladen und extrahiert die Daten zu einem lokalen Repository in der Cloud. Extrahierte Daten werden strukturiert, überprüft und ins richtige Format mit einer Daten-Analyse-Pipeline. Gleichzeitig entsteht ein Netz, PMID Mapping-Tabelle während der Analyse Schritt, der für Text-Cube Bau verwendet wird. Analysierte Daten werden als ein JSON wie Schlüssel-Wert-Wörterbuch-Format mit Dokument-Metadaten (z. B. PMID, MeSH, Erscheinungsjahr) gespeichert. Die Indizierung Schritt weiter verbessert die Daten durch die Implementierung von Elasticsearch um Massendaten zu behandeln. Als nächstes wird die Text-Cube mit frei definierbaren Kategorien erstellt, durch die Implementierung von MeSH PMID Zuordnung. Wenn der Text-Cube Bildung und Indizierung Schritte abgeschlossen sind, wird eine Entität Zählung durchgeführt. Graf Entitätsdaten werden auf die Text-Cube-Metadaten implementiert. Zu guter Letzt die CaseOLAP Partitur auf die zugrunde liegende Text-Cube-Struktur errechnet. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 3. Ein Beispiel eines analysierten Dokuments. Eine Probe der analysierten Daten wird in dieser Abbildung dargestellt. Die analysierten Daten sind als ein Schlüssel-Wert-Paar angeordnet, die kompatibel mit Indexierung und Dokument-Metadaten-Kreation ist. In dieser Abbildung ein PMID (z. B. "25896987") dient als Schlüssel und Sammlung von Informationen (z. B. Titel, Journal, Erscheinungsdatum, abstrakt, MeSH, Stoffe, Abteilung und Position) werden als Wert. Die erste Anwendung der solche Dokumentmetadaten ist der Bau des Netzes, PMID Zuordnung (Abbildung 5 und Tabelle 2), die später zu den Text-Cube erstellen und berechnen Sie die CaseOLAP Partitur mit Benutzer bereitgestellten Einrichtungen umgesetzt wird und Kategorien. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 4. Ein Beispiel für ein MeSH-Baum. Die 'Alter Gruppen MeSH Baum ist aus der Baumstruktur in der NIH-Datenbank vorhandenen Daten angepasst (MeSH-Baum 2018, < Https://meshb.nlm.nih.gov/treeView>). Netz-Deskriptoren werden mit ihren Knoten IDs (z. B. Personen [M01], Altersgruppen [M01.060], Jugendlichen [M01.060.057], Erwachsenen [M01.060.116], Kind [M01.060.406], Kleinkind [M01.060.703]), eine spezifische MeSH-Deskriptor ( Unterlagen zu sammeln implementiert. Tabelle 3A). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 5. MeSH PMID Zuordnung in Altersgruppen. Diese Zahl stellt die Anzahl von Textdokumenten (jeweils im Zusammenhang mit einem PMID) unter die MeSH-Deskriptoren in "Altersklassen" als ein Blasendiagramm gesammelt. Das Netz PMID Zuordnung wird erzeugt, um die genaue Anzahl der Dokumente gesammelt unter den MeSH-Deskriptoren zu bieten. Eine Gesamtanzahl von 3.062.143 einzigartige Dokumente wurden gesammelt unter den 18 Nachkommen MeSH-Deskriptoren (siehe Tabelle 2). Je höher gewählte die Anzahl der PMIDs unter einen bestimmten MeSH-Deskriptor, desto größer den Radius der Blase repräsentieren den MeSH-Deskriptor. Zum Beispiel die höchste Anzahl der Dokumente wurden gesammelt unter den MeSH-Deskriptor "Erwachsenen" (1.786.371 Dokumente), während die kleinstmögliche Anzahl von Text-Dokumenten unter den MeSH-Deskriptor "Kleinkind, Postmature" gesammelt wurden (62-Dokumente).
Ein weiteres Beispiel des Netzes PMID Zuordnung erhält für "Ernährung und Stoffwechselerkrankungen" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Eine Gesamtanzahl von 422.039 einzigartige Dokumente wurden unter den 361 Nachkommen MeSH-Deskriptoren in "Ernährung und Stoffwechselerkrankungen" gesammelt. Die höchste Anzahl der Dokumente wurden gesammelt unter den MeSH-Deskriptor "Adipositas" (77.881 Dokumente) gefolgt von "Diabetes Mellitus Typ 2" (61.901 Dokumente), während "Glykogen-Speicherkrankheit Typ VIII" die geringste Anzahl von Dokumenten (1 Dokument ausgestellt ). Eine verknüpfte Tabelle ist es auch online unter (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 6. "Altersklassen" als ein Use-Case. Diese Zahl stellt die Ergebnisse aus einem Use Case der CaseOLAP Plattform. In diesem Fall werden Protein-Namen und ihre Abkürzungen (siehe Beispiel in Tabelle 4) als Entitäten und "Altersklassen", einschließlich der Zellen umgesetzt: Säugling (INFT), Kind (CHLD), Jugendlichen (ADOL) und Erwachsene (ADLT), werden als Unterkategorien (siehe implementiert Tabelle 3A). (A) Anzahl der Dokumente in "Altersklassen": Diese Heatmap zeigt die Anzahl der Dokumente, die auf die Zellen "Im Alter von Gruppen" verteilt (für Details zu den Text-Cube erstellen siehe Protokoll Nr. 4 und Tabelle 3A). Eine höhere Anzahl von Dokumenten ist mit einer dunkleren Intensität der Heatmap vorgestellt (siehe Waage). Ein einzelnes Dokument kann in mehrere Zellen enthalten. Die Heatmap zeigt die Anzahl der Dokumente innerhalb einer Zelle entlang der Diagonale (z. B. ADLT enthält 172.394 Dokumente ist die höchste Zahl über alle Zellen). Die nondiagonal Position steht für die Anzahl von Dokumenten fallen unter zwei Zellen (z. B. ADLT und ADOL haben 26.858 freigegebene Dokumente). (B) . Entität Graf in "Altersklassen": das Venn-Diagramm stellt die Anzahl der Proteine in den vier Zellen "Altersklassen" (INFT, CHLD ADOL und ADLT) vertreten. Die Zahl der Proteine, die in allen Zellen geteilt ist 162. Die Altersgruppe ADLT zeigt die höchste Zahl der einzigartigen Proteine (151) gefolgt von CHLD (16), INFT (8) und ADOL (1). (C) CaseOLAP Partitur Präsentation in "Altersklassen": Die Top 10 Proteine mit den höchsten durchschnittlichen CaseOLAP Punktzahlen in den einzelnen Gruppen werden in einer Heatmap dargestellt. Eine höhere CaseOLAP Punktzahl wird mit einem dunkleren Intensität der Heatmap vorgestellt (siehe Waage). Die Protein-Namen werden in der linken Spalte angezeigt, und die Zellen (INFT, CHLD, ADOL ADLT) entlang der x-Achse angezeigt. Einige Proteine zeigen eine starke Assoziation zu einer bestimmten Altersgruppe (z. B. Sterol 26-Hydroxylase, Alpha-kristallin-B-Kette und L-Seryl-tRNA starke Verbände mit ADLT, haben während Natrium/Kalium-Transport-ATPase Untereinheit Alpha-3 verfügt über eine starke Assoziation mit INFT). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 7. "Ernährungs- und Stoffwechselkrankheiten" als einem Use Case: diese Zahl stellt die Ergebnisse aus einem anderen Anwendungsfall der CaseOLAP Plattform. In diesem Fall werden Protein-Namen und ihre Abkürzungen (siehe Beispiel in Tabelle 4) als Entitäten und "Ernährungs-und metabolische Krankheit" unter anderem die beiden Zellen umgesetzt: Stoffwechselerkrankung (MBD) und Ernährungsstörungen (NTD) sind als implementiert Unterkategorien (siehe Tabelle 3 b). (A). Anzahl der Dokumente in "Ernährung und Stoffwechselerkrankungen": dieser Heatmap zeigt die Anzahl der Text-Dokumente in den Zellen der "Ernährung und Stoffwechselerkrankungen" (für Details auf die Text-Cube-Erstellung Protokoll Nr. 4 und Tabelle 3 b Siehe ). Eine höhere Anzahl von Dokumenten ist mit einer dunkleren Intensität der Heatmap vorgestellt (siehe Skalierung). Ein einzelnes Dokument kann in mehrere Zellen enthalten. Die Heatmap zeigt die Gesamtzahl der Dokumente innerhalb einer Zelle entlang der Diagonale (z. B. MBD enthält 54.762 Dokumente ist die höchste Zahl über die zwei Zellen). Die nondiagonal Position steht für die Anzahl der Dokumente, die von den beiden Zellen (z. B. MBD und NTD haben 7.101 freigegebene Dokumente) geteilt. (B). Entität Graf in "Ernährung und Stoffwechselerkrankungen": das Venn-Diagramm stellt die Anzahl der Proteine in den beiden Zellen "Ernährungs-und Stoffwechselkrankheiten" (MBD und NTD) vertreten. Die Zahl der Proteine, die in zwei Zellen geteilt ist 397. Die MBD-Zelle zeigt 300 einzigartige Proteine und die NTD-Zelle zeigt 35 einzigartige Proteine. (C). CaseOLAP Partitur Präsentation in "Ernährung und Stoffwechselerkrankungen": die Top-10-Proteine mit den höchsten durchschnittlichen CaseOLAP Punktzahlen in "Ernährung und Stoffwechselerkrankungen" werden in einer Heatmap präsentiert. Eine höhere CaseOLAP Punktzahl wird mit einem dunkleren Intensität der Heatmap vorgestellt (siehe Skalierung). Die Protein-Namen werden in der linken Spalte angezeigt und Zellen (MBD und NTD) werden entlang der x-Achse angezeigt. Einige Proteine zeigen eine starke Assoziation zu einer bestimmten Krankheit-Kategorie (z. B. Alpha-kristallin-B-Kette hat eine hohe Assoziation mit Stoffwechselerkrankung und Sterol 26-Hydroxylase hat eine hohe Assoziation mit Ernährungsstörungen). Bitte klicken Sie hier für eine größere Version dieser Figur.
| Zeitaufwand (in Prozent der Gesamtzeit) | Schritte in der CaseOLAP-Plattform | Algorithmus und Datenstruktur der CaseOLAP Plattform | Komplexität des Algorithmus und Datenstruktur | Details zu den Schritten |
| 40 % | Herunterladen und Parsen | Iteration und Baum Analyse Algorithmen | Iteration mit nested Loops und ständige Vermehrung: O(n^2), O (Log n). Wo ' n ' ist Anzahl der Iterationen. | Die Download-Pipeline durchläuft jedes Verfahren über mehrere Dateien. Jede Prozedur überfährt eines einzelnen Dokuments Parsen der Baumstruktur des XML-Rohdaten. |
| 30 % | Indizierung, suchen und Text-Cube-Erstellung | Iteration, Such-Algorithmen von Elasticsearch (Sortierung, Lucene Index, Prioritätswarteschlangen, endliche Zustandsautomaten, Bit twiddling Hacks, Regex Abfragen) | Komplexität im Zusammenhang mit Elasticsearch (https://www.elastic.co/) | Dokumente werden durch die Umsetzung der Iterationsprozess über das Data Dictionary indiziert. Die Text-Cube-Erstellung implementiert Dokument-Metadaten und Benutzer bereitgestellten Informationen. |
| 30 % | Unternehmen zählen und CaseOLAP-Berechnung | Iteration in Integrität, Popularität, Unterscheidungskraft Berechnung | O(1), O(n^2), mehrere Komplexität im Zusammenhang mit CaseOLAP Score-Berechnung basiert auf einer Iteration Arten. | Entität Graf Betrieb führt die Dokumente auf und bilden eine Anzahl Betrieb über die Liste. Die Entität Zähldaten werden verwendet, um CaseOLAP-Score berechnen. |
Tabelle 1. Algorithmen und Komplexität. Diese Tabelle enthält Informationen über die Zeit (in Prozent der Gesamtzeit) über die Verfahren (z. B. Download, Parsen), Datenstruktur und Details über die implementierten Algorithmen in der CaseOLAP-Plattform. CaseOLAP setzt die professionelle Indizierung und Suche Anwendung namens Elasticsearch. Weitere Informationen zur Komplexität im Zusammenhang mit Elasticsearch und internen Algorithmen finden Sie im (https://www.elastic.co).
| MeSH-Deskriptoren | Anzahl der PMIDs gesammelt |
| Erwachsene | 1.786.371 |
| Im mittleren Alter | 1.661.882 |
| Im Alter von | 1.198.778 |
| Jugendlicher | 706.429 |
| Junger Erwachsener | 486.259 |
| Kind | 480.218 |
| Im Alter von, 80 und älter | 453.348 |
| Kind, Vorschule | 285.183 |
| Kleinkind | 218.242 |
| Säugling, Neugeborenes | 160.702 |
| Kleinkind, vorzeitige | 17.701 |
| Säugling, niedriges Geburtsgewicht | 5.707 |
| Gebrechlichen älteren Menschen | 4.811 |
| Säugling, sehr niedrigen Geburtsgewicht | 4.458 |
| Kleinkind, klein für Gestational Alter | 3.168 |
| Kleinkind, extrem vorzeitige | 1.171 |
| Säugling, extrem niedrigen Geburtsgewicht | 1.003 |
| Kleinkind, übertragenen | 62 |
Tabelle 2: MeSH PMID Zuordnung Statistik. Die nachstehende Tabelle gibt alle Nachfolgerelemente MeSH-Deskriptoren "Altersklassen" und die Anzahl Ihrer gesammelten PMIDs (Textdokumente). Die Visualisierung dieser Statistiken ist in Abbildung 5dargestellt.
| A | Kleinkind (INFT) | Kind (CHLD) | Jugendlicher (ADOL) | Erwachsener (ADLT) |
| Netz-Root-ID | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Anzahl der Nachkomme MeSH-Deskriptoren | 9 | 2 | 1 | 6 |
| Anzahl der PMIDs ausgewählt | 16.466 | 26.907 | 35.158 | 172.394 |
| Anzahl der Objekte gefunden | 233 | 297 | 257 | 443 |
| B | Stoffwechselerkrankungen (MBD) | Ernährungsstörungen (NTD) | | |
| Netz-Root-ID | C18.452 | C18.654 | | |
Anzahl der Nachkomme MeSH Deskriptoren | 308 | 53 | | |
| Anzahl der gesammelten PMIDs | 54.762 | 19.181 | | |
| Anzahl der Objekte gefunden | 697 | 432 | | |
Tabelle 3. Text-Cube Metadaten. Eine tabellarische Ansicht des Text-Cube Metadaten wird vorgestellt. Die Tabellen informieren über die Kategorien und MeSH-Deskriptor Wurzeln und Nachkommen, die umgesetzt werden, um die Dokumente in jeder Zelle zu sammeln. Die Tabelle enthält auch die Statistiken der gesammelten Dokumente und Einrichtungen. (A) "Altersklassen": Dies ist eine tabellarische Darstellung der "Altersklassen" einschließlich Kleinkind (INFT), Kind (CHLD), Jugendlichen (ADOL) und Erwachsene (ADLT) und ihre MeSH Wurzel IDs, Anzahl der Nachkomme MeSH Deskriptoren, Anzahl der ausgewählten PMIDs und Anzahl der gefunden Personen. (B) "Ernährung und Stoffwechselerkrankungen": Dies ist eine tabellarische Darstellung der "Ernährungs-und Stoffwechselkrankheiten" einschließlich Stoffwechselerkrankung (MBD) und Ernährungsstörungen (NTD) mit ihren MeSH Wurzel IDs, Nummer der Nachkomme MeSH-Deskriptoren ausgewählte PMIDs und die Anzahl der gefundenen Objekte.
| Protein-Namen und Synonyme | Abkürzungen |
| N-Acetylglutamate Synthase, mitochondriale, Aminosäure Acetyltransferase, N-Acetylglutamate Synthase Langform; N-Acetylglutamate Synthase Kurzform; N-Acetylglutamate Synthase konserviert Domainformular] | (EG 2.3.1.1) |
| Protein/Nuclein-Säure Deglycase DJ-1 (Maillard Deglycase) (Onkogen DJ1) (Parkinson Krankheit Protein 7) (Parkinson-assoziierten Deglycase) (Protein DJ-1) | (EG 3.1.2.-) (EG 3.5.1.-) (EG 3.5.1.124) (DJ-1) |
| Pyruvat-Carboxylase, mitochondriale (Brenztraubensäure Carboxylase) | (EG 6.4.1.1) (PCB) |
| BCL-2-verbindlicher Bestandteil 3 (p53 bis geregelt Modulator der Apoptose) | (JFY-1) |
| BH3-Interaktion Domäne Tod Agonist [BH3-Interaktion Domäne Tod Agonist p15 (p15 BID); BH3-Interaktion Domäne Tod Agonist p13; BH3-Interaktion Domäne Tod Agonist p11] | (p22 BID) (BID) (p13 BID) (p11 BID) |
| ATP-Synthase Untereinheit Alpha, mitochondriale (ATP-Synthase F1-Untereinheit Alpha) | |
| Cytochrom P450 11B2, mitochondriale (Aldosteron-Synthase) (Aldosteron-Synthese-Enzym) (CYPXIB2) (Cytochrom P-450Aldo) (Cytochrom P-450_C_18) (Steroid 18-Hydroxylase) | (ALDOS) (EG 1.14.15.4) (EG 1.14.15.5) |
| 60 kDa Hitze Schock-Protein, mitochondriale (60 kDa chaperonin) (Chaperonin 60) (CPN60) (Heat Shock Protein 60) (mitochondriale Matrix Protein P1) (P60 Lymphozyten Protein) | (HSP-60) (Hsp60) (HuCHA60) (EG 3.6.4.9) |
| Caspase-4 (Eis und Ced-3 Homolog 2) (Protease TX) [gespalten in: Caspase-4 Untereinheit 1; Caspase-4 Untereinheit 2] | (CASP-4) (EG 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
Tabelle 4. Probieren Sie Entität Tabelle. Die nachstehende Tabelle gibt das Beispiel von Entitäten, die in unseren zwei Anwendungsfälle umgesetzt: "Altersklassen" und "Ernährung und Stoffwechselerkrankungen" (Abbildung 6 und Abbildung 7, Tabelle 3A,B). Die Entitäten enthalten Protein Namen, Synonyme und Abkürzungen. Jede Entität (mit seiner Synonyme und Abkürzungen) ist ausgewählten eins nach dem anderen und wird durch die Entität Suchvorgang über indizierte Daten (siehe Protokoll 3 und 5) bestanden. Die Suche wird eine Liste von Dokumenten, die die Entität Graf Betrieb weiter zu erleichtern.
| Mengen | Benutzer definiert | Berechnet | Gleichung der Menge | Bedeutung der Menge |
| Integrität | Ja | Nein | Integrität der Benutzer definierten Entitäten als 1,0 sein. | Stellt einen sinnvollen Satz. Numerischer Wert ist 1.0, wenn es bereits ein etablierter Begriff. |
| Popularität | Nein | Ja | Popularität Gleichung in Abbildung 1 (Workflow und Algorithmus) aus Referenz 5, Abschnitt "Materialien und Methoden". | Anhand der Begriff Frequenz der Phrase innerhalb einer Zelle. Durch Gesamtlaufzeit Häufigkeit der Zelle normiert. Zunahme der Begriff Frequenz hat Ergebnis rückläufig. |
| Unterscheidungskraft | Nein | Ja | Unterscheidungskraft Gleichung in Abbildung 1 (Workflow und Algorithmus) aus Referenz 5, Abschnitt "Materialien und Methoden". | Anhand der Begriff Frequenz und Dokument-Frequenz innerhalb einer Zelle und über die benachbarten Zellen. Durch Gesamtlaufzeit Frequenz und Dokument Frequenz normiert. Quantitativ, ist die Wahrscheinlichkeit, dass ein Satz in einer bestimmten Zelle eindeutig ist. |
| CaseOLAP Ergebnis | Nein | Ja | CaseOLAP Partitur Gleichung in Abbildung 1 (Workflow und Algorithmus) aus Referenz 5, Abschnitt "Materialien und Methoden". | Basierend auf Integrität, Popularität und Unverwechselbarkeit. Numerischer Wert fällt immer innerhalb von 0 bis 1. Quantitativ vertritt die CaseOLAP Partitur den Satz-Kategorie Verein |
Tabelle 5. CaseOLAP Gleichungen: The CaseOLAP-Algorithmus wurde von Fangbo Tao und Jiawei Han Et Al. in 20161entwickelt. Kurz, die nachstehende Tabelle gibt die CaseOLAP-Score-Berechnung bestehend aus drei Komponenten: Integrität, Popularität, und Unverwechselbarkeit und deren zugehörige mathematische Bedeutung. In unseren Anwendungsfällen, die Integrität Punktzahl für Proteine ist 1,0 (Höchstpunktzahl) weil sie als etablierte Entity-Namen stehen. Die CaseOLAP Punkte in unseren Anwendungsfällen ist in Abbildung 6 und Abbildung 7ersichtlich.