$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Per produrre i risultati dei campioni, abbiamo implementato l'algoritmo di CaseOLAP in due rubriche/descrittori di soggetto: "Età" e "Nutrizionali e malattie del metabolismo" come casi di utilizzo.
Gruppi di età. Abbiamo selezionato 4 tutte le sottocategorie di "Età" (infante, bambino, adolescente e adulto) come le cellule in un testo-cubo. I metadati ottenuti e le statistiche sono mostrate in tabella 3A. Il confronto del numero di documenti tra le celle di testo-cubo viene visualizzato in Figura 6A. Adulto contiene 172.394 documenti che è il numero più alto tra tutte le celle. Le sottocategorie di adulte e adolescenti hanno il maggior numero di documenti condivisi (26.858 documenti). In particolare, questi documenti inclusi l'entità del nostro interesse solo (vale a dire, proteine mitocondriali). Il diagramma di Venn in Figura 6B rappresenta il numero di entità (cioè, proteine mitocondriali) all'interno di ogni cellula, e all'interno di più sovrapposizioni fra le cellule. Il numero delle proteine condivisi all'interno di tutte le fasce d'età sottocategorie è 162. La sottocategoria adulta raffigura il più alto numero di proteine uniche (151) seguita da bambino (16), infante (8) e dell'adolescenza (1). Abbiamo calcolato l'associazione del gruppo di proteina-età come un punteggio di CaseOLAP. Le proteine di top 10 (basate sul loro Punteggio medio CaseOLAP) associate sottocategorie infante, bambino, adolescente e adulto sono 26-idrossilasi dello sterolo, catena alfa-crystallin B, 25 hydroxyvitamin D-1 alfa-idrossilasi, Serotransferrin, citrato sintasi, L-seryl-tRNA, ATPasi sodio/potassio-trasporto subunità alfa-3, Glutathione S-transferasi omega-1, NADPH: adrenodoxina ossidoriduttasi e riduttasi del solfossido della metionina del peptide mitocondriale (mostrato in Figura 6). La sottocategoria adulta Visualizza 10 heatmap celle con un'intensità più elevata rispetto alle cellule heatmap del adolescente, bambino e neonato sottocategoria, che indica che la top 10 proteine mitocondriali presentano le associazioni più forti alla sottocategoria adulto. La proteina mitocondriale dello sterolo 26-idrossilasi ha alte associazioni in tutte le sottocategorie di età quale è dimostrato da heatmap cellule con intensità più elevate rispetto alle cellule heatmap delle altre 9 proteine mitocondriali. La distribuzione statistica della differenza assoluta nel punteggio tra due gruppi Mostra la seguente gamma per differenza media con un intervallo di confidenza del 99%: (1) la differenza media tra 'ADLT' e 'INFT' si trova nella gamma (0,029 a 0,042), (2) la media differenza tra 'ADLT' e 'CHLD' si trova nell'intervallo (0,021 a 0.030), (3) la differenza media tra 'ADLT' e 'ADOL' si trova nell'intervallo (0,020 a 0,029), (4) la differenza media tra 'ADOL' e 'INFT' si trova nell'intervallo (0.015 a 0,022), (5) la differenza media tra 'ADOL' e 'CHLD' si trova nell'intervallo (0,007 a 0.010), (6) la differenza media tra 'CHLD' e 'INFT' si trova nell'intervallo (0,011 a 0,016).
Malattie nutrizionali e metaboliche. Abbiamo selezionato 2 sottocategorie di "Nutrizionali e malattie del metabolismo" (cioè, malattia metabolica e disordini nutrizionali) per creare 2 celle in un cubo di testo. I metadati ottenuti e le statistiche sono mostrate nella tabella 3B. Il confronto del numero di documenti tra le celle di testo-cubo viene visualizzato nella figura 7A. La malattia metabolica sottocategoria contiene 54.762 documenti seguite da 19.181 documenti in disordini nutrizionali. La malattia metabolica sottocategorie e disordini nutrizionali hanno 7.101 documenti condivisi. In particolare, questi documenti inclusi l'entità del nostro interesse solo (vale a dire, proteine mitocondriali). Il diagramma di Venn in figura 7B rappresenta il numero di entità all'interno di ogni cellula, e all'interno di più sovrapposizioni tra le cellule. Abbiamo calcolato la proteina - associazione "Nutrizionale e malattie metaboliche" come un punteggio di CaseOLAP. Le proteine di top 10 (basate sul loro Punteggio medio CaseOLAP) associate a questo caso di utilizzo sono steroli 26-idrossilasi, alfa-crystallin B catena, L-seryl-tRNA, dello synthase del citrato, tRNA sintetasi trasportante A 25-idrossivitamina D-1 alfa-idrossilasi, Glutathione S-transferasi omega-1, NADPH: adrenodoxina ossidoriduttasi, riduttasi del solfossido della metionina del peptide mitocondriale, inibitore dell'attivatore del plasminogeno 1 (illustrato nella Figura 7). Più della metà (54%) di tutte le proteine sono condivise tra le malattie metaboliche sottocategorie e disordini nutrizionali (397 proteine). È interessante notare che, quasi la metà (43%) delle proteine ad esso associate nella sottocategoria malattia metabolica sono unici (300 proteine), considerando che disordini nutrizionali presentano solo poche proteine uniche (35). Alfa-crystallin B catena Visualizza l'associazione più forte per le malattie metaboliche di sottocategoria. 26-idrossilasi dello sterolo, mitocondriale Visualizza l'associazione più forte nella sottocategoria disordini nutrizionali, che indica che questa proteina mitocondriale è molto rilevante negli studi che descrivono disordini nutrizionali. La distribuzione statistica della differenza assoluta nel punteggio tra i due gruppi 'MBD' e 'NTD' Mostra la gamma (0,046 a 0,061) per la differenza media come un intervallo di confidenza del 99%.

Figura 1. Visualizzazione dinamica del flusso di lavoro CaseOLAP. Questa figura rappresenta le 5 fasi principali del flusso di lavoro CaseOLAP. Nel passaggio 1, il flusso di lavoro inizia con il download e l'estrazione di documenti testuali (ad esempio, da PubMed). Nel passaggio 2, i dati estratti vengono analizzati per creare un dizionario di dati per ogni documento, nonché una MeSH per mappatura PMID. Nel passaggio 3, indicizzazione dei dati è condotto per facilitare la ricerca di entità veloce ed efficiente. Nel passaggio 4, implementazione delle informazioni fornite dall'utente categoria (es.., radice MeSH per ogni cella) viene effettuata per costruire un testo-cubo. Nel passaggio 5, l'operazione di conteggio di entità viene implementato sui dati di indice per calcolare i punteggi di CaseOLAP. Questi passaggi vengono ripetuti in modo iterativo per aggiornare il sistema con le ultime informazioni disponibili in un database pubblico (ad es., PubMed). Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2. Architettura tecnica del flusso di lavoro CaseOLAP. Questa figura rappresenta i dettagli tecnici del flusso di lavoro CaseOLAP. Dati dal repository di PubMed sono ottenuti dal server FTP di PubMed. L'utente si connette al cloud server (ad es., connettività AWS) tramite il loro dispositivo e crea una Pipeline scaricare download che estrae i dati da un repository locale nel cloud. Dati estratti sono strutturati, verificati e portati in un formato corretto con una Pipeline di analisi di dati. Contemporaneamente, viene creata una MeSH alla tabella di mapping PMID durante la fase di analisi, che viene utilizzata per la costruzione del testo-cubo. Dati analizzati vengono memorizzati come un JSON come formato di dizionario chiave-valore con i metadati del documento (ad es., anno di pubblicazione di PMID, MeSH,). Il passaggio di indicizzazione più ulteriormente migliora i dati implementando Elasticsearch per gestire dati per operazioni bulk. Successivamente, il testo-cubo viene creato con categorie definite dall'utente implementando MeSH al mapping PMID. Quando la formazione di testo-cubo e indicizzazione passaggi sono stati completati, è condotto un conteggio di entità. I dati di conteggio di entità vengono implementati per i metadati del testo-cubo. Infine, il Punteggio di CaseOLAP viene calcolato in base la struttura del testo-cubo sottostante. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3. Un esempio di un documento analizzato. In questa figura è presentato un campione di dati analizzati. I dati analizzati sono disposti come una coppia chiave-valore che è compatibile con la creazione di metadati di indicizzazione e documento. In questa figura, un PMID (ad es., "25896987") è utilizzata come chiave di e raccolta di informazioni associate (ad esempio, titolo, rivista, data, Abstract, MeSH, sostanze, reparto e posizione) sono come valore. La prima applicazione di tali metadati documento è la costruzione di MeSH PMID mapping (Figura 5 e tabella 2), che viene successivamente implementata per creare il testo-cubo e per calcolare il Punteggio di CaseOLAP con entità fornito dall'utente e Categorie. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4. Un esempio di un albero di MeSH. Albero MeSH dei gruppi 'età è adattato dalla struttura di dati disponibile nel database di NIH (MeSH Tree 2018, < https://meshb.nlm.nih.gov/treeView>). I descrittori meSH vengono implementati con loro nodo IDs (ad es., persone [M01], gruppi di età [M01.060], adolescente [M01.060.057], adulto [M01.060.116], bambino [M01.060.406], infante [M01.060.703]) per raccogliere i documenti rilevanti per un specifico descrittore di MeSH ( Tabella 3A). Clicca qui per visualizzare una versione più grande di questa figura.

Figura 5. MeSH in mappatura PMID in gruppi di età. Questa figura presenta il numero di documenti di testo (ciascuno collegato con un PMID) raccolto sotto i descrittori MeSH in "Gruppi di età" come un grafico a bolle. La MeSH al mapping PMID viene generata per fornire il numero esatto di documenti raccolti sotto i descrittori MeSH. 3.062.143 documenti unici in totale sono stati raccolti sotto i 18 descrittori MeSH discendenti (Vedi tabella 2). Più alto il numero di PMIDs selezionata in un specifico descrittore di MeSH, il più grande il raggio della bolla che rappresenta il descrittore di MeSH. Per esempio, il maggior numero di documenti sono stati raccolti sotto il descrittore di MeSH "Adulto" (1.786.371 documenti), mentre il minor numero di documenti di testo sono stati raccolti sotto il descrittore di MeSH "Infante, Postmature" (62 documenti).
Un ulteriore esempio di MeSH al mapping PMID è dato per "Nutrizionali e malattie del metabolismo" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). 422.039 documenti unici in totale sono stati raccolti sotto i 361 descrittori MeSH discendenti in "Malattie del metabolismo e della nutrizione". Il maggior numero di documenti sono stati raccolti sotto il descrittore di MeSH "Obesità" (77.881 documenti) seguirono da "diabete mellito di tipo 2" (61.901 documenti), considerando che "Glicogenosi, tipo VIII" hanno esibito il minor numero di documenti (1 documento ). Una tabella correlata è anche disponibile online presso (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Clicca qui per visualizzare una versione più grande di questa figura.

Nella figura 6. "Età" come un caso d'uso. Questa figura presenta i risultati di un caso di utilizzo della piattaforma CaseOLAP. In questo caso, i nomi di proteine e loro abbreviazioni (vedere esempio in tabella 4) vengono implementate come entità e "Età", comprese le cellule: infante (INFT), bambino (CHLD), adolescenti (Nik) e adulti (ADLT), vengono implementate come sottocategorie (Vedi Tabella 3A). (A) Numero di documenti in "Gruppi di età": Questa mappa di calore indica il numero di documenti distribuiti in cellule di "Gruppi di età" (per dettagli vedere la creazione testo-cubo protocollo 4 e tabella 3A). Un numero maggiore di documenti è presentato con un'intensità più scura dell'heatmap delle cellule (Vedi la scala). Un singolo documento può essere incluso in più di una cella. L'heatmap presenta il numero di documenti all'interno di una cella lungo la posizione diagonale (ad es., l'ADLT contiene 172.394 documenti che è il numero più alto tra tutte le celle). La posizione come rappresenta il numero di documenti che rientrano nell'ambito di due celle (ad esempio, ADLT e ADOL hanno 26.858 documenti condivisi). (B) . Conteggio delle entità in "Gruppi di età": il diagramma di Venn rappresenta il numero di proteine che si trovano in quattro celle che rappresentano i "Gruppi di età" (INFT, CHLD, ADOL e ADLT). Il numero delle proteine condivisi all'interno di tutte le cellule è 162. Gruppo d'età ADLT raffigura il più alto numero di proteine uniche (151) seguita da CHLD (16), INFT (8) e Luca (1). (C) CaseOLAP presentazione di punteggio in "Gruppi di età": La top 10 proteine con i punteggi medi più alti di CaseOLAP in ogni gruppo sono presentate in una mappa di calore. Un punteggio più alto di CaseOLAP è presentato con un'intensità più scura dell'heatmap delle cellule (Vedi la scala). Sulla colonna di sinistra vengono visualizzati i nomi di proteine e le cellule (INFT, CHLD, ADOL ADLT) vengono visualizzate lungo l'asse x. Alcune proteine mostrano una forte associazione a uno specifico gruppo di età (ad es., 26-idrossilasi dello sterolo, alfa-crystallin catena B e L-seryl-tRNA hanno forti associazioni con ADLT, mentre ATPasi sodio/potassio-trasporto subunità alfa-3 ha una forte associazione con INFT). Clicca qui per visualizzare una versione più grande di questa figura.

Figura 7. "Nutrizionale e malattie metaboliche" come un caso d'uso: questa figura presenta i risultati di un altro caso di utilizzo della piattaforma CaseOLAP. In questo caso, i nomi di proteine e loro abbreviazioni (Vedi esempio nella tabella 4) vengono implementati come entità e "Malattia nutrizionale e metabolico" comprese le due cellule: malattia metabolica (MBD) e disordini nutrizionali (NTD) sono implementati come sottocategorie (vedere la tabella 3B). (A). numero di documenti in "Malattie del metabolismo e della nutrizione": questo heatmap raffigura il numero di documenti di testo nelle celle di "Malattie del metabolismo e della nutrizione" (per informazioni dettagliate sulla creazione di testo-cubo vedere protocollo n. 4 e tabella 3B ). Un numero maggiore di documenti è presentato con un'intensità più scura dell'heatmap delle cellule (Vedi scala). Un singolo documento può essere incluso in più di una cella. L'heatmap presenta il numero totale di documenti all'interno di una cella lungo la posizione diagonale (ad es., il MBD contiene 54.762 documenti che è il numero più alto tra le due celle). La posizione come rappresenta il numero di documenti condivisi dalle due cellule (ad es., MBD e NTD hanno 7.101 documenti condivisi). (B). conteggio delle entità in "Malattie del metabolismo e della nutrizione": il diagramma di Venn rappresenta il numero di proteine che si trovano nelle due celle che rappresentano "Nutrizionali e malattie del metabolismo" (MBD e NTD). Il numero delle proteine ha condiviso all'interno delle due cellule è 397. La cella MBD raffigura 300 proteine uniche, e la cella NTD raffigura 35 proteine uniche. (C). CaseOLAP presentazione di punteggio in "Malattie del metabolismo e della nutrizione": le proteine 10 migliori con i punteggi medi più alti di CaseOLAP in "Malattie del metabolismo e della nutrizione" sono presentate in una mappa di calore. Un punteggio più alto di CaseOLAP è presentato con un'intensità più scura dell'heatmap delle cellule (Vedi scala). Sulla colonna di sinistra vengono visualizzati i nomi di proteine e cellule (MBD e NTD) sono visualizzate lungo l'asse x. Alcune proteine mostrano una forte associazione a una categoria specifica di malattia (ad es., alfa-crystallin B catena ha un'alta associazione con la malattia metabolica e steroli 26-idrossilasi ha un'alta associazione con disordini nutrizionali). Clicca qui per visualizzare una versione più grande di questa figura.
| Tempo trascorso (percentuale del tempo totale) | Passaggi nella piattaforma CaseOLAP | Algoritmo e struttura dei dati della piattaforma CaseOLAP | Complessità dell'algoritmo e struttura dei dati | Particolari dei punti |
| 40% | Download in corso e L'analisi | Albero di algoritmi di analisi e di iterazione | Iterazione con ciclo nidificato e moltiplicazione costante: O(n^2), O (log n). Dove ' n'è no di iterazioni. | La pipeline di Downloading scorre ogni procedura per più file. L'analisi di un singolo documento, viene eseguito ogni procedura sopra la struttura ad albero di dati XML non elaborati. |
| 30% | L'indicizzazione, la ricerca e la creazione di cubi di testo | Iterazione, algoritmi di ricerca di Elasticsearch (ordinamento, indice di Lucene, code di priorità, macchine a stati finiti, bit giocherellando hack, query regex) | Complessità legate alla Elasticsearch (https://www.elastic.co/) | I documenti vengono indicizzati implementando il processo di iterazione sopra il dizionario dei dati. La creazione di testo-cubo implementa documento meta-dati e informazioni di categoria fornito dall'utente. |
| 30% | Entità di conteggio e calcolo CaseOLAP | Iterazione nell'integrità, popolarità, calcolo di carattere distintivo | O (1), O(n^2), più complessità legate alla caseOLAP calcolo punteggio basato sui tipi di iterazione. | Operazione di conteggio di entità sono elencati i documenti e fare un'operazione di conteggio sopra la lista. I dati di conteggio di entità viene utilizzati per calcolare il Punteggio CaseOLAP. |
Tabella 1. Algoritmi e complessità. Questa tabella presenta informazioni sul tempo impiegato (percentuale del tempo totale trascorso) sulle procedure (ad es., download, analisi), struttura di dati e informazioni dettagliate su algoritmi implementati nella piattaforma CaseOLAP. CaseOLAP implementa l'indicizzazione professionale e l'applicazione di ricerca chiamato Elasticsearch. Ulteriori informazioni su complessità relazionati al Elasticsearch e algoritmi interni possono essere trovati alla (https://www.elastic.co).
| Descrittori di maglia | Numero di PMIDs raccolti |
| Adulto | 1.786.371 |
| Medio Evo | 1.661.882 |
| Di età compresa tra | 1.198.778 |
| Adolescente | 706.429 |
| Giovane adulto | 486.259 |
| Bambino | 480.218 |
| Invecchiato, 80 e oltre | 453.348 |
| Bambino in età prescolare | 285.183 |
| Neonato | 218.242 |
| Neonato, neonato | 160.702 |
| Neonato prematuro | 17.701 |
| Neonato sottopeso | 5.707 |
| Anziani fragili | 4.811 |
| Peso alla nascita neonato, molto basso | 4.458 |
| Infante, piccolo per l'età gestazionale | 3.168 |
| Neonato estremamente prematuro | 1.171 |
| Peso alla nascita estremamente basso, neonato | 1.003 |
| Neonato, Postmature | 62 |
Tabella 2. MeSH in statistiche mappatura PMID. Questa tabella presenta tutti i descrittori MeSH discendenti da "Età" e il loro numero di raccolti PMIDs (documenti di testo). La visualizzazione di queste statistiche è presentata nella Figura 5.
| A | Infante (INFT) | Bambino (CHLD) | Adolescente (FRE) | Adulto (ADLT) |
| Radice ID di meSH | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Numero di descrittori MeSH discendenti | 9 | 2 | 1 | 6 |
| Numero di PMIDs selezionato | 16.466 | 26.907 | 35.158 | 172.394 |
| Numero delle entità trovate | 233 | 297 | 257 | 443 |
| B | Malattie metaboliche (MBD) | Disordini nutrizionali (NTD) | | |
| Radice ID di meSH | C18.452 | C18.654 | | |
Numero di MeSH discendente descrittori | 308 | 53 | | |
| Numero di PMIDs raccolti | 54.762 | 19.181 | | |
| Numero delle entità trovate | 697 | 432 | | |
Tabella 3. Testo-Cube metadati. Una visualizzazione tabulare dei metadati testo-Cube è presentata. Le tabelle forniscono informazioni sulle categorie e MeSH descrittore radici e discendenti, che vengono implementati per raccogliere i documenti in ogni cella. La tabella fornisce anche le statistiche di entità e i documenti raccolti. (A) "Età": si tratta di una rappresentazione tabellare di "Età" tra cui infante (INFT), bambino (CHLD), adolescenti (Nik) e adulti (ADLT) e trovato loro radice MeSH ID, numero di discendenti descrittori MeSH, numero di PMIDs selezionato e il numero di entità. (B) "Malattie del metabolismo e della nutrizione": si tratta di una rappresentazione tabellare delle "Malattie nutrizionali e metaboliche" compreso la malattia metabolica (MBD) e disordini nutrizionali (NTD) con il loro radice MeSH ID, numero di discendenti descrittori MeSH, numero di PMIDs selezionato e il numero delle entità trovate.
| Nomi di proteina e sinonimi | Abbreviazioni |
| N-acetilglutammato sintasi, mitocondriale, aminoacido acetiltransferasi, forma lunga di N-acetilglutammato sintasi; Forma abbreviata di N-acetilglutammato sintasi; Modulo di N-acetilglutammato sintasi conservata dominio] | (CE 2.3.1.1) |
| Deglycase acido nucleico/proteina DJ-1 (Maillard deglycase) (Oncogene DJ1) (proteina di malattia di Parkinson 7) (parkinsonismo-associated deglycase) (proteina DJ-1) | (EC 3.1.2.-) (EC 3.5.1.-) (EC 3.5.1.124) (DJ-1) |
| Piruvato carbossilasi, mitocondriale (piruvico carbossilasi) | (EC 6.4.1.1) (PCB) |
| BCL-2-Associazione componente 3 (p53 up-regolato modulatore dell'apoptosi) | (JFY-1) |
| BH3-interazione agonista morte dominio [BH3-interazione dominio morte agonista p15 (p15 BID); BH3-interazione dominio morte agonista p13; Dominio BH3-interacting morte agonista p11] | (p22 BID) (OFFERTA) (p13 BID) (p11 BID) |
| ATP sintasi subunità alfa, mitocondriale (ATP sintasi F1 subunità alfa) | |
| Citocromo P450 11B2, mitocondriale (Aldosterone sintasi) (Angiotensina Aldosterone-sintetizzazione) (CYPXIB2) (citocromo P-450Aldo) (citocromo P-450_C_18) (idrossilasi dello steroide 18) | (ALDOS) (EC 1.14.15.4) (EC 1.14.15.5) |
| 60 kDa heat shock proteins, mitocondriale (il 60 kDa chaperonin) (il Chaperonin 60) (CPN60) (Heat shock protein 60) (proteina di matrice mitocondriale P1) (proteina del linfocita di P60) | (HSP-60) (Hsp60) (HuCHA60) (EC 3.6.4.9) |
| Caspasi-4 (ghiaccio e Ced-3 dell'omologo 2) (proteasi TX) [scisso in: Caspase-4 subunità 1; Caspasi-4 subunità 2] | (CASP-4) (EC 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
Tabella 4. Entità tabella di esempio. Questa tabella presenta il campione di entità implementata nei nostri casi di due uso: "Età" e "Malattie del metabolismo e della nutrizione" (Figura 6 e Figura 7, tabella 3A,B). Le entità includono proteine nomi, sinonimi e abbreviazioni. Ogni entità (con i suoi sinonimi e abbreviazioni) è selezionato uno ad uno e viene passato attraverso l'operazione di ricerca di entità su dati indicizzati (Vedi protocollo 3 e 5). La ricerca produce un elenco di documenti che favoriscano ulteriormente l'operazione di conteggio di entità.
| Quantità | Definito dall'utente | Calcolato | Equazione della quantità | Significato della quantità |
| Integrità | Sì | No | Integrità dell'utente definito entità considerata 1.0. | Rappresenta una frase significativa. Valore numerico è 1.0, quando è già una frase stabilita. |
| Popolarità | No | Sì | Equazione di popolarità nella figura 1 (flusso di lavoro e algoritmo) da riferimento 5, sezione "Materiali e metodi". | Basato sulla frequenza di termine della frase all'interno di una cella. Normalizzato di frequenza del termine totale della cella. Aumento della frequenza di termine è risultato in diminuzione. |
| Carattere distintivo | No | Sì | Equazione di carattere distintivo nella figura 1 (flusso di lavoro e algoritmo) da riferimento 5, sezione "Materiali e metodi". | Basato su durata e frequenza di documento all'interno di una cella e tra le cellule vicine. Normalizzati dal termine totale frequenza e frequenza di documento. Quantitativamente, è la probabilità che una frase è unica in una cella specifica. |
| Punteggio di CaseOLAP | No | Sì | Equazione di Punteggio CaseOLAP in figura 1 (flusso di lavoro e algoritmo) da riferimento 5, sezione "Materiali e metodi". | Basato su integrità, popolarità e carattere distintivo. Valore numerico rientra sempre da 0 a 1. Quantitativamente il Punteggio di CaseOLAP rappresenta l'associazione di frase-categoria |
Tabella 5. Equazioni di CaseOLAP: CaseOLAP l'algoritmo è stato sviluppato da Fangbo Tao e Jiawei Han et nel 20161. Questa tabella presenta brevemente, il calcolo del Punteggio di CaseOLAP composto da tre componenti: integrità, popolarità e carattere distintivo e il loro significato matematico associato. Nei nostri casi di utilizzo, il Punteggio di integrità per le proteine è 1.0 (il punteggio massimo) perché si levano in piedi come i nomi di entità stabilita. I punteggi di CaseOLAP nei nostri casi di utilizzo possono essere visto in Figura 6 e Figura 7.