$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Pour produire des résultats de l’échantillon, nous avons implémenté l’algorithme de CaseOLAP dans deux rubriques/descripteurs de sujet : « Groupes d’âge » et « Nutrition et maladies métaboliques » comme des cas d’utilisation.
Groupes d’âge. Nous avons sélectionné toutes les 4 sous-catégories de « Âge » (bébé, enfant, adolescent et adulte) sous forme de cellules dans un texte-Cube. Les métadonnées obtenues et les statistiques sont indiquées dans le tableau 3 a. La comparaison du nombre de documents parmi les cellules de texte-Cube est affichée dans la Figure 6 a. Adulte contient 172 394 documents qui est le plus grand nombre dans l’ensemble de toutes les cellules. Les sous-catégories d’adultes et adolescents ont le plus grand nombre de documents partagés (documents 26 858). En particulier, ces documents comprenaient l’entité de notre intérêt seulement (c'est-à-dire des protéines mitochondriales). Le diagramme de Venn dans la Figure 6 b représente le nombre d’entités (c.-à-d. les protéines mitochondriales) trouvé au sein de chaque cellule et chevauchements multiples entre les cellules. Le nombre de protéines partagées au sein de toutes les sous-catégories de groupes d’âge est de 162. La sous-catégorie adulte représente le plus grand nombre de protéines uniques (151) suivi de l’enfant (16 ans), enfant en bas âge (8) et de l’adolescent (1). Nous avons calculé l’association protéine-âge de groupe comme un score de CaseOLAP. Les top 10 de protéines (selon leur score moyen de CaseOLAP) associés à des sous-catégories nourrisson, enfant, adolescent et adulte sont stérol 26-hydroxylase, chaîne Alpha-cristalline B, D-1 de 25-hydroxyvitamine alpha-hydroxylase, Serotransferrin, Citrate synthase, L-séryl-tRNA, ATPase Sodium/potassium-transport sous-unité alpha-3, Glutathione S-transférase omega-1, NADPH : adrénodoxine oxydoréductase et réductase de sulfoxyde de méthionine peptide mitochondriale (illustré à la Figure 6). La sous-catégorie adulte affiche 10 heatmap cellules avec une intensité plus élevée par rapport aux cellules de l’adolescent, l’enfant et la sous-catégorie infantile, ce qui indique que les protéines mitochondriales 10 albums présentent les plus fortes associations à la sous-catégorie adulte heatmap. La protéines mitochondriales stérol 26-hydroxylase a hautes associations dans toutes les sous-catégories d’âge qui est démontré par les cellules heatmap avec des intensités plus élevées par rapport aux cellules heatmap des 9 autres protéines mitochondriales. La distribution statistique de la différence absolue dans la partition entre les deux groupes montre la plage suivante pour différence moyenne avec un intervalle de confiance de 99 % : (1) la différence moyenne entre « ADLT » et « INFT » se situe dans la gamme (0,029 à 0,042), (2) la moyenne différence entre « ADLT » et « Enf » réside dans la gamme (0,021 à 0,030), (3) la différence moyenne entre « ADLT » et « ADOL » situe dans la gamme (0,020 à 0,029), (4) la différence moyenne entre « ADOL » et « INFT » réside dans la gamme (0,015 à 0,022), (5) la différence moyenne entre « ADOL » et « Enf » se trouve dans la gamme (0,007 à 0,010), (6) la différence moyenne entre « Enfant » et « INFT » réside dans la gamme (0,011 à 0,016).
Maladies nutritionnelles et métaboliques. Nous avons sélectionné 2 sous-catégories de « Nutrition et maladies métaboliques » (maladie métabolique et les troubles nutritionnels) pour créer 2 cellules dans un texte-Cube. Les métadonnées obtenues et les statistiques sont indiquées au tableau 3 b. La comparaison du nombre de documents parmi les cellules de texte-Cube est affichée dans la Figure 7 a. La maladie métabolique de la sous-catégorie contient 54 762 documents suivies de documents 19 181 dans les troubles nutritionnels. La maladie métabolique sous-catégories et désordres nutritionnels ont 7 101 documents partagés. En particulier, ces documents comprenaient l’entité de notre intérêt seulement (c'est-à-dire des protéines mitochondriales). Le diagramme de Venn dans la Figure 7 b représente le nombre d’entités trouvées au sein de chaque cellule et chevauchements multiples entre les cellules. Nous avons calculé la protéine-« Nutrition et maladies métaboliques » association comme une partition de CaseOLAP. Les top 10 de protéines (selon leur score moyen de CaseOLAP) associés à ce cas d’utilisation sont stérol 26-hydroxylase, Alpha-cristalline B chain, L-séryl-tRNA, Citrate synthase, tRNA pseudouridine synthase A D-1 de 25-hydroxyvitamine alpha-hydroxylase, Glutathione S-transférase omega-1, NADPH : adrénodoxine oxydoréductase, réductase de peptide mitochondriale méthionine sulfoxyde, inhibiteur de l’activateur du plasminogène 1 (voir Figure 7). Plus de la moitié (54 %) de toutes les protéines sont partagés entre les sous-catégories maladies métaboliques et les troubles nutritionnels (397 protéines). Fait intéressant, près de la moitié (43 %) de toutes les protéines dans la sous-catégorie de maladie métabolique sont uniques (300 protéines), tandis que les troubles nutritionnels pièce seulement quelques protéines uniques (35). Chaîne d’Alpha-cristalline B affiche la plus forte association aux maladies métaboliques de la sous-catégorie. Stérol 26-hydroxylase mitochondriale affiche la plus forte association dans la sous-catégorie des désordres nutritionnels, indiquant que cette protéine mitochondriale est très pertinente dans les études décrivant les troubles nutritionnels. La distribution statistique de la différence absolue dans la partition entre les deux groupes « MBD » et « NTD » indique la plage (0,046 à 0,061) pour la différence moyenne comme un intervalle de confiance de 99 %.

Figure 1. Affichage dynamique du flux de travail CaseOLAP. Ce chiffre représente les 5 principales étapes du flux de travail CaseOLAP. À l’étape 1, le flux de travail commence par téléchargement et extraction de documents textuels (par exemple, à partir de PubMed). À l’étape 2, les données extraites sont analysées pour créer un dictionnaire de données pour chaque document ainsi qu’un maillage de cartographie PMID. À l’étape 3, données d’indexation est effectuée pour faciliter la recherche de l’entité rapide et efficace. À l’étape 4, mise en œuvre des informations fournies par l’utilisateur de catégorie (par exemple,., racine MeSH pour chaque cellule) est réalisée pour construire un texte-Cube. À l’étape 5, l’opération count entité est mis en œuvre sur des données d’index pour calculer les scores de CaseOLAP. Ces étapes sont répétées de manière itérative pour mettre à jour le système avec les dernières informations disponibles dans une base de données publique (p. ex., PubMed). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2. Architecture technique du flux de travail CaseOLAP. Ce chiffre représente les détails techniques du flux de travail CaseOLAP. Elles sont tirées du référentiel PubMed depuis le serveur FTP de PubMed. L’utilisateur se connecte au serveur cloud (par exemple, la connectivité AWS) via leur appareil et crée un tuyau à télécharger qui télécharge et extrait les données d’un référentiel local dans le nuage. Données extraites sont structurées, vérifiées et présentées dans un format approprié avec un Pipeline de l’analyse des données. Simultanément, une maille à la table de mappage PMID est créée pendant l’étape de l’analyse, qui est utilisé pour la construction du texte-Cube. Données analysées sont stockées sous un JSON comme format de clé-valeur dictionnaire avec des métadonnées de document (par exemple, l’année édition PMID, maille,). L’étape d’indexation plus améliore les données en implémentant Elasticsearch pour gérer des données en bloc. Ensuite, le texte-Cube est créé avec des catégories définies par l’utilisateur en implémentant la maille au mappage PMID. Lorsque la formation de texte-Cube et indexation étapes sont terminées, un nombre d’entités est menée. Données de comptage d’entité sont mises en œuvre pour les métadonnées de texte-Cube. Enfin, le score CaseOLAP est calculé selon la structure de texte-Cube sous-jacent. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3. Un échantillon d’un document analysé. Un échantillon de données analysées est présenté dans cette figure. Les données analysées sont disposées comme une paire clé / valeur qui est compatible avec la création de métadonnées d’indexation et de document. Dans cette figure, un PMID (p. ex., « 25896987 ») sert une clé et collecte des informations associées (par exemple, titre, Journal, date, résumé, maille, Substances, département et l’emplacement de publication) sont comme valeur. L’application première de ce type document de métadonnées est la construction de maille à PMID cartographie (Figure 5 et tableau 2), qui est ensuite mis en œuvre pour créer le texte-Cube et pour calculer le score de CaseOLAP avec des entités fournies par l’utilisateur et catégories. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4. Un échantillon d’un arbre de la maille. Arbre de la 'Age Groups' MeSH est une adaptation de la structure de données arborescente disponible dans la base de données du NIH (MeSH Tree 2018, < https://meshb.nlm.nih.gov/treeView>). Les descripteurs meSH sont implémentés avec leur nœud ID (par exemple, personnes [M01], groupes d’âge [M01.060], Adolescent [M01.060.057], adulte [M01.060.116], enfant [M01.060.406], enfant en bas âge [M01.060.703]) pour recueillir les documents pertinents à un descripteur spécifique de la maille ( Tableau 3 a). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 5. MeSH pour cartographie PMID en groupes d’âge. Ce chiffre indique le nombre de documents texte (chacune liée à un PMID) recueilli sous les descripteurs MeSH « Groupes d’âge » comme un graphique en bulles. La maille au mappage PMID est générée afin de fournir le nombre exact des documents recueillis sous les descripteurs MeSH. Un nombre total de 3 062 143 documents uniques ont été rassemblé sous les 18 descripteurs MeSH descendants (voir tableau 2). Plus le nombre de PMIDs sélectionnés sous un descripteur spécifique de maille, plu le rayon de la bulle qui représente le descripteur MeSH. Par exemple, le plus grand nombre de documents ont été rassemblé sous le descripteur MeSH « Adulte » (1 786 371 documents), tandis que le plus petit nombre de documents de texte ont été rassemblé sous le descripteur MeSH « Infant, Postmature » (62 documents).
Un autre exemple de maillage pour la cartographie PMID est donné pour « Nutrition et maladies métaboliques » (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Un nombre total de 422 039 documents uniques ont été rassemblé sous les descripteurs de maille descendants 361 dans « Nutrition et maladies métaboliques ». Le plus grand nombre de documents ont été rassemblé sous le descripteur MeSH « Obésité » (documents 77 881) suivi de « diabète, de Type 2"(documents 61 901), tandis que « Glycogen Storage Disease, Type VIII » présentait le plus petit nombre de documents (1 document ). Une table associée est également disponible en ligne à (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 6. « Groupes d’âge » comme un cas d’utilisation. Ce chiffre présente les résultats d’un cas d’utilisation de la plateforme CaseOLAP. Dans ce cas, les noms de protéines et leurs abréviations (voir exemple dans le tableau 4) sont implémentées comme des entités et des « Groupes d’âge », y compris les cellules : mortalité infantile (INFT), enfant (ENF), adolescent (ADOL) et adulte (ADLT), sont implémentées comme des sous-catégories (voir Tableau 3 a). (A) Nombre de documents dans des « Groupes d’âge » : Cette carte de chaleur montre le nombre de documents distribués à travers les cellules de « Groupes âgés » (pour plus de détails sur le texte-Cube création voir protocole N° 4 et le tableau 3 a). Un plus grand nombre de documents est présenté avec une intensité plus sombre de la heatmap cellulaire (voir le barème). Un seul document peut figurer dans plusieurs cellules. Le heatmap présente le nombre de documents dans une cellule le long de la position diagonale (p. ex., ADLT contient 172 394 documents qui est le plus grand nombre dans l’ensemble de toutes les cellules). La position de présence représente le nombre de documents se retrouvant sous deux cellules (par exemple, ADLT et ADOL ont 26 858 documents partagés). (B) . Nombre d’entités à des « Groupes d’âge » : le diagramme de Venn représente le nombre de protéines présentes dans les quatre cellules représentant les « Groupes d’âge » (INFT, enf, ADOL et ADLT). Le nombre de protéines partagées au sein de toutes les cellules est 162. Le groupe d’âge ADLT représente le plus grand nombre de protéines uniques (151), suivie par ENF (16), INFT (8) et Dominique (1). (C) CaseOLAP score présentation dans « Groupes d’âge » : Les top 10 protéines avec les meilleurs scores CaseOLAP moyens dans chaque groupe sont présentées dans une carte de chaleur. Un score plus élevé de CaseOLAP est présenté avec une intensité plus sombre de la heatmap cellulaire (voir le barème). Les noms de protéine sont affichés sur la colonne de gauche et les cellules (ENF, ADOL, INFT, ADLT) sont affichent sur l’axe x. Certaines protéines présentent une forte association à un groupe d’âge spécifique (p. ex., stérol 26-hydroxylase, chaîne B alpha-cristalline et L-séryl-tRNA ont de fortes associations avec ADLT, tandis que la sous-unité ATPase Sodium/potassium-transport alpha-3 a une forte association avec INFT). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 7. « Nutrition et maladies métaboliques » comme un cas d’utilisation : ce chiffre présente les résultats d’un autre cas d’utilisation de la plateforme CaseOLAP. Dans ce cas, les noms de protéines et leurs abréviations (voir l’exemple au tableau 4) sont implémentées comme des entités et « Maladie nutritionnelle et métabolique » y compris les deux cellules : maladie métabolique (MBD) et les troubles nutritionnels (NTD) sont implémentés comme sous-catégories (voir tableau 3 b). (A). certain nombre de documents en « Nutrition et maladies métaboliques » : ce heatmap représente le nombre de documents de texte dans les cellules des « Maladies métaboliques et nutritionnelles » (pour plus de détails sur la création de texte-Cube voir protocole N° 4 et 3 b ). Un plus grand nombre de documents est présenté avec une intensité plus sombre de la heatmap cellulaire (voir échelle). Un seul document peut figurer dans plusieurs cellules. Le heatmap présente le nombre total de documents dans une cellule le long de la position diagonale (p. ex., MBD contient 54 762 documents qui est le plus grand nombre à travers les deux cellules). La position de présence représente le nombre de documents partagés par les deux cellules (par exemple, MBD et ATN ont 7 101 documents partagés). (B). nombre d’entités dans « Nutrition et maladies métaboliques » : le diagramme de Venn représente le nombre de protéines trouvées dans les deux cellules représentant « Nutrition et maladies métaboliques » (MBD et NTD). Le nombre de protéines partagées au sein de deux cellules est 397. La cellule MBD représente 300 protéines uniques, et la cellule de l’ATN représente 35 protéines uniques. (C). CaseOLAP score présentation dans « Nutrition et maladies métaboliques » : les protéines top 10 avec les meilleurs scores CaseOLAP moyennes en « Nutrition et maladies métaboliques » sont présentés dans une carte de chaleur. Un score plus élevé de CaseOLAP est présenté avec une intensité plus sombre de la heatmap cellulaire (voir échelle). Les noms de protéine sont affichés sur la colonne de gauche et de cellules (MBD et NTD) sont affichent sur l’axe x. Certaines protéines présentent une forte association à une catégorie spécifique de la maladie (par exemple, alpha-cristalline B chaîne possède une forte association avec maladie métabolique et stérol 26-hydroxylase a une association forte avec les troubles nutritionnels). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.
| Temps passé (pourcentage du temps total) | Étapes de la plateforme CaseOLAP | Algorithme et Structure de données de la plateforme CaseOLAP | Complexité de l’algorithme et Structure de données | Détails des étapes |
| 40 % | Téléchargement et L’analyse | Arborescence de l’analyse d’algorithmes et itération | Itération avec des boucles imbriquées et multiplication constante : O(n^2), O (log n). Où ' n’est pas d’itérations. | Le pipeline téléchargement itère chaque procédure sur plusieurs fichiers. L’analyse d’un document unique s’exécute chaque intervention sur la structure arborescente des données XML brutes. |
| 30 % | Indexation, recherche et texte Cube création | Itération, les algorithmes de recherche de Elasticsearch (tri, Lucene index, files d’attente, machines à États finis peu tourner les hacks, les requêtes de regex) | Complexité liée à Elasticsearch (https://www.elastic.co/) | En mettant en œuvre le processus d’itération sur le dictionnaire de données, les documents sont indexés. La création de texte-Cube implémente document meta-données et informations fournies par l’utilisateur de catégorie. |
| 30 % | Entité de comptage et de calcul CaseOLAP | Itération dans l’intégrité, popularité, calcul de caractère distinctif | O (1), O(n^2), multiples complexités associées à caseOLAP Score calcul basé sur les types de l’itération. | Opération count entité énumère les documents et faire une opération count sur la liste. Les données de comptage d’entité sert à calculer le score CaseOLAP. |
Tableau 1. Algorithmes et complexité. Ce tableau présente des informations sur le temps passé (pourcentage du temps total passé) sur les procédures (par exemple, téléchargement, l’analyse), structure de données et d’informations sur les algorithmes mis en œuvre dans la plate-forme CaseOLAP. CaseOLAP implémente l’indexation professionnelle et à l’application de recherche appelé Elasticsearch. On trouvera des renseignements supplémentaires sur les complexités liées aux Elasticsearch et aux algorithmes internes à (https://www.elastic.co).
| Descripteurs meSH | Nombre de de PMIDs collectés |
| Adulte | 1 786 371 |
| D’âge moyen | 1 661 882 |
| Âgés de | 1 198 778 |
| Adolescent | 706 429 |
| Jeune adulte | 486 259 |
| Enfant | 480 218 |
| Vieilli, 80 et plus | 453 348 |
| Enfant, éducation préscolaire | 285 183 |
| Enfant en bas âge | 218 242 |
| Nourrisson, nouveau-né | 160 702 |
| Bébé, prématuré | 17 701 |
| Poids à la naissance pour bébé, à faible | 5 707 |
| Personnes âgées fragiles | 4 811 |
| Poids à la naissance pour bébé, très faible | 4 458 |
| Nourrisson, petit pour l’âge gestationnel | 3 168 |
| Nourrisson, extrêmement prématuré | 1 171 |
| Poids à la naissance pour bébé, extrêmement faible | 1 003 |
| Nourrisson, Postmature | 62 |
Le tableau 2. MeSH pour statistiques cartographie PMID. Ce tableau présente tous les descripteurs de maille descendants de « Groupes d’âge » et leur nombre de PMIDs recueillis (documents texte). La visualisation de ces statistiques est présentée dans la Figure 5.
| A | Nourrisson (INFT) | Enfant (ENF) | Adolescent (ADOL) | Adulte (ADLT) |
| ID de maillage racine | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Nombre de descendants descripteurs MeSH | 9 | 2 | 1 | 6 |
| Nombre de PMIDs sélectionné | 16 466 | 26 907 | 35 158 | 172 394 |
| Nombre d’entités jugées | 233 | 297 | 257 | 443 |
| B | Maladies métaboliques (MBD) | Troubles nutritionnels (NTD) | | |
| ID de maillage racine | C18.452 | C18.654 | | |
Nombre de maille descendant descripteurs | 308 | 53 | | |
| Nombre de PMIDs recueillis | 54 762 | 19 181 | | |
| Nombre d’entités jugées | 697 | 432 | | |
Tableau 3. Métadonnées de texte-Cube. Une vue tabulaire des métadonnées de texte-Cube est présenté. Les tableaux fournissent des informations sur les catégories et maillage des racines de descripteur et descendants, qui sont mis en place pour recueillir les documents dans chaque cellule. Le tableau indique également les statistiques des documents rassemblés et entités. (A) « Âges »: il s’agit d’un affichage tabulaire des « Groupes d’âge », y compris la mortalité infantile (INFT), enfant (ENF), adolescent (ADOL) et adulte (ADLT) et trouvé de leur racine MeSH IDs, nombre de descendants descripteurs MeSH, nombre de PMIDs sélectionnés et nombre d’entités. (B) « Les maladies nutritionnelles et métaboliques »: il s’agit d’un affichage tabulaire des « Maladies nutritionnelles et métaboliques » y compris une maladie métabolique (MBD) et les troubles nutritionnels (NTD) avec leur racine MeSH IDs, nombre de descendants descripteurs MeSH, nombre de PMIDs sélectionnés et le nombre d’entités trouvées.
| Les noms de protéine et synonymes | Abréviations |
| N-acétylglutamate synthase mitochondrique, aminoacide acétyltransférase, N-acétylglutamate synthase forme longue ; N-acétylglutamate synthase forme abrégée ; N-acétylglutamate synthase conservé domaine forme] | (EC 2.3.1.1) |
| Deglycase acide nucléique/protéine DJ-1 (Maillard deglycase) (DJ1 oncogène) (protéine de la maladie de Parkinson 7) (lié à la maladie de Parkinson deglycase) (protéine DJ-1) | (EC 3.1.2.-) (EC 3.5.1.-) (EC 3.5.1.124) (DJ-1) |
| Carboxylase de pyruvate, mitochondriale (pyruvique carboxylase) | (EC 6.4.1.1) (PCB) |
| BCL-2-liaison composante 3 (p53 modulateur de régulation de l’apoptose) | (JFY-1) |
| BH3-interaction agoniste mort domaine [mort de domaine BH3-interaction agoniste p15 (p15 BID) ; BH3-interaction domaine mort agoniste p13 ; Domaine BH3-interaction mort agoniste p11] | (BID p22) (SOUMISSION) (BID p13) (candidature p11) |
| ATP synthase sous-unité alpha, mitochondriale (alpha de sous-unité ATP synthase F1) | |
| Cytochrome P450 11B2, mitochondriale (aldostérone synthase) (enzyme synthétisant aldostérone) (CYPXIB2) (Cytochrome P-450Aldo) (Cytochrome P-450_C_18) (stéroïde 18-hydroxylase) | (ALDOS) (EC 1.14.15.4) (EC 1.14.15.5) |
| 60 kDa protéine de choc thermique, mitochondriale (60 kDa chaperonin) (Chaperonin 60) (CPN60) (protéine de choc 60 de coulée) (protéine de la matrice mitochondriale P1) (protéine de lymphocytes P60) | (HSP-60) (Hsp60) (HuCHA60) (EC 3.6.4.9) |
| Caspase-4 (homologue 2 glaces et Ced-3) (protéase TX) [en : Caspase-4 sous-unité 1 ; Sous-unité 2 de caspase-4] | (CASP-4) (EC 3.4.22.57) (CIH-2) (ICE(rel)-II) (Mih1) |
Tableau 4. Exemple de Table de l’entité. Ce tableau montre l’exemple des entités mises en œuvre dans notre cas d’utilisation de deux : « Groupes d’âge » et « Nutrition et maladies métaboliques » (Figure 6 et Figure 7, tableau 3 a,B). Les entités incluent des abréviations, des synonymes et noms de protéine. Chaque entité (avec ses synonymes et abréviations) est sélectionnés un par un et est passée par le biais de l’opération de recherche d’entité dans les données indexées (voir protocole 3 et 5). La recherche produit une liste de documents qui facilitent encore l’opération count entité.
| Quantités | Définies par l’utilisateur | Calculé | Équation de la quantité | Sens de la quantité |
| Intégrité | Oui | non | Intégrité d’utilisateur défini entités considérées comme 1,0. | Représente une expression significative. Valeur numérique est 1.0 quand il est déjà une formule établie. |
| Popularité | non | Oui | Équation de popularité à la Figure 1 (Workflow et algorithme) de référence 5, section « Matériel et méthodes ». | Basé sur la fréquence de terme du membre de phrase dans une cellule. Normalisées par la fréquence de la durée totale de la cellule. Augmentation de la fréquence du terme a diminuer le résultat. |
| Caractère distinctif | non | Oui | Équation de caractère distinctif dans la Figure 1 (Workflow et algorithme) de référence 5, section « Matériel et méthodes ». | Basé sur la fréquence de terme et la fréquence des documents dans une cellule et entre les cellules voisines. Normalisées par la fréquence totale durée et fréquence des documents. Quantitativement, c’est la probabilité qu’une phrase est unique dans une cellule spécifique. |
| CaseOLAP partition | non | Oui | Équation de partition CaseOLAP sur la Figure 1 (Workflow et algorithme) de référence 5, section « Matériel et méthodes ». | Basé sur l’intégrité, la popularité et distinctif. Valeur numérique relève toujours de 0 à 1. Quantitativement le score CaseOLAP représente l’association expression-catégorie |
Tableau 5. Équations de CaseOLAP: CaseOLAP l’algorithme a été développé par Fangbo Tao et Jiawei Han et al en 20161. En bref, ce tableau présente le calcul du pointage CaseOLAP comporte trois volets : l’intégrité, de popularité et particularité, et leur sens mathématique associée. Dans notre cas, le score de l’intégrité des protéines est de 1.0 (la note maximale) car ils représentent comme noms d’entités établies. Les scores de CaseOLAP dans notre cas d’utilisation peuvent être vu dans la Figure 6 et Figure 7.