$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Om het monster resultaten opleveren, wij de CaseOLAP-algoritme geïmplementeerd in twee onderwerp koppen/descriptors: "Leeftijdsgroepen" en "Voeding en metabole ziekten" zoals use cases.
Leeftijdsgroepen. Wij alle 4 subcategorieen in "Leeftijdsgroepen" (baby, kind, puber en volwassen) geselecteerd als cellen in een tekst-kubus. De verkregen metagegevens en statistieken worden weergegeven in tabel 3A. De vergelijking van het aantal documenten onder de cellen tekst-Cube is weergegeven in figuur 6A. Volwassene bevat 172,394 documenten die het hoogste nummer is over alle cellen. De volwassen en adolescent subcategorieën hebben het hoogste aantal gedeelde documenten (26,858 documenten). Met name deze documenten opgenomen de entiteit van onze alleen de rente (dat wil zeggen, mitochondriale eiwitten). De Venn-diagram in figuur 6B vertegenwoordigt het aantal entiteiten (dat wil zeggen, mitochondriale eiwitten) gevonden binnen elke cel, en binnen meerdere overlappingen tussen de cellen. Het aantal eiwitten gedeeld binnen alle leeftijdsgroepen subcategorieën is 162. De volwassen subcategorie beeldt het hoogste aantal unieke eiwitten (151) gevolgd door kinderen (16), kind (8) en adolescenten (1). Wij berekend de eiwit-leeftijd groep vereniging als een CaseOLAP score. De eiwitten van de top 10 (gebaseerd op de gemiddelde score van CaseOLAP) die is gekoppeld aan de zuigeling, de kind, de adolescent en de volwassene subcategorieën zijn plantensterolen 26-hydroxylase, Alpha-Crystalline B ketting, 25-hydroxyvitamin D-1 alpha-hydroxylase, Serotransferrin, citraatsynthase, L-seryl-tRNA, natrium/kalium-vervoer ATPase subeenheid alpha-3, Glutathione S-transferase omega-1 NADPH: adrenodoxin oxidoreductasen en mitochondriale peptide methionine sulfoxide reductase (afgebeeld in Figuur 6 c). De volwassen subcategorie verschijnt 10 heatmap cellen met een hogere intensiteit in vergelijking met de heatmap cellen van de adolescent, het kind en de zuigeling subcategorie, die aangeeft dat de top 10 mitochondriale eiwitten de sterkste verenigingen de volwassen subcategorie vertonen. De eiwitten mitochondriaal plantensterolen 26-hydroxylase heeft hoge verenigingen in alle leeftijd-subcategorieën waarvan is aangetoond dat zij door heatmap cellen met hogere intensiteiten in vergelijking met de heatmap cellen van de andere 9 mitochondriale eiwitten. De statistische verdeling van het absolute verschil tussen de twee groepen in de partituur toont het volgende bereik voor het gemiddelde verschil met een betrouwbaarheidsinterval van 99%: (1) het gemiddelde verschil tussen 'Advertentie' en 'INFT' ligt in het bereik (0.029 aan 0.042), (2) het gemiddelde verschil tussen 'Advertentie' en 'Kinderen' leugens in het bereik (0.021 tot 0,030), (3) het gemiddelde verschil tussen 'Advertentie' en 'Enolvormen' ligt in het bereik (0.020 aan 0.029), (4) het gemiddelde verschil tussen 'Enolvormen' en 'INFT' leugens in het bereik (0,015 tot 0,022), (5) het gemiddelde verschil tussen 'Enolvormen' en 'Kinderen' ligt in het bereik (0,007 aan 0.010), (6) het gemiddelde verschil tussen 'Kinderen' en 'INFT' leugens in het bereik (0.011-0.016).
Voeding en metabole ziekten. We kozen 2 subcategorieën van "Voeding en metabole ziekten" (dat wil zeggen, stofwisselingsziekte en voedingsproblemen) 2 om cellen te maken in een tekst-kubus. De verkregen metagegevens en statistieken worden weergegeven in tabel 3B. De vergelijking van het aantal documenten onder de cellen tekst-Cube is weergegeven in figuur 7A. De subcategorie stofwisselingsziekte bevat 54,762 documenten, gevolgd door 19,181 documenten in voedingsproblemen. De subcategorieën stofwisselingsziekte en voedingsproblemen hebben 7,101 gedeelde documenten. Met name deze documenten opgenomen de entiteit van onze alleen de rente (dat wil zeggen, mitochondriale eiwitten). De Venn-diagram in figuur 7B vertegenwoordigt het aantal entiteiten binnen elke cel, en binnen meerdere overlappingen tussen de cellen gevonden. Wij berekend de eiwit-"Nutritionele- en metabole ziekten" vereniging als een CaseOLAP score. De eiwitten van de top 10 (gebaseerd op de gemiddelde score van CaseOLAP) die zijn gekoppeld aan deze use-case zijn plantensterolen 26-hydroxylase, Alpha-Crystalline B keten, L-seryl-tRNA citraatsynthase, tRNA pseudouridine synthase A, 25-hydroxyvitamin D-1 alpha-hydroxylase, Glutathione S-transferase omega-1, NADPH: adrenodoxin oxidoreductasen, mitochondriale peptide methionine sulfoxide reductase, Plasminogen activator inhibitor 1 (afgebeeld in Figuur 7 c). Meer dan de helft (54%) van alle eiwitten worden gedeeld tussen de subcategorieën metabole ziekten en voedingsproblemen (397 eiwitten). Interessant is dat bijna de helft (43%) van alle bijbehorende eiwitten in de subcategorie stofwisselingsziekte zijn unieke (300 eiwitten), terwijl voedingsproblemen slechts een paar unieke eiwitten (35 vertonen). Alpha-Crystalline B keten toont de sterkste vereniging aan de subcategorie metabole ziekten. Plantensterolen 26-hydroxylase, mitochondriale geeft de sterkste vereniging in de subcategorie van voedingsproblemen, waarmee wordt aangegeven dat deze eiwitten mitochondriaal zeer relevante studies beschrijven voedingsproblemen. De statistische verdeling van het absolute verschil in de partituur tussen twee groepen 'MBD' en 'NTD' toont het bereik (0.046 aan 0.061) voor het gemiddelde verschil als een betrouwbaarheidsinterval van 99%.

Figuur 1. Dynamische weergave van de CaseOLAP-Workflow. Dit cijfer vertegenwoordigt de 5 belangrijke stappen in de workflow van de CaseOLAP. In stap 1 begint de werkstroom door te downloaden en uitpakken van tekstuele documenten (bijvoorbeeld uit PubMed). In stap 2, zijn geëxtraheerde gegevens geparseerd om te maken een gegevenswoordenboek voor elk document, alsmede een MeSH PMID toewijzen aan. In stap 3 wordt het indexeren van de gegevens uitgevoerd om snelle en efficiënte entiteit zoeken. In stap 4, wordt informatie over een gebruiker opgegeven categorie (bijv.., wortel MeSH voor elke cel) uitgevoerd een tekst-kubus moet worden opgebouwd. In stap 5, is de werking van de graaf entiteit uitvoeringsduur van indexgegevens voor het berekenen van de scores van de CaseOLAP. Deze stappen worden herhaald op iteratieve wijze het systeem bijwerken met de meest recente informatie beschikbaar in een openbare database (b.v., PubMed). Klik hier voor een grotere versie van dit cijfer.

Figuur 2. Technische architectuur van de CaseOLAP-Workflow. Deze afbeelding ziet u de technische details van de CaseOLAP-workflow. Gegevens uit het archief van PubMed worden verkregen van de PubMed FTP-server. De gebruiker verbinding met de server van de wolk (bijvoorbeeld AWS connectiviteit) via hun apparaat en maakt een downloaden pijpleiding die downloads en haalt de gegevens om een lokaal repository in de cloud. Uitgepakte gegevens zijn gestructureerd, geverifieerd en gebracht naar een juiste indeling met een pijpleiding voor het parseren van gegevens. Tegelijkertijd wordt een MeSH aan PMID mapping tabel gemaakt tijdens de ontleden stap, die wordt gebruikt voor tekst-Cube bouw. Verdeelde gegevens worden opgeslagen als een JSON zoals dictionary voor sleutel / waarde-formaat met de metagegevens van een document (bijvoorbeeld PMID, MeSH, publishing jaar). De indexering stap verder verbetert de gegevens door de uitvoering van Elasticsearch voor het afhandelen van bulkdata. Vervolgens wordt de tekst-kubus gemaakt met de gebruiker gedefinieerde categorieën door de uitvoering van MeSH PMID toewijzen aan. Wanneer de tekst-kubus oprichting en indexering stappen zijn voltooid, wordt een entiteit telling uitgevoerd. Entiteit graaf gegevens ten uitvoer worden gelegd aan de tekst-Cube-metagegevens. Ten slotte is de CaseOLAP score berekend op basis van de onderliggende structuur van de tekst-kubus. Klik hier voor een grotere versie van dit cijfer.

Figuur 3. Een voorbeeld van een verdeelde document. Een monster van de verdeelde gegevens in deze afbeelding wordt gepresenteerd. De verdeelde gegevens zijn gerangschikt als een sleutel / waarde-paar dat compatibel is met indexeren en document metadata creatie. In deze afbeelding is een PMID (bijvoorbeeld "25896987") dienst doet als een sleutel en verzameling van daarmee verband houdende informatie (bijvoorbeeld titel, Journal, datum, Abstract, MeSH, stoffen, afdeling en locatie publiceren) zijn als waarde. De allereerste toepassing van zulke metadata van het document is de bouw van MeSH aan PMID toewijzing (Figuur 5 en tabel 2), die later wordt uitgevoerd om de tekst-kubus te maken en voor het berekenen van de score van de CaseOLAP met de gebruiker opgegeven entiteiten en Categorieën. Klik hier voor een grotere versie van dit cijfer.

Figuur 4. Een voorbeeld van een MeSH-boom. De 'leeftijd groepen MeSH boom is aangepast van de boomstructuur gegevens beschikbaar in het NIH-database (MeSH boom 2018, < https://meshb.nlm.nih.gov/treeView>). MeSH descriptoren worden geïmplementeerd met hun knooppunt-id (bijv. personen [M01], leeftijdsgroepen [M01.060], Adolescent [M01.060.057], volwassene [M01.060.116], kind [M01.060.406], zuigeling [M01.060.703]) te verzamelen van de documenten die relevant zijn voor een specifieke MeSH descriptor ( Tabel 3A). Klik hier voor een grotere versie van dit cijfer.

Figuur 5. Gaas aan PMID toewijzing in leeftijdsgroepen. Dit cijfer geeft het aantal tekstdocumenten (elk gekoppeld met een PMID) verzameld onder de MeSH descriptoren in "Leeftijdsgroepen" als een complot van de zeepbel. De Maas naar PMID toewijzing wordt gegenereerd om het exacte aantal documenten verzameld onder de MeSH-descriptoren. Totaal 3,062,143 unieke documenten werden verzameld onder de 18 afstammeling MeSH descriptoren (Zie tabel 2). Hoe hoger het aantal PMIDs hebt geselecteerd onder een specifieke MeSH descriptor, hoe groter de straal van de zeepbel vertegenwoordigen de MeSH "descriptor". Bijvoorbeeld, het hoogste aantal documenten werden verzameld onder de MeSH "descriptor" "Volwassen" (1,786,371 documenten), overwegende dat het minste aantal tekstdocumenten werden verzameld onder de MeSH "descriptor" "Kind, Postmature" (62-documenten).
Een extra voorbeeld van MeSH PMID toewijzen aan is gegeven voor "Voeding en metabole ziekten" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Totaal 422,039 unieke documenten werden verzameld onder de 361 afstammeling MeSH descriptoren in "Voeding en metabole ziekten". Het hoogste aantal documenten werden verzameld onder de MeSH "descriptor" "Obesitas" (77,881 documenten) gevolgd door "Diabetes Mellitus Type 2' (61,901 documenten), overwegende dat" glycogeen opslag ziekte, typ VIII "tentoongesteld de laagste aantal documenten (1 document ). Een gerelateerde tabel is ook online beschikbaar op (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Klik hier voor een grotere versie van dit cijfer.

Figuur 6. "Leeftijdsgroepen" als een use-case. Dit cijfer presenteert de resultaten van een use-case van het CaseOLAP platform. In dit geval, de namen van de eiwitten en hun afkortingen (zie voorbeeld in tabel 4) worden geïmplementeerd als entiteiten en "Leeftijdsgroepen" met inbegrip van de cellen: zuigeling (INFT), kind (kinderen) en adolescent (Enolvormen) volwassene (advertentie), worden geïmplementeerd als subcategorieën (Zie Tabel 3A). (A) Aantal documenten in "Leeftijdsgroepen": Deze warmte kaart toont het aantal documenten verdeeld over de cellen van de "Leeftijd groepen" (voor meer informatie over de tekst-kubus oprichting Zie Protocol 4 en tabel 3A). Een groter aantal documenten wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie de schaal). Een enkel document kan worden opgenomen in meer dan één cel. De heatmap presenteert het aantal documenten binnen een cel langs de diagonaal positie (bijvoorbeeld advertentie bevat 172,394 documenten die het hoogste nummer is over alle cellen). Het nondiagonal standpunt vertegenwoordigt het aantal documenten die vallen onder twee cellen (bijvoorbeeld advertentie en Enolvormen hebben 26,858 gedeelde documenten). (B) . Entiteit graaf in "Leeftijdsgroepen": de Venn-diagram vertegenwoordigt het aantal eiwitten gevonden in de vier cellen vertegenwoordigt "Leeftijdsgroepen" (INFT, Peuterbedje Enolvormen en advertentie). Het aantal eiwitten gedeeld binnen alle cellen is 162. De leeftijdsgroep advertentie toont het hoogste aantal unieke eiwitten (151) gevolgd door kinderen (16), INFT (8) en Enolvormen (1). (C) CaseOLAP score presentatie in "Leeftijdsgroepen": De top 10 eiwitten met de hoogste gemiddelde scores van de CaseOLAP in elke groep worden gepresenteerd in een warmte-kaart. Een hogere score van CaseOLAP wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie de schaal). De eiwit-namen worden weergegeven in de linkerkolom en de cellen (INFT Peuterbedje, Enolvormen, advertentie) worden weergegeven langs de x-as. Sommige eiwitten tonen een sterke associatie met een specifieke leeftijdsgroep (bijvoorbeeld plantensterolen 26-hydroxylase, alpha-Crystalline B ketting en L-seryl-tRNA hebben sterke verenigingen met advertentie, terwijl de natrium/kalium-vervoer ATPase subeenheid alpha-3 heeft een sterke associatie met INFT). Klik hier voor een grotere versie van dit cijfer.

Figuur 7. "Nutritionele- en metabole ziekten" als een use-case: dit cijfer presenteert de resultaten van een ander gebruiksvoorbeeld van het CaseOLAP platform. In dit geval, de namen van de eiwitten en hun afkortingen (zie voorbeeld in tabel 4) worden geïmplementeerd als entiteiten en "Voeding en metabole ziekte" met inbegrip van de twee cellen: stofwisselingsziekte (MBD) en voedingsproblemen (NTD) worden geïmplementeerd als subcategorieën (Zie tabel 3B). (A). aantal documenten in "Voeding en metabole ziekten": deze heatmap toont het aantal tekstdocumenten in de cellen van "Voeding en metabole ziekten" (voor details over de tekst-kubus oprichting Zie Protocol 4 en tabel 3B ). Een groter aantal documenten wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie schaal). Een enkel document kan worden opgenomen in meer dan één cel. De heatmap presenteert het totale aantal documenten binnen een cel langs de diagonaal positie (bijvoorbeeld MBD bevat 54,762 documenten die het hoogste aantal is over de twee cellen). Het nondiagonal standpunt vertegenwoordigt het aantal documenten gedeeld door de twee cellen (bijvoorbeeld MBD en NTD hebben 7,101 gedeelde documenten). (B). entiteit graaf in "Voeding en metabole ziekten": de Venn-diagram vertegenwoordigt het aantal eiwitten gevonden in de twee cellen vertegenwoordigt "Voeding en metabole ziekten" (MBD en NTD). Het aantal eiwitten gedeeld binnen de twee cellen is 397. De cel MBD beeldt 300 unieke eiwitten, en de NTD-cel toont 35 unieke eiwitten. (C). CaseOLAP score presentatie in "Voeding en metabole ziekten": de eiwitten van de top 10 met de hoogste gemiddelde scores van de CaseOLAP in "Voeding en metabole ziekten" worden gepresenteerd in een warmte-kaart. Een hogere score van CaseOLAP wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie schaal). De eiwit-namen worden weergegeven in de linkerkolom en cellen (MBD en NTD) worden weergegeven langs de x-as. Sommige eiwitten tonen een sterke associatie met de categorie van een bepaalde ziekte (bijvoorbeeld alpha-Crystalline B keten heeft een hoge vereniging met stofwisselingsziekte en plantensterolen 26-hydroxylase heeft een hoge vereniging met voedingsproblemen). Klik hier voor een grotere versie van dit cijfer.
| Tijd (percentage van de totale tijd) | Stappen in het CaseOLAP platform | Algoritme en de gegevensstructuur van het CaseOLAP platform | Complexiteit van het algoritme en gegevensstructuur | Details van de stappen |
| 40% | Downloaden en Parseren | Iteratie en boom parsing algoritmen | Iteratie met geneste lus en constante vermenigvuldiging: O(n^2), O (log n). Waar 'n' is aantal iteraties. | Elke procedure itereert de pijpleiding downloaden over meerdere bestanden. Parseren van een enkel document loopt elke procedure over de boomstructuur van onbewerkte XML-gegevens. |
| 30% | Indexeren, zoeken en tekst kubus oprichting | Iteratie, zoektocht algoritmen door Elasticsearch (sorteren, Lucene index prioriteitswachtrijen, eindige statuscomputers, beetje twiddling hacks, regex query's) | Complexiteit gerelateerde aan Elasticsearch (https://www.elastic.co/) | Documenten worden geïndexeerd door de uitvoering van de iteratie-proces over het gegevenswoordenboek. De tekst-kubus oprichting implementeert meta-de gegevens van het document en de informatie over een gebruiker opgegeven categorie. |
| 30% | Entiteit tellen en CaseOLAP berekening | Iteratie in integriteit, populariteit, onderscheidend vermogen berekening | O(1), O(n^2), meerdere complexiteit aan caseOLAP Score berekening op basis van iteratie typen gerelateerde. | Entiteit graaf operatie de documenten worden weergegeven en een bewerking van de graaf over de lijst maken. De entiteit graaf data worden gebruikt voor het berekenen van de score van de CaseOLAP. |
Tabel 1. Algoritmen en complexiteit. Deze tabel bevat informatie over de tijd die doorgebracht (percentage van de totale tijd doorgebracht) over de procedures (b.v., downloading, ontleden), datastructuur en details over de uitgevoerde algoritmen in de CaseOLAP platform. CaseOLAP implementeert de professionele indexeren en de zoektoepassing Elasticsearch genoemd. Meer informatie over complexiteit aan Elasticsearch en interne algoritmen gerelateerde vindt u op (https://www.elastic.co).
| MeSH descriptoren | Aantal van PMIDs verzameld |
| Volwassene | 1,786,371 |
| Middle Aged | 1,661,882 |
| Leeftijd | 1,198,778 |
| Adolescent | 706,429 |
| Jong volwassene | 486,259 |
| Kind | 480,218 |
| Leeftijd, 80 jaar en ouder | 453,348 |
| Kind, Preschool | 285,183 |
| Baby | 218,242 |
| Baby, Newborn | 160,702 |
| Baby, voorbarig | 17,701 |
| Kindersterfte, laag geboortegewicht | 5,707 |
| Kwetsbare ouderen | 4,811 |
| Baby, zeer laag geboortegewicht | 4,458 |
| Baby, klein voor de zwangerschapsduur | 3,168 |
| Baby, uiterst prematuur | 1,171 |
| Baby, extreem laag geboortegewicht | 1,003 |
| Baby, Postmature | 62 |
Tabel 2. Gaas op PMID toewijzing statistieken. Deze tabel geeft een overzicht van alle onderliggende MeSH descriptoren van "Leeftijdsgroepen" en hun aantal verzamelde PMIDs (tekstdocumenten). De visualisatie van deze statistieken wordt gepresenteerd in Figuur 5.
| A | Baby (INFT) | Kind (kinderen) | Adolescent (Enolvormen) | Volwassene (advertentie) |
| MeSH hoofdobject-ID | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Aantal onderliggende MeSH descriptors | 9 | 2 | 1 | 6 |
| Aantal PMIDs geselecteerd | 16,466 | 26,907 | 35,158 | 172,394 |
| Aantal entiteiten gevonden | 233 | 297 | 257 | 443 |
| B | Metabole ziekten (MBD) | Voedingsproblemen (NTD) | | |
| MeSH hoofdobject-ID | C18.452 | C18.654 | | |
Aantal onderliggende MeSH descriptoren | 308 | 53 | | |
| Aantal PMIDs verzameld | 54,762 | 19,181 | | |
| Aantal entiteiten gevonden | 697 | 432 | | |
Tabel 3. Tekst-Cube metagegevens. Een tabelweergave van tekst-Cube metagegevens wordt gepresenteerd. De tabellen bevatten informatie over de categorieën en gaas descriptor wortels en nakomelingen, die worden uitgevoerd voor het verzamelen van de documenten in elke cel. De tabel bevat ook de statistieken van de verzamelde documenten en entiteiten. (A) "Leeftijdsgroepen": dit is een tabelvorm blijk van "Leeftijdsgroepen" met inbegrip van baby (INFT), kind (kinderen) en adolescent (Enolvormen) volwassene (advertentie) en hun MeSH wortel IDs, aantal onderliggende MeSH descriptoren, aantal geselecteerde PMIDs en aantal gevonden entiteiten. (B) "Voeding en metabole ziekten": dit is een tabelvorm vertoning van "Voeding en metabole ziekten" waaronder stofwisselingsziekte (MBD) en voedingsproblemen (NTD) met hun MeSH root ID's, aantal onderliggende MeSH descriptors, aantal geselecteerde PMIDs en het aantal gevonden entiteiten.
| Eiwit namen en synoniemen | Afkortingen |
| N-acetylglutamate synthase, mitochondriaal, aminozuur acetyltransferase, N-acetylglutamate synthase lange vorm; N-acetylglutamate synthase korte vorm; N-acetylglutamate synthase geconserveerd domein form] | (EG 2.3.1.1) |
| Eiwit/nucleic zuur deglycase DJ-1 (Maillard deglycase) (oncogen DJ1) (Parkinson ziekte eiwit 7) (ziekte van Parkinson-geassocieerde deglycase) (DJ-1 eiwit) | (EG 3.1.2.-) (EG 3.5.1.-) (EG 3.5.1.124) (DJ-1) |
| Pyruvaat carboxylase, mitochondriale (pyrodruivenzuur carboxylase) | (EG 6.4.1.1) (PCB) |
| Bcl-2-bindend onderdeel 3 (p53 omhoog-geregeld modulator van apoptosis) | (JFY-1) |
| BH3-interactie domein dood agonist [BH3-interactie domein dood agonist p15 (p15 BID); BH3-interactie domein dood agonist p13; BH3-interactie domein dood agonist p11] | (p22 bod) (BID) (p13 bod) (p11 bod) |
| ATP synthase subeenheid Alfa, mitochondriale (ATP-synthase F1 subeenheid α) | |
| Cytochroom P450 11B2, mitochondriale (aldosteron synthase) (aldosteron-synthese enzym) (CYPXIB2) (cytochroom P-450Aldo) (cytochroom P-450_C_18) (steroïde 18-hydroxylase) | (ALDOS) (EG 1.14.15.4) (EG 1.14.15.5) |
| 60 kDa warmte schok eiwit, mitochondriale (60 kDa chaperonin) (Chaperonin 60) (CPN60) (Heat shock protein 60) (mitochondriale matrix eiwit P1) (P60 lymfocyt eiwit) | (HSP-60) (Hsp60) (HuCHA60) (EG 3.6.4.9) |
| Caspase-4 (ijs en Ced-3 homolog 2) (Protease-TX) [gekloofd in: Caspase-4 subeenheid 1; Caspase-4 subeenheid 2] | (CASP-4) (EG 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
Tabel 4. Proeven van tabel Entity. Deze tabel geeft het monster van entiteiten uitgevoerd in onze twee use-cases: "Leeftijdsgroepen" en "Voeding en metabole ziekten" (Figuur 6 en 7 van de figuur, tabel 3A,B). De entiteiten bevatten eiwitten namen, synoniemen en afkortingen. Elke entiteit (met de synoniemen en afkortingen) is geselecteerde één voor één en is doorgegeven via de zoekbewerking entiteit over geïndexeerde gegevens (zie protocol 3 en 5). De zoekactie produceert een lijst van documenten die de entiteit graaf werking verder te vergemakkelijken.
| Hoeveelheden | Door de gebruiker gedefinieerde | Berekend | Vergelijking van de hoeveelheid | Betekenis van de hoeveelheid |
| Integriteit | Ja | No | Integriteit van gebruiker gedefinieerd entiteiten beschouwd als 1.0. | Dit object vertegenwoordigt een betekenisvolle zin. Numerieke waarde is 1.0 wanneer er reeds een gevestigde uitdrukking. |
| Populariteit | No | Ja | Vergelijking van de populariteit in figuur 1 (Workflow en algoritme) verwijzing 5, 'Materialen en methoden' sectie. | Gebaseerd op termijn frequentie van de zin binnen een cel. Genormaliseerd door de frequentie van de totale duur van de cel. Toename van de frequentie van de termijn heeft resultaat aan het afnemen. |
| Onderscheidend vermogen | No | Ja | Vergelijking van het onderscheidend vermogen in figuur 1 (Workflow en algoritme) verwijzing 5, 'Materialen en methoden' sectie. | Gebaseerd op termijn frequentie en document frequentie binnen een cel en over de aangrenzende cellen. Genormaliseerd door de frequentie van de totale duur en de frequentie van het document. Kwantitatief, is het de kans dat een zin uniek in een specifieke cel is. |
| CaseOLAP score | No | Ja | CaseOLAP score vergelijking in figuur 1 (Workflow en algoritme) verwijzing 5, 'Materialen en methoden' sectie. | Gebaseerd op integriteit, populariteit en onderscheidend vermogen. Numerieke waarde valt altijd binnen 0 tot 1. Kwantitatief vertegenwoordigt de score van de CaseOLAP de vereniging zin-categorie |
Tabel 5. CaseOLAP vergelijkingen: The CaseOLAP algoritme werd ontwikkeld door Fangbo Tao en Jiawei Han et al. in 20161. Deze tabel geeft kort, de CaseOLAP score berekening bestaande uit drie onderdelen: integriteit, populariteit, en onderscheidend vermogen en hun bijbehorende wiskundige betekenis. In onze use-cases, de integriteit score voor eiwitten is 1.0 (de maximale score) omdat zij als gevestigde Entiteitsnamen staan. De scores van de CaseOLAP in onze use-cases te zien in Figuur 6 c en Figuur 7 c.