$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
כדי להפיק תוצאות המדגם, אנחנו מיושם האלגוריתם CaseOLAP נושא שתי כותרות/מתארי: "קבוצות הגיל" ומחלות "תזונתי ואת חילוף החומרים" כפי מקרי שימוש.
קבוצות הגיל. בחרנו כל 4 תתי-קטגוריות של "קבוצות גיל" (התינוק, הילד, מתבגרים ומבוגרים) כתאים בקוביה של טקסט. שהושג מטא-נתונים וסטטיסטיקות מוצגים בטבלה 3A. ההשוואה של מספר מסמכים בין התאים קוביות טקסט מוצג באיור 6A. מבוגר מכיל מסמכים 172,394 וזה המספר הגבוה ביותר על פני כל התאים. קטגוריות מבוגרים, מתבגרים יש את המספר הגבוה ביותר של מסמכים משותפים (26,858 מסמכים). ראוי לציין, מסמכים אלה כללו את הישות שלנו הריבית בלבד (קרי, מיטוכונדריאלי חלבונים). דיאגרמת ון ב- 6B איור מייצג את מספר ישויות (קרי, מיטוכונדריאלי חלבונים) נמצאו בתוך כל תא, ובתוך מספר חפיפות בין התאים. המספר של חלבונים משותפים בתוך כל הקטגוריות קבוצות הגיל הוא 162. קטגוריית המשנה למבוגרים מתאר המספר הגבוה ביותר של חלבונים ייחודיים (151) ולאחריו הילד (16), התינוק (8) ונוער (1). אנחנו מחושב האגודה קבוצה חלבון-גיל כמו ניקוד CaseOLAP. חלבונים העליון 10 (מבוסס על הציון הממוצע שלהם CaseOLAP) המשויך קטגוריות משנה של התינוק, הילד, המתבגר, מבוגרים הם סטרול 26-hydroxylase, שרשרת B אלפא-crystallin, 25-hydroxyvitamin D-1 אלפא-hydroxylase, Serotransferrin, ציטרט סינתאז. L-seryl-tRNA, ATPase נתרן/אשלגן-הובלת יחידה משנית אלפא-3 גלוטתיון S-טרנספראז אומגה-1, nadph ל: adrenodoxin oxidoreductase, פפטיד מיטוכונדריאלי מתיונין סולפוקסיד רדוקטאז (מוצג ב- 6C איור). קטגוריית המשנה למבוגרים מציג 10 תאים heatmap בעוצמה גבוהה יותר לעומת התאים heatmap של המתבגר, הילדה הפעוטה קטגוריית משנה, המציין החלבונים מיטוכונדריאלי העליון 10 בנספח החזק ביותר השיוכים קטגוריית המשנה למבוגרים. חלבון מיטוכונדריאלי סטרול 26-hydroxylase יש עמותות גבוהה בכל הקטגוריות גיל אשר מומחש heatmap תאים עם עוצמות גבוהות יותר לעומת תאי heatmap של החלבונים מיטוכונדריאלי 9 אחרים. התפלגות סטטיסטית של ההבדל מוחלטת ציון בין שתי קבוצות מציג את הטווח הבאים להבדל מרושע עם בר-סמך 99%: (1) ההבדל הממוצע בין 'ADLT' 'INFT' טמון הטווח (0.029 כדי 0.042), (2) הממוצע ההבדל טמון הטווח (0.021 כדי 0.030), (3) 'ADLT' ו- 'קיד' לבין 'ADLT' אומר ושקרים 'עידן אראל' בטווח (0.020 כדי 0.029), (4) לבין שקרים 'עידן אראל' ו- 'INFT' בטווח (0.015 כדי 0.022), (5) כלומר ההבדל מרושע בין 'עידן אראל' 'קיד' שוכן בטווח (0.007 כדי 0.010), (6) רשע לבין שקרים 'קיד' ו- 'INFT' בטווח (0.011 כדי 0.016).
תזונה ומחלות מטבוליות- בחרנו 2 קטגוריות משנה של "תזונתי מטבוליות ומחלות" (קרי, מחלות מטבוליות, הפרעות תזונה) ליצירת תאים 2 בקוביה של טקסט. שהושג מטא-נתונים וסטטיסטיקות מוצגים בטבלה 3B. ההשוואה של מספר מסמכים בין התאים קוביות טקסט מוצג איור 7 א. המחלה המטבולית קטגוריית משנה מכיל מסמכים 54,762 ואחריו מסמכים 19,181 בהפרעות תזונתי. קטגוריות משנה של מחלות מטבוליות והפרעות תזונתיים יש 7,101 במסמכים משותפים. ראוי לציין, מסמכים אלה כללו את הישות שלנו הריבית בלבד (קרי, מיטוכונדריאלי חלבונים). דיאגרמת ון ב 7 ב איור מייצג את מספר ישויות נמצאו בתוך כל תא, ובתוך מספר חפיפות בין התאים. אנחנו מחושב חלבון-"תזונתי ומחלות מטבוליות" האגודה כמו ניקוד CaseOLAP. חלבונים העליון 10 (מבוסס על הציון הממוצע שלהם CaseOLAP) המשויך זה מקרה שימוש הם סטרול 26-hydroxylase, אלפא-crystallin B שרשרת, L-seryl-tRNA, ציטרט סינתאז, tRNA pseudouridine סינתאז A, אלפא D-1 25-hydroxyvitamin-hydroxylase, גלוטתיון S-טרנספראז אומגה-1, nadph ל: adrenodoxin oxidoreductase, פפטיד מיטוכונדריאלי מתיונין סולפוקסיד רדוקטאז, Plasminogen activator מעכב 1 (מוצג באיור 7C). יותר ממחצית (54 אחוז) של כל החלבונים משותפים בין קטגוריות משנה במחלות מטבוליות והפרעות תזונתי (חלבונים 397). מעניין לציין, כמעט מחצית (43%) חלבונים הקשורים כולם את קטגוריית המשנה מחלה מטבולית הם ייחודיים (חלבונים 300), ואילו הפרעות תזונה מוצג רק כמה ייחודי חלבונים (35). שרשרת B אלפא-crystallin מציגה את הקשר החזק ביותר למחלות מטבוליות קטגוריית משנה. סטרול 26-hydroxylase, מיטוכונדריאלי מציגה את הקשר החזק ביותר את קטגוריית המשנה של הפרעות תזונתיות, המציינת כי חלבון מיטוכונדריאלי זה מאוד רלוונטי מחקרים המתארים הפרעות תזונה. ההתפלגות הסטטיסטית של ההבדל מוחלטת ציון בין שתי קבוצות 'מבד' 'NTD' מציג את הטווח (0.046 כדי 0.061) את ההבדל מרושע כמו בר-סמך 99%.

איור 1. תצוגה דינאמית של זרימת העבודה CaseOLAP. הדמות הזו מייצגת את 5 שלבים עיקריים בתהליך העבודה CaseOLAP. בשלב 1, זרימת העבודה מתחיל הורדה וחילוץ טקסטואליים מסמכים (למשל, PubMed). בשלב 2, נותחו הנתונים שחולצו כדי ליצור מילון נתונים עבור כל מסמך, כמו גם רשת שינוי כדי מיפוי רמב"ם. בשלב 3, יצירת האינדקסים הנתונים מבוצע כדי להקל על חיפוש מהיר ויעיל ישות. בשלב 4, יישום של מידע שסופק על-ידי המשתמש קטגוריה (למשל., שורש רשת עבור כל תא) מבוצע כדי לבנות קוביית הטקסט. בשלב 5, מתבצעת פעולת ספירה ישות על נתוני מדד לחישוב הציונים CaseOLAP. שלבים אלה חוזרים על עצמם בצורה איטרטיבית כדי לעדכן את המערכת עם המידע העדכני ביותר הזמינות במסד נתונים לציבור (למשל, PubMed). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

באיור 2. ארכיטקטורה טכני של זרימת העבודה CaseOLAP. הדמות הזו מייצגת את הפרטים הטכניים של זרימת העבודה CaseOLAP. נתונים מהמאגר PubMed מתקבלים מן שרת ה-PubMed FTP. המשתמש מתחבר לשרת הענן (למשל, קישוריות AWS) באמצעות המכשיר שלהם ויוצר קו צינור הורדה הורדות, מחלץ את הנתונים ולמאגר המקומית בענן הצמתים. הנתונים שחולצו הם מובנים, לאמת, הביא לתבנית הנכונה עם צינור של ניתוח נתונים. במקביל, רשת שינוי בטבלת מיפוי רמב"ם נוצר במהלך השלב הניתוח, אשר משמש לבניית קוביות טקסט. שנותחה נתונים מאוחסנים של JSON כמו מפתח-ערך במילון תבנית עם מטא-נתונים (למשל, רמב"ם, רשת, שנת הוצאה). הצעד אינדקס נוסף משפר את הנתונים על-ידי יישום Elasticsearch להתמודד עם נתונים בצובר. בשלב הבא, הטקסט-קוביית נוצר עם קטגוריות על-ידי המשתמש על-ידי יישום רשת שינוי כדי מיפוי רמב"ם. לאחר השלמת טקסט-קוביית היווצרות והשלבים אינדקס, ספירה ישות מתנהל. ישות ספירת נתונים מוטמעים המטא-נתונים טקסט-קוביה. בסופו של דבר, התוצאה CaseOLAP מחושב בהתבסס על המבנה הבסיסי של טקסט-קוביה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 3. דגימה של מסמך שנותחה. מדגם של נתונים שנותחה מוצג באיור זה. הנתונים שנותחה מסודרים כמו זוג מפתח-ערך אשר תואמת יצירת מטא-נתונים אינדקס במסמך. באיור זה רמב"ם (למשל," 25896987") הוא מרצה כמפתח, איסוף מידע המשויך (למשל, כותרת, יומן, פרסום תאריך, מופשט, רשת, חומרים, מחלקת ומיקום) כערך. היישום הראשון של כזה מטא-נתונים הוא הקמת רשת שינוי כדי רמב"ם מיפוי (איור 5 ו לטבלה 2), המיושמת מאוחר יותר כדי ליצור את הקוביה-הטקסט וכדי לחשב את הציון CaseOLAP עם ישויות שסופק על-ידי המשתמש, קטגוריות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

באיור 4. דגימה של עץ רשת. של הקבוצות 'גיל רשת עץ הוא ממאמרו של מבנה עץ נתונים זמינים במסד הנתונים NIH (MeSH העצים 2018, < https://meshb.nlm.nih.gov/treeView>). רשת מתארי מיושמים עם צומת שלהם מזהים (למשל, אנשים [M01], קבוצות גיל [M01.060], המתבגר [M01.060.057], מבוגר [M01.060.116], הילד [M01.060.406], התינוק [M01.060.703]) כדי לאסוף את המסמכים הרלוונטיים מתאר רשת ספציפיות ( טבלה 3 א). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 5. רשת שינוי כדי מיפוי רמב"ם קבוצות הגיל. איור זה מציג את מספר מסמכי טקסט (אחד מקושר עם רמב"ם) שנגבו תחת מתארי רשת"קבוצות הגיל"כמו מגרש בועה. רשת השינוי רמב"ם ממיפוי ל נוצר כדי לספק את המספר המדויק של מסמכים שנאספו תחת מתארי רשת. המספר הכולל של מסמכים ייחודי 3,062,143 נאספו תחת מתארי 18 רשת צאצא (ראה טבלה 2). גבוה יותר מספר PMIDs הנבחר תחת מתאר רשת מסוים, גדול יותר הרדיוס של הבועה המייצג את מתאר רשת. למשל, המספר הגבוה ביותר של מסמכים שנאספו תחת מתאר רשת "מבוגרים" (מסמכים 1,786,371), ואילו המספר הנמוך ביותר של מסמכי טקסט נאספו תחת מתאר רשת "יינג, Postmature" (62 מסמכים).
דוגמא נוספת של רשת מיפוי רמב"ם ניתנת על"תזונה מטבוליות ומחלות"(https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). המספר הכולל של מסמכים ייחודי 422,039 נאספו תחת מתארי רשת צאצא 361 ב- "תזונה מטבוליות ומחלות". המספר הגבוה ביותר של מסמכים שנאספו תחת מתאר רשת "השמנה" (מסמכים 77,881) ואחריו "סוכרת, סוג 2" (61,901 מסמכים), ואילו "מחלת אגירת גליקוגן, הקלד השמיני" הציג את המספר הנמוך ביותר של מסמכים (מסמך 1 ). טבלה קשורה זמין גם באינטרנט (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 6. "קבוצות גיל" כמו מקרה שימוש. איור זה מציג את התוצאות של מקרה שימוש של פלטפורמת CaseOLAP. במקרה זה, שמות חלבון וקיצורים שלהם (ראה לדוגמה בטבלה4) מיושמות כאובייקטי ישויות, "קבוצות הגיל" כולל את התאים: התינוק (INFT), הילד (ראסל), המתבגר (עידן אראל), מבוגר (ADLT), מיושמות כקטגוריות (ראה טבלה 3 א). (א) מספר המסמכים "קבוצות הגיל": המפה הזו חום מראה מספר המסמכים מופץ על-פני התאים של "קבוצות בגילאים" (לפירוט על טקסט-קוביית הבריאה ראה פרוטוקול 4 ועל השולחן 3A). מספר גבוה יותר של מסמכים מוצגים כהה יותר עוצמת heatmap התא (ראה את קנה המידה). מסמך יחיד עשוי להיכלל בתא אחד או יותר. Heatmap מציג מספר המסמכים בתוך תא לאורך המיקום אלכסוני (למשל, ADLT מכיל מסמכים 172,394 וזה המספר הגבוה ביותר על פני כל התאים). המיקום nondiagonal מייצג את מספר המסמכים נופל תחת שני תאים (למשל, ADLT, עידן אראל יש במסמכים משותפים 26,858). (B) . ישות ספירת "קבוצות הגיל": דיאגרמת מייצג את מספר חלבונים הנמצאים בארבעת התאים המייצגים "קבוצות גיל" (INFT, ראסל, עידן אראל ו ADLT). המספר של חלבונים משותפים בתוך כל התאים הוא 162. בקבוצת הגיל ADLT מתאר את המספר הגבוה ביותר של חלבונים ייחודיים (151) ואחריה ראסל (16), INFT (8), עידן אראל (1). (ג) CaseOLAP מצגת הציון "קבוצות הגיל": החלבונים 10 העליון עם הציונים CaseOLAP הממוצע הגבוה ביותר בכל קבוצה מוצגים במפה חום. ניקוד גבוה יותר CaseOLAP מוצג עם עוצמת heatmap כהה יותר תא (ראה את קנה המידה). שמות חלבון מוצגים בעמודה הימנית, התאים (INFT, ראסל, עידן אראל, ADLT) מוצגות לאורך ציר ה-x. חלבונים מסוימים להראות קשר חזק כדי לקבוצת גיל מסוימת (למשל, סטרול 26-hydroxylase, שרשרת B אלפא-crystallin, L-seryl-tRNA יש אסוציאציות חזקות עם ADLT, ואילו ATPase נתרן/אשלגן-הובלת יחידה משנית אלפא 3 יש קשר חזק עם INFT). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

איור 7. "תזונתי ומחלות מטבוליות" בתור מקרה שימוש: איור זה מציג את התוצאות מחקירה שימוש אחרת של פלטפורמת CaseOLAP. במקרה זה, שמות חלבון וקיצורים שלהם (ראה לדוגמה בטבלה4) מיושמות כאובייקטי ישויות, "התזונה ואת חילוף החומרים מחלת" כולל את שני התאים: מחלות מטבוליות (מבד) והפרעות תזונתי (NTD) מיושמות כאובייקטי קטגוריות משנה (ראה טבלה 3B). (א). מספר מסמכים ב- "תזונה מטבוליות ומחלות": heatmap זו מתארת את מספר מסמכי טקסט בתאים של "התזונה מטבוליות ומחלות" (לקבלת פרטים על יצירת טקסט-קוביית ראה פרוטוקול 4 ו- טבלה 3B ). מספר גבוה יותר של מסמכים מוצגים כהה יותר עוצמת heatmap התא (ראו סולם). מסמך יחיד עשוי להיכלל בתא אחד או יותר. Heatmap מציג את המספר הכולל של מסמכים בתוך תא לאורך המיקום אלכסוני (למשל, מבד מכיל מסמכים 54,762 וזה המספר הגבוה ביותר על-פני התאים שני). המיקום nondiagonal מייצג את מספר מסמכים המשותפים את שני התאים (למשל, מבד, NTD יש 7,101 במסמכים משותפים). (B). ישות רוזן ב "תזונתי מטבוליות ומחלות": דיאגרמת מייצג את מספר חלבונים הנמצאים את שני התאים המייצגים "תזונתי מטבוליות ומחלות" (מבד ו- NTD). המספר של חלבונים משותפים בתוך התאים שני הוא 397. התא מבד מתארת 300 חלבונים ייחודיים, ומתאר התא NTD 35 חלבונים ייחודיים. (ג). CaseOLAP מצגת הציון ב- "תזונה מטבוליות ומחלות": החלבונים העליון 10 עם הציונים CaseOLAP הממוצע הגבוה ביותר ב- "תזונה מטבוליות ומחלות" מוצגים במפה חום. ניקוד גבוה יותר CaseOLAP מוצג עם עוצמת heatmap כהה יותר תא (ראה סולם). שמות חלבון מוצגים בעמודה הימנית, תאים (מבד ו- NTD) מוצגות לאורך ציר ה-x. חלבונים מסוימים להראות קשר חזק לקטגוריה מחלות ספציפיות (למשל, אלפא-crystallin B שרשרת יש אגודה גבוהה עם מחלה מטבולית ויש סטרול 26-hydroxylase אגודה גבוהה עם הפרעות תזונה). אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.
| הזמן המושקע (אחוז מהזמן סה כ) | צעדים ברציף CaseOLAP | אלגוריתם ומבנה נתונים של פלטפורמת CaseOLAP | המורכבות של אלגוריתם ומבנה נתונים | פרטים על המדרגות |
| 40% | הורדת ו ניתוח | איטראציה ועץ של ניתוח אלגוריתמים | איטראציה עם לולאה מקוננת וכפל קבוע: O(n^2), O (log n). איפה רול הוא לא של חזרות. | הצינור והורדת מבצע איטראציה של כל הליך על קבצים מרובים. ניתוח מבנה טקסט של מסמך יחיד פועל כל הליך על עץ מבנה של נתוני XML גולמיים. |
| 30% | יצירת אינדקס, חיפוש ויצירת טקסט קוביה | איטראציה, אלגוריתמי החיפוש על-ידי Elasticsearch (מיון, אינדקס ' לוקנה ', תורים, מכונות המדינה סופיים, קצת twiddling פריצות, שאילתות regex של האימות) | המורכבות הקשורה Elasticsearch (https://www.elastic.co/) | המסמכים הכלולים באינדקס על-ידי יישום תהליך איטרציה על מילון הנתונים. יצירת טקסט-קוביית מיישמת המסמך מטה-נתונים ומידע קטגוריה שסופק על-ידי המשתמש. |
| 30% | ישות ספירת וחישוב CaseOLAP | איטראציה של שלמות, הפופולריות, חישוב הייחוד | O(1), O(n^2), המורכבות מרובים הקשורים caseOLAP חישוב הציון מבוסס על סוגי איטראציה. | פעולת הספירה ישות מפרט את המסמכים ולעשות פעולת ספירה על הרשימה. הנתונים ספירת הישות משמשת לחישוב הציון CaseOLAP. |
טבלה 1. אלגוריתמים, המורכבות. השולחן הזה מציג מידע על הזמן המושקע (אחוזי הזמן הכולל) על ההליכים (למשל, הורדה, ניתוח), מבנה נתונים ופרטים אודות האלגוריתמים מיושמים ברציף CaseOLAP. CaseOLAP מיישמת את יצירת האינדקסים המקצועיים ואת יישום חיפוש בשם Elasticsearch. ניתן למצוא פרטים נוספים על המורכבות הקשורה Elasticsearch ואלגוריתמים פנימי-(https://www.elastic.co).
| רשת מתארי | מספר של PMIDs אסף |
| מבוגר | 1,786,371 |
| בגיל העמידה | 1,661,882 |
| בגילאי | 1,198,778 |
| המתבגר | 706,429 |
| למבוגרים צעירים | 486,259 |
| הילד | 480,218 |
| בני, 80, ומעל | 453,348 |
| ילדתי, גן | 285,183 |
| התינוק | 218,242 |
| הפעוט הרך הנולד | 160,702 |
| תינוקות, מוקדם מדי | 17,701 |
| משקל לידה תינוקות, נמוך | 5,707 |
| קשישים שבריריים | 4,811 |
| משקל לידה תינוקות, נמוך מאוד | 4,458 |
| יינג, קטן לגיל ההיריון | 3,168 |
| תינוקות, מאוד מוקדמת | 1,171 |
| משקל לידה תינוקות, נמוך מאוד | 1,003 |
| תינוקות, Postmature | 62 |
בטבלה 2. רשת שינוי לנתוני מיפוי רמב"ם. השולחן הזה מציג כל מתארי צאצא של רשת "קבוצות גיל", שלהם מספר שנאספו PMIDs (מסמכי טקסט). החזיית נתונים אלה מוצג באיור5.
| A | התינוק (INFT) | הילד (קיד) | המתבגר (עידן אראל) | מבוגר (ADLT) |
| זיהוי שורש רשת | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| מספר מתארי רשת צאצא | 9 | 2 | 1 | 6 |
| מספר PMIDs נבחר | 16,466 | 26,907 | 35,158 | 172,394 |
| מספר ישויות נמצאו | 233 | 297 | 257 | 443 |
| B | מחלות מטבוליות (מבד) | הפרעות תזונה (NTD) | | |
| זיהוי שורש רשת | C18.452 | C18.654 | | |
מספר רשת צאצא מתארי | 308 | 53 | | |
| אספתי מספר PMIDs | 54,762 | 19,181 | | |
| מספר ישויות נמצאו | 697 | 432 | | |
בטבלה 3. טקסט-הקוביה מטה-נתונים. תצוגה טבלאית של מטה-נתונים טקסט-הקוביה מוצג. הטבלאות לספק מידע על הקטגוריות, רשת שינוי מתאר שורשים, צאצאים, אשר מיושמות כדי לאסוף את המסמכים בכל תא. הטבלה מספקת גם את הסטטיסטיקה של מסמכים שנאספו, ישויות. (א) "קבוצות הגיל": זוהי תצוגה טבלאית של "קבוצות הגיל" כולל התינוק (INFT), הילד (ראסל), המתבגר (עידן אראל) של מבוגר (ADLT) ומצאתי את שורש הבעיה של רשת תעודות זהות, מספר מתארי רשת צאצא, מספר PMIDs שנבחרו ואת מספר ישויות. (B) "תזונה מטבוליות ומחלות": זוהי תצוגה טבלאית של "התזונה מטבוליות ומחלות" כולל מחלות מטבוליות (מבד) והפרעות תזונתי (NTD) עם רשת שינוי שלהם שורש תעודות זהות, מספר מתארי רשת צאצא, מספר PMIDs שנבחרו ואת המספר של ישויות שנמצאו.
| חלבון שמות, מילים נרדפות | קיצורים |
| N-acetylglutamate סינתאז, מיטוכונדריאלי, חומצת אמינו acetyltransferase, N-acetylglutamate סינתאז תבנית ארוכה; N-acetylglutamate סינתאז טופס קצר; N-acetylglutamate סינתאז והתפאורה תחום טופס] | (EC 2.3.1.1) |
| חלבון/nucleic חומצה deglycase DJ-1 (Maillard deglycase) (אונקוגן DJ1) (חלבון מחלת פרקינסון 7) (Parkinsonism-הקשורים deglycase) (חלבון DJ-1) | (EC 3.1.2.-) (EC 3.5.1.-) (EC 3.5.1.124) (DJ-1) |
| פירובט קרבוקסילאז מיטוכונדריאלי (Pyruvic קרבוקסילאז) | (EC 6.4.1.1) (PCB) |
| רכיב Bcl-2-איגוד 3 (p53 מוסדר למעלה אפנן של אפופטוזיס) | (JFY-1) |
| אינטראקציה BH3 תחום המוות אגוניסט [אינטראקציה BH3 תחום המוות אגוניסט p15 (הצעת מחיר p15); אינטראקציה BH3 תחום המוות אגוניסט p13; אינטראקציה BH3 תחום המוות אגוניסט p11] | (p22 הצעת מחיר) (הצעת מחיר) (p13 הצעת מחיר) (p11 הצעת מחיר) |
| ATP סינתאז יחידה משנית, אלפא מיטוכונדריאלי (ATP סינתאז F1 יחידה משנית אלפא) | |
| ציטוכרום P450 11B2, מיטוכונדריאלי (סינתאז אלדוסטרון) (אנזים סינתזה-אלדוסטרון) (CYPXIB2) (ציטוכרום P-450Aldo) (ציטוכרום P-450_C_18) (18 סטרואידים-hydroxylase) | (ALDOS) (EC 1.14.15.4) (EC 1.14.15.5) |
| 60 kDa חום הלם חלבון, מיטוכונדריאלי (kDa 60 שפרון) (60 שפרון) (CPN60) (חום הלם חלבון 60) (מיטוכונדריאלי מטריקס חלבון P1) (P60 לימפוציט חלבון) | (HSP-60) (Hsp60) (HuCHA60) (EC 3.6.4.9) |
| קספאז-4 (קרח, סיד-3 homolog 2) (פרוטאז TX) [ביקע לתוך: יחידה משנית קספאז-4 1; יחידת משנה קספאז-4 2] | (CASP-4) (EC 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
בטבלה 4. לטעום שולחן ישות. טבלה זו מציגה המדגם של ישויות מיושם במקרים שימוש שני שלנו: "קבוצות הגיל" ו- "תזונה מטבוליות ומחלות" (איור 6 ו 7 איור, טבלה 3A,B). הישויות כוללים חלבון שמות, מילים נרדפות, קיצורים. כל ישות (עם מילים נרדפות, קיצורים) אחד נבחר, הוא עבר מבצע חיפוש ישות בנתונים הכלולים באינדקס (ראה פרוטוקול 3 ו- 5). החיפוש מפיק רשימה של מסמכים, אשר להמשיך לקדם את פעולת הספירה ישות.
| כמויות | המשתמש הגדיר | החישוב | המשוואה של הכמות | המשמעות של הכמות |
| שלמות | כן | לא | שלמות של המשתמש מוגדרת על ידי ישויות נחשבת 1.0. | מייצג ביטוי משמעותי. הערך המספרי הוא 1.0 כאשר זה כבר ביטוי הוקמה. |
| הפופולריות | לא | כן | משוואת הפופולריות באיור 1 (זרימת עבודה, אלגוריתם) מהפניית 5, סעיף 'חומרים ושיטות'. | מבוסס על המונח תדר של הביטוי בתוך תא. מנורמל מאת סה כ המונח תדר של התא. עלייה המונח תדר יש צמצום תוצאה. |
| הייחוד | לא | כן | משוואת הייחוד באיור 1 (זרימת עבודה, אלגוריתם) מהפניית 5, סעיף 'חומרים ושיטות'. | מבוסס על המונח תדר התדירות המסמך בתוך תא על-פני התאים הסמוכים. מנורמל מאת מונח הכולל תדירות ותדירות המסמך. באופן כמותי, זה ההסתברות כי צירוף מילים ייחודי בתא מסוים. |
| CaseOLAP ציון | לא | כן | CaseOLAP ציון משוואת באיור 1 (זרימת עבודה, אלגוריתם) מהפניית 5, סעיף 'חומרים ושיטות'. | מבוסס על תקינות, פופולריות, הייחוד. הערך המספרי תמיד נופל בתוך 0 ל- 1. באופן כמותי הציון CaseOLAP מייצג את העמותה הביטוי-קטגוריה |
טבלה 5. משוואות CaseOLAP: CaseOLAP אלגוריתם פותח על ידי Fangbo טאו, Jiawei האן ואח ב 20161. בקצרה, השולחן הזה מציג את חישוב הציון CaseOLAP בהיקף של שלושה מרכיבים: שלמות, הפופולריות, ואת הייחוד ומשמעות שלהם הקשורים מתמטית. המקרים השימוש שלנו, התוצאה שלמות חלבונים היא 1.0 (את הציון המקסימלי) כי הם עומדים כשמות ישות הוקמה. ניתן לראות הציונים CaseOLAP במקרים שלנו השתמש ב- 6C איור , איור 7C.