$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
תוצאות מייצגות אלה הושגו על ידי ביצוע ההליך המתואר בפרוטוקול זה. ניתוח אסוציאציות כריית טקסט בוצע בעקבות פרוטוקול CaseOLAP LIFT5 עם פרמטרי ברירת מחדל, וחקר שמונה קטגוריות רחבות של מחלות לב וכלי דם72 והקשר שלהן לחלבונים מיטוכונדריאלים (GO:0005739). בסך הכל, 635,696 דיווחים עד מאי 2024 נקבעו כרלוונטיים למחלות אלה; ביניהם, זוהו 4,655 קשרי חלבון-מחלות בביטחון גבוה כדי ליידע ניתוחים במורד הזרם. גרף ידע ביו-רפואי נבנה באמצעות קוד התוכנה מ-Know2BIO באמצעות הגדרות ברירת מחדל במאי 20249. גרף הידע המתקבל מורכב מ-219,450 צמתים, 6,323,257 קצוות, כמו גם תכונות צמתים עבור 189,493 צמתים עם תיאורי צמתים, רצפי חלבון/גנים, מבנה כימי וכו' היכן שזמין. אומדן של זמן חישוב עבור כל השלבים בפרוטוקול מוצג בטבלה 1.
מערכת RUGGED אותחלה על ידי בניית מסדי הנתונים הווקטוריים הן עבור צמתי גרף הידע והן עבור הפרסומים הרלוונטיים ל-CVD. כל הצמתים, הקצוות ותכונות הצומת של גרף הידע עובדו בגודל נתח של 20 אסימונים עם מודל ההטמעה BART71 כדי להתכונן לחיפוש וקטורי RAG. באופן דומה, תרומות מקוריות ומאמרי סקירה עובדו באמצעות גודל נתח של 500 אסימונים ומודל ההטמעה של BART כדי להתכונן לחיפוש וקטורי RAG. עבור אחזור ספרות, פרסומים בטקסט מלא גדולים מ-500 אסימונים סוכמו באופן היררכי על סמך החלקים הבודדים של פרסום על ידי מודל ההטמעה של BART. מודל GPT-4o שימש עבור סוכני ה-LLM הנותרים במערכת.
תוצאות מייצגות אלה מציגות מקרה שימוש לדוגמה לחקירת טיפולים תרופתיים פוטנציאליים עבור קרדיומיופתיה אריתמוגנית (ACM) וקרדיומיופתיה מורחבת (DCM), המזוהים כ-MeSH_Disease: D019571 ו-MeSH_Disease: D002311, בהתאמה. סדרה של פניות מתוארת באיור 3, עם דוגמאות מודגשות של תגובות מודל המוצגות באיור 4, ותגובה מלאה המדווחת בקובץ משלים 1, סעיף A. כיוון החקירה הותאם לתשובות שאושרו על ידי החוקרים, ויצר שאילתות עוקבות על סמך תוצאות התשובות הקודמות. הניתוח חשף 11 תרופות מועמדות שסווגו תחת חוסמי בטא ונוגדי הפרעות קצב. דרכים חדשות לטיפול טיפולי הוערכו באמצעות מודל חיזוי קישורים של רשת עצבית קונבולוציונית על תת-קבוצה של גרף הידע השלם, כולל צמתים בטווח של דילוג אחד ממחלת המחקר וצמתי תרופות והקשרים ההדדיים ביניהם, עם מדדי הערכה המדווחים בטבלה 4. 10 הקצוות הרלוונטיים המובילים לכל חיזוי על ידי המודל נבדקו עוד על ידי מודול הסבר גרף, GNNExplainer44, כדי לזהות את הצמתים והקצוות העליונים התורמים לכל חיזוי, בהתאמה. העלות הכוללת של שימוש ב-LLM מסחרי עבור כל השלבים של פרוטוקול RUGGED עבור מקרה שימוש זה מוערכת ב-$1.50 בזמן כתיבת שורות אלה.

איור 1: אחזור תחת זרימת עבודה של הבחנה ניתנת להסבר במחלה מונחית גרפים (RUGGED). RUGGED מורכב מארבעה מרכיבים עיקריים: (1) איסוף ועיבוד נתונים ממקורות אתיים ומנוהלים באופן מקצועי (למשל, PubMed ומאגרי ידע ביו-רפואיים שנאספו), (2) שילוב ממצאי מחקר שנבדקו על ידי עמיתים לגרף ידע מאוחד, (3) בניית נתוני הטקסט והגרף בתוך שירותי מסד נתונים, (4) מידול וחיזוי קשרים הניתנים להסבר בין ישויות ביו-רפואיות בתוך גרף הידע, ו-(5) אחזור וסינתזה של ידע באמצעות זרימת עבודה של Retrieval Augmented Generation (RAG) (איור 2) כדי לאמת קשרים מולקולריים מורכבים ולחקור תחזיות מחלות מונעות בינה מלאכותית. המשתמש יכול לבצע שלב סקירה אנושי בלולאה כדי לשפר את דיוק הפלט. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.

איור 2: ארכיטקטורת אחזור וזרימת עבודה להפחתת הטיות. מסגרת ה-Retrieval Augmented Generation (RAG) מעסיקה מספר סוכני LLM, שכל אחד מהם מבצע משימות ספציפיות כדי לתמוך בגישה למידע רלוונטי על סמך שאילתת המשתמש. מערכת זו מספקת ראיות מתועדות לסוכן החשיבה מבוסס GPT הפונה למשתמש, מה שמקל על אינטראקציה בין משתמש לסוכן וסינתזה של ידע. (1) אחזור טקסט ביו-רפואי: תרומות מקוריות ומאמרי ביקורת שנבדקו על ידי עמיתים מסוננים על סמך הרלוונטיות שלהם להבנת קשרי מחלות. מסד נתונים וקטורי נבנה עבור ראיות טקסט מאומתות על ידי המחבר והעורך המשוקללות על סמך החלק המקביל של הפרסום, בהתאמה: 70% תקציר, 10% תוצאות, 10% מטא נתונים ו-10% עבור כל שאר תת-הסעיפים. חיפוש מילות מפתח וחיפוש דמיון מול הטמעת הטקסט של שאילתת המשתמש מזהים יחד מסמכים רלוונטיים. סיכומים של כל מסמך נוצרים באמצעות סיכום מבוסס BERT, כאשר סוכן מעריך הטקסט מבוסס GPT מחדד את החיפוש כדי לאמת את הרלוונטיות של מסמך השאילתה. (2) אחזור גרף ידע: מודול זיהוי ישויות בשם מבוסס BERT וחילוץ קשרים מבוסס GPT מחבר את שאילתת המשתמש לישויות רלוונטיות בגרף הידע. חיפוש דמיון במסד נתונים וקטורי מזהה צמתים וקצוות רלוונטיים. הנתונים מאוחזרים ממסד הנתונים של Neo4j באמצעות שאילתות סייפר שנוצרו על ידי סוכן שאילתות סייפר מבוסס GPT ומעודנים על ידי סוכן אימות השאילתות. (3) התגובות האישיות מצינורות אחזור הטקסט הביו-רפואי או אחזור גרף הידע מוצגות לסוכן ההנמקה, המסנתז תגובה תמציתית עם הטיה מינימלית לשאילתת המשתמש. מערכת זו מונחית לשמור על דיוק וחוסר משוא פנים בהצגת מידע עובדתי. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.

איור 3: מקרה שימוש על סינתזת ידע וחקר השערות באמצעותמפל שאילתות. איור זה מציג מקרה שימוש מודגש המתמקד בשרשרת של שאלות ומושגים קשורים שחוקר ו/או איש מקצוע בתחום הבריאות עשויים להציג למערכת RUGGED. שאילתות מהמשתמש מוצגות למערכת בסדר מספרי, עם חיצים המייצגים נימוקים לוגיים מוסקים וספציפיים לתחום בין כל שאלה. המערכת מאחזרת מהמידע המרומז והרלוונטי (המקור מוצג בכחול), ומגיבה לשאילתה. דוגמאות לתגובות המערכת מוצגות באיור 4. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.

איור 4: פתולוגיה קרדיווסקולרית של מקרה שימוש: הבהרת פתוגנזה של CVD. זוגות שאילתה-תגובה בין המשתמש למערכת RUGGED מוצגים. בפאנל השמאלי העליון, שאלות 1-6 מאחזרות מידע על ידי חילוץ מידע ממסד הנתונים של גרף הידע כדי לנסח תשובות מבוססות ראיות. שאלה 7 משתמשת בחיזוי קישור גרף הניתן להסבר כדי לזהות טיפולים בעלי ניקוד גבוה. השאילתה מבקשת ניתוח חיזוי, המבוצע ומעובד באופן אוטומטי על ידי המערכת, וממצאי המפתח מסוכמים בתמציתיות. שאלה 8 מעריכה ראיות ספרותיות מקורפוס נתוני הטקסט המוגדר המאוחזרות כראיות רלוונטיות כדי לאמת, לאמת ולאמת את הממצא החזוי. תגובות המערכת נבדקו על ידי תהליך בדיקה אנושי בלולאה והותאמו לקריאות וקיצור. תמליל מלא של ממצאים אלה מפורט בתיק המשלים 1. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
| שלבים | תיאור | זמן |
| הנגשת ידע ביו-רפואי | 30% סה"כ |
| הכנת קורפוס ספרות ביו-רפואית | התחבר ל-PubMed ו-PubMed Central, הורד ונתח נתוני פרסום למשימות במורד הזרם. | 20% |
| הכנת נתוני מאגר הידע | התחבר למאגרי ידע ביו-רפואיים, הורד ונתח מידע הכרחי למשימות במורד הזרם. | 5% |
| חילוץ מידע | 30% סה"כ |
| ניתוח כריית טקסט של CaseOLAP LIFT | לזהות קשרי מחלה-חלבון ברמה גבוהה בתוך קורפוס הטקסט הביו-רפואי. | 25% |
| בניית גרף ידע | חבר ושלב מידע שונה ממאגרי ידע ביו-רפואיים לגרף ידע מאוחד. | 5% |
| ניתוח חיזוי | 10% סה"כ |
| אימון רשת עצבית גרף | אמן את המודל על נתוני גרף הידע הביו-רפואי כדי ללמוד דפוסים נסתרים בתוך הגרף. | 5% |
| ניתוח דירוג רלוונטיות | החל מודול הסבר כדי להדגיש את הצמתים והקצוות הרלוונטיים ביותר לחקר מחלה. | 2.5% |
| חיזוי קישורים | השתמש במודול יכולת ההסבר כדי לזהות צמתים וקצוות מרכזיים התורמים לקצוות חזויים חדשים. | 2.5% |
| יצירת השערות ו/או אימות | 30% סה"כ |
| הגדרת מסד נתונים לאחזור דור מוגבר | אתחול מסד הנתונים הגרפים לשאילתות גרף הידע ומסד הנתונים הווקטורי לאחזור טקסט. | 25% |
| חקר השערות | אפשר אינטראקציה של המשתמש עם RUGGED כדי לגשת למידע רלוונטי ולבחון אותו לצורך חקר השערות. | 5% |
טבלה 1: זרימת עבודה ושלבים להגבלת קצב. טבלה זו מספקת הערכות גסות של זמן החישוב הנדרש עבור כל שלב בזרימת העבודה. הצעדים המגבילים את הקצב כוללים גישה, חילוץ ואינדקס של ידע ביו-רפואי הדרוש לייצור מוגבר של אחזור. חקירת השערות עשויה לחזור על עצמה ברציפות ללא צורך בביצוע מחדש של צעדים המגבילים את הקצב.
| קטגוריית מחלה | מספרי עץ MeSH | # PMIDs | # תרומות מקוריות | # מאמרי סקירה |
| קרדיומיופתיה (CM) | ג14.280.238 | 132,531 | 102,337 | 19,942 |
| ג14.280.434 |
| הפרעות קצב לב (ARR) | ג14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| מומי לב מולדים (CHD) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| מחלות מסתמי לב (VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| איסכמיה של שריר הלב (IHD) | ג14.280.647 | 256,986 | 210,042 | 30,223 |
| מחלת מערכת הולכת לב (CCD) | ג14.280.123 | 53,050 | 35,399 | 4,363 |
| חסימת יציאה חדרית (VOO) | ג14.280.955 | 22,244 | 15,504 | 1,686 |
| מחלות לב אחרות (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| סך | 635,696 | 478,404 | 69,690 |
טבלה 2: סטטיסטיקה של ספרות ביו-רפואית. טבלה זו מפרטת את קטגוריות מחלות המחקר עם מספרי עץ ה-MeSH המתאימים להן ומספר מסמכי PubMed שאוחזרו עד מאי 2024, המשמשים כקורפוס לכריית טקסט. תת-קבוצה של פרסומים אלה, המורכבת ממאמרי מחקר מקוריים ומאמרי סקירה, מאונדקסת למסד נתונים וקטורי לאחזור על ידי RUGGED במהלך יצירת השערות.
| קטגוריה | מספר צמתים | מספר קצוות | מקורות נתונים |
| אנטומיה | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| תהליך ביולוגי | 27,047 | 108,106 | אונטולוגיה גנטית |
| רכיב סלולרי | 4,057 | 52,238 | אונטולוגיה גנטית |
| תרכובת | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| מחלה | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| מחלקת תרופות | 5,721 | 8,283 | ATC |
| גן | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| תפקוד מולקולרי | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| מסלול | 52,012 | 234,944 | אונטולוגיה גנטית |
| חלבון | 20,740 | 1,074,809 | Reactome, KEGG, SMPDB |
| התגובה | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| סכום ביניים | 219,450 | 6,323,257 | ריקטום |
| אסוציאציות כריית טקסט | 8 | 4,670 | |
| סך | 219,458 | 6,327,927 | |
טבלה 3: סטטיסטיקה של גרף ידע. טבלה זו מפרטת 11 קטגוריות ביו-רפואיות רחבות המרכיבות את גרף הידע הבנוי של Know2BIO, מועשר בקצוות נוספים הנגזרים מניתוח כריית טקסט וניתוח חיזוי. גרף הידע והתחזיות המתקבלים מנוהלים על ידי מסד הנתונים של הגרפים Neo4j לאחזור על ידי RUGGED במהלך יצירת השערות.
| דיוק | דיוק | זוכר | ניקוד F1 | אורוק | AUPRC |
| אימות | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| מבחן | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
טבלה 4: הערכת מודל AI הניתנת להסבר. טבלה זו מדווחת על מדדי ההערכה לחיזוי קישורי גרף הידע באמצעות רשת עצבית קונבולוציונית של גרף דו-שכבתי. המדדים הוערכו על ידי חלוקת קצוות הגרפים ל-85% אימון, 5% אימות ו-10% מערכי בדיקה. דיוק מציין את שיעור התחזיות המסווגות כהלכה. דיוק מדווח על שיעור התחזיות החיוביות הנכונות בין כל התחזיות החיוביות. Recall מודד את שיעור התחזיות החיוביות הנכונות בין הקצוות החיוביים בפועל. ציון ה-F1 הוא הממוצע ההרמוני של דיוק וזיכרון, המאזן בין שני המדדים. AUROC מעריך את יכולתו של המודל להבדיל בין תחזיות חיוביות ושליליות. AUPRC מכמת את הפשרה בין דיוק לזיכרון על פני ספים שונים. בכל המדדים, ערכים גבוהים יותר מצביעים על ביצועי מודל טובים יותר.
קובץ משלים 1: קובץ זה מפרט את תגובת הדגם המלאה מ-RUGGED והשוואה מול GPT-4o. חלק א' מציג את האינטראקציה המלאה בין אדם למחשב עם RUGGED, מרחיב את גישת שרשרת השאילתות המתוארת באיור 3 ומספק את התשובה המלאה מעבר לסיכום המודגש באיור 4. סעיף B מעריך את התגובות של GPT-4o ללא אחזור מול RUGGED, ומעריך תכונות כגון דיוק, עומק, ניקוד ביטחון, אמינות ראיות ועלות. אנא לחץ כאן להורדת קובץ זה.