June 13th, 2025
מאמר זה מתאר RUGGED (אחזור תחת הבחנה ניתנת להסבר של מחלה מונחית גרף), המשלב הסקת מודל שפה גדול (LLM) עם Retrieval-Augmented Generation (RAG). הוא שואב ראיות ממאגרי ידע ביו-רפואיים שנאספו על ידי מומחים ופרסומים ביו-רפואיים שנבדקו על ידי עמיתים כדי לסנתז ידע חדש ממידע עדכני, לזהות תחזיות הניתנות להסבר וניתנות לפעולה, ולאתר כיוונים מבטיחים לחקירות מונעות השערות.
פרוטוקול זה מציג פלטפורמה לחקירה מהימנה של שאלות ביו-רפואיות וקליניות, וליצירת השערות. Rugged עוזרת לחקור את הנוף הביו-רפואי על ידי מינוף מודלים גדולים של שפה, חיבורם לפרסומים שנבדקו על ידי עמיתים ומאגרי ידע ביו-רפואיים שנאספו, כמו גם שימוש בבינה מלאכותית הניתנת להסבר כדי לחשוף קשרים חדשים. ההתקדמות האחרונה בבינה מלאכותית גנרטיבית ובמודלים גדולים של שפה שינו את האופן שבו אנו עוסקים במשאבים ביו-רפואיים הנתמכים בראיות, ומאפשרים משימות כגון סיכום, מענה על שאלות וחקר השערות גמישות. גישות מוקדמות יותר הסתמכו על כריית טקסט כדי לחלץ דפוסים ומערכות יחסים ברמה גבוהה מהספרות הביו-רפואית. כיום, גישות משלבות מודלים גדולים של שפה עם יצירת אחזור מוגברת, מערכות סוכנים ויכולות קריאת כלים. מודלים רבים של שפה הזמינים לציבור נאבקים באמינות, ועלולים לייצר מידע שגוי עובדתית. בעוד שהמודלים האחרונים השתפרו, התפוקה שלהם בזמן הפרסום הייתה לעתים קרובות חסרה ספציפיות לתחום, הסתמכה על שפה כללית מעורפלת ויצרה הסברים ארוכים ומקוטעים. בפרסומים קודמים עם JoVE, הדגשנו כיצד כריית טקסט ומודלים של גרף ידע ביו-רפואי מיושמים כדי לחזות ולהבין קשרים בין חלבונים, רכיבים תאיים ומחלות לב וכלי דם. בהתבסס על בסיס זה, המחקר האחרון שלנו מתמקד בשילוב ידע ביו-רפואי מובנה זה עם תהליכי עבודה הנתמכים על ידי מודלים גדולים של שפה, המאפשרים הסקה מדויקת ותגובות מבוססות ראיות.
[קריין] כדי להתחיל, התחל את השירות המחוספס עם הפקודה בטרמינל. לחלץ ספרות ביו-רפואית ולזהות מסמכים רלוונטיים, יחד עם קשרי מחלות חלבון ברמה גבוהה באמצעות caseOLAP LIFT. בקר בפרוטוקול caseOLAP LIFT JoVE ובצע את ניתוח כריית הטקסט caseOLAP LIFT. לאחר מכן, שכפל את מאגר Know2BIO בטרמינל. באמצעות שורת הפקודה, הפעל את קובץ ה- Script של create_edge_files.py כדי להוריד את משאבי מאגר הידע ולעקוב אחר התקדמות צינור החילוץ. לאחר מכן, בנה את גרף הידע עם סקריפט prepare_kgs.py. שלב את התוצאות של סקריפט combine_kg_results.py כדי למזג את הקשרים והישויות שחולצו מניתוח כריית הטקסט ובניית גרף הידע לגרף מקיף אחד. זהה ישויות ביו-רפואיות מעניינות על ידי סקירת גרף הידע ובחירת צמתים רלוונטיים לשימוש בניתוח חיזוי. השתמש בסקריפט filter.py כדי לחלץ תת-גרף שניתן להגיע אליו תוך שתי דילוגים מצמתי המחלה המעניינים שנבחרו והפעל את הפקודה. הפעל את קובץ ה- Script של ניתוח החיזוי על-ידי ציון הקצוות לחיזוי וגרף ידע הקלט כארגומנטים של שורת הפקודה וקבל את הפלט. כעת, התחבר לגורם המכיל של Rugged Docker. אם חלון המסוף הקודם נסגר, מתחברים מחדש למאגר של Docker. לאחר החיבור, נווט אל הספרייה Rugged עם סביבת העבודה CD Rugged בשורת הפקודה, ובצע את כל השלבים הנותרים בחלון שורת פקודה זה. לאחר וידוא שכל השירותים התומכים פועלים, הפעל את Rugged בממשק שורת הפקודה כדי להתחיל באינטראקציה עם המערכת. כדי לבצע שאילתה על גרף הידע, הציגו שאלה בשפה טבעית המתחילה במילת המפתח "שאילתה". לדוגמה, הקלד "שאילתה, מהן התרופות שנקבעו כיום המסווגות כחוסמי בטא?" חקור את התחזיות מניתוח חיזוי הקישורים עם שאלות המתחילות במילת המפתח "לחזות". לאחר מכן, אחזר מסמכים הקשורים לנושא ביו-רפואי משלב שני בשפה טבעית באמצעות מילת המפתח "חיפוש". צמצם את השאלות באופן איטרטיבי באמצעות ממשק דמוי הצ'אט של Rugged באותו חלון טרמינל. לחלופין, הפעל מחדש ושנה פקודות צופן ב-Neo4j כדי לחדד את תוצאות שאילתת גרף הידע. סכם את כל האינטראקציה עם מילת המפתח "סיכום" כדי להפיק סיכום טקסט לסקירה מאוחרת יותר, ובצע סקירה אנושית בלולאה כדי לשפר את הקריאות והדיוק של תגובות המערכת לפני השלמת הסיכום. לבסוף, סקור את יומני הצ'אט בתיקיית היומן בתוך Rugged ובדוק את הטקסט המלא של האינטראקציה. גרף הידע שנבנה באמצעות Know2BIO כלל 219,450 צמתים ו-6,323,257 קצוות. מערכת Rugged הטמיעה גרף ידע ונתוני פרסום באמצעות מודל BART לחיפוש וקטורי, עם פרסומים ארוכים יותר מ-500 אסימונים מסוכמים לפי סעיפים.
מאמר זה מציג את RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), פלטפורמה המשלבת הסקת מודל שפה גדול עם יצירה מורחבת באמצעות אחזור. היא נועדה לסנתז ידע חדש מספרות ביו-רפואית ובסיסי ידע, ומקלה על יצירת השערות וחקר שאלות ביו-רפואיות.