June 13th, 2025
تصف هذه المقالة RUGGED (الاسترجاع تحت تمييز المرض القابل للتفسير الموجه بالرسم البياني) ، والذي يدمج استدلال نموذج اللغة الكبير (LLM) مع التوليد المعزز بالاسترجاع (RAG). وهو يستمد الأدلة من قواعد المعرفة الطبية الحيوية المنسقة من قبل الخبراء والمنشورات الطبية الحيوية التي راجعها الأقران لتجميع معرفة جديدة من المعلومات الحديثة ، وتحديد التنبؤات القابلة للتفسير والقابلة للتنفيذ ، وتحديد الاتجاهات الواعدة للتحقيقات القائمة على الفرضيات.
يقدم هذا البروتوكول منصة لاستكشاف الأسئلة الطبية الحيوية والسريرية بشكل موثوق ، ولتوليد الفرضيات. يساعد Rugged في استكشاف المشهد الطبي الحيوي من خلال الاستفادة من نماذج اللغة الكبيرة ، وربطها بالمنشورات التي راجعها الأقران وقواعد المعرفة الطبية الحيوية المنسقة ، بالإضافة إلى استخدام الذكاء الاصطناعي القابل للتفسير للكشف عن علاقات جديدة. أدت التطورات الحديثة في الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة إلى تغيير كيفية تفاعلنا مع الموارد الطبية الحيوية المدعومة بالأدلة ، مما يتيح مهام مثل التلخيص والإجابة على الأسئلة واستكشاف الفرضيات المرنة. اعتمدت الأساليب السابقة على التنقيب عن النصوص لاستخراج الأنماط والعلاقات عالية المستوى من الأدبيات الطبية الحيوية. اليوم ، تجمع الأساليب بين نماذج اللغة الكبيرة والتوليد المعزز بالاسترجاع والأنظمة الوكيلة وإمكانيات استدعاء الأدوات. تكافح العديد من نماذج اللغات المتاحة للجمهور من أجل الموثوقية ، مما قد ينتج عنه معلومات غير صحيحة من الناحية الواقعية. في حين أن النماذج الحديثة قد تحسنت ، إلا أن إنتاجها في وقت النشر غالبا ما يفتقر إلى خصوصية المجال ، ويعتمد على لغة عامة غامضة ، وينتج تفسيرات مطولة ومجزأة. في المنشورات السابقة مع JoVE ، سلطنا الضوء على كيفية تطبيق التنقيب عن النص ونمذجة الرسم البياني للمعرفة الطبية الحيوية للتنبؤ وفهم العلاقات بين البروتينات والمكونات الخلوية وأمراض القلب والأوعية الدموية. بناء على هذا الأساس ، يركز أحدث أبحاثنا على دمج هذه المعرفة الطبية الحيوية المنظمة مع تدفقات العمل المدعومة بنموذج اللغة الكبير ، مما يتيح الاستدلال الدقيق والاستجابات القائمة على الأدلة.
[الراوي] للبدء ، ابدأ الخدمة الوعرة بالأمر الموجود في المحطة الطرفية. استخراج الأدبيات الطبية الحيوية وتحديد المستندات ذات الصلة ، جنبا إلى جنب مع علاقات مرض البروتين عالية المستوى باستخدام caseOLAP LIFT. قم بزيارة caseOLAP LIFT بروتوكول JoVE وقم بإجراء تحليل التنقيب عن النص caseOLAP LIFT. بعد ذلك ، استنساخ مستودع Know2BIO في المحطة. باستخدام سطر الأوامر، قم بتنفيذ البرنامج النصي create_edge_files.py لتنزيل موارد قاعدة المعارف ومراقبة تقدم مسار الاستخراج. بعد ذلك ، قم بإنشاء الرسم البياني المعرفي باستخدام البرنامج النصي prepare_kgs.py. دمج نتائج البرنامج النصي combine_kg_results.py لدمج العلاقات والكيانات المستخرجة من تحليل التنقيب عن النص وبناء الرسم البياني المعرفي في رسم بياني شامل واحد. تحديد الكيانات الطبية الحيوية ذات الأهمية من خلال مراجعة الرسم البياني المعرفي واختيار العقد ذات الصلة لاستخدامها في التحليل التنبؤي. استخدم البرنامج النصي filter.py لاستخراج رسم بياني فرعي يمكن الوصول إليه في غضون قفزتين من عقد المرض المحددة ذات الاهتمام وتشغيل الأمر. قم بتشغيل البرنامج النصي لتحليل التنبؤ عن طريق تحديد الحواف المراد التنبؤ بها والرسم البياني المعرفي للإدخال كوسيطات سطر الأوامر والحصول على الإخراج. الآن ، قم بالاتصال بحاوية Rugged Docker. إذا تم إغلاق النافذة الطرفية السابقة، فأعد الاتصال بحاوية Docker. بمجرد الاتصال، انتقل إلى الدليل Rugged with CD workspace Rugged في سطر الأوامر، وقم بتنفيذ كافة الخطوات المتبقية داخل نافذة سطر الأوامر هذه. بعد التحقق من تشغيل كافة الخدمات الداعمة، ابدأ تشغيل Rugged في واجهة سطر الأوامر لبدء التفاعل مع النظام. للاستعلام عن الرسم البياني المعرفي، اطرح سؤالا بلغة طبيعية بدءا من الكلمة الأساسية "استعلام". على سبيل المثال ، اكتب "استعلام ما هي الأدوية الموصوفة حاليا المصنفة على أنها حاصرات بيتا؟" استكشف التوقعات من تحليل التنبؤ بالرابط مع الأسئلة التي تبدأ بالكلمة الرئيسية "توقع". بعد ذلك ، استرجع المستندات المتعلقة بموضوع الطب الحيوي من الخطوة الثانية باللغة الطبيعية باستخدام الكلمة الرئيسية "بحث". قم بتنقيح الاستفسارات بشكل متكرر باستخدام واجهة Rugged الشبيهة بالدردشة في نفس نافذة المحطة الطرفية. اختياريا، أعد تشغيل أوامر التشفير وتعديلها في Neo4j لتحسين نتائج استعلام الرسم البياني المعرفي. لخص التفاعل بالكامل مع الكلمة الرئيسية "تلخيص" لإخراج ملخص نصي لمراجعته لاحقا ، وقم بإجراء مراجعة بشرية في الحلقة لتعزيز قابلية قراءة ودقة استجابات النظام قبل وضع اللمسات الأخيرة على الملخص. أخيرا، راجع سجلات الدردشة في مجلد السجل داخل Rugged وافحص النص الكامل للتفاعل. تضمن الرسم البياني المعرفي الذي تم إنشاؤه باستخدام Know2BIO 219,450 عقدة و 6,323,257 حافة. قام نظام Rugged بتضمين الرسم البياني المعرفي وبيانات المنشورات باستخدام نموذج BART للبحث المتجه ، مع تلخيص المنشورات التي يزيد طولها عن 500 رمز مميز من حيث القسم.
تقدم هذه المقالة RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction)، وهي منصة تدمج استدلال نماذج اللغة الكبيرة مع التوليد المعزز بالاسترجاع. تهدف إلى توليف معرفة جديدة من الأدبيات الطبية الحيوية وقواعد المعرفة، مما يسهل توليد الفرضيات واستكشاف الأسئلة الطبية الحيوية.