$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
تم الحصول على هذه النتائج التمثيلية باتباع الإجراء المبين في هذا البروتوكول. تم إجراء تحليل ارتباط التنقيب عن النص باتباع بروتوكول CaseOLAP LIFT5 مع المعلمات الافتراضية ، ودراسة ثماني فئات واسعة من أمراض القلب والأوعية الدموية72 وارتباطها ببروتينات الميتوكوندريا (GO: 0005739). في المجموع ، تم تحديد 635,696 تقريرا حتى مايو 2024 على أنها ذات صلة بهذه الأمراض. من بينها ، تم تحديد 4,655 ارتباطا بأمراض البروتين عالية الثقة لإبلاغ التحليلات النهائية تم إنشاء رسم بياني للمعرفة الطبية الحيوية باستخدام رمز البرنامج من Know2BIO باستخدام الإعدادات الافتراضية في مايو 20249. يتكون الرسم البياني المعرفي الناتج من 219,450 عقدة ، و 6,323,257 حافة ، بالإضافة إلى ميزات العقدة ل 189,493 عقدة مع أوصاف العقدة ، وتسلسل البروتين / الجينات ، والتركيب الكيميائي ، وما إلى ذلك حيثما كان ذلك متاحا. يتم عرض تقدير الوقت الحسابي لجميع الخطوات في البروتوكول في الجدول 1.
تمت تهيئة نظام RUGGED من خلال إنشاء قواعد بيانات المتجهات لكل من عقد الرسم البياني المعرفي والميزات بالإضافة إلى المنشورات ذات الصلة بالأمراض القلبية الوعائية. تمت معالجة جميع عقد الرسم البياني المعرفي والحواف وميزات العقدة بحجم مقطع من 20 رمزا مميزا باستخدام نموذج تضمين BART71 للتحضير للبحث في متجهات RAG. وبالمثل ، تمت معالجة المساهمات الأصلية ومقالات المراجعة باستخدام حجم مقسم من 500 رمز مميز ونموذج تضمين BART للتحضير للبحث عن متجهات RAG. لاسترجاع الأدبيات ، تم تلخيص منشورات النص الكامل التي يزيد عددها عن 500 رمز هرمي بناء على الأقسام الفردية للمنشور بواسطة نموذج تضمين BART. تم استخدام نموذج GPT-4o لوكلاء LLM المتبقين في النظام.
تعرض هذه النتائج التمثيلية مثالا على حالة استخدام للتحقيق في العلاجات الدوائية المحتملة لاعتلال عضلة القلب المسبب لاضطراب النظم القلبي (ACM) واعتلال عضلة القلب التوسعي (DCM) ، والتي تم تحديدها على أنها MeSH_Disease: D019571 و MeSH_Disease: D002311 ، على التوالي. تم توضيح سلسلة من الاستفسارات في الشكل 3 ، مع أمثلة مميزة للردود النموذجية الموضحة في الشكل 4 ، والرد الكامل المبلغ عنه في الملف التكميلي 1 ، القسم أ. تم تكييف اتجاه الاستفسار مع الردود التي تم التحقق من صحتها من قبل المحققين ، وصياغة الاستفسارات اللاحقة بناء على نتائج الردود السابقة. كشف التحليل عن 11 دواء مرشحا مصنفا تحت حاصرات بيتا ومضادات اضطراب النظم. تم تقييم السبل الجديدة للعلاج العلاجي باستخدام نموذج التنبؤ بارتباط الشبكة العصبية التلافيفية للرسم البياني على مجموعة فرعية من الرسم البياني المعرفي الكامل ، بما في ذلك العقد ضمن قفزة واحدة من المرض وعقد الدراسة والأدوية وترابطها ، مع مقاييس التقييم المذكورة في الجدول 4. تم فحص أفضل 10 حواف ذات صلة لكل تنبؤ بواسطة النموذج بواسطة وحدة شرح الرسم البياني ، GNNExplainer44 ، لتحديد العقد والحواف العلوية التي تساهم في كل تنبؤ ، على التوالي. تقدر التكلفة الإجمالية لاستخدام LLM التجاري لجميع خطوات بروتوكول RUGGED لحالة الاستخدام هذه بمبلغ 1.50 دولار في وقت كتابة هذا التقرير.

الشكل 1: الاسترجاع بموجب سير عمل التمييز المرضي القابل للتفسير الموجه بالرسم البياني (RUGGED). يتكون RUGGED من أربعة مكونات أساسية: (1) تجميع البيانات ومعالجتها من مصادر أخلاقية ومدارة بشكل احترافي (على سبيل المثال ، PubMed وقواعد المعرفة الطبية الحيوية المنسقة) ، (2) دمج نتائج البحوث التي تمت مراجعتها من قبل الأقران في رسم بياني معرفي موحد ، (3) هيكلة بيانات النص والرسم البياني داخل خدمات قاعدة البيانات ، (4) نمذجة والتنبؤ بالعلاقات القابلة للتفسير بين الكيانات الطبية الحيوية ضمن الرسم البياني المعرفي ، و (5) استرداد المعرفة وتوليفها من خلال سير عمل التوليد المعزز للاسترجاع (RAG) (الشكل 2) للتحقق من صحة العلاقات الجزيئية المعقدة واستكشاف تنبؤات الأمراض التي يحركها الذكاء الاصطناعي. يمكن للمستخدم إجراء خطوة مراجعة بشرية في الحلقة لتحسين دقة الإخراج. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 2: بنية الاسترجاع وسير عمل التخفيف من التحيز. يستخدم إطار عمل الإنشاء المعزز للاسترداد (RAG) العديد من وكلاء LLM، يقوم كل منهم بتنفيذ مهام محددة لدعم الوصول إلى المعلومات ذات الصلة استنادا إلى استعلام المستخدم. يوفر هذا النظام دليلا موثقا لعامل التفكير المستند إلى GPT الذي يواجه المستخدم ، مما يسهل التفاعل بين المستخدم والوكيل وتوليف المعرفة. (1) استرجاع النص الطبي الحيوي: تتم تصفية المساهمات الأصلية ومقالات المراجعة التي راجعها الأقران بناء على صلتها بفهم ارتباطات الأمراض. يتم إنشاء قاعدة بيانات متجهة لأدلة النص التي تم التحقق من صحتها من قبل المؤلف والمحرر والتي تم ترجيحها بناء على القسم المقابل من المنشور ، على التوالي: 70٪ ملخص ، 10٪ نتائج ، 10٪ بيانات وصفية ، و 10٪ لجميع الأقسام الفرعية الأخرى. يحدد البحث عن الكلمات الرئيسية والبحث عن التشابه مقابل تضمين النص لاستعلام المستخدم معا المستندات ذات الصلة. يتم إنشاء ملخصات كل مستند باستخدام ملخص يستند إلى BERT، مع عامل تقييم النص المستند إلى GPT الذي يقوم بتنقيح البحث للتحقق من ملاءمة مستند الاستعلام. (2) استرجاع الرسم البياني المعرفي: تقوم وحدة التعرف على الكيانات المسماة المستندة إلى BERT واستخراج العلاقة المستندة إلى GPT بربط استعلام المستخدم بالكيانات ذات الصلة في الرسم البياني المعرفي. يحدد البحث عن التشابه في قاعدة بيانات المتجهات العقد والحواف ذات الصلة. يتم استرداد البيانات من قاعدة بيانات Neo4j عبر استعلامات Cypher التي تم إنشاؤها بواسطة وكيل استعلام Cypher المستند إلى GPT ويتم تنقيحها بواسطة عامل التحقق من الاستعلام. (3) يتم تقديم الردود الفردية من خطوط أنابيب استرجاع النص الطبي الحيوي أو استرجاع الرسم البياني المعرفي إلى عامل المنطق ، الذي يجمع استجابة موجزة بأقل قدر من التحيز لاستعلام المستخدم. ويسترشد هذا النظام بالحفاظ على الدقة والحياد في تقديم المعلومات الواقعية. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 3: حالة الاستخدام في توليف المعرفة واستكشاف الفرضيات عبرسلسلة الاستعلام . يعرض هذا الشكل حالة استخدام مميزة تركز على سلسلة من الأسئلة والمفاهيم ذات الصلة التي قد يطرحها المحقق و / أو أخصائي الرعاية الصحية على نظام RUGGED. يتم تقديم الاستعلامات من المستخدم إلى النظام بترتيب رقمي ، مع أسهم تمثل المنطق المستنبط والتفكير الخاص بالمجال بين كل سؤال. يسترد النظام من المعلومات الضمنية وذات الصلة (المصدر الموضح باللون الأزرق) ، والرد على الاستعلام. يتم عرض أمثلة على استجابات النظام في الشكل 4. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 4: حالة استخدام أمراض القلب والأوعية الدموية: توضيح التسبب في الأمراض القلبية الوعائية. يتم عرض أزواج الاستعلام والاستجابة بين المستخدم والنظام RUGGED. في اللوحة العلوية اليسرى ، تسترجع الأسئلة من 1 إلى 6 المعلومات عن طريق استخراج المعلومات من قاعدة بيانات الرسم البياني المعرفي لصياغة إجابات متجذرة بالأدلة. يستخدم السؤال 7 تنبؤا برابط الرسم البياني القابل للتفسير لتحديد العلاجات ذات الدرجات الأعلى. يطالب الاستعلام بتحليل التنبؤ ، والذي يتم تنفيذه ومعالجته تلقائيا بواسطة النظام ، ويتم تلخيص النتائج الرئيسية بإيجاز. يقيم السؤال 8 أدلة الأدبيات من مجموعة البيانات النصية المحددة التي يتم استردادها كدليل ذي صلة للتحقق من النتيجة المتوقعة والتحقق من صحتها وتأكيدها. تمت مراجعة استجابات النظام من خلال عملية فحص بشرية في الحلقة وتعديلها لسهولة القراءة والإيجاز. يتم تفصيل نسخة كاملة من هذه النتائج في الملف التكميلي 1. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.
| الخطوات | وصف | الوقت |
| الوصول إلى المعرفة الطبية الحيوية | إجمالي 30٪ |
| إعداد مجموعة الأدبيات الطبية الحيوية | اتصل ب PubMed و PubMed Central ، وقم بتنزيل بيانات المنشور وتحليلها للمهام النهائية | 20% |
| إعداد بيانات قاعدة المعرفة | اتصل بقواعد المعرفة الطبية الحيوية ، وقم بتنزيل وتحليل المعلومات الضرورية للمهام النهائية. | 5% |
| استخراج المعلومات | إجمالي 30٪ |
| تحليل التنقيب النصي CaseOLAP LIFT | تحديد العلاقات عالية المستوى بين المرض والبروتين داخل مجموعة النص الطبي الحيوي. | 25% |
| بناء الرسم البياني المعرفي | ربط ودمج المعلومات المتباينة من قواعد المعرفة الطبية الحيوية في رسم بياني معرفي موحد. | 5% |
| تحليل التنبؤ | إجمالي 10٪ |
| تدريب الشبكة العصبية للرسم البياني | تدريب النموذج على بيانات الرسم البياني للمعرفة الطبية الحيوية لمعرفة الأنماط المخفية داخل الرسم البياني. | 5% |
| تحليل ترتيب الصلة | تطبيق وحدة الشرح لتسليط الضوء على العقد والحواف الأكثر صلة بدراسة المرض. | 2.5% |
| التنبؤ بالارتباط | استخدم وحدة قابلية التفسير لتحديد العقد والحواف الرئيسية التي تساهم في الحواف المتوقعة الجديدة. | 2.5% |
| إنشاء الفرضيات و / أو التحقق من الصحة | إجمالي 30٪ |
| إعداد قاعدة البيانات للتوليد المعزز للاسترجاع | تهيئة قاعدة بيانات الرسم البياني للاستعلام عن الرسم البياني المعرفي وقاعدة بيانات المتجهات لاسترجاع النص. | 25% |
| استكشاف الفرضيات | تمكين تفاعل المستخدم مع RUGGED للوصول إلى المعلومات ذات الصلة وتدقيقها لاستكشاف الفرضيات. | 5% |
الجدول 1: سير العمل وخطوات تحديد المعدل. يوفر هذا الجدول تقديرات تقريبية للوقت الحسابي المطلوب لكل مرحلة من مراحل سير العمل. تشمل خطوات تحديد المعدل الوصول إلى المعرفة الطبية الحيوية اللازمة للتوليد المعزز بالاسترجاع واستخراجها وفهرستها. يمكن تكرار استكشاف الفرضيات بشكل مستمر دون الحاجة إلى إعادة تنفيذ خطوات تحديد المعدل.
| فئة المرض | أرقام شجرة MeSH | # PMIDs | # المساهمات الأصلية | # مراجعة المقالات |
| اعتلال عضلة القلب (CM) | ج 14.280.238 | 132,531 | 102,337 | 19,942 |
| ج 14.280.434 |
| عدم انتظام ضربات القلب (ARR) | ج 14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| عيوب القلب الخلقية (CHD) | ج 14.280.400 | 82,006 | 54,023 | 6,379 |
| أمراض صمامات القلب (VD) | ج 14.280.484 | 72,016 | 50,119 | 5,743 |
| نقص تروية عضلة القلب (IHD) | ج 14.280.647 | 256,986 | 210,042 | 30,223 |
| مرض نظام التوصيل القلبي (CCD) | ج 14.280.123 | 53,050 | 35,399 | 4,363 |
| انسداد التدفق البطيني (VOO) | ج 14.280.955 | 22,244 | 15,504 | 1,686 |
| أمراض القلب الأخرى (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| مجموع | 635,696 | 478,404 | 69,690 |
الجدول 2: إحصاءات الأدبيات الطبية الحيوية. يوضح هذا الجدول بالتفصيل فئات أمراض الدراسة مع أرقام شجرة MeSH المقابلة لها وعدد وثائق PubMed التي تم استردادها حتى مايو 2024 ، والتي تستخدم كمجموعة للتنقيب عن النصوص. تتم فهرسة مجموعة فرعية من هذه المنشورات ، تتكون من مقالات بحثية أصلية ومقالات مراجعة ، في قاعدة بيانات متجهة لاسترجاعها بواسطة RUGGED أثناء إنشاء الفرضيات.
| باب | عدد العقد | عدد الحواف | مصدر (مصادر) البيانات |
| تشريح | 5,049 | 122,533 | Bgee ، PubMed ، MeSH ، Uberon ، |
| العملية البيولوجية | 27,047 | 108,106 | علم الوجود الجيني |
| المكون الخلوي | 4,057 | 52,238 | علم الوجود الجيني |
| مركب | 27,278 | 3,292,028 | DrugBank و MeSH و CTD و UMLS و KEGG و TTD و SIDER و Inxight Drugs و Hetionet و PathFX و MyChem.info |
| مرض | 21,938 | 311,773 | PubMed ، MeSH ، DisGeNET ، SIDER ، ClinVar ، ClinGen ، PharmGKB ، MyDisease.info ، PathFX ، UMLS ، OMIM ، MONDO ، DOID ، KEGG |
| فئة الدواء | 5,721 | 8,283 | ATC |
| الجين | 29,810 | 943,419 | HGNC ، GRNdb ، كيج ، كلينفرار ، كلينجين ، |
| الوظيفة الجزيئية | 11,151 | 47,086 | SMPDB ، DisGENET ، PharmGKB ، MyGene.info |
| المسار | 52,012 | 234,944 | علم الوجود الجيني |
| بروتين | 20,740 | 1,074,809 | Reactome ، KEGG ، SMPDB |
| رد فعل | 14,647 | 128,038 | UniProt ، Reactome ، TTD ، SMPDB ، STRING ، HGNC |
| المجموع الفرعي | 219,450 | 6,323,257 | Reactome |
| جمعيات التنقيب عن النصوص | 8 | 4,670 | |
| مجموع | 219,458 | 6,327,927 | |
الجدول 3: إحصاءات الرسم البياني المعرفي. يوضح هذا الجدول تفاصيل 11 فئة طبية حيوية واسعة تشمل الرسم البياني المعرفي Know2BIO الذي تم إنشاؤه ، المخصب بحواف إضافية مشتقة من تحليل التنقيب عن النص والتحليل التنبؤي. تتم إدارة الرسم البياني والتنبؤات المعرفية الناتجة بواسطة قاعدة بيانات الرسم البياني Neo4j لاسترجاعها بواسطة RUGGED أثناء إنشاء الفرضيات.
| دقة | دقة | استذكر | نتيجة F1 | أوروك | الجامعة الأمريكية للتحقق من العمر |
| التحقق | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| اختبر | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
الجدول 4: تقييم نموذج الذكاء الاصطناعي القابل للتفسير. يقدم هذا الجدول تقارير مقاييس التقييم للتنبؤ بارتباط الرسم البياني المعرفي باستخدام شبكة عصبية تلافيفية من طبقتين من الرسم البياني تم تقييم المقاييس عن طريق تقسيم حواف الرسم البياني إلى 85٪ تدريب ، و 5٪ تحقق ، و 10٪ مجموعات بيانات اختبار. تشير الدقة إلى نسبة التنبؤات المصنفة بشكل صحيح. تشير الدقة إلى نسبة التنبؤات الإيجابية الصحيحة بين جميع التنبؤات الإيجابية. يقيس الاستدعاء نسبة التنبؤات الإيجابية الصحيحة بين الحواف الإيجابية الفعلية. درجة F1 هي الوسط التوافقي للدقة والاستدعاء ، وتحقيق التوازن بين المقياسين. تقوم AUROC بتقييم قدرة النموذج على التمييز بين التنبؤات الإيجابية والسلبية. تحدد AUPRC المفاضلة بين الدقة والاستدعاء عبر عتبات مختلفة. مع جميع المقاييس ، تشير القيم الأعلى إلى أداء أفضل للنموذج.
الملف التكميلي 1: يوضح هذا الملف تفاصيل استجابة النموذج الكاملة من RUGGED ومقارنة مع GPT-4o. يعرض القسم أ التفاعل الكامل بين الإنسان والحاسوب مع RUGGED ، ويتوسع في نهج سلسلة الاستعلام الموضح في الشكل 3 ويقدم الاستجابة الكاملة بما يتجاوز الملخص الموضح في الشكل 4. يقوم القسم ب بتقييم استجابات GPT-4o دون استرجاع مقابل RUGGED ، وتقييم السمات مثل الدقة والعمق وتسجيل الثقة وموثوقية الأدلة والتكلفة. الرجاء النقر هنا لتنزيل هذا الملف.