Method Article

توليف المعرفة المسندة بالأدلة والتحقق من صحة الفرضيات: التنقل في قواعد المعرفة الطبية الحيوية عبر الذكاء الاصطناعي القابل للتفسير والأنظمة الوكيلة

DOI:

10.3791/67525

June 13th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تصف هذه المقالة RUGGED (الاسترجاع تحت تمييز المرض القابل للتفسير الموجه بالرسم البياني) ، والذي يدمج استدلال نموذج اللغة الكبير (LLM) مع التوليد المعزز بالاسترجاع (RAG). وهو يستمد الأدلة من قواعد المعرفة الطبية الحيوية المنسقة من قبل الخبراء والمنشورات الطبية الحيوية التي راجعها الأقران لتجميع معرفة جديدة من المعلومات الحديثة ، وتحديد التنبؤات القابلة للتفسير والقابلة للتنفيذ ، وتحديد الاتجاهات الواعدة للتحقيقات القائمة على الفرضيات.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يشكل حجم المعرفة الطبية الحيوية ، الذي يمتد عبر الأدبيات العلمية وقواعد المعرفة المنسقة ، تحديا كبيرا للمحققين في معالجة النتائج وتقييمها وتفسيرها بشكل فعال. ظهرت نماذج اللغة الكبيرة (LLMs) كأدوات قوية للتنقل في هذا المشهد المعرفي المعقد ولكنها قد تنتج استجابات هلوسة. يعد التوليد المعزز بالاسترجاع (RAG) ضروريا لتحديد المعلومات ذات الصلة لتعزيز الدقة والموثوقية. يقدم هذا البروتوكول RUGGED (الاسترجاع تحت تمييز المرض القابل للتفسير الموجه بالرسم البياني) ، وهو سير عمل شامل مصمم لدعم تكامل المعرفة ، والتخفيف من التحيز ، واستكشاف اتجاهات البحث الجديدة والتحقق من صحتها. يتم تجميع المعلومات الطبية الحيوية من المنشورات وقواعد المعرفة وتحليلها من خلال تحليل ارتباط التنقيب عن النصوص ونماذج التنبؤ بالرسم البياني القابلة للتفسير للكشف عن العلاقات المحتملة بين الأدوية والأمراض. تم دمج هذه النتائج ، جنبا إلى جنب مع مجموعة النص المصدر وقواعد المعرفة ، في إطار يستخدم LLMs المحسنة ب RAG لتمكين المستخدمين من استكشاف الفرضيات والتحقيق في الآليات الأساسية. توضح حالة الاستخدام السريري قدرة RUGGED على تقييم علاجات اعتلال عضلة القلب غير المنتظم (ACM) واعتلال عضلة القلب التوسعي (DCM) والتوصية بها ، وتحليل الأدوية الموصوفة للتفاعلات الجزيئية والتطبيقات الجديدة المحتملة. تقلل المنصة من هلوسة LLM ، وتسلط الضوء على الرؤى القابلة للتنفيذ ، وتبسط التحقيق في العلاجات الجديدة.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تعد عملية استكشاف الفرضيات في المؤسسة الطبية الحيوية ضرورية للكشف عن الترابط الجديد بين الجزيئات والأدوية والأمراض الكامنة وراء التسبب في المرض وإطلاق العنان للإمكانات العلاجية1،2. تستمد هذه العملية الأدلة من المعرفة الطبية الحيوية الحالية ، وتوليف النتائج الجديدة بناء على الخيوط المنطقية المضمنة في الأدبيات التي راجعها الأقران (على سبيل المثال ، >36 تقريرا من PubMed) ، ودمج الأدلة المنسقة عالية الثقة المتجذرة بين قواعد المعرفة الطبية الحيوية. تقلل التطورات الحديثة من الجهد اليدوي الشاق من خلال تطبيق التنقيب عن النصوص على الأدب3،4،5 بالإضافة إلى استخدام التحليلات المستندة إلى الرسم البياني6،7،8،9 لتجميع المعلومات ذات الصلة والكشف عن طرق جديدة للتحقيق. على الرغم من هذه الجهود ، غالبا ما لا تدعم الأساليب الحالية الفهم السياقي العميق بسبب البيانات المجزأة. علاوة على ذلك ، فإنهم يفتقرون إلى القدرة على استخلاص الاستنتاجات القائمة على الأدلة واستكشاف فرضيات جديدة بشكل تفاعلي.

تلقي التطورات الأخيرة في نماذج اللغات الكبيرة (LLMs) ضوءا جديدا على هذه التحديات ، مما يدل على فهم السياق عالي المستوى من خلال التدريب على كميات هائلة من المعلومات عبر تخصصات متعددة10،11،12. في المجال الطبي الحيوي ، أظهر LLMs دورا واعدا في استخراج معلومات المريض13 والإجابة على الأسئلة السريريةالعامة 14،15 ، في حين أن التطبيقات في الإجابة على الأسئلة الخاصةبالمجال 16 والمرافق في الرعاية السريرية الأولية17 لا يزال يتعين استكشافها. تظهر هذه النماذج القدرة على التفكير واستخلاص الاستنتاجات من مجموعات البيانات المعقدة ، مما يجعلها مناسبة لإجراء استكشاف الفرضيات وتوليف المعرفة. علاوة على ذلك ، تتميز بعض النماذج بتفاعل شبيه بالدردشة لإشراك المستخدمين وتمكين الاستكشاف الديناميكي للموضوعات ، متجاوزة الحدود التقليدية لمحركات البحث القائمة على الاستعلام وقواعد المعرفة18،19.

بالإضافة إلى هذه الإمكانات ، تواجه LLMs تحديات كبيرة ، مثل الهلوسة المحتملة للمعلومات ، وإظهار ثقة غير مبررة في التفسيرات التي يحتمل أن تكون غير دقيقة ، والافتقار إلى قابلية التفسير ، والتعرض للمحتوى المتحيز أو غير المناسب20،21،22،23،24. يتم تطبيقها مباشرة على توجيه عملية صنع القرار السريري ، فإن الاستجابات والتنبؤات المشتقة من LLM لها مخاطر عالية. قد تؤدي أي أخطاء إلى تجارب معملية مكلفة أو تؤثر سلبا على المسارات الصحيةللمريض 25،26. وبالتالي ، فإن استجابات LLM الموثوقة والجديرة بالثقة أمر بالغ الأهمية ، حيث يجب أن تكون نصائحهم متجذرة بقوة في الأدلة. في هذه السيناريوهات ، لا تعد قابلية التفسير ترفا ولكنها ضرورة لفهم سبب قيام هذه النماذج بالتنبؤات التي تقوم بها.

تحقيقا لهذه الغاية ، فإن Retrieval-Augmented Generation (RAG) هو نظام مصمم لتقليل هلوسة LLM ، مما يؤسس استجابات LLM في الأدلة لتعزيز دقتها وموثوقيتها27،28. يتضمن هذا النهج عادة استرجاع المقاطع النصية ذات الصلة ، مثل دمج LLM (على سبيل المثال ، ChatGPT) مع PubMed ، مما يسمح بتحديد الاستشهادات ذات الصلة لاستفسارات المستخدم29،30. لا يقتصر على النص ، يظهر الاسترجاع على الرسوم البيانية المعرفية (KGs) وعدا في التطبيق على LLMs لمهام مثل التحقق من الحقائق31،32،33 ، والتفكير الشفاف34،35،36 ، وترميز المعرفة37 ، وتحسين الإجابة على الأسئلة38 ، وإكمال الرسوم البيانية المعرفية39. من خلال ترميز المعلومات الواقعية من مصادر تم التحقق منها ، تعمل KGs على تحسين دقة وشفافية وموثوقية استجابات LLM. تستفيد تقنيات التنبؤ بالارتباط داخل هذه الرسوم البيانية من التعلم العميق لتحديد العلاقات المخفية سابقا بين الجزيئات والأدوية والأمراض5،40،41. تعمل التطورات الحديثة في تنبؤات الذكاء الاصطناعي القابلة للتفسير على تعزيز شفافية وقابلية تفسير مهام التنبؤ بالارتباط هذه ، مما يوفر دعما محتملا لتفسير الفرضيات الطبية الحيوية كوسيلة قابلة للتطبيق للتحقيق42،43،44. تضمن هذه التطورات أن الاستجابات التي تم إنشاؤها بواسطة LLM متوازنة ومستمدة من الأدلة ، مما يعزز بشكل كبير قابليتها للتطبيق في المشاريع الطبية الحيوية.

يقدم هذا البروتوكول RUGGED (الاسترجاع تحت تمييز المرض القابل للتفسير الموجه بالرسم البياني) كسير عمل يمكن الوصول إليه وفعال لاستكشاف الرؤى العلاجية السريرية والتحقق من صحتها (الشكل 1). يستفيد بروتوكول سير العمل هذا من الموارد الهائلة للأدبيات الطبية الحيوية وقواعد المعرفة لاستخراج المعلومات ذات الصلة والتحقق من صحتها ، مما يتيح عمليات الاسترجاع المصممة خصيصا للاستعلام (الشكل 2). يتم استخدام نموذج تنبؤ بالذكاء الاصطناعي القابل للتفسير للكشف عن رؤى قابلة للتفسير وقابلة للتنفيذ من المعرفة الطبية الحيوية الحالية ، وبالتالي تعزيز شفافية وفائدة النماذج التنبؤية. يعمل سير العمل المكتمل على تبسيط استكشاف الرسوم البيانية المعرفية والتنبؤات النموذجية عبر LLMs الممكنة ل RAG ، مما يسهل التفاعلات البديهية والمستنيرة للمحققين والأطباء والمهنيين السريريين.

يضع هذا القسم الأساس للبروتوكول ، مع خطوات تنفيذ هذا النهج الموضحة في القسم التالي. بعد ذلك ، يتم عرض حالة الاستخدام السريري الانتقالي لإثبات هذا النهج ، المطبق على تقييم الأدوية للتفاعلات الجزيئية بالإضافة إلى الاستراتيجيات العلاجية لطب القلب والأوعية الدموية. أخيرا ، تمت مناقشة الآثار المترتبة على هذا البروتوكول ومناقشته.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تم تطوير هذا البروتوكول في Python 3.10 وتم تنفيذه كحاوية Docker في Windows. تستند الأوامر المتوفرة إلى بيئة Unix داخل حاوية Docker. البرنامج متاح في https://github.com/pinglab-utils/RUGGED. يعرض الجدول 1 تقديرا للوقت الحسابي لجميع الخطوات في البروتوكول.

1. تثبيت البرنامج

  1. قم بتثبيت البرنامج المطلوب باتباع الإرشادات الواردة في جدول المواد.
    ملاحظة: يتطلب هذا البروتوكول التحكم في الإصدار والحاويات وقاعدة بيانات الرسم البياني وخدمة (خدمات) نموذج اللغة الكبيرة (LLM). التحكم في الإصدار والحاويات اختياريان ولكن يمكن تبسيطهما عملية الإعداد. يمكن استبدال قاعدة بيانات الرسم البياني وخدمات LLM بأدوات مماثلة إذا كان المستخدم بارعا تقنيا.
    1. تكوين الشبكات بين الحاويات. قم بتكوين حاويات Docker ليتم توصيلها بخدمات أخرى على الجهاز (على سبيل المثال، حاويات Docker الأخرى). اكتب الأمر التالي في المحطة الطرفية: docker network create rugged_network
  2. إعداد خدمات نماذج اللغات الكبيرة (LLMs). اختر خدمة LLM المناسبة لحالة الاستخدام ، من بين خدمات LLM التجارية أو الخدمات من نموذج محلي يعمل على جهاز المستخدم. تأكد من تحديد خدمة LLM واحدة على الأقل ، على الرغم من أنه يمكن خلط الوكلاء ومطابقتهم للاستفادة من النماذج المختلفة.
    1. ابدأ خدمة LLM المحلية. إذا كنت تستخدم Ollama باستخدام واجهة مستخدم رسومية (GUI)، فقم بتشغيل واجهة المستخدم الرسومية القابلة للتنفيذ (على سبيل المثال، ollama.exe). إذا كنت تستخدم Docker ، فقم بتشغيل: 'docker run -name ollama --net rugged_network d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama'. إذا كنت تستخدم Docker مع تسريع GPU ، فتأكد من تثبيت برنامج تشغيل GPU وتشغيله: 'docker run -name ollama --net rugged_network -d --gpus = all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama'.
    2. تهيئة نموذج LLM المحلي. حدد النموذج الذي يجب استخدامه من بين النماذج المدعومة (على سبيل المثال ، موصى به: llama3 ، mistral ، mixtral. في حالة استخدام Docker ، اكتب "docker exec run ollama run " في سطر الأوامر. إذا كنت تستخدم واجهة المستخدم الرسومية Ollama GUI، فاكتب "ollama run "، واستبدل باسم الطراز لكل منها.
  3. بدء تشغيل خدمة قاعدة بيانات الرسم البياني. حدد خدمة قاعدة بيانات الرسم البياني بين حاوية Docker أو تطبيق سطح المكتب أو خدمة الويب عبر الإنترنت. اتبع تعليمات التثبيت في المواد التكميلية لإكمال الإعداد.
  4. قم بإعداد البيئة الوعرة. تحقق من صور Docker التي تم تنزيلها عن طريق كتابة صور عامل الإرساء. تأكد من إدراج جميع صور Docker من الخطوة السابقة. قم بتشغيل هذه الأوامر في المحطة الطرفية لتنزيل صورة ورمز RUGGED Docker:
    عامل الإرساء سحب pinglabutils / وعرة: الأحدث
    ملاحظة: https://github.com/pinglab-utils/RUGGED استنساخ git
    1. تكوين خدمة LLM التجارية. إذا كنت تستخدم خدمات LLM التجارية ، فتأكد من أن الحساب ومفتاح واجهة برمجة التطبيقات المرتبط به لديهم أموال كافية. قم بتعديل ملفات التكوين RUGGED عن طريق تحرير ملف التكوين في 'RUGGED/config/openai_key.txt' وإضافة مفتاح واجهة برمجة التطبيقات إلى الملف.
    2. تكوين الوكلاء التجاريين. حدد وكلاء LLM داخل نظام RUGGED الذين سيستخدمون هذه الخدمة. عدل ملف التكوين في "RUGGED/config/llm_agents.json" وقم بتحديث حقول العامل لتحديد إصدار النموذج. الموديلات الموصى بها: gpt-3.5-turbo ، gpt-4o.
    3. تكوين خدمة LLM المحلية. إذا كنت تستخدم نقطة نهاية خدمة مختلفة عن نقطة النهاية الافتراضية ل Ollama عند "http://localhost:11434"، فقم بتعديل وتحديث الحقل "OLLAMA_URI" داخل ملفات التكوين في "RUGGED/config/ollama_config.json".
    4. تكوين وكلاء LLM المحليين. حدد وكلاء LLM داخل نظام RUGGED الذين سيستخدمون هذه الخدمة. عدل ملف التكوين في 'RUGGED/config/llm_agents.json' وقم بتحديث حقول العامل لتحديد 'ollama' كنموذج محدد.
    5. تكوين نقطة نهاية قاعدة بيانات الرسم البياني. إذا تم تعديله من كلمة المرور واسم المستخدم الافتراضيين ل Neo4j، فقم بتحرير ملف التكوين "RUGGED/config/neo4j_config.json" لتحديث حقول "uri" و"اسم المستخدم" و"كلمة المرور".
  5. ابدأ تشغيل الخدمة RUGGED عن طريق تشغيل الأمر:
    docker run --name rugged -it --net rugged_network --gpus=all -v \RUGGED\:/data ping-lab-
    الاستعمالات: وعرة / بن / باش
    ملاحظة: للتحقق من أن الخدمات تعمل كما هو متوقع، انتقل إلى الدليل RUGGED وقم بتنفيذ الخطوات 1.4.1. من خلال الخطوة 1.4.4. في هذه النافذة الطرفية.
    1. التحقق من وظائف خدمة LLM. انتقل إلى مجلد الاختبار في الدليل RUGGED وقم بتنفيذ الأوامر التالية للتحقق من عمل خدمات OpenAI و/أو Ollama:
      بايثون test_openai.py
      بايثون test_ollama.py
    2. التحقق من وظيفة خدمة التعرف على الكيانات المسماة. قم بتنفيذ "test_ner.py" للتحقق من أن التعليمات البرمجية للتعرف على الكيان المسمى لاستعلامات المستخدم تعمل بشكل صحيح.
    3. تحقق من وظائف خدمة Neo4j. قم بتنفيذ البرامج النصية للاختبار للتحقق من أن خدمة Neo4j تعمل كما هو متوقع عن طريق كتابة "python test_neo4j.py"
    4. (اختياري) تحقق من وصول HTTP إلى قاعدة بيانات الرسم البياني. افتح متصفح ويب وقم بزيارة واجهة مستخدم Neo4j.
      ملاحظة: بالنسبة إلى Neo4j في Docker أو Desktop، يكون عنوان URL الافتراضي هو "http://localhost:7474". بالنسبة إلى Neo4j AuraDB، استخدم الارتباط المقدم أثناء الإعداد.
  6. (اختياري) استكشاف المشاكل وحلها. تأكد من التحقق من الخدمات التي تدعم RUGGED أثناء إعداد البرنامج لتوقع المشكلات. أستكشاف أخطاء أي اختبارات غير ناجحة وإصلاحها من الخطوة 1.4. إذا كانت موجودة، فاتبع رسائل الخطأ التي تم الإبلاغ عنها بواسطة البرامج النصية للاختبار التي تصف المشكلات.
    1. تحقق من حاويات Docker. تأكد من تشغيل جميع حاويات Docker باستخدام "docker ps" في المحطة الطرفية، بما في ذلك حاوية عامل الإرساء القوي وحاوية عامل الإرساء Neo4j (اختيارية) وحاوية عامل الإرساء Ollama (اختياري).
    2. تحقق من منافذ الشبكات. بالنسبة لخدمات Docker، تأكد من فتح المنافذ الصحيحة وتحقق من السجلات باستخدام "docker logs neo4j" أو "docker logs ollama".
      ملاحظة: بشكل افتراضي ، يستخدم Neo4j المنافذ 7474 ل http و 7687 لواجهة الترباس الخاصة به. يستخدم Ollama المنفذ 11434.
    3. التحقق من تطبيقات الخدمة. بالنسبة للتطبيقات المثبتة مباشرة على الجهاز (على سبيل المثال ، Ollama و Neo4j Desktop) ، افتح التطبيقات للتأكد من تشغيلها.
    4. التحقق من خدمات الويب. بالنسبة إلى Neo4j AuraDB ، قم بتسجيل الدخول إلى موقع الويب وتحقق من تشغيل الخدمة.
    5. تحقق من قواعد جدار الحماية. قم بتعديل قواعد جدار حماية الجهاز للتأكد من أن جدار الحماية لا يحظر أي خدمات خارجية.
    6. أعد تشغيل الجهاز. إذا لم يتم حل المشكلات، فأعد تشغيل الجهاز وأعد المحاولة من الخطوة 1.5.1.
    7. افتح مشكلة. إذا استمرت المشكلات، فيرجى فتح مشكلة على GitHub القوي (https://github.com/pinglab-utils/RUGGED).

2. الوصول إلى المعرفة الطبية الحيوية ومعلومات الاستخراج

ملاحظة: تحدد هذه الخطوات خطي أنابيب لاستخراج المعرفة باعتبارهما المعلومات الأساسية التي تشكل نظام التوليد المعزز للاسترجاع (RAG) من RUGGED: (1) خط أنابيب تعدين النص الطبي الحيوي CaseOLAPLIFT 5 و (2) سير عمل إنشاء الرسم البياني المعرفيKnow2BIO 9. لاستخدام RUGGED مع البيانات المخصصة، انتقل إلى الخطوة 4.

  1. استخراج الأدب الطبي الحيوي. تحديد المستندات ذات الصلة والعلاقات عالية المستوى بين البروتين والمرض باستخدام CaseOLAP LIFT ، وهو بروتوكول حسابي مصمم للتحقيق في البروتينات الخلوية الفرعية وارتباطاتها بالمرض من خلال التنقيب عن نصوص الأدبيات الطبية الحيوية. أكمل هذه الخطوة لإعداد المعلومات الضرورية لإبلاغ سير عمل RAG بنتائج تحليلات مستهدفة من هذه التقارير.
    1. قم بتشغيل تحليل التنقيب عن النص CaseOLAP LIFT. تفضل بزيارة بروتوكول CaseOLAP LIFT JoVE (الخطوات من 4 إلى 5 ليست ضرورية لهذا التحليل).
    2. نقل المستندات النصية المعالجة. تأكد من أن المستندات الطبية الحيوية التي تم تحليلها (pubmed.json) ونصها الكامل (pmid2full_text_sections.json) من الخطوة 3 موجودة في مجلد بيانات CaseOLAP LIFT . انقل هذه الملفات إلى مجلد البيانات القوية باستخدام الأوامر التالية:
      mv / caseolap_lift / caseolap_lift_shared_folder / data / pubmed.json / RUGGED / بيانات / text_corpus
      mv / caseolap_lift / caseolap_lift_shared_folder / data / pmid2full_text_sections.json / RUGGED / data / text_corpus
    3. نقل نتائج التنقيب عن النص. تحقق من إنشاء ملف الرسم البياني المعرفي (merged_edge_list.tsv) مع ارتباطات مرض البروتين في مجلد النتيجة/كجم. تحقق من أن عدد الاقترانات كما هو متوقع، اعتمادا على الإعدادات المحددة من الخطوات من 1 إلى 3 (انظر الجدول 2 على سبيل المثال). انقل هذا الملف إلى مجلد بيانات RUGGED:
      mv / caseolap_lift / caseolap_lift_shared_folder / result / graph_data / merged_edge_list.tsv / RUGGED / data / knowledge_graph
  2. استخراج المعرفة الطبية الحيوية. قم بتجميع رسم بياني للمعرفة الطبية الحيوية باستخدام برنامج Know2BIO ، الذي يدمج البيانات من 30 قاعدة معرفية طبية حيوية. أكمل هذه الخطوة لضمان معالجة المعلومات الخاصة بهذه العلاقات الطبية الحيوية والبيانات متعددة الوسائط لدعم سير عمل RAG النهائي.
    1. مستودع استنساخ Know2BIO. استنساخ المستودع عن طريق الكتابة في سطر الأوامر ، باستخدام الأمر أدناه. انتقل إلى مستودع Know2BIO.
      git استنساخ https://github.com/Yijia-Xiao/Know2BIO.git.
    2. إعداد البيانات والتراخيص. انتقل إلى مجلد مجموعة البيانات واتبع التعليمات الموجودة في الملف "README.md". أكمل الإنشاء الضروري لحسابات المستخدمين للوصول إلى الموارد المختلفة عبر الإنترنت (على سبيل المثال ، قاموس المرادفات UMLS ، بنك الأدوية).
    3. تنزيل موارد قاعدة المعرفة. قم بتنفيذ البرنامج النصي "python create_edge_files.py" ومراقبة تقدم مسار استخراج الرسم البياني المعرفي. تأكد من إنشاء ملف .csv في مجلد "Know2BIO/dataset/output" الذي يمثل العلاقات الطبية الحيوية.
    4. بناء الرسم البياني المعرفي. قم بتنفيذ البرنامج النصي "python prepare_kgs.py" لدمج المعلومات المستخرجة في الخطوة السابقة لدمج العلاقات المستخرجة تلقائيا في رسم بياني معرفي موحد، وتنسيق الرسم البياني حسب مصدر البيانات والمجال.
    5. تحقق من الإخراج. تحقق من وجود الملفات المكتملة داخل الملف "whole_kg.txt" في الدليل "Know2BIO/dataset/know2bio_dataset". تأكد من أن عدد الحواف في الملف كما هو متوقع ؛ انظر الجدول 3 ، الذي نتج عنه أكثر من 6 ملايين حافة. انتقل إلى الخطوة التالية ، حيث أن الخطوات المتبقية في الملف التمهيدي Know2BIO غير مطلوبة لهذا التحليل.
      ملاحظة: كانت العلاقات من Know2BIO في الجدول 3 مصادر من 31 مصدرا ، بما في ذلك ATC (منظمة الصحة العالمية) و Bgee45 و CTD46 و ClinGen47 و ClinVar48 و DOID49 و DisGeNET50 و DrugBank51 و GRNdb52 و Gene Ontology53 و HGNC54 و Hetionet3 و Inxight Drugs55 و KEGG56 و MeSH57 و Mondo58 و MyChem.info59 و MyDisease.info59 ، MyGene.info59 ، OMIM60 ، PathFX61 ، PharmGKB62 ، PubMed ، Reactome63 ، SIDER64 ، SMPDB65 ، STRING66 ، TTD67 ، UMLS68 ، Uberon69 ، و UniProt70.
    6. نقل نتائج الرسم البياني المعرفي. انقل الملف إلى "/data/knowledge_graph/" من الدليل RUGGED.
      mv / Know2BIO / dataset / know2bio / whole_kg.txt / RUGGED / data / knowledge_graph
  3. إنشاء رسم بياني معرفي مشترك. قم بدمج الرسم البياني من الخطوة السابقة مع علاقات البروتين والأمراض عالية المستوى من التنقيب عن النصوص من الخطوة 2.1 في رسم بياني معرفي موحد واحد.
    1. تحقق من النتائج في الدليل RUGGED. تحقق من وجود ملف نتيجة إنشاء الرسم البياني المعرفي (whole_kg.txt) ونتائج علاقة التنقيب عن النص (merged_edge_list.tsv) في الدليل knowledge_graph داخل مجلد البيانات.
    2. دمج النتائج. قم بتنفيذ البرنامج النصي "combine_kg_results.py" لدمج العلاقات والكيانات المستخرجة من تحليل التنقيب عن النص وبناء الرسم البياني المعرفي في رسم بياني معرفي واحد متماسك. اتبع الأمر المثال أدناه:
      Python rugged / knowledge_graph / combine_kg_results.py ./data/knowledge_graph / merged_edge_list.tsv ./data/knowledge_graph / whole_kg.txt --output_dir ./data/rugged_knowledge_graph
  4. الرسم البياني المعرفي للتصفية (اختياري) عينة مجموعة فرعية من الرسم البياني المعرفي الذي سيتم استخدامه للتحليل التنبؤي. تحتفظ هذه الخطوة فقط بالعلاقات وثيقة الصلة وتقلل من الموارد الحسابية اللازمة لتنفيذ تنبؤات التعلم العميق.
    1. تحديد العقد ذات الصلة. تحديد الكيانات الطبية الحيوية ذات الأهمية للتحليل التنبؤي في الخطوة 3 من خلال مراجعة الرسم البياني المعرفي وتحديد العقد ذات الصلة.
      ملاحظة: يركز هذا البروتوكول على العقد المرضية لاعتلال عضلة القلب المنشأ (ACM) واعتلال عضلة القلب التوسعي (DCM) ، على النحو MeSH_Disease: D019571 و MeSH_Disease: D002311 ، على التوالي. يجب أن تكون العقد المستهدفة مصممة وفقا لحالة الاستخدام المقصودة.
    2. عينة من الرسم البياني المعرفي. استخدم البرنامج النصي "filter.py" لاستخراج الرسم البياني الفرعي للرسم البياني المعرفي الذي يمكن الوصول إليه داخل k-hop من العقد المحددة ذات الاهتمام. اتبع الأمر المثال أدناه ، والذي يقوم بتصفية الرسم البياني الذي يمكن الوصول إليه داخل عقدتين من عقد المرض المحددة:
      python ./rugged / knowledge_graph / kg_filter.py --k 2 - مرض "MeSH_Disease: D019571 ، MeSH_Disease: D002311" - input_file ./data / rugged_knowledge_graph / rugged_knowledge_graph_edges.csv - output_dir ./data / rugged_knowledge_graph / filtered_kg /.
      ملاحظة: تؤدي زيادة قيمة k-hop (--k) إلى توسيع نطاق البيانات داخل الرسم البياني لتحليل التنبؤ ولكنها تتطلب أيضا موارد حسابية أكبر.

3. تحليل التنبؤ القابل للتفسير

ملاحظة: قم بتنفيذ GNNExplainer44 على نموذج شبكة تلافيفية للرسم البياني للتنبؤ بالحواف المحتملة (العلاقات) في الرسم البياني المعرفي وتقديم رؤى حول الاقترانات غير المعروفة سابقا.

  1. تأكد من تشغيل حاوية Docker الراسخة. إذا تم إغلاق نافذة المحطة الطرفية السابقة، فاتصل بحاوية Docker باستخدام الأمر docker exec --it rugged /bin/bash. بمجرد الاتصال بحاوية Docker، انتقل إلى الدليل RUGGED.
  2. حدد الحافة (الحواف) المطلوب التنبؤ بها. قم بتوفير الحواف كأزواج من العقد في ملف .txt (على سبيل المثال ، edges_to_predict.txt). سيتم تصفية الحواف الموجودة بالفعل في الرسم البياني المعرفي من التنبؤات.
  3. قم بتشغيل البرنامج النصي لتحليل التنبؤ . حدد الحواف المراد التنبؤ بها والرسم البياني للمعرفة المدخلة كوسيطات سطر أوامر للتنبؤ. الوسيطات الرئيسية: -p (ملف المسار إلى الحواف) ، -i (الرسم البياني لمعرفة الإدخال) ، -o (دليل الإخراج) ، -n (أعلى التنبؤات ، على سبيل المثال ، 5) ، -k (الحواف العلوية للتصور ، على سبيل المثال ، 10). مثال على الأمر:
    Python Rugged / predictive_analysis / generate_explainable_prediction.py -o output -n 5 -k 10 -p ./output / edges_to_predict.txt -i ./data / rugged_knowledge_graph / filtered_kg / filtered_k2_edges.csv
  4. تقييم أداء النموذج. افحص الإخراج الطرفي أو ملف "output.log" الذي تم إنشاؤه من الخطوة السابقة لتقييم أداء النموذج استنادا إلى تقسيم الرسم البياني المعرفي الذي تمت تصفيته إلى مجموعات التدريب والتحقق من الصحة والاختبار بنسبة 85:5:10. اضبط وسيطات النموذج إذا لم يكن الأداء كما هو متوقع، باستخدام الجدول 4 كمثال.
  5. تحقق من أن النتائج موجودة في مجلد الإخراج. افحص نتائج النموذج في "prediction_results.csv" وافحص أعلى تنبؤات n داخل مجلد الإخراج. راجع أعلى n تنبؤات في مجلد الإخراج. لكل تنبؤ، يوضح تصور الرسم البياني الحواف الأكثر صلة التي تساهم في كل تنبؤ ودرجات أهميتها النسبية.
  6. نقل نتائج التحليل التنبؤي. بمجرد الرضا عن نتائج التحليل التنبؤي ، انقل النتائج إلى "البيانات / التنبؤات /" في الدليل القوي

4. توليد الفرضيات

  1. قم بالتوصيل بحاوية Docker الوعرة.
    1. تأكد من تشغيل حاوية Docker الراسخة. إذا تم إغلاق نافذة المحطة الطرفية السابقة، فقم بتوصيله بحاوية Docker.
    2. انتقل إلى الدليل RUGGED. بمجرد الاتصال، اكتب cd /workspace/RUGGED للانتقال إلى الدليل. قم بإصدار الخطوات المتبقية في نافذة سطر الأوامر هذه.
    3. تحقق من تشغيل الخدمات الداعمة. إذا كنت تستخدم Ollama و Neo4j في Docker، فتأكد من تشغيل الحاويات عن طريق كتابة "docker ps". كرر الخطوة 1.7 للتحقق من عمل الخدمات بشكل صحيح والخطوة 1.4 لاستكشاف المشكلات وإصلاحها إذا كانت موجودة.
  2. إعداد بيانات RAG. قم بإعداد الرسم البياني المعرفي ومجموعة النص للاسترداد.
    ملاحظة: يمكن استبدال هذه البيانات ببيانات يحددها المستخدم عن طريق وضع البيانات في دليلي "البيانات/knowledge_graph/" و"البيانات/text_corpus/" على التوالي. يجب أن تتبع هذه البيانات التنسيق من مستودع GitHub (https://github.com/pinglab-utils/RUGGED/tree/main/data).
    1. تحقق من الموارد. تأكد من وجود مجموعة النص في الدليل "data/text_corpus/"، والرسم البياني المعرفي مع ملف التنبؤات في التنقيب عن النص موجود في دليل data/knowledge_graph/، ونتائج التنبؤ في دليل data/predictions/ (من الخطوات 2.1.2.، 2.3.2.، و 3.5. على التوالي).
    2. تعبئة قاعدة بيانات الرسم البياني. قم بتنفيذ الأمر "python ./neo4j/prepare_neo4j.py" لإنشاء ميزات العقد والحواف والعقدة الضرورية.
    3. فهرس مجموعة النص. قم بتنفيذ الأمر "python ./text/prepare_corpus.py" لفهرسة مجموعة النص وتمكين RUGGED من استرداد المستندات النصية ذات الصلة بناء على استعلامات المستخدم عن طريق تقسيم المستندات إلى أقسام من 500 رمز مميز لإنشاء قاعدة بيانات متجهة باستخدام BART71.
    4. اختياري) اختبر استرجاع قاعدة بيانات الرسم البياني. أرسل استعلام اختبار إلى قاعدة بيانات Neo4j للتأكد من ملؤه بشكل صحيح ويمكنه إرجاع النتائج المتوقعة. تحقق من أن الإخراج يطابق العقد والعلاقات المتوقعة في قاعدة البيانات. مثال على الأمر:
      python ./test / test_neo4j_retrieval.py --query "MATCH (n) RETURN n LIMIT 5"
    5. (اختياري) اختبار استرجاع مجموعة RAG. أرسل استعلام اختبار إلى مجموعة نص RAG للتأكد من أن نظام استرجاع النص يعمل. تحقق من أن المستندات التي تم استردادها ذات صلة بالاستعلام وأن عمليات التضمين تعمل كما هو متوقع. مثال على الأمر: python ./test/test_literature_retrieval.py --query "ما هي المستندات المرتبطة باستخدام حاصرات بيتا لعلاج أمراض القلب والأوعية الدموية؟"
  3. تفاعل مع RUGGED. ابدأ تشغيل RUGGED في واجهة سطر الأوامر للتفاعل مع النظام. قم بتنفيذ الأمر "python rugged.py". الاستعلام عن النظام لاسترداد المعلومات ذات الصلة باستخدام أوامر محددة للتفاعل مع الرسم البياني المعرفي ومجموعة النص.
    1. الاستعلام عن الرسم البياني المعرفي. استخرج معلومات محددة من الرسم البياني المعرفي عن طريق طرح السؤال بلغة طبيعية ، بدءا من الكلمة الرئيسية "استعلام". على سبيل المثال:
      استعلام "ما هي الأدوية الموصوفة حاليا المصنفة على أنها حاصرات بيتا ، والأدوية المضادة لاضطراب النظم ، والأدوية المضادة للليف؟"
    2. استكشاف التنبؤات. استكشف تحليلات التنبؤ بالروابط من الخطوة 3، واطلب البحث عن علاقة معينة، تؤدي إلى الكلمة الرئيسية "توقع". على سبيل المثال:
      توقع ، "أي من هذه الأدوية يمكن استخدامها لعلاج ACM و / أو DCM غير المعروف حاليا؟"
    3. استكشف استرجاع الأدبيات. استكشف المستندات المتعلقة بموضوع طبي حيوي محدد من الخطوة 2. اطرح السؤال بلغة طبيعية ، مع الكلمة الرئيسية "بحث". على سبيل المثال:
      البحث ، "ما هي أدلة الأدبيات التي تدعم الادعاء بأن هذه الأدوية المتوقعة يمكن استخدامها لعلاج ACM و / أو DCM؟"
    4. تكرار الاستعلام وتحسينه. قم بالرد مباشرة في سطر الأوامر لتكرار الاستفسارات وتحسينها باستخدام واجهة RUGGED الشبيهة بالدردشة. ارجع إلى محادثات نظام المستخدم السابقة لمراجعة الأسئلة والاستعلامات وتحسينها.
    5. أعد تشغيل أوامر سايفر في Neo4j. (اختياري) قم بتنقيح نتائج استعلام الرسم البياني المعرفي عن طريق ضبط الأمر Cypher المتوفر المستخدم لاسترداد المعلومات. أعد تشغيل هذا الأمر أو عدله من خلال زيارة واجهة مستعرض Neo4j من الخطوة 1.4.4 (على سبيل المثال ، في http://localhost:7474). الصق أوامر Cypher وتعديلها حسب الحاجة لتحسين الاستعلامات وجمع رؤى أكثر تحديدا.
    6. تلخيص المحادثة. راجع المعلومات المستردة ولخص المحادثة مع RUGGED. اكتب الكلمة الأساسية تلخيص لإخراج ملخص للتفاعل إلى ملف نصي لتحليله لاحقا. سيتم عرض استجابة النص الكامل في الجهاز الطرفي.
    7. قم بإجراء مراجعة بشرية في الحلقة لتعزيز دقة المخرجات من خلال فحص استجابات النظام وتعديلها من أجل سهولة القراءة والإيجاز قبل وضع اللمسات الأخيرة على الملخص.
    8. مراجعة سجلات الدردشة. افحص النص الكامل للتفاعل في مجلد السجل في RUGGED. احتفظ بهذه الأوامر والمحادثات الوسيطة بين وكلاء LLM داخل RUGGED لاستكشاف الأخطاء وإصلاحها وقابلية التكرار.
  4. إيقاف التشغيل وإعادة التشغيل الخشنة.
    1. الحصول على معرفات حاوية Docker. استخدم الأمر "docker ps" لإدراج جميع الحاويات قيد التشغيل والحصول على معرفات الحاويات ل RUGGED و Neo4j و Ollama. بالنسبة لكافة الأوامر التالية، استبدل و و بمعرفات الحاوية الفعلية.
    2. أوقف حاويات Docker. قم بإيقاف تشغيل RUGGED وحاويات Docker المقترنة باستخدام معرفات الحاويات الخاصة بها.
      محطة docker
      محطة docker
      محطة docker
      ملاحظة: يوصى بإيقاف هذه الحاويات قبل إيقاف تشغيل الجهاز لمنع فقدان البيانات المحتمل وضمان إغلاق جميع العمليات بشكل صحيح.
    3. أعد تشغيل حاويات Docker. لإعادة تشغيل نظام RUGGED، استخدم معرفات الحاويات لبدء تشغيل حاويات Docker الضرورية.
      بدء Docker
      بدء docker
      بدء عامل الإرساء
    4. أعد التوصيل بشبكة Docker. إذا لزم الأمر، استخدم هذه الأوامر لإعادة توصيل الحاويات بالشبكة.
      اتصال شبكة Docker rugged_network
      اتصال شبكة Docker rugged_network
      اتصال شبكة Docker rugged_network
    5. التحقق من وظائف الخدمة. عند إعادة التشغيل، كرر الخطوات 1.4-1.5 للتأكد من أن البرنامج يعمل كما هو متوقع.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تم الحصول على هذه النتائج التمثيلية باتباع الإجراء المبين في هذا البروتوكول. تم إجراء تحليل ارتباط التنقيب عن النص باتباع بروتوكول CaseOLAP LIFT5 مع المعلمات الافتراضية ، ودراسة ثماني فئات واسعة من أمراض القلب والأوعية الدموية72 وارتباطها ببروتينات الميتوكوندريا (GO: 0005739). في المجموع ، تم تحديد 635,696 تقريرا حتى مايو 2024 على أنها ذات صلة بهذه الأمراض. من بينها ، تم تحديد 4,655 ارتباطا بأمراض البروتين عالية الثقة لإبلاغ التحليلات النهائية تم إنشاء رسم بياني للمعرفة الطبية الحيوية باستخدام رمز البرنامج من Know2BIO باستخدام الإعدادات الافتراضية في مايو 20249. يتكون الرسم البياني المعرفي الناتج من 219,450 عقدة ، و 6,323,257 حافة ، بالإضافة إلى ميزات العقدة ل 189,493 عقدة مع أوصاف العقدة ، وتسلسل البروتين / الجينات ، والتركيب الكيميائي ، وما إلى ذلك حيثما كان ذلك متاحا. يتم عرض تقدير الوقت الحسابي لجميع الخطوات في البروتوكول في الجدول 1.

تمت تهيئة نظام RUGGED من خلال إنشاء قواعد بيانات المتجهات لكل من عقد الرسم البياني المعرفي والميزات بالإضافة إلى المنشورات ذات الصلة بالأمراض القلبية الوعائية. تمت معالجة جميع عقد الرسم البياني المعرفي والحواف وميزات العقدة بحجم مقطع من 20 رمزا مميزا باستخدام نموذج تضمين BART71 للتحضير للبحث في متجهات RAG. وبالمثل ، تمت معالجة المساهمات الأصلية ومقالات المراجعة باستخدام حجم مقسم من 500 رمز مميز ونموذج تضمين BART للتحضير للبحث عن متجهات RAG. لاسترجاع الأدبيات ، تم تلخيص منشورات النص الكامل التي يزيد عددها عن 500 رمز هرمي بناء على الأقسام الفردية للمنشور بواسطة نموذج تضمين BART. تم استخدام نموذج GPT-4o لوكلاء LLM المتبقين في النظام.

تعرض هذه النتائج التمثيلية مثالا على حالة استخدام للتحقيق في العلاجات الدوائية المحتملة لاعتلال عضلة القلب المسبب لاضطراب النظم القلبي (ACM) واعتلال عضلة القلب التوسعي (DCM) ، والتي تم تحديدها على أنها MeSH_Disease: D019571 و MeSH_Disease: D002311 ، على التوالي. تم توضيح سلسلة من الاستفسارات في الشكل 3 ، مع أمثلة مميزة للردود النموذجية الموضحة في الشكل 4 ، والرد الكامل المبلغ عنه في الملف التكميلي 1 ، القسم أ. تم تكييف اتجاه الاستفسار مع الردود التي تم التحقق من صحتها من قبل المحققين ، وصياغة الاستفسارات اللاحقة بناء على نتائج الردود السابقة. كشف التحليل عن 11 دواء مرشحا مصنفا تحت حاصرات بيتا ومضادات اضطراب النظم. تم تقييم السبل الجديدة للعلاج العلاجي باستخدام نموذج التنبؤ بارتباط الشبكة العصبية التلافيفية للرسم البياني على مجموعة فرعية من الرسم البياني المعرفي الكامل ، بما في ذلك العقد ضمن قفزة واحدة من المرض وعقد الدراسة والأدوية وترابطها ، مع مقاييس التقييم المذكورة في الجدول 4. تم فحص أفضل 10 حواف ذات صلة لكل تنبؤ بواسطة النموذج بواسطة وحدة شرح الرسم البياني ، GNNExplainer44 ، لتحديد العقد والحواف العلوية التي تساهم في كل تنبؤ ، على التوالي. تقدر التكلفة الإجمالية لاستخدام LLM التجاري لجميع خطوات بروتوكول RUGGED لحالة الاستخدام هذه بمبلغ 1.50 دولار في وقت كتابة هذا التقرير.

figure-results-1
الشكل 1: الاسترجاع بموجب سير عمل التمييز المرضي القابل للتفسير الموجه بالرسم البياني (RUGGED). يتكون RUGGED من أربعة مكونات أساسية: (1) تجميع البيانات ومعالجتها من مصادر أخلاقية ومدارة بشكل احترافي (على سبيل المثال ، PubMed وقواعد المعرفة الطبية الحيوية المنسقة) ، (2) دمج نتائج البحوث التي تمت مراجعتها من قبل الأقران في رسم بياني معرفي موحد ، (3) هيكلة بيانات النص والرسم البياني داخل خدمات قاعدة البيانات ، (4) نمذجة والتنبؤ بالعلاقات القابلة للتفسير بين الكيانات الطبية الحيوية ضمن الرسم البياني المعرفي ، و (5) استرداد المعرفة وتوليفها من خلال سير عمل التوليد المعزز للاسترجاع (RAG) (الشكل 2) للتحقق من صحة العلاقات الجزيئية المعقدة واستكشاف تنبؤات الأمراض التي يحركها الذكاء الاصطناعي. يمكن للمستخدم إجراء خطوة مراجعة بشرية في الحلقة لتحسين دقة الإخراج. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-2
الشكل 2: بنية الاسترجاع وسير عمل التخفيف من التحيز. يستخدم إطار عمل الإنشاء المعزز للاسترداد (RAG) العديد من وكلاء LLM، يقوم كل منهم بتنفيذ مهام محددة لدعم الوصول إلى المعلومات ذات الصلة استنادا إلى استعلام المستخدم. يوفر هذا النظام دليلا موثقا لعامل التفكير المستند إلى GPT الذي يواجه المستخدم ، مما يسهل التفاعل بين المستخدم والوكيل وتوليف المعرفة. (1) استرجاع النص الطبي الحيوي: تتم تصفية المساهمات الأصلية ومقالات المراجعة التي راجعها الأقران بناء على صلتها بفهم ارتباطات الأمراض. يتم إنشاء قاعدة بيانات متجهة لأدلة النص التي تم التحقق من صحتها من قبل المؤلف والمحرر والتي تم ترجيحها بناء على القسم المقابل من المنشور ، على التوالي: 70٪ ملخص ، 10٪ نتائج ، 10٪ بيانات وصفية ، و 10٪ لجميع الأقسام الفرعية الأخرى. يحدد البحث عن الكلمات الرئيسية والبحث عن التشابه مقابل تضمين النص لاستعلام المستخدم معا المستندات ذات الصلة. يتم إنشاء ملخصات كل مستند باستخدام ملخص يستند إلى BERT، مع عامل تقييم النص المستند إلى GPT الذي يقوم بتنقيح البحث للتحقق من ملاءمة مستند الاستعلام. (2) استرجاع الرسم البياني المعرفي: تقوم وحدة التعرف على الكيانات المسماة المستندة إلى BERT واستخراج العلاقة المستندة إلى GPT بربط استعلام المستخدم بالكيانات ذات الصلة في الرسم البياني المعرفي. يحدد البحث عن التشابه في قاعدة بيانات المتجهات العقد والحواف ذات الصلة. يتم استرداد البيانات من قاعدة بيانات Neo4j عبر استعلامات Cypher التي تم إنشاؤها بواسطة وكيل استعلام Cypher المستند إلى GPT ويتم تنقيحها بواسطة عامل التحقق من الاستعلام. (3) يتم تقديم الردود الفردية من خطوط أنابيب استرجاع النص الطبي الحيوي أو استرجاع الرسم البياني المعرفي إلى عامل المنطق ، الذي يجمع استجابة موجزة بأقل قدر من التحيز لاستعلام المستخدم. ويسترشد هذا النظام بالحفاظ على الدقة والحياد في تقديم المعلومات الواقعية. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-3
الشكل 3: حالة الاستخدام في توليف المعرفة واستكشاف الفرضيات عبرسلسلة الاستعلام . يعرض هذا الشكل حالة استخدام مميزة تركز على سلسلة من الأسئلة والمفاهيم ذات الصلة التي قد يطرحها المحقق و / أو أخصائي الرعاية الصحية على نظام RUGGED. يتم تقديم الاستعلامات من المستخدم إلى النظام بترتيب رقمي ، مع أسهم تمثل المنطق المستنبط والتفكير الخاص بالمجال بين كل سؤال. يسترد النظام من المعلومات الضمنية وذات الصلة (المصدر الموضح باللون الأزرق) ، والرد على الاستعلام. يتم عرض أمثلة على استجابات النظام في الشكل 4. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-4
الشكل 4: حالة استخدام أمراض القلب والأوعية الدموية: توضيح التسبب في الأمراض القلبية الوعائية. يتم عرض أزواج الاستعلام والاستجابة بين المستخدم والنظام RUGGED. في اللوحة العلوية اليسرى ، تسترجع الأسئلة من 1 إلى 6 المعلومات عن طريق استخراج المعلومات من قاعدة بيانات الرسم البياني المعرفي لصياغة إجابات متجذرة بالأدلة. يستخدم السؤال 7 تنبؤا برابط الرسم البياني القابل للتفسير لتحديد العلاجات ذات الدرجات الأعلى. يطالب الاستعلام بتحليل التنبؤ ، والذي يتم تنفيذه ومعالجته تلقائيا بواسطة النظام ، ويتم تلخيص النتائج الرئيسية بإيجاز. يقيم السؤال 8 أدلة الأدبيات من مجموعة البيانات النصية المحددة التي يتم استردادها كدليل ذي صلة للتحقق من النتيجة المتوقعة والتحقق من صحتها وتأكيدها. تمت مراجعة استجابات النظام من خلال عملية فحص بشرية في الحلقة وتعديلها لسهولة القراءة والإيجاز. يتم تفصيل نسخة كاملة من هذه النتائج في الملف التكميلي 1. الرجاء النقر هنا لعرض نسخة أكبر من هذا الرقم.

الخطواتوصفالوقت
الوصول إلى المعرفة الطبية الحيويةإجمالي 30٪
إعداد مجموعة الأدبيات الطبية الحيويةاتصل ب PubMed و PubMed Central ، وقم بتنزيل بيانات المنشور وتحليلها للمهام النهائية20%
إعداد بيانات قاعدة المعرفةاتصل بقواعد المعرفة الطبية الحيوية ، وقم بتنزيل وتحليل المعلومات الضرورية للمهام النهائية.5%
استخراج المعلوماتإجمالي 30٪
تحليل التنقيب النصي CaseOLAP LIFTتحديد العلاقات عالية المستوى بين المرض والبروتين داخل مجموعة النص الطبي الحيوي.25%
بناء الرسم البياني المعرفيربط ودمج المعلومات المتباينة من قواعد المعرفة الطبية الحيوية في رسم بياني معرفي موحد.5%
تحليل التنبؤإجمالي 10٪
تدريب الشبكة العصبية للرسم البيانيتدريب النموذج على بيانات الرسم البياني للمعرفة الطبية الحيوية لمعرفة الأنماط المخفية داخل الرسم البياني.5%
تحليل ترتيب الصلةتطبيق وحدة الشرح لتسليط الضوء على العقد والحواف الأكثر صلة بدراسة المرض.2.5%
التنبؤ بالارتباطاستخدم وحدة قابلية التفسير لتحديد العقد والحواف الرئيسية التي تساهم في الحواف المتوقعة الجديدة.2.5%
إنشاء الفرضيات و / أو التحقق من الصحةإجمالي 30٪
إعداد قاعدة البيانات للتوليد المعزز للاسترجاعتهيئة قاعدة بيانات الرسم البياني للاستعلام عن الرسم البياني المعرفي وقاعدة بيانات المتجهات لاسترجاع النص.25%
استكشاف الفرضياتتمكين تفاعل المستخدم مع RUGGED للوصول إلى المعلومات ذات الصلة وتدقيقها لاستكشاف الفرضيات.5%

الجدول 1: سير العمل وخطوات تحديد المعدل. يوفر هذا الجدول تقديرات تقريبية للوقت الحسابي المطلوب لكل مرحلة من مراحل سير العمل. تشمل خطوات تحديد المعدل الوصول إلى المعرفة الطبية الحيوية اللازمة للتوليد المعزز بالاسترجاع واستخراجها وفهرستها. يمكن تكرار استكشاف الفرضيات بشكل مستمر دون الحاجة إلى إعادة تنفيذ خطوات تحديد المعدل.

فئة المرضأرقام شجرة MeSH# PMIDs# المساهمات الأصلية# مراجعة المقالات
اعتلال عضلة القلب (CM)ج 14.280.238132,531102,33719,942
ج 14.280.434
عدم انتظام ضربات القلب (ARR)ج 14.280.067125,28692,37413,854
C23.550.073
عيوب القلب الخلقية (CHD)ج 14.280.40082,00654,0236,379
أمراض صمامات القلب (VD)ج 14.280.48472,01650,1195,743
نقص تروية عضلة القلب (IHD)ج 14.280.647256,986210,04230,223
مرض نظام التوصيل القلبي (CCD)ج 14.280.12353,05035,3994,363
انسداد التدفق البطيني (VOO)ج 14.280.95522,24415,5041,686
أمراض القلب الأخرى (OTH)C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720114,08577,30211,799
مجموع635,696478,40469,690

الجدول 2: إحصاءات الأدبيات الطبية الحيوية. يوضح هذا الجدول بالتفصيل فئات أمراض الدراسة مع أرقام شجرة MeSH المقابلة لها وعدد وثائق PubMed التي تم استردادها حتى مايو 2024 ، والتي تستخدم كمجموعة للتنقيب عن النصوص. تتم فهرسة مجموعة فرعية من هذه المنشورات ، تتكون من مقالات بحثية أصلية ومقالات مراجعة ، في قاعدة بيانات متجهة لاسترجاعها بواسطة RUGGED أثناء إنشاء الفرضيات.

بابعدد العقدعدد الحوافمصدر (مصادر) البيانات
تشريح5,049122,533Bgee ، PubMed ، MeSH ، Uberon ، 
العملية البيولوجية27,047108,106علم الوجود الجيني
المكون الخلوي4,05752,238علم الوجود الجيني
مركب27,2783,292,028DrugBank و MeSH و CTD و UMLS و KEGG و TTD و SIDER و Inxight Drugs و Hetionet و PathFX و MyChem.info
مرض21,938311,773PubMed ، MeSH ، DisGeNET ، SIDER ، ClinVar ، ClinGen ، PharmGKB ، MyDisease.info ، PathFX ، UMLS ، OMIM ، MONDO ، DOID ، KEGG
فئة الدواء5,7218,283ATC
الجين29,810943,419HGNC ، GRNdb ، كيج ، كلينفرار ، كلينجين ،
الوظيفة الجزيئية11,15147,086SMPDB ، DisGENET ، PharmGKB ، MyGene.info
المسار52,012234,944علم الوجود الجيني
بروتين20,7401,074,809Reactome ، KEGG ، SMPDB
رد فعل14,647128,038UniProt ، Reactome ، TTD ، SMPDB ، STRING ، HGNC
المجموع الفرعي219,4506,323,257Reactome
جمعيات التنقيب عن النصوص84,670
مجموع219,4586,327,927

الجدول 3: إحصاءات الرسم البياني المعرفي. يوضح هذا الجدول تفاصيل 11 فئة طبية حيوية واسعة تشمل الرسم البياني المعرفي Know2BIO الذي تم إنشاؤه ، المخصب بحواف إضافية مشتقة من تحليل التنقيب عن النص والتحليل التنبؤي. تتم إدارة الرسم البياني والتنبؤات المعرفية الناتجة بواسطة قاعدة بيانات الرسم البياني Neo4j لاسترجاعها بواسطة RUGGED أثناء إنشاء الفرضيات.

دقةدقةاستذكرنتيجة F1أوروكالجامعة الأمريكية للتحقق من العمر
التحقق0.71580.66390.87430.75470.84370.8637
اختبر0.7030.63670.94550.7610.89610.9094

الجدول 4: تقييم نموذج الذكاء الاصطناعي القابل للتفسير. يقدم هذا الجدول تقارير مقاييس التقييم للتنبؤ بارتباط الرسم البياني المعرفي باستخدام شبكة عصبية تلافيفية من طبقتين من الرسم البياني تم تقييم المقاييس عن طريق تقسيم حواف الرسم البياني إلى 85٪ تدريب ، و 5٪ تحقق ، و 10٪ مجموعات بيانات اختبار. تشير الدقة إلى نسبة التنبؤات المصنفة بشكل صحيح. تشير الدقة إلى نسبة التنبؤات الإيجابية الصحيحة بين جميع التنبؤات الإيجابية. يقيس الاستدعاء نسبة التنبؤات الإيجابية الصحيحة بين الحواف الإيجابية الفعلية. درجة F1 هي الوسط التوافقي للدقة والاستدعاء ، وتحقيق التوازن بين المقياسين. تقوم AUROC بتقييم قدرة النموذج على التمييز بين التنبؤات الإيجابية والسلبية. تحدد AUPRC المفاضلة بين الدقة والاستدعاء عبر عتبات مختلفة. مع جميع المقاييس ، تشير القيم الأعلى إلى أداء أفضل للنموذج.

الملف التكميلي 1: يوضح هذا الملف تفاصيل استجابة النموذج الكاملة من RUGGED ومقارنة مع GPT-4o. يعرض القسم أ التفاعل الكامل بين الإنسان والحاسوب مع RUGGED ، ويتوسع في نهج سلسلة الاستعلام الموضح في الشكل 3 ويقدم الاستجابة الكاملة بما يتجاوز الملخص الموضح في الشكل 4. يقوم القسم ب بتقييم استجابات GPT-4o دون استرجاع مقابل RUGGED ، وتقييم السمات مثل الدقة والعمق وتسجيل الثقة وموثوقية الأدلة والتكلفة. الرجاء النقر هنا لتنزيل هذا الملف.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يستفيد بروتوكول RUGGED من نماذج اللغة الحديثة بمعلومات محدثة لتمكين الباحثين من استكشاف المشهد الطبي الحيوي المتطور ديناميكيا والكشف عن معرفة جديدة. يدفع هذا التفاعل بين الإنسان والحاسوب عملية مبتكرة تجسد كفاءة الآلة (RUGGED) وخبرة وحكم المحقق. تم تصميم هذا البروتوكول ليتم تنفيذه بالتسلسل الموضح. الخطوة 1 تفاصيل تثبيت البرنامج. تعد الخطوة 2 والخطوة 3 ضرورية لإعداد الأدبيات والموارد الطبية الحيوية ، بينما تقوم الخطوة 4 بفهرسة هذه المعلومات للتوليد المعزز بالاسترجاع وتفاعل المستخدم مع نظام LLM. قد يتم تشغيل الخطوات التي تتطلب وقتا طويلا بشكل متزامن و / أو متتابع. على سبيل المثال ، يمكن أن يبدأ إنشاء الرسم البياني Neo4j (الخطوة 4.2.2) أثناء تحليل التنبؤ (الخطوة 3) ، ويمكن أن تبدأ الفهرسة بعد إنشاء الرسم البياني المعرفي (الخطوة 2.3) والتنقيب عن النص (الخطوة 2.1). ويجب تكرار هذه الخطوات للحصول على النتيجة النهائية لهذه النتائج الوسيطة. على الرغم من تصميمه لاسترجاع المعلومات الطبية الحيوية ، إلا أن هذا البروتوكول ، مع تعديلات طفيفة ، قد يتعامل أيضا مع بيانات النصوص والرسوم البيانية الأخرى ، مثل البيانات الداخلية أو الملاحظات السريرية أو السجلات الصحية الإلكترونية. تفاصيل تنسيق البيانات موجودة في الخطوة 4.2.

يعتمد تشغيل هذه المنصة على التثبيت الصحيح والربط البيني للعديد من التقنيات ، بما في ذلك نماذج اللغة وقواعد بيانات الرسم البياني وقواعد بيانات المتجهات (انظر جدول المواد). للتحقق من تثبيت هذه الخدمات وتوصيلها بشكل صحيح، يتم توفير البرامج النصية للاختبار في مجلد "الاختبار" داخل مستودع GitHub. قد تتحمل الخدمات الخارجية تكاليف ، مع الأسعار عرضة للتغيير من قبل البائع. تحتوي هذه الخدمات الاختيارية أيضا على بدائل مستضافة محليا ، ولا تتطلب سوى موارد حسابية كافية. ومع ذلك ، قد تؤثر هذه البدائل على أداء النموذج و / أو ملاءمتها ، مما يجعلها غير مناسبة لبعض سيناريوهات حالات الاستخدام.

مع مشهد LLM سريع التطور ، يتم إصدار نماذج بارزة جديدة ونماذج خاصة بالمهام بانتظام. في وقت إعداد هذا التقرير ، تم اختيار أنسب النماذج للمهمة. يمكن للمستخدمين اختيار LLM الذي سيتم استخدامه عن طريق تحديث ملف التكوين وفقا لذلك (راجع الخطوات 1.3.2-1.3.4). يعتمد اختيار النموذج على ملاءمتها لحالة استخدام معينة. على سبيل المثال ، يعد دمج النماذج التي تركز على ضمان أن تكون استجابات النموذج عادلة وخاضعة للرقابة وخالية من خطاب الكراهية73،74،75،76،77،78 ، في سير العمل هذا أمرا ضروريا للاعتبارات الأخلاقية. علاوة على ذلك ، تعد الهندسة السريعة ضرورية لتوجيه السلوك الموثوق به والمسؤول من LLM79،80،81،82. تم تصميم المطالبات المصممة لسير عمل RUGGED وفقا للنماذج المستخدمة وحالات الاستخدام المقدمة. لضبط المطالبات لحالة استخدام مختلفة ، يمكن للمستخدمين تحرير المطالبات داخل سير عمل RUGGED في مجلد "التكوين" داخل الملف "prompts.json ".

بينما تهدف أنظمة RAG إلى تقليل الهلوسة في LLMs من خلال ترسيخ الاستجابات في الأدلة ، فإن هذه النماذج قد لا تزال تؤدي إلى معلومات غير دقيقة أو استجابات صحيحة وغير محددة بشكل عام. يتم توفير مقارنة معيارية ل RUGGED مقابل GPT-4o في الملف التكميلي 1 ، القسم ب ، غالبا ما تحدث هلوسة النموذج عندما تتجاوز المعلومات المستردة نافذة سياق النموذج ، على غرار الخرف مع فقدان الذاكرة وعدم القدرة على تحديد موقع محتوى البيانات ، مما يؤدي إلى استجابات غير دقيقة83،84،85. يساعد اختيار نموذج LLM مناسب في التخفيف من هذه المشكلة. على سبيل المثال ، يحتوي GPT-4o على حد سياق يبلغ 128 ألف رمز مميز ، وهو أكثر بكثير من حد GPT-3.5 Turbo المميز البالغ 16 ألفا ، وإن كان ذلك بتكلفة أعلى للمستخدم. علاوة على ذلك ، يمكن لدراسات القانون المضبوطة بدقة مع معرفة مجال محددة أن تعزز دقة وخصوصية الاستجابات في التطبيقات الطبيةالحيوية 86،87،88. على الرغم من هذه الإجراءات ، من الضروري التحقق من المعلومات قبل الشروع في التجارب المعملية الرطبة المكلفة.

يستفيد القوي من الذكاء الاصطناعي القابل للتفسير داخل خط أنابيب RAG للتدقيق في تنبؤات الارتباط ، وتحديد العلاقات الموثوقة وغير المكتشفة سابقا. بينما تعتمد أنظمة RAG التقليدية على الاسترجاع القائم على التشابه المجمع ، فإن هذا النهج يربط قابلية التفسير بزيادة الاستجابة المستهدفة. يسلط الجدول 4 الضوء على الأداء القوي للنموذج ، مما يدل على استدعاء عال (التحقق من الصحة: 0.975 اختبار: 0.976) ودرجات F1 المتوازنة (التحقق من الصحة: 0.796 ، الاختبار: 0.797) ، مما يشير إلى الموثوقية في تحديد الإيجابيات الحقيقية ، وإن كان ذلك مع معدل أعلى من الإيجابيات الخاطئة. يتم دعم متانة النموذج بشكل أكبر من خلال قيم AUROC (التحقق من الصحة: 0.963 ، الاختبار: 0.964) و AUPRC (التحقق من الصحة: 0.971 ، الاختبار: 0.972). ومع ذلك ، يمكن أن تستفيد الدقة (التحقق من الصحة: 0.673 ، الاختبار: 0.674) من ضبط العتبة ، أو دمج ميزات العقدة التفصيلية ، أو تحسين التعامل مع عدم توازن الطبقة. تعتمد فعالية النموذج بشكل كبير على الرسم البياني للمعرفة المدخلة. يعد الإفراط في التجهيز مخاطرة مع الرسوم البيانية الأصغر ، بينما تتطلب الرسوم البيانية الأكبر موارد حسابية أكبر. ومع ذلك ، فإن أي نهج قائم على الفريق الاستشاري يعتمد بشكل كبير على جودة البيانات الكامنة وراء الاسترجاع. على سبيل المثال ، غالبا ما يكون إنشاء الرسم البياني المعرفي كثيف الوقت والعمالة بسبب الضوضاء الجوهرية على الرسم البياني الأصلي. يتطلب ذلك جهدا يدويا لإزالة الضوضاء ووضع العلامات بالإضافة إلى التكاليف المستمرة لصيانة قواعد البيانات وتحديثها.

الاستخدام الأساسي ل RUGGED هو في توليف المعرفة واستكشاف الفرضيات. من خلال التحقيق في العديد من العلاقات الخفية ، مثل آليات المرض والعلاجات الدوائية ، يقوم RUGGED بفرز الأدبيات بكفاءة. لتقليل العبء الحسابي ، يمكن استضافة معظم التطبيقات على خادم (على سبيل المثال ، AWS أو الخادم الحسابي) وتهيئتها للتحديث بشكل دوري بأحدث المعلومات. علاوة على ذلك ، يمكن تكييف سير العمل هذا لإنجاز التطبيقات الخاصة بالمجال ، مثل العمل كمنصة لتضمين بيانات المريض مع النماذج المحلية لدعم الأمان والخصوصية والسرية. بالإضافة إلى البحث الطبي الحيوي ، يسمح التصميم المعياري ل RUGGED بدعم المهام عبر استرجاع المعلومات والاستدلال والتلخيص من خلال تخصيص خط أنابيب RAG والاستراتيجيات الهندسية السريعة المصممة خصيصا للمجال المستهدف. يتطلب التكيف الناجح دراسة متأنية للتحديات الخاصة بالمجال ، مثل المعالجة المسبقة لأنساق البيانات المتنوعة وتقييم النماذج المناسبة للاحتياجات الخاصة بالمهام والمجال.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

المؤلفون ليس لديهم ما يكشفون عنه.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يود المؤلفون أن يشكروا الدكتور أليكس بوي على توجيهاته ومناقشته المدروسة. بالإضافة إلى ذلك ، نشكر الدكتور دينغ وانغ على مناقشاته المفيدة. تم دعم هذا العمل جزئيا من قبل المعاهد الوطنية للصحة 1U54HG012517-01 إلى PP و KW و WW. المعاهد الوطنية للصحة T32 HL13945 إلى A.R.P. ؛ التدريب البحثي لمؤسسة العلوم الوطنية (NRT) 1829071 إلى A.R.P. ؛ ووقف TC Laubisch إلى P.P. في جامعة كاليفورنيا في لوس أنجلوس.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
الأجهزة / البرامج - بطاقة الرسومات وبرنامج تشغيلالبرنامج Nvidiahttps://www.nvidia.comيوصى بشدة باستخدام بطاقة الرسومات وبرامج التشغيل المرتبطة بها لتقليل وقت التشغيل بشكل كبير للمهام المكثفة حسابيا ، مثل LLM المحلي والتحليلات التنبؤية. بالنسبة للأجهزة المزودة بوحدة معالجة رسومات NVIDIA RTX ، قم بتنزيل وتثبيت برامج التشغيل الضرورية ومجموعة أدوات CUDA من موقع NVIDIA على الويب (https://developer.nvidia.com/cuda-downloads).
البرمجيات - خدمة نماذج اللغات التجارية الكبيرةتدعم OpenAIhttps://openai.comRUGGED واجهة برمجة تطبيقات OpenAI لنماذج مثل GPT-3.5 و GPT-4o. للإعداد باستخدام نماذج OpenAI ، احصل أولا على مفتاح OpenAI API. انتقل إلى موقع OpenAI على الويب (https://openai.com/blog/openai-api) لإنشاء حساب وتحميل الأموال والحصول على مفتاح واجهة برمجة التطبيقات. مفتاح واجهة برمجة التطبيقات هذا مطلوب لتمكين RUGGED من استخدام نماذج OpenAI. حدد وكلاء LLM داخل نظام RUGGED الذين سيستخدمون نماذج OpenAI من وثائقهم (https://platform.openai.com/docs/models).
ملاحظة: OpenAI API هي خدمة مدفوعة. في وقت النشر ، كانت تكلفة GPT-4o 5.00 دولارات لكل 1 مليون رمز إدخال و 2.50 دولار لكل 1 مليون رمز مميز للإخراج (لمزيد من المعلومات ، قم بزيارة https://openai.com/pricing).
البرمجيات - ContainerizationDockerhttps://www.docker.comDocker يساعد في الحفاظ على بيئة وقت تشغيل حسابية متسقة ، وتبسيط تثبيت البرامج وتنفيذها عبر الأجهزة المختلفة. لتثبيت Docker ، قم بزيارة موقع Docker على الويب (https://www.docker.com/) ، وانقر فوق "البدء" ، وقم بتنزيل الإصدار المناسب لنظام التشغيل وتثبيته. تقارير التثبيت الناجح عن تثبيت إصدار Docker.
البرمجيات - قاعدة بيانات الرسم البيانيNeo4jhttps://neo4j.comNeo4j هو برنامج قاعدة بيانات للرسم البياني يدير العقد والعلاقات المستندة إلى الرسم البياني وياستعلام عنها بكفاءة. يدعم RUGGED Neo4j بأشكال متعددة: حاوية Docker أو Neo4j Desktop أو خادم Neo4j AuraDB عبر الإنترنت. حدد الخيار الأنسب لحالة الاستخدام.
إعداد Neo4j كحاوية Docker. قم بتشغيل هذه الأوامر لإعداد Neo4j في Docker ، مع مسار الملف للمجلد (على سبيل المثال ، /Users/username/RUGGED) ك "PATH_TO_FOLDER". لمزيد من التفاصيل حول استكشاف الأخطاء وإصلاحها ، راجع موقع Neo4j Docker (https://hub.docker.com/_/neo4j).
docker pull neo4j
docker run – الاسم neo4j --net rugged_network --publish=7474:7474 --publish=7687:7687 -d -v 'PATH_TO_FOLDER'\neo4j\data:/data neo4j
ملاحظة: قم بتهيئة Neo4j في Docker لأول مرة عن طريق تعيين اسم مستخدم وكلمة مرور. قم بتشغيل البرنامج النصي neo4j_setup.py (على سبيل المثال ، python neo4j_setup.py) أو عبر واجهة الويب على http://localhost:7474.
إعداد Neo4j Desktop. إذا كنت تستخدم Neo4j Desktop ، فقم بتنزيله وتثبيته من موقع Neo4j (https://neo4j.com/). قم بإنشاء مشروع جديد بالنقر فوق "جديد" ، ثم انقر فوق "إضافة" لإنشاء نظام إدارة قواعد بيانات جديد (DBMS). حدد "نظام إدارة قواعد البيانات المحلي" ، وقم بتعيين كلمة مرور ، وانقر فوق "إنشاء" ، ثم انقر فوق "ابدأ". يشير النص الأخضر "ACTIVE" إلى أنه قيد التشغيل.
إعداد Neo4j AuraDB. قم بزيارة موقع Neo4j على (https://neo4j.com/cloud/aura-free/) لإنشاء حساب وتسجيل الدخول. حدد "مثيل جديد" لإنشاء مثيل فارغ وحفظ URI وكلمة المرور الأولية للوصول إلى واجهة الترباس (على سبيل المثال ، bolt://myurl.neo4j.com). انقر فوق زر التشغيل لبدء المثيل ، والذي سيعرض عنوان URI للاتصال في مربع المعلومات.
ملاحظة: يوفر Neo4j AuraDB طبقة مجانية تصل إلى 200,000 عقدة و 400,000 علاقة. للحصول على رسوم بيانية أكبر ، قم بزيارة تسعير Neo4j (https://neo4j.com/pricing).
البرمجيات - خدمة نماذج اللغة المحلية الكبيرةOllamahttps://ollama.comRUGGED تدعم استخدام النماذج المحلية باستخدام Ollama (على سبيل المثال ، Llama3). للتمكين ، قم أولا بتثبيت Ollama على الجهاز أو قم بتنزيل حاوية Docker. لتثبيت Ollama ، قم بزيارة موقع Ollama (https://ollama.com/download) واتبع تعليمات التثبيت. لتثبيت Ollama على Docker ، قم بتشغيل الأمر التالي:
docker pull ollama/ollama
ملاحظة: في وقت النشر ، لا يوجد إصدار ثابت ل Ollama على نظام التشغيل Windows.
البرنامج - التحكم في الإصدار يتيحGithttps://www.git-scm.comVersion Control التثبيت والتحديث الفعالين للبرامج. لتثبيت Git ، قم بزيارة موقع Git على الويب (https://www.git-scm.com/) ، وانقر فوق "التنزيلات" ، وقم بتنزيل وتثبيت الإصدار المناسب لنظام التشغيل. سيقوم التثبيت الناجح بالإبلاغ عن إصدار Git المثبت.
برنامج

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Bioinformatics in translational drug discovery. Biosci Rep. 37 (4), BSR20160180(2017).">Wooller, S. K., Benstead-Hume, G., Chen, X., Ali, Y., Pearl, F. M. G. Bioinformatics in translational drug discovery. Biosci Rep. 37 (4), BSR20160180(2017).
  2. Computational approaches streamlining drug discovery. Nature. 616 (7958), 673-685 (2023).">Sadybekov, A. V., Katritch, V. Computational approaches streamlining drug discovery. Nature. 616 (7958), 673-685 (2023).
  3. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).">Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
  4. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database (Oxford). 2017, bax043(2017).">Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database (Oxford). 2017, bax043(2017).
  5. A knowledge graph approach to elucidate the role of organellar pathways in disease via biomedical reports. J Vis Exp. (200), e65084(2023).">Pelletier, A. R., et al. A knowledge graph approach to elucidate the role of organellar pathways in disease via biomedical reports. J Vis Exp. (200), e65084(2023).
  6. A knowledge graph to interpret clinical proteomics data. Nat Biotechnol. 40 (5), 692-702 (2022).">Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nat Biotechnol. 40 (5), 692-702 (2022).
  7. PharmKG: A dedicated knowledge graph benchmark for bomedical data mining. Briefings in Bioinformatics. 22 (4), bbaa344(2021).">Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for bomedical data mining. Briefings in Bioinformatics. 22 (4), bbaa344(2021).
  8. Biomedical knowledge graph-optimized prompt generation for large language models. Bioinformatics. 40 (9), btae560(2023).">Soman, K., et al. Biomedical knowledge graph-optimized prompt generation for large language models. Bioinformatics. 40 (9), btae560(2023).
  9. ArXiv. , (2023).">Xiao, Y., et al. Know2BIO: A comprehensive dual-view benchmark for evolving biomedical knowledge graphs. ArXiv. , (2023).
  10. Large language models in medicine. Nat Med. 29 (8), 1930-1940 (2023).">Thirunavukarasu, A. J., et al. Large language models in medicine. Nat Med. 29 (8), 1930-1940 (2023).
  11. ArXiv. , (2023).">Lehman, E., et al. Do we still need clinical language models. ArXiv. , (2023).
  12. Large language models encode clinical knowledge. Nature. 620, 172-180 (2022).">Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620, 172-180 (2022).
  13. ArXiv. , (2022).">Agrawal, M., Hegselmann, S., Lang, H., Kim, Y., Sontag, D. Large language models are few-shot clinical information extractors. ArXiv. , (2022).
  14. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the Chat-GPT model. Res Sq. , (2023).">Johnson, D., et al. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the Chat-GPT model. Res Sq. , (2023).
  15. Evaluation of ChatGPT on biomedical tasks: A zero-shot comparison with fine-tuned generative transformers. Jahan, I., Laskar, M. T. R., Peng, C., Huang, J. The 22nd Workshop on Biomedical Natural Language Processing and BioNLP Shared Tasks, , 326-336 (2023).
  16. Assessing the accuracy of responses by the language model ChatGPT to questions regarding bariatric surgery. Obes Surg. 33 (6), 1790-1796 (2023).">Samaan, J. S., et al. Assessing the accuracy of responses by the language model ChatGPT to questions regarding bariatric surgery. Obes Surg. 33 (6), 1790-1796 (2023).
  17. Trialling a large language model (ChatGPT) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Med Educ. 9, e46599(2023).">Thirunavukarasu, A. J., et al. Trialling a large language model (ChatGPT) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Med Educ. 9, e46599(2023).
  18. ArXiv. , (2023).">Sun, W., et al. Is ChatGPT Good at search? Investigating large language models as re-ranking agents. ArXiv. , (2023).
  19. ArXiv. , (2023).">Xu, R., Feng, Y., Chen, H. ChatGPT vs. Google: A comparative study of search performance and user experience. ArXiv. , (2023).
  20. TruthfulQA: Measuring how models mimic human falsehoods. Lin, S., Hilton, J., Evans, O. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 3214-3252 (2022).
  21. ArXiv. , (2023).">Manakul, P., Liusie, A., Gales, M. J. F. SelfCheckGPT: Zero-resource black-box hallucination detection for generative large language models. ArXiv. , (2023).
  22. FActScore: Fine-grained atomic evaluation of factual precision in long form text generation. Min, S., et al. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, , 12076-12100 (2023).
  23. Is ChatGPT fair for recommendation? Evaluating fairness in large language model recommendation. Proceedings of the 17th ACM Conference on Recommender Systems. , 993-999 (2023).">Zhang, J., et al. Is ChatGPT fair for recommendation? Evaluating fairness in large language model recommendation. Proceedings of the 17th ACM Conference on Recommender Systems. , 993-999 (2023).
  24. Building an ethical and trustworthy biomedical AI ecosystem for the translational and clinical integration of foundation models. Bioengineering. 11 (10), 984(2024).">Sankar, B. S., et al. Building an ethical and trustworthy biomedical AI ecosystem for the translational and clinical integration of foundation models. Bioengineering. 11 (10), 984(2024).
  25. ChatGPT and Other large language models are double-edged swords. Radiology. 307 (2), e230163(2023).">Shen, Y., et al. ChatGPT and Other large language models are double-edged swords. Radiology. 307 (2), e230163(2023).
  26. Ethics of large language models in medicine and medical research. Lancet Digit Health. 5 (6), e333-e335 (2023).">Li, H., et al. Ethics of large language models in medicine and medical research. Lancet Digit Health. 5 (6), e333-e335 (2023).
  27. ArXiv. , (2020).">Lewis, P., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. ArXiv. , (2020).
  28. ArXiv. , (2023).">Gao, Y., et al. Retrieval-augmented generation for large language models: A survey. ArXiv. , (2023).
  29. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Res. 47 (W1), W587-W593 (2019).">Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Res. 47 (W1), W587-W593 (2019).
  30. ArXiv. , (2024).">Wei, C. -H., et al. PubTator 3.0: An AI-powered literature resource for unlocking biomedical knowledge. ArXiv. , (2024).
  31. Comparative Reasoning for knowledge graph fact checking. Liu, L., Ji, H., Xu, J., Tong, H. 2022 IEEE International Conference on Big Data (Big Data), , 2309-2312 (2022).
  32. Knowledge Graph reasoning and its applications. Liu, L., Tong, H. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, , 5813-5814 (2023).
  33. ArXiv. , (2024).">Liu, L., et al. Logic query of thoughts: Guiding large language models to answer complex logic queries with knowledge graphs. ArXiv. , (2024).
  34. Barack's wife hillary: Using Knowledge graphs for fact-aware language modeling. Logan, R., Liu, N. F., Peters, M. E., Gardner, M., Singh, S. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, , 5962-5971 (2019).
  35. ArXiv. , (2024).">Sun, J., et al. Think-on-graph: Deep and responsible reasoning of large language model on knowledge graph. ArXiv. , (2024).
  36. ArXiv. , (2024).">Wen, Y., Wang, Z., Sun, J. MindMap: Knowledge Graph prompting sparks graph of thoughts in large language models. ArXiv. , (2024).
  37. ArXiv. , (2020).">Wang, C., Liu, X., Song, D. Language models are open knowledge graphs. ArXiv. , (2020).
  38. QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. Yasunaga, M., Ren, H., Bosselut, A., Liang, P., Leskovec, J. Proceedings of the 2021 Conference of the North American Chapter of the, , 535-546 (2021).
  39. SimKGC: Simple contrastive knowledge graph completion with pre-trained language models. Wang, L., Zhao, W., Wei, Z., Liu, J. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 4281-4294 (2022).
  40. FLAIRS. 36, (2023).">Lazar, A. Graph neural networks for link prediction. FLAIRS. 36, (2023).
  41. ArXiv. , (2018).">Zhang, M., Chen, Y. Link prediction based on graph neural networks. ArXiv. , (2018).
  42. XGNN: Towards model-level explanations of graph neural networks. Yuan, H., Tang, J., Hu, X., Ji, S. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, , (2020).
  43. CFGExplainer: Explaining graph neural network-based malware classification from control flow graphs. Herath, J. D., Wakodikar, P., Yang, P., Yan, G. 2022 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), , 172-184 (2022).
  44. GNNExplainer: Generating explanations for graph neural networks. Adv Neural Inf Process Syst. 32, 9240-9251 (2019).">Ying, R., Bourgeois, D., You, J., Zitnik, M., Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv Neural Inf Process Syst. 32, 9240-9251 (2019).
  45. The Bgee suite: Integrated curated expression atlas and comparative transcriptomics in animals. Nucleic Acids Res. 49 (D1), D831-D847 (2021).">Bastian, F. B., et al. The Bgee suite: Integrated curated expression atlas and comparative transcriptomics in animals. Nucleic Acids Res. 49 (D1), D831-D847 (2021).
  46. Comparative Toxicogenomics Database (CTD): Update 2023. Nucleic Acids Res. 51 (D1), D1257-D1262 (2023).">Davis, A. P., et al. Comparative Toxicogenomics Database (CTD): Update 2023. Nucleic Acids Res. 51 (D1), D1257-D1262 (2023).
  47. ClinGen - The clinical genome resource. N Engl J Med. 372 (23), 2235-2242 (2015).">Rehm, H. L., et al. ClinGen - The clinical genome resource. N Engl J Med. 372 (23), 2235-2242 (2015).
  48. ClinVar: Improvements to accessing data. Nucleic Acids Res. 48 (D1), D835-D844 (2020).">Landrum, M. J., et al. ClinVar: Improvements to accessing data. Nucleic Acids Res. 48 (D1), D835-D844 (2020).
  49. The human disease ontology 2022 update. Nucleic Acids Res. 50 (D1), D1255-D1261 (2022).">Schriml, L. M., et al. The human disease ontology 2022 update. Nucleic Acids Res. 50 (D1), D1255-D1261 (2022).
  50. The DisGeNET cytoscape app: Exploring and visualizing disease genomics data. Comput Struct Biotechnol J. 19, 2960-2967 (2021).">Piñero, J., Saüch, J., Sanz, F., Furlong, L. I. The DisGeNET cytoscape app: Exploring and visualizing disease genomics data. Comput Struct Biotechnol J. 19, 2960-2967 (2021).
  51. DrugBank 6.0: The DrugBank knowledgebase for 2024. Nucleic Acids Res. 52 (D1), D1265-D1275 (2024).">Knox, C., et al. DrugBank 6.0: The DrugBank knowledgebase for 2024. Nucleic Acids Res. 52 (D1), D1265-D1275 (2024).
  52. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Res. 49 (D1), D97-D103 (2021).">Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Res. 49 (D1), D97-D103 (2021).
  53. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 49 (D1), D325-D334 (2021).">Gene Ontology Consortium. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 49 (D1), D325-D334 (2021).
  54. Genenames.org: The HGNC resources in 2023. Nucleic Acids Res. 51 (D1), D1003-D1009 (2023).">Seal, R. L., et al. Genenames.org: The HGNC resources in 2023. Nucleic Acids Res. 51 (D1), D1003-D1009 (2023).
  55. NCATS Inxight Drugs: A comprehensive and curated portal for translational research. Nucleic Acids Res. 50 (D1), D1307-D1316 (2022).">Siramshetty, V. B., et al. NCATS Inxight Drugs: A comprehensive and curated portal for translational research. Nucleic Acids Res. 50 (D1), D1307-D1316 (2022).
  56. KEGG: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1), D353-D361 (2017).">Kanehisa, M., Furumichi, M., Tanabe, M., Sato, Y., Morishima, K. KEGG: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1), D353-D361 (2017).
  57. Medical Subject Headings (MeSH). Bull Med Libr Assoc. 88 (3), 265-266 (2000).">Lipscomb, C. E. Medical Subject Headings (MeSH). Bull Med Libr Assoc. 88 (3), 265-266 (2000).
  58. medRxiv. , (2022).">Vasilevsky, N. A., et al. Mondo: Unifying diseases for the world, by the world. medRxiv. , (2022).
  59. BioThings SDK: A toolkit for building high-performance data APIs in biomedical research. Bioinformatics. 38 (7), 2077-2079 (2022).">Lelong, S., et al. BioThings SDK: A toolkit for building high-performance data APIs in biomedical research. Bioinformatics. 38 (7), 2077-2079 (2022).
  60. OMIM.org: Leveraging knowledge across phenotype-gene relationships. Nucleic Acids Res. 47 (D1), D1038-D1043 (2019).">Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: Leveraging knowledge across phenotype-gene relationships. Nucleic Acids Res. 47 (D1), D1038-D1043 (2019).
  61. PathFX provides mechanistic insights into drug efficacy and safety for regulatory review and therapeutic development. PLoS Comput Biol. 14 (12), e1006614(2018).">Wilson, J. L., et al. PathFX provides mechanistic insights into drug efficacy and safety for regulatory review and therapeutic development. PLoS Comput Biol. 14 (12), e1006614(2018).
  62. PharmGKB, an Integrated resource of pharmacogenomic knowledge. Curr Protoc. 1 (8), e226(2021).">Gong, L., Whirl-Carrillo, M., Klein, T. E. PharmGKB, an Integrated resource of pharmacogenomic knowledge. Curr Protoc. 1 (8), e226(2021).
  63. The reactome pathway knowledgebase 2022. Nucleic Acids Res. 50 (D1), D687-D692 (2022).">Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Res. 50 (D1), D687-D692 (2022).
  64. The SIDER database of drugs and side effects. Nucleic Acids Res. 44 (D1), D1075-D1079 (2016).">Kuhn, M., Letunic, I., Jensen, L. J., Bork, P. The SIDER database of drugs and side effects. Nucleic Acids Res. 44 (D1), D1075-D1079 (2016).
  65. SMPDB 2.0: Big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue), D478-D484 (2014).">Jewison, T., et al. SMPDB 2.0: Big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue), D478-D484 (2014).
  66. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. 47 (D1), D607-D613 (2019).">Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. 47 (D1), D607-D613 (2019).
  67. Therapeutic target database update 2022: Facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Res. 50 (D1), D1398-D1407 (2022).">Zhou, Y., et al. Therapeutic target database update 2022: Facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Res. 50 (D1), D1398-D1407 (2022).
  68. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Res. 32 (Database issue), D267-D270 (2004).">Bodenreider, O. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Res. 32 (Database issue), D267-D270 (2004).
  69. Unification of multi-species vertebrate anatomy ontologies for comparative biology in Uberon. J Biomed Semantics. 5, 21(2014).">Haendel, M. A., et al. Unification of multi-species vertebrate anatomy ontologies for comparative biology in Uberon. J Biomed Semantics. 5, 21(2014).
  70. UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res. 51 (D1), D523-D531 (2023).">UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res. 51 (D1), D523-D531 (2023).
  71. Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Lewis, M., et al. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, , 7871-7880 (2020).
  72. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. J Vis Exp. (144), e59108(2019).">Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. J Vis Exp. (144), e59108(2019).
  73. FM. ArXiv. , (2023).">Ferrara, E. Should ChatGPT be biased? Challenges and risks of bias in large language models. FM. ArXiv. , (2023).
  74. ArXiv. , (2023).">Gallegos, I. O., et al. Bias and fairness in large language models: A Survey. ArXiv. , (2023).
  75. Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review. Res Integr Peer Rev. 8 (1), 4(2023).">Hosseini, M., Horbach, S. P. J. M. Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review. Res Integr Peer Rev. 8 (1), 4(2023).
  76. Kotek, H., Dockum, R., Sun, D. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference, , 12-24 (2023).
  77. Prompting techniques for reducing social bias in LLMs through System 1 and System 2 Cognitive Processes. ArXiv. , (2024).">Kamruzzaman, M., Kim, G. L. Prompting techniques for reducing social bias in LLMs through System 1 and System 2 Cognitive Processes. ArXiv. , (2024).
  78. ArXiv. , (2024).">Raza, S., Raval, A., Chatrath, V. MBIAS: Mitigating bias in large language models while retaining context. ArXiv. , (2024).
  79. ArXiv. , (2023).">Chen, B., Zhang, Z., Langrené, N., Zhu, S. Unleashing the potential of prompt engineering in Large Language Models: A comprehensive review. ArXiv. , (2023).
  80. ArXiv. , (2023).">White, J., et al. A prompt pattern catalog to enhance prompt engineering with ChatGPT. ArXiv. , (2023).
  81. Prompt engineering as an important emerging skill for medical professionals: Tutorial. J Med Internet Res. 25, e50638(2023).">Meskó, B. Prompt engineering as an important emerging skill for medical professionals: Tutorial. J Med Internet Res. 25, e50638(2023).
  82. ArXiv. , (2023).">Wang, J., et al. Prompt Engineering for Healthcare: Methodologies and applications. ArXiv. , (2023).
  83. ArXiv. , (2023).">Luo, Y., et al. An empirical study of catastrophic forgetting in large language models during continual fine-tuning. ArXiv. , (2023).
  84. Retrieval meets Long Context Large Language Models. ArXiv. , (2023).">Xu, P., et al. Retrieval meets Long Context Large Language Models. ArXiv. , (2023).
  85. ArXiv. , (2023).">Chen, S., Wong, S., Chen, L., Tian, Y. Extending context window of Large Language Models via positional interpolation. ArXiv. , (2023).
  86. ArXiv. , (2024).">Labrak, Y., et al. BioMistral: A collection of open-source pretrained large language models for medical domains. ArXiv. , (2024).
  87. BioGPT: Generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6), bbac409(2022).">Luo, R., et al. BioGPT: Generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6), bbac409(2022).
  88. ArXiv. , (2024).">Wang, C., et al. A survey for large language models in biomedicine. ArXiv. , (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Biomedical Knowledge BasesExplainable AIKnowledge GraphRetrieval Augmented GenerationLarge Language ModelsText Mining AnalysisHypothesis ValidationDrug Disease RelationshipsAgentic SystemsCardiomyopathy Therapeutics

Related Articles