July 22nd, 2025
Mime هو إطار حساب مرن لإنشاء نموذج تكامل قائم على التعلم الآلي بأداء أنيق. هنا ، نقدم إجراء مفصلا خطوة بخطوة لتطوير نماذج تنبؤية بدقة عالية ، والاستفادة من مجموعات البيانات المعقدة لتحديد الجينات الهامة المرتبطة بتطور المرض ، ونتائج المرضى ، والاستجابة العلاجية.
تؤثر تقنية التسلسل العالية بشكل كبير على فهمنا لعلم الأحياء وعدم تجانس السرطان. ومع ذلك ، مع وجود العديد من بيانات التسلسل العالية ، من الصعب فحص وتحديد الجينات والمؤشرات الحيوية المرتبطة بالأمراض بسرعة. توجد العديد من أطر التعلم الآلي ، ولكن لا يقدم أي منها مقارنة متكاملة لاتخاذ قرارات مستنيرة. لمعالجة هذه الفجوة ، قمنا بتطوير Mime ، وهي منصة موحدة لتقييم الإجهاد ونقاط الضعف في النموذج.
يقدم Mime أربع وظائف ، نمذجة التشخيص المثلى ، والتنبؤ بالاستجابة الثنائية ، وتحديد الميزات التنبؤية المشتركة ، وتصور أداء النموذج ، والاستفادة من خوارزميات التعلم الآلي المدربة ذاتيا للتحليل المتكامل بين النقد.
غالبا ما يكافح الباحثون في اختيار الخوارزميات التنبؤية وإدارة بيئات التعلم الآلي. تعمل عبوة Mime مفتوحة المصدر R على تبسيط إعداد النموذج واختيار المعلمات والنشر ، مما يتيح للمستخدمين تحليل بياناتهم بسهولة.
يمثل Mime علامة فارقة في تطبيق الذكاء الاصطناعي على الطب الحيوي لدمج التعلم الآلي عبر طبقة تسلسل الخلية الواحدة للكشف عن عدم التجانس داخل الورم باستخدام التنوع داخل الأورام.
[راوي] للبدء ، افتح موقع GitHub على جهاز كمبيوتر سطح المكتب. قم بتثبيت إصدار التطوير من Mime من GitHub باستخدام حزمة devtools في R. قم بإعداد مجموعات متعددة تحتوي على بيانات تسلسل النسخ مع معلومات البقاء على قيد الحياة أو الاستجابة السريرية. استخدم مجموعات البيانات المثالية، Example.cohort وExample.ici، والتي يمكن الوصول إليها من مستودع Mime GitHub. يحتوي Example.cohort على مجموعتين من بيانات الورم الدبقي مع 100 عينة تم اختيارها عشوائيا من قاعدة بيانات TCGA و CGGA ، على التوالي. قم بتضمين مجموعات بيانات متعددة لإنشاء نماذج تنبؤية للتشخيص في Example.cohort. تحقق من أن تنسيق مجموعة البيانات يتضمن معرف العينة في العمود الأول ، ووقت البقاء على قيد الحياة والحالة في العمودين الثاني والثالث ، وسجل مستويات التعبير الجيني المحولة في الأعمدة المتبقية. تأكد من استخدام مجموعة البيانات1 للتدريب ومجموعات البيانات الأخرى للتحقق من الصحة. بعد ذلك ، قم بتحميل مجموعة بيانات Example.ici وتأكد من أن التنسيق يتضمن معرف العينة في العمود الأول ، والاستجابة العلاجية في العمود الثاني ، وسجل مستويات التعبير الجيني المحولة في الأعمدة المتبقية. قم بإعداد قائمة الجينات باستخدام مجموعة الجينات المرتبطة بإشارات Wnt / beta-catenin في R من ملف الجينات. استخدم الدالة ML.Dev.Prog.Sig والرموز المحددة لبناء نماذج تنبؤية للتشخيص بناء على Example.cohort وقائمة الجينات. ثم استخدم cindex_dis_all الوظيفة لرسم مؤشر C لكل نموذج وتحديد النموذج الأمثل. احسب منحنيات البقاء على قيد الحياة للمرضى باستخدام درجة التوافق مع المخاطر باستخدام نموذج معين بين مجموعات البيانات المختلفة ومعالجة ذلك في Mime باستخدام الرموز المحددة. احسب AUC المعتمد على الوقت للنماذج التنبؤية باستخدام الدالة cal_AUC_ml_res والرموز المحددة. الآن ، ارسم AUC المعتمد على الوقت لكل نموذج باستخدام الدالة auc_dis_all والرموز المحددة. قم بمعالجة منحنى ROC المعتمد على الوقت لنموذج معين بين مجموعات البيانات المختلفة في Mime باستخدام roc_vis الدالة والرموز المحددة. لإنشاء نماذج تنبؤية للاستجابة العلاجية ، استخدم الدالة ML.Dev.Pred.Category.Sig بناء على مجموعة بيانات Example.ici وقائمة الجينات. تصور AUC لكل نموذج استجابة باستخدام auc_vis_category_all. بعد ذلك ، قم بإنشاء منحنيات ROC لكل نموذج باستخدام roc_vis_category. لاختيار الميزة الأساسية ، حدد الجينات الأساسية المرتبطة بالتشخيص باستخدام ML.Corefeature.Prog.Screen استنادا إلى Example.cohort وقائمة الجينات. ارسم ترتيب الجينات التي تمت تصفيتها بطرق مختلفة باستخدام core_feature_rank لتسليط الضوء على الجينات الأساسية التي يتم تحديدها بشكل متكرر. من بين 117 نموذجا تنبؤيا تم إنشاؤها بواسطة Mime ، أظهر نموذج StepCox [Forward] + plsRcox المدمج أعلى مؤشر توافق عبر جميع الأفواج. كان للمرضى ذوي الدرجات عالية الخطورة نتائج أسوأ بكثير في جميع المجموعات. احتلت منطقة عام واحد تحت المنحنى التي تنبأت بها SPCOM المرتبة الأولى بين جميع النماذج ذات أعلى متوسط لقيمة AUC عبر المجموعات. من بين نماذج التنبؤ بالاستجابة العلاجية السبعة ، حقق نموذج svmRadialWeights أعلى أداء بمساحة أقل من منحنى 0.81 في مجموعة بيانات التدريب و 0.68 في مجموعة بيانات التحقق من الصحة. حدد اختيار الميزة الأساسية PSEN2 و WNT5B و SKP2 على أنها الجينات الأعلى تصنيفا بناء على تكرارها عبر خوارزميات مختلفة.
View the full transcript and gain access to thousands of scientific videos
Mime هو إطار عمل حسابي مصمم لبناء نماذج تكامل قائمة على التعلم الآلي للتنبؤ بالجينات المرتبطة بالأمراض. يوضح هذا المقال إجراءً خطوة بخطوة لتطوير نماذج تنبؤية عالية الدقة باستخدام مجموعات بيانات معقدة.