Genetics

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

Published: September 25, 2021 doi: 10.3791/62250

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

يصف هذا البرنامج التعليمي طريقة بسيطة لبناء خوارزمية التعلم العميق لأداء تصنيف تسلسل من فئتين من البيانات metagenomic.

Abstract

ومن المتوقع القيام بمجموعة متنوعة من مهام تصنيف التسلسل البيولوجي، مثل تصنيف الأنواع وتصنيف وظائف الجينات وتصنيف المضيف الفيروسي، بعمليات في العديد من تحليلات البيانات الميتاجنومية. وبما أن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن هناك حاجة إلى خوارزميات تصنيف عالية الأداء في العديد من الدراسات. غالبا ما يواجه علماء الأحياء تحديات في العثور على أدوات تصنيف التسلسل والتعليق المناسبة لمهمة محددة ، وغالبا ما لا يكونون قادرين على بناء خوارزمية مقابلة بمفردهم بسبب نقص المعرفة الرياضية والحسابية اللازمة. تقنيات التعلم العميق أصبحت مؤخرا موضوعا شعبيا وتظهر مزايا قوية في العديد من مهام التصنيف. حتى الآن ، تم تطوير العديد من حزم التعلم العميق المعبأة للغاية ، والتي تجعل من الممكن لعلماء الأحياء بناء أطر تعلم عميقة وفقا لاحتياجاتهم الخاصة دون معرفة متعمقة بتفاصيل الخوارزمية. في هذا البرنامج التعليمي، ونحن نقدم مبادئ توجيهية لبناء سهلة الاستخدام إطار التعلم العميق لتصنيف تسلسل دون الحاجة إلى المعرفة الرياضية الكافية أو مهارات البرمجة. يتم تحسين كافة التعليمات البرمجية في جهاز ظاهري بحيث يمكن للمستخدمين مباشرة تشغيل التعليمات البرمجية باستخدام البيانات الخاصة بهم.

Introduction

تتجاوز تقنية التسلسل الميتاجنومي عملية عزل السلالة وتسلسل الحمض النووي الإجمالي مباشرة في عينة بيئية. وهكذا، تحتوي البيانات الميتاجنومية على الحمض النووي من كائنات حية مختلفة، ومعظم التسلسلات البيولوجية هي من كائنات حية جديدة غير موجودة في قاعدة البيانات الحالية. وفقا لأغراض بحثية مختلفة، يحتاج علماء الأحياء إلى تصنيف هذه التسلسلات من وجهات نظر مختلفة، مثل التصنيف التصنيفي¹، وتصنيف البكتيريا^{الفيروسات 2}^،³^،⁴، تصنيف الكروموسومات البلازميد³،⁵^،⁶^،⁷، والشروح وظيفة الجينات (مثل تصنيف الجينات مقاومة المضادات الحيوية⁸ وتصنيف عامل الفوعة⁹). ولأن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن خوارزميات ab initio، التي لا تعتمد على قواعد بيانات معروفة لتصنيف التسلسل (بما في ذلك تصنيف الحمض النووي وتصنيف البروتين)، هي نهج مهم في تحليل البيانات الميتاجينومية. ومع ذلك ، فإن تصميم هذه الخوارزميات يتطلب معرفة الرياضيات المهنية ومهارات البرمجة ؛ لذلك ، يواجه العديد من علماء الأحياء ومبتدئي تصميم الخوارزمية صعوبة في بناء خوارزمية تصنيف لتناسب احتياجاتهم الخاصة.

مع تطور الذكاء الاصطناعي ، تم استخدام خوارزميات التعلم العميق على نطاق واسع في مجال المعلوماتية الحيوية لإكمال مهام مثل تصنيف التسلسل في التحليل الميتاجنومي. لمساعدة المبتدئين على فهم خوارزميات التعلم العميق ، نصف الخوارزمية بطريقة سهلة الفهم أدناه.

يتم عرض نظرة عامة على تقنية التعلم العميق في الشكل 1. التكنولوجيا الأساسية لوغاريتم التعلم العميق هي شبكة عصبية اصطناعية ، مستوحاة من بنية الدماغ البشري. من وجهة نظر رياضية، يمكن اعتبار الشبكة العصبية الاصطناعية وظيفة معقدة. يتم رقمنة كل كائن (مثل تسلسل الحمض النووي أو صورة أو فيديو) أولا. ثم يتم استيراد الكائن الرقمي إلى الدالة. مهمة الشبكة العصبية الاصطناعية هي إعطاء استجابة صحيحة وفقا لبيانات الإدخال. على سبيل المثال، إذا تم إنشاء شبكة عصبية اصطناعية لتنفيذ مهمة تصنيف من فئتين، يجب على الشبكة إخراج درجة احتمالية تتراوح بين 0-1 لكل كائن. يجب أن تعطي الشبكة العصبية الكائن الإيجابي درجة أعلى (مثل درجة أعلى من 0.5) مع إعطاء الكائن السلبي درجة أقل. وللحصول على هذا الهدف، يتم بناء شبكة عصبية اصطناعية مع عمليات التدريب والاختبار. أثناء هذه العمليات، يتم تحميل البيانات من قاعدة البيانات المعروفة ثم تقسيمها إلى مجموعة التدريب ومجموعة الاختبار. يتم رقمنة كل كائن بطريقة مناسبة وإعطاء تسمية ("1" للكائنات الموجبة و "0" للكائنات السالبة). في عملية التدريب، يتم إدخال البيانات الرقمية في مجموعة التدريب في الشبكة العصبية. الشبكة العصبية الاصطناعية يبني وظيفة الخسارة التي تمثل الاختلاف بين درجة الإخراج من كائن الإدخال والتسمية المقابلة للكائن. على سبيل المثال، إذا كان تسمية كائن الإدخال هو "1" بينما درجة الإخراج "0.1" ، ستكون دالة الخسارة عالية; وإذا كانت تسمية كائن الإدخال "0" بينما درجة الإخراج "0.1"، ستكون وظيفة الخسارة منخفضة. تستخدم الشبكة العصبية الاصطناعية خوارزمية تكرارية محددة تعدل معلمات الشبكة العصبية لتقليل وظيفة الخسارة. تنتهي عملية التدريب عندما لا يمكن زيادة انخفاض وظيفة الخسارة. وأخيرا، يتم استخدام البيانات في مجموعة الاختبار لاختبار الشبكة العصبية الثابتة، ويتم تقييم قدرة الشبكة العصبية على حساب التسميات الصحيحة للكائنات الجديدة. يمكن العثور على المزيد من مبادئ خوارزميات التعلم العميق في المراجعة في LeCun وآخرون. ^10.

على الرغم من أن المبادئ الرياضية لخوارزميات التعلم العميق قد تكون معقدة ، فقد تم مؤخرا تطوير العديد من حزم التعلم العميق المعبأة للغاية ، ويمكن للمبرمجين بناء شبكة عصبية اصطناعية بسيطة مباشرة مع بضعة أسطر من التعليمات البرمجية.

لمساعدة علماء الأحياء والمبتدئين تصميم خوارزمية في البدء في استخدام التعلم العميق بسرعة أكبر، ويوفر هذا البرنامج التعليمي مبادئ توجيهية لبناء إطار التعلم العميق سهلة الاستخدام لتصنيف تسلسل. يستخدم هذا الإطار نموذج الترميز "واحد الساخنة" كنموذج رياضي لرقمنة التسلسلات البيولوجية ويستخدم شبكة عصبية ملتوية لأداء مهمة التصنيف (انظر المواد التكميلية). الشيء الوحيد الذي يحتاج المستخدمون إلى القيام به قبل استخدام هذا المبدأ التوجيهي هو إعداد أربعة ملفات تسلسل في تنسيق "fasta". يحتوي الملف الأول على كافة تسلسلات الفئة الإيجابية لعملية التدريب (المشار إليها ب "p_train.fasta")؛ يحتوي الملف الثاني على كافة تسلسلات الفئة السالبة لعملية التدريب (المشار إليها ب "n_train.fasta")؛ يحتوي الملف الثالث على كافة تسلسلات الفئة موجبة لعملية الاختبار (المشار إليها إلى "p_test.fasta"); ويحتوي الملف الأخير على كافة تسلسلات الفئة السالبة لعملية الاختبار (المشار إليها ب "n_test.fasta"). يتم توفير نظرة عامة على المخطط الانسيابي لهذا البرنامج التعليمي في الشكل 2، وسيتم ذكر المزيد من التفاصيل أدناه.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. تركيب الجهاز الظاهري

تحميل ملف الجهاز الظاهري من (https://github.com/zhenchengfang/DL-VM).
تحميل برنامج فيرتثلبوإكس من https://www.virtualbox.org.
فك ضغط ملف ".7z" باستخدام البرامج ذات الصلة، مثل "7-Zip" أو "WinRAR" أو "WinZip".
تثبيت برنامج فيرتثلبوإكس بالنقر فوق الزر التالي في كل خطوة.
افتح برنامج فيرتثلبوإكس وانقر فوق الزر جديد لإنشاء جهاز ظاهري.
الخطوة 6: أدخل اسم الجهاز الظاهري المحدد في إطار "الاسم"، وحدد لينكس كنظام تشغيل في إطار "النوع"، وحدد أوبونتو في إطار "الإصدار" وانقر على الزر التالي.
تخصيص حجم الذاكرة للجهاز الظاهري. نوصي المستخدمين بسحب الزر إلى الجزء الأيمن من الشريط الأخضر لتعيين أكبر قدر ممكن من الذاكرة للجهاز الظاهري، ثم انقر فوق الزر التالي.
اختر تحديد استخدام ملف القرص الثابت الظاهري موجود، حدد الملف "VM_Bioinfo.vdi" تحميلها من الخطوة 1.1 ثم انقر فوق الزر إنشاء.
انقر فوق الزر Star لفتح الجهاز الظاهري.
ملاحظة: يظهر الشكل 3 لقطة شاشة سطح المكتب للجهاز الظاهري.

2. إنشاء مجلدات مشتركة لتبادل الملفات بين المضيف الفعلي والجهاز الظاهري

في المضيف الفعلي، قم بإنشاء مجلد مشترك يسمى "shared_host"، وعلى سطح المكتب للجهاز الظاهري، قم بإنشاء مجلد مشترك يسمى "shared_VM".
في شريط القوائم للجهاز الظاهري، انقر فوق الأجهزة، المجلد المشترك، إعدادات المجلدات المشتركة على التوالي.
انقر فوق الزر الموجود في الزاوية العلوية اليمنى.
حدد المجلد المشترك في المضيف الفعلي الذي تم إنشاؤه في الخطوة 2.1 وحدد الخيار تحميل تلقائي. انقر فوق الزر موافق.
أعد تشغيل الجهاز الظاهري.
انقر على زر الماوس الأيمن على سطح المكتب من الجهاز الظاهري وفتح المحطة الطرفية.
نسخ الأمر متابعة إلى المحطة الطرفية:
سودو جبل -t vboxsf shared_host ./سطح المكتب/shared_VM
1. عند مطالبتك بكلمة مرور، أدخل "1" ثم اضغط على مفتاح"Enter"كما هو موضح في الشكل 4.

3. إعداد الملفات لمجموعة التدريب ومجموعة اختبار

نسخ كافة الملفات تسلسل أربعة بتنسيق "fasta" لعملية التدريب والاختبار إلى المجلد "shared_host" المضيف الفعلي. بهذه الطريقة، سوف تحدث كافة الملفات أيضا في المجلد "shared_VM" من الجهاز الظاهري. ثم نسخ الملفات في المجلد "shared_VM" إلى المجلد "DeepLearning" من الجهاز الظاهري.

4. رقمنة التسلسلات البيولوجية باستخدام نموذج ترميز "واحد الساخنة"

انتقل إلى مجلد "DeepLearning" ، انقر فوق النقر بزر الماوس الأيمن وافتح المحطة الطرفية. اكتب الأمر التالي:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(لتسلسل الأحماض الأمينية)
أو
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(لتسلسل الحمض النووي)
ملاحظة: يتم توفير لقطة شاشة لهذه العملية في الشكل 5.

5. تدريب واختبار الشبكة العصبية الاصطناعية

في المحطة الطرفية، اكتب الأمر التالي كما هو موضح في الشكل 6:
بيثون train.py
ملاحظة: ستبدأ عملية التدريب.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

في عملنا السابق، قمنا بتطوير سلسلة من أدوات تصنيف تسلسل للبيانات metagenomic باستخدام نهج مماثل لهذا البرنامج التعليمي^3،^11،¹². كمثال، قمنا بإيداع ملفات تسلسل مجموعة التدريب الفرعية ومجموعة الاختبار من عملنا السابق³^،¹¹ في الجهاز الظاهري.

فانغ وتشو¹¹ تهدف إلى تحديد كامل وجزئي prokaryote فيروس virion البروتينات من بيانات فيروم. الملف "p_train.fasta" يحتوي على شظايا البروتين الفيروس virion لمجموعة التدريب; الملف "n_train.fasta" يحتوي على شظايا البروتين غير الفيروس لمجموعة التدريب; يحتوي الملف "p_test.fasta" على شظايا بروتين الفيروس virion لمجموعة الاختبار؛ والملف "n_test.fasta" يحتوي على شظايا البروتين غير الفيروس لمجموعة الاختبار. يمكن للمستخدم تنفيذ الأمرين التاليين مباشرة لإنشاء الشبكة العصبية:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
و
بيثون train.py

يظهر الأداء في الشكل 7.

فانغ وآخرون³ تهدف إلى تحديد شظايا الحمض النووي phage من شظايا الحمض النووي الكروموسوم البكتيري في البيانات metagenomic. يحتوي الملف "phage_train.fasta" على شظايا الحمض النووي phage لمجموعة التدريب؛ يحتوي الملف "chromosome_train.fasta" على شظايا الحمض النووي الكروموسوم لمجموعة التدريب؛ يحتوي الملف "phage_test.fasta" على شظايا الحمض النووي phage لمجموعة الاختبار; والملف "chromosome_test.fasta" يحتوي على شظايا الحمض النووي الكروموسوم لمجموعة الاختبار. يمكن للمستخدم تنفيذ الأمرين التاليين مباشرة لإنشاء الشبكة العصبية:
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
و
بيثون train.py

يظهر الأداء في الشكل 8.

تجدر الإشارة إلى أنه نظرا لأن الخوارزمية تحتوي على بعض العمليات التي تحتوي على عشوائية، قد تكون النتائج أعلاه مختلفة قليلا إذا كان المستخدمون إعادة تشغيل البرنامج النصي.

الشكل 1. نظرة عامة على تقنية التعلم العميق. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 2. نظرة عامة على المخطط الانسيابي لهذا البرنامج التعليمي. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 3. لقطة شاشة سطح المكتب للجهاز الظاهري. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 4. لقطة شاشة لتنشيط المجلدات المشتركة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 5. لقطة شاشة لعملية رقمنة التسلسل. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 6. تدريب واختبار الشبكة العصبية الاصطناعية. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 7. أداء فيروس prokaryote فيريون البروتين شظايا تحديد. معايير التقييم هي Sn=TP/ (TP+FN) ، Sp=TN/ (TN+FP) ، Acc= (TP+TN) / (TP+TN+FN+FP) و AUC. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل 8. أداء تحديد شظايا الحمض النووي phage. معايير التقييم هي Sn=TP/ (TP+FN) ، Sp=TN/ (TN+FP) ، Acc= (TP+TN) / (TP+TN+FN+FP) و AUC. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

المواد التكميلية: الرجاء الضغط هنا لتحميل هذا الملف.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

يوفر هذا البرنامج التعليمي لمحة عامة لعلماء الأحياء والمبتدئين تصميم خوارزمية حول كيفية بناء إطار التعلم العميق سهلة الاستخدام لتصنيف التسلسل البيولوجي في البيانات metagenomic. يهدف هذا البرنامج التعليمي إلى توفير فهم بديهي للتعلم العميق ومعالجة التحدي الذي يواجه المبتدئين في كثير من الأحيان صعوبة في تثبيت حزمة التعلم العميق وكتابة التعليمات البرمجية للخوارزمية. بالنسبة لبعض مهام التصنيف البسيطة، يمكن للمستخدمين استخدام إطار العمل لتنفيذ مهام التصنيف.

وبالنظر إلى أن العديد من علماء الأحياء ليسوا على دراية بخط الأوامر لنظام التشغيل Linux ، قمنا مسبقا بتكويد جميع البرامج التابعة في جهاز افتراضي. وبهذه الطريقة، يمكن للمستخدم مباشرة تشغيل التعليمات البرمجية في الجهاز الظاهري باتباع البروتوكول المذكور أعلاه. بالإضافة إلى ذلك، إذا كان المستخدمون على دراية بنظام التشغيل Linux وبرمجة Python، يمكنهم أيضا تشغيل هذا البروتوكول مباشرة على الخادم أو الكمبيوتر المحلي. وبهذه الطريقة، يجب على المستخدم تثبيت البرنامج التابع التالي مسبقا:

بيثون 2.7.12 (https://www.python.org/)
حزم بيثون:
نومب 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
تينسورفلو 1.4.1 (https://www.tensorflow.org/)
كيراس 2.0.8 (https://keras.io/)
وقت تشغيل مكون MATLAB (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

دليل عملنا السابق³ يحتوي على وصف موجز للتثبيت. لاحظ أن رقم الإصدار لكل حزمة يتوافق مع الإصدار الذي استخدمناه في التعليمات البرمجية. ميزة تشغيل التعليمات البرمجية في الخادم أو الكمبيوتر المحلي بدون الجهاز الظاهري هو أن التعليمات البرمجية يمكن تسريع مع وحدة معالجة الرسومات بهذه الطريقة، والتي يمكن أن توفر الكثير من الوقت في عملية التدريب. وبهذه الطريقة، يجب على المستخدم تثبيت إصدار وحدة معالجة الرسومات من TensorFlow (انظر دليل العمل السابق³).

10- ويرد وصف لبعض الخطوات الحاسمة في البروتوكول على النحو التالي. في الخطوة 4.1، يجب استبدال أسماء الملفات من "p_train.fasta" و "n_train.fasta" و "p_test.fasta" و "n_test.fasta" بأسماء الملفات المستخدمة. لا يمكن تغيير ترتيب هذه الملفات الأربعة في هذا الأمر. إذا كانت الملفات تحتوي على تسلسلات الأحماض الأمينية، يجب أن تكون المعلمة الأخيرة "aa"؛ إذا كانت الملفات تحتوي على تسلسلات الحمض النووي، يجب أن تكون المعلمة الأخيرة "nt". يستخدم هذا الأمر نموذج الترميز "واحد الساخنة" لرقمنة التسلسلات البيولوجية. يتم توفير مقدمة من نموذج الترميز "واحد الساخنة" في المواد التكميلية. في الخطوة 5.1، لأنه لا يمكن تسريع الجهاز الظاهري مع وحدة معالجة الرسومات، قد تستغرق هذه العملية بضع ساعات أو عدة أيام، اعتمادا على حجم البيانات. يتم عرض أشرطة التقدم لكل حقبة تكرار في المحطة الطرفية. لقد حددنا عدد العهود إلى 50 ، وبالتالي ، سيتم عرض ما مجموعه 50 شريط تقدم عند الانتهاء من عملية التدريب. عند الانتهاء من عملية الاختبار، سيتم عرض دقة مجموعة الاختبار في المحطة الطرفية. في المجلد "DeepLearning" للجهاز الظاهري، سيتم إنشاء ملف يسمى "predict.csv". يحتوي هذا الملف على كافة درجات التنبؤ لبيانات الاختبار. ويتوافق ترتيب هذه الدرجات مع ترتيب التسلسل في "p_test.fasta" و "n_test.fasta" (يتوافق النصف الأول من هذه الدرجات مع "p_test.fasta"، في حين أن النصف الثاني من هذه الدرجات يتوافق مع "n_test.fatsa"). إذا أراد المستخدمون إجراء تنبؤات للتسلسلات التي فئاتها الحقيقية غير معروفة، يمكنهم أيضا إيداع هذه التسلسلات غير معروف إما في ملف "p_test.fasta" أو "n_test.fasta". وبهذه الطريقة، سيتم عرض عشرات هذه التسلسلات غير المعروفة أيضا في ملف "predict.csv"، ولكن عرض "الدقة" في المحطة الطرفية غير منطقي. يستخدم هذا السيناريو شبكة عصبية ملتوية لأداء التصنيف. يظهر هيكل الشبكة العصبية ورمز الشبكة العصبية في المادة التكميلية.

واحدة من خصائص التعلم العميق هو أن العديد من إعدادات المعلمة تتطلب بعض الخبرة، والتي يمكن أن تشكل تحديا كبيرا للمبتدئين. لتجنب تخوف المبتدئين الناجم عن عدد كبير من الصيغ ، ونحن لا نركز على المبادئ الرياضية للتعلم العميق ، وفي الجهاز الظاهري ، ونحن لا نقدم واجهة خاصة إعداد المعلمة. على الرغم من أن هذا قد يكون خيارا جيدا للمبتدئين، اختيار المعلمة غير مناسب قد يؤدي أيضا إلى انخفاض في الدقة. للسماح للمبتدئين بتجربة أفضل لكيفية تعديل المعلمات ، في البرنامج النصي "train.py" ، نضيف بعض التعليقات إلى التعليمات البرمجية ذات الصلة ، ويمكن للمستخدمين تعديل المعلمات ذات الصلة ، مثل عدد حبات الالتواء ، لمعرفة كيفية تأثير هذه المعلمات على الأداء.

بالإضافة إلى ذلك، يجب تشغيل العديد من برامج التعلم العميق تحت وحدة معالجة الرسومات. ومع ذلك، تكوين GPU يتطلب أيضا بعض المهارات الكمبيوتر التي قد تكون صعبة للمهنيين غير الكمبيوتر; لذلك، نختار لتحسين التعليمات البرمجية في جهاز ظاهري.

عند حل مهام تصنيف التسلسل الأخرى استنادا إلى هذا المبدأ التوجيهي، يحتاج المستخدمون فقط إلى استبدال ملفات التسلسل الأربعة ببياناتهم الخاصة. على سبيل المثال، إذا كان المستخدمون بحاجة إلى التمييز بين التسلسلات المشتقة من البلازميد والمشتقة من الكروموسومات في البيانات الميتاجنومية، يمكنهم تنزيل جينوم البلازميد مباشرة (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) والجينوم الكروموسوم البكتيري (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) من قاعدة بيانات RefSeq وفصل الجينوم إلى مجموعة تدريب ومجموعة اختبار. تجدر الإشارة إلى أن تسلسل الحمض النووي في البيانات الميتاجنومية غالبا ما تكون مجزأة بدلا من الجينوم الكامل. في مثل هذه الحالات، يمكن للمستخدمين استخدام أداة MetaSim¹³ لاستخراج جزء الحمض النووي من الجينوم الكامل. MetaSim هو أداة سهلة الاستخدام مع واجهة المستخدم الرسومية ، ويمكن للمستخدمين إنهاء معظم العمليات باستخدام الماوس دون كتابة أي أمر على لوحة المفاتيح. لتبسيط العملية للمبتدئين، تم تصميم البرنامج التعليمي لدينا لمهمة تصنيف من فئتين. ومع ذلك، نحن بحاجة إلى إجراء متعدد الفئات في العديد من المهام. في مثل هذه الحالات، يمكن للمبتدئين محاولة فصل مهمة التصنيف المتعدد إلى عدة مهام تصنيف من فئتين. على سبيل المثال ، لتحديد مضيف phage ، قام تشانغ وآخرون ببناء 9 مصنفين من فئتين لتحديد ما إذا كان تسلسل phage معين يمكن أن يصيب مضيفا معينا.

يتم إيداع الصفحة الرئيسية لهذا البرنامج التعليمي على موقع GitHub https://github.com/zhenchengfang/DL-VM. سيتم وصف أي تحديث من البرنامج التعليمي على الموقع. يمكن للمستخدمين أيضا إثارة أسئلتهم حول هذا البرنامج التعليمي على الموقع.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

ويعلن أصحاب البلاغ أنه لا يوجد تضارب في المصالح.

Acknowledgments

وقد دعم هذا التحقيق ماليا المؤسسة الوطنية للعلوم الطبيعية في الصين (81925026، 82002201، 81800746، 82102508).

Materials

Name	Company	Catalog Number	Comments
PC or server	NA	NA	Suggested memory: >6GB
VirtualBox software	NA	NA	Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Genetics

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.