Summary

פלטפורמת מכונה וירטואלית לאנשי מקצוע שאינם אנשי מחשב לשימוש בלמידה עמוקה כדי לסווג רצפים ביולוגיים של נתונים מטגנומיים

Published: September 25, 2021
doi:

Summary

מדריך זה מתאר שיטה פשוטה לבניית אלגוריתם למידה עמוקה לביצוע סיווג רצף של 2 מחלקות של נתונים מטגנומיים.

Abstract

מגוון משימות סיווג רצף ביולוגי, כגון סיווג מינים, סיווג תפקודי גנים וסיווג מארח ויראלי, צפויים בתהליכים ניתוחי נתונים מטגנומיים רבים. מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, נדרשים במחקרים רבים אלגוריתמים לסיווג בעלי ביצועים גבוהים. ביולוגים נתקלים לעתים קרובות באתגרים במציאת כלי סיווג וביאור מתאימים למשימה מסוימת ולעתים קרובות אינם מסוגלים לבנות אלגוריתם מקביל בעצמם בגלל היעדר הידע המתמטי והחישובי הדרוש. טכניקות למידה עמוקה הפכו לאחרונה לנושא פופולרי ומראים יתרונות חזקים במשימות סיווג רבות. עד כה פותחו חבילות רבות של למידה עמוקה ארוזות מאוד, המאפשרות לביולוגים לבנות מסגרות למידה עמוקה בהתאם לצרכים שלהם ללא ידע מעמיק בפרטי האלגוריתם. במדריך זה, אנו מספקים קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ללא צורך בידע מתמטי מספיק או מיומנויות תכנות. כל הקוד ממוטב במחשב וירטואלי, כך שמשתמשים יכולים להפעיל ישירות את הקוד באמצעות הנתונים שלהם.

Introduction

טכניקת הריצוף המטגנומית עוקפת את תהליך בידוד המתח ומרצפת ישירות את הדנ”א הכולל במדגם סביבתי. לפיכך, נתונים מטגנומיים מכילים DNA של אורגניזמים שונים, ורוב הרצפים הביולוגיים הם מאורגניזמים חדשניים שאינם קיימים במסד הנתונים הנוכחי. על פי מטרות מחקר שונות, ביולוגים צריכים לסווג רצפים אלה מנקודות מבט שונות, כגון סיווג טקסונומי1, סיווג חיידקי וירוס2,3,4, סיווג כרומוזום-פלסמיד3,5,6,7, וביאור תפקוד גנים (כגון סיווג גנים עמידים לאנטיביוטיקה8 וסיווג גורם הגברה9 ). מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, אלגוריתמים של ab initio, שאינם מסתמכים על מסדי נתונים ידועים לסיווג רצף (כולל סיווג DNA וסיווג חלבונים), הם גישה חשובה בניתוח נתונים מטגנומיים. עם זאת, העיצוב של אלגוריתמים כאלה דורש ידע מתמטי מקצועי וכישורי תכנות; לכן, ביולוגים רבים ומתחילים בעיצוב אלגוריתמים מתקשים לבנות אלגוריתם סיווג שיתאים לצרכים שלהם.

עם התפתחות הבינה המלאכותית, אלגוריתמים של למידה עמוקה היו בשימוש נרחב בתחום הביו-אינפורמטיקה כדי להשלים משימות כגון סיווג רצף בניתוח מטגנומי. כדי לעזור למתחילים להבין אלגוריתמים של למידה עמוקה, אנו מתארים את האלגוריתם בצורה קלה להבנה להלן.

סקירה כללית של טכניקת למידה עמוקה מוצגת באיור 1. טכנולוגיית הליבה של אלגוריתם למידה עמוקה היא רשת עצבית מלאכותית, בהשראת מבנה המוח האנושי. מנקודת מבט מתמטית, רשת עצבית מלאכותית עשויה להיחשב כפונקציה מורכבת. כל אובייקט (כגון רצף DNA, תמונה או סרטון וידאו) הוא תחילה דיגיטלי. האובייקט הדיגיטלי מיובא לאחר מכן לפונקציה. המשימה של הרשת העצבית המלאכותית היא לתת תגובה נכונה על פי נתוני הקלט. לדוגמה, אם רשת עצבית מלאכותית בנויה כדי לבצע משימת סיווג של 2 מחלקות, הרשת צריכה להפיק ציון הסתברות שהוא בין 0-1 עבור כל אובייקט. הרשת העצבית צריכה לתת לאובייקט החיובי ציון גבוה יותר (כגון ציון גבוה מ- 0.5) תוך מתן ציון נמוך יותר לאובייקט השלילי. כדי להשיג מטרה זו, רשת עצבית מלאכותית בנויה עם תהליכי האימון והבדיקה. במהלך תהליכים אלה, נתונים ממסד הנתונים הידוע יורדים ולאחר מכן מחולקים ערכת הדרכה וקצת בדיקה. כל אובייקט הוא דיגיטציה בצורה נכונה ומקבל תווית (“1” עבור אובייקטים חיוביים ו- “0” עבור אובייקטים שליליים). בתהליך האימון, הנתונים הדיגיטליים בערכת האימונים נותנים לרשת העצבית. הרשת העצבית המלאכותית בונה פונקציית אובדן המייצגת את השונות בין ציון הפלט של אובייקט הקלט לבין התווית המתאימה של האובייקט. לדוגמה, אם התווית של אובייקט הקלט היא “1” בעוד שציון הפלט הוא “0.1”, פונקציית ההפסד תהיה גבוהה; ואם התווית של אובייקט הקלט היא “0” בעוד ציון הפלט הוא “0.1”, פונקציית ההפסד תהיה נמוכה. הרשת העצבית המלאכותית משתמשת באלגוריתם איטרטיבי ספציפי שמתאים את הפרמטרים של הרשת העצבית כדי למזער את פונקציית האובדן. תהליך האימון מסתיים כאשר פונקציית האובדן אינה יכולה להיות מופחתת עוד יותר. לבסוף, הנתונים בערכת הבדיקה משמשים לבדיקת הרשת העצבית הקבועה, והיכולת של הרשת העצבית לחשב את התוויות הנכונות עבור האובייקטים החדשים מוערכת. עקרונות נוספים של אלגוריתמים למידה עמוקה ניתן למצוא בסקירה LeCun ואח ‘. 10.

למרות שהעקרונות המתמטיים של אלגוריתמי למידה עמוקה עשויים להיות מורכבים, חבילות למידה עמוקה רבות מאוד מפותחות לאחרונה, ומתכנתים יכולים לבנות ישירות רשת עצבית מלאכותית פשוטה עם כמה שורות קוד.

כדי לסייע לביולוגים ולאלגוריתמים לעצב מתחילים להתחיל להשתמש בלמידה עמוקה מהר יותר, מדריך זה מספק קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף. מסגרת זו משתמשת בצורת הקידוד “חד-חמה” כמודל מתמטי כדי להפוך את הרצפים הביולוגיים לדיגיטליים ומשתמשת ברשת עצבית מפותלת כדי לבצע את משימת הסיווג (ראה החומר המשלים). הדבר היחיד שהמשתמשים צריכים לעשות לפני השימוש בקו מנחה זה הוא להכין ארבעה קבצי רצף בתבנית “fasta”. הקובץ הראשון מכיל את כל הרצפים של הכיתה החיובית עבור תהליך האימון (המכונה “p_train.fasta”); הקובץ השני מכיל את כל הרצפים של הכיתה השלילית עבור תהליך האימון (המכונה “n_train.fasta”); הקובץ השלישי מכיל את כל הרצפים של המחלקה החיובית עבור תהליך הבדיקה (המכונה “p_test.fasta”); והקובץ האחרון מכיל את כל הרצפים של המחלקה השלילית עבור תהליך הבדיקה (המכונה “n_test.fasta”). סקירת תרשים הזרימה של מדריך זה מסופקת באיור 2, ופרטים נוספים יוזכרו להלן.

Protocol

1. התקנת המכונה הווירטואלית הורד את קובץ המחשב הווירטואלי מ -(https://github.com/zhenchengfang/DL-VM). הורד את תוכנת VirtualBox https://www.virtualbox.org. שחרר לחץ על הקובץ “.7z” באמצעות תוכנות קשורות, כגון “7-Zip”, “WinRAR” או “WinZip”. התקן את תוכנת VirtualBox על-ידי לחיצה על לחצן הבא בכל שלב. פתח את תוכנת Virt…

Representative Results

בעבודה הקודמת שלנו, פיתחנו סדרה של כלי סיווג רצף עבור נתונים metagenomic באמצעות גישה דומה זה הדרכה3,11,12. כדוגמה, הפקדנו את קבצי הרצף של קבוצת המשנה של ערכת האימונים ומבחן שנקבע מהעבודההקודמתשלנו 3,11 במכונה הוויר?…

Discussion

מדריך זה מספק סקירה כללית עבור ביולוגים ואלגוריתמים לעצב מתחילים על איך לבנות מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ביולוגי בנתונים metagenomic. מדריך זה נועד לספק הבנה אינטואיטיבית של למידה עמוקה ולהתמודד עם האתגר כי למתחילים לעתים קרובות מתקשים להתקין את חבילת למידה עמוקה וכתיבת הקוד עבו?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

חקירה זו נתמכה כלכלית על ידי הקרן הלאומית למדעי הטבע של סין (81925026, 82002201, 81800746, 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video