מדריך זה מתאר שיטה פשוטה לבניית אלגוריתם למידה עמוקה לביצוע סיווג רצף של 2 מחלקות של נתונים מטגנומיים.
מגוון משימות סיווג רצף ביולוגי, כגון סיווג מינים, סיווג תפקודי גנים וסיווג מארח ויראלי, צפויים בתהליכים ניתוחי נתונים מטגנומיים רבים. מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, נדרשים במחקרים רבים אלגוריתמים לסיווג בעלי ביצועים גבוהים. ביולוגים נתקלים לעתים קרובות באתגרים במציאת כלי סיווג וביאור מתאימים למשימה מסוימת ולעתים קרובות אינם מסוגלים לבנות אלגוריתם מקביל בעצמם בגלל היעדר הידע המתמטי והחישובי הדרוש. טכניקות למידה עמוקה הפכו לאחרונה לנושא פופולרי ומראים יתרונות חזקים במשימות סיווג רבות. עד כה פותחו חבילות רבות של למידה עמוקה ארוזות מאוד, המאפשרות לביולוגים לבנות מסגרות למידה עמוקה בהתאם לצרכים שלהם ללא ידע מעמיק בפרטי האלגוריתם. במדריך זה, אנו מספקים קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ללא צורך בידע מתמטי מספיק או מיומנויות תכנות. כל הקוד ממוטב במחשב וירטואלי, כך שמשתמשים יכולים להפעיל ישירות את הקוד באמצעות הנתונים שלהם.
טכניקת הריצוף המטגנומית עוקפת את תהליך בידוד המתח ומרצפת ישירות את הדנ”א הכולל במדגם סביבתי. לפיכך, נתונים מטגנומיים מכילים DNA של אורגניזמים שונים, ורוב הרצפים הביולוגיים הם מאורגניזמים חדשניים שאינם קיימים במסד הנתונים הנוכחי. על פי מטרות מחקר שונות, ביולוגים צריכים לסווג רצפים אלה מנקודות מבט שונות, כגון סיווג טקסונומי1, סיווג חיידקי וירוס2,3,4, סיווג כרומוזום-פלסמיד3,5,6,7, וביאור תפקוד גנים (כגון סיווג גנים עמידים לאנטיביוטיקה8 וסיווג גורם הגברה9 ). מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, אלגוריתמים של ab initio, שאינם מסתמכים על מסדי נתונים ידועים לסיווג רצף (כולל סיווג DNA וסיווג חלבונים), הם גישה חשובה בניתוח נתונים מטגנומיים. עם זאת, העיצוב של אלגוריתמים כאלה דורש ידע מתמטי מקצועי וכישורי תכנות; לכן, ביולוגים רבים ומתחילים בעיצוב אלגוריתמים מתקשים לבנות אלגוריתם סיווג שיתאים לצרכים שלהם.
עם התפתחות הבינה המלאכותית, אלגוריתמים של למידה עמוקה היו בשימוש נרחב בתחום הביו-אינפורמטיקה כדי להשלים משימות כגון סיווג רצף בניתוח מטגנומי. כדי לעזור למתחילים להבין אלגוריתמים של למידה עמוקה, אנו מתארים את האלגוריתם בצורה קלה להבנה להלן.
סקירה כללית של טכניקת למידה עמוקה מוצגת באיור 1. טכנולוגיית הליבה של אלגוריתם למידה עמוקה היא רשת עצבית מלאכותית, בהשראת מבנה המוח האנושי. מנקודת מבט מתמטית, רשת עצבית מלאכותית עשויה להיחשב כפונקציה מורכבת. כל אובייקט (כגון רצף DNA, תמונה או סרטון וידאו) הוא תחילה דיגיטלי. האובייקט הדיגיטלי מיובא לאחר מכן לפונקציה. המשימה של הרשת העצבית המלאכותית היא לתת תגובה נכונה על פי נתוני הקלט. לדוגמה, אם רשת עצבית מלאכותית בנויה כדי לבצע משימת סיווג של 2 מחלקות, הרשת צריכה להפיק ציון הסתברות שהוא בין 0-1 עבור כל אובייקט. הרשת העצבית צריכה לתת לאובייקט החיובי ציון גבוה יותר (כגון ציון גבוה מ- 0.5) תוך מתן ציון נמוך יותר לאובייקט השלילי. כדי להשיג מטרה זו, רשת עצבית מלאכותית בנויה עם תהליכי האימון והבדיקה. במהלך תהליכים אלה, נתונים ממסד הנתונים הידוע יורדים ולאחר מכן מחולקים ערכת הדרכה וקצת בדיקה. כל אובייקט הוא דיגיטציה בצורה נכונה ומקבל תווית (“1” עבור אובייקטים חיוביים ו- “0” עבור אובייקטים שליליים). בתהליך האימון, הנתונים הדיגיטליים בערכת האימונים נותנים לרשת העצבית. הרשת העצבית המלאכותית בונה פונקציית אובדן המייצגת את השונות בין ציון הפלט של אובייקט הקלט לבין התווית המתאימה של האובייקט. לדוגמה, אם התווית של אובייקט הקלט היא “1” בעוד שציון הפלט הוא “0.1”, פונקציית ההפסד תהיה גבוהה; ואם התווית של אובייקט הקלט היא “0” בעוד ציון הפלט הוא “0.1”, פונקציית ההפסד תהיה נמוכה. הרשת העצבית המלאכותית משתמשת באלגוריתם איטרטיבי ספציפי שמתאים את הפרמטרים של הרשת העצבית כדי למזער את פונקציית האובדן. תהליך האימון מסתיים כאשר פונקציית האובדן אינה יכולה להיות מופחתת עוד יותר. לבסוף, הנתונים בערכת הבדיקה משמשים לבדיקת הרשת העצבית הקבועה, והיכולת של הרשת העצבית לחשב את התוויות הנכונות עבור האובייקטים החדשים מוערכת. עקרונות נוספים של אלגוריתמים למידה עמוקה ניתן למצוא בסקירה LeCun ואח ‘. 10.
למרות שהעקרונות המתמטיים של אלגוריתמי למידה עמוקה עשויים להיות מורכבים, חבילות למידה עמוקה רבות מאוד מפותחות לאחרונה, ומתכנתים יכולים לבנות ישירות רשת עצבית מלאכותית פשוטה עם כמה שורות קוד.
כדי לסייע לביולוגים ולאלגוריתמים לעצב מתחילים להתחיל להשתמש בלמידה עמוקה מהר יותר, מדריך זה מספק קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף. מסגרת זו משתמשת בצורת הקידוד “חד-חמה” כמודל מתמטי כדי להפוך את הרצפים הביולוגיים לדיגיטליים ומשתמשת ברשת עצבית מפותלת כדי לבצע את משימת הסיווג (ראה החומר המשלים). הדבר היחיד שהמשתמשים צריכים לעשות לפני השימוש בקו מנחה זה הוא להכין ארבעה קבצי רצף בתבנית “fasta”. הקובץ הראשון מכיל את כל הרצפים של הכיתה החיובית עבור תהליך האימון (המכונה “p_train.fasta”); הקובץ השני מכיל את כל הרצפים של הכיתה השלילית עבור תהליך האימון (המכונה “n_train.fasta”); הקובץ השלישי מכיל את כל הרצפים של המחלקה החיובית עבור תהליך הבדיקה (המכונה “p_test.fasta”); והקובץ האחרון מכיל את כל הרצפים של המחלקה השלילית עבור תהליך הבדיקה (המכונה “n_test.fasta”). סקירת תרשים הזרימה של מדריך זה מסופקת באיור 2, ופרטים נוספים יוזכרו להלן.
מדריך זה מספק סקירה כללית עבור ביולוגים ואלגוריתמים לעצב מתחילים על איך לבנות מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ביולוגי בנתונים metagenomic. מדריך זה נועד לספק הבנה אינטואיטיבית של למידה עמוקה ולהתמודד עם האתגר כי למתחילים לעתים קרובות מתקשים להתקין את חבילת למידה עמוקה וכתיבת הקוד עבו?…
The authors have nothing to disclose.
חקירה זו נתמכה כלכלית על ידי הקרן הלאומית למדעי הטבע של סין (81925026, 82002201, 81800746, 82102508).
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |