Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

פלטפורמת מכונה וירטואלית לאנשי מקצוע שאינם אנשי מחשב לשימוש בלמידה עמוקה כדי לסווג רצפים ביולוגיים של נתונים מטגנומיים

Published: September 25, 2021 doi: 10.3791/62250

Summary

מדריך זה מתאר שיטה פשוטה לבניית אלגוריתם למידה עמוקה לביצוע סיווג רצף של 2 מחלקות של נתונים מטגנומיים.

Abstract

מגוון משימות סיווג רצף ביולוגי, כגון סיווג מינים, סיווג תפקודי גנים וסיווג מארח ויראלי, צפויים בתהליכים ניתוחי נתונים מטגנומיים רבים. מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, נדרשים במחקרים רבים אלגוריתמים לסיווג בעלי ביצועים גבוהים. ביולוגים נתקלים לעתים קרובות באתגרים במציאת כלי סיווג וביאור מתאימים למשימה מסוימת ולעתים קרובות אינם מסוגלים לבנות אלגוריתם מקביל בעצמם בגלל היעדר הידע המתמטי והחישובי הדרוש. טכניקות למידה עמוקה הפכו לאחרונה לנושא פופולרי ומראים יתרונות חזקים במשימות סיווג רבות. עד כה פותחו חבילות רבות של למידה עמוקה ארוזות מאוד, המאפשרות לביולוגים לבנות מסגרות למידה עמוקה בהתאם לצרכים שלהם ללא ידע מעמיק בפרטי האלגוריתם. במדריך זה, אנו מספקים קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ללא צורך בידע מתמטי מספיק או מיומנויות תכנות. כל הקוד ממוטב במחשב וירטואלי, כך שמשתמשים יכולים להפעיל ישירות את הקוד באמצעות הנתונים שלהם.

Introduction

טכניקת הריצוף המטגנומית עוקפת את תהליך בידוד המתח ומרצפת ישירות את הדנ"א הכולל במדגם סביבתי. לפיכך, נתונים מטגנומיים מכילים DNA של אורגניזמים שונים, ורוב הרצפים הביולוגיים הם מאורגניזמים חדשניים שאינם קיימים במסד הנתונים הנוכחי. על פי מטרות מחקר שונות, ביולוגים צריכים לסווג רצפים אלה מנקודות מבט שונות, כגון סיווג טקסונומי1, סיווג חיידקי וירוס2,3,4, סיווג כרומוזום-פלסמיד3,5,6,7, וביאור תפקוד גנים (כגון סיווג גנים עמידים לאנטיביוטיקה8 וסיווג גורם הגברה9 ). מכיוון שנתונים מטגנומיים מכילים מספר רב של מינים וגנים חדשניים, אלגוריתמים של ab initio, שאינם מסתמכים על מסדי נתונים ידועים לסיווג רצף (כולל סיווג DNA וסיווג חלבונים), הם גישה חשובה בניתוח נתונים מטגנומיים. עם זאת, העיצוב של אלגוריתמים כאלה דורש ידע מתמטי מקצועי וכישורי תכנות; לכן, ביולוגים רבים ומתחילים בעיצוב אלגוריתמים מתקשים לבנות אלגוריתם סיווג שיתאים לצרכים שלהם.

עם התפתחות הבינה המלאכותית, אלגוריתמים של למידה עמוקה היו בשימוש נרחב בתחום הביו-אינפורמטיקה כדי להשלים משימות כגון סיווג רצף בניתוח מטגנומי. כדי לעזור למתחילים להבין אלגוריתמים של למידה עמוקה, אנו מתארים את האלגוריתם בצורה קלה להבנה להלן.

סקירה כללית של טכניקת למידה עמוקה מוצגת באיור 1. טכנולוגיית הליבה של אלגוריתם למידה עמוקה היא רשת עצבית מלאכותית, בהשראת מבנה המוח האנושי. מנקודת מבט מתמטית, רשת עצבית מלאכותית עשויה להיחשב כפונקציה מורכבת. כל אובייקט (כגון רצף DNA, תמונה או סרטון וידאו) הוא תחילה דיגיטלי. האובייקט הדיגיטלי מיובא לאחר מכן לפונקציה. המשימה של הרשת העצבית המלאכותית היא לתת תגובה נכונה על פי נתוני הקלט. לדוגמה, אם רשת עצבית מלאכותית בנויה כדי לבצע משימת סיווג של 2 מחלקות, הרשת צריכה להפיק ציון הסתברות שהוא בין 0-1 עבור כל אובייקט. הרשת העצבית צריכה לתת לאובייקט החיובי ציון גבוה יותר (כגון ציון גבוה מ- 0.5) תוך מתן ציון נמוך יותר לאובייקט השלילי. כדי להשיג מטרה זו, רשת עצבית מלאכותית בנויה עם תהליכי האימון והבדיקה. במהלך תהליכים אלה, נתונים ממסד הנתונים הידוע יורדים ולאחר מכן מחולקים ערכת הדרכה וקצת בדיקה. כל אובייקט הוא דיגיטציה בצורה נכונה ומקבל תווית ("1" עבור אובייקטים חיוביים ו- "0" עבור אובייקטים שליליים). בתהליך האימון, הנתונים הדיגיטליים בערכת האימונים נותנים לרשת העצבית. הרשת העצבית המלאכותית בונה פונקציית אובדן המייצגת את השונות בין ציון הפלט של אובייקט הקלט לבין התווית המתאימה של האובייקט. לדוגמה, אם התווית של אובייקט הקלט היא "1" בעוד שציון הפלט הוא "0.1", פונקציית ההפסד תהיה גבוהה; ואם התווית של אובייקט הקלט היא "0" בעוד ציון הפלט הוא "0.1", פונקציית ההפסד תהיה נמוכה. הרשת העצבית המלאכותית משתמשת באלגוריתם איטרטיבי ספציפי שמתאים את הפרמטרים של הרשת העצבית כדי למזער את פונקציית האובדן. תהליך האימון מסתיים כאשר פונקציית האובדן אינה יכולה להיות מופחתת עוד יותר. לבסוף, הנתונים בערכת הבדיקה משמשים לבדיקת הרשת העצבית הקבועה, והיכולת של הרשת העצבית לחשב את התוויות הנכונות עבור האובייקטים החדשים מוערכת. עקרונות נוספים של אלגוריתמים למידה עמוקה ניתן למצוא בסקירה LeCun ואח '. 10.

למרות שהעקרונות המתמטיים של אלגוריתמי למידה עמוקה עשויים להיות מורכבים, חבילות למידה עמוקה רבות מאוד מפותחות לאחרונה, ומתכנתים יכולים לבנות ישירות רשת עצבית מלאכותית פשוטה עם כמה שורות קוד.

כדי לסייע לביולוגים ולאלגוריתמים לעצב מתחילים להתחיל להשתמש בלמידה עמוקה מהר יותר, מדריך זה מספק קו מנחה לבניית מסגרת למידה עמוקה קלה לשימוש לסיווג רצף. מסגרת זו משתמשת בצורת הקידוד "חד-חמה" כמודל מתמטי כדי להפוך את הרצפים הביולוגיים לדיגיטליים ומשתמשת ברשת עצבית מפותלת כדי לבצע את משימת הסיווג (ראה החומר המשלים). הדבר היחיד שהמשתמשים צריכים לעשות לפני השימוש בקו מנחה זה הוא להכין ארבעה קבצי רצף בתבנית "fasta". הקובץ הראשון מכיל את כל הרצפים של הכיתה החיובית עבור תהליך האימון (המכונה "p_train.fasta"); הקובץ השני מכיל את כל הרצפים של הכיתה השלילית עבור תהליך האימון (המכונה "n_train.fasta"); הקובץ השלישי מכיל את כל הרצפים של המחלקה החיובית עבור תהליך הבדיקה (המכונה "p_test.fasta"); והקובץ האחרון מכיל את כל הרצפים של המחלקה השלילית עבור תהליך הבדיקה (המכונה "n_test.fasta"). סקירת תרשים הזרימה של מדריך זה מסופקת באיור 2, ופרטים נוספים יוזכרו להלן.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. התקנת המכונה הווירטואלית

  1. הורד את קובץ המחשב הווירטואלי מ -(https://github.com/zhenchengfang/DL-VM).
  2. הורד את תוכנת VirtualBox https://www.virtualbox.org.
  3. שחרר לחץ על הקובץ ".7z" באמצעות תוכנות קשורות, כגון "7-Zip", "WinRAR" או "WinZip".
  4. התקן את תוכנת VirtualBox על-ידי לחיצה על לחצן הבא בכל שלב.
  5. פתח את תוכנת VirtualBox ולחץ על לחצן חדש כדי ליצור מחשב וירטואלי.
  6. שלב 6: הזן את שם המחשב הווירטואלי שצוין במסגרת "שם", בחר לינוקס כמערכת ההפעלה במסגרת "הקלד", בחר באובוונטו במסגרת "גירסה" ולחץ על לחצן הבא.
  7. הקצה את גודל הזיכרון של המחשב הווירטואלי. אנו ממליצים למשתמשים למשוך את הלחצן לחלק הימני ביותר של הסרגל הירוק כדי להקצות זיכרון רב ככל האפשר למחשב הווירטואלי ולאחר מכן ללחוץ על לחצן הבא.
  8. בחר את בחירת קובץ דיסק קשיח וירטואלי קיים, בחר את הקובץ "VM_Bioinfo.vdi" שהורד מהשלב 1.1 ולאחר מכן לחץ על לחצן צור.
  9. לחץ על לחצן כוכב כדי לפתוח את המחשב הווירטואלי.
    הערה: איור 3 מציג את צילום המסך של שולחן העבודה של המחשב הווירטואלי.

2. יצירת תיקיות משותפות עבור קבצים המחליפים בין המחשב המארח הפיזי למחשב הווירטואלי

  1. במחשב המארח הפיזי, צור תיקיה משותפת בשם "shared_host", ובשולחן העבודה של המחשב הווירטואלי, צור תיקיה משותפת בשם "shared_VM".
  2. בשורת התפריטים של המחשב הווירטואלי, לחץ על התקנים, תיקיה משותפת, הגדרות תיקיות משותפות ברציפות.
  3. לחץ על הלחצן בפינה השמאלית העליונה.
  4. בחר את התיקיה המשותפת במחשב המארח הפיזי שנוצר בשלב 2.1 ובחר באפשרות טעינה אוטומטית. לחץ על לחצן אישור.
  5. הפעל מחדש את המחשב הווירטואלי.
  6. לחץ על הלחיצה הימנית על שולחן העבודה של המחשב הווירטואלי ופתח את המסוף.
  7. העתק את הפקודה הבאות למסוף:
    sudo mount -t vboxsf shared_host ./Desktop/shared_VM
    1. כאשר תתבקש להזין סיסמה, הזן "1" והקשו על מקש"Enter",כפי שמוצג באיור 4.

3. הכינו את הקבצים למערך האימונים ולסט הבדיקות

  1. העתק את כל ארבעת קבצי הרצף בתבנית "fasta" עבור תהליך האימון והבדיקה לתיקיה "shared_host" של המחשב המארח הפיזי. בדרך זו, כל הקבצים יתרחשו גם בתיקיה "shared_VM" של המחשב הווירטואלי. לאחר מכן, העתק את הקבצים בתיקיה "shared_VM" לתיקיה "DeepLearning" של המחשב הווירטואלי.

4. דיגיטציה של הרצפים הביולוגיים באמצעות טופס קידוד "חם אחד"

  1. עבור אל התיקיה "עומק עומק", לחץ על הלחיצה הימנית ופתח את המסוף. הקלד את הפקודה הבאה:
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
    (לרצפי חומצות אמינו)
    או
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
    (לרצפי חומצת גרעין)
    הערה: צילום מסך של תהליך זה מסופק באיור 5.

5. לאמן ולבדוק את הרשת העצבית המלאכותית

  1. במסוף, הקלד את הפקודה הבאה כפי שמוצג באיור 6:
    train.py פיתון
    הערה: תהליך ההכשרה יתחיל.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

בעבודה הקודמת שלנו, פיתחנו סדרה של כלי סיווג רצף עבור נתונים metagenomic באמצעות גישה דומה זה הדרכה3,11,12. כדוגמה, הפקדנו את קבצי הרצף של קבוצת המשנה של ערכת האימונים ומבחן שנקבע מהעבודההקודמתשלנו 3,11 במכונה הווירטואלית.

פאנג וג'ואו11 נועדו לזהות את חלבוני הנגיף הפרוקריוטה המלאים והחלקיים מנתונים וירומיים. הקובץ "p_train.fasta" מכיל את שברי חלבון הנגיף עבור ערכת האימונים; הקובץ "n_train.fasta" מכיל את שברי חלבון nonvirion וירוס עבור ערכת האימונים; הקובץ "p_test.fasta" מכיל את שברי חלבון הנגיף עבור ערכת הבדיקה; והקובץ "n_test.fasta" מכיל את שברי חלבון nonvirion וירוס עבור ערכת הבדיקה. המשתמש יכול לבצע ישירות את שתי הפקודות הבאות כדי לבנות את הרשת העצבית:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
ו
train.py פיתון

הביצועים מוצגים באיור 7.

פאנג ואח'3 נועדו לזהות שברי דנ"א של פאג' מרסיסי דנ"א כרומוזומים חיידקיים בנתונים מטגנומיים. הקובץ "phage_train.fasta" מכיל את שברי ה- DNA של פאג ' עבור ערכת האימונים; הקובץ "chromosome_train.fasta" מכיל את שברי ה- DNA הכרומוזום עבור ערכת האימונים; הקובץ "phage_test.fasta" מכיל את שברי ה- DNA של פאג' עבור ערכת הבדיקה; והקובץ "chromosome_test.fasta" מכיל את שברי הדנ"א הכרומוזומים עבור ערכת הבדיקה. המשתמש יכול לבצע ישירות את שתי הפקודות הבאות כדי לבנות את הרשת העצבית:
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
ו
train.py פיתון

הביצועים מוצגים באיור 8.

ראוי לציין כי מכיוון שהאלגוריתם מכיל כמה תהליכים בעלי אקראיות, התוצאות לעיל עשויות להיות שונות במקצת אם משתמשים להפעיל מחדש את הסקריפט.

Figure 1
איור 1. סקירה כללית של טכניקת הלמידה העמוקה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 2
איור 2. מבט כולל על תרשים הזרימה של ערכת לימוד זו. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 3
איור 3. צילום המסך של שולחן העבודה של המחשב הווירטואלי. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 4
איור 4. צילום המסך של ההפעלה של התיקיות המשותפות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 5
איור 5. צילום המסך של תהליך הדיגיטציה של הרצף. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 6
איור 6. לאמן ולבדוק את הרשת העצבית המלאכותית. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 7
איור 7. הביצועים של זיהום חלבון ויריון של וירוס פרוקריוטה מזהים. קריטריוני ההערכה הם Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) ו- AUC. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 8
איור 8. הביצועים של זיהוי שברי DNA פאג '. קריטריוני ההערכה הם Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) ו- AUC. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

חומר משלים: אנא לחץ כאן כדי להוריד קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

מדריך זה מספק סקירה כללית עבור ביולוגים ואלגוריתמים לעצב מתחילים על איך לבנות מסגרת למידה עמוקה קלה לשימוש לסיווג רצף ביולוגי בנתונים metagenomic. מדריך זה נועד לספק הבנה אינטואיטיבית של למידה עמוקה ולהתמודד עם האתגר כי למתחילים לעתים קרובות מתקשים להתקין את חבילת למידה עמוקה וכתיבת הקוד עבור האלגוריתם. עבור כמה משימות סיווג פשוטות, משתמשים יכולים להשתמש במסגרת כדי לבצע את משימות הסיווג.

בהתחשב בכך שביולוגים רבים אינם מכירים את שורת הפקודה של מערכת ההפעלה לינוקס, התקנו מראש את כל התוכנות התלויות במכונה וירטואלית. בדרך זו, המשתמש יכול להפעיל ישירות את הקוד במחשב הווירטואלי בעקבות הפרוטוקול שהוזכר לעיל. בנוסף, אם משתמשים מכירים את מערכת ההפעלה Linux ואת תכנות Python, הם יכולים גם להפעיל פרוטוקול זה ישירות בשרת או במחשב המקומי. בדרך זו, על המשתמש לבצע קדם-התקנה של התוכנה התלויה הבאה:

פייתון 2.7.12 (https://www.python.org/)
חבילות פייתון:
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
טנזור זרימה 1.4.1 (https://www.tensorflow.org/)
קרס 2.0.8 (https://keras.io/)
זמן ריצה של רכיב MATLAB (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

המדריך של העבודה הקודמת שלנו3 יש תיאור קצר של ההתקנה. שים לב שמספר הגירסה של כל חבילה תואם לגירסה שבה השתמשנו בקוד. היתרון של הפעלת הקוד בשרת או במחשב המקומי ללא המחשב הווירטואלי הוא כי הקוד יכול להאיץ עם GPU בדרך זו, אשר יכול לחסוך זמן רב בתהליך האימון. בדרך זו, המשתמש צריך להתקין את גירסת GPU של TensorFlow (ראה את המדריך של העבודההקודמת 3).

חלק מהצעדים הקריטיים בפרוטוקול מתוארים כדלקמן. בשלב 4.1, יש להחליף את שמות הקבצים של "p_train.fasta", "n_train.fasta", "p_test.fasta" ו- "n_test.fasta" בשמות הקבצים המשמשים. אין אפשרות לשנות את הסדר של ארבעה קבצים אלה בפקודה זו. אם הקבצים מכילים רצפי חומצות אמינו, הפרמטר האחרון צריך להיות "aa"; אם הקבצים מכילים רצפי חומצת גרעין, הפרמטר האחרון צריך להיות "nt". פקודה זו משתמשת בטופס הקידוד "חד-חם" כדי להפוך את הרצפים הביולוגיים לדיגיטליים. מבוא של טופס הקידוד "חם אחד" מסופק בחומר המשלים. בשלב 5.1, מכיוון שלא ניתן להאיץ את המחשב הווירטואלי עם המעבד הגרפי, תהליך זה עשוי להימשך מספר שעות או מספר ימים, בהתאם לגודל הנתונים. קווי ההתקדמות עבור כל תקופת איטרציה מוצגים במסוף. הגדרנו את מספר התקופות ל- 50, וכך יוצגו בסך הכל 50 פסי התקדמות בסיום תהליך ההכשרה. בסיום תהליך הבדיקה, הדיוק עבור ערכת הבדיקות יוצג במסוף. בתיקיה "DeepLearning" של המחשב הווירטואלי, ייווצר קובץ בשם "predict.csv". קובץ זה מכיל את כל ציוני החיזוי עבור נתוני הבדיקה. סדר הציונים הללו תואם את סדר הרצף ב-"p_test.fasta" ו-"n_test.fasta" (המחצית הראשונה של הציונים הללו תואמת את "p_test.fasta", בעוד שהמחצית השנייה של התוצאות תואמת את "n_test.fatsa"). אם משתמשים רוצים לבצע תחזיות עבור הרצפים שהקטגוריות האמיתיות שלהם אינן ידועות, הם יכולים גם להפקיד רצפים לא ידועים אלה בקובץ "p_test.fasta" או "n_test.fasta". בדרך זו, הציונים של רצפים לא ידועים אלה יוצגו גם בקובץ "לחזות.csv", אך תצוגת "הדיוק" במסוף אינה הגיונית. תסריט זה משתמש ברשת עצבית מפותלת כדי לבצע את הסיווג. המבנה של הרשת העצבית ואת הקוד עבור הרשת העצבית מוצגים בחומר המשלים.

אחד המאפיינים של למידה עמוקה הוא כי הגדרות פרמטר רבות דורשות קצת ניסיון, אשר יכול להיות אתגר גדול למתחילים. כדי למנוע חשש למתחילים הנגרמת על ידי מספר רב של נוסחאות, איננו מתמקדים בעקרונות המתמטיים של למידה עמוקה, ובמכונה הווירטואלית, איננו מספקים ממשק הגדרת פרמטר מיוחד. למרות שזו עשויה להיות בחירה טובה למתחילים, בחירת פרמטרים לא הולמת עשויה גם להוביל לירידה בדיוק. כדי לאפשר למתחילים לחוות טוב יותר כיצד לשנות את הפרמטרים, בקובץ ה- Script "train.py", אנו מוסיפים כמה הערות לקוד הקשור, ומשתמשים יכולים לשנות את הפרמטרים הקשורים, כגון מספר גרעיני פיתול, כדי לראות כיצד פרמטרים אלה משפיעים על הביצועים.

בנוסף, תוכניות למידה עמוקה רבות צריכות להיות מופעלות תחת GPU. עם זאת, קביעת התצורה של המעבד הגרפי דורשת גם מיומנות מחשב מסוימת שעשויה להיות קשה עבור אנשי מקצוע שאינם מחשבים; לכן, אנו בוחרים לייעל את הקוד במכונה וירטואלית.

בעת פתרון משימות סיווג רצף אחרות בהתבסס על קו מנחה זה, משתמשים צריכים להחליף רק את ארבעת קבצי הרצף בנתונים משלהם. לדוגמה, אם משתמשים צריכים להבחין בין רצפים שמקורם בפלסטיד וכרומוזום בנתונים מטגנומיים, הם יכולים להוריד ישירות גנומים פלסמיד (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) וגנומים כרומוזומים חיידקיים (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) ממסד הנתונים RefSeq ולהפריד את הגנום לתוך ערכת אימונים וקביעת בדיקה. ראוי לציין כי רצפי DNA בנתונים מטגנומיים הם לעתים קרובות מקוטעים ולא גנומים שלמים. במקרים כאלה, משתמשים יכולים להשתמש בכלי MetaSim13 כדי לחלץ את שבר ה- DNA מהגנום המלא. MetaSim הוא כלי ידידותי למשתמש עם ממשק ממשק ממשק משתמש, ומשתמשים יכולים לסיים את רוב הפעולות באמצעות העכבר מבלי להקליד כל פקודה בלוח המקשים. כדי לפשט את הפעולה למתחילים, ההדרכה שלנו מיועדת למשימת סיווג של שתי כיתות. עם זאת, עלינו לבצע ריבוי סילוקים במשימות רבות. במקרים כאלה, מתחילים יכולים לנסות להפריד את משימת ההסתה מרובת המעמדות למספר משימות סיווג של שתי מחלקות. לדוגמה, כדי לזהות את מארח הפאג ', ג'אנג ואח ' בנו 9 מסווגים דו-כיתה כדי לזהות אם רצף פאג ' נתון יכול להדביק מארח מסוים.

דף הבית של מדריך זה מופקד באתר GitHub https://github.com/zhenchengfang/DL-VM. כל עדכון של ההדרכה יתואר באתר האינטרנט. משתמשים יכולים גם להעלות את השאלות שלהם על מדריך זה באתר.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים מצהירים כי אין ניגודי עניינים.

Acknowledgments

חקירה זו נתמכה כלכלית על ידי הקרן הלאומית למדעי הטבע של סין (81925026, 82002201, 81800746, 82102508).

Materials

Name Company Catalog Number Comments
PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Tags

גנטיקה גיליון 175 Metagenome מיקרוביום סיווג רצף בינה מלאכותית למידה עמוקה עיצוב אלגוריתם
פלטפורמת מכונה וירטואלית לאנשי מקצוע שאינם אנשי מחשב לשימוש בלמידה עמוקה כדי לסווג רצפים ביולוגיים של נתונים מטגנומיים
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Fang, Z., Zhou, H. A Virtual Machine More

Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter