Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques

Published: September 25, 2021 doi: 10.3791/62250

Summary

Ce didacticiel décrit une méthode simple pour construire un algorithme d’apprentissage profond pour effectuer une classification de séquence à 2 classes de données métagénomiques.

Abstract

Diverses tâches de classification des séquences biologiques, telles que la classification des espèces, la classification de la fonction des gènes et la classification de l’hôte viral, sont des processus attendus dans de nombreuses analyses de données métagénomiques. Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, des algorithmes de classification très performants sont nécessaires dans de nombreuses études. Les biologistes rencontrent souvent des difficultés pour trouver des outils de classification et d’annotation de séquences appropriés pour une tâche spécifique et ne sont souvent pas en mesure de construire eux-mêmes un algorithme correspondant en raison d’un manque de connaissances mathématiques et informatiques nécessaires. Les techniques d’apprentissage profond sont récemment devenues un sujet populaire et présentent de forts avantages dans de nombreuses tâches de classification. À ce jour, de nombreux packages d’apprentissage profond hautement packagés, qui permettent aux biologistes de construire des cadres d’apprentissage profond en fonction de leurs propres besoins sans connaissance approfondie des détails de l’algorithme, ont été développés. Dans ce didacticiel, nous fournissons une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences sans avoir besoin de connaissances mathématiques ou de compétences en programmation suffisantes. Tout le code est optimisé dans une machine virtuelle afin que les utilisateurs puissent exécuter directement le code à l’aide de leurs propres données.

Introduction

La technique de séquençage métagénomique contourne le processus d’isolement de la souche et séquence directement l’ADN total dans un échantillon environnemental. Ainsi, les données métagénomiques contiennent de l’ADN de différents organismes, et la plupart des séquences biologiques proviennent de nouveaux organismes qui ne sont pas présents dans la base de données actuelle. Selon différents objectifs de recherche, les biologistes doivent classer ces séquences sous différents angles, tels que la classification taxonomique1,la classification virus-bactérie 2,3,4, la classification chromosome-plasmide3,5,6,7 etl’annotationde la fonctiongénique(telle que la classification des gènes de résistance auxantibiotiques 8 et la classification des facteurs de virulence9 ). Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, les algorithmes ab initio, qui ne reposent pas sur des bases de données connues pour la classification des séquences (y compris la classification de l’ADN et la classification des protéines), constituent une approche importante dans l’analyse des données métagénomiques. Cependant, la conception de tels algorithmes nécessite des connaissances professionnelles en mathématiques et des compétences en programmation; par conséquent, de nombreux biologistes et débutants en conception d’algorithmes ont du mal à construire un algorithme de classification adapté à leurs propres besoins.

Avec le développement de l’intelligence artificielle, les algorithmes d’apprentissage profond ont été largement utilisés dans le domaine de la bioinformatique pour effectuer des tâches telles que la classification des séquences en analyse métagénomique. Pour aider les débutants à comprendre les algorithmes d’apprentissage profond, nous décrivons l’algorithme d’une manière facile à comprendre ci-dessous.

Une vue d’ensemble d’une technique d’apprentissage profond est illustrée à la figure 1. La technologie de base d’un algorithme d’apprentissage profond est un réseau de neurones artificiels, qui s’inspire de la structure du cerveau humain. D’un point de vue mathématique, un réseau de neurones artificiels peut être considéré comme une fonction complexe. Chaque objet (comme une séquence d’ADN, une photo ou une vidéo) est d’abord numérisé. L’objet numérisé est ensuite importé dans la fonction. La tâche du réseau de neurones artificiels est de donner une réponse correcte en fonction des données d’entrée. Par exemple, si un réseau de neurones artificiels est construit pour effectuer une tâche de classification à 2 classes, le réseau doit produire un score de probabilité compris entre 0 et 1 pour chaque objet. Le réseau neuronal doit donner à l’objet positif un score plus élevé (tel qu’un score supérieur à 0,5) tout en donnant à l’objet négatif un score inférieur. Pour atteindre cet objectif, un réseau de neurones artificiels est construit avec les processus de formation et de test. Au cours de ces processus, les données de la base de données connue sont téléchargées, puis divisées en un ensemble d’entraînement et un ensemble de tests. Chaque objet est numérisé de manière appropriée et reçoit une étiquette (« 1 » pour les objets positifs et « 0 » pour les objets négatifs). Dans le processus d’entraînement, les données numérisées de l’ensemble d’entraînement sont entrées dans le réseau neuronal. Le réseau neuronal artificiel construit une fonction de perte qui représente la dissimilarité entre le score de sortie de l’objet d’entrée et l’étiquette correspondante de l’objet. Par exemple, si l’étiquette de l’objet d’entrée est « 1 » alors que le score de sortie est « 0,1 », la fonction de perte sera élevée ; et si l’étiquette de l’objet d’entrée est « 0 » alors que le score de sortie est « 0,1 », la fonction de perte sera faible. Le réseau neuronal artificiel utilise un algorithme itératif spécifique qui ajuste les paramètres du réseau neuronal pour minimiser la fonction de perte. Le processus de formation se termine lorsque la fonction de perte ne peut évidemment pas être diminuée davantage. Enfin, les données de l’ensemble de tests sont utilisées pour tester le réseau neuronal fixe, et la capacité du réseau neuronal à calculer les étiquettes correctes pour les nouveaux objets est évaluée. Plus de principes d’algorithmes d’apprentissage profond peuvent être trouvés dans la revue dans LeCun et al. 10.

Bien que les principes mathématiques des algorithmes d’apprentissage profond puissent être complexes, de nombreux logiciels d’apprentissage profond hautement packagés ont récemment été développés, et les programmeurs peuvent directement construire un simple réseau de neurones artificiels avec quelques lignes de code.

Pour aider les biologistes et les débutants en conception d’algorithmes à se lancer plus rapidement dans l’utilisation de l’apprentissage profond, ce didacticiel fournit une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences. Ce cadre utilise la forme de codage « à chaud unique » comme modèle mathématique pour numériser les séquences biologiques et utilise un réseau neuronal de convolution pour effectuer la tâche de classification (voir le matériel supplémentaire). La seule chose que les utilisateurs doivent faire avant d’utiliser cette directive est de préparer quatre fichiers de séquence au format « fasta ». Le premier fichier contient toutes les séquences de la classe positive pour le processus de formation (appelé « p_train.fasta »); le deuxième fichier contient toutes les séquences de la classe négative pour le processus de formation (appelé « n_train.fasta »); le troisième fichier contient toutes les séquences de la classe positive pour le processus de test (appelé « p_test.fasta »); et le dernier fichier contient toutes les séquences de la classe négative pour le processus de test (référencé à « n_test.fasta »). La vue d’ensemble de l’organigramme de ce didacticiel est fournie à la figure 2, et plus de détails seront mentionnés ci-dessous.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. L’installation de la machine virtuelle

  1. Téléchargez le fichier de la machine virtuelle à partir de (https://github.com/zhenchengfang/DL-VM).
  2. Téléchargez le logiciel VirtualBox à partir de https://www.virtualbox.org.
  3. Décompressez le fichier « .7z » à l’aide de logiciels associés, tels que « 7-Zip », « WinRAR » ou « WinZip ».
  4. Installez le logiciel VirtualBox en cliquant sur le bouton Suivant à chaque étape.
  5. Ouvrez le logiciel VirtualBox et cliquez sur le bouton Nouveau pour créer une machine virtuelle.
  6. Étape 6: Entrez le nom de la machine virtuelle spécifiée dans le cadre « Nom », sélectionnez Linux comme système d’exploitation dans le cadre « Type », sélectionnez Ubuntu dans le cadre « Version » et cliquez sur le bouton Suivant.
  7. Allouez la taille de mémoire de la machine virtuelle. Nous recommandons aux utilisateurs d’appuyer sur le bouton situé dans la partie la plus à droite de la barre verte pour affecter autant de mémoire que possible à la machine virtuelle, puis de cliquer sur le bouton Suivant.
  8. Choisissez la sélection Utiliser un fichier de disque dur virtuel existant, sélectionnez le fichier « VM_Bioinfo.vdi » téléchargé à partir de l’étape 1.1, puis cliquez sur le bouton Créer.
  9. Cliquez sur le bouton Étoile pour ouvrir la machine virtuelle.
    REMARQUE : La figure 3 montre la capture d’écran du bureau de la machine virtuelle.

2. Créer des dossiers partagés pour les fichiers échangés entre l’hôte physique et la machine virtuelle

  1. Dans l’hôte physique, créez un dossier partagé nommé « shared_host », et sur le bureau de la machine virtuelle, créez un dossier partagé nommé « shared_VM ».
  2. Dans la barre de menus de la machine virtuelle, cliquez successivement sur Périphériques, Dossier partagé, Paramètres des dossiers partagés.
  3. Cliquez sur le bouton dans le coin supérieur droit.
  4. Sélectionnez le dossier partagé dans l’hôte physique créé à l’étape 2.1 et sélectionnez l’option Montage automatique. Cliquez sur le bouton OK.
  5. Redémarrez la machine virtuelle.
  6. Cliquez avec le bouton droit de la souris sur le bureau de la machine virtuelle et ouvrez le terminal.
  7. Copiez la commande suivante sur le terminal :
    sudo mount -t vboxsf shared_host ./Desktop/shared_VM
    1. Lorsque vous êtes invité à entrer un mot de passe, entrez « 1 » et appuyez sur la touche «Entrée», comme illustré à la figure 4.

3. Préparez les fichiers pour l’ensemble de formation et l’ensemble de test

  1. Copiez les quatre fichiers de séquence au format « fasta » pour le processus de formation et de test dans le dossier « shared_host » de l’hôte physique. De cette façon, tous les fichiers se produiront également dans le dossier « shared_VM » de la machine virtuelle. Ensuite, copiez les fichiers du dossier « shared_VM » dans le dossier « DeepLearning » de la machine virtuelle.

4. Numériser les séquences biologiques à l’aide d’un encodage « à chaud »

  1. Allez dans le dossier « DeepLearning », cliquez avec le bouton droit de la souris et ouvrez le terminal. Tapez la commande suivante :
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
    (pour les séquences d’acides aminés)
    ou
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
    (pour les séquences d’acides nucléiques)
    REMARQUE : une capture d’écran de ce processus est fournie à la figure 5.

5. Entraînez et testez le réseau de neurones artificiels

  1. Dans le terminal, tapez la commande suivante comme illustré à la figure 6:
    python train.py
    REMARQUE : Le processus de formation commencera.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Dans nos travaux précédents, nous avons développé une série d’outils de classification de séquences pour les données métagénomiques en utilisant une approche similaire à ce tutoriel3,11,12. À titre d’exemple, nous avons déposé les fichiers de séquence du sous-ensemble de l’ensemble d’entraînement et de l’ensemble de tests de notre travail précédent3,11 dans la machine virtuelle.

Fang & Zhou11 visait à identifier les protéines virion complètes et partielles du virus procaryote à partir des données du virome. Le fichier « p_train.fasta » contient les fragments de protéine virion du virus pour l’ensemble d’entraînement; le fichier « n_train.fasta » contient les fragments de protéines non virales du virus pour l’ensemble d’entraînement; le fichier « p_test.fasta » contient les fragments de protéine virion du virus pour l’ensemble de test; et le fichier « n_test.fasta » contient les fragments de protéines non virales du virus pour l’ensemble de test. L’utilisateur peut exécuter directement les deux commandes suivantes pour construire le réseau neuronal :
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
et
python train.py

Les performances sont illustrées à la figure 7.

Fang et al.3 visaient à identifier des fragments d’ADN de phage à partir de fragments d’ADN chromosomique bactérien dans des données métagénomiques. Le fichier « phage_train.fasta » contient les fragments d’ADN de phage pour l’ensemble d’entraînement; le fichier « chromosome_train.fasta » contient les fragments d’ADN chromosomique pour l’ensemble d’entraînement; le fichier « phage_test.fasta » contient les fragments d’ADN de phage pour l’ensemble de test; et le fichier « chromosome_test.fasta » contient les fragments d’ADN chromosomique pour l’ensemble de test. L’utilisateur peut exécuter directement les deux commandes suivantes pour construire le réseau neuronal :
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
et
python train.py

Les performances sont illustrées à la figure 8.

Il convient de noter que, comme l’algorithme contient certains processus aléatoires, les résultats ci-dessus peuvent être légèrement différents si les utilisateurs réexécutent le script.

Figure 1
Graphique 1. Vue d’ensemble de la technique de deep learning. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2
Graphique 2. Vue d’ensemble de l’organigramme de ce didacticiel. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3
Graphique 3. Capture d’écran du bureau de la machine virtuelle. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4
Graphique 4. Capture d’écran de l’activation des dossiers partagés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5
Graphique 5. La capture d’écran du processus de numérisation des séquences. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6
Graphique 6. Entraînez et testez le réseau de neurones artificiels. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7
Graphique 7. La performance de l’identification des fragments de protéine virion du virus procaryote. Les critères d’évaluationsont Sn =TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) et AUC. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 8
Graphique 8. La performance de l’identification des fragments d’ADN de phage. Les critères d’évaluationsont Sn =TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) et AUC. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Matériel supplémentaire: Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ce didacticiel fournit une vue d’ensemble pour les biologistes et les débutants en conception d’algorithmes sur la façon de construire un cadre d’apprentissage profond facile à utiliser pour la classification des séquences biologiques dans les données métagénomiques. Ce tutoriel vise à fournir une compréhension intuitive de l’apprentissage profond et à relever le défi que les débutants ont souvent du mal à installer le package d’apprentissage profond et à écrire le code de l’algorithme. Pour certaines tâches de classification simples, les utilisateurs peuvent utiliser l’infrastructure pour effectuer les tâches de classification.

Considérant que de nombreux biologistes ne sont pas familiers avec la ligne de commande du système d’exploitation Linux, nous avons préinstallé tous les logiciels dépendants dans une machine virtuelle. De cette façon, l’utilisateur peut exécuter directement le code dans la machine virtuelle en suivant le protocole mentionné ci-dessus. De plus, si les utilisateurs sont familiers avec le système d’exploitation Linux et la programmation Python, ils peuvent également exécuter ce protocole directement sur le serveur ou le PC local. De cette façon, l’utilisateur doit préinstaller les logiciels dépendants suivants :

Python 2.7.12 (https://www.python.org/)
Paquets Python :
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
TensorFlow 1.4.1 (https://www.tensorflow.org/)
Keras 2.0.8 (https://keras.io/)
MATLAB Component Runtime (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

Le manuel de notre travail précédent3 contient une brève description de l’installation. Notez que le numéro de version de chaque package correspond à la version que nous avons utilisée dans le code. L’avantage d’exécuter le code sur le serveur ou le PC local sans la machine virtuelle est que le code peut accélérer avec un GPU de cette manière, ce qui peut faire gagner beaucoup de temps dans le processus de formation. De cette façon, l’utilisateur doit installer la version GPU de TensorFlow (voir le manuel du travail précédent3).

Certaines des étapes critiques du protocole sont décrites comme suit. À l’étape 4.1, les noms de fichiers « p_train.fasta », « n_train.fasta », « p_test.fasta » et « n_test.fasta » doivent être remplacés par les noms de fichiers utilisés. L’ordre de ces quatre fichiers dans cette commande ne peut pas être modifié. Si les fichiers contiennent des séquences d’acides aminés, le dernier paramètre doit être « aa »; si les fichiers contiennent des séquences d’acides nucléiques, le dernier paramètre doit être « nt ». Cette commande utilise le formulaire de codage « one-hot » pour numériser les séquences biologiques. Une introduction du formulaire de codage « à chaud » est fournie dans le matériel supplémentaire. À l’étape 5.1, étant donné que la machine virtuelle ne peut pas être accélérée avec le GPU, ce processus peut prendre quelques heures ou plusieurs jours, selon la taille des données. Les barres de progression pour chaque époque d’itération sont affichées dans le terminal. Nous avons défini le nombre d’époques sur 50, et ainsi, un total de 50 barres de progression seront affichées lorsque le processus de formation sera terminé. Lorsque le processus de test est terminé, la précision de l’ensemble de test sera affichée dans le terminal. Dans le dossier « DeepLearning » de la machine virtuelle, un fichier nommé « predict.csv » sera créé. Ce fichier contient tous les scores de prédiction pour les données de test. L’ordre de ces scores correspond à l’ordre de séquence dans « p_test.fasta » et « n_test.fasta » (la première moitié de ces scores correspond à « p_test.fasta », tandis que la seconde moitié de ces scores correspond à « n_test.fatsa »). Si les utilisateurs souhaitent faire des prédictions pour les séquences dont les vraies classes sont inconnues, ils peuvent également déposer ces séquences inconnues dans le fichier « p_test.fasta » ou « n_test.fasta ». De cette façon, les scores de ces séquences inconnues seront également affichés dans le fichier « predict.csv », mais l’affichage « précision » dans le terminal n’a pas de sens. Ce script utilise un réseau neuronal convolutif pour effectuer la classification. La structure du réseau neuronal et le code du réseau neuronal sont indiqués dans le matériel supplémentaire.

L’une des caractéristiques de l’apprentissage profond est que de nombreux paramètres nécessitent une certaine expérience, ce qui peut être un défi majeur pour les débutants. Pour éviter l’appréhension des débutants causée par un grand nombre de formules, nous ne nous concentrons pas sur les principes mathématiques de l’apprentissage profond, et dans la machine virtuelle, nous ne fournissons pas d’interface de réglage de paramètres spéciale. Bien que cela puisse être un bon choix pour les débutants, une sélection inappropriée des paramètres peut également entraîner une baisse de précision. Pour permettre aux débutants de mieux comprendre comment modifier les paramètres, dans le script « train.py », nous ajoutons quelques commentaires au code associé, et les utilisateurs peuvent modifier les paramètres associés, tels que le nombre de noyaux de convolution, pour voir comment ces paramètres affectent les performances.

En outre, de nombreux programmes de deep learning doivent être exécutés sous un GPU. Cependant, la configuration du GPU nécessite également des compétences informatiques qui peuvent être difficiles pour les non-professionnels de l’informatique; par conséquent, nous choisissons d’optimiser le code dans une machine virtuelle.

Lors de la résolution d’autres tâches de classification de séquence basées sur cette directive, les utilisateurs n’ont qu’à remplacer les quatre fichiers de séquence par leurs propres données. Par exemple, si les utilisateurs doivent distinguer des séquences dérivées de plasmides et de chromosomes dans des données métagénomiques, ils peuvent télécharger directement les génomes de plasmides (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) et de chromosomes bactériens (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) à partir de la base de données RefSeq et séparer les génomes dans un ensemble d’entraînement et un ensemble de tests. Il convient de noter que les séquences d’ADN dans les données métagénomiques sont souvent fragmentées plutôt que des génomes complets. Dans de tels cas, les utilisateurs peuvent utiliser l’outil MetaSim13 pour extraire le fragment d’ADN du génome complet. MetaSim est un outil convivial avec une interface graphique, et les utilisateurs peuvent terminer la plupart des opérations en utilisant la souris sans taper de commande sur le clavier. Pour simplifier l’opération pour les débutants, notre tutoriel est conçu pour une tâche de classification à deux classes. Cependant, nous devons effectuer une multiclassification dans de nombreuses tâches. Dans de tels cas, les débutants peuvent essayer de séparer la tâche de multiclassification en plusieurs tâches de classification à deux classes. Par exemple, pour identifier l’hôte du phage, Zhang et al. ont construit 9 classificateurs à deux classes pour déterminer si une séquence de phages donnée peut infecter un certain hôte.

La page d’accueil de ce tutoriel est déposée sur le site GitHub https://github.com/zhenchengfang/DL-VM. Toute mise à jour du tutoriel sera décrite sur le site Web. Les utilisateurs peuvent également poser leurs questions sur ce tutoriel sur le site Web.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs déclarent qu’il n’y a pas de conflits d’intérêts.

Acknowledgments

Cette enquête a été soutenue financièrement par la Fondation nationale des sciences naturelles de Chine (81925026, 82002201, 81800746, 82102508).

Materials

Name Company Catalog Number Comments
PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Tags

Génétique Numéro 175 Métagénome Microbiome Classification de séquences Intelligence artificielle Apprentissage profond Conception d’algorithmes
Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Fang, Z., Zhou, H. A Virtual Machine More

Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter