Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques

Zhencheng Fang; Hongwei Zhou

doi:10.3791/62250

Method Article

Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques

DOI:

10.3791/62250

⸱

September 25th, 2021

Zhencheng Fang¹^,² , Hongwei Zhou¹^,³

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce didacticiel décrit une méthode simple pour construire un algorithme d’apprentissage profond pour effectuer une classification de séquence à 2 classes de données métagénomiques.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diverses tâches de classification des séquences biologiques, telles que la classification des espèces, la classification de la fonction des gènes et la classification de l’hôte viral, sont des processus attendus dans de nombreuses analyses de données métagénomiques. Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, des algorithmes de classification très performants sont nécessaires dans de nombreuses études. Les biologistes rencontrent souvent des difficultés pour trouver des outils de classification et d’annotation de séquences appropriés pour une tâche spécifique et ne sont souvent pas en mesure de construire eux-mêmes un algorithme correspondant en raison d’un manque de connaissances mathématiques et informatiques nécessaires. Les techniques d’apprentissage profond sont récemment devenues un sujet populaire et présentent de forts avantages dans de nombreuses tâches de classification. À ce jour, de nombreux packages d’apprentissage profond hautement packagés, qui permettent aux biologistes de construire des cadres d’apprentissage profond en fonction de leurs propres besoins sans connaissance approfondie des détails de l’algorithme, ont été développés. Dans ce didacticiel, nous fournissons une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences sans avoir besoin de connaissances mathématiques ou de compétences en programmation suffisantes. Tout le code est optimisé dans une machine virtuelle afin que les utilisateurs puissent exécuter directement le code à l’aide de leurs propres données.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La technique de séquençage métagénomique contourne le processus d’isolement de la souche et séquence directement l’ADN total dans un échantillon environnemental. Ainsi, les données métagénomiques contiennent de l’ADN de différents organismes, et la plupart des séquences biologiques proviennent de nouveaux organismes qui ne sont pas présents dans la base de données actuelle. Selon différents objectifs de recherche, les biologistes doivent classer ces séquences sous différents angles, tels que la classification taxonomique^1,la classification virus-bactérie 2^,³^,⁴, la classification chromosome-plasmide³,⁵^,⁶^,7 et^{l’annotation}de la fonction^génique(telle que la classification des gènes de résistance aux^{antibiotiques 8} et la classification des facteurs de virulence⁹). Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, les algorithmes ab initio, qui ne reposent pas sur des bases de données connues pour la classification des séquences (y compris la classification de l’ADN et la classification des protéines), constituent une approche importante dans l’analyse des données métagénomiques. Cependant, la conception de tels algorithmes nécessite des connaissances professionnelles en mathématiques et des compétences en programmation; par conséquent, de nombreux biologistes et débutants en conception d’algorithmes ont du mal à construire un algorithme de classification adapté à leurs propres besoins.

Avec le développement de l’intelligence artificielle, les algorithmes d’apprentissage profond ont été largement utilisés dans le domaine de la bioinformatique pour effectuer des tâches telles que la classification des séquences en analyse métagénomique. Pour aider les débutants à comprendre les algorithmes d’apprentissage profond, nous décrivons l’algorithme d’une manière facile à comprendre ci-dessous.

Une vue d’ensemble d’une technique d’apprentissage profond est illustrée à la figure 1. La technologie de base d’un algorithme d’apprentissage profond est un réseau de neurones artificiels, qui s’inspire de la structure du cerveau humain. D’un point de vue mathématique, un réseau de neurones artificiels peut être considéré comme une fonction complexe. Chaque objet (comme une séquence d’ADN, une photo ou une vidéo) est d’abord numérisé. L’objet numérisé est ensuite importé dans la fonction. La tâche du réseau de neurones artificiels est de donner une réponse correcte en fonction des données d’entrée. Par exemple, si un réseau de neurones artificiels est construit pour effectuer une tâche de classification à 2 classes, le réseau doit produire un score de probabilité compris entre 0 et 1 pour chaque objet. Le réseau neuronal doit donner à l’objet positif un score plus élevé (tel qu’un score supérieur à 0,5) tout en donnant à l’objet négatif un score inférieur. Pour atteindre cet objectif, un réseau de neurones artificiels est construit avec les processus de formation et de test. Au cours de ces processus, les données de la base de données connue sont téléchargées, puis divisées en un ensemble d’entraînement et un ensemble de tests. Chaque objet est numérisé de manière appropriée et reçoit une étiquette (« 1 » pour les objets positifs et « 0 » pour les objets négatifs). Dans le processus d’entraînement, les données numérisées de l’ensemble d’entraînement sont entrées dans le réseau neuronal. Le réseau neuronal artificiel construit une fonction de perte qui représente la dissimilarité entre le score de sortie de l’objet d’entrée et l’étiquette correspondante de l’objet. Par exemple, si l’étiquette de l’objet d’entrée est « 1 » alors que le score de sortie est « 0,1 », la fonction de perte sera élevée ; et si l’étiquette de l’objet d’entrée est « 0 » alors que le score de sortie est « 0,1 », la fonction de perte sera faible. Le réseau neuronal artificiel utilise un algorithme itératif spécifique qui ajuste les paramètres du réseau neuronal pour minimiser la fonction de perte. Le processus de formation se termine lorsque la fonction de perte ne peut évidemment pas être diminuée davantage. Enfin, les données de l’ensemble de tests sont utilisées pour tester le réseau neuronal fixe, et la capacité du réseau neuronal à calculer les étiquettes correctes pour les nouveaux objets est évaluée. Plus de principes d’algorithmes d’apprentissage profond peuvent être trouvés dans la revue dans LeCun et al. ¹⁰.

Bien que les principes mathématiques des algorithmes d’apprentissage profond puissent être complexes, de nombreux logiciels d’apprentissage profond hautement packagés ont récemment été développés, et les programmeurs peuvent directement construire un simple réseau de neurones artificiels avec quelques lignes de code.

Pour aider les biologistes et les débutants en conception d’algorithmes à se lancer plus rapidement dans l’utilisation de l’apprentissage profond, ce didacticiel fournit une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences. Ce cadre utilise la forme de codage « à chaud unique » comme modèle mathématique pour numériser les séquences biologiques et utilise un réseau neuronal de convolution pour effectuer la tâche de classification (voir le matériel supplémentaire). La seule chose que les utilisateurs doivent faire avant d’utiliser cette directive est de préparer quatre fichiers de séquence au format « fasta ». Le premier fichier contient toutes les séquences de la classe positive pour le processus de formation (appelé « p_train.fasta »); le deuxième fichier contient toutes les séquences de la classe négative pour le processus de formation (appelé « n_train.fasta »); le troisième fichier contient toutes les séquences de la classe positive pour le processus de test (appelé « p_test.fasta »); et le dernier fichier contient toutes les séquences de la classe négative pour le processus de test (référencé à « n_test.fasta »). La vue d’ensemble de l’organigramme de ce didacticiel est fournie à la figure 2, et plus de détails seront mentionnés ci-dessous.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. L’installation de la machine virtuelle

Téléchargez le fichier de la machine virtuelle à partir de (https://github.com/zhenchengfang/DL-VM).
Téléchargez le logiciel VirtualBox à partir de https://www.virtualbox.org.
Décompressez le fichier « .7z » à l’aide de logiciels associés, tels que « 7-Zip », « WinRAR » ou « WinZip ».
Installez le logiciel VirtualBox en cliquant sur le bouton Suivant à chaque étape.
Ouvrez le logiciel VirtualBox et cliquez sur le bouton Nouveau pour créer une machine virtuelle.
Étape 6: Entrez le nom de la machine virtuelle spécifiée dans le cadre « Nom », sélectionnez Linux comme système d’exploitation dans le cadre « Type », sélectionnez Ubuntu dans le cadre « Version » et cliquez sur le bouton Suivant.
Allouez la taille de mémoire de la machine virtuelle. Nous recommandons aux utilisateurs d’appuyer sur le bouton situé dans la partie la plus à droite de la barre verte pour affecter autant de mémoire que possible à la machine virtuelle, puis de cliquer sur le bouton Suivant.
Choisissez la sélection Utiliser un fichier de disque dur virtuel existant, sélectionnez le fichier « VM_Bioinfo.vdi » téléchargé à partir de l’étape 1.1, puis cliquez sur le bouton Créer.
Cliquez sur le bouton Étoile pour ouvrir la machine virtuelle.
REMARQUE : La figure 3 montre la capture d’écran du bureau de la machine virtuelle.

2. Créer des dossiers partagés pour les fichiers échangés entre l’hôte physique et la machine virtuelle

Dans l’hôte physique, créez un dossier partagé nommé « shared_host », et sur le bureau de la machine virtuelle, créez un dossier partagé nommé « shared_VM ».
Dans la barre de menus de la machine virtuelle, cliquez successivement sur Périphériques, Dossier partagé, Paramètres des dossiers partagés.
Cliquez sur le bouton dans le coin supérieur droit.
Sélectionnez le dossier partagé dans l’hôte physique créé à l’étape 2.1 et sélectionnez l’option Montage automatique. Cliquez sur le bouton OK.
Redémarrez la machine virtuelle.
Cliquez avec le bouton droit de la souris sur le bureau de la machine virtuelle et ouvrez le terminal.
Copiez la commande suivante sur le terminal :
sudo mount -t vboxsf shared_host ./Desktop/shared_VM
1. Lorsque vous êtes invité à entrer un mot de passe, entrez « 1 » et appuyez sur la touche «Entrée», comme illustré à la figure 4.

3. Préparez les fichiers pour l’ensemble de formation et l’ensemble de test

Copiez les quatre fichiers de séquence au format « fasta » pour le processus de formation et de test dans le dossier « shared_host » de l’hôte physique. De cette façon, tous les fichiers se produiront également dans le dossier « shared_VM » de la machine virtuelle. Ensuite, copiez les fichiers du dossier « shared_VM » dans le dossier « DeepLearning » de la machine virtuelle.

4. Numériser les séquences biologiques à l’aide d’un encodage « à chaud »

Allez dans le dossier « DeepLearning », cliquez avec le bouton droit de la souris et ouvrez le terminal. Tapez la commande suivante :
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(pour les séquences d’acides aminés)
ou
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(pour les séquences d’acides nucléiques)
REMARQUE : une capture d’écran de ce processus est fournie à la figure 5.

5. Entraînez et testez le réseau de neurones artificiels

Dans le terminal, tapez la commande suivante comme illustré à la figure 6:
python train.py
REMARQUE : Le processus de formation commencera.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans nos travaux précédents, nous avons développé une série d’outils de classification de séquences pour les données métagénomiques en utilisant une approche similaire à ce tutoriel³^,¹¹^,¹². À titre d’exemple, nous avons déposé les fichiers de séquence du sous-ensemble de l’ensemble d’entraînement et de l’ensemble de tests de notre travail précédent³^,¹¹ dans la machine vi...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce didacticiel fournit une vue d’ensemble pour les biologistes et les débutants en conception d’algorithmes sur la façon de construire un cadre d’apprentissage profond facile à utiliser pour la classification des séquences biologiques dans les données métagénomiques. Ce tutoriel vise à fournir une compréhension intuitive de l’apprentissage profond et à relever le défi que les débutants ont souvent du mal à installer le package d’apprentissage profond et à écrire le code de l’algorithme. Pour certaines tâches de classific...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs déclarent qu’il n’y a pas de conflits d’intérêts.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette enquête a été soutenue financièrement par la Fondation nationale des sciences naturelles de Chine (81925026, 82002201, 81800746, 82102508).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PC ou serveur	NA	NA	Mémoire suggérée : >6GB
Logiciel VirtualBox	NA	NA	Lien : https://www.virtualbox.org

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69(2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711(2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373(2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles