Uma plataforma de máquina virtual para profissionais não-computadores para usar o deep learning para classificar sequências biológicas de dados metagenômicos

Zhencheng Fang; Hongwei Zhou

doi:10.3791/62250

Method Article

Uma plataforma de máquina virtual para profissionais não-computadores para usar o deep learning para classificar sequências biológicas de dados metagenômicos

DOI:

10.3791/62250

⸱

September 25th, 2021

Zhencheng Fang¹^,² , Hongwei Zhou¹^,³

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este tutorial descreve um método simples para construir um algoritmo de aprendizagem profunda para realizar a classificação de sequência de 2 classes de dados metagenômicos.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Uma variedade de tarefas de classificação de sequências biológicas, como classificação de espécies, classificação da função genética e classificação do hospedeiro viral, são processos esperados em muitas análises de dados metagenômicos. Uma vez que os dados metagenômicos contêm um grande número de novas espécies e genes, algoritmos de classificação de alto desempenho são necessários em muitos estudos. Os biólogos geralmente encontram desafios em encontrar ferramentas adequadas de classificação de sequência e anotação para uma tarefa específica e muitas vezes não são capazes de construir um algoritmo correspondente por conta própria devido à falta do conhecimento matemático e computacional necessário. Técnicas de aprendizagem profunda tornaram-se recentemente um tópico popular e mostram fortes vantagens em muitas tarefas de classificação. Até o momento, muitos pacotes de aprendizagem profunda altamente embalados, que tornam possível para os biólogos construir estruturas de aprendizagem profunda de acordo com suas próprias necessidades sem o conhecimento aprofundado dos detalhes do algoritmo, foram desenvolvidos. Neste tutorial, fornecemos uma diretriz para a construção de uma estrutura de aprendizagem profunda fácil de usar para classificação de sequências sem a necessidade de conhecimentos matemáticos suficientes ou habilidades de programação. Todo o código é otimizado em uma máquina virtual para que os usuários possam executar diretamente o código usando seus próprios dados.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A técnica de sequenciamento metagenômico contorna o processo de isolamento da cepa e sequencia diretamente o DNA total em uma amostra ambiental. Assim, os dados metagenômicos contêm DNA de diferentes organismos, e a maioria das sequências biológicas são de novos organismos que não estão presentes no banco de dados atual. De acordo com diferentes propósitos de pesquisa, os biólogos precisam classificar essas sequências de diferentes perspectivas, como classificação taxonômica¹, classificação vírus-bactérias^2,³^,⁴, classificação cromossômica-plasmida^3,^5,⁶^,⁷, e anotação da função genética (como classificação de gene de resistência a antibióticos⁸ e classificação fator de virulência⁹). Como os dados metagenômicos contêm um grande número de novas espécies e genes, os algoritmos ab initio, que não se baseiam em bancos de dados conhecidos para classificação de sequências (incluindo classificação de DNA e classificação de proteínas), são uma abordagem importante na análise de dados metagenômicos. No entanto, o desenho desses algoritmos requer conhecimentos de matemática profissional e habilidades de programação; portanto, muitos biólogos e iniciantes no design de algoritmos têm dificuldade em construir um algoritmo de classificação para atender às suas próprias necessidades.

Com o desenvolvimento da inteligência artificial, algoritmos de aprendizagem profunda têm sido amplamente utilizados no campo da bioinformática para completar tarefas como classificação de sequência em análise metagenômica. Para ajudar os iniciantes a entender algoritmos de aprendizagem profunda, descrevemos o algoritmo de forma fácil de entender abaixo.

Uma visão geral de uma técnica de aprendizagem profunda é mostrada na Figura 1. A tecnologia central de um algoritmo de aprendizagem profunda é uma rede neural artificial, que é inspirada na estrutura do cérebro humano. Do ponto de vista matemático, uma rede neural artificial pode ser considerada como uma função complexa. Cada objeto (como uma sequência de DNA, uma foto ou um vídeo) é primeiro digitalizado. O objeto digitalizado é então importado para a função. A tarefa da rede neural artificial é dar uma resposta correta de acordo com os dados de entrada. Por exemplo, se uma rede neural artificial for construída para executar uma tarefa de classificação de 2 classes, a rede deve produzir uma pontuação de probabilidade que esteja entre 0-1 para cada objeto. A rede neural deve dar ao objeto positivo uma pontuação maior (como uma pontuação superior a 0,5) ao mesmo tempo em que dá ao objeto negativo uma pontuação mais baixa. Para obter esse objetivo, uma rede neural artificial é construída com os processos de treinamento e teste. Durante esses processos, os dados do banco de dados conhecido são baixados e, em seguida, divididos em um conjunto de treinamento e conjunto de testes. Cada objeto é digitalizado de forma adequada e recebe um rótulo ("1" para objetos positivos e "0" para objetos negativos). No processo de treinamento, os dados digitalizados no conjunto de treinamento são inseridos na rede neural. A rede neural artificial constrói uma função de perda que representa a diferença entre o escore de saída do objeto de entrada e o rótulo correspondente do objeto. Por exemplo, se a etiqueta do objeto de entrada for "1" enquanto a pontuação de saída for "0.1", a função de perda será alta; e se o rótulo do objeto de entrada for "0" enquanto a pontuação de saída for "0.1", a função de perda será baixa. A rede neural artificial emprega um algoritmo iterativo específico que ajusta os parâmetros da rede neural para minimizar a função de perda. O processo de treinamento termina quando a função de perda não pode ser obviamente diminuída. Finalmente, os dados no conjunto de testes são usados para testar a rede neural fixa, e a capacidade da rede neural de calcular os rótulos corretos para os objetos novos é avaliada. Mais princípios de algoritmos de aprendizagem profunda podem ser encontrados na revisão em LeCun et al. ¹⁰.

Embora os princípios matemáticos dos algoritmos de aprendizagem profunda possam ser complexos, muitos pacotes de aprendizagem profunda altamente embalados foram recentemente desenvolvidos, e os programadores podem construir diretamente uma simples rede neural artificial com algumas linhas de código.

Para ajudar biólogos e iniciantes no design de algoritmos a começar a usar o aprendizado profundo mais rapidamente, este tutorial fornece uma diretriz para a construção de uma estrutura de aprendizado profundo fácil de usar para classificação de sequência. Esta estrutura usa a forma de codificação "um-quente" como modelo matemático para digitalizar as sequências biológicas e usa uma rede neural de convolução para realizar a tarefa de classificação (ver o Material Suplementar). A única coisa que os usuários precisam fazer antes de usar esta diretriz é preparar quatro arquivos de sequência no formato "fasta". O primeiro arquivo contém todas as sequências da classe positiva para o processo de treinamento (referido "p_train.fasta"); o segundo arquivo contém todas as sequências da classe negativa para o processo de treinamento (referido a "n_train.fasta"); o terceiro arquivo contém todas as sequências da classe positiva para o processo de teste (referido a "p_test.fasta"); e o último arquivo contém todas as sequências da classe negativa para o processo de teste (referido a "n_test.fasta"). A visão geral do fluxograma deste tutorial é fornecida na Figura 2, e mais detalhes serão mencionados abaixo.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. A instalação da máquina virtual

Baixe o arquivo da máquina virtual de (https://github.com/zhenchengfang/DL-VM).
Baixe o software VirtualBox de https://www.virtualbox.org.
Descomprima o arquivo ".7z" usando software relacionado, como "7-Zip", "WinRAR" ou "WinZip".
Instale o software VirtualBox clicando no botão Seguir em cada etapa.
Abra o software VirtualBox e clique no botão Novo para criar uma máquina virtual.
Passo 6: Digite o nome da máquina virtual especificado no quadro "Nome", selecione Linux como o sistema operacional no quadro "Tipo", selecione Ubuntu no quadro "Versão" e clique no botão Próximo.
Aloque o tamanho da memória da máquina virtual. Recomendamos que os usuários puxem o botão para a parte mais direita da barra verde para atribuir o máximo de memória possível à máquina virtual e, em seguida, clique no botão Seguir.
Escolha usar a seleção de arquivos de disco rígido virtual existente, selecione o arquivo "VM_Bioinfo.vdi" baixado a partir do Passo 1.1 e clique no botão Criar.
Clique no botão Estrela para abrir a máquina virtual.
NOTA: A Figura 3 mostra a captura de tela da área de trabalho da máquina virtual.

2. Crie pastas compartilhadas para troca de arquivos entre o host físico e a máquina virtual

No host físico, crie uma pasta compartilhada chamada "shared_host", e na área de trabalho da máquina virtual, crie uma pasta compartilhada chamada "shared_VM".
Na barra de menu da máquina virtual, clique em Dispositivos, Pasta Compartilhada, Configurações de pastas compartilhadas sucessivamente.
Clique no botão no canto superior direito.
Selecione a pasta compartilhada no host físico criado na Etapa 2.1 e selecione a opção Auto-montagem. Clique no botão OK.
Reinicie a máquina virtual.
Clique com o botão direito do mouse na área de trabalho da máquina virtual e abra o terminal.
Copie o comando siga para o terminal:
sudo mount -t vboxsf shared_host ./Desktop/shared_VM
1. Quando solicitado para uma senha, digite "1" e aperte a tecla"Enter",como mostrado na Figura 4.

3. Prepare os arquivos para o conjunto de treinamento e conjunto de testes

Copie todos os quatro arquivos de sequência em formato "fasta" para o processo de treinamento e teste para a pasta "shared_host" do host físico. Desta forma, todos os arquivos também ocorrerão na pasta "shared_VM" da máquina virtual. Em seguida, copie os arquivos da pasta "shared_VM" para a pasta "DeepLearning" da máquina virtual.

4. Digitalize as sequências biológicas usando forma de codificação "um-quente"

Vá para a pasta "DeepLearning", clique no clique com o botão direito do mouse e abra o terminal. Digite o seguinte comando:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(para sequências de aminoácidos)
ou
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(para sequências de ácido nucleico)
NOTA: Uma captura de tela deste processo é fornecida na Figura 5.

5. Treine e teste a rede neural artificial

No terminal, digite o seguinte comando conforme mostrado na Figura 6:
train.py python
NOTA: O processo de treinamento começará.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Em nosso trabalho anterior, desenvolvemos uma série de ferramentas de classificação de sequência para dados metagenômicos usando uma abordagem semelhante a este tutorial^3,¹¹^,¹². Como exemplo, depositamos os arquivos de sequência do subconjunto de conjunto de treinamento e conjunto de testes do nosso trabalho anterior³^,¹¹ na máquina virtual.

Fa...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este tutorial fornece uma visão geral para biólogos e iniciantes em design de algoritmos sobre como construir uma estrutura de aprendizagem profunda fácil de usar para classificação de sequência biológica em dados metagenômicos. Este tutorial tem como objetivo fornecer uma compreensão intuitiva do aprendizado profundo e enfrentar o desafio que os iniciantes muitas vezes têm dificuldade em instalar o pacote de aprendizagem profunda e escrever o código para o algoritmo. Para algumas tarefas simples de classificação, os usu...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores declaram que não há conflitos de interesse.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esta investigação foi apoiada financeiramente pela Fundação Nacional de Ciência Natural da China (81925026, 82002201, 81800746, 82102508).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PC ou servidor	NA	NA	Memória sugerida: >6GB
Software VirtualBox	NA	NA	Link: https://www.virtualbox.org

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69(2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711(2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373(2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Uma plataforma de máquina virtual para profissionais não-computadores para usar o deep learning para classificar sequências biológicas de dados metagenômicos

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles