Genetics

Una piattaforma di macchine virtuali per professionisti non informatici per l'utilizzo del deep learning per classificare sequenze biologiche di dati metagenomici

Published: September 25, 2021 doi: 10.3791/62250

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

Questo tutorial descrive un metodo semplice per costruire un algoritmo di deep learning per eseguire la classificazione di sequenze a 2 classi di dati metagenomici.

Abstract

Una varietà di compiti di classificazione delle sequenze biologiche, come la classificazione delle specie, la classificazione della funzione genica e la classificazione dell'ospite virale, sono processi attesi in molte analisi di dati metagenomici. Poiché i dati metagenomici contengono un gran numero di nuove specie e geni, in molti studi sono necessari algoritmi di classificazione ad alte prestazioni. I biologi incontrano spesso difficoltà nel trovare strumenti adatti per la classificazione delle sequenze e l'annotazione per un compito specifico e spesso non sono in grado di costruire un algoritmo corrispondente da soli a causa della mancanza delle necessarie conoscenze matematiche e computazionali. Le tecniche di deep learning sono recentemente diventate un argomento popolare e mostrano forti vantaggi in molte attività di classificazione. Ad oggi, sono stati sviluppati molti pacchetti di deep learning altamente confezionati, che consentono ai biologi di costruire framework di deep learning in base alle proprie esigenze senza una conoscenza approfondita dei dettagli dell'algoritmo. In questo tutorial, forniamo una linea guida per la costruzione di un framework di deep learning facile da usare per la classificazione delle sequenze senza la necessità di sufficienti conoscenze matematiche o abilità di programmazione. Tutto il codice è ottimizzato in una macchina virtuale in modo che gli utenti possano eseguire direttamente il codice utilizzando i propri dati.

Introduction

La tecnica di sequenziamento metagenomico bypassa il processo di isolamento del ceppo e sequenzia direttamente il DNA totale in un campione ambientale. Pertanto, i dati metagenomici contengono DNA di diversi organismi e la maggior parte delle sequenze biologiche provengono da nuovi organismi che non sono presenti nel database corrente. Secondo diversi scopi di ricerca, i biologi devono classificare queste sequenze da diverse prospettive, come la classificazione tassonomica¹, la classificazione virus-batteri 2 ,³^,⁴^,la classificazione cromosoma-plasmide 3 ,⁵^,⁶^,⁷e l'annotazione della funzione^genica(come la classificazione del gene di resistenza agli antibiotici⁸ e la classificazione del fattore di virulenza⁹). Poiché i dati metagenomici contengono un gran numero di nuove specie e geni, gli algoritmi ab initio, che non si basano su database noti per la classificazione delle sequenze (compresa la classificazione del DNA e la classificazione delle proteine), sono un approccio importante nell'analisi dei dati metagenomici. Tuttavia, la progettazione di tali algoritmi richiede conoscenze matematiche professionali e capacità di programmazione; pertanto, molti biologi e principianti nella progettazione di algoritmi hanno difficoltà a costruire un algoritmo di classificazione adatto alle proprie esigenze.

Con lo sviluppo dell'intelligenza artificiale, gli algoritmi di deep learning sono stati ampiamente utilizzati nel campo della bioinformatica per completare compiti come la classificazione delle sequenze nell'analisi metagenomica. Per aiutare i principianti a comprendere gli algoritmi di deep learning, descriviamo l'algoritmo in modo facile da capire di seguito.

Una panoramica di una tecnica di deep learning è illustrata nella Figura 1. La tecnologia di base di un algoritmo di deep learning è una rete neurale artificiale, che si ispira alla struttura del cervello umano. Da un punto di vista matematico, una rete neurale artificiale può essere considerata come una funzione complessa. Ogni oggetto (come una sequenza di DNA, una foto o un video) viene prima digitalizzato. L'oggetto digitalizzato viene quindi importato nella funzione. Il compito della rete neurale artificiale è quello di dare una risposta corretta in base ai dati di input. Ad esempio, se una rete neurale artificiale è costruita per eseguire un'attività di classificazione di 2 classi, la rete dovrebbe produrre un punteggio di probabilità compreso tra 0-1 per ogni oggetto. La rete neurale dovrebbe dare all'oggetto positivo un punteggio più alto (come un punteggio superiore a 0,5) mentre dà all'oggetto negativo un punteggio più basso. Per raggiungere questo obiettivo, viene costruita una rete neurale artificiale con i processi di addestramento e test. Durante questi processi, i dati del database noto vengono scaricati e quindi suddivisi in un set di addestramento e un set di test. Ogni oggetto viene digitalizzato in modo corretto e gli viene assegnata un'etichetta ("1" per gli oggetti positivi e "0" per gli oggetti negativi). Nel processo di addestramento, i dati digitalizzati nel set di allenamento vengono immessi nella rete neurale. La rete neurale artificiale costruisce una funzione di perdita che rappresenta la dissomiglianza tra il punteggio di output dell'oggetto di input e l'etichetta corrispondente dell'oggetto. Ad esempio, se l'etichetta dell'oggetto di input è "1" mentre il punteggio di output è "0.1", la funzione di perdita sarà elevata; e se l'etichetta dell'oggetto di input è "0" mentre il punteggio di output è "0.1", la funzione di perdita sarà bassa. La rete neurale artificiale impiega uno specifico algoritmo iterativo che regola i parametri della rete neurale per ridurre al minimo la funzione di perdita. Il processo di formazione termina quando la funzione di perdita non può ovviamente essere ulteriormente ridotta. Infine, i dati nel set di test vengono utilizzati per testare la rete neurale fissa e viene valutata la capacità della rete neurale di calcolare le etichette corrette per i nuovi oggetti. Altri principi degli algoritmi di deep learning possono essere trovati nella recensione in LeCun et al. ¹⁰.

Sebbene i principi matematici degli algoritmi di deep learning possano essere complessi, di recente sono stati sviluppati molti pacchetti di deep learning altamente confezionati e i programmatori possono costruire direttamente una semplice rete neurale artificiale con poche righe di codice.

Per aiutare i biologi e i principianti della progettazione di algoritmi a iniziare a utilizzare il deep learning più rapidamente, questo tutorial fornisce una linea guida per la costruzione di un framework di deep learning facile da usare per la classificazione delle sequenze. Questo framework utilizza la forma di codifica "one-hot" come modello matematico per digitalizzare le sequenze biologiche e utilizza una rete neurale di convoluzione per eseguire il compito di classificazione (vedi il materiale supplementare). L'unica cosa che gli utenti devono fare prima di utilizzare questa linea guida è preparare quattro file di sequenza in formato "fasta". Il primo file contiene tutte le sequenze della classe positiva per il processo di allenamento (denominato "p_train.fasta"); il secondo file contiene tutte le sequenze della classe negativa per il processo di formazione (denominato "n_train.fasta"); il terzo file contiene tutte le sequenze della classe positiva per il processo di test (denominato "p_test.fasta"); e l'ultimo file contiene tutte le sequenze della classe negativa per il processo di test (denominato "n_test.fasta"). La panoramica del diagramma di flusso di questa esercitazione è fornita nella Figura 2e ulteriori dettagli saranno menzionati di seguito.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. L'installazione della macchina virtuale

Scaricare il file della macchina virtuale da (https://github.com/zhenchengfang/DL-VM).
Scarica il software VirtualBox da https://www.virtualbox.org.
Decomprimi il file ".7z" utilizzando il software correlato, come "7-Zip", "WinRAR" o "WinZip".
Installare il software VirtualBox facendo clic sul pulsante Avanti in ogni passaggio.
Aprire il software VirtualBox e fare clic sul pulsante Nuovo per creare una macchina virtuale.
Passo 6: Inserisci il nome della macchina virtuale specificato nel frame "Nome", seleziona Linux come sistema operativo nel frame "Tipo", seleziona Ubuntu nel frame "Versione" e fai clic sul pulsante Avanti.
Allocare la dimensione della memoria della macchina virtuale. È consigliabile che gli utenti tirino il pulsante nella parte più a destra della barra verde per assegnare quanta più memoria possibile alla macchina virtuale, quindi fare clic sul pulsante Avanti.
Scegliere la selezione Usa un file del disco rigido virtuale esistente, selezionare il file "VM_Bioinfo.vdi" scaricato dal passaggio 1.1 e quindi fare clic sul pulsante Crea.
Fare clic sul pulsante Stella per aprire la macchina virtuale.
NOTA: nella Figura 3 viene illustrata la schermata del desktop della macchina virtuale.

2. Creare cartelle condivise per lo scambio di file tra l'host fisico e la macchina virtuale

Nell'host fisico, creare una cartella condivisa denominata "shared_host" e sul desktop della macchina virtuale creare una cartella condivisa denominata "shared_VM".
Nella barra dei menu della macchina virtuale fare clic su Dispositivi, Cartella condivisa, Impostazioni cartelle condivise successivamente.
Fai clic sul pulsante nell'angolo in alto a destra.
Selezionare la cartella condivisa nell'host fisico creato nel passaggio 2.1 e selezionare l'opzione Montaggio automatico. Fare clic sul pulsante OK.
Riavviare la macchina virtuale.
Fare clic con il pulsante destro del mouse sul desktop della macchina virtuale e aprire il terminale.
Copia il seguito comando sul terminale:
sudo mount -t vboxsf shared_host ./Desktop/shared_VM
1. Quando viene richiesta una password, immettere "1" e premere il tasto"Invio",come mostrato nella Figura 4.

3. Preparare i file per il set di allenamento e il set di test

Copiare tutti e quattro i file di sequenza in formato "fasta" per il processo di addestramento e test nella cartella "shared_host" dell'host fisico. In questo modo, tutti i file si verificheranno anche nella cartella "shared_VM" della macchina virtuale. Quindi, copiare i file nella cartella "shared_VM" nella cartella "DeepLearning" della macchina virtuale.

4. Digitalizzare le sequenze biologiche utilizzando la forma di codifica "one-hot"

Vai alla cartella "DeepLearning", fai clic con il pulsante destro del mouse e apri il terminale. Digitare il comando seguente:
onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(per sequenze di amminoacidi)
o
onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(per le sequenze di acidi nucleici)
NOTA: nella Figura 5viene fornita una schermata di questo processo.

5. Addestrare e testare la rete neurale artificiale

Nel terminale, digitare il seguente comando come mostrato nella Figura 6:
train.py python
NOTA: inizierà il processo di formazione.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Nel nostro lavoro precedente, abbiamo sviluppato una serie di strumenti di classificazione delle sequenze per i dati metagenomici utilizzando un approccio simile a questo tutorial³^,¹¹^,¹². Ad esempio, abbiamo depositato i file di sequenza del sottoinsieme del set di addestramento e del set di test dal nostro precedente lavoro³^,¹¹ nella macchina virtuale.

Fang & Zhou¹¹ mirava a identificare le proteine virioni complete e parziali del virus procariota dai dati del viroma. Il file "p_train.fasta" contiene i frammenti di proteina virione del virus per il set di allenamento; il file "n_train.fasta" contiene i frammenti proteici nonvirion del virus per il set di allenamento; il file "p_test.fasta" contiene i frammenti di proteina virione del virus per il set di test; e il file "n_test.fasta" contiene i frammenti proteici nonvirion del virus per il set di test. L'utente può eseguire direttamente i seguenti due comandi per costruire la rete neurale:
onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
e
train.py python

Le prestazioni sono illustrate nella Figura 7.

Fang et al.³ miravano a identificare frammenti di DNA fagico da frammenti di DNA cromosomico batterico in dati metagenomici. Il file "phage_train.fasta" contiene i frammenti di DNA dei fagi per il set di allenamento; il file "chromosome_train.fasta" contiene i frammenti di DNA cromosomico per il set di allenamento; il file "phage_test.fasta" contiene i frammenti di DNA dei fagi per il set di test; e il file "chromosome_test.fasta" contiene i frammenti di DNA cromosomico per il set di test. L'utente può eseguire direttamente i seguenti due comandi per costruire la rete neurale:
onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
e
train.py python

Le prestazioni sono illustrate nella Figura 8.

Vale la pena notare che, poiché l'algoritmo contiene alcuni processi che hanno casualità, i risultati di cui sopra potrebbero essere leggermente diversi se gli utenti rielancano lo script.

Figura 1. Panoramica della tecnica di deep learning. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2. Panoramica del diagramma di flusso di questa esercitazione. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3. Screenshot del desktop della macchina virtuale. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4. Screenshot dell'attivazione delle cartelle condivise. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5. Screenshot del processo di digitalizzazione della sequenza. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 6. Addestrare e testare la rete neurale artificiale. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 7. L'esecuzione dell'identificazione dei frammenti proteici virionali del virus procariota. I criteri di valutazione sono Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) e AUC. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 8. L'esecuzione dell'identificazione dei frammenti di DNA dei fagi. I criteri di valutazione sono Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) e AUC. Fare clic qui per visualizzare una versione più grande di questa figura.

Materiale supplementare: Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Questo tutorial fornisce una panoramica per biologi e principianti nella progettazione di algoritmi su come costruire un framework di deep learning facile da usare per la classificazione delle sequenze biologiche nei dati metagenomici. Questo tutorial mira a fornire una comprensione intuitiva del deep learning e ad affrontare la sfida che i principianti spesso hanno difficoltà a installare il pacchetto di deep learning e a scrivere il codice per l'algoritmo. Per alcune semplici attività di classificazione, gli utenti possono utilizzare il framework per eseguire le attività di classificazione.

Considerando che molti biologi non hanno familiarità con la riga di comando del sistema operativo Linux, abbiamo preinstallato tutto il software dipendente in una macchina virtuale. In questo modo, l'utente può eseguire direttamente il codice nella macchina virtuale seguendo il protocollo sopra menzionato. Inoltre, se gli utenti hanno familiarità con il sistema operativo Linux e la programmazione Python, possono anche eseguire questo protocollo direttamente sul server o sul PC locale. In questo modo, l'utente deve preinstallare il seguente software dipendente:

Python 2.7.12 (https://www.python.org/)
Pacchetti Python:
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
TensorFlow 1.4.1 (https://www.tensorflow.org/)
Keras 2.0.8 (https://keras.io/)
MATLAB Component Runtime (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

Il manuale del nostro lavoro precedente³ ha una breve descrizione dell'installazione. Si noti che il numero di versione di ogni pacchetto corrisponde alla versione utilizzata nel codice. Il vantaggio di eseguire il codice nel server o nel PC locale senza la macchina virtuale è che il codice può accelerare con una GPU in questo modo, il che può far risparmiare molto tempo nel processo di addestramento. In questo modo, l'utente dovrebbe installare la versione GPU di TensorFlow (vedere il manuale del lavoro precedente³).

Alcuni dei passaggi critici all'interno del protocollo sono descritti come segue. Nel passaggio 4.1, i nomi dei file "p_train.fasta", "n_train.fasta", "p_test.fasta" e "n_test.fasta" devono essere sostituiti dai nomi di file utilizzati. L'ordine di questi quattro file in questo comando non può essere modificato. Se i file contengono sequenze di amminoacidi, l'ultimo parametro dovrebbe essere "aa"; se i file contengono sequenze di acidi nucleici, l'ultimo parametro deve essere "nt". Questo comando utilizza il modulo di codifica "one-hot" per digitalizzare le sequenze biologiche. Un'introduzione del modulo di codifica "one-hot" è fornita nel Materiale supplementare. Nel passaggio 5.1, poiché la macchina virtuale non può essere accelerata con la GPU, questo processo potrebbe richiedere alcune ore o diversi giorni, a seconda delle dimensioni dei dati. Le barre di avanzamento per ogni epoca di iterazione sono mostrate nel terminale. Impostiamo il numero di epoche su 50 e, quindi, un totale di 50 barre di avanzamento verranno visualizzate al termine del processo di allenamento. Al termine del processo di test, la precisione per il set di test verrà visualizzata nel terminale. Nella cartella "DeepLearning" della macchina virtuale verrà creato un file denominato "predict.csv". Questo file contiene tutti i punteggi di previsione per i dati del test. L'ordine di questi punteggi corrisponde all'ordine di sequenza in "p_test.fasta" e "n_test.fasta" (la prima metà di questi punteggi corrisponde a "p_test.fasta", mentre la seconda metà di questi punteggi corrisponde a "n_test.fatsa"). Se gli utenti vogliono fare previsioni per le sequenze le cui classi vere sono sconosciute, possono anche depositare queste sequenze sconosciute nel file "p_test.fasta" o "n_test.fasta". In questo modo, i punteggi di queste sequenze sconosciute verranno visualizzati anche nel file "predict.csv", ma la visualizzazione "accuracy" nel terminale non ha senso. Questo script utilizza una rete neurale convoluzionale per eseguire la classificazione. La struttura della rete neurale e il codice per la rete neurale sono mostrati nel Materiale supplementare.

Una delle caratteristiche del deep learning è che molte impostazioni dei parametri richiedono una certa esperienza, il che può essere una grande sfida per i principianti. Per evitare l'apprensione dei principianti causata da un gran numero di formule, non ci concentriamo sui principi matematici del deep learning e, nella macchina virtuale, non forniamo un'interfaccia speciale per l'impostazione dei parametri. Sebbene questa possa essere una buona scelta per i principianti, la selezione inappropriata dei parametri può anche portare a un calo della precisione. Per consentire ai principianti di sperimentare meglio come modificare i parametri, nello script "train.py", aggiungiamo alcuni commenti al codice correlato e gli utenti possono modificare i parametri correlati, come il numero di kernel di convoluzione, per vedere come questi parametri influenzano le prestazioni.

Inoltre, molti programmi di deep learning dovrebbero essere eseguiti sotto una GPU. Tuttavia, la configurazione della GPU richiede anche alcune abilità informatiche che possono essere difficili per i professionisti non informatici; pertanto, scegliamo di ottimizzare il codice in una macchina virtuale.

Quando si risolvono altre attività di classificazione delle sequenze basate su questa linea guida, gli utenti devono solo sostituire i quattro file di sequenza con i propri dati. Ad esempio, se gli utenti hanno bisogno di distinguere sequenze derivate da plasmidi e derivate da cromosomi nei dati metagenomici, possono scaricare direttamente i genomi plasmidici (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) e i genomi cromosomici batterici (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) dal database RefSeq e separare i genomi in un set di addestramento e un set di test. Vale la pena notare che le sequenze di DNA nei dati metagenomici sono spesso frammentate piuttosto che genomi completi. In questi casi, gli utenti possono utilizzare lo strumento MetaSim¹³ per estrarre il frammento di DNA dal genoma completo. MetaSim è uno strumento user-friendly con un'interfaccia GUI e gli utenti possono completare la maggior parte delle operazioni utilizzando il mouse senza digitare alcun comando sulla tastiera. Per semplificare l'operazione per i principianti, il nostro tutorial è progettato per un compito di classificazione a due classi. Tuttavia, abbiamo bisogno di eseguire la multiclassificazione in molte attività. In questi casi, i principianti possono provare a separare l'attività di multiclassificazione in diverse attività di classificazione a due classi. Ad esempio, per identificare l'ospite fagico, Zhang et al. hanno costruito 9 classificatori a due classi per identificare se una data sequenza di fagi può infettare un determinato ospite.

La homepage di questo tutorial è depositata sul sito GitHub https://github.com/zhenchengfang/DL-VM. Qualsiasi aggiornamento del tutorial sarà descritto sul sito web. Gli utenti possono anche sollevare le loro domande su questo tutorial sul sito web.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori dichiarano che non ci sono conflitti di interesse.

Acknowledgments

Questa indagine è stata sostenuta finanziariamente dalla National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).

Materials

Name	Company	Catalog Number	Comments
PC or server	NA	NA	Suggested memory: >6GB
VirtualBox software	NA	NA	Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Genetics

Una piattaforma di macchine virtuali per professionisti non informatici per l'utilizzo del deep learning per classificare sequenze biologiche di dati metagenomici

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.