Summary

En virtual machine-platform til ikke-computerfolk til brug af deep learning til at klassificere biologiske sekvenser af metagenomiske data

Published: September 25, 2021
doi:

Summary

Dette selvstudium beskriver en enkel metode til at konstruere en deep learning-algoritme til udførelse af 2-klasses sekvensklassifikation af metagenomiske data.

Abstract

En række biologiske sekvensklassifikationsopgaver, såsom artsklassifikation, genfunktionsklassifikation og viral værtsklassifikation, forventes processer i mange metagenomiske dataanalyser. Da metagenomiske data indeholder et stort antal nye arter og gener, er der behov for højtydende klassificeringsalgoritmer i mange undersøgelser. Biologer støder ofte på udfordringer med at finde passende sekvensklassificerings- og anmærkningsværktøjer til en bestemt opgave og er ofte ikke i stand til at konstruere en tilsvarende algoritme alene på grund af mangel på den nødvendige matematiske og beregningsmæssige viden. Deep learning teknikker er for nylig blevet et populært emne og viser stærke fordele i mange klassificering opgaver. Til dato er mange meget emballerede deep learning-pakker, som gør det muligt for biologer at konstruere dybe læringsrammer efter deres egne behov uden indgående kendskab til algoritmedetaljerne, blevet udviklet. I denne vejledning giver vi en retningslinje for opbygning af en brugervenlig deep learning-ramme for sekvensklassifikation uden behov for tilstrækkelig matematisk viden eller programmeringsfærdigheder. Al koden er optimeret i en virtuel maskine, så brugerne direkte kan køre koden ved hjælp af deres egne data.

Introduction

Den metagenomiske sekventeringsteknik omgår belastningsisoleringsprocessen og sekvenserer direkte det samlede DNA i en miljøprøve. Metagenomiske data indeholder således DNA fra forskellige organismer, og de fleste biologiske sekvenser er fra nye organismer, der ikke er til stede i den aktuelle database. Ifølge forskellige forskningsformål skal biologer klassificere disse sekvenser fra forskellige perspektiver, såsom taksonomisk klassificering1, virusbakterierklassifikation2,3,4, kromosomplasmidklassifikation3, 5,6,7og anmærkning af genfunktion (f.eks. klassificering af antibiotikaresistensgen8 og virulensfaktorklassifikation9 ). Da metagenomiske data indeholder et stort antal nye arter og gener, er ab initio-algoritmer, som ikke er afhængige af kendte databaser til sekvensklassificering (herunder DNA-klassificering og proteinklassificering), en vigtig tilgang til metagenomisk dataanalyse. Men udformningen af sådanne algoritmer kræver professionel matematik viden og programmering færdigheder; Derfor har mange biologer og algoritmedesign begyndere svært ved at konstruere en klassificeringsalgoritme, der passer til deres egne behov.

Med udviklingen af kunstig intelligens er deep learning-algoritmer blevet udbredt inden for bioinformatik til at udføre opgaver som sekvensklassificering i metageomisk analyse. For at hjælpe begyndere med at forstå deep learning-algoritmer beskriver vi algoritmen på en letforståelig måde nedenfor.

Figur 1 viser en oversigt over en deep learning-teknik. Kerneteknologien i en dyb læringsalgoritme er et kunstigt neuralt netværk, som er inspireret af strukturen i den menneskelige hjerne. Fra et matematisk synspunkt kan et kunstigt neuralt netværk betragtes som en kompleks funktion. Hvert objekt (f.eks. en DNA-sekvens, et foto eller en video) digitaliseres først. Det digitaliserede objekt importeres derefter til funktionen. Opgaven med det kunstige neurale netværk er at give et korrekt svar i henhold til inputdataene. Hvis et kunstigt neuralt netværk f.eks. er konstrueret til at udføre en 2-klasses klassificeringsopgave, skal netværket udskrive en sandsynlighedsscore, der er mellem 0-1 for hvert objekt. Det neurale netværk skal give det positive objekt en højere score (såsom en score højere end 0,5), samtidig med at det negative objekt får en lavere score. For at opnå dette mål er et kunstigt neuralt netværk konstrueret med trænings- og testprocesserne. Under disse processer downloades data fra den kendte database og opdeles derefter i et træningssæt og testsæt. Hvert objekt digitaliseres på en korrekt måde og tildeles en etiket (“1” for positive objekter og “0” for negative objekter). I træningsprocessen indtastes de digitaliserede data i træningssættet i det neurale netværk. Det kunstige neurale netværk konstruerer en tabsfunktion, der repræsenterer forskellen mellem inputobjektets outputscore og objektets tilsvarende etiket. Hvis inputobjektets etiket f.eks. og hvis inputobjektets etiket er “0”, mens outputscoren er “0,1”, vil tabsfunktionen være lav. Det kunstige neurale netværk anvender en specifik iterativ algoritme, der justerer parametrene for det neurale netværk for at minimere tabsfunktionen. Træningsprocessen afsluttes, når tabsfunktionen ikke kan reduceres yderligere. Endelig bruges dataene i testsættet til at teste det faste neurale netværk, og det neurale netværks evne til at beregne de korrekte etiketter til de nye objekter evalueres. Flere principper for deep learning algoritmer kan findes i anmeldelsen i LeCun et al. 10 .

Selvom de matematiske principper for deep learning-algoritmer kan være komplekse, er mange meget emballerede deep learning-pakker for nylig blevet udviklet, og programmører kan direkte konstruere et simpelt kunstigt neuralt netværk med et par kodelinjer.

For at hjælpe biologer og algoritmedesign begyndere med at komme i gang med at bruge deep learning hurtigere, giver denne vejledning en retningslinje for opbygning af en brugervenlig deep learning-ramme for sekvensklassifikation. Denne ramme bruger kodningsformen “one-hot” som den matematiske model til at digitalisere de biologiske sekvenser og bruger et convolution neuralt netværk til at udføre klassificeringsopgaven (se det supplerende materiale). Det eneste, som brugerne skal gøre, før du bruger denne retningslinje, er at forberede fire sekvensfiler i “fasta” -format. Den første fil indeholder alle sekvenser af den positive klasse for træningsprocessen (benævnt “p_train.fasta”); den anden fil indeholder alle sekvenser af den negative klasse for træningsprocessen (benævnt “n_train.fasta”) den tredje fil indeholder alle sekvenser af den positive klasse for testprocessen (benævnt “p_test.fasta”) og den sidste fil indeholder alle sekvenser af den negative klasse for testprocessen (benævnt “n_test.fasta”). Oversigten over rutediagrammet i dette selvstudium findes i figur 2, og flere detaljer vil blive nævnt nedenfor.

Protocol

1. Installation af den virtuelle maskine Hent filen med den virtuelle maskine fra (https://github.com/zhenchengfang/DL-VM). Hent VirtualBox-softwaren fra https://www.virtualbox.org. Dekomprimer filen “.7z” ved hjælp af relateret software, f.eks. Installer VirtualBox-softwaren ved at klikke på knappen Næste i hvert trin. Åbn VirtualBox-softwaren, og klik på knappen Ny for at oprette en virtuel maskine. Trin 6: Indtast det an…

Representative Results

I vores tidligere arbejde udviklede vi en række sekvensklassifikationsværktøjer til metagenomiske data ved hjælp af en tilgang svarende til denne tutorial3,11,12. Som et eksempel deponerede vi sekvensfilerne for delsættet af træningssæt og testsæt fra vores tidligere arbejde3,11 i den virtuelle maskine. Fang & Zhou11<…

Discussion

Denne vejledning giver et overblik for biologer og algoritmedesign begyndere om, hvordan man konstruerer en brugervenlig deep learning ramme for biologisk sekvens klassificering i metagenomiske data. Denne vejledning har til formål at give intuitiv forståelse af deep learning og løse den udfordring, som begyndere ofte har svært ved at installere deep learning-pakken og skrive koden til algoritmen. I forbindelse med nogle enkle klassificeringsopgaver kan brugerne bruge strukturen til at udføre klassificeringsopgavern…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Denne undersøgelse blev støttet økonomisk af National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video