September 25th, 2021
Deze zelfstudie beschrijft een eenvoudige methode om een deep learning-algoritme te construeren voor het uitvoeren van 2-klasse sequentieclassificatie van metagenomische gegevens.
Een verscheidenheid aan biologische sequentieclassificatie taken, zoals soort classificatie, gen functie classificatie, en draad gastheer classificatie zijn verwachte processen in veel metagenomic data analyses. Aangezien metagenomische gegevens een groot aantal Novo-soorten en -genen bevatten, zijn in veel studies goed presterende classificatieorganismen nodig. Biologen ondervinden vaak uitdagingen bij het vinden van geschikte sequentieclassificatie- en notatietools voor een specifieke taak en zijn vaak niet in staat om zelf een overeenkomstig organisme te construeren vanwege een gebrek aan de nodige wiskundige en computationele kennis.
Deep learning technieken zijn onlangs een populair onderwerp geworden en laten een sterk voordeel zien in veel classificatietaken. Tot op heden zijn er veel sterk verpakte deep learning-pakketten ontwikkeld, die het voor biologen mogelijk maken om deep learning-kaders te construeren, volgens hun eigen behoeften zonder diepgaande kennis van de details van het organisme. In deze zelfstudie bieden we een richtlijn voor het bouwen van een eenvoudig te gebruiken deep learning-framework voor sequentieclassificatie zonder dat er voldoende wiskundige kennis of programmeervaardigheden nodig zijn.
In de volgende video ziet u hoe u de virtuele machine kunt gebruiken om biologische sequentie classificatie uit te voeren. Gebruikers moeten het bestand van de virtuele machine downloaden van de startpagina van de zelfstudie en vervolgens de VirtualBox-software downloaden. De virtuele machine wordt gecomprimeerd als een zeventig-bestand.
Het zeventig-bestand kan eenvoudig worden gedecomprimeerd met behulp van een huidige compressiesoftware, zoals WinRar, Winzip en 7-Zip. We hebben de virtuele machine gedecomprimeerd met 7-Zip. De decompressie kan enige tijd duren.
Wacht even. Na decompressie moeten gebruikers de VirtualBox-software installeren. Maak een map om de VirtualBox te installeren.
Maak een VirtualBox-installatiepakket. Selecteer de map die u zelf hebt gemaakt. Installeer vervolgens de VirutalBox-software door op de volgende knop in elke stap te klikken.
De installatie kan enige tijd duren, wacht even. Open de VirtualBox-software. Maak een nieuwe knop om een virtuele machine te maken.
Voer de naam van de virtuele machine in die u zelf hebt opgegeven in het naamframe. Selecteer Linux als besturingssysteem in het typeframe. Selecteer Ubuntu in het versieframe en klik op de volgende knop.
Wijs indien mogelijk een grotere hoeveelheid geheugen toe aan de virtuele machine. Het is waar dat u een bestaande selectie van harde schijven gebruikt. Selecteer het bestand van de virtuele machine dat is gedownload van de startpagina van de zelfstudie.
Klik vervolgens op de knop Maken. Klik op een startknop om de virtuele machine te openen. Het opstarten van de virtuele machine kan even duren.
Wacht even voor de volgende stap. Vervolgens moeten gebruikers een gedeelde map maken in zowel fysieke hosts als virtuele machines om bestanden uit te wisselen. Maak in uw fysieke host een gedeelde map met de naam gedeelde host en maak op het bureaublad van de virtuele machine achtereenvolgens een gedeelde map met de naam gedeeld VM.In de handmatige balk van de virtuele machine, klik op apparaten, gedeelde mappen en instellingen voor gedeelde mappen.
Klik op de knop in de rechterbovenhoek. Selecteer de gedeelde map in de fysieke host die u zelf hebt gemaakt. Selecteer de optie voor automatisch koppelen.
Klik op de knop OK. Start vervolgens de virtuele machine opnieuw op. Het opnieuw opstarten van de virtuele machine kan even duren.
Wacht even voor de volgende stap. Klik met de rechtermuisknop op het bureaublad van de virtuele machine en open de terminal. Typ de volgende opdracht naar de terminal.
Sudo, spatiebalk, koppeling, spatietoets, balk T, spatietoets, vboxsf, spatiesleutel, gedeelde host, spatietoets, puntslash, bureaublad, schuine streep, gedeelde VM.Wanneer u om een wachtwoord wordt gevraagd, voert u er een in en tikt u op de enter-toets. Kopieer alle vier de sequentiebestanden in een snellere indeling voor het trainings- en testproces naar de gedeelde hostmap van de fysieke host. Op deze manier komen alle bestanden ook voor in de gedeelde VM-map van de virtuele machine.
Kopieer vervolgens de bestanden in de gedeelde VM-map naar de deep learning-map van de virtuele machine. Klik met de rechtermuisknop en open de terminal en typ de volgende opdracht om de ene hete codering uit te voeren. Dot slash, een hete codering, geef de bestanden op voor training en testen.
En geef het volgtype op. Typ vervolgens de volgende opdracht om het trendingproces te starten. Python-ruimtesleutel, treinpunt P Y.Dan begint het trendingproces.
Dit proces kan enkele uren of enkele dagen duren, afhankelijk van de grootte van uw gegevensset. Wanneer het proces is voltooid, is het voorspelresultaat van de testgegevens aanwezig in het CSV-bestand predict dot. In ons vorige werk ontwikkelden we een reeks sequentieclassificatietools voor een metagenomic data, met behulp van een benadering die vergelijkbaar is met deze tutorial.
We hebben bijvoorbeeld een tool ontwikkeld om de volledige en gedeeltelijke virion-eiwitten van het prokaryotevirus te identificeren aan de hand van run-gegevens. En een hulpmiddel gericht op het identificeren van faag DNA fragmenten van bacteriële chromosoom DNA fragmenten in metogenomic data. De prestaties van de gereedschappen met behulp van het script van deze zelfstudie worden weergegeven in de afbeelding a en b.
Tot slot biedt deze tutorial een overzicht voor biologen en organismen die beginners ontwerpen over het construeren van een eenvoudig te gebruiken deep learning-raamwerk voor biologische sequentieclassificatie in metogenomic-gegevens. Deze tutorial is bedoeld om intuïtief inzicht te geven in deep learning en de uitdaging aan te gaan die beginners vaak moeilijk hebben bij het starten van het deep learning-pakket en het schrijven van de code voor het organisme. Voor sommige eenvoudige classificatietaken kunnen gebruikers ons framework gebruiken om de classificatietaak uit te voeren.
View the full transcript and gain access to thousands of scientific videos
Deze tutorial biedt een richtlijn voor het construeren van een deep learning framework voor 2-klasse sequentieclassificatie van metagenomische data. Het is bedoeld om biologen te helpen bij het overwinnen van uitdagingen gerelateerd aan sequentieclassificatie zonder uitgebreide wiskundige of programmeerkennis te vereisen.