3,767 Views
•
09:34 min
•
September 25, 2021
DOI:
Una variedad de tareas de clasificación de secuencias biológicas, como la clasificación de especies, la clasificación de la función génica y la clasificación del huésped de alambre son procesos esperados en muchos análisis de datos metagenómicos. Dado que los datos metagenómicos contienen un gran número de especies y genes novo, se necesitan organismos de clasificación de alto rendimiento en muchos estudios. Los biólogos a menudo encuentran desafíos para encontrar herramientas adecuadas de clasificación y notación de secuencias para una tarea específica y, a menudo, no pueden construir un organismo correspondiente por sí mismos debido a la falta del conocimiento matemático y computacional necesario.
Las técnicas de aprendizaje profundo se han convertido recientemente en un tema popular y muestran una gran ventaja en muchas tareas de clasificación. Hasta la fecha, se han desarrollado muchos paquetes de aprendizaje profundo altamente empaquetados, que hacen posible que los biólogos construyan marcos de aprendizaje profundo, de acuerdo con sus propias necesidades sin un conocimiento profundo de los detalles del organismo. En este tutorial, proporcionamos una guía para construir un marco de aprendizaje profundo fácil de usar para la clasificación de secuencias sin la necesidad de suficientes conocimientos matemáticos o habilidades de programación.
En el siguiente vídeo se muestra cómo utilizar la máquina virtual para realizar la clasificación de secuencias biológicas. Los usuarios deben descargar el archivo de la máquina virtual desde la página de inicio del tutorial y, a continuación, descargar el software VirtualBox. La máquina virtual se comprime como un archivo de setenta.
El archivo de setenta se puede descomprimir fácilmente utilizando un software de compresión actual, como WinRar, Winzip y 7-Zip. Descomprimimos la máquina virtual usando 7-Zip. La descompresión puede tomar algún tiempo.
Por favor, espere un momento. Después de la descompresión, los usuarios deben instalar el software VirtualBox. Cree una carpeta para instalar VirtualBox.
Cree un paquete de instalación de VirtualBox. Seleccione la carpeta creada por usted mismo. Luego instale el software VirutalBox haciendo clic en el botón siguiente en cada paso.
La instalación puede tardar algún tiempo, espere un tiempo. Abra el software VirtualBox. Cree un nuevo botón para crear una máquina virtual.
Escriba el nombre de la máquina virtual especificado por usted mismo en el marco de nombre. Seleccione Linux como sistema operativo en el marco de tipo. Seleccione Ubuntu en el marco de versión y haga clic en el botón siguiente.
Si es posible, asigne una mayor cantidad de memoria a la máquina virtual. True el uso de una selección de archivo de disco duro existente. Seleccione el archivo de máquina virtual descargado de la página de inicio del tutorial.
Y luego haga clic en el botón crear. Haga clic en un botón de inicio para abrir la máquina virtual. El inicio de la máquina virtual puede llevar un tiempo.
Por favor, espere un momento antes del siguiente paso. A continuación, los usuarios deben crear una carpeta compartida tanto en hosts físicos como en máquinas virtuales para intercambiar archivos. En su host físico, cree una carpeta compartida llamada host compartido y en el escritorio de la máquina virtual, cree una carpeta compartida llamada compartida VM.In la barra manual de la máquina virtual, haga clic en dispositivos, carpetas compartidas, configuración de carpetas compartidas sucesivamente.
Haga clic en el botón en la esquina superior derecha. Seleccione la carpeta compartida en el host físico creado por usted mismo. Seleccione la opción de montaje automático.
Haga clic en el botón Aceptar. A continuación, reinicie la máquina virtual. Reiniciar la máquina virtual puede llevar un tiempo.
Por favor, espere un momento antes del siguiente paso. Haga clic con el botón derecho en el escritorio de la máquina virtual y abra el terminal. Escriba el siguiente comando en el terminal.
Sudo, clave de espacio, montaje, tecla de espacio, barra T, clave de espacio, vboxsf, clave de espacio, host compartido, clave de espacio, barra diagonal de puntos, escritorio, barra diagonal, VM compartida.Cuando se le solicite una contraseña, ingrese una y toque la tecla enter. Copie los cuatro archivos de secuencia en un formato más rápido para el proceso de entrenamiento y prueba en la carpeta de host compartida del host físico. De esta manera, todos los archivos también se producirán en la carpeta de VM compartida de la máquina virtual.
A continuación, copie los archivos de la carpeta de máquina virtual compartida en la carpeta de aprendizaje profundo de la máquina virtual. Haga clic con el botón derecho y abra el terminal y escriba el siguiente comando para realizar la codificación en caliente. Barra diagonal de puntos, una codificación en caliente, especifique los archivos para entrenamiento y pruebas.
Y especifique el tipo de secuencia. A continuación, escriba el siguiente comando para iniciar el proceso de tendencia. Clave de espacio python, punto de tren P Y.Luego comenzará el proceso de tendencia.
Este proceso puede tardar unas horas o unos días, dependiendo del tamaño de su conjunto de datos. Cuando finaliza el proceso, el resultado de predicción de los datos de prueba está presente en el archivo CSV de punto de predicción. En nuestro trabajo anterior, desarrollamos una serie de herramientas de clasificación de secuencias para datos metagenómicos, utilizando un enfoque similar a este tutorial.
Por ejemplo, desarrollamos una herramienta destinada a identificar las proteínas virión completas y parciales del virus procariota a partir de datos de ejecución. Y una herramienta destinada a identificar fragmentos de ADN de fagos a partir de fragmentos de ADN cromosómico bacteriano en datos metogenómicos. El rendimiento de las herramientas que utilizan el script de este tutorial se muestra en la figura a y b.
En conclusión, este tutorial proporciona una visión general para biólogos y principiantes en diseño de organismos sobre cómo construir un marco de aprendizaje profundo fácil de usar para la clasificación de secuencias biológicas en datos metogenómicos. Este tutorial tiene como objetivo proporcionar una comprensión intuitiva del aprendizaje profundo y abordar el desafío que los principiantes a menudo tienen dificultades para comenzar el paquete de aprendizaje profundo y escribir el código para el organismo. Para algunas tareas de clasificación simples, los usuarios pueden usar nuestro marco para realizar la tarea de clasificación.
Este tutorial describe un método simple para construir un algoritmo de aprendizaje profundo para realizar la clasificación de secuencias de 2 clases de datos metagenómicos.
Read Article
Cite this Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).
Copy