Method Article

메지노믹 데이터의 생물학적 시퀀스를 분류하기 위해 딥 러닝을 사용하기 위한 비컴퓨터 전문가를 위한 가상 머신 플랫폼

DOI:

10.3791/62250

September 25th, 2021

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 자습서는 메타게노믹 데이터의 2클래스 시퀀스 분류를 수행하기 위한 딥 러닝 알고리즘을 구성하는 간단한 방법을 설명합니다.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

종 분류, 유전자 기능 분류 및 바이러스 숙주 분류와 같은 다양한 생물학적 서열 분류 작업은 많은 메타게놈 데이터 분석에서 예상되는 과정이다. 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하고 있기 때문에, 많은 연구 결과에서 고성과 분류 알고리즘이 필요합니다. 생물학자는 종종 특정 작업에 적합한 서열 분류 및 어노칭 도구를 찾는 데 어려움을 겪고 있으며 필요한 수학 및 계산 지식이 부족하여 자체적으로 해당 알고리즘을 구성할 수 없습니다. 딥 러닝 기술은 최근 인기있는 주제가되었고 많은 분류 작업에서 강력한 이점을 보여줍니다. 현재까지 많은 고도로 포장된 딥 러닝 패키지로 생물학자들이 알고리즘 세부 사항에 대한 심층적인 지식 없이 자신의 필요에 따라 딥 러닝 프레임워크를 구축할 수 있도록 개발되었습니다. 이 자습서에서는 충분한 수학적 지식이나 프로그래밍 기술 없이 시퀀스 분류를 위한 사용하기 쉬운 딥 러닝 프레임워크를 구성하는 지침을 제공합니다. 모든 코드는 사용자가 자신의 데이터를 사용하여 코드를 직접 실행할 수 있도록 가상 시스템에 최적화됩니다.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

메타게놈 시퀀싱 기술은 균주 격리 과정을 우회하고 환경 샘플에서 총 DNA를 직접 서열시합니다. 따라서, 메막뇨 데이터는 다른 유기체로부터의 DNA를 포함하고, 대부분의 생물학적 서열은 현재 데이터베이스에 존재하지 않는 새로운 유기체에서 온 것이다. 상이한 연구 목적에 따르면, 생물학자들은 분류학 분류1,바이러스 박테리아 분류2,3,4,염색체 플라스미드 분류3,5,6,7및 유전자 기능 성(예: 항생 저항 유전자 분류8 및 독성 인자 분류 9)과 같은 다른 관점에서 이러한 서열을 분류해야 합니다. ). 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하기 때문에, 서열 분류를 위한 알려진 데이터베이스에 의존하지 않는 ab initio 알고리즘(DNA 분류 ....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. 가상 시스템의 설치

  1. (https://github.com/zhenchengfang/DL-VM)에서 가상 머신 파일을 다운로드합니다.
  2. https://www.virtualbox.org 버추얼 박스 소프트웨어를 다운로드합니다.
  3. "7-Zip", "WinRAR" 또는 "WinZip"과 같은 관련 소프트웨어를 사용하여 ".7z" 파일의 압축을 풀수 있습니다.
  4. 각 단계에서 다음 단추를 클릭하여 VirtualBox 소프트웨어를 설치합니다.
  5. 버추얼박스 소프트웨어를 열고 버튼을 클릭하여 가상 컴퓨터를 만듭니다.
  6. 6단계: "이름" 프레임에 지정된 가상 머신 이름을 입력하고, Linux를 "유형" 프레임의 운영 체제로 선택하고, "버전" 프레임에서 우분투를 선택하고 다음 단추를 클릭합니다.
  7. 가상 시스템의 메모리 크기를 할당합니다. 사용자가 버튼을 녹색 막대의 오른쪽 대부분 부분으로 당겨 가상 컴퓨터에 가능한 한 많은 메모리를 할당한 다음 다음 단추를 클릭하는 것이 좋습니다.
  8. 기존

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이전 작업에서는 이 자습서3,11, 12와유사한 접근 방식을 사용하여 메타게놈 데이터에 대한 일련의 서열 분류 도구를개발했습니다. 예를 들어, 우리는 가상 머신에서 이전 작업3,11에서 교육 세트 및 테스트 세트의 순서 파일을 증착했습니다.

팡 & 저우11 은 비롬 데이터에서 완전하고 부분적인 원핵 바이러스 비리온 단백질을 식별하는 것을 목표로했다. 파일 "p_train.fasta"는 훈련 세트에 대한 바이러스 비리온 단백질 단편을 포함; 파일 "n_train.fasta"는 훈련 세트에 대한 바이러스 비비비리온 단백질 단편을 포함; 파일 "p_test.fasta.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 자습서에서는 생물학자 및 알고리즘 설계 초보자에게 메라지노믹 데이터에서 생물학적 서열 분류를 위한 사용이 간편한 딥 러닝 프레임워크를 구성하는 방법에 대한 개요를 제공합니다. 이 자습서는 딥 러닝에 대한 직관적인 이해를 제공하고 초보자가 딥 러닝 패키지를 설치하고 알고리즘에 대한 코드를 작성하는 데 어려움을 가지는 과제를 해결하는 것을 목표로 합니다. 몇 가지 간단한 분류 작업의 경우 사용자는 프레임워크를 사용하여 분류 작업을 수행할 수 있습니다.

많은 생물학자가 Linux 운영 체제의 명령줄에 익숙하지 않다는 점을 고려하여 가상 시스템에 모든 종속 소프트웨어를 미리 설치했습니다. 이러한 방식으로 사용자는 위에서 언급한 프로토콜에 따라 가상 컴퓨터에서 코드를 직접 실행할 수 있습니다. 또한 사용자가 Linux 운영 체제 및 Python 프로그래밍에 익숙한 경우 서버 또는 로컬 PC에서 직접 이 프로토콜을 실행할 수도 있습니다. 이러한 방식으로 사용자는 다음과 같은 종속 소프트.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자는 이해 상충이 없다고 선언합니다.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 조사는 중국 국립 자연 과학 재단 (81925026, 82002201, 81800746, 82102508)에 의해 재정적으로 지원되었습니다.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
PC 또는 서버NANA 권장 메모리: >6GB
VirtualBox 소프트웨어NANA 링크: https://www.virtualbox.org

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Deep LearningBiological Sequence ClassificationMetagenomic DataVirtual MachineSequence Classification ToolsOne Hot EncodingSpecies ClassificationGene Function ClassificationViral Host ClassificationDeep Learning Framework

Related Articles