Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

메지노믹 데이터의 생물학적 시퀀스를 분류하기 위해 딥 러닝을 사용하기 위한 비컴퓨터 전문가를 위한 가상 머신 플랫폼

Published: September 25, 2021 doi: 10.3791/62250

Summary

이 자습서는 메타게노믹 데이터의 2클래스 시퀀스 분류를 수행하기 위한 딥 러닝 알고리즘을 구성하는 간단한 방법을 설명합니다.

Abstract

종 분류, 유전자 기능 분류 및 바이러스 숙주 분류와 같은 다양한 생물학적 서열 분류 작업은 많은 메타게놈 데이터 분석에서 예상되는 과정이다. 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하고 있기 때문에, 많은 연구 결과에서 고성과 분류 알고리즘이 필요합니다. 생물학자는 종종 특정 작업에 적합한 서열 분류 및 어노칭 도구를 찾는 데 어려움을 겪고 있으며 필요한 수학 및 계산 지식이 부족하여 자체적으로 해당 알고리즘을 구성할 수 없습니다. 딥 러닝 기술은 최근 인기있는 주제가되었고 많은 분류 작업에서 강력한 이점을 보여줍니다. 현재까지 많은 고도로 포장된 딥 러닝 패키지로 생물학자들이 알고리즘 세부 사항에 대한 심층적인 지식 없이 자신의 필요에 따라 딥 러닝 프레임워크를 구축할 수 있도록 개발되었습니다. 이 자습서에서는 충분한 수학적 지식이나 프로그래밍 기술 없이 시퀀스 분류를 위한 사용하기 쉬운 딥 러닝 프레임워크를 구성하는 지침을 제공합니다. 모든 코드는 사용자가 자신의 데이터를 사용하여 코드를 직접 실행할 수 있도록 가상 시스템에 최적화됩니다.

Introduction

메타게놈 시퀀싱 기술은 균주 격리 과정을 우회하고 환경 샘플에서 총 DNA를 직접 서열시합니다. 따라서, 메막뇨 데이터는 다른 유기체로부터의 DNA를 포함하고, 대부분의 생물학적 서열은 현재 데이터베이스에 존재하지 않는 새로운 유기체에서 온 것이다. 상이한 연구 목적에 따르면, 생물학자들은 분류학 분류1,바이러스 박테리아 분류2,3,4,염색체 플라스미드 분류3,5,6,7및 유전자 기능 성(예: 항생 저항 유전자 분류8 및 독성 인자 분류 9)과 같은 다른 관점에서 이러한 서열을 분류해야 합니다. ). 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하기 때문에, 서열 분류를 위한 알려진 데이터베이스에 의존하지 않는 ab initio 알고리즘(DNA 분류 및 단백질 분류 포함), metagenomic 데이터 분석에 있는 중요한 접근입니다. 그러나 이러한 알고리즘의 설계에는 전문 수학 지식과 프로그래밍 기술이 필요합니다. 따라서 많은 생물학자와 알고리즘 설계 초보자는 자신의 요구에 맞게 분류 알고리즘을 구성하는 데 어려움을 가지고 있습니다.

인공 지능의 발달과 함께, 딥 러닝 알고리즘은 생물 정보학 분야에서 널리 사용되어 메막뇨 분석에서 서열 분류와 같은 작업을 완료했습니다. 초보자가 딥 러닝 알고리즘을 이해할 수 있도록 아래의 이해하기 쉬운 방식으로 알고리즘을 설명합니다.

딥 러닝 기술에 대한 개요는 그림 1에표시됩니다. 딥 러닝 알고리즘의 핵심 기술은 인간의 뇌의 구조에서 영감을 얻은 인공 신경망입니다. 수학적 관점에서 인공 신경망은 복잡한 기능으로 간주될 수 있다. 각 개체(예: DNA 서열, 사진 또는 비디오)가 먼저 디지털화됩니다. 그런 다음 디지털화된 개체를 함수로 가져옵니다. 인공 신경망의 임무는 입력 데이터에 따라 올바른 응답을 제공하는 것입니다. 예를 들어 2클래스 분류 작업을 수행하기 위해 인공 신경망이 생성되는 경우 네트워크는 각 개체에 대해 0-1 사이의 확률 점수를 출력해야 합니다. 신경망은 음수 물체에게 낮은 점수를 주면서 양수 객체에게 더 높은 점수(예: 0.5보다 높은 점수)를 제공해야 합니다. 이 목표를 달성하기 위해 인공 신경망은 교육 및 테스트 프로세스로 구성됩니다. 이러한 프로세스 중에 알려진 데이터베이스의 데이터를 다운로드한 다음 교육 집합 및 테스트 집합으로 나뉩니다. 각 개체는 적절한 방식으로 디지털화되고 레이블(양수 개체의 경우 "1", 음수 객체의 경우 "0")이 지정됩니다. 교육 과정에서 교육 집합의 디지털화된 데이터가 신경망에 입력됩니다. 인공 신경망은 입력 개체의 출력 점수와 개체의 해당 레이블 간의 유사성을 나타내는 손실 함수를 생성합니다. 예를 들어 입력 개체의 레이블이 "1"인 경우 출력 점수가 "0.1"인 경우 손실 함수가 높습니다. 출력 점수가 "0.1"인 동안 입력 개체의 레이블이 "0"인 경우 손실 함수가 낮습니다. 인공 신경망은 손실 기능을 최소화하기 위해 신경망의 매개 변수를 조정하는 특정 반복 알고리즘을 사용합니다. 손실 기능이 분명히 더 감소할 수 없을 때 교육 프로세스가 끝납니다. 마지막으로, 테스트 세트의 데이터는 고정 신경망을 테스트하는 데 사용되며, 신경망이 새 개체에 대한 올바른 라벨을 계산하는 기능이 평가된다. 딥 러닝 알고리즘의 더 많은 원칙은 LeCun 등의 검토에서 찾을 수 있습니다. 10.

딥 러닝 알고리즘의 수학적 원칙은 복잡할 수 있지만 최근에는 많은 고도로 포장된 딥 러닝 패키지가 개발되었으며 프로그래머는 몇 줄의 코드로 간단한 인공 신경망을 직접 구성할 수 있습니다.

생물학자와 알고리즘 설계 초보자가 딥 러닝을 보다 신속하게 사용하도록 돕기 위해 이 튜토리얼은 시퀀스 분류를 위한 사용하기 쉬운 딥 러닝 프레임워크를 구성하는 지침을 제공합니다. 이 프레임워크는 "1-hot" 인코딩 양식을 수학적 모델로 사용하여 생물학적 서열을 디지털화하고 컨볼루션 신경망을 사용하여 분류 작업을 수행합니다(보충 자료참조). 사용자가 이 지침을 사용하기 전에 수행해야 하는 유일한 방법은 "fasta" 형식으로 4개의 시퀀스 파일을 준비하는 것입니다. 첫 번째 파일에는 교육 프로세스에 대한 양수 클래스의 모든 시퀀스가 포함되어 있습니다("p_train.fasta"라고 함); 두 번째 파일에는 교육 프로세스에 대한 음수 클래스의 모든 시퀀스가 포함되어 있습니다("n_train.fasta"라고 함); 세 번째 파일에는 테스트 프로세스에 대한 양수 클래스의 모든 시퀀스가 포함되어 있습니다("p_test.fasta"라고 함); 마지막 파일에는 테스트 프로세스에 대한 음수 클래스의 모든 시퀀스가 포함되어 있습니다("n_test.fasta"라고 함). 이 자습서의 순서도 개요는 그림 2에제공되며 자세한 내용은 아래에 설명됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 가상 시스템의 설치

  1. (https://github.com/zhenchengfang/DL-VM)에서 가상 머신 파일을 다운로드합니다.
  2. https://www.virtualbox.org 버추얼 박스 소프트웨어를 다운로드합니다.
  3. "7-Zip", "WinRAR" 또는 "WinZip"과 같은 관련 소프트웨어를 사용하여 ".7z" 파일의 압축을 풀수 있습니다.
  4. 각 단계에서 다음 단추를 클릭하여 VirtualBox 소프트웨어를 설치합니다.
  5. 버추얼박스 소프트웨어를 열고 버튼을 클릭하여 가상 컴퓨터를 만듭니다.
  6. 6단계: "이름" 프레임에 지정된 가상 머신 이름을 입력하고, Linux를 "유형" 프레임의 운영 체제로 선택하고, "버전" 프레임에서 우분투를 선택하고 다음 단추를 클릭합니다.
  7. 가상 시스템의 메모리 크기를 할당합니다. 사용자가 버튼을 녹색 막대의 오른쪽 대부분 부분으로 당겨 가상 컴퓨터에 가능한 한 많은 메모리를 할당한 다음 다음 단추를 클릭하는 것이 좋습니다.
  8. 기존 가상 하드 디스크 파일 선택 사용, 1.1 단계에서 다운로드한 파일 "VM_Bioinfo.vdi"를 선택한 다음 만들기 단추를 클릭합니다.
  9. 스타 버튼을 클릭하여 가상 컴퓨터를 엽니다.
    참고: 그림 3에는 가상 컴퓨터의 바탕 화면의 스크린샷이 표시됩니다.

2. 실제 호스트와 가상 컴퓨터 간에 교환되는 파일에 대한 공유 폴더 만들기

  1. 실제 호스트에서 "shared_host"이라는 공유 폴더를 만들고 가상 컴퓨터의 바탕 화면에 "shared_VM"이라는 공유 폴더를 만듭니다.
  2. 가상 시스템의 메뉴 표시줄에서 장치, 공유 폴더, 공유 폴더 설정을 연속적으로 클릭합니다.
  3. 오른쪽 상단 모서리에 있는 단추를 클릭합니다.
  4. 2.1 단계에서 만든 실제 호스트에서 공유 폴더를 선택하고 자동 마운트 옵션을 선택합니다. 확인 버튼을 클릭합니다.
  5. 가상 컴퓨터를 다시 시작합니다.
  6. 가상 시스템의 바탕 화면을 마우스 오른쪽 단추로 클릭하고 터미널을 엽니다.
  7. 다음 명령을 터미널에 복사합니다.
    sudo 마운트 -t vboxsf shared_host ./데스크탑/shared_VM
    1. 암호에 대한 메시지가 표시되면 "1"을 입력하고 그림 4에표시된 대로 "키입력"을누르면 됩니다.

3. 교육 세트 및 테스트 세트에 대한 파일을 준비

  1. 교육 및 테스트 프로세스를 위해 4개의 시퀀스 파일을 모두 "fasta" 형식으로 실제 호스트의 "shared_host" 폴더에 복사합니다. 이러한 방식으로 모든 파일은 가상 시스템의 "shared_VM" 폴더에서도 발생합니다. 그런 다음 "shared_VM" 폴더의 파일을 가상 시스템의 "DeepLearning" 폴더에 복사합니다.

4. "원 핫" 인코딩 양식을 사용하여 생물학적 서열을 디지털화

  1. "DeepLearning" 폴더로 이동하여 오른쪽 단추를 클릭하고 터미널을 엽니다. 다음 명령을 입력합니다.
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
    (아미노산 서열용)
    또는
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
    (핵산 서열용)
    참고: 이 프로세스의 스크린샷은 그림 5에서제공됩니다.

5. 인공 신경망을 훈련하고 테스트합니다.

  1. 단말에서 그림 6에도시된 대로 다음 명령을 입력합니다.
    파이썬 train.py
    참고: 교육 과정이 시작됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

이전 작업에서는 이 자습서3,11, 12와유사한 접근 방식을 사용하여 메타게놈 데이터에 대한 일련의 서열 분류 도구를개발했습니다. 예를 들어, 우리는 가상 머신에서 이전 작업3,11에서 교육 세트 및 테스트 세트의 순서 파일을 증착했습니다.

팡 & 저우11 은 비롬 데이터에서 완전하고 부분적인 원핵 바이러스 비리온 단백질을 식별하는 것을 목표로했다. 파일 "p_train.fasta"는 훈련 세트에 대한 바이러스 비리온 단백질 단편을 포함; 파일 "n_train.fasta"는 훈련 세트에 대한 바이러스 비비비리온 단백질 단편을 포함; 파일 "p_test.fasta"는 시험 세트에 대한 바이러스 virion 단백질 단편을 포함; 및 파일 "n_test.fasta"는 시험 세트에 대한 바이러스 비비리온 단백질 단편을 포함한다. 사용자는 다음 두 명령을 직접 실행하여 신경망을 구성할 수 있습니다.
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
그리고
파이썬 train.py

성능은 그림 7에표시됩니다.

팡 외3 메라지노믹 데이터에서 세균성 염색체 DNA 단편에서 파지 DNA 단편을 식별하는 것을 목표로 했다. 파일 "phage_train.fasta"는 훈련 세트에 대한 파지 DNA 단편을 포함; 파일 "chromosome_train.fasta"는 훈련 세트에 대한 염색체 DNA 단편을 포함; 파일 "phage_test.fasta"는 시험 세트에 대한 파지 DNA 단편을 포함; 및 파일 "chromosome_test.fasta"는 시험 세트에 대한 염색체 DNA 단편을 포함합니다. 사용자는 다음 두 명령을 직접 실행하여 신경망을 구성할 수 있습니다.
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
그리고
파이썬 train.py

성능은 그림 8에표시됩니다.

알고리즘에 임의성이 있는 일부 프로세스가 포함되어 있기 때문에 사용자가 스크립트를 다시 실행하는 경우 위의 결과가 약간 다를 수 있습니다.

Figure 1
그림 1. 딥 러닝 기술에 대한 개요입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2. 이 자습서의 순서도 개요입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3. 가상 시스템의 바탕 화면의 스크린 샷입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
그림 4. 공유 폴더의 활성화의 스크린 샷입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 5
그림 5. 시퀀스 디지털화 프로세스의 스크린샷입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 6
그림 6. 인공 신경망을 훈련하고 테스트합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 7
그림 7. 카르요테 바이러스 비리온 단백질 단편 식별의 성능. 평가 기준은 Sn=TP/(TP +FN), SP=TN/(TN +FP), Acc=(TP +TN+FN+FP)AUC입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 8
그림 8. 파지 DNA 단편 식별의 성능. 평가 기준은 Sn=TP/(TP +FN), SP=TN/(TN +FP), Acc=(TP +TN+FN+FP)AUC입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 자료 : 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

이 자습서에서는 생물학자 및 알고리즘 설계 초보자에게 메라지노믹 데이터에서 생물학적 서열 분류를 위한 사용이 간편한 딥 러닝 프레임워크를 구성하는 방법에 대한 개요를 제공합니다. 이 자습서는 딥 러닝에 대한 직관적인 이해를 제공하고 초보자가 딥 러닝 패키지를 설치하고 알고리즘에 대한 코드를 작성하는 데 어려움을 가지는 과제를 해결하는 것을 목표로 합니다. 몇 가지 간단한 분류 작업의 경우 사용자는 프레임워크를 사용하여 분류 작업을 수행할 수 있습니다.

많은 생물학자가 Linux 운영 체제의 명령줄에 익숙하지 않다는 점을 고려하여 가상 시스템에 모든 종속 소프트웨어를 미리 설치했습니다. 이러한 방식으로 사용자는 위에서 언급한 프로토콜에 따라 가상 컴퓨터에서 코드를 직접 실행할 수 있습니다. 또한 사용자가 Linux 운영 체제 및 Python 프로그래밍에 익숙한 경우 서버 또는 로컬 PC에서 직접 이 프로토콜을 실행할 수도 있습니다. 이러한 방식으로 사용자는 다음과 같은 종속 소프트웨어를 미리 설치해야 합니다.

파이썬 2.7.12 (https://www.python.org/)
파이썬 패키지:
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
텐서플로우 1.4.1 (https://www.tensorflow.org/)
케라스 2.0.8 (https://keras.io/)
MATLAB 컴포넌트 런타임(MCR) R2018a(https://www.mathworks.com/products/compiler/matlab-runtime.html)

우리의 이전 작업3의 매뉴얼은 설치에 대한 간략한 설명이 있습니다. 각 패키지의 버전 번호는 코드에서 사용한 버전과 일치합니다. 가상 시스템 없이 서버 또는 로컬 PC에서 코드를 실행 하면 코드 는 이러한 방식으로 GPU와 함께 속도 수 있습니다., 교육 프로세스에 많은 시간을 절약할 수 있는. 이러한 방식으로 사용자는 텐서플로우의 GPU 버전을 설치해야 합니다(이전 작업3의설명서 참조).

프로토콜 내의 일부 중요한 단계는 다음과 같이 설명됩니다. 4.1 단계에서는 "p_train.fasta", "n_train.fasta", "p_test.fasta" 및 "n_test.fasta"의 파일 이름을 사용 파일 이름으로 대체해야 합니다. 이 명령에서 이 네 개의 파일의 순서는 변경할 수 없습니다. 파일에 아미노산 서열이 포함되어 있는 경우 마지막 매개 변수는 "aa"여야 합니다. 파일에 핵산 서열이 포함되어 있는 경우 마지막 매개 변수는 "nt"여야 합니다. 이 명령은 "핫" 인코딩 양식을 사용하여 생물학적 서열을 디지털화합니다. 보충 자료에는 "핫 한" 인코딩 양식이 도입됩니다. 5.1 단계에서는 가상 컴퓨터를 GPU로 속도를 조정할 수 없으므로 데이터 크기에 따라 이 프로세스에 몇 시간 또는 며칠이 걸릴 수 있습니다. 각 반복 에폭의 진행률 막대가 단말에 표시됩니다. 우리는 50에 획기적인 수의 수를 설정하고, 따라서, 교육 과정이 완료되면 총 50 진행 막대가 표시됩니다. 테스트 프로세스가 완료되면 테스트 세트의 정확도가 단자에 표시됩니다. 가상 시스템의 "DeepLearning" 폴더에서 "예측.csv"이라는 파일이 만들어집니다. 이 파일에는 테스트 데이터에 대한 모든 예측 점수가 포함되어 있습니다. 이 점수의 순서는 "p_test.fasta"와 "n_test.fasta"의 순서 순서에 해당합니다(이 점수의 전반은 "p_test.fasta"에 해당하며, 이 점수의 후반은 "n_test.fatsa"에 해당합니다). 사용자가 실제 클래스가 알려지지 않은 시퀀스에 대한 예측을 하려는 경우 "p_test.fasta" 또는 "n_test.fasta" 파일에 이러한 알려지지 않은 시퀀스를 입금할 수도 있습니다. 이러한 방식으로 이러한 알려지지 않은 시퀀스의 점수도 "예측.csv" 파일에 표시되지만 단말의 "정확도" 디스플레이는 의미가 없습니다. 이 스크립트는 분류를 수행하기 위해 복잡한 신경망을 사용합니다. 신경망의 구조와 신경망에 대한 코드는 보충 재료에도시된다.

딥 러닝의 특징 중 하나는 많은 매개 변수 설정에는 몇 가지 경험이 필요하며 초보자에게 중요한 도전이 될 수 있다는 것입니다. 많은 수식으로 인한 초보자의 불안을 피하기 위해 딥 러닝의 수학적 원칙에 초점을 맞추지 않으며 가상 머신에서는 특별한 매개 변수 설정 인터페이스를 제공하지 않습니다. 이것은 초보자를위한 좋은 선택이 될 수 있지만, 부적절한 매개 변수 선택은 정밀도의 감소로 이어질 수 있습니다. 초보자가 매개 변수를 수정하는 방법을 더 잘 경험할 수 있도록 스크립트 "train.py"에서 관련 코드에 몇 가지 주석을 추가하고 사용자는 컨볼루션 커널 수와 같은 관련 매개 변수를 수정하여 이러한 매개 변수가 성능에 미치는 영향을 확인할 수 있습니다.

또한 많은 딥 러닝 프로그램은 GPU에서 실행되어야 합니다. 그러나 GPU를 구성하려면 컴퓨터 이외의 전문가가 어려울 수 있는 컴퓨터 기술이 필요합니다. 따라서 가상 컴퓨터에서 코드를 최적화하도록 선택합니다.

이 지침에 따라 다른 시퀀스 분류 작업을 해결할 때 사용자는 4개의 시퀀스 파일만 고유한 데이터로 바꿔야 합니다. 예를 들어, 사용자가 메라지놈 데이터에서 플라스미드 유래 및 염색체 유래 서열을 구별해야 하는 경우, RefSeq 데이터베이스에서 플라스미드 게놈(https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) 및 세균 염색체 게놈(https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/)을 직접 다운로드하여 게놈을 훈련 세트 및 테스트 세트로 분리할 수 있습니다. 메막뇨 데이터의 DNA 서열은 종종 완전한 게놈보다는 단편화된다는 점에 주목할 필요가 있습니다. 이러한 경우, 사용자는 MetaSim13 도구를 사용하여 완전한 게놈으로부터 DNA 단편을 추출할 수 있다. MetaSim은 GUI 인터페이스가 있는 사용자 친화적인 도구이며 사용자는 키보드에서 명령을 입력하지 않고도 마우스를 사용하여 대부분의 작업을 완료할 수 있습니다. 초보자를 위한 작업을 단순화하기 위해 자습서는 2클래스 분류 작업을 위해 설계되었습니다. 그러나 많은 작업에서 다중 분류를 수행해야 합니다. 이러한 경우 초보자는 다중 분류 작업을 여러 2클래스 분류 작업으로 분리하려고 시도할 수 있습니다. 예를 들어, 파지 호스트를 식별하기 위해 Zhang et al.은 지정된 파지 시퀀스가 특정 호스트를 감염시킬 수 있는지 여부를 확인하기 위해 9개의 2클래스 분류자를 구성했습니다.

이 자습서의 홈페이지는 GitHub 사이트 https://github.com/zhenchengfang/DL-VM 입금됩니다. 튜토리얼의 모든 업데이트는 웹 사이트에 설명됩니다. 사용자는 웹 사이트에서이 튜토리얼에 대한 질문을 제기 할 수도 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 이해 상충이 없다고 선언합니다.

Acknowledgments

이 조사는 중국 국립 자연 과학 재단 (81925026, 82002201, 81800746, 82102508)에 의해 재정적으로 지원되었습니다.

Materials

Name Company Catalog Number Comments
PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Tags

유전학 문제 175 메타게놈 미생물군유전체 서열 분류 인공 지능 딥 러닝 알고리즘 디자인
메지노믹 데이터의 생물학적 시퀀스를 분류하기 위해 딥 러닝을 사용하기 위한 비컴퓨터 전문가를 위한 가상 머신 플랫폼
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Fang, Z., Zhou, H. A Virtual Machine More

Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter