Method Article

深層学習を用いてメタジノミックデータの生物学的配列を分類するための非コンピュータ専門家のための仮想マシンプラットフォーム

DOI:

10.3791/62250

September 25th, 2021

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このチュートリアルでは、メタゲノムデータの 2 クラスシーケンス分類を実行するためのディープラーニング アルゴリズムを構築する簡単な方法について説明します。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

種分類、遺伝子機能分類、ウイルス宿主分類など、さまざまな生物学的配列分類タスクが、多くのメタゲノムデータ分析において期待されるプロセスである。メタゲノムデータには多数の新種や遺伝子が含まれているため、多くの研究で高性能な分類アルゴリズムが必要とされています。生物学者は、特定のタスクに適したシーケンス分類と注釈ツールを見つける際にしばしば課題に遭遇し、多くの場合、必要な数学的および計算的知識がないため、対応するアルゴリズムを自分で構築することはできません。ディープラーニングのテクニックは最近人気の話題となり、多くの分類タスクで強い利点を示しています。これまで、多くの高度にパッケージ化されたディープラーニングパッケージが開発されており、生物学者はアルゴリズムの詳細を深く知らずに、独自のニーズに応じてディープラーニングフレームワークを構築することが可能になりました。このチュートリアルでは、十分な数学的知識やプログラミングスキルを必要とせずに、シーケンス分類のための使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。すべてのコードは、ユーザーが独自のデータを使用してコードを直接実行できるように、仮想マシンで最適化されます。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

メタゲノムシーケンシング技術は、歪みの分離プロセスをバイパスし、環境サンプル内の全DNAを直接配列します。したがって、メタゲノムデータには異なる生物からのDNAが含まれ、ほとんどの生物学的配列は現在のデータベースに存在しない新しい生物からのものである。異なる研究目的に従って、生物学者は分類分類1、ウイルス-細菌分類2、3、4、染色体・プラスミド分類3、5、6、7、および遺伝子機能アノテーション(抗生物質耐性遺伝子分類8および毒性因子分類など)など、異なる視点からこれらの配列を分類する必要がある).メタゲノムデータには多数の新種や遺伝子が含まれているため、配列分類(DNA分類やタンパク質分類を含む)に既知のデータベースに依存しないab initioアルゴリズムは、メタゲノムデータ分析において重要なアプローチです。しかし、このようなアル....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. 仮想マシンのインストール

  1. 仮想マシン ファイルを (https://github.com/zhenchengfang/DL-VM) からダウンロードします。
  2. https://www.virtualbox.org から仮想ボックス ソフトウェアをダウンロードします。
  3. 「7-Zip」、「WinRAR」、「WinZip」などの関連ソフトウェアを使用して「.7z」ファイルを解凍します。
  4. 各手順で [ 次へ ] ボタンをクリックして、VirtualBox ソフトウェアをインストールします。
  5. VirtualBox ソフトウェアを開き、[ 新規作成 ] ボタンをクリックして仮想マシンを作成します。
  6. ステップ6:指定した仮想マシン名を「名前」フレームに入力し、「タイプ」フレームでオペレーティングシステムとして Linux を選択し、「バージョン」フレームで Ubuntu を選択し、「 次へ 」ボタンをクリックします。
  7. 仮想マシンのメモリ サイズを割り当てます。ユーザーは、ボタンを緑色のバーの右端に引っ張って、仮想マシンにできるだけ多くのメモリを割り当ててから、[ 次へ ] ボタンをクリックすることをお勧....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

の研究では、このチュートリアル3、11、12のようなアプローチを使用して、メタゲノムデータの一連のシーケンス分類ツールを開発しました。例として、以前の作業3,11からトレーニング セットとテスト セットのサブセットのシーケンス ファイルを仮想マシンに入金しました。

Fang & Zhou11 は、ビロームデータから完全かつ部分的な原核生物ウイルスウイルスタンパク質を同定することを目的とした。ファイル "p_train.fasta" には、トレーニング セットのウイルスウイルスウイルスタンパク質フラグメントが含まれています。ファイル "n_train.fasta" には、トレーニングセットのウイルス非ウイルスタンパク質フラグメ.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このチュートリアルでは、生物学者とアルゴリズム設計初心者向けに、メタジノミックデータにおける生物学的配列分類のための使いやすいディープラーニングフレームワークを構築する方法について説明します。このチュートリアルでは、ディープラーニングの直感的な理解を提供し、初心者がディープラーニングパッケージをインストールし、アルゴリズムのコードを書くことが困難な課題に対処することを目的としています。一部の簡単な分類タスクでは、ユーザーはフレームワークを使用して分類タスクを実行できます。

多くの生物学者がLinuxオペレーティングシステムのコマンドラインに精通していないことを考えると、我々は仮想マシンに依存するすべてのソフトウェアをプリインストールしました。これにより、ユーザーは上記のプロトコルに従って仮想マシン内のコードを直接実行できます。さらに、ユーザーが Linux オペレーティングシステムと Python プログラミングに精通している場合は、このプロトコルをサーバーまたはローカル PC で直接実行することもできます。この方法で、ユーザーは次の依存ソフトウェアをプレインストールする必要があり.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者らは、利益相反はないと宣言している。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この調査は、中国国立自然科学財団(81925026、82002201、81800746、82102508)によって財政的に支援されました。

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
PCまたはサーバーNANA推奨メモリ: >6GB
VirtualBox ソフトウェアNANAリンク: https://www.virtualbox.org

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Deep LearningBiological Sequence ClassificationMetagenomic DataVirtual MachineSequence Classification ToolsOne Hot EncodingSpecies ClassificationGene Function ClassificationViral Host ClassificationDeep Learning Framework

Related Articles