RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
ja
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
このチュートリアルでは、メタゲノムデータの 2 クラスシーケンス分類を実行するためのディープラーニング アルゴリズムを構築する簡単な方法について説明します。
種分類、遺伝子機能分類、ウイルス宿主分類など、さまざまな生物学的配列分類タスクが、多くのメタゲノムデータ分析において期待されるプロセスである。メタゲノムデータには多数の新種や遺伝子が含まれているため、多くの研究で高性能な分類アルゴリズムが必要とされています。生物学者は、特定のタスクに適したシーケンス分類と注釈ツールを見つける際にしばしば課題に遭遇し、多くの場合、必要な数学的および計算的知識がないため、対応するアルゴリズムを自分で構築することはできません。ディープラーニングのテクニックは最近人気の話題となり、多くの分類タスクで強い利点を示しています。これまで、多くの高度にパッケージ化されたディープラーニングパッケージが開発されており、生物学者はアルゴリズムの詳細を深く知らずに、独自のニーズに応じてディープラーニングフレームワークを構築することが可能になりました。このチュートリアルでは、十分な数学的知識やプログラミングスキルを必要とせずに、シーケンス分類のための使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。すべてのコードは、ユーザーが独自のデータを使用してコードを直接実行できるように、仮想マシンで最適化されます。
メタゲノムシーケンシング技術は、歪みの分離プロセスをバイパスし、環境サンプル内の全DNAを直接配列します。したがって、メタゲノムデータには異なる生物からのDNAが含まれ、ほとんどの生物学的配列は現在のデータベースに存在しない新しい生物からのものである。異なる研究目的に従って、生物学者は分類分類1、ウイルス-細菌分類2、3、4、染色体・プラスミド分類3、5、6、7、および遺伝子機能アノテーション(抗生物質耐性遺伝子分類8および毒性因子分類など)など、異なる視点からこれらの配列を分類する必要がある。).メタゲノムデータには多数の新種や遺伝子が含まれているため、配列分類(DNA分類やタンパク質分類を含む)に既知のデータベースに依存しないab initioアルゴリズムは、メタゲノムデータ分析において重要なアプローチです。しかし、このようなアルゴリズムの設計には、専門的な数学の知識とプログラミングスキルが必要です。そのため、多くの生物学者やアルゴリズム設計の初心者は、自分のニーズに合わせて分類アルゴリズムを構築するのが困難です。
人工知能の開発に伴い、深層学習アルゴリズムは、生体情報学の分野で広く使用され、メタゲノム解析における配列分類などのタスクを完了してきました。初心者がディープラーニングアルゴリズムを理解できるように、以下に説明するアルゴリズムをわかりやすい方法で説明します。
ディープ ラーニングの手法の概要を図 1に示します。ディープラーニングアルゴリズムのコア技術は、人間の脳の構造に触発された人工ニューラルネットワークです。数学的な観点からは、人工ニューラルネットワークは複雑な関数と見なされるかもしれません。各オブジェクト(DNA配列、写真、ビデオなど)は、最初にデジタル化されます。次に、デジタル化されたオブジェクトが関数にインポートされます。人工ニューラルネットワークのタスクは、入力データに応じて正しい応答を与える.たとえば、2 クラスの分類タスクを実行するために人工ニューラル ネットワークを構築する場合、各オブジェクトに対して 0 ~ 1 の確率スコアを出力する必要があります。ニューラルネットワークは、負のオブジェクトに低いスコアを与えながら、より高いスコア(0.5より高いスコアなど)を与える必要があります。この目標を達成するために、トレーニングとテストプロセスで人工ニューラルネットワークを構築します。これらのプロセスの間に、既知のデータベースのデータがダウンロードされ、トレーニングセットとテストセットに分割されます。各オブジェクトは適切な方法でデジタル化され、ラベル(正のオブジェクトの場合は"1"、負のオブジェクトの場合は"0")が付けられます。トレーニングプロセスでは、トレーニングセット内のデジタル化されたデータがニューラルネットワークに入力されます。人工ニューラルネットワークは、入力オブジェクトの出力スコアとオブジェクトの対応するラベルとの間の不一在性を表す損失関数を構築します。例えば、入力オブジェクトのラベルが「1」の場合、出力スコアが「0.1」の場合、損失関数は高くなります。出力スコアが「0.1」の間に入力オブジェクトのラベルが「0」の場合、損失関数は低くなります。人工ニューラルネットワークは、損失関数を最小限に抑えるためにニューラルネットワークのパラメータを調整する特定の反復アルゴリズムを採用しています。トレーニングプロセスは、損失機能が明らかにそれ以上減少することができないときに終了します。最後に、テストセット内のデータを使用して固定ニューラルネットワークをテストし、ニューラルネットワークが新規オブジェクトの正しいラベルを計算する能力を評価します。ディープラーニングアルゴリズムのより多くの原則は、LeCunらのレビューで見 つけることができます。10.
ディープラーニングアルゴリズムの数学的原則は複雑かもしれませんが、高度にパッケージ化されたディープラーニングパッケージが最近開発され、プログラマは数行のコードで単純な人工ニューラルネットワークを直接構築できます。
このチュートリアルでは、生物学者やアルゴリズム設計の初心者がディープラーニングを使い始める際に、シーケンス分類用の使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。このフレームワークは、生物学的配列をデジタル化する数学的モデルとして「ワンホット」符号化形式を使用し、畳み込みニューラルネットワークを使用して分類タスクを実行します ( 補足資料を参照)。このガイドラインを使用する前にユーザーが行う必要がある唯一のことは、4つのシーケンスファイルを"fasta"形式で準備することです。最初のファイルには、トレーニングプロセスの正のクラスのすべてのシーケンス("p_train.fasta")が含まれています。2 番目のファイルには、トレーニング プロセスの負のクラスのすべてのシーケンス ("n_train.fasta" と呼ばれます) が含まれます。3 番目のファイルには、テストプロセスの正のクラスのすべてのシーケンス ("p_test.fasta" と呼ばれます) が含まれます。最後のファイルには、テストプロセスの負のクラスのすべてのシーケンス (「n_test.fasta」と呼ばれます) が含まれています。このチュートリアルのフローチャートの概要は 図 2に示されており、詳細は以下に示します。
1. 仮想マシンのインストール
2. 物理ホストと仮想マシン間でファイルを交換するための共有フォルダを作成する
3. トレーニングセットとテストセット用のファイルを準備する
4. 「ワンホット」符号化形式を用いて生体配列をデジタイズする
5. 人工ニューラルネットワークを訓練し、テストする
前の研究では、このチュートリアル3、11、12のようなアプローチを使用して、メタゲノムデータの一連のシーケンス分類ツールを開発しました。例として、以前の作業3,11からトレーニング セットとテスト セットのサブセットのシーケンス ファイルを仮想マシンに入金しました。
Fang & Zhou11 は、ビロームデータから完全かつ部分的な原核生物ウイルスウイルスタンパク質を同定することを目的とした。ファイル "p_train.fasta" には、トレーニング セットのウイルスウイルスウイルスタンパク質フラグメントが含まれています。ファイル "n_train.fasta" には、トレーニングセットのウイルス非ウイルスタンパク質フラグメントが含まれています。ファイル "p_test.fasta" には、テスト セットのウイルスウイルスウイルスタンパク質フラグメントが含まれています。ファイル "n_test.fasta" には、テストセットのウイルス非ウイルスタンパク質フラグメントが含まれています。ユーザーは、次の 2 つのコマンドを直接実行してニューラル ネットワークを構築できます。
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
そして
パイソン train.py
パフォーマンスを 図 7に示します。
Fang et al.3 は、メタゲノミック データの細菌染色体 DNA フラグメントからファージ DNA 断片を同定することを目的とした。ファイル "phage_train.fasta" には、トレーニングセットのファージ DNA フラグメントが含まれています。ファイル "chromosome_train.fasta" には、トレーニングセットの染色体DNAフラグメントが含まれています。ファイル"phage_test.fasta"には、テストセットのファージDNA断片が含まれています。ファイル "chromosome_test.fasta" には、テストセットの染色体DNAフラグメントが含まれています。ユーザーは、次の 2 つのコマンドを直接実行してニューラル ネットワークを構築できます。
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
そして
パイソン train.py
パフォーマンスを 図 8に示します。
アルゴリズムにはランダム性を持つプロセスがいくつか含まれているため、ユーザーがスクリプトを再実行すると上記の結果が若干異なる可能性があることは注目に値します。

図 1.ディープラーニングテクニックの概要この図の大きなバージョンを表示するには、ここをクリックしてください。

図 2.このチュートリアルのフローチャートの概要。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 3.仮想マシンのデスクトップのスクリーンショット。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 4.共有フォルダーのアクティブ化のスクリーン ショット。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 5.シーケンスのデジタル化のプロセスのスクリーンショット。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 6.人工ニューラルネットワークをトレーニングし、テストします。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 7.原核生物体ウイルスのウイルスタンパク質断片の同定の性能。評価基準は、Sn=TP/(TP+FN)、Sp= TN /(TN+FP)、Acc=(TP +TN)/(TP+ TN+FN+FP)およびAUCです。この図の大きなバージョンを表示するには、ここをクリックしてください。

図 8.ファージDNA断片同定の性能。評価基準は、Sn=TP/(TP+FN)、Sp= TN /(TN+FP)、Acc=(TP +TN)/(TP+ TN+FN+FP)およびAUCです。この図の大きなバージョンを表示するには、ここをクリックしてください。
著者らは、利益相反はないと宣言している。
このチュートリアルでは、メタゲノムデータの 2 クラスシーケンス分類を実行するためのディープラーニング アルゴリズムを構築する簡単な方法について説明します。
この調査は、中国国立自然科学財団(81925026、82002201、81800746、82102508)によって財政的に支援されました。
| PCまたはサーバー | NA | NA | 推奨メモリ: >6GB |
| VirtualBox ソフトウェア | NA | NA | リンク: https://www.virtualbox.org |