このチュートリアルでは、メタゲノムデータの 2 クラスシーケンス分類を実行するためのディープラーニング アルゴリズムを構築する簡単な方法について説明します。
種分類、遺伝子機能分類、ウイルス宿主分類など、さまざまな生物学的配列分類タスクが、多くのメタゲノムデータ分析において期待されるプロセスである。メタゲノムデータには多数の新種や遺伝子が含まれているため、多くの研究で高性能な分類アルゴリズムが必要とされています。生物学者は、特定のタスクに適したシーケンス分類と注釈ツールを見つける際にしばしば課題に遭遇し、多くの場合、必要な数学的および計算的知識がないため、対応するアルゴリズムを自分で構築することはできません。ディープラーニングのテクニックは最近人気の話題となり、多くの分類タスクで強い利点を示しています。これまで、多くの高度にパッケージ化されたディープラーニングパッケージが開発されており、生物学者はアルゴリズムの詳細を深く知らずに、独自のニーズに応じてディープラーニングフレームワークを構築することが可能になりました。このチュートリアルでは、十分な数学的知識やプログラミングスキルを必要とせずに、シーケンス分類のための使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。すべてのコードは、ユーザーが独自のデータを使用してコードを直接実行できるように、仮想マシンで最適化されます。
メタゲノムシーケンシング技術は、歪みの分離プロセスをバイパスし、環境サンプル内の全DNAを直接配列します。したがって、メタゲノムデータには異なる生物からのDNAが含まれ、ほとんどの生物学的配列は現在のデータベースに存在しない新しい生物からのものである。異なる研究目的に従って、生物学者は分類分類1、ウイルス-細菌分類2、3、4、染色体・プラスミド分類3、5、6、7、および遺伝子機能アノテーション(抗生物質耐性遺伝子分類8および毒性因子分類など)など、異なる視点からこれらの配列を分類する必要がある。).メタゲノムデータには多数の新種や遺伝子が含まれているため、配列分類(DNA分類やタンパク質分類を含む)に既知のデータベースに依存しないab initioアルゴリズムは、メタゲノムデータ分析において重要なアプローチです。しかし、このようなアルゴリズムの設計には、専門的な数学の知識とプログラミングスキルが必要です。そのため、多くの生物学者やアルゴリズム設計の初心者は、自分のニーズに合わせて分類アルゴリズムを構築するのが困難です。
人工知能の開発に伴い、深層学習アルゴリズムは、生体情報学の分野で広く使用され、メタゲノム解析における配列分類などのタスクを完了してきました。初心者がディープラーニングアルゴリズムを理解できるように、以下に説明するアルゴリズムをわかりやすい方法で説明します。
ディープ ラーニングの手法の概要を図 1に示します。ディープラーニングアルゴリズムのコア技術は、人間の脳の構造に触発された人工ニューラルネットワークです。数学的な観点からは、人工ニューラルネットワークは複雑な関数と見なされるかもしれません。各オブジェクト(DNA配列、写真、ビデオなど)は、最初にデジタル化されます。次に、デジタル化されたオブジェクトが関数にインポートされます。人工ニューラルネットワークのタスクは、入力データに応じて正しい応答を与える.たとえば、2 クラスの分類タスクを実行するために人工ニューラル ネットワークを構築する場合、各オブジェクトに対して 0 ~ 1 の確率スコアを出力する必要があります。ニューラルネットワークは、負のオブジェクトに低いスコアを与えながら、より高いスコア(0.5より高いスコアなど)を与える必要があります。この目標を達成するために、トレーニングとテストプロセスで人工ニューラルネットワークを構築します。これらのプロセスの間に、既知のデータベースのデータがダウンロードされ、トレーニングセットとテストセットに分割されます。各オブジェクトは適切な方法でデジタル化され、ラベル(正のオブジェクトの場合は”1″、負のオブジェクトの場合は”0″)が付けられます。トレーニングプロセスでは、トレーニングセット内のデジタル化されたデータがニューラルネットワークに入力されます。人工ニューラルネットワークは、入力オブジェクトの出力スコアとオブジェクトの対応するラベルとの間の不一在性を表す損失関数を構築します。例えば、入力オブジェクトのラベルが「1」の場合、出力スコアが「0.1」の場合、損失関数は高くなります。出力スコアが「0.1」の間に入力オブジェクトのラベルが「0」の場合、損失関数は低くなります。人工ニューラルネットワークは、損失関数を最小限に抑えるためにニューラルネットワークのパラメータを調整する特定の反復アルゴリズムを採用しています。トレーニングプロセスは、損失機能が明らかにそれ以上減少することができないときに終了します。最後に、テストセット内のデータを使用して固定ニューラルネットワークをテストし、ニューラルネットワークが新規オブジェクトの正しいラベルを計算する能力を評価します。ディープラーニングアルゴリズムのより多くの原則は、LeCunらのレビューで見 つけることができます。10.
ディープラーニングアルゴリズムの数学的原則は複雑かもしれませんが、高度にパッケージ化されたディープラーニングパッケージが最近開発され、プログラマは数行のコードで単純な人工ニューラルネットワークを直接構築できます。
このチュートリアルでは、生物学者やアルゴリズム設計の初心者がディープラーニングを使い始める際に、シーケンス分類用の使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。このフレームワークは、生物学的配列をデジタル化する数学的モデルとして「ワンホット」符号化形式を使用し、畳み込みニューラルネットワークを使用して分類タスクを実行します ( 補足資料を参照)。このガイドラインを使用する前にユーザーが行う必要がある唯一のことは、4つのシーケンスファイルを”fasta”形式で準備することです。最初のファイルには、トレーニングプロセスの正のクラスのすべてのシーケンス(“p_train.fasta”)が含まれています。2 番目のファイルには、トレーニング プロセスの負のクラスのすべてのシーケンス (“n_train.fasta” と呼ばれます) が含まれます。3 番目のファイルには、テストプロセスの正のクラスのすべてのシーケンス (“p_test.fasta” と呼ばれます) が含まれます。最後のファイルには、テストプロセスの負のクラスのすべてのシーケンス (「n_test.fasta」と呼ばれます) が含まれています。このチュートリアルのフローチャートの概要は 図 2に示されており、詳細は以下に示します。
このチュートリアルでは、生物学者とアルゴリズム設計初心者向けに、メタジノミックデータにおける生物学的配列分類のための使いやすいディープラーニングフレームワークを構築する方法について説明します。このチュートリアルでは、ディープラーニングの直感的な理解を提供し、初心者がディープラーニングパッケージをインストールし、アルゴリズムのコードを書くことが困難な?…
The authors have nothing to disclose.
この調査は、中国国立自然科学財団(81925026、82002201、81800746、82102508)によって財政的に支援されました。
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |