Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

クラウド ベース フレーズ マイニングとユーザー定義のフレーズ カテゴリ医学出版会分析

Published: February 23, 2019 doi: 10.3791/59108
* These authors contributed equally

Summary

医学文献のユーザー選択したナレッジ ドメインで独自のコンセプトを表すフレーズ カテゴリ関連のクラウド ベースの自動認識をサポートするメタデータ サンプルと同様に、プロトコルおよび関連するプログラミング コードを提案します。選択した知識領域の深さ分析でこのプロトコルによって定量化フレーズ カテゴリの関連付けを促進できます。

Abstract

医用テキスト データの急速な蓄積まで手動キュレーションと大量の科学的なレポートから生物学的洞察力を抽出する小説のテキストマイニング ツールを施行した分析の人間の能力を超えています。コンテキスト ・ アウェア意味オンライン分析処理 (CaseOLAP) パイプライン、2016 年に開発は正常にテキスト データの分析を通じてユーザー定義フレーズ カテゴリの関係を定量化します。CaseOLAP は多くの生物医学アプリケーションです。

エンド ツー エンド フレーズ マイニングと分析プラットフォームを支えるクラウド ベース環境のためのプロトコルを開発しました。我々 のプロトコルは、データの前処理 (例えば、ダウンロード、抽出、およびテキスト ドキュメントの解析) 含まれている、インデックス作成と検索の機能的なドキュメント構造を作成する Elasticsearch と呼ばれるテキスト キューブ、およびフレーズ カテゴリの関係を定量化コア CaseOLAP アルゴリズムを使用しています。

データの前処理は、関与するすべてのドキュメントのキー値のマッピングを生成します。プリプロセス済みのデータは、テキスト キューブの作成と CaseOLAP スコアの計算をさらに容易にするエンティティを含むドキュメントの検索を実行するインデックスされます。得られたスコア CaseOLAP は、一連の統合的な解析、クラスタ リング、時空、次元削減を含むおよび地理的な分析を使用して解釈されます。また、CaseOLAP スコアはドキュメントのセマンティック マッピングを可能にするグラフィカルなデータベースを作成する使用されます。

CaseOLAP 正確な (関係を識別) のフレーズ カテゴリの関連付けを定義します、一貫性のある (再現性の高い)、および効率的な方法 (プロセス 100,000 ワード/秒)。このプロトコルでは、次のユーザーは彼らの自身の構成と CaseOLAP のアプリケーションをサポートするクラウド ・ コンピューティング環境をアクセスできます。このプラットフォームは、高度なアクセシビリティを提供し、広範な生物医学研究用フレーズ マイニング ツールと医学のコミュニティに権限を与えます。

Introduction

フレーズ カテゴリ関連の研究のためのテキスト ファイルの数百万のマニュアル評価 (例えば.、蛋白質協会に年齢) 自動計算メソッドによって提供される効率で比類のないです。我々 は生体においてフレーズ カテゴリ協会の自動計算のためのフレーズ データマイニング手法としてクラウド ベースのコンテキスト認識意味オンライン分析処理 (CaseOLAP) プラットフォームを紹介したいと思います。

20161で最初に定義した CaseOLAP のプラットフォームは、テキスト キューブ2,3,と呼ばれるその機能的なドキュメント管理のためのデータ管理・計算の従来の方法と比較して非常に効率的です。 4、基になっている階層と地区を維持しながら、ドキュメントを配布します。それは、カテゴリ エンティティ協会を研究する生物医学研究5で適用されています。CaseOLAP プラットフォームは、ダウンロードと抽出データ、解析、インデックス作成、テキスト キューブの作成、エンティティの数、および CaseOLAP スコア計算を含む六つの主要なステップで構成されています(図 1、図 2表 1) プロトコルの主な焦点である.

CaseOLAP アルゴリズムを実装するには、ユーザーは (例えば、病気、徴候や症状、年齢、診断) 興味のあるカテゴリーとエンティティ (例えば、蛋白質、薬) を設定します。この記事に含まれるカテゴリの一例をテキスト キューブと蛋白質名 (同義語) とエンティティとして略語の細胞、' 年齢 ' ある '幼児'、'子'、'青年' と '大人' のサブカテゴリ。医学の件名標目 (網) は、定義されたカテゴリ (表 2) に対応するパブリケーションを取得するために実装されます。メッシュの記述子は、さまざまな特異性のレベル (図 3に示すサンプル) で出版物の検索を許可するように階層的なツリー構造で編成されます。CaseOLAP プラットフォームは、さらにドキュメント エンティティ数マッピングと CaseOLAP スコアの計算を容易にするためのエンティティに関連付けられているドキュメントのキュレーションのデータのインデックス作成と検索の機能を利用しています。

CaseOLAP スコア計算の詳細は前出版物1,5で利用可能です。このスコアは、基本的なテキスト キューブ文書構造に基づいて特定のランキング条件を使用して計算されます。最終的なスコアは、整合性人気、および独自性の製品です。整合性では、代表的なエンティティが意味のある概念をまとめて指します積分の意味単位であるかどうかについて説明します。ユーザー定義の語句の整合性は、文献の標準的なフレーズとして立っているので 1.0 になるに撮影されます。特殊性は、他の細胞の残りの部分に比べてドキュメントの 1 つのサブセットの語句の相対的な関連性を表します。それは最初ターゲット ・ データ ・ セットでタンパク質名の発生を比較することによって特定のセルにエンティティの関連性を計算し、正規化された特殊性スコアを提供します。人気を表す人気スコアが高いフレーズというドキュメントの 1 つのサブセットにより頻繁に現れます。セルに珍しい蛋白質名は言及の頻度の増加は周波数の対数関数の実装のための逓減リターン低、ランク付けされます。セルの上のセルとセル内およびセル間でエンティティ (文書頻度) を持つドキュメントの数 (2) に、定量的測定のこれらの 3 つの概念はエンティティの (1) 用語頻度によって異なります。

PubMed データセットと我々 のアルゴリズムを使用して 2 つの代表的なシナリオを検討しました。我々 が興味を持っているどのようにミトコンドリア蛋白質のメッシュ記述子の 2 つの一意なカテゴリに関連付けられています。「年齢」や「栄養及び代謝疾患」。具体的には、我々 はそれらの間で PubMed (1998 ~ 2018 年)、によって収集された 20 年の出版物からの 15,728,250 の出版物を取得、8,123,458 独自の抄録がフル メッシュ記述子をあった。したがって、1,842 人間ミトコンドリア蛋白質名 (略語や類義語など) UniProt (uniprot.org) からも MitoCarta2.0 を取得 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)、体系的には、検討しました。我々 のプロトコルを使用してこれらの 8,899,019 出版物とエンティティとの関連付けを調べたテキスト キューブを構築し、それぞれの CaseOLAP スコアを計算しました。

Protocol

注意: Python プログラミング言語に基づいてこのプロトコルを開発しました。アナコンダ Python を持ってこのプログラムを実行して、Git はあらかじめデバイスにインストールします。このプロトコルで提供されるコマンドは、Unix 環境に基づいています。このプロトコルは、PubMed (MEDLINE) データベースからデータをダウンロード、データを解析およびクラウドコンピューティング フレーズ マイニングとユーザー定義エンティティ カテゴリ協会の定量化のためのプラットフォームの設定の詳細を提供します。

1. 取得コードと python 環境セットアップ

  1. ダウンロードまたは Github (https://github.com/CaseOLAP/caseolap) またはターミナル ウィンドウで 'git のクローンhttps://github.com/CaseOLAP/caseolap.gitの' を入力して、コード リポジトリのクローンを作成します。
  2. 'Caseolap' ディレクトリに移動します。これは、プロジェクトのルート ディレクトリです。このディレクトリ内で、プロトコルの手順を経て進行として、複数のデータ セットは、'data' ディレクトリが設定されます。'Input' ディレクトリは、ユーザー指定のデータです。'ログ' ディレクトリには、トラブルシューティングのためにログ ファイルがあります。'結果' ディレクトリは、最終的な結果が格納される場所です。
  3. ターミナル ウィンドウを使用して、GitHub のリポジトリをクローンしたディレクトリに移動します。入力して 'environment.yml' ファイルを使用して CaseOLAP 環境を作成 'conda env を作成 -f environment.yaml'ターミナル.ターミナルで 'ソース caseolap をアクティブに' を入力することによって環境をアクティブにします。

2. ダウンロード ドキュメント

  1. 'Ftp_configuration.json' config ディレクトリの FTP アドレス、リンク (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) は、年間基準または毎日更新のファイル リンクのアドレスと同じであることを確認してください。.
  2. ベースラインのみまたは更新をダウンロードするには、ファイルのみ、'true' ファイルで設定、'download_config.json'、'config' ディレクトリ。既定では、それはダウンロードし、ベースラインと更新ファイルを抽出します。抽出された XML データのサンプルを見ることができます (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml)
  3. Pubmed データベースから抄録をダウンロードするターミナル ウィンドウに 'python run_download.py' を入力します。これは 'ftp.ncbi.nlm.nih.gov' を現在のディレクトリと呼ばれるディレクトリを作成します。このプロセスでは、ダウンロードされたデータの整合性をチェックし、ターゲット ディレクトリに抽出します。
  4. ダウンロード プロセスが失敗した場合、'download_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、このログ ファイルでダウンロード プロセスのデバッグ メッセージが出力されます。
  5. ダウンロードが完了したら、両方のディレクトリに基づいてダウンロード 'download_config.json' で構成または 'updatefiles' または 'basefiles' があることを確認する 'ftp.ncbi.nlm.nih.gov' にナビゲートします。ファイルの統計情報は、'filestat.txt' 'データ' ディレクトリ内で可能になります。

3. ドキュメントの解析

  1. ステップ 2 から 'ftp.ncbi.nlm.nih.gov' ディレクトリにダウンロードして抽出したデータがあることを確認します。このディレクトリは、この手順で入力データ ディレクトリです。
  2. データ解析スキーマを変更するのには 'true' にその値を設定することによって 'config' ディレクトリ 'parsing_config.json' ファイルでパラメーターを選択します。既定では、それを解析し、 PMID、著者、抽象化、メッシュ、場所、ジャーナル、出版日
  3. ダウンロードした (または抽出された) ファイルからドキュメントを解析するターミナルに「python run_parsing.py' を入力します。この手順でダウンロードされたすべての XML ファイルを解析し、キーを含む各ドキュメントの python ディクショナリを作成 (例えば.、PMID、著者、抽象的なメッシュ3.2 スキーマ設定を解析に基づくファイルの)。
  4. データの解析が完了すると、解析されたデータがデータ ディレクトリに 'pubmed.json' と呼ばれるファイルに保存されていることを確認します。解析されたデータのサンプルでは図 3.
  5. 解析処理が失敗した場合、'parsing_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルにデバッグ メッセージが出力されます。

4. PMID マッピング メッシュします。

  1. 解析されたデータ ('pubmed.json') がご利用いただけます 'データ' ディレクトリを確認してください。
  2. PMID マッピングにメッシュを実行するターミナルに「python run_mesh2pmid.py' を入力します。これは、関連する PMIDs を収集、メッシュの各マッピング テーブルを作成します。単一 PMID が複数のメッシュの条件の下で落ちることがあります。
  3. マッピングが完了すると、データ ディレクトリに 'mesh2pmid.json' があることを確認します。トップ 20 マッピング統計のサンプルは表 2図 45で利用可能です。
  4. このプロセスが失敗した場合、'mesh2pmid_mapping_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、このログ ファイルで、マッピングのデバッグ メッセージが印刷されます。

5. ドキュメントのインデックス作成

  1. Https://www.elastic.coから Elasticsearch アプリケーションをダウンロードします。現在、ダウンロードは (https://www.elastic.co/downloads/elasticsearch) でご利用いただけます。リモート雲でソフトウェアをダウンロードするには、ターミナルで 'wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz' を入力します。上記のコマンドで 'x.x.x' を適切なバージョン番号で置き換えることを確認します。
  2. そのダウンロードした 'elasticsearch x.x.x.tar.gz' ファイルがルート ディレクトリに表示されるかどうかを確認し、入力してファイルを抽出 'タールして elasticsearch-x.x.x.tar.gz'ターミナル ウィンドウで。
  3. 新しいターミナルを開き、ルート ディレクトリからターミナルで 'cd Elasticsearch/bin' を入力して ElasticSearch bin ディレクトリに移動します。
  4. 入力すると、Elasticsearch サーバーを起動 './Elasticsearch' ターミナル ウィンドウで。エラー メッセージせず、サーバーが開始されていることを確認します。Elasticsearch サーバの起動時エラーの場合(https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html)の手順に従います。
  5. インデックスの開始を設定する 'config' ディレクトリ 'index_init_config.json' の内容を変更します。既定では、すべてのアイテムが選択されます。
  6. Elasticsearch サーバーでインデックス データベースを開始するターミナルに「python run_index_init.py' を入力します。これはインデックス情報 (例えばインデックス名、型名、破片、レプリカの数の数) として知られている条件のセットを使用してインデックスを初期化します。インデックスが正常に作成される言及するメッセージが表示されます。
  7. 'True' の値を設定することによって 'config' ディレクトリ 'index_populate_config.json' 内の項目を選択します。既定では、すべてのアイテムが選択されます。
  8. 解析されたデータ ('pubmed.json') が 'データ' ディレクトリに存在することを確認します。
  9. 2 つのコンポーネントを持つ大量のデータを作成することによって、インデックスの作成にターミナルに 'python run_index_populate.py' を入力します。最初のコンポーネントはインデックス名、型名、および一括 id (例えば、 'PMID') に関するメタデータ情報を辞書。A 2 番目のコンポーネントは、(例えば'title'、'抽象'、'メッシュ') タグのすべての情報を含むデータ辞書.
  10. このプロセスが失敗した場合、'indexing_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルにインデックス作成のデバッグ メッセージが出力が。

6. テキスト キューブの作成

  1. (Https://www.nlm.nih.gov/mesh/filelist.html) で利用可能な最新のメッシュのツリーをダウンロードします。現在のバージョンのコードは、入力ディレクトリで 'meshtree2018.bin' としてツリー 2018 のメッシュを使用しています。
  2. カテゴリ (例えば、疾患名、年齢、性別) を定義します。カテゴリは、1 つまたは複数のメッシュ記述子 (https://meshb-prev.nlm.nih.gov/treeView) を含めることができます。カテゴリのメッシュ Id を収集します。Config ディレクトリ (ダウンロードしたバージョンの 'textcube_config.json' ファイル '年齢' のカテゴリのサンプルを参照) でファイル 'textcube_config.json' のカテゴリの名前を保存します。
  3. スペースで区切られた行にメッシュ Id の収集カテゴリを置きます。'Input' ディレクトリ (ダウンロードしたバージョンの 'categories.txt' ファイル '年齢' メッシュ Id のサンプルを参照) で、'categories.txt' としてカテゴリ ファイルを保存します。このアルゴリズムは、すべての子孫メッシュ記述子を自動的に選択します。ルート ノードと子孫の例に示します図 4
  4. 'Mesh2pmid.json' が 'データ' ディレクトリにあることを確認します。メッシュ ツリーが 'input' ディレクトリに別の名前 ('meashtree2019.bin'など) で更新された場合、これが正しく'run_textube.py' ファイルの入力データ パスで表されることを確認します。
  5. テキスト キューブと呼ばれるドキュメントのデータ構造を作成するターミナルに「python run_textcube.py' を入力します。これは、各カテゴリのドキュメント (PMIDs) のコレクションを作成します。1 つのドキュメント (PMID) 複数のカテゴリの下で落ちることがあります (表 3 a、3 b の表図 6A参照してください、図 7A).
  6. テキスト キューブ作成手順が完了すると、次のデータ ファイルが「data」ディレクトリに保存されるを確認してください: (1) は、"textcube_cell2pmid.json"、"textcube_pmid2cell.json"としてセル マッピング テーブルへ (2) PMID PMID テーブルにセル (3)"textcube_stat.txt"と"meshterms_per_cat.json"(4) テキスト キューブ データ統計としてセルのすべての子孫のメッシュ用語のコレクションです。
  7. このプロセスが失敗した場合、'textcube_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルに、テキスト キューブ作成のデバッグ メッセージが印刷されます。

7. エンティティ数

  1. ユーザー定義のエンティティ (例えば、蛋白質名、遺伝子化学物質) を作成します。区切って、1 行に 1 つのエンティティとその略語を置く"|"。として 'entities.txt' 'input' ディレクトリにエンティティ ファイルを保存します。エンティティの例はで見つけることができます表 4.
  2. Elasticsearch サーバーが実行されていることを確認します。そうでなければ、5.2 と 5.3 Elasticsearch サーバを再起動する手順に進みます。ステップ 5 に設立された Elasticsearch サーバーで 'pubmed' と呼ばれるインデックス付きデータベースを持っている期待されます。
  3. 'Textcube_pmid2cell.json' が 'データ' ディレクトリにあることを確認します。
  4. エンティティ数の操作を実行するターミナルに「python run_entitycount.py' を入力します。これインデックス付きのデータベースからドキュメントを検索し、各ドキュメント内のエンティティのカウントし、同様エンティティが発見された PMIDs を収集します。
  5. エンティティ数が完了すると、最終的な結果は、'entitycount.txt' として保存されますを確認し、'data"ディレクトリには、'entityfound_pmid2cell.json'。
  6. このプロセスが失敗した場合、'entitycount_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルにデバッグ メッセージ エンティティ数がプリント アウトされます。

8. メタデータの更新

  1. 'データ' ディレクトリにすべての入力データ ('entitycount.txt', 'textcube_pmid2cell.json', 'entityfound_pmid2cell.txt') があることを確認します。これらは、メタデータの更新用入力データです。
  2. メタデータを更新するターミナルに「python run_metadata_update.py' を入力します。これは (例えば、セル名、関連付けられたメッシュ、PMIDs) のメタデータのコレクションを準備するセル内の各テキスト ドキュメントを表します。表 3Aでテキスト キューブ メタデータのサンプルを提示し、表 3B
  3. メタデータの更新が完了すると、'metadata_pmid2pcount.json'と'metadata_cell2pmid.json' が 'データ' ディレクトリに保存されることを確認します。
  4. このプロセスが失敗した場合、'metadata_update_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルにメタデータ更新プログラムのデバッグ メッセージが出力が。

9. CaseOLAP スコアの計算

  1. 'Metadata_pmid2pcount.json' と 'metadata_cell2pmid.json' ファイル 'データ' ディレクトリに存在ことを確認します。スコア計算の入力データのとおりです。
  2. CaseOLAP スコアの計算を実行するターミナルに「python run_caseolap_score.py' を入力します。これには、ユーザー定義のカテゴリに基づくエンティティの CaseOLAP スコアが計算されます。CaseOLAP スコアは、整合性人気、および独自性の製品です。
  3. スコアの計算が完了すると、'結果' ディレクトリに複数のファイル (例えば、'pop.csv'、'dist.csv'、'caseolap.csv' として CaseOLAP スコアとしての特殊性として人気) で結果を保存これを確認します。CaseOLAP スコア計算の概要は、表 5にまた表示されます。
  4. このプロセスが失敗した場合、'caseolap_score_log.txt' 内のログ メッセージを読む 'ログ' ディレクトリに移動します。プロセスを正常に完了すると、ログ ファイルに、CaseOLAP スコア計算のデバッグ メッセージが印刷されます。

Representative Results

サンプルの結果を生成する 2 つの件名見出し/記述子の CaseOLAP アルゴリズムを実装:「年齢」と"栄養と代謝性疾患"ユース ケースとして。

年齢別グループ。「年齢層」(幼児、子供、青年、大人) すべての 4 つのカテゴリーは、テキスト キューブ内のセルとして選択しました。表 3Aでは、取得したメタデータと統計が表示されます。図 6Aテキスト キューブ セル間でドキュメントの数の比較が表示されます。大人には、すべてのセルの最大数である 172,394 ドキュメントが含まれています。大人と思春期のサブカテゴリがある共有ドキュメント (26,858 ドキュメント) の最大数。特に、これらの文書には、我々 の関心だけ (すなわち、ミトコンドリア蛋白質) のエンティティが含まれています。図 6Bにベン図形型図表では、各セル内および複数重なりを見つけた (すなわち、ミトコンドリア蛋白質) エンティティの数を表します。タンパク質のすべての年齢別グループのサブカテゴリ内で共有数は 162 です。大人のサブカテゴリは、ユニークなタンパク質 (151)、子供 (16)、幼児 (8) および青年 (1) 数の最大値を示しています。タンパク質年齢グループ協会 CaseOLAP スコアとして計算しました。幼児、子供、青年および大人のサブカテゴリに関連付けられている (平均 CaseOLAP 点に基づく) トップ 10 タンパク質は、25-ヒドロキシ ビタミン D-1 α-水酸化酵素 α-クリスタリン B 鎖、ステロール 26-ヒドロキシラーゼ セロトランスフェリン、クエン酸合成酵素L seryl tRNA、ナトリウム/カリウム輸送 atp アーゼ サブユニット α 3、グルタチオン s-トランスフェラーゼ オメガ 1、NADPH: アドレノドキシン オキシドレダクターゼ、ミトコンドリア ペプチド メチオニン ジメチルスルホキシド還元酵素 (図 6に示すように)。大人のサブカテゴリでは、思春期、子供トップ 10 ミトコンドリア蛋白質が大人のサブカテゴリに最も強い関連性を示すことを示す幼児のサブカテゴリのヒートマップ細胞と比較して高い強度の 10 ヒートマップ セルが表示されます。ミトコンドリア蛋白質ステロール 26-水酸化酵素は、他の 9 のミトコンドリア蛋白質のヒートマップ細胞と比較して高い強度とヒートマップ セルで示されるすべての年齢カテゴリー高団体。2 つのグループのスコアの絶対差の統計的分布表示 99% 信頼区間の平均値の差の次の範囲: (1) 平均 'ADLT' と 'INFT' の間の違いは範囲 (0.042 に 0.029)、(2) の意味で差 (0.021 に 0.030) (3) の範囲で 'ADLT' と 'CHLD' 嘘 'ADLT' の平均の違いと「アドル」(0.029 に 0.020)、(4) の範囲の平均の違いがある 'アドル' と 'INFT' の嘘 (0.022 に 0.015) (5) の範囲で平均値の差'アドル' と 'CHLD' 間 'CHLD' と 'INFT' (0.016 に 0.011) の範囲での平均値の差 (0.010 に 0.007)、(6) の範囲であります。

栄養及び代謝疾患。我々 は"栄養と代謝性疾患」(すなわち、代謝性疾患、栄養障害) テキスト キューブで 2 つのセルを作成する 2 つのサブカテゴリを選択します。表 3 bでは、取得したメタデータと統計が表示されます。図 7Aのテキスト キューブ セル間でドキュメントの数の比較が表示されます。サブカテゴリの代謝性疾患には、栄養障害で 19,181 ドキュメント続いて 54,762 ドキュメントが含まれています。サブカテゴリの代謝性疾患、栄養障害 7,101 共有ドキュメントがあります。特に、これらの文書には、我々 の関心だけ (すなわち、ミトコンドリア蛋白質) のエンティティが含まれています。図 7 bのベン図形型図表では、各セル内および複数重なり、細胞内に含まれているエンティティの数を表します。タンパク質-「栄養と代謝性疾患」として協会 CaseOLAP スコアを算出しました。このユース ケースに関連付けられている (平均 CaseOLAP 点に基づく) トップ 10 蛋白質がステロール 26-ヒドロキシラーゼ、α-クリスタリン B 鎖、L seryl tRNA、クエン酸合成酵素、tRNA 合成酵素 pseudouridine A、25-ヒドロキシ ビタミン D-1 α-水酸化酵素グルタチオン s-トランスフェラーゼ オメガ 1、NADPH: アドレノドキシン酸化還元酵素、ミトコンドリア ペプチド メチオニン ジメチルスルホキシド還元酵素、プラスミノーゲン活性化因子阻害剤 1 (図 7に示すように)。半分以上 (54%)すべての蛋白質のサブカテゴリの代謝性疾患、栄養障害 (397 蛋白質) 間で共有されます。興味深いことに、ほぼ半分 (43%)代謝性疾患のサブカテゴリのすべての関連蛋白質の栄養障害展示のみ、いくつかユニークなタンパク質 (35) に対し一意 (300 タンパク質) はします。Α-クリスタリン B チェーンでは、サブカテゴリの代謝性疾患に最強の関連付けが表示されます。ステロール 26-ヒドロキシラーゼ、ミトコンドリアでは、このミトコンドリアのタンパク質が栄養障害を記述する研究で関連性の高いことを示す栄養障害サブカテゴリで最強の関連付けが表示されます。2 つのグループ 'MBD' と '元' のスコアで絶対差の統計的分布は、99% 信頼区間として平均値の差の範囲 (0.061 に 0.046) を示しています。

Figure 1
図 1。CaseOLAP ワークフローの動的なビューです。この図は CaseOLAP のワークフローで 5 つの主要なステップを表します。ステップ 1 で、ダウンロードして (例えば、PubMed) からテキスト ドキュメントを抽出してワークフローを開始します。ステップ 2 で、PMID マッピングするメッシュと同様に、各ドキュメントのデータ辞書を作成する抽出されたデータが解析されます。ステップ 3 で、データのインデックス作成は迅速かつ効率的なエンティティの検索を容易にするために行われています。手順 4 で、テキスト キューブを構築するユーザー-指定したカテゴリ情報 (例:.、各セルのルート メッシュ) の実装が行われます。ステップ 5、CaseOLAP スコアを計算するためのインデックス データをエンティティのカウント操作が実装されています。これらの手順は、パブリック データベース (PubMed など) で使用できる最新の情報システムを更新する反復的な方法で繰り返されます。この図の拡大版を表示するのにはここをクリックしてください

Figure 2
図 2。CaseOLAP ワークフローの技術的なアーキテクチャです。この図 CaseOLAP ワークフローの技術的な詳細を表します。PubMed のリポジトリからのデータは、PubMed FTP サーバーから取得されます。ユーザー、デバイス経由でクラウド サーバー (例えば、AWS 接続) に接続してダウンロードし、クラウドのローカル リポジトリにデータを抽出ダウンロード パイプラインを作成します。抽出されたデータ、構造化、検証、およびデータ解析パイプラインを持つ適切な形式をもたらした。同時に、解析の手順では、テキスト キューブ建設用 PMID マッピング テーブルにメッシュが作成されます。解析されたデータは、ドキュメントのメタデータ (PMID、メッシュ、発行年など) を持つキーと値のディクショナリ形式のような JSON として格納されます。インデックス作成の一歩は、大量のデータを処理するため Elasticsearch を実装することによってデータを向上させます。次に、テキスト キューブの PMID マッピングにメッシュを実装することによってユーザー定義の分類項目を作成します。テキスト キューブ形成とインデックス作成の手順を完了すると、エンティティ数が行われています。エンティティ数のデータは、テキスト キューブ メタデータに実装されます。最後に、CaseOLAP のスコアは基になるテキスト キューブ構造に基づいて計算されます。この図の拡大版を表示するのにはここをクリックしてください

Figure 3
図 3。解析済みのドキュメントのサンプルです。解析されたデータのサンプルは、この図に示した。解析されたデータは、インデックス作成とドキュメント メタデータの作成と互換性のあるキーと値のペアとして配置されます。この図で、PMID (「25896987」など)、キーとして、関連情報 (タイトル、出版日、抽象、メッシュ、物質、部門およびロケーションなど) のコレクションは、値。このようなドキュメント メタデータの非常に最初のアプリケーションは PMID メッシュの建設 (図 5および表 2)、テキスト キューブを作成し、ユーザーが提供したエンティティと CaseOLAP スコアを計算する後で実装されているマッピングとカテゴリ。この図の拡大版を表示するのにはここをクリックしてください

Figure 4
図 4。メッシュ ツリーのサンプルです。 '年齢グループのメッシュ ツリーは NIH データベースで利用可能なツリー データ構造から適応 (メッシュ ツリー 2018 年に < https://meshb.nlm.nih.gov/treeView>)。メッシュ記述子に実装される、ノード Id (など人 [M01]、年齢 [M01.060]、[M01.060.057] 思春期、大人 [M01.060.116]、子 [M01.060.406]、幼児 [M01.060.703]) 特定のメッシュ記述子 (に関連する書類を収集するには表 3 a)。この図の拡大版を表示するのにはここをクリックしてください

Figure 5
図 5。年齢層で PMID のマッピングにメッシュします。この図は、バブル プロットとして「年齢」でメッシュ記述子の下で収集された (それぞれは連動、PMID) テキスト ドキュメントの数です。PMID マッピングするメッシュは、メッシュの記述子の下で集められた文書の正確な数を提供するために生成されます。3,062,143 の一意なドキュメントの総数は 18 子孫メッシュ記述子 (表 2参照) の下で収集された.高く大きく特定メッシュのディスクリプターの下メッシュ記述子を表すバブルの半径を選択 PMIDs の数。たとえば、ドキュメントの最大数は、メッシュ記述子「大人」の下で収集された (1,786,371 文書)、メッシュ記述子「幼児、Postmature」の下で収集されたテキスト ドキュメントの数が最も少ない数に対し (62 ドキュメント)。
"栄養と代謝性疾患"(https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html) PMID マッピングへのメッシュの追加例が与えられます。422,039 の一意なドキュメントの合計数は、「栄養と代謝性疾患」で 361 子孫メッシュ記述子の下で収集されました。メッシュ記述子「肥満」の下で収集されたドキュメントの最大数 (77,881 ドキュメント) に続いて"糖尿病、タイプ 2"(61,901 ドキュメント) に対し"グリコーゲン貯蔵病 VIII を入力"(1 つのドキュメントのドキュメントの最小限の数を展示).関連テーブルがオンライン上も (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv) です。この図の拡大版を表示するのにはここをクリックしてください

Figure 6
図 6。「年齢」ユース ケースとして。この図は、CaseOLAP プラットフォームの使用例の結果を示します。このインスタンス エンティティおよびセルを含む「年齢グループ」として蛋白質名とその略語 (表 4サンプルを参照) を実装します: 幼児 (INFT)、子供 (CHLD)、思春期 (アドル) と大人 (ADLT) サブカテゴリ (を参照として実装されます。表 3 a)。(A)グループ"年齢"ドキュメントの数:このヒート マップは、(テキスト キューブの作成を参照してくださいプロトコル 4 および表 3Aの詳細) ドキュメントが「高齢者グループ」の細胞分散数を表示します。ドキュメント数の増加は、ヒートマップの暗い強度表示セル (スケールを参照してください)。1 つのドキュメントは、1 つ以上のセルに含まれるかもしれません。Heatmap 対角の位置に沿って細胞内にドキュメントの数を表示 (例えば、ADLT 含む 172,394 ドキュメントすべてのセルの最大数である)。Nondiagonal の位置は、ドキュメントの 2 つの細胞 (例えば、ADLT とアドルがある 26,858 共有ドキュメント) を落下の数を表します。(B).「年齢層」のエンティティ数:ベン図形型図表が「年齢層」(INFT、CHLD、アドル、ADLT) を表す 4 つの細胞で見つけられる蛋白質数を表します。蛋白質内のすべてのセルで共有数は 162 です。年齢 ADLT CHLD (16)、INFT (8) とアドル (1) に続いてユニークなタンパク質 (151) の最大数を示しています。(C)グループ"年齢"CaseOLAP スコア プレゼンテーション:各グループの平均 CaseOLAP スコア上位トップ 10 蛋白質は、ヒート マップに掲載されています。CaseOLAP のスコアが高いが、ヒートマップの暗い強度表示セル (スケールを参照してください)。タンパク質名は左側の列に表示されます、セル (INFT、CHLD、アドル、ADLT) は x 軸に沿って表示されます。いくつかのタンパク質は、(例えば、ステロール 26-ヒドロキシラーゼ、α-クリスタリン B チェーンと L seryl tRNA、ナトリウム/カリウム輸送 atp アーゼ サブユニット α 3 は強い連合 ADLT との強い関連がある特定の年齢別グループに強い関連を示してください。INFT)。この図の拡大版を表示するのにはここをクリックしてください

Figure 7
図 7。「栄養と代謝性疾患」ユース ケースとして:この図は、CaseOLAP プラットフォームの別の使用例の結果を示します。このインスタンスでは、エンティティと栄養と代謝病""2 つのセルを含む蛋白質名とその略語 (表 4のサンプルを参照) を実装します: 代謝性疾患 (MBD) と栄養障害 (NTD) として実装されます。サブカテゴリ ( 3 b の表を参照してください)。(A). 「栄養と代謝性疾患」内のドキュメント数:このヒートマップ (テキスト キューブの作成の詳細については、プロトコル 4 と表 3 b を参照してください、「栄養と代謝性疾患」のセルでテキスト ドキュメントの数を示しています).ドキュメント数の増加は、ヒートマップの暗い強度表示セル (スケールを参照してください)。1 つのドキュメントは、1 つ以上のセルに含まれるかもしれません。Heatmap 対角の位置に沿って細胞内にドキュメントの総数を表示 (例えば、MBD を含む 54,762 ドキュメント 2 つのセルの間で最高の数である)。Nondiagonal の位置は、2 つのセル (例えば、MBD と NTD 7,101 共有ドキュメントがある) によって共有されるドキュメントの数を表します。(B). 「栄養と代謝性疾患」のエンティティ数:ベン図形型図表が"栄養と代謝性疾患"(MBD と NTD) を表す 2 つの細胞で見つけられる蛋白質の数を表します。2 つのセル内で共有蛋白質の数は 397 です。MBD セル 300 ユニークな蛋白質を示しています、NTD セルは 35 のユニークな蛋白質を示しています。(C). CaseOLAP スコア プレゼンテーション「栄養と代謝性疾患」に: 「栄養と代謝性疾患」で最高平均 CaseOLAP 得点トップ 10 蛋白質はヒート マップで表示されます。CaseOLAP のスコアが高いが、ヒートマップの暗い強度表示セル (スケールを参照してください)。タンパク質名は左側の列に表示されます、セル (MBD と NTD) は x 軸に沿って表示されます。いくつかのタンパク質は特定の疾患カテゴリーに強い関連を示して (α-クリスタリン B チェーンは高代謝性疾患関連付けとステロール 26-ヒドロキシラーゼは栄養障害と高協会など)。この図の拡大版を表示するのにはここをクリックしてください

時間 (時間の合計の割合) CaseOLAP プラットフォームでの手順 CaseOLAP プラットフォームのデータ構造とアルゴリズム アルゴリズムとデータ構造の複雑さ 手順の詳細
40% ダウンロードと
解析
イテレーションと構文解析アルゴリズムの木 入れ子になったループと定数乗算イテレーション: o(n2), O (log n)。場所 'n' は反復のないです。 ダウンロード パイプラインは、複数のファイルをそれぞれの手順を反復処理します。単一ドキュメントの解析と、生の XML データのツリー構造を各プロシージャが実行されます。
30% インデックス付け、検索、テキスト キューブ作成 反復、検索アルゴリズム (ソート、Lucene インデックス、優先度キュー、有限状態機械、ハック、regex クエリの実行をいじるビット) Elasticsearch Elasticsearch (https://www.elastic.co/) の複雑さ ドキュメントは、データ辞書を反復処理を実装することによってインデックスされます。テキスト キューブの作成は、ドキュメント メタデータとユーザーが指定したカテゴリの情報を実装します。
30% エンティティのカウントと CaseOLAP の計算 完全性、人気、特殊性計算の反復 O (1)、o(n2) caseOLAP 反復型に基づいてスコアの計算に関連する複数の複雑さ エンティティのカウント操作の一覧し、リストをカウント操作を行います。エンティティのカウント データは、CaseOLAP スコアの計算に使用されます。

テーブル 1。アルゴリズムと複雑。このテーブル プロシージャに費やされた時間 (合計時間のパーセンテージ) に関する情報が示さ (ダウンロード、解析など) のデータ構造と CaseOLAP のプラットフォームで実装されているアルゴリズムの詳細については。CaseOLAP は、プロのインデックスと Elasticsearch と呼ばれる検索アプリケーションを実装します。Elasticsearch および内部アルゴリズムに関する複雑さの追加については、(https://www.elastic.co) で見つけることが。

メッシュ記述子 収集された PMIDs の数
大人 1,786,371
中間の老化させた 1,661,882
高齢者 1,198,778
思春期 706,429
ヤング アダルト 486,259
480,218
高齢者、80 と 453,348
子供の頃、幼稚園 285,183
幼児 218,242
乳児、新生児 160,702
乳児は、時期尚早 17,701
乳幼児、低出生体重 5,707
虚弱高齢者 4,811
幼児、非常に低い生れ重量 4,458
幼児、小さい胎 3,168
非常に早期の幼児 1,171
幼児、非常に低い生れ重量 1,003
幼児、過 62

表 2。PMID マッピング統計メッシュします。この表に「年齢」から収集した PMIDs (テキスト ドキュメント) の数すべて子孫メッシュ記述子を示します。これらの統計情報の可視化を図 5に示します。

A 幼児 (INFT) 子供 (CHLD) 思春期 (アドル) 大人 (ADLT)
ルート ID をメッシュします。 M01.060.703 M01.060.406 M01.060.057 M01.060.116
子孫のメッシュ記述子の数 9 2 1 6
選択した PMIDs の数 16,466 26,907 35,158 172,394
含まれているエンティティの数 233 297 257 443
B 代謝性疾患 (MBD) 栄養障害 (NTD)
ルート ID をメッシュします。 C18.452 C18.654
子孫のメッシュ数
記述子
308 53
収集された PMIDs の数 54,762 19,181
含まれているエンティティの数 697 432

表 3。テキスト キューブ メタデータ。テキスト キューブ メタデータの表形式のビューを表示します。テーブルは、カテゴリに関する情報を提供し、メッシュの記述子のルーツと子孫、各セル内のドキュメントを収集するために実装されています。テーブルは、収集したドキュメントとエンティティの統計情報を提供します。(A)「年齢層」: これは幼児 (INFT)、子供 (CHLD)、思春期 (アドル)、大人 (ADLT) などの「年齢層」の表形式表示と、メッシュ ルート Id 子孫のメッシュ記述子や選択した PMIDs の数の数の数のエンティティを発見しました。(B)「栄養と代謝性疾患」: これは"栄養と代謝性疾患"代謝性疾患 (MBD) と栄養障害 (NTD)、メッシュ ルート Id、子孫のメッシュ記述子の数の数を含む表形式で表示選択した PMIDs と検索されたエンティティの数。

タンパク質名と同義語 略語
N アセチル合成酵素は、ミトコンドリア、アミノ酸アセチルトランスフェラーゼ、N アセチル合成酵素長い形式N アセチル合成酵素の短い形式。N アセチル合成酵素には、ドメインのフォームが保存されている] (EC 2.3.1.1)
蛋白質/核酸酸 deglycase DJ 1 (メイラード deglycase) (がん遺伝子は DJ1) (パーキンソン病タンパク質 7) (パーキンソン病関連 deglycase) (タンパク質 DJ-1) (EC 3.1.2.-)(EC 3.5.1.-)(EC 3.5.1.124)(DJ-1)
ピルビン酸カルボキシラーゼ、ミトコンドリア (ピルビン カルボキシラーゼ) (EC 6.4.1.1)(プリント基板)
Bcl 2 結合コンポーネント 3 (アポトーシスの変調調整された p53) (平成 1)
相互作用の BH3 ドメイン死アゴニスト [相互作用の BH3 ドメイン死アゴニスト p15 (p15 入札);相互作用の BH3 ドメイン死アゴニスト p13;相互作用の BH3 ドメイン死アゴニスト p11] (p22 入札)(入札)(p13 入札)(p11 入札)
ATP 合成酵素サブユニット α、ミトコンドリア (ATP 合成酵素の F1 サブユニット α)
シトクロム P450 11B2、ミトコンドリア (アルドステロン合成酵素) (アルドステロン合成酵素) (CYPXIB2) (チトクローム P-450Aldo) (チトクローム P-450_C_18) (ステロイド 18-水酸化酵素) (ALDOS)(EC 1.14.15.4)(EC 1.14.15.5)
60 kDa 熱ショック蛋白質、ミトコンドリア (60 kDa シャペロニン) (シャペロニン 60) (CPN60) (熱ショック蛋白質 60) (ミトコンドリア マトリックス蛋白質 P1) (P60 リンパ球タンパク質) (HSP-60)(Hsp60)(HuCHA60)(EC 3.6.4.9)
カスパーゼ-4 (Ced 3 と氷の相同物 2) (プロテアーゼ TX) [に裂かれる: カスパーゼ 4 サブユニット 1;カスパーゼ-4 サブユニット 2] (CASP-4)(EC 3.4.22.57)(ICH-2)(ICE(rel)-II)(Mih1)

表 4。エンティティ テーブルをサンプルします。次の表は、我々 の 2 つのユース ケースで実装されたエンティティのサンプルを示します:「年齢」と「栄養と代謝性疾患」(図 6および図 7表 3 aB)。蛋白質名、類義語、略語などのエンティティ。各エンティティ (類義語・略語を一つずつ選択ありが (プロトコル 3 と 5 を見なさい) インデックス付きデータをエンティティ検索操作を介して渡されます。検索には、エンティティのカウント操作を促進する文書の一覧が生成されます。

数量 ユーザー定義 計算 量の方程式 量の意味
整合性 うん 違います ユーザーの整合性定義エンティティ 1.0 と見なされます。 意味のある句を表します。それが既に確立されたフレーズ、数値値は 1.0 です。
人気 違います うん 参照 5 から図 1 (ワークフローとアルゴリズム) で人気の方程式、「材料と方法」のセクション。 セル内での語句の頻度に基づいています。セルの合計周波数で規格化しました。単語の頻度の増加、減少の結果。
特殊性 違います うん 参照 5 から図 1 (ワークフローとアルゴリズム) の特殊性方程式、「材料と方法」のセクション。 用語の頻度とセル内および近隣の細胞の間で文書の頻度に基づいています。合計用語の頻度と文書頻度によって正規化します。定量的に語句が特定のセルで一意になる確率です。
CaseOLAP スコア 違います うん 参照 5 から図 1 (ワークフローとアルゴリズム) の CaseOLAP スコア式、「材料と方法」のセクション。 整合性、人気、および特殊性に基づいています。数値の値は常に 0 に 1 内にあります。定量的 CaseOLAP スコアを表すフレーズ カテゴリ協会

表 5。CaseOLAP 式:、CaseOLAP アルゴリズムは 2016年1Fangbo タオと Jiawei 漢らによって開発されました。簡単に言えば、このテーブル プレゼント 3 つのコンポーネントから成る CaseOLAP スコアの計算: 完全性、人気といわれてと関連付けられている数学的な意味。使用症例で蛋白質の整合性のスコアは 1.0 (最大スコア) 確立されたエンティティ名として立つため。図 6図 7で私たちのユース ケースで CaseOLAP スコアを見ることができます。

Discussion

我々 は CaseOLAP アルゴリズムが、大量の有意義な洞察力の抽出のためのテキスト データを知識ベースのカテゴリに基づくフレーズ定量的関連付けを作成できますを示しています。次の私たちのプロトコルには、目的のテキスト キューブを作成し、CaseOLAP スコア計算を通じてエンティティ カテゴリの関連付けを定量化 CaseOLAP フレームワークを構築する 1 つ。次元削減, クラスタ リング, 時間的・地理的な分析だけでなく、ドキュメントのセマンティック マッピングを可能にするグラフィカルなデータベースの作成を含む統合的な解析を生 CaseOLAP の得点を取ることができます。

アルゴリズムの有効性。蛋白質以外のユーザー定義エンティティの例としては、遺伝子名、薬、特定の標識、類義語、略語などの症状の一覧可能性があります。さらに、カテゴリ選択特定ユーザー定義生体解析 (解剖学 [A]、規律・職業 [H]、現象とプロセス [G] など) を容易にするために多くの選択肢があります。我々 の 2 つのユース ケース、PubMed を検索エンジンとして使用して MEDLINE データベースからすべての科学的な出版物およびテキスト データを取得、薬の国立図書館によって管理される両方。ただし、CaseOLAP プラットフォームは、医歯薬学ドキュメントにテキスト データなど、FDA 有害イベント報告システム (FAERS) を含む興味の他のデータベースに適用可能性があります。医療有害事象及び FDA に提出された薬エラー報告に関する情報を含む開いているデータベースです。MEDLINE と FAERS と対照をなして患者から電子カルテを含む病院でデータベースは公衆に開いていないが、健康保険の携行性と責任に関する法律 HIPAA として知られているによって制限されます。

CaseOLAP アルゴリズムは、さまざまな種類のデータ (例えば、ニュース記事)1.に正常に適用されています。ライフ サイエンス分野におけるこのアルゴリズムの実装は、2018年5で行われています。CaseOLAP アルゴリズムの適用性の要件は、各ドキュメントが概念 (メッシュ記述子は医学の出版物で、ニュース記事のキーワードなど) に関連付けられたキーワードを割り当てる必要があります。キーワードが見つからない場合トップの代表的なフレーズを収集し、我々 のプロトコルを実装する前にエンティティの一覧を構築する Autophrase6,7を適用できます。我々 のプロトコルは、Autophrase を実行するステップを提供しません。

その他のアルゴリズムとの比較。データ キューブ8,9,10テキスト キューブ2,34を使用してのコンセプトは、データ マイニングを適用する新しい進歩によって 2005 年以来進化してきた。オンライン分析処理 (OLAP)11,12,13,14,15ビジネス インテリジェンスとデータ マイニングの概念は 1993 年にさかのぼります。OLAP は一般に、複数のシステムから情報を集約し、多次元形式で格納します。データ マイニングで実施された OLAP システムのさまざまな種類があります。たとえば (1) ハイブリッド トランザクション/解析処理 (HTAP)16,17, (2) 多次元 OLAP (MOLAP)18,19-ベース、および (3) リレーショナル OLAP (ROLAP)20キューブします。

具体的には、CaseOLAP アルゴリズムに比べてされている既存の多数のアルゴリズムを具体的には、そのフレーズのセグメンテーション機能強化により、TF を含む-IDF + ワンセグ、MCX + ワンセグ、MCX、SegPhrase。また、RepPhrase (RP、SegPhrase + とも呼ばれます) は、整合性測定株式会社 (RP なし INT) せず RP (1)、(2) 人気メジャーが組み込まれる (RP いいえ POP)、ない RP せず RP (3) など、独自のアブレーションのバリエーションと比較されています、特殊性の測定の株式会社 (RP いいえ DIS)。ベンチマークの結果は、Fangbo タオら1研究に表示されます。

保存およびデータベースからデータを取得する機能を追加することができますデータのマイニングの課題もあります。コンテキスト ・ アウェア セマンティック分析処理 (CaseOLAP) 体系的に数百万のドキュメント (プロトコル 5) のインデックス データベースを構築する Elasticsearch を実装しています。テキスト キューブは、ユーザーが指定したカテゴリ (プロトコル 6) とインデックス付きデータの構築ドキュメント構造です。これはドキュメント内およびテキスト キューブのセル間に機能を高め、特定セル (プロトコル 8) の上文書と文書頻度をエンティティの頻度を計算することが出来る。CaseOLAP の最終的なスコアを利用して最終的なスコアを出力するこれらの周波数の計算 (プロトコル 9)。2018 年には ECM 蛋白質および蛋白質病アソシエーションの分析に六つの心臓病の研究にこのアルゴリズムを実施します。この研究の詳細は、リエム、検察ら5によって研究で見つけることが。CaseOLAP を様々 な病気やメカニズムを探索医学コミュニティで広く使用できることを示します。

アルゴリズムの制限します。フレーズ マイニング自体は、管理およびテキスト データから重要な概念を取得する手法です。数学量 (ベクトル) としてエンティティ カテゴリ協会を発見しながらこのテクニックは協会の極性 (正または負の傾斜など) を把握することではないです。1 つは割り当てられたエンティティとカテゴリ、本文 Cude 文書構造を利用したデータの量的な要約を構築できますが、微細な粒度と定性的な概念に到達できません。今、いくつかの概念はそれまでの過去から、継続的に進化しています。特定のエンティティ カテゴリ協会発表要約には文献を通してすべての事件が含まれます。これは技術革新の時空間伝搬を欠いている可能性があります。将来は、これらの制限に対処する予定です。

将来のアプリケーション。世界で蓄積したデータの約 90% は、非構造化テキスト データにあります。代表的なフレーズと、テキストに埋め込まれたエンティティ関係を見つけることは、新技術 (例えば、機械学習、情報抽出、人工知能) の実施のための非常に重要なタスクです。マシンのテキスト データを読みやすくするには、データがツールの次のレイヤーを実行できるデータベースに編成する必要があります。将来は、このアルゴリズムは、データ マイニングが情報の検索とエンティティ カテゴリの関連付けの定量化のより機能的な作りの重要なステップをすることができます。

Disclosures

著者が明らかに何もありません。

Acknowledgments

この作品は、国民の中心、肺および血の協会によって部分で支えられた: R35 HL135772 (P. Ping のような) に国立総合医学研究所: U54 GM114833 (P. Ping、k. ワトソン、西王し)(J. ハン); に U54 GM114838忍博士 Setty; ・ ラリー ホーグ財団、ヘレンからの贈り物(P. Ping) に UCLA で T.C. Laubisch 基金。

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS - 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , Springer Science & Business Media. 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Tags

医学問題 144、テキスト ・ マイニング、データ科学、医療情報マイニングのフレーズ、クラウド ・ コンピューティング
クラウド ベース フレーズ マイニングとユーザー定義のフレーズ カテゴリ医学出版会分析
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Sigdel, D., Kyi, V., Zhang, A.,More

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter