Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

클라우드 기반 구문 마이닝 및 생물 의학 간행물에 사용자 정의 구문 범주 협회의 분석

Published: February 23, 2019 doi: 10.3791/59108
* These authors contributed equally

Summary

우리는 프로토콜 및 관련된 프로그래밍 코드 뿐만 아니라 생물 의학 문학에서 사용자 선택한 지식 도메인에 고유한 개념을 대표 하는 문구 카테고리 협회의 클라우드 기반 자동된 식별을 지원 하기 위해 메타 데이터 샘플 제시. 이 프로토콜에 의해 계량 문구 카테고리 협회 선택한 지식 도메인에 깊이 분석에 용이 하 게 수 있습니다.

Abstract

생물 의학 텍스트 데이터의 급속 한 축적까지 수동 큐레이터 및 분석, 과학적 보고서의 큰 볼륨에서 생물 학적 통찰력을 추출 하 소설 텍스트 마이닝 도구를 필요로 인간의 능력을 초과 했습니다. 컨텍스트 인식 의미 온라인 분석 처리 (CaseOLAP) 파이프라인, 2016 년, 개발은 성공적으로 텍스트 데이터의 분석을 통해 사용자 정의 구문 범주 관계를 단정. CaseOLAP는 많은 생물 의학 응용 프로그램 있다.

우리는 엔드-투-엔드 문구-마이닝 및 분석 플랫폼을 지 원하는 클라우드 기반 환경에 대 한 프로토콜을 개발 했습니다. 데이터 전처리 (예를 들어, 다운로드, 추출, 및 구문 분석 텍스트 문서)를 포함 하는 우리의 프로토콜, 인덱싱 및 검색 기능 문서 구조를 만드는 Elasticsearch 라는 텍스트 큐브 및 구문 범주 관계 측정 코어 CaseOLAP 알고리즘을 사용 하 여.

우리의 데이터 전처리 관련 된 모든 문서에 대 한 키-값 매핑을 생성합니다. 전처리 된 데이터는 추가 텍스트 큐브 생성 및 CaseOLAP 점수 계산을 용이 하 게 하는 엔터티를 포함 하 여 문서 검색을 수행 하는 색인이 생성 됩니다. 얻은 원시 CaseOLAP 점수는 일련의 차원 감소, 클러스터링, 시간를 포함 하 여 통합 분석 및 지리적 분석을 사용 하 여 해석 됩니다. 또한, CaseOLAP 점수 문서 시맨틱 매핑 수 있는 그래픽 데이터베이스를 만드는 데 사용 됩니다.

정확 (관계 식별) CaseOLAP 정의 구문 범주 관계, 일관 된 (높은 재현성), 그리고 효율적인 방식 (프로세스 100000 단어/초). 이 프로토콜에 따라 사용자가 그들의 자신의 구성 및 CaseOLAP의 응용 프로그램을 지원 하기 위해 클라우드 컴퓨팅 환경을 액세스할 수 있습니다. 이 플랫폼 향상 된 접근성을 제공 하 고 광범위 한 생물 의학 연구 응용 프로그램에 대 한 문구 마이닝 도구와 생물 의학 커뮤니티 힘을 실어주 고.

Introduction

문구 카테고리 협회의 연구에 대 한 텍스트 파일의 수백만의 수동 평가 (예를 들어., 단백질 협회 연령 그룹)은 비교할 효율 자동 계산 방법 제공. 생물 의학 문맥에서 문구 카테고리 협회의 자동된 계산에 대 한 문구 마이닝 방법으로 클라우드 기반 컨텍스트 인식 의미 온라인 분석 처리 (CaseOLAP) 플랫폼을 소개 합니다.

처음에 정의 되어 있는 20161, CaseOLAP 플랫폼은 매우 효율적인 텍스트 큐브2,3,라는 기능 문서 관리 때문에 데이터 관리 및 계산의 전통적인 방법에 비해 4, 기본 계층 구조와 동네를 유지 하면서 문서를 배포. 그것은 생물 의학 연구5 엔터티 카테고리 협회 연구에 적용 되었습니다. CaseOLAP 플랫폼 구성 다운로드 및 데이터, 구문 분석, 인덱싱, 텍스트 큐브 생성, 엔터티 수 및 CaseOLAP 점수 계산;의 추출 등 6 개 주요 단계 (그림 1, 그림 2, 표 1) 프로토콜의 주요 초점입니다.

CaseOLAP 알고리즘을 구현 하는 사용자 (예를 들어, 질병, 징후와 증상, 연령 그룹, 진단)의 범주 및 관심 (예: 단백질, 약물)의 엔터티 설정 합니다. 이 문서에 포함 된 카테고리의 한 예로 텍스트 큐브 및 단백질 이름 (동의어) 및 엔터티 약어의 세포로는 '유아', '자식', '사춘기', ' 연령 그룹 ' 및 '성인' 하위 이다. 의료 주제 제목 (메쉬) 정의 된 카테고리 (표 2)에 해당 하는 간행물을 검색 하기 위해 구현 됩니다. 메쉬 설명자 계층적 트리 구조에 다양 한 수준의 특이성 ( 그림 3에 표시 된 샘플)에서 게시에 대 한 검색을 허용 하도록 구성 됩니다. CaseOLAP 플랫폼 추가 문서 엔터티 수 매핑 및 CaseOLAP 점수 계산을 용이 하 게 관련 된 엔터티의 문서의 curation에 대 한 데이터 인덱싱 및 검색 기능을 활용 합니다.

CaseOLAP 점수 계산의 세부 사항을 이전 간행물1,5에서 제공 됩니다. 이 점수는 기본 텍스트 큐브 문서 구조에 따라 특정 순위 기준을 사용 하 여 계산 됩니다. 최종 점수는 무결성, 인기특수성의 제품입니다. 무결성 대표 엔터티 집단적 의미 있는 개념을 나타내는 중요 한 의미 단위 인지에 대해 설명 합니다. 사용자 정의 된 문구의 무결성 문학에서 표준 어구로 서 1.0으로 가져온 것입니다. 특수성 은 다른 세포의 나머지에 비해 문서의 한 부분 집합에 어구의 상대적 관련성을 나타냅니다. 그것은 먼저 대상 데이터 집합에서 단백질 이름의 발생을 비교 하 여 특정 셀에 엔터티의 관련성을 계산 하 고 정규화 된 특수성 점수를 제공 합니다. 인기 나타냅니다 높은 인기 점수와 함께 문구 사실은 문서의 한 부분 집합에 더 자주 나타납니다. 셀에 희귀 단백질 이름 언급의 그들의 주파수에 있는 증가 주파수의 로그 함수의 구현 때문에 있는 감소를 반환 하는 동안 낮은, 순위가 결정 됩니다. 이 세 가지 개념을 양적 측정 셀 및 셀 (2) 수 있고 해당 엔터티 (문서 주파수) 셀 내에서 셀 전체 문서에 걸쳐 엔터티 용어 (1) 주파수에 따라 다릅니다.

우리는 PubMed 집합과 우리의 알고리즘을 사용 하 여 두 가지 대표적인 시나리오를 공부 했다. 우리는 관심이 어떻게 미토 콘 드리 아 단백질에 메쉬 설명자;의 두 가지 독특한 범주와 관련 된 "나이 그룹" 및 "영양 및 대사 질환". 특히, 우리는 그들의 사이에서 PubMed (1998에 2018)에 의해 수집 된 20 년 간행물에서 15,728,250 간행물 검색, 8,123,458 독특한 초록 전체 메쉬 설명자. 따라서, 1,842 인간의 미토 콘 드리 아 단백질 이름 (포함 약어 및 동의어), MitoCarta2.0에서 뿐만 아니라 UniProt (uniprot.org)에서 인수 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), 체계적으로 검사. 이러한 8,899,019 간행물 및 엔터티 그들의 협회는 우리의 프로토콜;를 사용 하 여 공부 했다 우리는 텍스트 큐브를 구성 하 고 각각 CaseOLAP 점수 계산.

Protocol

참고: 우리는 파이썬 프로그래밍 언어에 따라이 프로토콜을 개발 했습니다. 이 프로그램을 실행 하려면 아나콘다 파이썬 있고 자식 장치에 미리 설치 된. 이 프로토콜에서 제공 하는 명령은 Unix 환경 기반으로 합니다. 이 프로토콜 PubMed (MEDLINE) 데이터베이스에서 데이터를 다운로드, 데이터를 구문 분석 하 고 클라우드 컴퓨팅 플랫폼 문구 마이닝 및 사용자 정의 엔터티 카테고리 협회의 정량화에 대 한 설정의 세부 정보를 제공 합니다.

1. 코드와 파이썬 환경 설치를 지 고

  1. 다운로드 하거나 코드 저장소 Github (https://github.com/CaseOLAP/caseolap)에서 또는 터미널 창에서 'git 클론 https://github.com/CaseOLAP/caseolap.git'을 입력 하 여 복제 합니다.
  2. 'Caseolap' 디렉토리를 이동 합니다. 이 프로젝트의 루트 디렉터리입니다. '데이터' 디렉토리가이 디렉터리 내에서 프로토콜에서 이러한 단계를 통해 진행에 여러 데이터 집합으로 채워집니다. '입력된' 디렉토리는 사용자 제공 데이터입니다. '로그' 디렉토리 문제 해결을 위해 로그 파일을 했다. '결과' 디렉토리는 최종 결과 저장.
  3. 디렉터리에 이동 터미널 창을 사용 하 여, 당신이 우리의 GitHub 저장소를 복제 합니다. 'Environment.yml' 파일을 사용 하 여 입력 하 여 CaseOLAP 환경 만들기 'conda 환경을 만들기-f environment.yaml' . 터미널에서 터미널에서 '소스 활성화 caseolap'을 입력 하 여 환경 활성화.

2. 문서 다운로드

  1. 'Ftp_configuration.json' config 디렉터리에 있는 FTP 주소 링크 (https://www.nlm.nih.gov/databases/download/pubmed_medline.html)에 연간 기준 또는 매일 업데이트 파일 링크 주소, 동일 인지 확인 .
  2. 초기만 또는 업데이트를 다운로드 하려면 파일, 설정 '진정한' 'config' 디렉토리에 'download_config.json' 파일에서. 기본적으로 그것은 다운로드 하 고 기준선 및 업데이트 파일을 추출 합니다. (Https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml)에서 추출 된 XML 데이터의 샘플을 볼 수 있습니다.
  3. Pubmed 데이터베이스에서 초록을 다운로드할 터미널 창에서 'python run_download.py'를 입력 합니다. 이것은 현재 디렉토리에서 'ftp.ncbi.nlm.nih.gov' 라는 디렉터리를 만듭니다. 이 프로세스는 다운로드 한 데이터의 무결성을 확인 하 고 대상 디렉터리에 추출 합니다.
  4. '로그' 디렉토리 다운로드 프로세스가 실패 한 경우 'download_log.txt'에서 로그 메시지를 읽을로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우이 로그 파일에는 다운로드 프로세스의 디버깅 메시지 밖으로 인쇄 됩니다.
  5. 다운로드가 완료 되 면 'ftp.ncbi.nlm.nih.gov' 'updatefiles' 또는 'basefiles' 또는 두 디렉터리에 따라 구성 'download_config.json'에서 다운로드 확인을 통해 이동 합니다. 파일 통계 '데이터' 디렉토리에 'filestat.txt'에서 사용할 수 있게.

3. 문서를 구문 분석

  1. 다운로드 하 고 추출 된 데이터를 2 단계에서 'ftp.ncbi.nlm.nih.gov' 디렉토리에서 사용할 수 있는지 확인 합니다. 이 디렉터리는이 단계에서 입력된 데이터 디렉터리가입니다.
  2. 데이터 구문 분석 스키마를 수정 하려면 그들의 값을 'true'로 설정 하 여 매개 변수 'config' 디렉토리에 'parsing_config.json' 파일에서 선택 합니다. 기본적으로 그것을 구문 분석 하는 PMID, 저자, 초록, 메쉬, 위치, 업무 일지, 게시 날짜,.
  3. '파이썬 run_parsing.py' 다운로드 (또는 압축) 파일에서 문서를 구문 분석 하는 터미널에서 입력 합니다. 이 단계 모두 다운로드 한 XML 파일을 구문 분석 하 고 python 사전을 각 문서에 대 한 키 (예:., PMID, 저자, 초록, 메쉬 구문 분석 단계 3.2 스키마 설정에 따라 파일의).
  4. 일단 완료 되 면 데이터 구문 분석, 구문 분석 된 데이터는 데이터 디렉터리에 'pubmed.json' 라는 파일에 저장 된 확인 하십시오. 구문 분석 된 데이터의 샘플은 그림 3.
  5. '로그' 디렉토리를 구문 분석 프로세스가 실패 하는 경우에 'parsing_log.txt'에서 로그 메시지를 읽을로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에 메시지를 밖으로 인쇄 됩니다.

4. 메쉬 PMID 매핑

  1. 구문 분석 된 데이터 ('pubmed.json')는 '데이터' 디렉터리에서 사용할 수 있는지 확인 합니다.
  2. 메쉬 PMID 매핑을 수행 하는 터미널에서 'python run_mesh2pmid.py'를 입력 합니다. 이 메시의 각 관련된 PMIDs를 수집 매핑 테이블을 만듭니다. 단일 PMID 여러 메쉬 용어 속하는 수 있습니다.
  3. 매핑이 완료 되 면, 데이터 디렉토리에 'mesh2pmid.json'는 확인 하십시오. 상위 20 매핑 통계의 샘플은 표 2, 그림 4 5에서 사용할 수 있습니다.
  4. 이 프로세스가 실패 하는 경우에 'mesh2pmid_mapping_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우이 로그 파일에 매핑 디버깅 메시지 밖으로 인쇄 됩니다.

5. 문서 인덱싱

  1. Https://www.elastic.co에서 Elasticsearch 응용 프로그램을 다운로드. 현재, 다운로드는 (https://www.elastic.co/downloads/elasticsearch)에 있다. 원격 구름에 소프트웨어를 다운로드 하려면 터미널을 사용 하 여 'wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz'을 입력 합니다. 위의 명령에서 'x.x.x' 올바른 버전 번호로 대체 됩니다 있는지 확인 합니다.
  2. 다운로드 한 'elasticsearch x.x.x.tar.gz' 파일을 루트 디렉터리에 표시 되었는지 확인 한 후 입력 하 여 파일을 추출 '타르 xvzf elasticsearch-x.x.x.tar.gz' 터미널 창에서.
  3. 새로운 터미널을 열고 루트 디렉터리에서 터미널에서 'cd Elasticsearch/빈'을 입력 하 여 ElasticSearch bin 디렉터리에 이동.
  4. 입력 하 여 Elasticsearch 서버를 시작 '. / Elasticsearch' 터미널 창에서. 서버 오류 메시지 없이 시작 되 다는 것을 확인 하십시오. Elasticsearch 서버를 시작 하는 오류 시 (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html)에서 지침을 따릅니다.
  5. 'index_init_config.json' 색인 시작을 설정 하려면 '설정' 디렉토리에 있는 내용을 수정 합니다. 기본적으로 그것은 존재 하는 모든 항목을 선택 합니다.
  6. Elasticsearch 서버에서 색인 데이터베이스를 시작 하려면 터미널에서 'python run_index_init.py'를 입력 합니다. 이 인덱스 정보 (예를 들어, 인덱스 이름, 유형 이름, 파편, 복제본 수 수)로 알려진 조건 집합으로 인덱스를 초기화 합니다. 당신은 인덱스가 만들어집니다 성공적으로 언급 하는 메시지가 표시 됩니다.
  7. 그들의 값을 'true'로 설정 하 여는 'index_populate_config.json' 'config' 디렉터리에 있는 항목을 선택 합니다. 기본적으로 그것은 존재 하는 모든 항목을 선택 합니다.
  8. 구문 분석 된 데이터 ('pubmed.json')는 '데이터' 디렉터리에 있는지 확인 합니다.
  9. 두 구성 요소와 데이터를 대량으로 생성 하 여 인덱스를 채우는 데 터미널에서 'python run_index_populate.py'를 입력 합니다. 첫 번째 구성 요소는 메타 데이터에 대 한 정보는 인덱스 이름, 유형 이름, 대량 id (예: 'PMID')를 사용 하 여 사전. A 두 번째 구성 요소는 태그 (예: '제목', '추상', '메시')에 대 한 모든 정보를 포함 하는 데이터 사전.
  10. 이 프로세스가 실패 하는 경우에 'indexing_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에는 색인의 디버깅 메시지 밖으로 인쇄 됩니다.

6. 텍스트 큐브 만들기

  1. 최신 메쉬 트리 (https://www.nlm.nih.gov/mesh/filelist.html)에서 다운로드 합니다. 현재 버전의 코드 입력된 디렉토리에 'meshtree2018.bin'로 트리 2018 메쉬를 사용 하는.
  2. (예를 들어, 질병 이름, 연령 그룹, 성별)의 범주를 정의 합니다. 범주는 하나 이상의 메쉬 설명자 (https://meshb-prev.nlm.nih.gov/treeView)를 포함할 수 있습니다. 범주에 대 한 메시 Id를 수집 합니다. Config 디렉토리 ('textcube_config.json' 파일의 다운로드 한 버전에 '연령 그룹' 카테고리의 샘플 참조)에서 'textcube_config.json' 파일의 카테고리의 이름을 저장 합니다.
  3. 공백으로 구분 하 여 라인에 메시 Id의 수집된 카테고리를 넣어. '입력된' 디렉토리 (' 연령 그룹 ' 메시 Id 'categories.txt' 파일의 다운로드 한 버전의 샘플 참조)에서 'categories.txt'으로 범주 파일을 저장 합니다. 이 알고리즘은 자동으로 모든 하위 메쉬 설명자를 선택합니다. 루트 노드 및 하위 항목의 예에 제시는 그림 4.
  4. 'Mesh2pmid.json' '데이터' 디렉터리에 있는지 확인 합니다. 메쉬 트리를 '입력된' 디렉토리에 다른 이름 (예: 'meashtree2019.bin')으로 업데이트 하는 경우이 제대로 'run_textube.py' 파일에서 입력된 데이터 경로에 표시 됩니다 있는지 확인 합니다.
  5. 텍스트 큐브 라는 문서 데이터 구조를 만드는 터미널에서 'python run_textcube.py'를 입력 합니다. 이 각 범주에 대 한 문서 (PMIDs)의 컬렉션을 만듭니다. 단일 문서 (PMID) 여러 범주에 속하는 수 있습니다 (참조 표 3A, 3B 테이블, 그림 6A 그림 7A).
  6. 텍스트 큐브 만들기 단계 완료 되 면, 다음과 같은 데이터 파일 '데이터' 디렉터리에 저장 됩니다 확인: (1)는 셀 PMID 테이블 "textcube_cell2pmid.json", "textcube_pmid2cell.json"로 셀 매핑 테이블 (2) PMID로 (3) "textcube_stat.txt"로 "meshterms_per_cat.json" (4) 텍스트 큐브 데이터 통계의 셀에 대 한 모든 하위 메쉬 조건 컬렉션입니다.
  7. 이 프로세스가 실패 하는 경우에 'textcube_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에 텍스트 큐브 창조의 메시지를 밖으로 인쇄 됩니다.

7. 엔터티 수

  1. 사용자 정의 된 엔터티 (예: 단백질 이름, 유전자, 화학 물질)을 만듭니다. 구분 하 여 한 줄에 하나의 엔터티 및 그것의 약어를 넣어 "|". '입력된' 디렉토리에 'entities.txt'으로 엔터티 파일을 저장 합니다. 엔터티의 샘플에서 찾을 수 있습니다 표 4.
  2. Elasticsearch 서버 실행 되 고 있는지 확인 합니다. 그렇지 않으면, 5.2 및 5.3 Elasticsearch 서버를 다시 시작 하는 단계로 이동 합니다. 그것는 인덱싱된 데이터베이스 'pubmed' 5 단계에서 설립 되었다 Elasticsearch 서버에서 것으로 예상 된다.
  3. 'Textcube_pmid2cell.json' '데이터' 디렉터리에 있는지 확인 합니다.
  4. 엔터티 수 작업을 수행 하려면 터미널에서 'python run_entitycount.py'를 입력 합니다. 이 인덱싱된 데이터베이스에서 문서를 검색 하 고 각 문서에서 엔터티를 계산 뿐만 아니라 엔터티 발견 된 PMIDs를 수집.
  5. 엔터티 수 완료 되 면 최종 결과 'entitycount.txt'로 저장 됩니다 있는지 확인 하 고 'entityfound_pmid2cell.json' '데이터' 디렉토리에.
  6. 이 프로세스가 실패 하는 경우에 'entitycount_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에 디버깅 메시지 엔터티 수의 밖으로 인쇄 됩니다.

8. 메타 데이터 업데이트

  1. ('Entitycount.txt', 'textcube_pmid2cell.json', 'entityfound_pmid2cell.txt')으로 모든 입력된 데이터는 '데이터' 디렉터리에 있는지 확인 합니다. 이들은 메타 데이터 업데이트에 대 한 입력된 데이터입니다.
  2. 메타 데이터를 업데이트 하려면 터미널에서 'python run_metadata_update.py'를 입력 합니다. 메타 데이터 (예: 셀 이름, 연결된 망, PMIDs)의 컬렉션을 준비 하는이 대표 하는 셀에 각 텍스트 문서. 표 3A 에서 텍스트 큐브 메타 데이터의 샘플을 제시 하 고 테이블 3B.
  3. 메타 데이터 업데이트 완료 되 면 'metadata_pmid2pcount.json' 및 'metadata_cell2pmid.json' 파일 '데이터' 디렉터리에 저장 됩니다 확인 하십시오.
  4. 이 프로세스가 실패 하는 경우에 'metadata_update_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에서 메타 데이터 업데이트의 디버깅 메시지 밖으로 인쇄 됩니다.

9. CaseOLAP 점수 계산

  1. 'Metadata_pmid2pcount.json' 및 'metadata_cell2pmid.json' 파일 '데이터' 디렉터리에 있는지 확인 합니다. 이들은 점수 계산을 위한 입력된 데이터입니다.
  2. CaseOLAP 점수 계산을 수행 하기 위해 터미널에서 'python run_caseolap_score.py'를 입력 합니다. 이 사용자 정의 범주에 따라 엔터티의 CaseOLAP 점수를 계산 합니다. CaseOLAP 점수는 무결성, 인기특수성의 제품입니다.
  3. 점수 계산 완료 되 면,이 '결과' 디렉터리에서 여러 파일 (예: 'pop.csv', 'dist.csv', 'caseolap.csv'으로 CaseOLAP 점수도 특수성으로 인기), 결과 저장 하 고 있는지 확인 합니다. CaseOLAP 점수 계산 요약 표 5에 또한 제공 됩니다.
  4. 이 프로세스가 실패 하는 경우에 'caseolap_score_log.txt'에서 로그 메시지를 읽고 '로그' 디렉터리로 이동 합니다. 프로세스가 성공적으로 완료 하는 경우 로그 파일에서 CaseOLAP 점수 계산의 디버깅 메시지 밖으로 인쇄 됩니다.

Representative Results

샘플 결과 생성 하려면 우리는 두 개의 주제 제목/설명에 CaseOLAP 알고리즘을 구현: "나이 그룹" 및 "영양 및 대사 질환" 사용 하는 경우.

연령 그룹. 우리는 텍스트 큐브의 셀에에서로 "나이 그룹" (유아, 어린이, 청소년, 그리고 성인)의 모든 4 하위 범주를 선택. 가져온된 메타 데이터와 통계 표 3A에 표시 됩니다. 텍스트 큐브 셀 간에 문서 수의 비교 그림 6A에 표시 됩니다. 성인 모든 셀에서 가장 높은 번호는 172,394 문서를 포함 되어 있습니다. 성인 및 청소년 하위 공유 문서 (26,858 문서)의 가장 높은 숫자가 있다. 특히, 이러한 문서는 우리의 관심만 (즉, 미토 콘 드리 아 단백질)의 엔터티를 포함. 그림 6B 에 벤 다이어그램 각 셀 내에서 여러 중복 셀 중에서 발견 되는 엔터티 (즉, 미토 콘 드리 아 단백질)의 수를 나타냅니다. 모든 연령 그룹 하위 범주 내에서 공유 하는 단백질의 수는 162. 성인 하위 독특한 단백질 (151) 아동 (16), 유아 (8) 및 청소년 (1) 다음의 높은 수를 보여 줍니다. 우리는 단백질-연령 그룹 협회 CaseOLAP 점수 계산. 유아, 어린이, 청소년 및 성인 하위 범주와 관련 된 (그들의 평균 CaseOLAP 점수 기준) 상위 10 단백질은 Sterol 26-hydroxylase, 알파 crystallin B 체인, 25-hydroxyvitamin D-1 알파-hydroxylase, Serotransferrin, 구 연산 염 synthase, L-seryl-tRNA, 나트륨/칼륨 수송 ATPase 알파 3 소 단위, 티 S-전이 효소 오메가-1, NADPH: adrenodoxin oxidoreductase 및 미토 콘 드리 아 펩 티 드 메티오닌 sulfoxide reductase ( 그림 6 c참조). 성인 하위 범주는 청소년, 어린이 및 유아 하위, 상위 10 미토 콘 드리 아 단백질 성인 하위 범주에 강한 협회 전시 나타내는 heatmap 셀에 비해 높은 강도 가진 10 heatmap 셀을 표시 합니다. 미토 콘 드리 아 단백질 Sterol 26-hydroxylase 다른 9 미토 콘 드리 아 단백질의 heatmap 세포에 비해 더 높은 농도와 heatmap 세포에 의해 증명 되는 모든 나이 하위 범주에 높은 협회 있다. 절대 차이 점수에 두 그룹의 통계 분포는 99% 신뢰 구간으로 평균 차이 대 한 다음과 같은 범위를 보여준다: 'ADLT' 및 'INFT' 사이의 평균 차이 (1) 범위 (0.042에 0.029), (2) 평균에에서 있다 범위 (0.030에 0.021), (3)에서 'ADLT' 및 'CHLD' 거짓말 'ADLT' 사이의 평균 차이 차이 고 'ADOL' 범위 (0.029 하 0.020), (4)에 범위 (0.022로 0.015), (5)에 'ADOL' 및 'INFT' 거짓말의 의미 차이 평균 차이 'ADOL'와 'CHLD' 사이 범위 (0.007에 0.010) (6)에 있다 (0.011 0.016) 범위에서 'CHLD' 및 'INFT' 거짓말의 의미 차이.

영양 및 대사 질환. 우리는 "영양 및 대사 질환의" (즉, 신진 대사 질환과 영양 장애) 텍스트 큐브에서 2 셀을 만드는 데 2 하위 범주를 선택. 가져온된 메타 데이터와 통계 표 3B에 표시 됩니다. 텍스트 큐브 셀 간에 문서 수의 비교 그림 7A에 표시 됩니다. 하위 범주 신진 대사 질환 영양 장애에 19,181 문서 다음 54,762 문서를 포함 되어 있습니다. 하위 신진 대사 질환과 영양 장애는 7,101 공유 문서. 특히, 이러한 문서는 우리의 관심만 (즉, 미토 콘 드리 아 단백질)의 엔터티를 포함. 그림 7B 의 벤 다이어그램 각 셀 내에서 여러 개의 중복 셀 사이 발견 되는 엔터티의 수를 나타냅니다. 우리는 단백질-"영양 및 대사 질환"으로 협회 CaseOLAP 점수를 계산합니다. 이 사용 사례와 관련 된 (그들의 평균 CaseOLAP 점수 기준) 상위 10 단백질은 Sterol 26-hydroxylase, 알파 crystallin B L-seryl-tRNA, 구 연산 염 synthase, tRNA pseudouridine synthase A, 25-hydroxyvitamin D-1 알파-hydroxylase, 체인 NADPH 오메가 1 티 S-전이 효소: adrenodoxin oxidoreductase, 미토 콘 드리 아 펩 티 드 메티오닌 sulfoxide 환 원 효소, 플라스 미노 겐 활성 제 억제 물 ( 그림 ℃표시) 1. 절반 이상 (54%) 모든 단백질의 하위 대사 질환 및 영양 장애 (397 단백질) 간에 공유 됩니다. 흥미롭게도, 거의 절반 (43%) 신진 대사 질환 하위 범주에 관련 된 모든 단백질의 고유 (300 단백질)는 반면 영양 장애 전시만 몇 가지 독특한 단백질 (35). 알파 crystallin B 체인 하위 대사 질환에 강한 협회를 표시합니다. Sterol 26-hydroxylase, 미토 콘 드 리아이 미토 콘 드리 아 단백질 영양 장애를 설명 하는 연구에서 관련성이 높은 나타내는 영양 장애 하위 범주의 강한 협회를 표시 합니다. 절대 차이의 점수에 두 그룹 '사용' 및 'NTD' 통계 분포는 99% 신뢰 구간으로 평균 차이 대 한 범위 (0.046 0.061)을 보여 줍니다.

Figure 1
그림 1입니다. CaseOLAP 워크플로 동적 보기 이 그림 CaseOLAP에 5 중요 한 단계를 나타냅니다. 1 단계에서는 워크플로 다운로드 및 (PubMed)에서 예를 들어, 텍스트 문서를 추출 하 여 시작 합니다. 단계 2, 추출 된 데이터 PMID 매핑 망상으로 각 문서에 대 한 데이터 사전 만드는 구문 분석 됩니다. 3 단계에서 데이터 인덱싱 신속 하 고 효율적인 엔터티 검색을 촉진 하기 위해 수행 됩니다. 4 단계에서 사용자가 제공한 카테고리 정보 (예:., 각 셀에 대 한 루트 메쉬)의 구현 텍스트 큐브를 구성 하 실행 된다. 5 단계에서 엔터티 수 작업 인덱스 데이터 계산 CaseOLAP 점수를 통해 구현 됩니다. 이 단계는 공공 데이터베이스 (예를 들어, PubMed)에서 사용할 수 있는 최신 정보 시스템을 업데이트 하는 반복적인 방식으로 반복 된다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 2
그림 2입니다. CaseOLAP 워크플로의 기술 아키텍처입니다. 이 그림 CaseOLAP 워크플로의 기술적인 세부 정보를 나타냅니다. PubMed 리포지토리에서 데이터 PubMed FTP 서버에서 얻을 수 있습니다. 사용자 그들의 장치를 통해 클라우드 서버 (예를 들어, AWS 연결)에 연결 하 고 다운로드 하 고 구름에 로컬 저장소에 데이터를 추출 다운로드 파이프라인을 만듭니다. 추출 된 데이터는 구조화, 검증, 고 데이터 구문 분석 파이프라인으로 적절 한 형식으로 가져온. 동시에, 메쉬 PMID 매핑 테이블을 텍스트 큐브 건설에 사용 되는 구문 분석 단계 동안 만들어집니다. 구문 분석 된 데이터는 키-값 사전 형식 문서 메타 데이터 (예를 들어, PMID, 메쉬, 출판 년)와 같은 JSON으로 저장 됩니다. 인덱싱 단계 더 대량 데이터를 처리 하는 Elasticsearch를 구현 하 여 데이터를 향상 시킵니다. 다음, 텍스트 큐브 PMID 매핑 메쉬를 구현 하 여 사용자 정의 범주가 만들어집니다. 텍스트 큐브 형성 및 인덱싱 단계 완료 되 면 엔터티 수를 실시 합니다. 엔터티 수 데이터는 텍스트 큐브 메타 데이터에 구현 됩니다. 마지막으로, CaseOLAP 점수 기본 텍스트 큐브 구조에 따라 계산 됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 3
그림 3입니다. 구문 분석 된 문서의 예제입니다. 구문 분석 된 데이터의 샘플은이 그림에 표시 됩니다. 구문 분석 된 데이터는 인덱싱 및 문서 메타 데이터 생성와 호환이 되는 키-값 쌍으로 정렬 됩니다. 이 그림에서 PMID (예를 들어, "25896987")는 키로 제공 되며 컬렉션 관련된 정보 (예: 제목, 저널, 게시 날짜, 요약, 메쉬, 물질, 부서 및 위치)의 값으로. 같은 문서 메타 데이터의 첫 번째 응용 프로그램은 PMID 메시의 건설 매핑 (그림 5표 2)는 나중에 구현 텍스트 큐브를 생성 하 고 사용자 제공 엔터티 CaseOLAP 점수를 계산 하는 카테고리입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 4
그림 4입니다. 메쉬 트리 샘플입니다. '연령 그룹 메쉬 트리는 NIH 데이터베이스에서 사용할 수 있는 트리 데이터 구조에서 적응 (메쉬 트리 2018, < https://meshb.nlm.nih.gov/treeView>). 메쉬 설명자 그들의 노드 Id (명 [M01], 연령 그룹 [M01.060], 청소년 [M01.060.057], 성인 [M01.060.116], [M01.060.406] 아이, 유아 [M01.060.703]) 특정 메시 설명자 ( 에 관련 문서를 수집 하는 구현 되는 표 3A). 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 5
그림 5입니다. 연령 그룹에서 PMID 매핑 메쉬. 이 그림 "나이 그룹" 거품 플롯으로 메쉬 설명자에서 수집 된 텍스트 문서 (각각는 PMID와 연결) 수를 선물 한다. PMID 매핑 메쉬 메쉬 설명자에서 수집 된 문서의 정확한 숫자를 제공 하기 위해 생성 됩니다. 3,062,143 고유 문서 총 수 18 하위 메쉬 설명자 ( 표 2참조)에서 수집 된. 높은 PMIDs의 수에서 특정 메시 설명자, 큰 메쉬 설명자를 나타내는 거품의 반경 선택. 예를 들어, 문서 수가 가장 메쉬 설명자 "성인"에서 모았다 (1,786,371 문서), 텍스트 문서 수가 가장 적은 메쉬 설명자 "유아, Postmature"에서 수집 된 반면 (62 문서).
PMID 매핑 메시의 추가 예제는 "영양 및 대사 질환" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html)에 대 한 주어 집니다. 총 422,039 고유 문서 수는 361 하위 메쉬 설명자 "영양 및 대사 질환"에서 수집 했다. 문서 수가 가장 메쉬 설명자 "비만"에서 수집 된 (77,881 문서) 다음 "당뇨병 Mellitus, 입력 2" (61,901 문서), 반면 "글 리 코겐 저장 질병, 8 세 입력" 문서 1 (문서 수가 가장 적은 전시 ). 관련된 테이블은 또한 사용할 수 온라인 (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv)에서. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 6
그림 6입니다. "나이 그룹" 사용 케이스로. 이 그림 선물 CaseOLAP 플랫폼의 사용 사례에서 결과. 이 경우에, 단백질 이름 및 그들의 약어 ( 표 4에 있는 샘플 참조) 엔터티 및 "나이 그룹" 셀을 포함 하 여 구현 됩니다: 유아 (INFT), 아이 (CHLD), 청소년 (ADOL), 및 성인 (ADLT) 하위 (참조로 구현 됩니다 표 3A)입니다. (A) 의 "나이 그룹" 문서 번호: 이 열 지도 (대 한 자세한 내용은 텍스트 큐브 생성 참조 프로토콜 4 및 표 3A) 문서 분산 "세 그룹"의 셀 수를 보여 줍니다. 문서의 높은 숫자는 heatmap의 어두운 강도 함께 제공 됩니다 (배율 참조) 셀. 단일 문서 하나 이상의 셀에 포함 될 수 있습니다. heatmap 셀 대각선 위치에 따라 내 문서 수를 선물 한다 (예: ADLT 포함 172,394 문서 모든 셀에서 가장 높은 숫자입니다). Nondiagonal 위치 떨어지는 2 개의 셀 (예: ADLT ADOL 있고 26,858 공유 문서) 문서 수를 나타냅니다. (B) . "나이 그룹" 엔터티 개수: 벤 다이어그램 "나이 그룹" (INFT, CHLD, ADOL, 및 ADLT)을 나타내는 네 개의 셀에 있는 단백질의 수를 나타냅니다. 모든 세포 내에서 공유 하는 단백질의 수는 162. 연령 그룹 ADLT CHLD (16), INFT (8) 및 ADOL (1) 독특한 단백질 (151)의 가장 높은 번호를 보여 줍니다. (C) "나이 그룹" CaseOLAP 점수 프레 젠 테이 션: 각 그룹에서 가장 높은 평균 CaseOLAP 점수 상위 10 단백질 열 지도에 표시 됩니다. 높은 CaseOLAP 점수는 heatmap의 어두운 강도 함께 제공 됩니다 (배율 참조) 셀. 단백질 이름 왼쪽된 열에 표시 되 고 셀 (INFT, CHLD, ADOL ADLT) x 축을 따라 표시 됩니다. 어떤 단백질 표시 (예, Sterol 26-hydroxylase, 알파 crystallin B 체인 및 L-seryl-tRNA 나트륨/칼륨 수송 ATPase 소 단위 알파-3는는 강한 반면 ADLT, 강한 연결을가지고 특정 연령 그룹에 강한 협회 와 INFT). 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 7
그림 7입니다. "영양 및 대사 질환"으로 사용 사례: 이 그림 선물 CaseOLAP 플랫폼의 또 다른 사용 사례에서 결과. 이 경우에, 단백질 이름 및 그들의 약어 ( 표 4에서 샘플 참조) 엔터티 및 "영양 및 대사 질환" 두 개의 셀을 포함 하 여 구현 됩니다: 대사 질환 (MBD)과 영양 장애 (NTD)로 구현 됩니다 하위 ( 테이블 3B참조)입니다. (A). 의 "영양 및 대사 질환" 문서 번호: 이 heatmap (프로토콜 4 및 테이블 3B 참조 하는 텍스트 큐브 생성에 대 한 "영양 및 대사 질환"의 셀에 텍스트 문서 수를 보여 줍니다. ). 문서의 높은 숫자는 heatmap의 어두운 강도 함께 제공 됩니다 (배율 참조) 셀. 단일 문서 하나 이상의 셀에 포함 될 수 있습니다. 히트 맵 대각선 위치에 따라 셀 내 총 문서 수를 선물 한다 (예를 들어, MBD 포함 54,762 문서는 두 개의 셀에 걸쳐 최고입니다). Nondiagonal 위치 (예: MBD와 NTD는 7,101 공유 문서) 두 개의 셀에 의해 공유 하는 문서 수를 나타냅니다. (B). "영양 및 대사 질환"에 엔터티 개수: 벤 다이어그램 "영양 및 대사 질환" (MBD와 NTD)를 대표 하는 두 개의 셀에 있는 단백질의 수를 나타냅니다. 두 개의 셀 내에서 공유 하는 단백질의 수는 397. MBD 셀 묘사 300 독특한 단백질, 그리고 NTD 셀 묘사 35 독특한 단백질. (C). "영양 및 대사 질환"에 CaseOLAP 점수 프레 젠 테이 션: "영양 및 대사 질환"에 가장 높은 평균 CaseOLAP 점수 상위 10 단백질 열 지도에 표시 됩니다. 높은 CaseOLAP 점수는 heatmap의 어두운 강도 함께 제공 됩니다 (배율 참조) 셀. 단백질 이름 왼쪽된 열에 표시 되 고 셀 (MBD와 NTD) x 축을 따라 표시 됩니다. 어떤 단백질 특정 질병 종류에 강한 협회를 표시 (예, 알파 crystallin B 체인은 신진 대사 질환과 높은 협회 및 sterol 26-hydroxylase는는 높은 영양 장애). 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

시간 (총 시간의 백분율) CaseOLAP 플랫폼의 단계 알고리즘 및 데이터 구조 CaseOLAP 플랫폼의 복잡 한 알고리즘 및 데이터 구조 단계의 세부 사항
40% 다운로드 및
구문 분석
반복 및 알고리즘 구문 분석 트리 중첩된 루프와 상수 곱셈 반복: O(n^2), O (로그 n). 여기서 ' n '은 반복의. 여러 개의 파일 다운로드 파이프라인 각 절차를 반복합니다. 단일 문서의 구문 분석 원시 XML 데이터의 트리 구조를 통해 각 프로시저를 실행 합니다.
30% 인덱싱, 검색 및 텍스트 큐브 만들기 반복, 검색 알고리즘 (정렬, Lucene 색인, 우선순위 큐, 유한 상태 기계, 해킹, regex 쿼리 twiddling 비트) Elasticsearch에 의해 Elasticsearch (https://www.elastic.co/)에 관련 된 복잡성 문서 사전 데이터를 통해 반복 프로세스를 구현 하 여 인덱싱됩니다. 텍스트 큐브 생성 문서 메타-데이터 및 사용자가 제공한 카테고리 정보를 구현합니다.
30% 엔터티 계산 및 CaseOLAP 계산 무결성, 인기, 특수성 계산에서 반복 O (1), O(n^2), 여러 복잡 한 caseOLAP 반복 형식에 따라 점수 계산에 관련 된. 엔터티 수 작업 문서 나열 하 고 count 작업 목록을 확인. 엔터티 수 데이터는 CaseOLAP 점수를 계산 하는 데 사용 됩니다.

표 1입니다. 알고리즘 및 복잡성 이 테이블 절차에 소요 시간 (총 시간 백분율)에 대 한 정보를 제공 (예:, 다운로드, 구문 분석), 데이터 구조 및 CaseOLAP 플랫폼에 구현 된 알고리즘에 대 한 세부 정보. CaseOLAP 전문 색인 및 Elasticsearch 라는 검색 응용 프로그램을 구현 합니다. 복잡 한 Elasticsearch 및 내부 알고리즘에 관련 된 추가 정보 (https://www.elastic.co)에서 찾을 수 있습니다.

메쉬 설명자 PMIDs 수집의 수
성인 1,786,371
중간 세 1,661,882
1,198,778
사춘기 706,429
젊은 성인 486,259
아이 480,218
세, 80 및 이상 453,348
어린이, 유아 285,183
유아 218,242
유아, 신생아 160,702
유아, 조 17,701
유아, 낮은 출생 무게 5,707
연약한 노인 4,811
유아, 아주 낮은 출생 무게 4,458
유아, 임신 중인 나이 대 한 작은 3,168
유아, 매우 조 1,171
유아, 매우 낮은 출생 무게 1,003
유아, Postmature 62

표 2입니다. PMID 매핑 통계 메쉬. 이 테이블 "나이 그룹" 및 수집된 PMIDs (텍스트 문서)의 그들의 수에서 모든 하위 메쉬 설명자를 선물 한다. 이러한 통계의 시각화는 그림 5에 표시 됩니다.

A 유아 (INFT) 어린이 (CHLD) 사춘기 (ADOL) 성인 (ADLT)
메쉬 루트 ID M01.060.703 M01.060.406 M01.060.057 M01.060.116
하위 메쉬 설명자의 수 9 2 1 6
PMIDs 선택의 수 16,466 26,907 35,158 172,394
엔터티를 찾을 수 233 297 257 443
B 변화 질병 (MBD) 영양 장애 (NTD)
메쉬 루트 ID C18.452 C18.654
하위 메시의 수
설명자
308 53
PMIDs 수집된의 수 54,762 19,181
엔터티를 찾을 수 697 432

테이블 3입니다. 텍스트 큐브 메타 데이터입니다. 텍스트 큐브 메타 데이터에 대 한 테이블 형식 보기 제공 됩니다. 테이블 범주에 대 한 정보를 제공 하 고 메쉬 설명자 뿌리 및 각 셀에 문서 수집을 구현 하는 하위 항목. 테이블은 또한 수집 된 문서 및 단체의 통계를 제공합니다. (A) "나이 그룹": 이것은 "나이 그룹" 등 유아 (INFT), 아이 (CHLD), 청소년 (ADOL), 성인 (ADLT)의 테이블 형식 표시 및 그들의 메쉬 루트 Id, 하위 메쉬 설명자, 선택한 PMIDs의 수 및 수의 숫자 엔터티를 발견. (B) "영양 및 대사 질환": 이것은 "영양 및 대사 질환" 대사 질병 (MBD) 등 그들의 메쉬 루트 Id, 하위 메쉬 설명자의 수 수와 영양 장애 (NTD)의 테이블 형식 표시 선택 된 PMIDs 그리고 발견된 엔터티 수입니다.

단백질 이름 및 동의어 약어
N-acetylglutamate synthase, 미토 콘 드리 아, 아미노산 acetyltransferase, N-acetylglutamate synthase 긴 형태; N-acetylglutamate synthase 약식; N-acetylglutamate synthase 도메인 형태 보존] (EC 2.3.1.1)
단백질/핵 산 deglycase DJ-1 (Maillard deglycase) (Oncogene DJ1) (파 킨 슨 질병 단백질 7) (Parkinsonism 관련 deglycase) (단백질 DJ-1) (EC 3.1.2.-) (EC 3.5.1.-) EC (3.5.1.124) (DJ-1)
Pyruvate carboxylase, 미토 콘 드리 아 (Pyruvic carboxylase) (EC 6.4.1.1) (PCB)
Bcl-2-바인딩 구성 요소 3 (p53 위로 변조기 apoptosis) (JFY-1)
BH3 상호 작용 도메인 죽음 주 작동 근 [BH3 상호 작용 도메인 죽음 주 작동 근 p15 (p15 입찰); BH3 상호 작용 도메인 죽음 주 작동 근 p13; BH3 상호 작용 도메인 죽음 주 작동 근 p11] (p22 입찰) (입찰) (p13 입찰) (p11 입찰)
ATP synthase 소 단위 알파, 미토 콘 드리 아 (ATP synthase F1 소 단위 알파)
시 토 크롬 P450 11B2, 미토 콘 드리 아 (호르몬 synthase) (호르몬을 합성 효소) (CYPXIB2) (시 토 크롬 P-450Aldo) (시 토 크롬 P-450_C_18) (스테로이드 18-hydroxylase) (ALDOS) EC (1.14.15.4) EC (1.14.15.5)
60 kDa 열 충격 단백질, 미토 콘 드리 아 (60 kDa chaperonin) (Chaperonin 60) (CPN60) (열 충격 단백질 60) (미토 콘 드 리아 매트릭스 단백질 P1) (P60 림프 구 단백질) (HSP-60) (Hsp60) (HuCHA60) EC (3.6.4.9)
Caspase-4 (얼음과 Ced-3 체 2) (Protease TX) [로 죽 습: Caspase-4 소 단위 1; Caspase-4 소 단위 2] (CASP-4) EC (3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1)

표 4입니다. 엔터티 테이블 샘플. 이 테이블 선물 우리의 두 사용 사례에서 구현 된 엔터티 샘플: "나이 그룹" 및 "영양 및 대사 질환" (그림 6 , 그림 7, 표 3A,B). 엔터티는 단백질 이름, 동의어 및 약어를 포함합니다. 각 엔터티 (와 그것의 동의어 및 약어) 선택한 하나 이며 (프로토콜 3, 5 참조) 인덱싱된 데이터 엔터티 검색 작업을 통해 전달 됩니다. 검색 추가 엔터티 개수 작업을 용이 하 게 문서의 목록을 생성 합니다.

수량 사용자 정의 계산 수량의 방정식 수량의 의미
무결성 아니요 사용자의 무결성 정의 엔터티 1.0으로 간주 됩니다. 의미 있는 문구를 나타냅니다. 그것은 이미 설립된 문구 때 숫자 값은 1.0입니다.
인기 아니요 참조 5에서에서 그림 1 (워크플로 및 알고리즘)에서 인기 방정식, '재료와 방법' 섹션. 셀 내에 어구의 기간 주파수를 기반으로 합니다. 셀의 총 기간 주파수에 의해 정규화 됩니다. 기간 주파수에 증가 결과 감소.
특수성 아니요 참조 5에서에서 그림 1 (워크플로 및 알고리즘) 특수성 방정식, '재료와 방법' 섹션. 기간 주파수 및 셀 내에서 그리고 이웃 셀에 걸쳐 문서 주파수를 기반으로 합니다. 총 기간 주파수 및 문서 주파수에 의해 정규화 됩니다. 양적, 그것은 확률 문구 특정 셀에서 유일 하다입니다.
CaseOLAP 점수 아니요 CaseOLAP 점수 방정식 참조 5에서에서 그림 1 (워크플로 및 알고리즘), '재료와 방법' 섹션. 무결성, 인기, 및 특수성을 기반으로 합니다. 숫자 값은 항상 0 ~ 1 내 폭포. CaseOLAP 점수 문구 카테고리 협회를 대표 하는 양적

표 5입니다. CaseOLAP 방정식: The CaseOLAP 알고리즘 20161Fangbo Tao Jiawei 한 외에 의해 개발 되었다. 간단히,이 테이블 선물 세 가지 구성 요소로 구성 된 CaseOLAP 점수 계산: 무결성, 인기, 및 특수성, 그리고 그들의 관련 된 수학적 의미. 우리의 사용 사례에서 단백질에 대 한 무결성 점수는 1.0 (최대 점수) 그들은 설립된 엔터티 이름으로 서 있기 때문에. 그림 6 c그림 ℃에서 사용 하는 경우에 CaseOLAP 점수를 볼 수 있습니다.

Discussion

우리는 CaseOLAP 알고리즘 의미 있는 통찰력의 추출에 대 한 텍스트 데이터의 큰 볼륨에 지식 기반 범주를 기반으로 하는 문구 양적 협회를 만들 수 있습니다 설명 했다. 우리의 프로토콜에 따라 하나를 원하는 텍스트 큐브를 만들고 엔터티 카테고리 협회 CaseOLAP 점수 계산을 통해 계량 CaseOLAP 프레임 워크를 구축할 수 있습니다. 얻은 원시 CaseOLAP 점수 차원 감소, 클러스터링, 문서 의미 매핑 수 있는 그래픽 데이터베이스의 창조 뿐 아니라 시간적, 지리적 분석을 포함 한 통합 분석을 취할 수 있습니다.

알고리즘의 적용. 단백질, 이외의 사용자 정의 엔터티에 유전자 이름, 약물, 특정 징후와 그들의 약어 및 동의어를 포함 하 여 증상의 목록을 수 있습니다. 또한, 카테고리 선택 특정 사용자 정의 생물 의학 분석 (예를 들어, 해부학 [A], 분야와 직업 [H], 현상 및 프로세스 [G])을 촉진 하기 위한 많은 선택이 있다. 우리의 2에서 사용 하는 경우, 모든 과학적인 간행물 및 그들의 텍스트 데이터 검색 엔진으로 PubMed를 사용 하 여 MEDLINE 데이터베이스에서 검색 됩니다, 그리고 둘 다 약의 국립 도서관에 의해 관리. 그러나, CaseOLAP 플랫폼 텍스트 데이터 등은 FDA 불리 한 이벤트 보고 시스템 (FAERS) 생물 의학 문서를 포함 하는 관심의 다른 데이터베이스에 적용할 수 있습니다. 이것은 의료 부작용 및 약물 오류 보고서 FDA에 제출에 대 한 정보를 포함 하는 데이터베이스입니다. MEDLINE 및 FAERS, 달리 병원 환자에서 전자 건강 기록에 포함 된 데이터베이스는 공중에 게 열지 고 건강 보험 이식성 및 책임 Act HIPAA로 알려진에 의해 제한 됩니다.

CaseOLAP 알고리즘을 성공적으로 다양 한 유형의 데이터 (예를 들어, 뉴스 기사)1. 에 적용 된 20185생물 의학 문서에서이 알고리즘의 구현이 했다. CaseOLAP 알고리즘의 적용 가능성에 대 한 요구 사항 문서의 각 개념 (예를 들어, 생물 의학 간행물에 메쉬 설명자, 뉴스 기사에 키워드)와 관련 된 키워드를 할당 한다 이다. 키워드, 찾을 수 없는 경우 하나 Autophrase6,7 최고 대표 문구를 수집 하 고 우리의 프로토콜을 구현 하기 전에 엔터티 목록 구축에 적용할 수 있습니다. 우리의 프로토콜 Autophrase를 수행 하는 단계를 제공 하지 않습니다.

다른 알고리즘 비교. 데이터 큐브8,,910 를 사용 하 여 텍스트 큐브2,,34 의 개념 더 적용 가능한 데이터 마이닝을 만들기 위해 새로운 발전으로 2005 년부터 진화 되었습니다. 온라인 분석 처리 (OLAP)11,12,,1314,데이터 마이닝 및 비즈니스 인텔리전스에15 의 개념 1993에 돌아간다. 일반적으로, OLAP, 여러 시스템, 정보를 집계 하 고 다차원 형식으로 저장. 데이터 마이닝에 구현 하는 OLAP 시스템의 다른 유형이 있다. 예를 들어 (1) 하이브리드 트랜잭션/분석 처리 (HTAP)16,17, (2) 다차원 OLAP (MOLAP)18,19-기반, 그리고 (3) 관계형 OLAP (ROLAP)20큐브.

특히, CaseOLAP 알고리즘은 되었습니다 알고리즘에 비해 수많은 기존, 특히, TF를 포함 하 여 그들의 어구 세분화 향상-IDF + Seg, MCX + Seg, MCX, 및 SegPhrase. 또한, RepPhrase (RP, 일컬어 SegPhrase +)는 (1) RP 무결성 측정 통합 (RP 아니 INT) 하지 않고, 없이 인기 통합 (RP 아니 팝), RP (2)와 (3) 없이 RP를 포함 하 여 그것의 자신의 절제 유사 비교 되었다는 특수성 측정 (RP 아니 DIS) 통합. 벤치 마크 결과 Fangbo Tao 외.1연구에 표시 됩니다.

여전히 저장 하 고 데이터베이스에서 데이터를 검색에 추가 기능을 추가할 수 있는 데이터 마이닝에 도전이 있다. 컨텍스트 인식 의미 분석 처리 (CaseOLAP) 체계적으로 문서 (프로토콜 5)의 수백만의 색인 데이터베이스를 구축 하는 Elasticsearch를 구현 합니다. 텍스트 큐브 사용자 제공 범주 (프로토콜 6) 인덱싱된 데이터 내장 문서 구조입니다. 이 문서 내에서 그리고 텍스트 큐브의 셀에 걸쳐 기능을 강화 하 고 우리가 특정 셀 (8 프로토콜)를 통해 문서 및 문서 주파수 엔티티의 기간 주파수를 계산 하. CaseOLAP 점수 활용 하 여 최종 점수를 출력 이러한 주파수 계산 (프로토콜 9). 2018 년, 우리는 ECM 단백질과 단백질 질병 협회 분석 6 심장 질환 연구이 알고리즘 구현. 이 연구의 내용은 Liem, 검사가 외.5에 의해 연구에서 찾을 수 있습니다. CaseOLAP 수 있는 다양 한 질병 및 메커니즘을 탐구 생물 지역 사회에서 널리 이용 될 나타내는.

알고리즘의 한계. 문구 마이닝 자체 관리 텍스트 데이터에서 중요 한 개념을 검색 하는 기술입니다. 수학 수량 (벡터)로 엔터티 카테고리 협회 발견 하는 동안이 기술을 협회의 극성 (예를 들어, 포지티브 또는 네거티브 기울기)를 알아낼 수 없습니다. 하나는 지정 된 엔터티 및 범주 텍스트 Cude 문서 구조를 활용 하 여 데이터의 양적 요약을 구축할 수 있습니다 하지만 미세한 세분성으로 질적 개념을 도달할 수 없습니다. 일부 개념은 지속적으로 진화 하 고 과거까지에서 지금. 특정 엔터티-카테고리 협회에 대 한 요약 포함 문학에 걸쳐 모든 부각이 됩니다. 이 혁신의 시간 전파를 부족 수 있습니다. 미래에, 우리는 이러한 한계를 해결 하기 위해 계획.

미래 응용. 세계에 축적 된 데이터의 약 90%는 구조화 되지 않은 텍스트 데이터에서입니다. 대표 문구 및 텍스트에 포함 된 엔터티 관계를 찾는 새로운 기술 (예를들면, 기계 학습, 정보 추출, 인공 지능)의 구현에 대 한 매우 중요 한 작업입니다. 기계는 텍스트 데이터를 읽을 수 있도록, 데이터 도구 다음 계층 구현 될 수 있는 데이터베이스에 구성 될 필요가 있다. 미래에이 알고리즘은 데이터 마이닝 정보 검색 및 엔터티 카테고리 협회의 정량화에 대 한 더 많은 기능에 중요 한 단계를 될 수 있습니다.

Disclosures

저자는 공개 없다.

Acknowledgments

이 작품은 국가 심 혼, 폐, 혈액 연구소에 의해 부분적으로 지원: R35 HL135772 (에 피 핑); 국립 연구소의 종합 의료 과학: U54 GM114833 (피 핑, K. 왓슨, W. 왕)를; (제이 한);에 U54 GM114838 Hellen 및 래리 호 그 재단 박사 S. Setty;에서 선물 그리고 (에 피 핑) ucla T.C. Laubisch 기부금.

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS - 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , Springer Science & Business Media. 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Tags

문제 144 텍스트 마이닝 데이터 과학 의학 의료 정보학 광산 구문 클라우드 컴퓨팅
클라우드 기반 구문 마이닝 및 생물 의학 간행물에 사용자 정의 구문 범주 협회의 분석
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Sigdel, D., Kyi, V., Zhang, A.,More

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter