Waiting
登录处理中...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

Bulut tabanlı ifade araştırma ve analiz Biyomedikal yayınlarda kullanıcı tanımlı tümcecik-Kategori Derneği

Published: February 23, 2019 doi: 10.3791/59108
* These authors contributed equally

Summary

Biz bir iletişim kuralı ve ilişkili programlama kodu aynı zamanda bir bulut tabanlı otomatik kimliği kullanıcı seçili bilgi etki Biyomedikal edebiyat alanındaki benzersiz kavramları temsil eden ifadeler-Kategori Derneği desteklemek için meta veri örnekleri mevcut. Bu iletişim kuralı tarafından sayısal ifade-Kategori Derneği derinlik analizi seçili bilgi etki alanındaki kolaylaştırabilir.

Abstract

Biyomedikal metinsel veri hızlı birikimi çok insan kapasitesi manuel küratörlüğü ve analiz, biyolojik anlayışlar bilimsel raporlar çok sayıda ayıklamak için roman metin madenciliği araçları gerektiren aştı. 2016 yılında geliştirilen bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) boru hattı, başarıyla metinsel veri analizi sayesinde kullanıcı tanımlı tümcecik-Kategori ilişkilerini quantifies. CaseOLAP birçok Biyomedikal uygulamalar vardır.

Uçtan uca ifade-araştırma ve analizler platformu destekleyen bir bulut tabanlı ortamı için bir protokol geliştirdik. Bizim iletişim kuralı veri (örneğin, indirme, ayıklama ve metin belgeleri ayrıştırma) ön işleme içerir, dizin oluşturma ve işlevsel belge yapısı oluşturma Elasticsearch ile arama metin-küp ve ifade-Kategori ilişkileri miktarının denilen çekirdek CaseOLAP algoritmasıyla.

Bizim veri ön işleme tüm belgeler dahil için anahtar-değer eşlemeleri oluşturur. Önişlenmiş veri metin-küp oluşturma ve CaseOLAP puanı hesaplama daha da kolaylaştıran bir arama varlıklar, dahil olmak üzere belgelerin taşımak için dizine alınır. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal, dahil olmak üzere bütünleştirici analizleri ve coğrafi analizi bir dizi kullanarak yorumlanır. Ayrıca, CaseOLAP puanları belgelerinin anlamsal eşleme sağlar grafik bir veritabanı oluşturmak için kullanılır.

CaseOLAP ifade-Kategori ilişkileri bir doğru (tanımlayan ilişkiler) tanımlar, tutarlı (son derece tekrarlanabilir) ve verimli biçimde (süreçleri 100.000 kelime/sn). Bu iletişim kuralı kullanıcılar kendi yapılandırmalarını ve CaseOLAP uygulamaları desteklemek için bir bulut bilgi işlem ortamı erişebilir. Bu platform geliştirilmiş erişilebilirlik sunmaktadır ve Biyomedikal topluluğu yaygın Biyomedikal Araştırma uygulamaları için ifade-madencilik araçları ile güçlendiriyor.

Introduction

Metin dosyaları ifade-Kategori Derneği incelenmesi için milyonlarca el ile değerlendirilmesi (e.g., yaş grubu için protein Derneği) otomatik hesaplama yöntemi tarafından sağlanan verimlilik ile eşsiz olduğu. İfade-Kategori Derneği Biyomedikal bağlamında otomatik hesaplama için bir ifade-araştırma yöntemi olarak bulut tabanlı bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) platform tanıtmak istiyorum.

İlk 20161' de tanımlanan, CaseOLAP platformu metin-küp2,3gördü onun işlevsel belge yönetimi nedeniyle veri yönetimi ve hesaplama geleneksel yöntemlerle karşılaştırıldığında çok etkilidir, temel hiyerarşi ve mahalleler koruyarak belgeleri dağıtan 4,. Varlık-Kategori Derneği çalışmaya Biyomedikal Araştırma5 ' te uygulanmıştır. CaseOLAP platformu indirme ve veri, ayrıştırma, dizin oluşturma, metin-küp oluşturma, varlık sayısı ve CaseOLAP puanı hesaplama çıkarılması da dahil olmak üzere altı önemli adımlardan oluşur; (Resim 1, Resim 2, Tablo 1) protokolünün ana odak olduğu.

CaseOLAP algoritması uygulamak için kullanıcı kategorileri ilginç (e.g., hastalık, belirti ve bulgular, yaş grupları, Tanı) ve faiz (örneğin, proteinler, uyuşturucu) varlığı kadar ayarlar. Bu makalede bulunan bir kategori bir örnek olarak hücreleri metin-küp ve protein adları (eş anlamlı) ve kısaltmaların varlıklar olarak 'Yaş grupları' sahip 'Bebek', 'çocuk', 'gençlik' ve 'yetişkin' alt kategorileri olduğunu. Medical Subject Headings (MeSH) tanımlanmış kategoriler (Tablo 2) karşılık gelen yayınları almak için geçerli olur. Kafes tanımlayıcıları arama ( şekil 3' te gösterilen bir örnek) özgüllük düzeyleri değişen, yayınlar için izin vermek için bir hiyerarşik ağaç yapısında düzenlenir. CaseOLAP platformu küratörlüğü daha da kolaylaştırmak belge varlık sayısı eşleme ve CaseOLAP puanı hesaplama belgelerin bir varlıkla ilişkili veri dizin oluşturma ve arama işlevini kullanır.

CaseOLAP puanı hesaplama ayrıntılarını önceki yayınları1,5' te kullanılabilir. Bu puanı temel metin-küp belge yapısına göre belirli sıralama ölçütleri kullanarak hesaplanır. Final skoru bütünlük, popülerlikve açıklıkürünüdür. Bütünlüğü temsil edici bir varlık topluca anlamlı bir kavram ifade eder ayrılmaz bir anlamsal birimi olup açıklar. Kullanıcı tanımlı tümcecik bütünlük literatürde standart bir ifade gibi duruyor çünkü 1.0 için alınır. Farklılığını bir ifade içinde bir alt belge diğer hücreler diğerleri ile karşılaştırıldığında farklıdır göreceli uygunluğunu gösterir. İlk hedef veri kümesindeki protein adı geçtiği karşılaştırarak bir varlık alaka özel bir hücreye hesaplar ve normalleştirilmiş bir açıklık Puan sağlar. Popülerlik temsil daha yüksek popülerlik puan ile ifade aslında daha sık belgeleri bir alt kümede görüntülenir. Bir artış söz onların frekans frekans Logaritmik fonksiyonu uygulanması nedeniyle azalan bir dönüş varken bir hücre adlarında nadir protein düşük, sıralanır. Bu üç kavram kantitatif ölçüm varlık (1) Dönem sıklığı bir hücre ve hücre ve (2) Bu varlığın (belge frekans) hücre içinde ve hücreler üzerinde olan belge sayısı bağlıdır.

PubMed veri kümesi ve bizim algoritma kullanarak iki temsilci senaryoları inceledik. Biz ilgilenen nasıl mitokondrial proteinler MeSH tanımlayıcıları; iki benzersiz kategori ile ilişkili "Yaş grupları" ve "beslenme ve metabolik hastalıklar". Özellikle, aralarında 15,728,250 yayınlar PubMed (1998-2018) tarafından toplanan 20 yıl yayınlardan alındı, 8,123,458 benzersiz özetleri full MeSH tanımlayıcıları oldu. UniProt (uniprot.org) hem de MitoCarta2.0 alınan buna göre 1,842 insan mitokondriyal protein adı (dahil kısaltmalar ve eş anlamlı), (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), sistematik inceledi. Bu 8,899,019 yayınlar ve varlıkları ile onların dernekler bizim iletişim kuralı kullanılarak incelenmiştir; Biz metin küp inşa ve ilgili CaseOLAP puanları hesaplanır.

Protocol

Not: Bu protokol Python programlama diline bağlı geliştirdik. Bu programı çalıştırmak için Anaconda piton ve Git aygıtta önceden yüklü. Bu protokol için sağlanan komutlar UNIX ortamı üzerinde temel alır. Bu iletişim kuralı PubMed (MEDLINE) veritabanından veri indiriyor, verilerin ayrıştırılması ve bir bulut ifade incelemesi ve kullanıcı tanımlı varlık-Kategori Derneği miktar için platform bilgisayar kurma ayrıntı sağlar.

1. kodu ve python ortam kurulumu Başlarken

  1. Download veya kod deposu Github (https://github.com/CaseOLAP/caseolap) veya 'git klon https://github.com/CaseOLAP/caseolap.git' yazarak terminal penceresinde klon.
  2. 'Caseolap' dizinine gidin. Bu projenin kök dizinidir. Bu dizin içinde 'veri' dizini, protokol bu adımlarda ilerlerken birden çok veri setleri ile doldurulur. Kullanıcı tarafından sağlanan veri için 'giriş' dizinidir. 'Günlük' dizini sorun giderme amacıyla günlük dosyaları vardır. Sonuçlar depolanacağı 'sonuç' dizinidir.
  3. Terminal penceresini kullanarak, nerede bizim GitHub repository klonlanmış dizine gidin. 'Environment.yml' dosyası yazarak kullanarak CaseOLAP ortam oluşturmak 'conda env oluşturmak -f environment.yaml' . Terminal Ardından çevre terminalde 'kaynak etkinleştirmek caseolap' yazarak etkinleştirin.

2. belgeler indirme

  1. 'Ftp_configuration.json' yapılandırma dizini FTP adresi kurmak belgili tanımlık bağlantı (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) yıllık temel veya günlük güncelleştirmek eğe bağlantı adresiyle aynı olduğundan emin olun .
  2. Yalnızca temel veya güncelleştirme indirmek için dosyaları yalnızca, 'config' dizin 'download_config.json' dosyasında 'true' küme. Varsayılan olarak, karşıdan yükler ve temel ve güncelleştirme dosyaları ayıklar. Bir örnek ayıklanan XML veri-ebilmek var olmak görüş (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml)
  3. Özetlerini Pubmed veritabanından yüklemek üzere terminal penceresinde 'python run_download.py' yazın. Bu geçerli dizindeki 'ftp.ncbi.nlm.nih.gov' adlı bir dizin oluşturur. Bu işlem indirilen veri bütünlüğünü denetler ve hedef dizine ayıklar.
  4. Karşıdan yükleme işlemi başarısız durumda 'download_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, karşıdan yükleme işlemi hata ayıklama iletilerini bu günlük dosyasına yazdırılır.
  5. Karşıdan yükleme tamamlandığında, 'ftp.ncbi.nlm.nih.gov' 'updatefiles' veya 'basefiles' ya da 'download_config.json' yapılandırma temel alan her iki dizinleri download emin olmak için gezinin. Dosya istatistikleri 'filestat.txt' 'veri' dizin, kullanılabilir hale gelir.

3. belgeler ayrıştırma

  1. İndirilen ve hulâsa veri--dan adım 2 'ftp.ncbi.nlm.nih.gov' dizininde bulunduğundan emin olun. Bu adımda giriş verileri dizin dizinidir.
  2. Veri ayrıştırma şemayı değiştirmeye, parametreleri kendi değeri 'true' ayarlayarak 'config' dizin 'parsing_config.json' dosyasında seçin. Varsayılan olarak, onu ayrıştırır PMID, yazarlar, abstract, kafes, yer, günlük, Basım yılı.
  3. Karşıdan yüklenen (ya da hulâsa) dosyalarından belgeleri ayrıştırmak için Terminal 'python run_parsing.py' yazın. Bu adımı ayrıştırmak Ýndirilen tüm XML dosyaları ve her belge için bir python sözlük tuşlarıyla oluşturur (e.g., PMID, yazarlar, soyut, MeSH dosyasının şeması kurulumu adımda 3.2 ayrıştırma dayalı).
  4. Veri Çözümleme tamamlandığında, ayrıştırılmış veri veri dizininde 'pubmed.json' adlı dosyada saklanır emin olun. Ayrıştırılmış veri örneği mevcuttur şekil 3.
  5. Ayrıştırma işleminin başarısız durumda 'parsing_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, hata ayıklama iletilerini günlük dosyasında yazdırılacağı şekilde.

4. mesh PMID eşleme

  1. Ayrıştırılmış veri ('pubmed.json') 'veri' dizininde bulunduğundan emin olun.
  2. MeSH PMID eşleme için gerçekleştirmek için Terminal 'python run_mesh2pmid.py' yazın. Bu nerede her biri MeSH ilişkili PMIDs toplar bir eşleşme tablosu oluşturur. Bir tek PMID birden fazla kafes koşulları altında düşebilir.
  3. Eşleştirme tamamlandıktan sonra veri dizininde 'mesh2pmid.json' olduğundan emin olun. Kullanılabilir Tablo 2, şekil 4 ve 5en iyi 20 eşleme istatistik bir örneğidir.
  4. Bu işlem başarısız durumda 'mesh2pmid_mapping_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, hata ayıklama iletilerini eşlemesinin bu günlük dosyasına yazdırılır.

5. belge dizin oluşturma

  1. Download belgili tanımlık Elasticsearch kullanma https://www.elastic.co--dan. Şu anda, karşıdan yükleme (https://www.elastic.co/downloads/elasticsearch) mevcuttur. Download bilgisayar yazılımı içinde belgili tanımlık uzak bulut için terminalde 'wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz' yazın. 'Xxx' belgili tanımlık yukarıda buyurmak uygun sürüm numarası tarafından değiştirilir emin olun.
  2. O indirilen 'elasticsearch-x.x.x.tar.gz' dosyası kök dizinde görünür emin olun o zaman hulâsa belgili tanımlık eğe yanında tipik 'tar xvzf elasticsearch-x.x.x.tar.gz' terminal penceresinde.
  3. Yeni bir terminal açın ve ElasticSearch bin dizinine 'cd Elasticsearch/bin' yazarak terminal kök dizininden gidin.
  4. Elasticsearch sunucu girerek başlayabilir '. / Elasticsearch' terminal penceresinde. Sunucu hata iletileri başlatıldığından emin olun. Elasticsearch sunucu başlatma hatası durumunda, (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html)talimatları uygulayın.
  5. 'İndex_init_config.json' 'config' dizininde dizin başlatma ayarlamak için içeriğini değiştirin. Varsayılan olarak, tüm öğeleri mevcut seçer.
  6. Elasticsearch sunucu dizin veritabanında başlatmak için Terminal 'python run_index_init.py' yazın. Bu dizini dizin bilgilerini (örneğin, dizin adı, tür adı, kırıkları, yineleme sayısı sayısı) bilinen ölçüt kümesi ile başlatır. Dizin başarıyla oluşturulur anma mesajı göreceksiniz.
  7. 'İndex_populate_config.json' 'config' dizinindeki öğeler onların değeri 'true' ayarlayarak seçin. Varsayılan olarak, tüm öğeleri mevcut seçer.
  8. Ayrıştırılmış veri ('pubmed.json') 'veri' dizininde bulunduğundan emin olun.
  9. Toplu veri ile iki bileşen oluşturarak dizin doldurmak için Terminal 'python run_index_populate.py' yazın. İlk bileşen meta veri bilgileri dizin adı, tür adı, ve toplu kimliği (örneğin, 'PMID') ile bir sözlüktür. A ikinci bileşenidir (örneğin, 'başlık', 'soyut', 'Kafes') etiketleri hakkında tüm bilgileri içeren bir veri sözlüğü.
  10. Bu işlem başarısız durumda 'indexing_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, dizin oluşturma ve hata ayıklama iletilerini günlük dosyasında yazdırılacağı şekilde.

6. metin-küp oluşturma

  1. En son MeSH ağacı (https://www.nlm.nih.gov/mesh/filelist.html) mevcuttur download. Kod geçerli sürümünü MeSH ağaç 2018 giriş dizininde 'meshtree2018.bin' olarak kullanıyor.
  2. Faiz (örneğin, hastalık ismi, yaş grupları, cinsiyet) kategorileri tanımlayın. Bir kategori bir veya daha fazla ağ tanımlayıcıları (https://meshb-prev.nlm.nih.gov/treeView) içerebilir. MeSH kimlikleri için bir kategori toplamak. 'Textcube_config.json' dosyasında kategorilerin adlarını (bkz. örnek 'Yaş grubundaki' kategorisinde 'textcube_config.json' dosyası karşıdan yüklenmiş bir sürümünü bir) config dizine kaydedin.
  3. MeSH kimlikleri toplanan kategorilerini bir boşlukla ayrılmış bir çizgi koymak. Kategori dosyasını 'categories.txt' (bkz. örnek, 'Yaş grubu' kafes kimlik olarak 'categories.txt' dosyası karşıdan yüklenmiş bir sürümünü bir) 'giriş' dizine kaydedin. Bu algoritma otomatik olarak tüm alt ağ tanımlayıcıları belirler. Kök düğümler ve torunları bir örnek olarak sunulmaktadır şekil 4.
  4. 'Mesh2pmid.json' 'veri' dizininde bulunduğundan emin olun. Farklı bir adla (örneğin, 'meashtree2019.bin') 'giriş' dizinindeki MeSH ağaç güncelleştirilmişse, bu düzgün 'run_textube.py' dosyasında giriş veri yolundaki temsil edilir emin olun.
  5. 'Python run_textcube.py' metin-küpü adı verilen bir belge veri yapısı oluşturmak için terminalde yazın. Bu belgeleri (PMIDs) her kategori için bir koleksiyon oluşturur. Tek bir belge (PMID) birden fazla kategori altında düşebilir ( tablo 3A, tablo 3B, şekil 6A görmek ve şekil 7A).
  6. Metin-küp oluşturma adımı tamamladıktan sonra aşağıdaki veri dosyalarını 'veri' dizinde kaydedilir emin olun: (1) bir hücre olarak "textcube_cell2pmid.json", "textcube_pmid2cell.json" olarak hücre eşleme tabloya (2) bir PMID PMID tabloya (3 "meshterms_per_cat.json" (4) metin-küp verileri istatistik bilgilerinin "textcube_stat.txt" olarak bir hücre için tüm alt kafes koşulları koleksiyonu.
  7. Bu işlem başarısız durumda 'textcube_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, hata ayıklama iletilerini metin-küp oluşturma günlük dosyasında yazdırılacağı şekilde.

7. varlık sayısı

  1. Kullanıcı tanımlı varlıkları (örneğin, protein isimleri, genler, kimyasallar) oluşturun. Tek bir satırda virgülle ayrılmış bir varlık ve kendi kısaltmaları koymak "|". 'Entities.txt' 'giriş' dizin olarak varlık dosyayı kaydedin. Varlık örneği bulunabilir Tablo 4.
  2. O Elasticsearch sunucusunun çalıştığından emin olun. Aksi takdirde, 5.2 ve Elasticsearch sunucuyu yeniden başlatmanız 5.3 adıma geçin. Adım 5'te kurulmuş olan Elasticsearch sunucunuzda 'pubmed' adlı dizin oluşturulmuş bir veritabanı olması beklenir.
  3. 'Textcube_pmid2cell.json' 'veri' dizininde bulunduğundan emin olun.
  4. 'Python run_entitycount.py' varlık sayım işlemi gerçekleştirmek için terminal yazın. Bu dizin oluşturulmuş veritabanından belgeleri arar ve varlık her belge, sayar gibi içinde varlıkları bulunan PMIDs toplar.
  5. Varlık sayısı tamamlandığında, kesin sonuçları 'entitycount.txt' kaydedilir emin olun ve 'entityfound_pmid2cell.json' 'veri' dizine.
  6. Bu işlem başarısız durumda 'entitycount_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, hata ayıklama iletilerini varlık sayısını günlük dosyasında yazdırılacağı şekilde.

8. meta veri güncelleştirmesi

  1. Tüm giriş verileri ('entitycount.txt', 'textcube_pmid2cell.json', 'entityfound_pmid2cell.txt') 'veri' dizinde olduğundan emin olun. Bu meta veriler güncelleştirmek için giriş verileri vardır.
  2. 'Python run_metadata_update.py' meta veriler güncelleştirmek için terminalde yazın. Bu meta veriler (örneğin, hücre adı, ilişkili ağ, PMIDs) topluluğu hazırlar hücredeki her metin belgesi temsil eden. Bir örnek metin-küp meta veriler tablo 3A sunulur ve tablo 3B.
  3. Meta veri güncelleştirmesi tamamlandığında, 'metadata_pmid2pcount.json' ve 'metadata_cell2pmid.json' dosyalar 'veri' dizinde kaydedilir emin olun.
  4. Bu işlem başarısız durumda 'metadata_update_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, meta veri güncelleştirmesi hata ayıklama iletilerini günlük dosyasında yazdırılacağı şekilde.

9. CaseOLAP puanı hesaplama

  1. 'Metadata_pmid2pcount.json' ve 'metadata_cell2pmid.json' 'veri' dizininde bulunduğundan emin olun. Bu puan hesaplaması için giriş verileri vardır.
  2. 'Python run_caseolap_score.py' CaseOLAP puanı hesaplama yapmak için terminalde yazın. Bu kullanıcı tanımlı kategorilere göre varlıkların CaseOLAP puanı hesaplar. CaseOLAP puanı bütünlüğü, popülerlikve açıklıkürünüdür.
  3. Puan hesaplama tamamlandığında, bu 'neden' dizinde birden çok dosya (örneğin, popülerlik olarak 'pop.csv', 'dist.csv', 'caseolap.csv' olarak CaseOLAP skor olarak açıklık), sonuçları kaydeder emin olun. CaseOLAP puanı hesaplama özetini Tablo 5' de sunulan.
  4. Bu işlem başarısız durumda 'caseolap_score_log.txt' günlük iletileri okumak için 'kütük' dizinine gidin. İşlem başarıyla tamamlanırsa, hata ayıklama iletilerini CaseOLAP puanı hesaplama günlük dosyasına yazdırılır.

Representative Results

Örnek sonuçlar üretmek için biz hayata CaseOLAP algoritması iki konu başlıkları/tanımlayıcılar içinde: "Yaş grupları" ve "Beslenme ve metabolik kullanım örnekleri gibi hastalıklar".

Yaş grupları. 4 alt kategorileri, "Yaş gruplarının" (bebek, çocuk, ergen ve Yetişkin) metin küp hücrelerde olarak seçildi. Elde edilen meta veriler ve istatistikler tablo 3Aiçinde gösterilir. Metin-küp hücreleri arasında belge sayısı karşılaştırılması şekil 6Aiçinde görüntülenir. Yetişkin tüm hücreler arasında en yüksek sayı olan 172,394 belgeleri içerir. Yetişkin ve ergen alt kategorileri paylaşılan belgeler (26,858 belgeleri) en yüksek sayıda olması. Özellikle, bu belgeleri bizim ilgi sadece (yani, mitokondrial proteinler) varlık dahil. Venn Şeması şekil 6B ' her hücre içinde ve hücreler arasında birden çok örtüştüğü içinde bulunan varlıklar (yani, mitokondrial proteinler) sayısını gösterir. Tüm yaş grupları alt kategorileri içinde paylaşılan proteinler 162 sayısıdır. Yetişkin alt kategori benzersiz proteinler (151) çocuk (16), Bebek (8) ve ergen (1) tarafından takip en yüksek sayısını gösteren. Protein-yaş grubu Derneği bir CaseOLAP puan olarak hesaplanır. Bebek, çocuk, ergen ve yetişkin alt kategorileri ile ilişkili (onların ortalama CaseOLAP puanı göre) en iyi 10 proteinler vardır Sterol 26-hidroksilaz, Alfa-kristalin B zinciri, 25-hydroxyvitamin D-1 alfa-hidroksilaz, Serotransferrin, sitrat sentaz, L-seryl-tRNA, sodyum/potasyum-taşıma ATPaz alt birimi alpha-3, glutatyon S-transferaz omega-1, NADPH: adrenodoxin oxidoreductase ve mitokondrial peptid metiyonin sülfoksit redüktaz ( şekil 6Ciçinde gösterilmiştir). Yetişkin alt kategori ergen, çocuk ve bebek alt kategorisi, en iyi 10 mitokondrial proteinler yetişkin alt kategori için en güçlü ilişkileri sergi gösteren heatmap hücrelere kıyasla daha yüksek bir yoğunluk ile 10 heatmap hücreleri görüntüler. Mitokondrial protein Sterol 26-hidroksilaz hangi heatmap hücreleri tarafından diğer 9 mitokondrial proteinler heatmap hücrelere kıyasla daha yüksek yoğunluklarda ile gösterdi tüm yaş alt kategorileri yüksek dernekler var. İki grup arasındaki Puan farkı mutlak istatistiksel dağılımı % 99 güven aralığı ile ortalama fark için aşağıdaki aralığı gösterir: (1) 'ADLT' ve 'INFT' arasında ortalama fark aralığı (0.029 0.042 için), (2) ortalama yatıyor arasındaki aralığı (0.021 0.030 için), (3) 'ADLT' ve 'CHLD' yalan 'ADLT' arasındaki ortalama fark fark ve 'ADOL' içinde belgili tanımlık sıra (0.020-0.029) (4) aralığı (0,015-0.022) (5) 'ADOL' ve 'INFT' yatıyor arasındaki ortalama fark ortalama fark yatıyor 'ADOL' ve 'CHLD' aralığı (0,007-0.010) (6) (0.011 için 0.016) aralığında 'CHLD' ve 'INFT' yalan arasındaki ortalama fark yatıyor.

Beslenme ve metabolik hastalıklar. Biz hastalıkların"beslenme ve metabolik bir metin-küp 2 hücreleri oluşturmak için" (yani, metabolik hastalığı ve beslenme bozuklukları) 2 alt kategorileri seçildi. Tablo 3B' alınan meta veriler ve istatistikler gösterilir. Metin-küp hücreleri arasında belge sayısı karşılaştırılması şekil 7Aiçinde görüntülenir. Alt kategori metabolik hastalık beslenme bozuklukları 19,181 belgelerde ardından 54,762 belgeleri içerir. Alt kategorileri metabolik hastalık ve beslenme bozuklukları 7,101 paylaşılan belgeler var. Özellikle, bu belgeleri bizim ilgi sadece (yani, mitokondrial proteinler) varlık dahil. Şekil 7B Venn diyagramında her hücre içinde ve hücreler arasında birden çok örtüştüğü içinde bulunan varlıklar sayısını temsil eder. Protein-"Beslenme ve metabolik hastalıklar" dernek CaseOLAP puan olarak hesaplanır. Bu kullanım örneği ile ilişkili (onların ortalama CaseOLAP puanı göre) en iyi 10 Sterol 26-hidroksilaz, Alfa-kristalin B proteinlerdir zincir, L-seryl-tRNA, sitrat sentaz, tRNA pseudouridine synthase A, 25-hydroxyvitamin D-1 alfa-hidroksilaz, Glutatyon S-transferaz omega-1, NADPH: adrenodoxin oxidoreductase, mitokondrial peptid metiyonin sülfoksit redüktaz, plazminojen aktivatör inhibitörü ( şekil 7Ciçinde gösterilmiştir) 1. Yarısından fazlası (% 54) Tüm proteinlerin alt kategorileri metabolik hastalıklar ve beslenme bozuklukları (397 proteinler) arasında paylaşılır. İlginçtir, neredeyse yarısı (% 43) Sadece birkaç benzersiz proteinler (35) beslenme bozuklukları sergi ise metabolik hastalık alt kategori içinde tüm ilişkili proteinlerin benzersiz (300), proteinlerdir. Alfa-kristalin B zincirini alt kategori metabolik hastalıklar için güçlü ilişkiyi görüntüler. Sterol 26-hidroksilaz, mitokondrial mitokondrial bu protein beslenme bozuklukları açıklayan çalışmalarda son derece alakalı olduğunu belirten beslenme bozuklukları alt kategori güçlü ilişkiyi görüntüler. İki grup 'MBD' ve 'Nöral tüp defekti' arasındaki Puan farkı mutlak istatistiksel dağılım aralığı (0.046 0,061) % 99 güven aralığı olarak kötü farkı gösterir.

Figure 1
Şekil 1. CaseOLAP iş akışı dinamik görünümünü. Bu rakam 5 büyük adım CaseOLAP iş akışı içinde temsil eder. 1. adımda karşıdan yükleyip metin belgeleri (örneğin, PubMed) açılan iş akışı başlar. 2. adımda ayıklanan veriler veri sözlüğü her belgenin yanı sıra PMID eşleme için bir kafes oluşturmak için ayrıştırıldı. 3. adımda, veri dizin oluşturma hızlı ve verimli varlık arama kolaylaştırmak için yapılır. Adım 4'te, kullanıcı tarafından sağlanan kategori bilgileri (e.g., her hücre için kök MeSH) uygulanması bir metin küpünün gerçekleştirilir. Adım 5'te, CaseOLAP puanları hesaplamak için dizin verilerinde varlık sayısı işlemi uygulanır. Aşağıdaki adımları sistemi genel bir veritabanında (örneğin, PubMed) kullanılabilen en son bilgilerle güncelleştirmek için yinelemeli bir şekilde tekrarlanır. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 2
Şekil 2. CaseOLAP iş akışı teknik mimarisi. Bu rakam CaseOLAP iş akışı teknik ayrıntılarını gösterir. PubMed deposundan veri PubMed FTP sunucusundan elde edilir. Kullanıcı yolu ile onların aygıt bulut sunucusuna (örneğin, AWS bağlantısı) bağlanır ve bir Download indirme ve bulut içinde yerel bir havuz için veri ayıklayan boru hattı oluşturur. Ayıklanan veriler doğrulandı, yapılandırılmış ve bir veri ayrıştırma boru hattı ile uygun bir biçim için getirdim. Aynı anda, bir kafes PMID eşleşme tablosu için metin-küp yapımı için kullanılan ayrıştırma adım sırasında oluşturulur. Ayrıştırılmış veri anahtar-değer sözlük biçimiyle Belge meta verileri (örneğin, PMID, kafes, yayımlama yıl) gibi bir JSON olarak depolanır. Dizin oluşturma adım daha ileri veri toplu veri işlemek için Elasticsearch uygulayarak geliştirir. Ardından, metin-küp kategoriler kullanıcı tanımlı PMID eşleştirmeye MeSH uygulayarak oluşturulur. Metin-küp oluşumu ve dizin oluşturma adımları tamamlandığında, bir varlık sayımı yapılır. Varlık sayısı verileri metin-küp meta veriler için geçerli olur. Son olarak, CaseOLAP puan tabanlı metin-küp yapısını hesaplanır. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 3
Şekil 3. Ayrýþtýrýlmýþ belge örneği. Bir örnek çözümlü veri bu şekilde sunulur. Ayrıştırılmış veri dizin oluşturma ve Belge meta veriler oluşturma ile uyumlu olan bir anahtar-değer çifti olarak düzenlenir. Bu şekilde, bir PMID (örneğin, "25896987") bir anahtar olarak hizmet vermektedir ve ilgili bilgileri (örneğin, başlık, dergisi, veriliş tarihi, soyut, kafes, maddeler, bölüm ve konumu) koleksiyon değeri olarak bulunmaktadır. PMID kafese inşaatı gibi belge meta veriler ilk uygulamadır metin-küp oluşturmak ve kullanıcı tarafından sağlanan varlıkları ile CaseOLAP Puanını hesaplamak için daha sonra uygulanan eşleme (şekil 5 ve Tablo 2), ve Kategoriler. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 4
Şekil 4. Bir kafes ağaç örneği. 'Yaş gruplarına ait MeSH ağaç ağaç veri yapısı NIH veritabanında kullanılabilen adapte (ağaç 2018, MeSH < https://meshb.nlm.nih.gov/treeView>). Kafes tanımlayıcıları ile düğüm kimliklerine (örneğin, kişiler [M01], yaş grupları [M01.060], ergen [M01.060.057], Yetişkin [M01.060.116], çocuk [M01.060.406], Bebek [M01.060.703]) belirli bir ağ tanımlayıcısı ( ilgili belgeleri toplamak için uygulanır Tablo 3A). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 5
Şekil 5. Yaş gruplarındaki PMID eşleme için kafes. Bu rakam bir kabarcık Arsa olarak MeSH tanımlayıcılar içinde "Yaş grupları" altında toplanan metin belgesi (her bir PMID ile bağlantılı) sayısı sunar. PMID eşleme için kafes kafes tanımlayıcıları altında toplanan belgelerin tam sayısı sağlamak için oluşturulur. Toplam 3,062,143 benzersiz belge sayısı (bkz. Tablo 2) 18 soyundan MeSH tanımlayıcıları altında toplanmıştır. Yüksek PMIDs sayısı bir belirli ağ tanımlayıcısı altında büyük kafes tanımlayıcısı temsil eden kabarcık yarıçapı seçili. Örneğin, belge en yüksek sayısı kafes tanımlayıcısı "Yetişkin" altında toplanmıştır (1,786,371 belgeleri), metin belgeleri en az sayıda MeSH tanımlayıcısı "Bebek, Postmature" altında toplanmıştır ise (62 belgeleri).
MeSH PMID eşleme için bir ek örnek "Beslenme ve metabolik hastalıklar için" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html) verilir. Toplam 422,039 benzersiz belge sayısı 361 soyundan MeSH tanımlayıcılar içinde "Beslenme ve metabolik hastalıklar" altında toplanmıştır. Belge en yüksek sayısı kafes tanımlayıcısı "Obezite" altında toplanmıştır (77,881 belgeleri) tarafından izlenen "Diabetes Mellitus, yazın 2" (61,901 belgeleri), oysa "glikojen depo hastalığı, yazın VIII" belgeleri (1 belgesi en az sayıda sergiledi ). İlişkili bir tabloda aynı zamanda çevrimiçi (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv) kullanılabilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 6
Şekil 6. "Yaş grupları" kullanım örneği olarak. Bu rakam CaseOLAP platform kullanım örneği sonuçlarını sunar. Bu durumda, protein adları ve onların kısaltmalar (bkz: örnek Tablo4) varlıklar ve hücreleri de dahil olmak üzere "yaş grupları" uygulanır: Bebek (INFT), çocuk (CHLD), ergen (ADOL) ve yetişkin (ADLT), (bkz: alt kategorileri gerçekleştirilir Tablo 3A). (A) "Yaş gruplarındaki" belge sayısı: Bu ısı haritası "Gruplar" yaşlı hücreler arasında dağıtılmış belge sayısı (metin-küp oluşturma bkz: Protokolü 4 ve tablo 3Ailgili ayrıntılar) gösterir. Belgeleri daha yüksek bir dizi daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Tek bir belgede birden fazla hücreye eklenebilir. Çapraz pozisyon boyunca hücre içindeki belge sayısı heatmap sunar (örneğin, ADLT 172,394 belgeleri tüm hücreler arasında en yüksek sayı olan içerir). Nondiagonal pozisyon iki hücreleri (örneğin, ADLT ve ADOL var 26,858 paylaşılan belgeler) düşen belge sayısını temsil eder. (B) . Varlık sayısı "Yaş gruplarındaki": Venn Şeması "Yaş grupları" (INFT, CHLD, ADOL ve ADLT) temsil eden dört hücrelerde bulunan proteinler sayısını temsil eder. Tüm hücreleri içinde paylaşılan proteinler 162 sayısıdır. Yaş grubu ADLT benzersiz proteinler (151) ardından CHLD (16), INFT (8) ve ADOL (1) en yüksek sayısını gösteren. (C) CaseOLAP Puan sunum "Yaş gruplarındaki": En iyi 10 proteinler ile en yüksek ortalama CaseOLAP puanları her grupta bir ısı haritası sunulmaktadır. Yüksek bir CaseOLAP puan daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Protein adları sol sütunda görüntülenir ve hücreler (INFT, CHLD, ADOL, ADLT) x-ekseni boyunca görüntülenir. Bazı proteinler (örneğin, Sterol 26-hidroksilaz, Alfa-kristalin B zincir ve L-seryl-tRNA ise sodyum/potasyum-taşıma ATPaz alt birimi alpha-3 güçlü bir ilişki ile ADLT, güçlü ilişkiye sahip belirli bir yaş grubu için güçlü bir ilişki göstermek INFT ile). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 7
Şekil 7. "Beslenme ve metabolik hastalıklar" olarak kullanım örneği: bu rakam başka bir kullanım örneği CaseOLAP platformu sonuçlarını sunar. Bu durumda, protein adları ve onların kısaltmalar (bkz: örnek Tablo4) varlıklar ve "Beslenme ve metabolik iki hücre de dahil olmak üzere hastalık" uygulanır: metabolik hastalık (MBD) ve beslenme bozuklukları (NTD) olarak gerçekleştirilir (bkz. tablo 3B) alt kategorileri. (A). "Beslenme ve metabolik hastalıklar" belge sayısı: (bkz: metin-küp oluşturma hakkında ayrıntılı bilgi Protokolü 4 ve tablo 3B için "Beslenme ve metabolik hastalıklar" hücrelerdeki metin belgelerinin sayısı bu heatmap gösteriyor ). Belgeleri daha yüksek bir dizi daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Tek bir belgede birden fazla hücreye eklenebilir. Çapraz pozisyon boyunca hücre içindeki toplam belge sayısı heatmap sunar (örneğin, MBD 54,762 belgeleri iki hücreler arasında en yüksek sayı olan içerir). Nondiagonal konumu (örneğin, MBD Nöral tüp defekti 7,101 paylaşılan belgeler ve var) iki hücre tarafından paylaşılan belgeler sayısını temsil eder. (B). "Beslenme ve metabolik hastalıklar" sayıma varlık: Venn Şeması "Beslenme ve metabolik hastalıklar" (MBD ve Nöral tüp defekti) temsil eden iki hücrelerde bulunan proteinler sayısını temsil eder. İki hücre içinde paylaşılan proteinler 397 sayısıdır. 300 benzersiz proteinler MBD hücre gösteriyor ve Nöral tüp defekti hücre 35 benzersiz proteinler gösteriyor. (C). CaseOLAP puanı sunuda "Beslenme ve metabolik hastalıklar": "Beslenme ve metabolik hastalıklar" en yüksek ortalama CaseOLAP skorları ile top 10 proteinler bir ısı haritası sunulmaktadır. Yüksek bir CaseOLAP puan daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Protein adları sol sütunda görüntülenir ve hücreler (MBD ve Nöral tüp defekti) x-ekseni boyunca görüntülenir. Bazı proteinler belirli hastalık kategori için güçlü bir ilişki göstermek (örn., Alfa-kristalin B zinciri metabolik hastalık ile yüksek bir dernek ve sterol 26-hidroksilaz beslenme bozuklukları ile yüksek bir Derneği). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Harcanan süre (Toplam sürenin yüzdesi) Adımları CaseOLAP platformu Algoritma ve veri yapısı CaseOLAP platformu Algoritma ve veri yapısı Adımları ayrıntılarını
% 40 İndirme ve
Ayrıştırma
Yineleme ve algoritmaları Ayrıştırma ağacı Yineleme ile iç içe döngü ve sürekli çarpma: O(n^2), O (günlük n). Nerede 'n' olduğunu Hayır, yineleme. İndirme boru hattı her yordam birden çok dosya üzerinde sırayla dolaşır. Tek bir belge ayrıştırma her yordam ham XML veri ağaç yapısı üzerinde çalışır.
% 30 Dizin oluşturma, arama ve metin küp oluşturma Yineleme, arama algoritmaları (sıralama, Lucene dizin, öncelik kuyruğu, sonlu durum makinaları, kesmek, düzenli ifade sorguları oynatarak bit) Elasticsearch tarafından Elasticsearch (https://www.elastic.co/) ile ilgili karmaşıklığı Belgeler üzerinde veri sözlüğü yineleme işlemi uygulayarak dizine alınır. Metin-küp oluşturma Belge meta-veri ve kullanıcı tarafından sağlanan kategori bilgileri uygular.
% 30 Varlık sayma ve CaseOLAP hesaplama Yineleme içinde bütünlük, popülerlik, açıklık hesaplama O(1), O(n^2), caseOLAP yineleme türlerini temel puanı hesaplama ile ilgili birden çok karmaşık. Varlık bir sayısı işlemi belgeler listeler ve liste üzerinde bir sayısı işlemi yapın. Varlık sayısı verileri CaseOLAP Puanını hesaplamak için kullanılır.

Tablo 1. Algoritmalar ve karmaşıklığı. Bu tablo yordamlar üzerinde harcanan süre (harcanan yüzdesi toplam) hakkında bilgi verir (örneğin, İndiriyor, ayrıştırma), veri yapısı ve CaseOLAP platform uygulanan algoritmalar hakkında ayrıntılı bilgi. CaseOLAP profesyonel dizin oluşturma ve arama uygulaması Elasticsearch denilen uygular. Elasticsearch ve iç algoritmaları ile ilgili karmaşıklığı hakkında daha fazla bilgi (https://www.elastic.co at) bulunabilir.

Kafes tanımlayıcıları Dizi toplanan PMIDs
Yetişkin 1,786,371
Orta yaşlı 1,661,882
Yaşlı 1,198,778
Ergen 706,429
Genç Yetişkin 486,259
Çocuk 480,218
Yaşlı, 80 ve üzeri 453,348
Çocuk, okul öncesi 285,183
Bebek 218,242
Bebek, yeni doğan 160,702
Bebek, erken 17,701
Bebek, düşük doğum ağırlığı 5,707
Zayıf yaşlı 4,811
Bebek, çok düşük doğum ağırlığı 4,458
Bebek, gebelik yaşı küçük 3,168
Bebek, son derece erken 1,171
Bebek, son derece düşük doğum ağırlığı 1,003
Bebek, Postmature 62

Tablo 2. PMID eşleme istatistikleri için kafes. Bu tablo tüm alt ağ tanımlayıcıları "Yaş grupları" ve onların sayısı toplanan PMIDs (metin belgeleri) sunar. Bu istatistikler görselleştirme şekil 5' te gösterilmektedir.

A Bebek (INFT) Çocuk (CHLD) Ergen (ADOL) Yetişkin (ADLT)
Kafes kök kimliği M01.060.703 M01.060.406 M01.060.057 M01.060.116
Alt ağ tanımlayıcısı sayısı 9 2 1 6
Seçili PMIDs sayısı 16,466 26,907 35,158 172,394
Bulundu varlık sayısı 233 297 257 443
B Metabolik Hastalıklar (MBD) Beslenme bozuklukları (NTD)
Kafes kök kimliği C18.452 C18.654
Alt ağ sayısı
tanımlayıcıları
308 53
PMIDs toplanan sayısı 54,762 19,181
Bulundu varlık sayısı 697 432

Tablo 3. Metin-küp meta veriler. Metin-küp meta veriler bir sekmeli görünüm sunulur. Tablolar kategorileri hakkında bilgi sağlar ve tanımlayıcısı kökleri ve her hücrede belgeleri toplamak için uygulanan alt kafes. Tablo aynı zamanda toplanan belgeler ve varlıkların istatistikler sunmaktadır. (A) "Yaş grupları": Bu bir tablo grupları görüntüsünü "Yaş Bebek (INFT), çocuk (CHLD), ergen (ADOL) ve yetişkin (ADLT) de dahil olmak üzere" ve onların kafes kök kimlikleri, alt ağ tanımlayıcıları, seçili PMIDs sayısı ve sayısı varlıklar bulundu. (B) "Beslenme ve metabolik hastalıklar": "Beslenme ve metabolik metabolik hastalık (MBD) ve beslenme bozuklukları (NTD) ile onların kafes kök kimlikleri, alt ağ tanımlayıcısı sayısı sayısı gibi hastalıklar" sekmeli bir görüntüdür Seçili PMIDs ve bulunan varlıklar sayısı.

Protein adları ve eş anlamlılar Kısaltmalar
N-acetylglutamate synthase, mitokondri, Amino-asit asetiltransferaz, N-acetylglutamate synthase uzun form; N-acetylglutamate synthase kısa formu; N-acetylglutamate korunmuş synthase etki alanı formu] (EC 2.3.1.1)
Protein/nükleik asit deglycase DJ-1 (Maillard deglycase) (onkogen DJ1) (Parkinson hastalığı protein 7) (deglycase Parkinsonizm ilişkili) (Protein DJ-1) (AK 3.1.2.-) (AK 3.5.1.-) (AK 3.5.1.124) (DJ-1)
Pyruvate carboxylase, mitokondriyal (Pirüvik carboxylase) (AK 6.4.1.1) (PCB)
BCL-2-bağlama bileşen 3 (p53 yukarı düzenlenir modülatör apoptosis) (JFY-1)
BH3 etkileşim etki alanı ölüm agonist [etki alanı ölüm agonist p15 BH3 etkileşim (p15 DİLEMEK); BH3 etkileşim etki alanı ölüm agonist p13; Etki alanı ölüm agonist p11] BH3 etkileşim (p22 DİLEMEK) (TEKLİF) (p13 DİLEMEK) (p11 DİLEMEK)
ATP sentaz alt birimi alpha, mitokondriyal (ATP sentaz F1 alt birimi alpha)
Sitokrom P450 11B2, mitokondriyal (aldosteron sentaz) (aldosteron sentezleme enzim) (CYPXIB2) (sitokrom P-450Aldo) (sitokrom P-450_C_18) (Steroid 18-hidroksilaz) (ALDOS) (AK 1.14.15.4) (AK 1.14.15.5)
(60 kDa chaperonin) 60 kDa ısı şok protein, mitokondriyal (60) (CPN60) Chaperonin (ısı şok protein 60) (mitokondrial matris protein P1) (P60 lenfosit protein) (HSP-60) (Hsp60) (HuCHA60) (AK 3.6.4.9)
Caspase-4 (buz ve Ced-3 homoloğu 2) (proteaz TX) [içine i ciddi: Caspase-4 alt birim 1; Caspase-4 alt birim 2] (GLOBAL-4) (AK 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1)

Tablo 4. Örnek varlık tablo. Bu tablo bizim iki kullanım örneklerini olarak uygulanan varlıkların örnek sunar: "Yaş grupları" ve "Beslenme ve metabolik hastalıklar" (şekil 6 ve Şekil 7, tablo 3A,B). Varlıkları protein adları, eşanlamlıları ve kısaltmaları içerir. Her varlık (eş anlamlı ve kısaltmalar ile) seçilen tek tek ve varlık arama işlemi (bkz: Protokolü 3 ve 5) dizini oluşturulmuş veri geçti. Arama daha fazla varlık sayısı işlemi kolaylaştırmak belgelerin listesini oluşturur.

Miktarları Kullanıcı tanımlı Hesaplanan Miktar denklemi Miktar anlamını
Bütünlük Evet Hayır Kullanıcı bütünlüğünü 1.0 olarak kabul varlıkları tanımlanmış. Anlamlı bir ifade temsil eder. Sayısal değer 1.0 olduğunda zaten kurulmuş bir terimdir.
Popülerlik Hayır Evet Şekil 1 (iş akışı ve algoritma) popülerlik denklemden başvuru 5, 'Malzeme ve yöntemler' bölümü. Ifade bir hücre içinde Dönem sıklığı temel. Hücre toplam dönem sıklığını tarafından normalleştirilmiş. Dönem sıklığı artış sonucu azalan vardır.
Açıklık Hayır Evet Şekil 1 (iş akışı ve algoritma) açıklık denklemden başvuru 5, 'Malzeme ve yöntemler' bölümü. Dönem sıklığı ve belge frekans hücre içindeki ve komşu hücreler üzerinde temel. Toplam Dönem sıklığı ve belge frekans tarafından normalleştirilmiş. Kantitatif, bir ifade belirli bir hücrede benzersizdir olasılıktır.
CaseOLAP puanı Hayır Evet CaseOLAP puanı denklemden başvuru 5 şekil 1 (iş akışı ve algoritma), 'Malzeme ve yöntemler' bölümü. Bütünlük, popülerlik ve açıklık dayalı. Sayısal değeri her zaman 0-1 içinde düşüyor. Kantitatif CaseOLAP puanı ifade-Kategori arasındaki ilişkiyi temsil eder

Tablo 5. CaseOLAP denklemler: CaseOLAP algoritması 20161' Fangbo Tao ve Jiawei Han ve ark. tarafından geliştirilmiştir. Kısaca, bu tablo üç bileşenden oluşan CaseOLAP puanı hesaplama sunar: bütünlük, popülerlik ve açıklık ve ilişkili matematiksel anlamları. Bizim kullanım örneklerini bütünlük proteinler için 1.0 kaç (maksimum puanı) kurulan varlık adları olarak ayaktaydı. Bizim kullanım örnekleri yılında CaseOLAP puanları şekil 6C ve şekil 7Cgörülebilir.

Discussion

CaseOLAP algoritması çok sayıda anlamlı yorumlara çıkarım için metinsel veri üzerinde bir ifade dayalı nicel Derneği bilgi tabanlı, kategori oluşturabilirsiniz göstermiştir. Bizim iletişim kuralı bir istediğiniz bir metin küp oluşturmak ve varlık-Kategori dernekler aracılığıyla CaseOLAP puanı hesaplama ölçmek için CaseOLAP çerçeve inşa edebilirsiniz. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal ve coğrafi analizi gibi belgelerin anlamsal eşleme sağlayan grafik bir veritabanı oluşturulması da dahil olmak üzere bütünleştirici analizleri alınabilir.

Algoritma uygulanabilirliği. Proteinler başka kullanıcı tanımlı varlıkları örnekleri listesini gen adları, uyuşturucu, özel işaretler ve onların kısaltmalar ve eş anlamlılar gibi belirtiler olabilir. Ayrıca, belirli kullanıcı tanımlı Biyomedikal analizleri (örneğin, anatomi [A], disiplin ve meslek [H], olayları ve işlemleri [G]) kolaylaştırmak Kategori seçim için birçok seçenek vardır. Bizim iki durumlarda kullanın, tüm bilimsel yayınları ve metin verilerini arama motoru olarak kullanarak PubMed MEDLINE veritabanından alınır, her ikisi de National Library of Medicine tarafından yönetilen. Ancak, CaseOLAP platformu ile metin verileri gibi FDA olumsuz olay raporlama sistemi (FAERS) Biyomedikal belgeleri içeren ilgi diğer veritabanları için uygulanabilir. Bu tıbbi olumsuz olaylar ve FDA ilaç hata raporları hakkında bilgi içeren açık bir veritabanıdır. MEDLINE ve FAERS, aksine veritabanları hastanelerde hastaların elektronik sağlık kayıtları içeren halka açık değil ve durum sigorta taşınabilirlik ve Accountability Act HIPAA bilinen tarafından kısıtlanır.

CaseOLAP algoritması verileri (örneğin, haber makaleleri)1. farklı türleri için başarıyla uygulandı Biyomedikal belgelerde bu algoritma uygulaması 20185' te yapılmıştır. Uygulanabilirliği için gerekenler CaseOLAP algoritması, her belge kavramları (örneğin, kafes tanımlayıcıları Biyomedikal yayınlarda, haber makaleleri anahtar kelimeler) ile ilişkili anahtar kelimeler ile atanmalıdır. Anahtar kelimeler bulundu değil, bir Autophrase6,7 en iyi temsilcisi ifadeler toplamak ve bizim iletişim kuralı uygulamadan önce varlık liste oluşturmak için uygulayabilirsiniz. Bizim iletişim kuralı Autophrase gerçekleştirmek için adım sağlamaz.

Diğer algoritmalar ile karşılaştırma. Bir veri-küp8,9,10 ve metin-küp2,3,4 kullanarak kavramı veri madenciliği daha uygun hale getirmek için yeni gelişmeler ile 2005 yılından bu yana gelişen. Çevrimiçi analitik işleme (OLAP)11,12,13,14,15 dakika içinde veri madenciliği ve iş zekası kavramı geri 1993 için gider. OLAP, genel olarak, birden çok sistemi bilgileri toplar ve çok boyutlu bir biçimde depolar. Veri madenciliği içinde uygulanan OLAP sistemleri farklı türleri vardır. Örneğin (1) Hybrid hareket/analitik işleme (HTAP)16,17, (2) çok boyutlu OLAP (MOLAP)18,19-ve (3) temel ilişkisel OLAP (ROLAP)20küp.

Özellikle, CaseOLAP algoritması ile çok sayıda varolan algoritmaları, özellikle, TF dahil olmak üzere kendi ifade bölümleme geliştirmeleri ile karşılaştırılmıştır-IDF + Seg, MCX + Seg, MCX ve SegPhrase. Ayrıca, RepPhrase (RP, da SegPhrase + bilinir) (1) dahil bütünlük ölçü birimi (RP Hayır INT) olmadan RP, RP (2) dahil popülerlik ölçü birimi (RP No POP) olmadan ve RP (3) olmadan da dahil olmak üzere kendi ablasyon varyasyonları ile karşılaştırıldığında Açıklık ölçü birimi (RP Hayır DIS) dahil. Benchmark sonuçları çalışmada Fangbo Tao ve ark.1tarafından gösterilir.

Orada hala üzerinde tasarruf ve verileri veritabanından ek işlevler ekleyebilirsiniz hangi veri madenciliği zorlukları vardır. Bağlam duyarlı anlamsal analitik işleme (CaseOLAP) belgeleri (iletişim kuralı 5) milyonlarca dizin oluşturma bir veritabanı oluşturmak için Elasticsearch sistematik olarak uygular. Metin-küp dizin oluşturulmuş veriler kullanıcı tarafından sağlanan kategorileri (Protokolü 6) üzerinde yerleşik bir belge yapısıdır. Bu belgeler içinde ve arasında metin-küp hücre için işlevselliği artırır ve Dönem sıklığı varlıkların bir belge ve belgenin frekans belirli bir hücrenin üstünde (protokol 8) hesaplamak için bize izin. CaseOLAP sonuca bir final skoru çıkış için bu frekans hesaplamalar kullanır (Protokolü 9). 2018 yılında, biz ECM protein ve protein-hastalık ilişkileri analiz etmek için altı kalp hastalıkları eğitim için bu algoritma hayata. Bu çalışmanın ayrıntıları çalışmada Liem, D.A. vd.5bulunabilir. CaseOLAP çeşitli hastalıklar ve mekanizmaları keşfetmek Biyomedikal toplumda yaygın olarak kullanılabileceğini gösteren.

Algoritma sınırlamaları. İfade incelemesi kendisi yönetmek ve önemli kavramları metinsel veri almak için bir tekniktir. Varlık-Kategori Derneği matematiksel miktarı (vektör) bulurken, bu teknik Derneğin polarizasyon (örneğin, pozitif veya negatif eğim) anlamaya değiştiremiyor. Bir nicel atanan varlıkları ve Kategoriler metin-Cude belge yapısıyla kullanan veri özetini oluşturabilirsiniz, ancak nitel bir kavram ile mikroskobik granularities ulaştı. Bazı kavramlar sürekli şimdi geçmiş zamana kadar değişmektedir. Bir özel varlık-Kategori ilişkisi için sunulan özetleme edebiyat boyunca tüm olaylar içerir. Bu yenilik zamansal yayma olmayabilir. Gelecekte, bu sınırlamaları gidermek planlıyoruz.

Gelecekteki uygulamalar. Dünyada birikmiş veri yaklaşık yüzde 90'ını yapılandırılmamış metin verilerindedir. Bir temsilci ifade ve metinde gömülü varlık ilişkisi bulma yeni teknolojiler (örneğin, Makine öğrenimi, bilgi ayıklama, yapay zeka) uygulanması için çok önemli bir görevdir. Makine metin verilerini kolay okunur hale getirmek için veri üzerinde araçları bir sonraki katman uygulanabilecek veritabanında düzenlenmesi gerekir. Gelecekte, bu algoritma veri madenciliği bilgi alınmasını ve miktar, varlık-Kategori ilişkisi için daha işlevsel hale getirmek çok önemli bir adım olabilir.

Disclosures

Yazarlar ifşa gerek yok.

Acknowledgments

Bu eser kısmen Ulusal kalp, akciğer ve kan Enstitüsü tarafından desteklenmiştir: R35 HL135772 (için s. Ping); Genel tıbbi Bilimler Ulusal Enstitüsü: U54 GM114833 (için s. Ping, K. Watson ve W. Wang); U54 GM114838 (için J. Han); Hellen & Larry Hoag Vakfı ve Dr. S. Setty hediyesi; ve UCLA (için s. Ping) T.C. Laubisch bağış.

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS - 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , Springer Science & Business Media. 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Tags

Tıp sayı: 144 metin madenciliği veri bilim Tıp Bilişimi ifade incelemesi bulut bilgisayar
Bulut tabanlı ifade araştırma ve analiz Biyomedikal yayınlarda kullanıcı tanımlı tümcecik-Kategori Derneği
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Sigdel, D., Kyi, V., Zhang, A.,More

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter