Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

क्लाउड-आधारित वाक्यांश खनन और यूज़र-डिफ़ाइंड वाक्यांश का विश्लेषण-जैव चिकित्सा प्रकाशनों में श्रेणी संघ

Published: February 23, 2019 doi: 10.3791/59108
* These authors contributed equally

Summary

हम एक प्रोटोकॉल और संबद्ध प्रोग्रामिंग कोड के साथ-साथ मेटाडाटा नमूनों को मुहावरे की क्लाउड-आधारित स्वचालित पहचान का समर्थन करने के लिए प्रस्तुत करते हैं-श्रेणी संघ जैव चिकित्सा साहित्य में उपयोगकर्ता चयनित ज्ञान डोमेन में अद्वितीय अवधारणाओं का प्रतिनिधित्व करता है । वाक्यांश-श्रेणी इस प्रोटोकॉल द्वारा मात्रा निर्धारित संघ चयनित ज्ञान डोमेन में गहराई विश्लेषण में सुविधा कर सकते हैं ।

Abstract

जैव चिकित्सा शाब्दिक डेटा का तेजी से संचय अभी तक मैनुअल curation और विश्लेषण की मानवीय क्षमता से अधिक है, उपंयास पाठ खनन उपकरण आवश्यक वैज्ञानिक रिपोर्टों की बड़ी मात्रा से जैविक अंतर्दृष्टि निकालने के लिए । संदर्भ-संवेदी अर्थ ऑनलाइन एनालिटिकल प्रोसेसिंग (caseolap) पाइपलाइन, २०१६ में विकसित, सफलतापूर्वक मूलपाठ डेटा के विश्लेषण के माध्यम से यूज़र-डिफ़ाइंड वाक्यांश-श्रेणी संबंधों को quantifies. caseolap में कई बायोमेडिकल अनुप्रयोग हैं ।

हमने एक क्लाउड-आधारित वातावरण के लिए एक प्रोटोकॉल विकसित किया है जो एंड-टू-एंड वाक्यांश-माइनिंग और विश्लेषण प्लेटफ़ॉर्म का समर्थन करते हैं । हमारे प्रोटोकॉल डेटा preprocessing शामिल (उदाहरण के लिए, डाउनलोड, निष्कर्षण, और पाठ दस्तावेज़ पार्स), अनुक्रमण और लोचदार खोज के साथ खोज, एक कार्यात्मक दस्तावेज़ संरचना पाठ-घन कहा जाता है, और बढ़ाता वाक्यांश-श्रेणी संबंध बनाना कोर caseolap एल्गोरिथ्म का उपयोग कर रहा है ।

हमारे डेटा preprocessing शामिल सभी दस्तावेजों के लिए कुंजी मूल्य मैपिंग उत्पन्न करता है । पूर्वसंसाधित डेटा निकायों सहित दस्तावेज़ों की खोज करने के लिए अनुक्रमित होता है, जो टेक्स्ट-क्यूब निर्माण और caseolap स्कोर परिकलन को और भी सुगम बनाता है. प्राप्त कच्चे caseolap स्कोर एकीकृत विश्लेषण की एक श्रृंखला का उपयोग कर व्याख्या कर रहे हैं, विमीयता कमी सहित, clustering, लौकिक, और भौगोलिक विश्लेषण । इसके अतिरिक्त, caseolap स्कोर का उपयोग ग्राफ़िकल डेटाबेस बनाने के लिए किया जाता है, जो दस्तावेज़ों के अर्थ मैपिंग को सक्षम करता है ।

caseolap वाक्यांश-श्रेणी संबंधों को एक सटीक (पहचान संबंध), संगत (उच्च पुनरुद्धिक), और कुशल तरीके से (प्रक्रियाओं १००,००० शब्द/ इस प्रोटोकॉल के बाद, उपयोगकर्ताओं को अपने स्वयं के विन्यास और caseolap के अनुप्रयोगों का समर्थन करने के लिए एक बादल कंप्यूटिंग वातावरण का उपयोग कर सकते हैं. इस मंच बढ़ाया पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश खनन उपकरण के साथ जैव चिकित्सा समुदाय के अधिकार ।

Introduction

वाक्यांश के अध्ययन के लिए पाठ फ़ाइलों के लाखों लोगों के मैनुअल मूल्यांकन-श्रेणी एसोसिएशन (जैसे, आयु समूह प्रोटीन एसोसिएशन के लिए) एक स्वचालित कंप्यूटेशनल विधि द्वारा प्रदान की दक्षता के साथ अतुलनीय है । हम क्लाउड-आधारित संदर्भ-संवेदी अर्थ ऑनलाइन एनालिटिकल प्रोसेसिंग (caseolap) प्लेटफ़ॉर्म के रूप में एक वाक्यांश-खनन विधि के रूप में वाक्यांश की स्वचालित गणना के लिए लागू करना चाहते हैं-बायोमेडिकल संदर्भ में श्रेणी संघ.

caseolap प्लेटफ़ॉर्म, जो पहले २०१६1में परिभाषित किया गया था, बहुत कुशल है डेटा प्रबंधन और गणना के पारंपरिक तरीकों की तुलना में इसकी कार्यात्मक दस्तावेज़ प्रबंधन के कारण पाठ कहा जाता है-घन2,3, 4, जो अंतर्निहित पदानुक्रम और पड़ोस को बनाए रखते हुए दस्तावेज़ों को वितरित करता है । इसमें निकाय-श्रेणी संघ के अध्ययन के लिए बायोमेडिकल रिसर्च5 में आवेदन किया गया है । caseolap प्लेटफ़ॉर्म में डेटा की डाउनलोड और निष्कर्षण, पार्स करना, अनुक्रमण, पाठ-क्यूब निर्माण, निकाय गणना, और caseolap स्कोर परिकलन सहित छः प्रमुख चरण होते हैं; जो प्रोटोकॉल का मुख्य फोकस है (चित्र 1, चित्र 2, तालिका 1)

caseolap एल्गोरिथ्म को कार्यांवित करने के लिए, उपयोगकर्ता रुचि की श्रेणियां सेट करता है (उदा., रोग, संकेत और लक्षण, आयु समूह, निदान) और रुचि के निकाय (उदा., प्रोटीन, ड्रग्स) । इस लेख में शामिल एक श्रेणी का एक उदाहरण ' आयु समूह ' है, जिसमें ' शिशु ', ' बाल ', ' किशोर ', और ' वयस्क ' पाठ के कक्षों के रूप में-घन और प्रोटीन नाम (समानार्थी) और संस्थाओं के रूप में संक्षिप्त रूप हैं । चिकित्सा विषय शीर्षकों (मेष) परिभाषित श्रेणियों (तालिका 2) के लिए इसी प्रकाशनों को पुनः प्राप्त करने के लिए लागू कर रहे हैं । मेश वर्णनकर्ता ( चित्र 3में दिखाया गया नमूना) विशिष्टता के भिन्न स्तर पर प्रकाशनों के लिए खोज की अनुमति देने के लिए एक श्रेणीबद्ध ट्री संरचना में व्यवस्थित होते हैं । caseolap प्लेटफ़ॉर्म निकाय के साथ संबद्ध दस्तावेज़ों के curation के लिए डेटा अनुक्रमण और खोज कार्यक्षमता का उपयोग करता है, जो निकाय गणना मैपिंग और caseolap स्कोर परिकलन में दस्तावेज़ की सुविधा प्रदान करता है.

caseolap स्कोर परिकलन का विवरण पिछले प्रकाशन1,5में उपलब्ध है । यह स्कोर अंतर्निहित टेक्स्ट-क्यूब दस्तावेज़ संरचना के आधार पर विशिष्ट रैंकिंग मानदंडों का उपयोग करके परिकलित किया जाता है । अंतिम स्कोर अखंडता, लोकप्रियता, और विशिष्टताका उत्पाद है । अखंडता का वर्णन करता है कि क्या एक प्रतिनिधि निकाय एक अभिन्न अर्थ इकाई है जो सामूहिक रूप से एक सार्थक अवधारणा को संदर्भित करती है । यूज़र-डिफ़ाइंड वाक्यांश की अखंडता को १.० के रूप में लिया जाता है क्योंकि यह साहित्य में एक मानक वाक्यांश के रूप में खड़ा होता है । शेष अन्य कोशिकाओं की तुलना में दस्तावेजों के एक सबसेट में एक वाक्यांश के सापेक्ष प्रासंगिकता का प्रतिनिधित्व करता है । यह सबसे पहले लक्ष्य डेटा सेट में प्रोटीन नाम की घटना की तुलना करके एक विशिष्ट सेल के लिए एक इकाई की प्रासंगिकता की गणना करता है और एक सामान्यीकृत विशिष्टता स्कोर उपलब्ध कराता है । लोकप्रियता तथ्य यह है कि एक उच्च लोकप्रियता स्कोर के साथ वाक्यांश का प्रतिनिधित्व करता है दस्तावेज़ों के एक सबसेट में अधिक बार दिखाई देता है । एक सेल में दुर्लभ प्रोटीन नाम कम क्रमित हैं, जबकि उनकी आवृत्ति में वृद्धि आवृत्ति के लघुगणक समारोह के कार्यान्वयन के कारण एक ह्रासमान प्रतिफल है । मात्रात्मक रूप से मापने की ये तीन अवधारणाएं किसी कक्ष और कक्षों के ऊपर निकाय की (1) शब् द आवृत्ति पर निर्भर करती है और (2) कक्ष के अंदर और कक्षों के भीतर उस निकाय (दस् तावेज़ फ़्रीक्वेंसी) वाले दस् तावेज़ों की संख् या ।

हम एक pubmed डाटासेट और हमारे एल्गोरिथ्म का उपयोग कर दो प्रतिनिधि परिदृश्यों का अध्ययन किया है. हम कैसे mitochondrial प्रोटीन मेष वर्णनकर्ता के दो अद्वितीय श्रेणियों के साथ जुड़े रहे हैं में रुचि रखते हैं; "आयु समूहों" और "पोषण और चयापचय रोगों" । विशेष रूप से, हम 20 साल से १५,७२८,२५० प्रकाशनों प्राप्त pubmed द्वारा एकत्र प्रकाशनों (१९९८ २०१८ के लिए), उन के बीच में, ८,१२३,४५८ अद्वितीय सार पूर्ण मेष वर्णनकर्ता पड़ा है । तदनुसार, १,८४२ मानव mitochondrial प्रोटीन नाम (संकेताक्षर और समानार्थी सहित), uniprot से अधिग्रहीत (uniprot.org) के रूप में अच्छी तरह से mitocarta 2.0 से (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do>), व्यवस्थित कर रहे है जांच. हमारे प्रोटोकॉल का उपयोग करके इन ८,८९९,०१९ प्रकाशनों और संस्थाओं के साथ उनके संघों का अध्ययन किया गया; हम एक पाठ-घन का निर्माण किया और संबंधित caseolap स्कोर की गणना ।

Protocol

नोट: हम इस प्रोटोकॉल अजगर प्रोग्रामिंग भाषा पर आधारित विकसित किया है । इस कार्यक्रम को चलाने के लिए, एनाकोंडा अजगर और Git पूर्व डिवाइस पर स्थापित किया है । इस प्रोटोकॉल में प्रदान किए गए आदेश Unix वातावरण पर आधारित होते हैं । इस प्रोटोकॉल pubmed (medline) डाटाबेस से डेटा डाउनलोड करने, डेटा पार्स, और वाक्यांश खनन और प्रयोक्ता परिभाषित इकाई-श्रेणी एसोसिएशन के परिमाणन के लिए एक बादल कंप्यूटिंग मंच की स्थापना के विस्तार प्रदान करता है ।

1. कोड और अजगर वातावरण सेटअप हो रही है

  1. डाउनलोड या कोड रिपॉजिटरी github से क्लोन (https://github.com/CaseOLAP/caseolap) या टर्मिनल विंडो में 'git क्लोन https://github.com/CaseOLAP/caseolap.git' टाइप करके ।
  2. ' caseolap ' निर्देशिका में नेविगेट करें । यह परियोजना की रूट डायरेक्टरी है । प्रोटोकॉल में इन चरणों के माध्यम से आप प्रगति के रूप में इस निर्देशिका में, ' डेटा ' निर्देशिका एकाधिक डेटा सेट के साथ पॉपुलेटेड हो जाएगा । ' इनपुट ' निर्देशिका उपयोगकर्ता-प्रदत्त डेटा के लिए है । ' लॉग ' निर्देशिका प्रयोजनों समस्या निवारण के लिए लॉग फ़ाइलें हैं । ' परिणाम ' निर्देशिका है, जहां अंतिम परिणाम संग्रहीत किया जाएगा ।
  3. टर्मिनल विंडो का उपयोग करना, निर्देशिका जहां आप हमारे github भंडार क्लोन पर जाएं । टर्मिनल में 'कोंडा एनवी क्रिएट-फ वातावरण. yaml ' लिखकर 'environment. yml' फाइल का उपयोग करके caseolap वातावरण बनाएँ. इसके बाद टर्मिनल में 'सोर्स एक्टिवेट केसेलैप' लिखकर पर्यावरण को सक्रिय करें ।

2. दस्तावेज़ डाउनलोड करना

  1. सुनिश्चित करें कि config निर्देशिका में 'ftp_configuration. json' में FTP पता वार्षिक आधार रेखा या दैनिक अद्यतन फ़ाइलें लिंक पता, लिंक (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) में पाया के रूप में ही है .
  2. केवल आधार रेखा को डाउनलोड करने या केवल फ़ाइलें अद्यतन करने के लिए, ' config ' निर्देशिका में 'download_config. json' फ़ाइल में ' true ' सेट करें । डिफ़ॉल्ट रूप से, यह डाउनलोड करता है और दोनों आधारभूत और अद्यतन फ़ाइलें निकालता है । निकाले गए XML डेटा का एक नमूना (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) पर देखा जा सकता है
  3. प्रकार 'अजगर run_download. py' टर्मिनल विंडो में pubmed डेटाबेस से लेखों डाउनलोड करने के लिए । यह वर्तमान निर्देशिका में ' ftp.ncbi.nlm.nih.gov ' नामक एक निर्देशिका बनाएगा । इस प्रक्रिया को डाउनलोड किए गए डेटा की अखंडता की जांच करता है और इसे लक्ष्य निर्देशिका के लिए निकालता है ।
  4. ' लॉग ' निर्देशिका में लॉग संदेश को पढ़ने के लिए 'download_log. txt' मामले में डाउनलोड प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेश डाउनलोड प्रक्रिया के इस लॉग फ़ाइल में मुद्रित किया जाएगा ।
  5. जब डाउनलोड पूरा हो गया है, ' ftp.ncbi.nlm.nih.gov ' के माध्यम से नेविगेट करने के लिए सुनिश्चित करें कि ' है updatefiles ' या ' basefiles ' या दोनों निर्देशिका ' download_config. json ' में डाउनलोड विंयास पर आधारित है । फ़ाइल आँकड़े ' डेटा ' निर्देशिका में 'filestat. txt' पर उपलब्ध हो जाते हैं ।

3. पार्सिंग दस्तावेज़

  1. सुनिश्चित करें कि डाउनलोड और निकाले गए डेटा चरण 2 से ' ftp.ncbi.nlm.nih.gov ' निर्देशिका में उपलब्ध है । इस निर्देशिका में इस चरण में इनपुट डेटा निर्देशिका है ।
  2. डेटा-पार्सिंग स्कीमा को संशोधित करने के लिए, 'parsing_config. json' फ़ाइल ' config ' निर्देशिका में ' true ' करने के लिए उनके मान सेट कर पैरामीटर का चयन करें । डिफ़ॉल्ट रूप से, यह pmid, लेखक, सार, मेष, स्थान, जर्नल, प्रकाशन की तारीख पार्स करती ।
  3. प्रकार 'अजगर run_parsing. py' टर्मिनल में डाउनलोड (या निकाले) फ़ाइलों से दस्तावेजों को पार्स करने के लिए. यह चरण सभी डाउनलोड की गई XML फ़ाइलों को पार्स करता है और कुंजियों के साथ प्रत्येक दस्तावेज़ के लिए एक python शब्दकोश बनाता है (उदा., pmid, लेखक, सार, मेष फ़ाइल के चरण ३.२ पर स्कीमा सेटअप पार्सिंग पर आधारित) ।
  4. डेटा पार्स करने के बाद, सुनिश्चित करें कि डेटा निर्देशिका में 'pubmed. json' नामक फ़ाइल में पार्स किया गया डेटा सहेजा गया है । पार्स किया गया डेटा का एक नमूना चित्र 3 पर उपलब्ध है ।
  5. ' लॉग ' निर्देशिका में 'parsing_log. txt' में लॉग संदेश पढ़ने के लिए जाने के मामले में पार्सिंग प्रक्रिया विफल हो जाता है । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेश लॉग फ़ाइल में मुद्रित किया जाएगा ।

4. pmid मानचित्रण के लिए मेष

  1. सुनिश्चित करें कि पार्स किया गया डेटा ('pubmed. json') ' डेटा ' निर्देशिका पर उपलब्ध है ।
  2. टर्मिनल में प्रकार 'अजगर run_mesh2pmid. py' pmid मानचित्रण के लिए जाल प्रदर्शन करने के लिए. यह एक मैपिंग तालिका बनाता है जहां प्रत्येक मेश संबद्ध pmids एकत्र करता है । एक एकल pmid एकाधिक मेष शर्तों के तहत गिर सकता है ।
  3. एक बार मानचित्रण पूरा हो गया है, सुनिश्चित करें कि वहां है 'mesh2pmid. json' डेटा निर्देशिका में । शीर्ष 20 मानचित्रण आंकड़ों का एक नमूना तालिका-2, आंकड़े 4 और 5में उपलब्ध है ।
  4. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'mesh2pmid_mapping_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेशों की मैपिंग इस लॉग फ़ाइल में मुद्रित किया जाएगा ।

5. दस्तावेज़ अनुक्रमणिका

  1. https://www.elastic.coसे इलास्टिक खोज आवेदन डाउनलोड करें । वर्तमान में, डाउनलोड (https://www.elastic.co/downloads/elasticsearch) पर उपलब्ध है । दूरस्थ बादल में सॉफ्टवेयर डाउनलोड करने के लिए, टर्मिनल में 'wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz' टाइप करें । सुनिश्चित करें कि ऊपर दिए गए आदेश में 'x. x. x' उचित संस्करण संख्या द्वारा प्रतिस्थापित किया गया है ।
  2. सुनिश्चित करें कि डाउनलोड ' elasticsearch-x. x.tar. gz' फ़ाइल रूट निर्देशिका में प्रकट होता है तो टर्मिनल विंडो में 'टार xvzf elasticsearch-x. x. tar. gz ' टाइप करके फ़ाइलों को निकालें ।
  3. एक नया टर्मिनल खोलें और रूट निर्देशिका से टर्मिनल में 'सीडी elasticsearch/बिन' टाइप करके इलास्टिक खोज बिन निर्देशिका पर जाएं ।
  4. टर्मिनल विंडो में './elasticsearch ' लिखकर elasticsearch सर्वर प्रारंभ करें । सुनिश्चित करें कि सर्वर त्रुटि संदेश के बिना प्रारंभ किया गया है । elasticsearch सर्वर प्रारंभ करने पर त्रुटि के मामले में, (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html)पर दिए गए निर्देशों का पालन करें ।
  5. अनुक्रमणिका दीक्षा सेट करने के लिए ' config ' निर्देशिका में 'index_init_config. json' में सामग्री को संशोधित करें । डिफ़ॉल्ट रूप से, यह मौजूद सभी आइटंस का चयन करेगा ।
  6. प्रकार 'अजगर run_index_init. py' टर्मिनल में एक सूचकांक डेटाबेस शुरू करने के लिए elasticsearch सर्वर में. अनुक्रमणिका जानकारी (उदाहरण के लिए, अनुक्रमणिका नाम, प्रकार नाम, shards की संख्या, प्रतिकृतियां की संख्या) के रूप में जाना जाता मापदंड का एक सेट के साथ अनुक्रमणिका initializes. आप देखेंगे कि अनुक्रमणिका का उल्लेख संदेश सफलतापूर्वक बनाया गया है ।
  7. ' ' config निर्देशिका में 'index_populate_config. json' में आइटम ' के लिए अपने मूल्य की स्थापना द्वारा ' का चयन करें ' सच है । डिफ़ॉल्ट रूप से, यह मौजूद सभी आइटंस का चयन करेगा ।
  8. सुनिश्चित करें कि पार्स किया गया डेटा (' pubmed. json ') ' डेटा ' निर्देशिका में मौजूद है ।
  9. प्रकार 'अजगर run_index_populate. py' टर्मिनल में दो घटकों के साथ थोक डेटा बनाकर अनुक्रमणिका पॉप्युलेट करने के लिए. प्रथम घटक, अनुक्रमणिका नाम, प्रकार नाम, और बल्क id (उदा., ' pmid ') पर मेटाडेटा जानकारी के साथ एक शब्दकोश है. कोई दूसरा घटक एक डेटा शब्दकोश है जिसमें टैग्स पर सभी जानकारी (उदा., ' शीर्षक ', ' अमूर्त ', ' मेश ') होती है
  10. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'indexing_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेशों का अनुक्रमण लॉग फ़ाइल में मुद्रित किया जाएगा ।

6. पाठ-घन सृजन

  1. (https://www.nlm.nih.gov/mesh/filelist.html) पर उपलब्ध नवीनतम मेष ट्री डाउनलोड करें । कोड के वर्तमान संस्करण मेश ट्री २०१८ के रूप में ' meshtree2018. bin ' इनपुट निर्देशिका में उपयोग कर रहा है ।
  2. ब्याज की श्रेणियों (जैसे, रोग के नाम, आयु समूहों, लिंग) को परिभाषित करें । एक श्रेणी में एक या अधिक मेश वर्णनकर्ता (https://meshb-prev.nlm.nih.gov/treeView) शामिल हो सकते हैं । एक श्रेणी के लिए मेष आईडी लीजिए । config निर्देशिका में फ़ाइल 'textcube_config. json' में श्रेणियों के नाम सहेजें ('textcube_config. json' फ़ाइल के डाउनलोड किए गए संस्करण में ' आयु समूह ' में श्रेणी का एक नमूना देखें) ।
  3. एक अंतरिक्ष से अलग लाइन में मेष आईडी की एकत्र श्रेणियों रखो । ' श्रेणियाँ. txt' ' इनपुट ' निर्देशिका में श्रेणी फ़ाइल सहेजें ('श्रेणियाँ. txt' फ़ाइल के डाउनलोड किए गए संस्करण में ' आयु समूह ' मेष IDs का एक नमूना देखें) । यह एल्गोरिथ्म स्वचालित रूप से सभी वंशज मेश वर्णनकर्ता का चयन करता है । रूट नोड्स और सन्तान का एक उदाहरण चित्रा 4 में प्रस्तुत कर रहे हैं ।
  4. सुनिश्चित करें कि 'mesh2pmid. json' ' डेटा ' निर्देशिका में है । ' इनपुट ' निर्देशिका में एक अलग नाम (जैसे, 'meashtree2019. bin') के साथ मेष ट्री अद्यतन किया गया है, तो सुनिश्चित करें कि यह ठीक से इनपुट डेटा पथ में 'run_textube. py' फ़ाइल में दर्शाया गया है कि ।
  5. पाठ-घन नामक एक दस्तावेज़ डेटा संरचना बनाने के लिए टर्मिनल में 'python run_textcube. py' टाइप करें । यह प्रत्येक श्रेणी के लिए दस्तावेज़ों (pmids) का संग्रह बनाता है । एक एकल दस्तावेज़ (pmid) एकाधिक श्रेणियों के अंतर्गत गिर सकता है, ( तालिका 3a, तालिका 3a, चित्रा 6a और चित्रा 7a देखें) ।
  6. एक बार पाठ-घन निर्माण चरण पूरा हो गया है, सुनिश्चित करें कि निंनलिखित डेटा फ़ाइलें ' डेटा ' निर्देशिका में बच रहे हैं: (1) pmid तालिका के लिए एक सेल "textcube_cell2pmid. json" के रूप में, (2) एक pmid "textcube_pmid2cell. json", (3) के रूप में सेल मानचित्रण तालिका के लिए एक "meshterms_per_cat. json" (4) "textcube_stat. txt" के रूप में पाठ-क्यूब डेटा आँकड़ों के रूप में एक सेल के लिए सभी वंशज मेष शर्तों का संग्रह ।
  7. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'textcube_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो पाठ-घन निर्माण के डीबगिंग संदेश लॉग फ़ाइल में मुद्रित किया जाएगा ।

7. निकाय गणना

  1. यूज़र-डिफ़ाइंड एंटिटीज़ (उदा., प्रोटीन नाम, जीन, रसायन) बनाएं । एक इकाई और उसके संकेताक्षर एक एकल लाइन में डाल "। निकाय फ़ाइल को ' इनपुट ' निर्देशिका में 'निकाय. txt' के रूप में सहेजें. निकायों का एक नमूना तालिका 4 में पाया जा सकता है ।
  2. सुनिश्चित करें कि elasticsearch सर्वर चल रहा है । अंयथा, चरण ५.२ और ५.३ elasticsearch सर्वर को पुनरारंभ करने के लिए पर जाएँ । यह एक अनुक्रमित डेटाबेस अपने elasticsearch सर्वर जो चरण 5 में स्थापित किया गया था में ' pubmed ' कहा जाता है की उंमीद है ।
  3. सुनिश्चित करें कि ' textcube_pmid2cell. json ' ' डेटा ' निर्देशिका में है ।
  4. निकाय गणना कार्रवाई करने के लिए टर्मिनल में 'python run_entitycount. py' टाइप करें । यह अनुक्रमणित डेटाबेस से दस्तावेज़ों की खोज करता है और प्रत्येक दस्तावेज़ में निकाय को गिनता है और साथ ही वह pmids एकत्रित करता है जिसमें एंटिटीज़ पाई गई थीं ।
  5. निकाय गणना के पूरा होने के बाद, सुनिश्चित करें कि अंतिम परिणाम ' डेटा ' निर्देशिका में 'entitycount. txt' और 'entitycount_pmid2cell. json' के रूप में सहेजे गए हैं.
  6. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'entitycount_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेश निकाय गणना का लॉग फ़ाइल में मुद्रित किया जाएगा ।

8. मेटाडेटा अद्यतन

  1. सुनिश्चित करें कि सभी इनपुट डेटा (' entitycount. txt ', ' textcube_pmid2cell. json ', ' entityfound_pmid2cell. txt ') ' डेटा ' निर्देशिका में हैं. ये मेटाडेटा अद्यतन के लिए इनपुट डेटा हैं ।
  2. मेटाडेटा अद्यतन करने के लिए टर्मिनल में 'python run_metadata_update. py' टाइप करें । यह मेटाडेटा का संग्रह (उदा., कक्ष का नाम, संबद्ध मेश, pmids) को कक्ष में प्रत्येक पाठ दस्तावेज़ का प्रतिनिधित्व करने के लिए तैयार करता है. पाठ-क्यूब मेटाडेटा का एक नमूना तालिका 3a और तालिका 3a में प्रस्तुत किया गया है ।
  3. मेटाडेटा अद्यतन पूर्ण होने के बाद, सुनिश्चित करें कि 'metadata_pmid2pcount. json' और 'metadata_cell2pmid. json' फ़ाइलें ' डेटा ' निर्देशिका में सहेजी जाती हैं.
  4. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'metadata_update_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो मेटाडेटा अद्यतन डीबगिंग संदेश लॉग फ़ाइल में मुद्रित किया जाएगा ।

9. caseolap स्कोर गणना

  1. सुनिश्चित करें कि 'metadata_pmid2pcount. json' और 'metadata_cell2pmid. json' फ़ाइलें ' डेटा ' निर्देशिका में मौजूद हैं । ये स्कोर गणना के लिए इनपुट डेटा हैं ।
  2. caseolap स्कोर परिकलन करने के लिए टर्मिनल में 'python run_caseolap_score. py' टाइप करें । यह यूज़र-डिफ़ाइंड श्रेणियों पर आधारित निकायों के caseolap स्कोर का परिकलन करता है । caseolap स्कोर अखंडता, लोकप्रियता, और विशिष्टताका उत्पाद है ।
  3. स्कोर गणना के पूरा होने के बाद, ' परिणाम ' निर्देशिका में, यह एक से अधिक फ़ाइलों में परिणाम बचाता है (जैसे, ' pop. csv ' के रूप में लोकप्रियता, ' dist. csv ' के रूप में विशिष्टता, caseolap स्कोर ' caseolap. csv ') के रूप में, सुनिश्चित करें । caseolap स्कोर परिकलन का सारांश भी तालिका 5में प्रस्तुत किया गया है ।
  4. ' लॉग ' निर्देशिका में लॉग संदेश पढ़ने के लिए 'caseolap_score_log. txt' मामले में इस प्रक्रिया विफल रहता है पर जाएँ । प्रक्रिया सफलतापूर्वक पूर्ण कर लिया है, तो डीबगिंग संदेश caseolap स्कोर परिकलन का लॉग फ़ाइल में मुद्रित किया जाएगा ।

Representative Results

नमूना परिणाम का उत्पादन करने के लिए, हम दो विषय शीर्षकों/descriptors में caseolap एल्गोरिथ्म लागू किया गया: "आयु समूह" और "पोषण और चयापचय रोगों" के रूप में उपयोग के मामले ।

आयु समूहों। हमने "आयु समूहों" (शिशु, बाल, किशोर, और वयस्क) के सभी 4 उपश्रेणियों को पाठ-क्यूब में कक्षों के रूप में चयनित किया है । प्राप्त मेटाडेटा और आँकड़े तालिका 3aमें दिखाए जाते हैं । पाठ-क्यूब कक्षों के बीच दस्तावेज़ों की संख्या की तुलना चित्र 6aमें प्रदर्शित की गई है । वयस्क में १७२,३९४ दस्तावेज़ हैं जो सभी कोशिकाओं में सबसे अधिक संख्या है । वयस्क और किशोर उपवर्गों में सबसे अधिक संख्या में साझा दस्तावेज़ (२६,८५८ दस्तावेज़) हैं. विशेष रूप से, इन दस्तावेजों में हमारी रुचि के निकाय शामिल थे (यानी, माइटोकॉन्ड्रियल प्रोटीन) । चित्रा 6b में वेन आरेख प्रत्येक कोशिका के भीतर पाए जाने वाले निकायों (यानी, माइटोकॉन्ड्रियल प्रोटीन) की संख्या और कोशिकाओं के बीच कई ओवरलैप के भीतर का प्रतिनिधित्व करता है । सभी आयु समूहों उपवर्गों के भीतर साझा प्रोटीन की संख्या १६२ है । वयस्क उपश्रेणी में अद्वितीय प्रोटीन (१५१) बच्चे (16), शिशु (8) और किशोर (1) के बाद सबसे अधिक संख्या में दर्शाया गया है । हम एक caseolap स्कोर के रूप में प्रोटीन आयु समूह के संघ की गणना की । शीर्ष 10 प्रोटीन (उनके औसत caseolap स्कोर के आधार पर) शिशु, बाल, किशोर और वयस्क उपश्रेणियाँ के साथ जुड़े स्टेरॉल 26-हाइड्रॉक्सीलेज, अल्फा क्रिस्टलिन बी चेन, 25-hydroxyvitamin D-1 अल्फा-हाइड्रॉक्सीलेज, सेरोट्रांसप्रिन, साइट्रेट सिंथेस, एल-सेरिल-trna, सोडियम/पोटेशियम-atpase सबयूनिट अल्फा-3, ग्लूटाथियोन एस-ट्रांसपेनेज ओमेगा-1, nadph: एड्रेनोडॉक्सिन ऑक्सीडोर्डक्टेस, और माइटोकॉन्ड्रियल पेप्टाइड मेथियोनिन sulfoxide रिडकटेज ( चित्रा 6cमें दिखाया गया है) । वयस्क उपश्रेणी 10 हीटमैप कोशिकाओं को एक उच्च तीव्रता के साथ किशोर, बच्चे और शिशु उपश्रेणी के हीटमैप कोशिकाओं की तुलना में प्रदर्शित करता है, यह दर्शाता है कि शीर्ष 10 माइटोकॉन्ड्रियल प्रोटीन वयस्क उपश्रेणी के लिए सबसे मजबूत संघों को दर्शाते हैं । माइटोकॉन्ड्रियल प्रोटीन स्टेरॉल 26-हाइड्रॉक्सीलेस सभी आयु उपश्रेणियों में उच्च संघों है जो अन्य 9 माइटोकॉन्ड्रियल प्रोटीन के हीटमैप कोशिकाओं की तुलना में उच्च तीव्रता वाले हीटमैप कोशिकाओं द्वारा प्रदर्शित किया जाता है । दो समूहों के बीच के स्कोर में निरपेक्ष अंतर के सांख्यिकीय वितरण एक ९९% विश्वास अंतराल के साथ मतलब अंतर के लिए निंनलिखित श्रेणी से पता चलता है: (1) ' adlt ' और ' inft ' के बीच का मतलब अंतर सीमा में निहित है (०.०२९ को ०.०४२), (2) मतलब ' adlt ' और ' chld ' के बीच का अंतर (०.०२१ से ०.०३०) श्रेणी में निहित है, (3) ' adlt ' और ' ADOL ' के बीच का अंतर श्रेणी में निहित है (०.०२० से ०.०२९), (4) ' अडोल ' और ' inft ' के बीच अंतर का मतलब रेंज में (०.०१५ से ०.०२२), (5) माध्य अंतर के बीच ' ADOL ' और ' chld ' रेंज में निहित है (०.००७ करने के लिए ०.०१०), (6) ' chld ' और ' inft ' के बीच अंतर मतलब रेंज में निहित है (०.०११ में ०.०१६).

पोषण और चयापचय रोगों । हम एक पाठ-घन में 2 कोशिकाओं को बनाने के लिए "पोषण और चयापचय रोगों" (यानी, चयापचय रोग और पोषण संबंधी विकारों) के 2 उपश्रेणियों का चयन किया । प्राप्त मेटाडेटा और आँकड़े तालिका 3bमें दिखाए जाते हैं । पाठ-क्यूब कक्षों के बीच दस्तावेज़ों की संख्या की तुलना चित्र 7aमें प्रदर्शित की गई है । उपश्रेणी चयापचय रोग में ५४,७६२ दस्तावेजों के बाद पोषण संबंधी विकारों में १९,१८१ दस्तावेजों शामिल हैं । उपश्रेणियाँ चयापचय रोग और पोषण संबंधी विकारों के पास ७,१०१ साझा दस्तावेज़ हैं. विशेष रूप से, इन दस्तावेजों में हमारी रुचि के निकाय शामिल थे (यानी, माइटोकॉन्ड्रियल प्रोटीन) । चित्रा 7b में वेन आरेख प्रत्येक कक्ष के भीतर पाया निकायों की संख्या का प्रतिनिधित्व करता है, और कोशिकाओं के बीच एक से अधिक ओवरलैप के भीतर. हम प्रोटीन की गणना-"पोषण और चयापचय रोगों" एक caseolap स्कोर के रूप में एसोसिएशन. शीर्ष 10 प्रोटीन (उनके औसत caseolap स्कोर के आधार पर) इस उपयोग के मामले के साथ जुड़े स्टेरॉल 26-hydroxylase, अल्फा क्रिस्टलिन बी चेन, एल-सेरिल-trna, साइट्रेट सिंथेस, trna स्यूड्रॉडाइन सिंथेस ए, 25-hydroxyvitamin D-1 अल्फा-hydroxylase, ग्लूटाथियोन एस-ट्रांसटेनेज ओमेगा-1, nadph: एड्रेनोडॉक्सिन ऑक्सीडोर्डक्टेस, माइटोकॉन्ड्रियल पेप्टाइड मेथियोनिन sulfoxide reductase, प्लाज्मिनोजेन उत्प्रेरक अवरोधक 1 ( चित्रा 7cमें दिखाया गया है) । आधे से अधिक (५४%) सभी प्रोटीन के उपश्रेणियाँ चयापचय रोगों और पोषण संबंधी विकार (३९७ प्रोटीन) के बीच साझा कर रहे हैं. दिलचस्प है, लगभग आधा (४३%) सभी संबंधित प्रोटीन के चयापचय रोग उपश्रेणी में अद्वितीय हैं (३०० प्रोटीन), जबकि पोषण संबंधी विकार प्रदर्शन केवल कुछ अद्वितीय प्रोटीन (३५). अल्फा क्रिस्टलिन बी चेन उपश्रेणी चयापचय रोगों के लिए सबसे मजबूत एसोसिएशन प्रदर्शित करता है । स्टेरॉल 26-हाइड्रॉक्सीलेस, माइटोकॉन्ड्रियल पोषण संबंधी विकारों उपश्रेणी में सबसे मजबूत एसोसिएशन को प्रदर्शित करता है, यह दर्शाता है कि यह माइटोकॉन्ड्रियल प्रोटीन पोषण संबंधी विकारों का वर्णन करने वाले अध्ययनों में अत्यधिक प्रासंगिक है । दो समूहों ' mbd ' और ' ntd ' के बीच स्कोर में निरपेक्ष अंतर के सांख्यिकीय वितरण एक ९९% विश्वास अंतराल के रूप में मतलब अंतर के लिए (०.०४६ को ०.०६१) सीमा दिखाता है ।

Figure 1
चित्रा 1. caseolap वर्कफ़्लो का डायनेमिक दृश्य । यह आंकड़ा caseolap कार्यप्रवाह में 5 प्रमुख चरणों का प्रतिनिधित्व करता है । चरण 1 में, कार्यप्रवाह डाउनलोड करने और टेक्स्ट दस्तावेज़ों (उदा., pubmed से) निकालने से शुरू होता है । चरण 2 में, निकाले गए डेटा प्रत्येक दस्तावेज़ के लिए एक डेटा शब्दकोश के साथ ही pmid मानचित्रण के लिए एक जाल बनाने के लिए पार्स कर रहे हैं. चरण 3 में, डेटा अनुक्रमण तेज और कुशल इकाई खोज की सुविधा के लिए आयोजित किया जाता है । चरण 4 में, उपयोगकर्ता द्वारा प्रदत्त श्रेणी जानकारी का कार्यान्वयन (उदा., प्रत्येक कक्ष के लिए रूट मेश) को टेक्स्ट-क्यूब बनाने के लिए किया जाता है । चरण 5 में, निकाय गणना कार्रवाई caseolap स्कोर की गणना करने के लिए अनुक्रमणिका डेटा पर लागू किया गया है । इन चरणों में एक सार्वजनिक डेटाबेस (उदा., pubmed) में उपलब्ध नवीनतम जानकारी के साथ सिस्टम को अद्यतन करने के लिए एक पुनरावृत् ति तरीके से दोहराया जाता है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 2
चित्रा 2. caseolap वर्कफ़्लो का तकनीकी आर्किटेक्चर । यह आंकड़ा caseolap कार्यप्रवाह के तकनीकी विवरण का प्रतिनिधित्व करता है । pubmed भंडार से डेटा pubmed FTP सर्वर से प्राप्त कर रहे हैं । उपयोगकर्ता अपने डिवाइस के माध्यम से बादल सर्वर (जैसे, एडब्ल्यूएस कनेक्टिविटी) को जोड़ता है और एक डाउनलोड पाइपलाइन जो डाउनलोड और बादल में एक स्थानीय भंडार के लिए डेटा निकालता है बनाता है । निकाले गए डेटा संरचित कर रहे हैं, सत्यापित, और एक डेटा पार्सिंग पाइपलाइन के साथ एक उचित प्रारूप करने के लिए लाया. इसके साथ ही, pmid मानचित्रण तालिका के लिए एक जाल पार्सिंग कदम है, जो पाठ-घन निर्माण के लिए प्रयोग किया जाता है के दौरान बनाया जाता है । पार्स किए गए डेटा दस्तावेज़ मेटाडेटा (उदा., pmid, मेश, प्रकाशन वर्ष) के साथ कुंजी-मान शब्दकोश स्वरूप की तरह एक JSON के रूप में संग्रहीत होते हैं । अनुक्रमण चरण और बल्क डेटा को हैंडल करने के लिए elasticsearch को कार्यान्वित करने से डेटा में सुधार करता है । अगला, पाठ घन pmid मानचित्रण करने के लिए जाल को लागू करने के द्वारा उपयोगकर्ता परिभाषित श्रेणियों के साथ बनाया गया है. जब पाठ-क्यूब निर्माण और अनुक्रमण चरण पूर्ण हो जाते हैं, तो एक एंटिटी गणना आयोजित की जाती है । निकाय गणना डेटा टेक्स्ट-क्यूब मेटाडेटा पर लागू किया जाता है. अंत में, caseolap स्कोर अंतर्निहित पाठ-घन संरचना के आधार पर परिकलित की जाती है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 3
चित्रा 3. पार्स किया गया दस्तावेज़ का एक नमूना । इस आंकड़े में पार्स किए गए डेटा का एक नमूना प्रस्तुत किया गया है । पार्स किए गए डेटा को एक कुंजी-मान जोड़ी के रूप में व्यवस्थित किया जाता है जो अनुक्रमण और दस्तावेज़ मेटाडेटा निर्माण के साथ संगत है । इस आंकड़े में, एक pmid (उदाहरण के लिए, "२५८९६९८७") एक कुंजी और संबद्ध जानकारी के संग्रह के रूप में सेवारत है (जैसे, शीर्षक, पत्रिका, प्रकाशन की तारीख, सार, मेष, पदार्थ, विभाग और स्थान) मूल्य के रूप में कर रहे हैं । इस तरह के दस्तावेज़ मेटाडाटा का बहुत पहले आवेदन pmid मानचित्रण (चित्रा 5 और तालिका 2), जो बाद में पाठ-घन बनाने के लिए और उपयोगकर्ता द्वारा प्रदान की संस्थाओं के साथ caseolap स्कोर की गणना करने के लिए कार्यान्वित किया जाता है के लिए जाल का निर्माण है और श्रेणियाँ. कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 4
चित्रा 4. मेष वृक्ष का एक नमूना । 'आयु समूह ' मेष वृक्ष nih डेटाबेस (मेष ट्री २०१८, < https://meshb.nlm.nih.gov/treeview >) में उपलब्ध ट्री डेटा संरचना से अनुकूलित है । मेष वर्णनकर्ता को उनके नोड आईडी (उदा., व्यक्ति [M01], आयु समूह [m 01.060], किशोर [m 01.060.057], वयस्क [m 01.060.116], चाइल्ड [m 01.060.406], शिशु [m 01.060.703]) के साथ कार्यान्वित किया जाता है ताकि किसी विशिष्ट मेश वर्णनकर्ता से संबंधित दस्तावेज़ों को एकत्रित किया जा सके ( तालिका 3a) । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 5
चित्रा 5. आयु समूहों में pmid मानचित्रण के लिए मेष । यह आंकड़ा एक बुलबुला साजिश के रूप में "आयु समूहों" में मेष वर्णनकर्ता के तहत एकत्र पाठ दस्तावेजों की संख्या (प्रत्येक एक pmid के साथ जुड़े) प्रस्तुत करता है । मेश pmid मैपिंग करने के लिए मेश वर्णनकर्ता के अंतर्गत संग्रहीत दस्तावेज़ों की सही संख्या प्रदान करने के लिए जनरेट किया गया है । ३,०६२,१४३ अद्वितीय दस्तावेज़ों की कुल संख्या 18 वंशज मेश वर्णनकर्ता के अंतर्गत एकत्रित की गई ( तालिका 2देखें). एक विशिष्ट मेष वर्णनकर्ता के तहत चयनित pmids की संख्या अधिक है, जाल वर्णनकर्ता का प्रतिनिधित्व बुलबुला की त्रिज्या बड़ा. उदाहरण के लिए, मेष वर्णनकर्ता "वयस्क" (१,७८६,३७१ दस्तावेज़ों) के अंतर्गत दस्तावेज़ों की उच्चतम संख्या एकत्रित की गई थी, जबकि मेश वर्णनकर्ता "शिशु, postmature" (६२ दस्तावेज़ों) के अंतर्गत पाठ दस्तावेज़ों की कटेंगे संख्या एकत्रित की गई थी.
pmid मानचित्रण के लिए जाल का एक अतिरिक्त उदाहरण के लिए दिया जाता है "पोषण और चयापचय रोगों" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). में कुल संख्या ४२२,०३९ अद्वितीय दस्तावेजों के तहत एकत्र किए गए ३६१ वंशज मेष वर्णनकर्ता में "पोषण और चयापचय रोग". दस्तावेजों की सबसे ज्यादा संख्या मेष वर्णनकर्ता "मोटापा" (७७,८८१ दस्तावेज़) के तहत एकत्र किए गए "मधुमेह मेलिटस, टाइप 2" (६१,९०१ दस्तावेजों) के बाद, जबकि "ग्लाइकोजन भंडारण रोग, प्रकार आठवीं" दस्तावेजों की कटेंगे संख्या प्रदर्शित (1 दस्तावेज़ ). एक संबंधित तालिका भी ऑनलाइन (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv) पर उपलब्ध है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 6
चित्रा 6. "आयु समूह" एक उपयोग के मामले के रूप में । यह आंकड़ा caseolap प्लेटफ़ॉर्म के एक उपयोग मामले से परिणाम प्रस्तुत करता है. इस उदाहरण में, प्रोटीन नाम और उनके संक्षिप्त (देखें नमूना तालिका में 4) निकायों और "आयु समूहों" कोशिकाओं सहित के रूप में लागू कर रहे हैं: शिशु (inft), बच्चे (chld), किशोर (अडोल), और वयस्क (adlt), उपश्रेणियाँ के रूप में कार्यान्वित कर रहे हैं (देखें तालिका 3a) । () "आयु समूहों" में दस्तावेज़ों की संख्या: यह हीट मैप "Aged समूह" के कक्षों में वितरित दस्तावेज़ों की संख्या दिखाता है (पाठ-घन निर्माण पर विवरण के लिए प्रोटोकॉल 4 और तालिका 3aदेखें) । दस्तावेजों की एक उच्च संख्या हीटमैप सेल की एक गहरा तीव्रता के साथ प्रस्तुत किया है (पैमाने देखें) । एक एकल दस्तावेज़ एक से अधिक कक्ष में शामिल किया जा सकता है । हीटमैप विकर्ण स्थिति के साथ एक सेल के भीतर दस्तावेज़ों की संख्या प्रस्तुत करता है (जैसे, adlt में १७२,३९४ दस्तावेज़ होते हैं जो सभी कक्षों में सबसे अधिक संख्या है) । nondiagonal स्थिति दो कक्षों के अंतर्गत गिरने वाले दस्तावेज़ों की संख्या का प्रतिनिधित्व करती है (उदा., adlt और ADOL के पास २६,८५८ साझा दस्तावेज़ हैं) । () . "आयु समूहों" में निकाय गणना: वेन आरेख "आयु समूहों" (inft, chld, ADOL, और adlt) का प्रतिनिधित्व करने वाले चार कक्षों में पाए जाने वाले प्रोटीन की संख्या का प्रतिनिधित्व करता है । सभी कोशिकाओं के भीतर साझा प्रोटीन की संख्या १६२ है । आयु समूह adlt अद्वितीय प्रोटीन (१५१) chld (16), inft (8) और अडोल (1) के बाद सबसे अधिक संख्या में दर्शाया गया है । () "आयु समूहों" में caseolap स्कोर प्रस्तुति: प्रत्येक समूह में सबसे अधिक औसत caseolap स्कोर के साथ शीर्ष 10 प्रोटीन एक हीट मानचित्र में प्रस्तुत कर रहे हैं । एक उच्च caseolap स्कोर हीटमैप सेल की एक गहरा तीव्रता के साथ प्रस्तुत किया है (पैमाने देखें). प्रोटीन नाम बाएँ स्तंभ पर प्रदर्शित किए जाते हैं और कोशिकाओं (inft, chld, अडोल, adlt) एक्स-अक्ष के साथ प्रदर्शित कर रहे हैं. कुछ प्रोटीन एक विशिष्ट आयु समूह के लिए एक मजबूत संबंध दिखाने (जैसे, स्टेरोल 26-hydroxylase, अल्फा क्रिस्टलिन बी चेन और एल-seryl-trna adlt के साथ मजबूत संघों है, जबकि सोडियम/पोटेशियम परिवहन atpase सबयूनिट अल्फा-3 एक मजबूत एसोसिएशन है inft के साथ) । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

Figure 7
चित्रा 7. "एक उपयोग के मामले के रूप में पोषण और चयापचय रोग": यह आंकड़ा caseolap प्लेटफ़ॉर्म के अन्य उपयोग के मामले से परिणाम प्रस्तुत करता है. इस उदाहरण में, प्रोटीन नाम और उनके संक्षिप्त ( तालिका 4पर नमूना देखें) संस्थाओं और दो कोशिकाओं सहित "पोषण और चयापचय रोग" के रूप में लागू कर रहे हैं: चयापचय रोग (mbd) और पोषण संबंधी विकार (ntd) के रूप में लागू कर रहे हैं उपश्रेणियां ( तालिका 3bदेखें) । (). "पोषण और चयापचय रोगों" में दस्तावेजों की संख्या: यह हीटमैप "पोषण और चयापचय रोगों" की कोशिकाओं में पाठ दस्तावेजों की संख्या को दर्शाया गया है (पाठ-घन निर्माण पर विवरण के लिए देखें प्रोटोकॉल 4 और तालिका 3 बी ). दस्तावेजों की एक उच्च संख्या हीटमैप सेल की एक गहरा तीव्रता के साथ प्रस्तुत किया है (स्केल देखें) । एक एकल दस्तावेज़ एक से अधिक कक्ष में शामिल किया जा सकता है । हीटमैप विकर्ण स्थिति के साथ एक सेल के भीतर दस्तावेज़ों की कुल संख्या प्रस्तुत करता है (उदा., mbd में ५४,७६२ दस्तावेज़ हैं जो दो कक्षों में सबसे अधिक संख्या है) । अविकर्ण स्थिति दो कक्षों द्वारा साझा किए गए दस्तावेज़ों की संख्या का प्रतिनिधित्व करती है (उदा., mbd और ntd में ७,१०१ साझा दस्तावेज़ हैं) । (). "पोषण और चयापचय रोगों" में निकाय गणना: venn आरेख "पोषण और चयापचय रोगों" (mbd और ntd) का प्रतिनिधित्व दो कोशिकाओं में पाया प्रोटीन की संख्या का प्रतिनिधित्व करता है । दो कक्षों के भीतर साझा प्रोटीन की संख्या ३९७ है । mbd सेल में ३०० अद्वितीय प्रोटीन दर्शाया गया है, और ntd सेल में ३५ अद्वितीय प्रोटीन दर्शाया गया है । (). "पोषण और चयापचय रोग" में caseolap स्कोर प्रस्तुति: "पोषण और चयापचय रोगों" में उच्चतम औसत caseolap स्कोर के साथ शीर्ष 10 प्रोटीन एक गर्मी के नक्शे में प्रस्तुत कर रहे हैं । एक उच्च caseolap स्कोर हीटमैप सेल की एक गहरा तीव्रता के साथ प्रस्तुत किया है (स्केल देखें) । प्रोटीन नाम बाएँ स्तंभ और कक्षों (mbd और ntd) पर प्रदर्शित किए जाते हैं x-अक्ष के साथ प्रदर्शित किए जाते हैं । कुछ प्रोटीन एक विशिष्ट रोग श्रेणी के लिए एक मजबूत सहयोग दिखाने (उदाहरण के लिए, अल्फा क्रिस्टलिन बी श्रृंखला चयापचय रोग और स्टेरोल 26-hydroxylase के साथ एक उच्च संबंध है पोषण संबंधी विकारों के साथ एक उच्च संबंध है). कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण देखने के लिए ।

समय व्यतीत (कुल समय का प्रतिशत) caseolap प्लेटफ़ॉर्म में चरण caseolap प्लेटफ़ॉर्म की एल्गोरिथ्म और डेटा संरचना एल्गोरिथ्म और डेटा संरचना की जटिलता चरणों का विवरण
४०% डाउनलोड करने और
पार्सिंग
पुनरावृत्ति और पेड़ पार्सिंग एल्गोरिदम नेस्टेड लूप और निरंतर गुणा के साथ पुनराकरण: o (n ^ 2), o (log n) । जहां ' n ' पुनरापरिवर्तन का नहीं है । डाउनलोड पाइपलाइन एक से अधिक फ़ाइलों पर प्रत्येक कार्यविधि iterates. किसी एकल दस्तावेज़ की पार्सिंग raw XML डेटा की ट्री संरचना पर प्रत्येक कार्यविधि चलाता है ।
30 अनुक्रमण, खोज और पाठ घन निर्माण पुनरावृत्ति, लोचदार खोज द्वारा खोज एल्गोरिदम (छंटाई, lucene सूचकांक, प्राथमिकता कतार, परिमित राज्य मशीनें, बिट घुमाव भाड़े, regex प्रश्नों) जटिलता से संबंधित elasticsearch (https://www.elastic.co/) दस्तावेज़ डेटा शब्दकोश पर पुनरावृत्ति प्रक्रिया को कार्यान्वित करके अनुक्रमित किए जाते हैं. पाठ-क्यूब निर्माण दस्तावेज़ मेटा-डेटा और उपयोगकर्ता-प्रदत्त श्रेणी जानकारी को कार्यान्वित करता है.
30 निकाय गणना और caseolap परिकलन अखंडता, लोकप्रियता, विशिष्टता गणना में पुनरावृत्ति o (1), o (n ^ 2), कई जटिलताओं से संबंधित caseolap स्कोर गणना के आधार पर पुनरावृत्ति प्रकार । एंटिटी गणना कार्रवाई दस्तावेज़ों को सूचीबद्ध करती है और सूची पर एक गणना कार्रवाई करती है । निकाय गणना डेटा का उपयोग caseolap स्कोर की गणना करने के लिए किया जाता है.

तालिका 1. एल्गोरिदम और जटिलताओं । यह तालिका प्रक्रियाओं (उदा., डाउनलोडिंग, पार्स करने), डेटा संरचना और caseolap प्लेटफ़ॉर्म में कार्यान्वित एल्गोरिथम के बारे में विवरण पर बिताए गए समय (कुल समय व्यतीत का प्रतिशत) पर जानकारी प्रस्तुत करती है. caseolap, लोचदार खोज नामक पेशेवर अनुक्रमण और खोज अनुप्रयोग कार्यान्वित करता है. इलास्टिक खोज और आंतरिक एल्गोरिदम से संबंधित जटिलताओं पर अतिरिक्त जानकारी (https://www.elastic.co) में पाया जा सकता है ।

मेष वर्णनकर्ता एकत्रित pmids की संख्या
वयस्क १,७८६,३७१
मध्यम आयु वर्ग १,६६१,८८२
आयु वर्ग १,१९८,७७८
किशोर ७०६,४२९
युवा वयस्क ४८६,२५९
बच्चा ४८०,२१८
वृद्ध, ८० और अधिक ४५३,३४८
बच्चा, पूर्वस्कूली २८५,१८३
शिशु २१८,२४२
शिशु, नवजात १६०,७०२
शिशु, असमय १७,७०१
शिशु, कम जंम वजन ५,७०७
कमजोर बुजुर्ग ४,८११
शिशु, बहुत कम जंम वजन ४,४५८
शिशु, गर्भावधि उम्र के लिए छोटे ३,१६८
शिशु, बहुत समय से पहले १,१७१
शिशु, अत्यंत कम जंम वजन १,००३
शिशु, पोस्टपरिपक्व ६२

तालिका 2. pmid मानचित्रण सांख्यिकी के लिए मेष । इस तालिका से सभी वंशज मेष वर्णनकर्ता "आयु समूह" और उनके एकत्र pmids (पाठ दस्तावेज़) की संख्या प्रस्तुत करता है । इन आँकड़ों का दृश्यावलोकन चित्रा ५में प्रस्तुत किया गया है.

शिशु (inft) बाल (chld) किशोर (ADOL) वयस्क (adlt)
मेष रूट आईडी m 01.060.703 m 01.060.406 m 01.060.057 m 01.060.116
डिसेंडेंट मेश वर्णनकर्ता की संख्या 9 2 1 6
चयनित pmids की संख्या १६,४६६ २६,९०७ ३५,१५८ १७२,३९४
मिले निकायों की संख्या २३३ २९७ २५७ ४४३
बी चयापचय रोग (mbd) पोषण संबंधी विकार (ntd)
मेष रूट आईडी c 18.452 c 18.654
डिसेंडेंट मेश की संख्या
वर्णनकर्ता
३०८ ५३
एकत्र किए गए pmids की संख्या ५४,७६२ १९,१८१
मिले निकायों की संख्या ६९७ ४३२

तालिका 3. पाठ-क्यूब मेटाडेटा । पाठ-क्यूब मेटाडेटा का एक तालिकाबद्ध दृश्य प्रस्तुत किया गया है. तालिकाएं श्रेणियों और मेष डिस्क्रिप्टर रूट्स और डिसेंडेंट्स के बारे में जानकारी प्रदान करती हैं, जो प्रत्येक कक्ष में दस्तावेज़ों को एकत्रित करने के लिए कार्यांवित की जाती हैं । तालिका संग्रहीत दस्तावेज़ों और निकायों के आँकड़े भी प्रदान करती है. () "आयु समूहों": यह शिशु (inft), बच्चे (chld), किशोर (अडोल), और वयस्क (adlt) और उनके जाल जड़ आईडी, वंशज मेष descriptors, चयनित pmids की संख्या और पाया निकायों की संख्या सहित "आयु समूहों" का एक सारणीबद्ध प्रदर्शन है । () "पोषण और चयापचय रोगों": यह चयापचय रोग (mbd) और पोषण संबंधी विकार (ntd) सहित उनके जाल जड़ आईडी, वंशज मेष वर्णनकर्ता की संख्या, की संख्या के साथ "पोषण और चयापचय रोगों" का एक सारणीबद्ध प्रदर्शन है चयनित pmids और पाया निकायों की संख्या ।

प्रोटीन नाम और समानार्थी शब्द संक्षिप्त रूप
एन-एसिटेग्लूटामेट सिन्थेस, माइटोकॉन्ड्रियल, एमिनो-एसिड एसिटेट्रांसटेरेनेज, एन-एसिटेलोग्लूटामेट सिन्थेस लॉन्ग फॉर्म; एन-एसिटेग्लूटामेट सिंथेस लघु रूप; N-एसिटेग्लूटामेट सिंथेस संरक्षित डोमेन प्रपत्र] (EC 2.3.1.1)
प्रोटीन/न्यूपिक एसिड डिग्लाइकेस डीजे-1 (मैलैलार्ड डिग्लाइकेस) (oncogene DJ1) (पार्किंसंस रोग प्रोटीन 7) (पार्किंसोनिज्म-जुड़े डिग्लाइकेस) (प्रोटीन डीजे-1) (ईसी 3.1.2.-) (ईसी 3.5.1.-) (EC 3.5.1.124) (उ-1)
पाइरुवेट कार्बोक्सिलेज, माइटोकॉन्ड्रियल (पाइरुविक कार्बोक्सिलेज) (EC 6.4.1.1) पीसीबी
bcl-2-बाइंडिंग घटक 3 (p53 up-एपोप्टोसिस का विनियमित न्यूनाधिक) (jfy-1)
BH3-इंटरैक्ट डोमेन डेथ एगोनिस्ट [BH3-इंटरैक्ट डोमेन डेथ एगोनिस्ट p15 (p15 बिड); BH3-इंटरैक्ट डोमेन डेथ एगोनिस्ट p13; BH3-इंटरैक्ट डोमेन डेथ एगोनिस्ट p11] (p22 BID) बोली (p13 BID) (p11 BID)
एटीपी सिंथेस सबयूनिट अल्फा, माइटोकॉन्ड्रियल (एटीपी सिंथेस F1 सबयूनिट अल्फा)
cytochrome P450 11b2, माइटोकॉन्ड्रियल (aldosterone synthase) (aldosterone-सिंथेसाइज़िंग एंजाइम) (CYPXIB2) (cytochrome p-450aldo) (cytochrome p-450aldo) (स्टेरॉयड 18-hydroxylase) (aldos) (EC 1.14.15.4) (EC 1.14.15.5)
६० केडीए हीट शॉक प्रोटीन, माइटोकॉन्ड्रियल (६० केडीए chaperonin) (chaperonin ६०) (CPN60) (हीट शॉक प्रोटीन ६०) (mitochondrial मैट्रिक्स प्रोटीन P1) (P60 लिम्फोसाइट प्रोटीन) (hsp-६०) (Hsp60) (HuCHA60) (EC 3.6.4.9)
caspase-4 (बर्फ और सीईडी-3 homolog 2) (protease TX) [में cleaved: caspase-4 सबयूनिट 1; caspase-4 उपइकाई 2] (casp-4) (EC 3.4.22.57) (इच-2) (आइस (rel)-II) (Mih1)

तालिका 4. नमूना एंटिटी तालिका । यह तालिका हमारे दो उपयोग मामलों में कार्यान्वित की गई निकायों का नमूना प्रस्तुत करती है: "आयु समूह" और "पोषण और चयापचय संबंधी रोग" (चित्र 6 और चित्र 7, तालिका 3a,B). निकायों में प्रोटीन नाम, समानार्थी शब्द और कोड शामिल हैं । प्रत्येक निकाय (इसके समानार्थी और संक्षिप्त नाम के साथ) एक के बाद एक चयनित होता है और अनुक्रमणित डेटा पर निकाय खोज कार्रवाई के माध्यम से (प्रोटोकॉल 3 और 5 देखें) को पास किया जाता है. खोज उन दस्तावेज़ों की सूची बनाती है जो निकाय गणना कार्रवाई को और अधिक सुविधाजनक बनाती हैं.

मात्रा यूज़र डिफ़ाइंड परिकलित मात्रा का समीकरण मात्रा का अर्थ
अखंडता हाँ नहीं १.० करने के लिए माना जाता उपयोगकर्ता परिभाषित एंटिटी की अखंडता । एक अर्थपूर्ण वाक्यांश का प्रतिनिधित्व करता है । संख्यात्मक मान १.० है जब यह पहले से ही एक स्थापित वाक्यांश है ।
लोकप्रियता नहीं हाँ चित्रा 1 में लोकप्रियता समीकरण (कार्यप्रवाह और एल्गोरिथ्म) संदर्भ से 5, ' सामग्री और तरीकों ' अनुभाग । किसी कक्ष में वाक्यांश की शब् द आवृत्ति के आधार पर । कक्ष की कुल अवधि आवृत्ति द्वारा सामांयीकृत । अवधि आवृत्ति में वृद्धि परिणाम कम हो गया है.
विशिष्टता नहीं हाँ चित्रा 1 में विशिष्टता समीकरण (कार्यप्रवाह और एल्गोरिथ्म) संदर्भ से 5, ' सामग्री और तरीकों ' अनुभाग । एक सेल के भीतर और पड़ोसी कोशिकाओं के पार शब्द आवृत्ति और दस्तावेज़ आवृत्ति के आधार पर । कुल अवधि आवृत्ति और दस्तावेज़ आवृत्ति द्वारा सामान्यीकृत. quantitatively, यह एक वाक्यांश एक विशिष्ट सेल में अद्वितीय है कि संभावना है.
caseolap स्कोर नहीं हाँ आरेख 1 (कार्यप्रवाह और एल्गोरिथ्म) में caseolap स्कोर समीकरण संदर्भ 5, ' सामग्री और विधियां ' अनुभाग से । अखंडता, लोकप्रियता, और विशिष्टता के आधार पर । संख्यात्मक मान हमेशा 0 से 1 में आता है । quantitatively caseolap स्कोर वाक्यांश-श्रेणी संबद्धता का प्रतिनिधित्व करता है

तालिका 5. caseolap समीकरण: caseolap एल्गोरिथ्म द्वारा विकसित किया गया था fangbo ताओ और जियावे Han एट अल. में २०१६1. संक्षेप में, इस तालिका में तीन घटकों से मिलकर caseolap स्कोर गणना प्रस्तुत करता है: अखंडता, लोकप्रियता, और विशिष्टता, और उनके जुड़े गणितीय अर्थ. हमारे उपयोग के मामलों में, प्रोटीन के लिए अखंडता स्कोर १.० (अधिकतम स्कोर) है क्योंकि वे स्थापित निकाय नाम के रूप में खड़े हैं । हमारे उपयोग के मामलों में caseolap स्कोर चित्र 6c और चित्र 7cमें देखा जा सकता है ।

Discussion

हम प्रदर्शित किया है कि caseolap एल्गोरिथ्म सार्थक अंतर्दृष्टि की निकासी के लिए शाब्दिक डेटा की बड़ी मात्रा पर एक ज्ञान आधारित श्रेणी के लिए एक वाक्यांश आधारित मात्रात्मक संबद्धता बना सकते हैं । हमारे प्रोटोकॉल के बाद, एक एक वांछित पाठ बनाने के लिए caseolap फ्रेमवर्क का निर्माण कर सकते हैं-घन और यों तो caseolap स्कोर गणना के माध्यम से इकाई श्रेणी संघों. प्राप्त कच्चे caseolap स्कोर विमीयता कमी, clustering, लौकिक और भौगोलिक विश्लेषण, साथ ही साथ एक ग्राफिकल डाटाबेस जो दस्तावेजों की अर्थ मानचित्रण सक्षम बनाता है के निर्माण सहित एकीकृत विश्लेषण के लिए लिया जा सकता है ।

एल्गोरिथ्म की प्रयोज्यता । यूज़र-डिफ़ाइंड एंटिटीज़ के उदाहरण, प्रोटीन्स के अलावा, जीन नामों, दवाओं, विशिष्ट संकेतों और लक्षणों की सूची उनके संक्षिप्त और समानार्थी शब्द सहित हो सकती है । इसके अलावा, वहां श्रेणी के चयन के लिए कई विकल्प है विशिष्ट उपयोगकर्ता की सुविधा के लिए जैव चिकित्सा विश्लेषण परिभाषित (जैसे, शरीर रचना विज्ञान [एक], अनुशासन और व्यवसाय [एच], घटनाएं और प्रक्रियाओं [जी]) । हमारे दो का उपयोग मामलों में, सभी वैज्ञानिक प्रकाशनों और उनके शाब्दिक डेटा medline खोज इंजन के रूप में pubmed का उपयोग कर डेटाबेस से प्राप्त कर रहे हैं, दोनों चिकित्सा के राष्ट्रीय पुस्तकालय द्वारा प्रबंधित । हालांकि, caseolap प्लेटफ़ॉर्म के अंय डेटाबेस के लिए लागू किया जा सकता है जिसमें मूलपाठ डेटा के साथ बायोमेडिकल दस्तावेज़ जैसे एफडीए प्रतिकूल इवेंट रिपोर्टिंग सिस्टम (faers) । यह एक खुला डेटाबेस चिकित्सा प्रतिकूल घटनाओं और एफडीए के लिए प्रस्तुत दवा त्रुटि रिपोर्टों के बारे में जानकारी से युक्त है । medline और faers के विपरीत, रोगियों से इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड युक्त अस्पतालों में डेटाबेस जनता के लिए खुला नहीं कर रहे हैं और स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही हिपाआ के रूप में जाना जाता अधिनियम द्वारा प्रतिबंधित कर रहे हैं.

caseolap एल्गोरिथ्म सफलतापूर्वक विभिंन प्रकार के डेटा (उदा., समाचार आलेखों)1पर लागू किया गया है बायोमेडिकल दस्तावेजों में इस एल्गोरिथ्म का कार्यान्वयन २०१८5में किया गया है. caseolap एल्गोरिथ्म के प्रयोज्यता के लिए आवश्यकताएं है कि प्रत्येक दस्तावेज़ अवधारणाओं के साथ संबद्ध कीवर्ड के साथ असाइन किया जाना चाहिए (उदाहरण के लिए, बायोमेडिकल प्रकाशनों में मेश वर्णनकर्ता, समाचार आलेखों में कीवर्ड) । अगर कीवर्ड नहीं मिले हैं, तो कोई भी शीर्ष प्रतिनिधि वाक्यांश एकत्र करने और हमारे प्रोटोकॉल को लागू करने से पहले निकाय सूची बनाने के लिए6,7 ऑटोफ्रेज़ लागू कर सकता है. हमारा प्रोटोकॉल autophrase को निष्पादित करने के लिए चरण प्रदान नहीं करता है ।

अन्य एल्गोरिदम के साथ तुलना. एक डेटा का उपयोग करने की अवधारणा-घन8,9,10 और एक पाठ-घन 2,3,4 नई प्रगति के साथ २००५ के बाद से विकसित किया गया है डेटा खनन अधिक लागू करने के लिए. डाटा माइनिंग और बिजनेस इंटेलिजेंस में ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP)11,12,13,14,15 की अवधारणा १९९३ पर वापस चली जाती है । OLAP, सामांय में, एकाधिक सिस्टमों से जानकारी एकत्रित करता है, और इसे बहु-आयामी स्वरूप में संग्रहीत करता है । डेटा माइनिंग में लागू किए गए विभिन्न प्रकार के OLAP सिस्टम हैं । उदाहरण के लिए (1) संकर लेनदेन/विश्लेषणात्मक प्रसंस्करण (htap)16,17, (2) बहुआयामी olap (molap)18,19-घन आधारित, और (3) आनुपतिक olap (rolap)20

विशेष रूप से, caseolap एल्गोरिथम की तुलना कई मौजूदा एल्गोरिदम के साथ की गई है, विशेष रूप से, उनके वाक्यांश फॉल्ट एंहांसमेंट के साथ, जिसमें TF-idf + seg, एमसीएक्स + seg, एमसीएक्स और segphrase शामिल हैं । इसके अलावा, repphrase (आरपी, भी segphrase + के रूप में जाना जाता है) अपने ही अपक्षरण विविधताओं के साथ तुलना की गई है, सहित (1) आरपी अखंडता को मापने के बिना शामिल (आरपी कोई INT), (2) आरपी लोकप्रियता उपाय शामिल बिना (आरपी कोई पॉप), और (3) आरपी के बिना विशिष्टता (आरपी कोई जिले) शामिल उपाय । बेंचमार्क परिणाम fangbo ताओ एट अल.1द्वारा अध्ययन में दिखाया गया है ।

डेटा माइनिंग पर अभी भी चुनौतियां हैं जो डेटाबेस से डेटा को सहेजने और पुनर्प्राप्त करने पर अतिरिक्त कार्यक्षमता जोड़ सकती हैं । संदर्भ-संवेदी अर्थ एनालिटिकल प्रोसेसिंग (caseolap) व्यवस्थित रूप से इलास्टिक खोज को लाखों दस्तावेज़ों (प्रोटोकॉल 5) के अनुक्रमण डेटाबेस बनाने के लिए लागू करता है । पाठ-क्यूब उपयोगकर्ता-प्रदत्त श्रेणियों (प्रोटोकॉल 6) के साथ अनुक्रमणित डेटा पर निर्मित एक दस्तावेज़ संरचना है । यह पाठ-क्यूब के कक्ष के भीतर और पूरे दस्तावेज़ों की कार्यक्षमता बढ़ाता है और किसी विशिष्ट कक्ष (प्रोटोकॉल 8) पर दस्तावेज़ और दस्तावेज़ आवृत्ति पर निकायों की शब्द आवृत्ति की गणना करने की अनुमति देता है । अंतिम caseolap स्कोर एक अंतिम स्कोर (प्रोटोकॉल 9) आउटपुट के लिए इन आवृत्ति गणना का इस्तेमाल करता है. २०१८ में, हम इस एल्गोरिथ्म को लागू करने के लिए ecm प्रोटीन और छह हृदय रोगों का अध्ययन करने के लिए प्रोटीन रोग संघों का विश्लेषण. इस अध्ययन का विवरण liem, d.a. एट अल.5द्वारा अध्ययन में पाया जा सकता है । यह दर्शाता है कि caseolap व्यापक रूप से रोगों और तंत्र की एक किस्म की खोज जैव चिकित्सा समुदाय में इस्तेमाल किया जा सकता है ।

एल्गोरिथ्म की सीमाएं । वाक्यांश खनन ही एक तकनीक का प्रबंधन और शाब्दिक डेटा से महत्वपूर्ण अवधारणाओं को पुनः प्राप्त है । एक गणितीय मात्रा (वेक्टर) के रूप में निकाय-श्रेणी संबद्धता की खोज करते समय, इस तकनीक को polarity (जैसे, सकारात्मक या नकारात्मक झुकाव) संबद्धता का पता लगाने में असमर्थ है । एक निर्दिष्ट निकायों और श्रेणियों के साथ पाठ cude दस्तावेज़ संरचना का उपयोग डेटा के मात्रात्मक संक्षिप्तीकरण का निर्माण कर सकते हैं, लेकिन सूक्ष्म granularities के साथ एक गुणात्मक अवधारणा तक नहीं पहुंचा जा सकता है । कुछ अवधारणाओं को लगातार अतीत से अब तक विकसित कर रहे हैं । किसी विशिष्ट निकाय-श्रेणी संबद्धता के लिए प्रस्तुत किए गए संक्षिप्तीकरण में पूरे साहित्य में सभी घटनाएं शामिल होती हैं. इस नवाचार के लौकिक प्रचार की कमी हो सकती है । भविष्य में, हम इन सीमाओं को संबोधित करने की योजना बना रहे हैं ।

भविष्य के अनुप्रयोगों । दुनिया में संचित डेटा का लगभग ९०% असंरचित टेक्स्ट डेटा में है । एक प्रतिनिधि वाक्यांश और पाठ में एम्बेडेड निकायों के संबंध ढूँढना नई प्रौद्योगिकियों के कार्यान्वयन के लिए एक बहुत ही महत्वपूर्ण कार्य है (जैसे, मशीन लर्निंग, जानकारी निष्कर्षण, आर्टिफिशियल इंटेलिजेंस). टेक्स्ट-डेटा मशीन को पठनीय बनाने के लिए, डेटा को डेटाबेस में संगठित करने की आवश्यकता होती है, जिस पर उपकरण की अगली परत लागू की जा सकती है । भविष्य में, इस एल्गोरिथ्म डेटा खनन जानकारी की पुनर्प्राप्ति और निकाय श्रेणी संघों के परिमाणन के लिए और अधिक कार्यात्मक बनाने में एक महत्वपूर्ण कदम हो सकता है.

Disclosures

लेखकों का खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

यह काम राष्ट्रीय हृदय, फेफड़ों, और रक्त संस्थान द्वारा भाग में समर्थित था: R35 HL135772 (पी पिंग के लिए); नेशनल इंस्टीट्यूट ऑफ जनरल मेडिकल साइंसेज: U54 GM114833 (P. Ping, K. Watson, और W. Wang); U54 GM114838 (to जे. हान); hellen & लैरी होग फाउंडेशन और डॉ एस setty से एक उपहार; और ucla (P. Ping) में T.C. laubisch बंदोबस्ती ।

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS - 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , Springer Science & Business Media. 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Tags

चिकित्सा अंक १४४ पाठ खनन डेटा विज्ञान चिकित्सा सूचना विज्ञान वाक्यांश खनन क्लाउड कंप्यूटिंग
क्लाउड-आधारित वाक्यांश खनन और यूज़र-डिफ़ाइंड वाक्यांश का विश्लेषण-जैव चिकित्सा प्रकाशनों में श्रेणी संघ
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Sigdel, D., Kyi, V., Zhang, A.,More

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter