हम नैदानिक मामले रिपोर्टों में जैव चिकित्सा अवधारणाओं का वर्णन पाठ की निकासी के लिए एक प्रोटोकॉल और संबंधित मेटाडाटा टेम्पलेट प्रस्तुत करते हैं । इस प्रोटोकॉल के माध्यम से उत्पादित संरचित पाठ मान नैदानिक आख्यान के हजारों के गहरे विश्लेषण का समर्थन कर सकते हैं.
नैदानिक मामले रिपोर्ट (सीसीआरएस) चिकित्सा में टिप्पणियों और अंतर्दृष्टि साझा करने का एक मूल्यवान साधन हैं । इन दस्तावेजों के रूप में बदलता है, और उनकी सामग्री कई, उपंयास रोग प्रस्तुतियों और उपचार के विवरण भी शामिल है । इस प्रकार अब तक, सीसीआरएस भीतर पाठ डेटा काफी हद तक unstructure्ड है, में गहराई से विश्लेषण के लिए इन उपयोगी डेटा प्रदान करने के लिए महत्वपूर्ण मानव और गणनात्मक प्रयास की आवश्यकता है । इस प्रोटोकॉल में, हम अक्सर सीसीआरएस भीतर मनाया विशिष्ट जैव चिकित्सा अवधारणाओं के लिए इसी मेटाडाटा की पहचान के लिए तरीकों का वर्णन । हम दस्तावेज़ एनोटेशन के लिए एक गाइड के रूप में एक मेटाडाटा टेंपलेट प्रदान करते हैं, पहचानने कि सीसीआरएस पर भव्य संरचना मैनुअल और स्वचालित प्रयास के संयोजन से पीछा किया जा सकता है । यहां प्रस्तुत दृष्टिकोण एक बड़े साहित्य कोष (जैसे, सीसीआरएस के हजारों) से अवधारणा से संबंधित पाठ के संगठन के लिए उपयुक्त है, लेकिन आसानी से अधिक ध्यान केंद्रित कार्यों या रिपोर्टों के छोटे सेट की सुविधा के लिए अनुकूलित किया जा सकता है । आने वाले संरचित पाठ डेटा पर्याप्त अर्थ संदर्भ के लिए अनुवर्ती पाठ विश्लेषण कार्यप्रवाह की एक किस्म का समर्थन भी शामिल है: मेटा-विश्लेषण कैसे CCR विस्तार को अधिकतम करने के लिए निर्धारित करने के लिए, दुर्लभ रोगों के महामारी विज्ञान के अध्ययन, और के मॉडलों के विकास चिकित्सा भाषा सभी संरचित पाठ डेटा के उपयोग के माध्यम से और अधिक साकार और प्रबंधनीय बनाया जा सकता है ।
नैदानिक मामले रिपोर्टें (सीसीआरएस) चिकित्सा में टिप्पणियों और अंतर्दृष्टि साझा करने का एक मूलभूत साधन हैं । ये चिकित्सकों और मेडिकल छात्रों के लिए संचार और शिक्षा के बुनियादी तंत्र के रूप में सेवा करते हैं । ऐतिहासिक, सीसीआरएस भी उभरते रोगों के खातों प्रदान की है, उनके उपचार, और उनके आनुवंशिक पृष्ठभूमि1,2,3,4। उदाहरण के लिए, १८८५ में लुई पाश्चर द्वारा मानव रेबीज का पहला उपचार5,6 और रोगियों में पेनिसिलिन के पहले आवेदन7 दोनों सीसीआरएस के माध्यम से सूचित किया गया. से अधिक १,८७०,००० सीसीआरएस अप्रैल २०१८ के रूप में प्रकाशित किया गया है, पिछले दशक के भीतर आधे से अधिक एक लाख के साथ; पत्रिकाओं के लिए इन रिपोर्टों8के लिए नए स्थानों प्रदान जारी है । हालांकि रूप और सामग्री में अद्वितीय, सीसीआरएस पाठ डेटा है कि बड़े पैमाने पर unstructured होते हैं, एक विशाल शब्दावली होते हैं, और संबंधित घटनाएं, एक संरचित संसाधन के रूप में उनके उपयोग सीमित । विस्तृत मेटाडेटा निकालने के लिए महत्वपूर्ण प्रयास की आवश्यकता है (यानी, “डेटा के बारे में डेटा”, या इस मामले में, दस्तावेज़ सामग्री के विवरण) सीसीआरएस से और उन्हें एक खोजने योग्य, सुलभ, संप्रचलित, और पुन: प्रयोज्य (निष्पक्ष)9 डेटा के रूप में स्थापित संसाधन.
यहां, हम पाठ और संख्यात्मक मूल्यों को निकालने के लिए प्रकाशित सीसीआरएस भीतर विशिष्ट जैव चिकित्सा अवधारणाओं का वर्णन मानकीकरण के लिए एक प्रक्रिया का वर्णन । इस पद्धति में कोई मेटाडेटा टेंपलेट शामिल है । इस प्रक्रिया के ओवरव्यू के लिए चित्र 1 देखें । एनोटेशन प्रक्रिया के एक बड़े संग्रह के लिए आवेदन (उदाहरण के लिए, रोग प्रस्तुति के एक विशिष्ट प्रकार के कई हजार) एक प्रबंधनीय और व्याख्या नैदानिक ग्रंथों के संरचित सेट की विधानसभा परमिट, मशीन को प्राप्त करने पठनीय प्रलेखन और जैव चिकित्सा घटनाएं प्रत्येक नैदानिक प्रस्तुति के भीतर एंबेडेड । हालांकि डेटा स्वरूपों जैसे HL7 द्वारा प्रदान की (उदाहरणके लिए, संदेश मानक10 के संस्करण 3 या तेजी से स्वास्थ्य अंतर संसाधन [FHIR]11), LOINC12, और अंतरराष्ट्रीय सांख्यिकीय के संशोधन 10 रोगों और संबंधित स्वास्थ्य समस्याओं का वर्गीकरण (आईसीडी 10)13 नैदानिक टिप्पणियों का वर्णन और आदान प्रदान के लिए मानक प्रदान करते हैं, वे इन डेटा के आसपास के पाठ पर कब्जा नहीं है, और न ही वे करने के लिए इरादा कर रहे हैं । हमारी पद्धति के परिणाम सीसीआरएस पर संरचना लागू करने और बाद में विश्लेषण, नियंत्रित शब्दावलियों और कोडिंग प्रणालियों (जैसे, आईसीडी 10), और/या ऊपर सूचीबद्ध नैदानिक डेटा प्रारूपों के लिए रूपांतरण की सुविधा के लिए सबसे अच्छा उपयोग किया जाता है .
खनन सीसीआरएस बायोमेडिकल और नैदानिक सूचना के भीतर काम का एक सक्रिय क्षेत्र है । हालांकि पिछले प्रस्तावों केस रिपोर्ट की संरचना का मानकीकरण करने के लिए (उदाहरणके लिए, HL7 v 2.514 या मानकीकृत phenotype शब्दावली15का उपयोग कर) सराहनीय हैं, यह संभावना है कि सीसीआरएस अलग से एक किस्म का पालन जारी रहेगा प्राकृतिक भाषा रूपों और दस्तावेज़ लेआउट, के रूप में वे पिछली सदी के बहुत से है । आदर्श शर्तों के तहत, नए मामले की रिपोर्ट के लेखक देखभाल दिशानिर्देश16 का पालन सुनिश्चित करने के लिए वे व्यापक हैं । दोनों प्राकृतिक भाषा और चिकित्सा अवधारणाओं को इसके संबंध के प्रति संवेदनशील दृष्टिकोण इसलिए नए और संग्रहीत रिपोर्टों के साथ काम करने में सबसे प्रभावी हो सकता है । इस तरह के शिल्प17 और जीव विज्ञान और बेडसाइड (i2b2)18 उपचारात्मक समर्थन प्राकृतिक भाषा प्रसंस्करण (एनएलपी) दृष्टिकोण अभी तक विशेष रूप से सीसीआरएस या नैदानिक आख्यान पर ध्यान केंद्रित नहीं करने के लिए सूचना के द्वारा उत्पादित उन के रूप में संसाधन । इसी तरह, cTAKES19 और क्लैंप20 के रूप में चिकित्सा एनएलपी उपकरण विकसित किया गया है, लेकिन आम तौर पर विशिष्ट शब्दों या वाक्यांशों की पहचान (यानी, संस्थाओं) दस्तावेजों के भीतर बल्कि सामांय अवधारणाओं सामांयतः सीसीआरएस में वर्णित से ।
हम आमतौर पर सीसीआरएस के भीतर शामिल सुविधाओं के लिए एक मानकीकृत मेटाडाटा टेम्पलेट तैयार की है । यह टेंपलेट सुविधाओं को परिभाषित करने के लिए सीसीआरएस पर संरचना थोपना-दस्तावेज़ सामग्री की गहराई से तुलना के लिए एक आवश्यक अग्रदूत साबित-अभी तक पर्याप्त लचीलेपन के लिए अर्थ संदर्भ बनाए रखने के लिए अनुमति देता है । हालांकि हम इस टेम्पलेट के साथ जुड़े प्रारूप तैयार किया है दोनों मैनुअल एनोटेशन और गणना की सहायता पाठ खनन के लिए उपयुक्त हो, हम यह सुनिश्चित किया है कि मैनुअल व्याख्याओं के लिए उपयोग करने के लिए विशेष रूप से आसान है । हमारा दृष्टिकोण ध्यान से अधिक जटिल से अलग है (और इसलिए, कम तुरंत अप्रशिक्षित शोधकर्ताओं को समझ में आता है) ऐसी21FHIR के रूप में चौखटे । निम्न प्रोटोकॉल प्रत्येक टेम्पलेट डेटा प्रकार के लिए संगत दस्तावेज़ सुविधाओं को अलग करने के लिए कैसे का वर्णन करता है, एक एकल CCR में उन के लिए संगत मानों का एक सेट के साथ ।
टेंपलेट के भीतर डेटा प्रकार है उन सबसे सीसीआरएस और रोगी के लिए वर्णनात्मक-सामांय में चिकित्सा दस्तावेजों केंद्रित । इन सुविधाओं के एनोटेशन, मुख्य रूप से यह संरचना देकर CCR पाठ की खोज, पहुंच, अंतर, और reusability को बढ़ावा देता है । डेटा प्रकार चार सामान्य श्रेणियों में हैं: दस्तावेज़ और एनोटेशन पहचान, मामले की रिपोर्ट पहचान (यानी, दस्तावेज़-स्तर के गुण), चिकित्सा सामग्री अवधारणाओं (मुख्य रूप से अवधारणा स्तर के गुण), और पावती (यानी , धन के सबूत उपलब्ध कराने की सुविधाएं) । इस एनोटेशन प्रक्रिया में, प्रत्येक दस्तावेज़ में एक CCR का पूरा पाठ शामिल है, किसी भी दस्तावेज़ सामग्री मामले को स्वतंत्र सामग्री को छोड़ (जैसे, प्रयोगात्मक प्रोटोकॉल) । सीसीआरएस आम तौर पर १,००० से कम प्रत्येक शब्द हैं; एक एकल कोष आदर्श एक ही ग्रंथसूची डेटाबेस द्वारा अनुक्रमित किया जाना चाहिए और एक ही लिखित भाषा में होना चाहिए ।
दृष्टिकोण के उत्पाद यहां वर्णित है, जब एक CCR कॉर्प के लिए आवेदन किया है, व्याख्या नैदानिक पाठ का एक संरचित सेट है । हालांकि इस पद्धति को पूरी तरह से मैंयुअल रूप से किया जा सकता है और किसी भी सूचना के अनुभव के बिना डोमेन विशेषज्ञों द्वारा किया जा करने के लिए डिज़ाइन किया गया है, यह प्राकृतिक भाषा संसाधन के ऊपर निर्दिष्ट दृष्टिकोण पूरक है और डेटा के लिए उपयुक्त प्रदान करता है अभिकलनी विश्लेषण । इस तरह के विश्लेषणों ब्याज की उन लोगों को जो अक्सर सीसीआरएस, सहित पढ़ने से परे शोधकर्ताओं के दर्शकों के लिए हो सकता है:
सीसीआरएस पर संरचना लागू करने के कई बाद बेहतर चिकित्सा भाषा और जैव चिकित्सा घटना को समझने के प्रयासों का समर्थन कर सकते हैं ।
सीसीआरएस के लिए मानकीकृत मेटाडेटा टेम्पलेट का कार्यांवयन उनकी सामग्री को अधिक निष्पक्ष बना सकता है, उनकी ऑडियंस का विस्तार कर सकते हैं, और उनके अनुप्रयोगों का विस्तार करते हैं । चिकित्सा संचार में शैक्षिक उपकरण के रूप में सीसीआरएस के पारंपरिक उपयोग के बाद, स्वास्थ्य सेवा प्रशिक्षुओं (जैसे, चिकित्सा छात्रों, इंटर्न, और अध्येता), और बायोमेडिकल शोधकर्ताओं कि संक्षेप मामले रिपोर्ट सामग्री और अधिक तेजी से सक्षम मिल सकता है समझ. सीसीआरएस के साथ मेटाडाटा मानकीकरण की सबसे बड़ी ताकत है, तथापि, यह है कि अनुक्रमण इन डेटा अंयथा अलग टिप्पणियों व्याख्यात्मक पैटर्न में बदल देती है । यहां दिए गए प्रोटोकॉल सीसीआरएस के साथ कार्य करने के लिए कार्यप्रवाह में पहले चरण के रूप में कार्य कर सकते हैं, चाहे इस कार्यप्रवाह में महामारी विज्ञान विश्लेषण, पोस्ट-मार्केटिंग दवा या उपचार निगरानी, या रोगजनन या चिकित्सीय प्रभावकारिता के व्यापक सर्वेक्षण शामिल हों । संरचित सीसीआरएस के भीतर की पहचान की सुविधाओं को विशेष रूप से दुर्लभ परिस्थितियों के लिए रोग प्रस्तुतियों और उपचार पर ध्यान केंद्रित शोधकर्ताओं के लिए एक उपयोगी संसाधन प्रदान कर सकते हैं । नैदानिक शोधकर्ताओं पिछले उपचार परहेजों पर डेटा दर्ज लक्षण या साइड इफेक्ट और देखभाल के पिछले मानकों के तहत सुधार की डिग्री का विश्लेषण करने के लिए मिल सकता है । डेटा भी एक नई प्रभावकारिता पर आधारित उपचार के व्यापक विश्लेषण ड्राइव कर सकते हैं, प्रतिकूल प्रभाव या विषाक्तता की कमी, या नशीली दवाओं पर लिंग में अंतर लक्ष्यीकरण, आयु समूह, या आनुवंशिक पृष्ठभूमि.
संरचित मेटाडेटा द्वारा प्रदत्त लाभ इसी प्रकार गणनात्मक वर्कफ़्लोज़ को पार्स करने या मॉडल चिकित्सा भाषा के लिए लागू होते हैं. संरचित CCR सुविधाएं उन क्षेत्रों के प्रमाण भी प्रदान कर सकती है जहां रिपोर्ट लेखक अधिक आसानी से मशीन-पठनीय (और कुछ मामलों में, मानव-पठनीय) सामग्री प्रदान कर सकते हैं । सीसीआरएस के बीच विचरण स्पष्ट रूप से प्रदान की टिप्पणियों की कमी से परिणाम कर सकते हैं: उदाहरण के लिए , एक रोगी की सटीक आयु निर्दिष्ट नहीं किया जा सकता है । इसी तरह, चिकित्सकों अगर निदान या उनके परिणाम तुच्छ माना जाता था परीक्षणों का उल्लेख नहीं कर सकते हैं । में गहराई से विश्लेषण के लिए आवश्यक अंतराल के उदाहरण प्रदान करके, सीसीआरएस पर संरचना लागू करने संभावित सुधार पर प्रकाश डाला गया । एक व्यापक परिप्रेक्ष्य में, चिकित्सा दस्तावेजों से संरचित पाठ डेटा की अधिक से अधिक उपलब्धता प्राकृतिक भाषा प्रसंस्करण (एनएलपी) को स्वास्थ्य24,25में बड़े डेटा से सीखने के प्रयासों का समर्थन करता है ।
The authors have nothing to disclose.
यह काम राष्ट्रीय हार्ट, फेफड़े, और रक्त संस्थान द्वारा भाग में समर्थित किया गया था: R35 HL135772 (पी. पिंग करने के लिए); राष्ट्रीय जनरल चिकित्सा विज्ञान संस्थान: U54 GM114833 (के लिए पी. पिंग, के. वाटसन, और डब्ल्यू वांग); नेशनल इंस्टिट्यूट ऑफ़ बायोमेडिकल इमेजिंग और जैव इंजीनियरिंग: T32 EB016640 (to A. बुि); होग फाउंडेशन और Dr. S. Setty से एक उपहार; और UCLA में T.C. Laubisch बंदोबस्ती (पी. पिंग करने के लिए) ।
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |