نحن نقدم نموذج البروتوكول وبيانات التعريف المقترنة لاستخراج نص يصف المفاهيم الطبية الحيوية في تقارير الحالات السريرية. قيم النص منظم المنتجة من خلال هذا البروتوكول يمكن دعم تحليل عميق لآلاف الروايات السريرية.
تقارير الحالات السريرية (المستخدمة) وسيلة قيمة لتبادل الملاحظات والأفكار في مجال الطب. يختلف شكل هذه الوثائق، ومضمونها ويشمل توصيف المرض رواية العديدة، العروض التقديمية والعلاجات. وحتى الآن، بيانات النص داخل المستخدمة غير منظم إلى حد كبير، التي تتطلب بذل جهد كبير على البشرية والحسابية لتقديم هذه البيانات مفيدة لتحليل متعمق. في هذا البروتوكول، يصف لنا طرق لتحديد بيانات التعريف المقابل للمفاهيم الطبية محددة كثيرا ما لوحظ داخل المستخدمة. نحن نقدم قالب بيانات تعريف كدليل للوثيقة التعليق التوضيحي، وإذ تسلم بأن فرض بنية على المستخدمة قد تكون تتبعها مجموعات من الجهد اليدوي والآلي. النهج الذي قدم هنا هو المناسب للمنظمة المتعلقة بمفهوم النص من مجموعة كبيرة من أدب (مثلاً، الآلاف من المستخدمة) ولكن يمكن تكييفها بسهولة لتسهيل مهام أكثر تركيزاً أو مجموعات صغيرة من التقارير. تتضمن البيانات النص منظم الناتجة عن ذلك السياق الدلالي كافية لدعم مجموعة متنوعة من مهام سير العمل في تحليل النص اللاحق: التحاليل التلويه لتحديد كيفية تحقيق أقصى قدر من مركز الحقوق الدستورية بالتفصيل، الدراسات الوبائية للأمراض النادرة، وتطوير نماذج من اللغة الطبية كل ما يجوز أكثر قابلة للتحقيق ويمكن التحكم فيها من خلال استخدام بيانات النص منظم.
تقارير الحالات السريرية (المستخدمة) وسيلة أساسية لتبادل الملاحظات والأفكار في مجال الطب. هذه بمثابة إليه أساسية للاتصال والتعليم للأطباء وطلاب الطب. وتاريخيا، المستخدمة كما قدمت حسابات أمراض الناشئة وتلك العلاجات وهذه الخلفيات الوراثية1،2،،من34. على سبيل المثال، أول علاج داء الكلب البشري بلويس باستور في عام 18855،6 وأول تطبيق للبنسلين في المرضى الذين كانوا7 سواء أبلغت من خلال المستخدمة. وقد نشرت المستخدمة أكثر من 1.87 مليون اعتبارا من نيسان/أبريل 2018، مع ما يزيد على نصف مليون شخص خلال العقد الماضي؛ دفاتر يومية مستمرة لتوفير أماكن جديدة لهذه التقارير8. ولو فريدة في الشكل والمضمون، تحتوي على بيانات نصية التي إلى حد كبير غير منظم المستخدمة تحتوي على مفردات شاسعة، والقلق الظواهر المترابطة، والحد من استخدامها كمورد منظم. مطلوب بذل جهد كبير لاستخراج البيانات الوصفية التفصيلية (أي، “بيانات عن البيانات”، أو في هذه الحالة، وصف لمحتويات الوثيقة) من المستخدمة وتنشئ لهم كبيانات للايجاد وموجودا وقابلاً للتشغيل المتداخل، والقابل لإعادة الاستخدام (معرض)9 الموارد.
هنا، نحن تصف عملية لاستخراج النص والقيم العددية لتوحيد وصف المفاهيم الطبية محددة داخل المستخدمة المنشورة. وتشمل هذه المنهجية قالب بيانات تعريف لتوجيه الشرح؛ انظر الشكل 1 لمحة عامة عن هذه العملية. تطبيق عملية التعليق التوضيحي على مجموعة كبيرة من التقارير (مثلاً، عدة آلاف من نوع معين من المرض العرض التقديمي) تسمح الجمعية لمجموعة من النصوص السريرية المشروح، يمكن التحكم فيها ومنظم تحقيق آليا الوثائق والظواهر البيولوجية الطبية المضمنة في كل عرض تقديمي السريرية. على الرغم من أن البيانات تنسيقات مثل تلك التي توفرها HL7 (مثلاً.، الإصدار 3 ل “المراسلة الموحدة”10 أو “موارد التشغيل المتداخل الرعاية الصحية سريعة” [فر]11)، لوينك12، وتنقيح 10 “الإحصائية الدولية” تصنيف الأمراض والمشاكل الصحية ذات الصلة (ICD-10)13 توفير معايير لوصف وتبادل الملاحظات السريرية، لا يتم التقاط النص المحيطة بهذه البيانات، ولا أنها يراد بها. تستخدم أفضل نتائج أعمالنا المنهجية لفرض هيكل على المستخدمة وتيسير التحليل اللاحق، التطبيع من خلال المفردات الخاضعة للرقابة ونظم الترميز (على سبيل المثال-، التصنيف الدولي للأمراض-10)، و/أو التحويل إلى تنسيقات البيانات السريرية المذكورة أعلاه .
التعدين المستخدمة منطقة نشطة للعمل ضمن المعلوماتية الطبية والسريرية. على الرغم من أن المقترحات السابقة لتوحيد الهيكل قضية التقارير (مثلاً. أو استخدام HL7 v2.514 أو توحيد المصطلحات النمط الظاهري15) جديرة بالثناء، فمن المحتمل أن المستخدمة وسوف تواصل اتباع مجموعة متنوعة من مختلف أشكال اللغة الطبيعية وتخطيطات الوثيقة، كما أنها قد لجزء كبير من القرن الماضي. في ظروف مثالية، اتبع المؤلف تقارير جديدة عن حالة الرعاية المبادئ التوجيهية16 التأكد من أنها شاملة. ولذلك قد يكون النهج الحساسة للغة الطبيعية وعلاقتها بالمفاهيم الطبية الأكثر فعالية في التعامل مع تقارير جديدة والمؤرشفة. الموارد مثل الحرف17 وتلك التي تنتجها المعلوماتية “إدماج البيولوجيا” و curation18 السرير (i2b2) تدعم نهج معالجة اللغة الطبيعية (NLP) حتى الآن لم تفعل ذلك على وجه الخصوص التركيز على المستخدمة أو السرد السريرية. وبالمثل، قد وضعت أدوات البرمجة اللغوية العصبية الطبية مثل كتكس19 و20 من المشبك لكن عموما تحديد كلمات معينة أو العبارات (أي، الكيانات) ضمن الوثائق بدلاً من المفاهيم العامة عادة الموصوفة في المستخدمة.
لقد قمنا بتصميم قالب بيانات تعريف موحد للميزات المضمنة عادة داخل المستخدمة. هذا القالب بتعريف ميزات فرض بنية على المستخدمة – مؤشرا أساسيا لمقارنات معمقة لمحتويات الوثيقة-تسمح بالمرونة الكافية للاحتفاظ بالسياق الدلالي. ولو قمنا بتصميم الشكل المقترن مع هذا القالب لتكون ملائمة للشرح اليدوي والتعدين النص ساعدت حسابياً، قد كفلنا خاصة سهلة الاستعمال ماسحين اليدوي. ملحوظة يختلف نهجنا أطر مثل فر21من أكثر تعقيداً (ومن ثم أقل الباحثين فورا مفهومة لغير المدربين). البروتوكول التالية تصف كيفية عزل ميزات الوثيقة المقابلة لكل نوع بيانات في القالب، مع مجموعة واحدة من القيم المطابقة لتلك التي في CCR واحد.
أنواع البيانات داخل القالب تلك الأكثر وصفية المستخدمة والوثائق الطبية تركز على المريض بشكل عام. تعليق توضيحي لهذه الميزات يعزز findability وإمكانية الوصول وإمكانية التشغيل المتداخل، وإعادة استخدام النص CCR، أساسا بإعطائه بنية. أنواع البيانات في أربع فئات عامة: تعريف الوثيقة والشرح والتقرير قضية تحديد الهوية (أي خصائص مستوى المستند) ومفاهيم المحتوى الطبي (خصائص مفهوم مستوى الدرجة الأولى) وشكر وعرفان (أي ، ميزات توفير الأدلة للتمويل). في هذه العملية الشرح، تتضمن كل وثيقة النص الكامل CCR، مع حذف أي مواد محتويات وثيقة مستقلة للقضية (مثل البروتوكولات التجريبية). المستخدمة بشكل عام أقل من 1000 كلمة كل؛ مجموعة واحدة من الناحية المثالية ينبغي فهرستها بنفس قاعدة البيانات الببليوغرافية وتكون بنفس اللغة المكتوبة.
المنتج للنهج المذكور هنا، عند تطبيقه على مجموعة مركز الحقوق الدستورية، مجموعة منظمة من النص المشروح السريرية. بينما هذه المنهجية يمكن أن يؤديها تماما يدوياً، وقد صمم على أن يتولى خبراء المجال دون أي خبرة في المعلوماتية، وهو يكمل نهج معالجة اللغات الطبيعية المحددة أعلاه ويقدم البيانات المناسبة التحليل الحسابي. قد تكون هذه التحليلات التي تهم جماهير باحثين وراء أولئك الذين كثيرا ما قرأت المستخدمة، بما في ذلك:
فرض بنية على المستخدمة يمكن أن تدعم العديد من الجهود اللاحقة لفهم أفضل للغة الطبية والظواهر البيولوجية-الطبية.
تنفيذ قالب بيانات التعريف الموحد للمستخدمة يمكن أن تجعل على محتوى المعرض أكثر وتوسيع نطاق جمهورها وتقديم طلباتهم. في أعقاب استخدام التقليدية المستخدمة كأدوات تعليمية في الاتصالات الطبية، المتدربين الرعاية الصحية (مثلاً، طلاب الطب والمتدربين والزملاء)، والباحثين الطبية قد تجد أن محتويات تقرير حالة ملخصة تمكين أكثر سرعة الفهم. بيد أن أكبر قوة لتوحيد بيانات التعريف مع المستخدمة، أن الفهرسة هذه التحويلات البيانات وإلا تعزل الملاحظات إلى أنماط التفسير. يمكن البروتوكول المقدمة هنا بمثابة الخطوة الأولى في سير العمل للعامل مع المستخدمة، ما إذا كان سير العمل هذا يتكون من التحليل الوبائي أو المخدرات مرحلة ما بعد التسويق أو مراقبة العلاج أو استقصاءات أوسع المرضية أو الفعالية العلاجية. منظم الميزات المحددة ضمن المستخدمة يمكن أن توفر مرجعاً مفيداً للباحثين تركز على العروض المرض والعلاج، خاصة بالنسبة للحالات النادرة. قد تجد الباحثين السريرية البيانات في نظم المعالجة السابقة لتحليل الأعراض المسجلة أو الآثار الجانبية ودرجة التحسن وفقا للمعايير السابقة للرعاية. قد محرك البيانات أيضا تحليلات أوسع نطاقا علاجات جديدة تستند إلى الكفاءة، عدم وجود آثار ضارة أو سمية، أو المخدرات تستهدف الاختلافات في الجنس أو الفئة العمرية، أو الخلفية الوراثية.
الفوائد التي توفرها منظم بيانات التعريف المثل ينطبق على مهام سير العمل الحاسوبية المصممة لتحليل أو نموذج اللغة الطبية. يمكن أيضا توفير منظم CCR ميزات محتوى دليل للمجالات التي قد توفر فيها مؤلفي التقرير آليا بسهولة أكبر (وفي بعض الحالات، الإنسان للقراءة). الفرق بين المستخدمة يمكن أن تنجم عن نقص في الملاحظات المقدمة صراحة: مثلاً، لا يمكن تحديد سن المريض بدقة. وبالمثل، قد لا أذكر الأطباء الاختبارات إذا كان التشخيص أو نتائجها تعتبر تافهة. بتقديم أمثلة من الثغرات اللازمة للتحليل المتعمق، وفرض بنية على المستخدمة يبرز التحسينات المحتملة. من منظور أوسع نطاقا، يدعم زيادة توافر البيانات النص منظم من الوثائق الطبية معالجة (البرمجة اللغوية العصبية) الجهود الرامية إلى الاستفادة من البيانات الكبيرة في الرعاية الصحية24،25اللغة الطبيعية.
The authors have nothing to disclose.
هذا العمل كان يدعمها في الجزء الوطني للقلب والرئة والدم المعهد: HL135772 R35 (إلى ص Ping)؛ المعهد الوطني للعلوم الطبية العامة: GM114833 U54 (إلى Ping ص ك. واتسون وجورج وانغ)؛ المعهد الوطني للتصوير الطبية الحيوية والهندسة الحيوية: T32 EB016640 (إلى أ بوي)؛ هبة من مؤسسة هوغ والدكتور س. سيتي؛ والهبة لوبيش T.C. في جامعة كاليفورنيا (إلى Ping ص).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |