A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Medicine

גישה החילוץ של מטה-נתונים עבור דוחות מקרה קליני לאפשר מתקדם הבנה של מושגי ביו

Published: September 20, 2018

doi:

10.3791/58392

John Harry Caufield², David A. Liem^2,3, Anders O. Garlid², Yijiang Zhou, Karol Watson³, Alex A. T. Bui^5,6,7, Wei Wang^7,8,9, Peipei Ping^2,3,7,8

Summary

אנו מציגים את הפרוטוקול ואת תבנית מטא-נתונים המשויכים על החילוץ של טקסט המתאר מושגים ביו בדוחות מקרה קליני. ערכי הטקסט מובנים מיוצר באמצעות פרוטוקול זה יכול לתמוך ניתוח עמוק של אלפי סיפורים קליניים.

Abstract

הדו חות הקליניים (CCRs) הם אמצעי חשוב של שיתוף תצפיות ותובנות ברפואה. הטופס של מסמכים אלה משתנה, ואת התוכן שלהם כולל תיאורים של מחלות רבות, הרומן מצגות וטיפולים. עד כה, נתוני הטקסט בתוך CCRs הוא ברובו לא מובנים, הדורשות מאמץ אנושי וחישובית משמעותי לעיבוד נתונים אלה שימושיות עבור ניתוח מעמיק. ב פרוטוקול זה, אנו מתארים שיטות לזיהוי מטא-נתונים המתאימים ספציפית מושגים ביו נשמרים לעתים קרובות ב- CCRs. אנו מספקים תבנית מטא-נתונים כמדריך עבור המסמך ביאור, מתוך הכרה כי הטלת מבנה על CCRs עשוי להיות נרדף על ידי צירופים של מאמץ ידניים ואוטומטיים. הגישה המוצגת כאן מתאימה עבור הארגון של טקסט הקשורות קונספט מ ספרות גדולות קורפוס (למשל, אלפים של CCRs) אבל עשוי להיות מותאם בקלות כדי להקל על יותר ממוקד פעילויות או קבוצות קטנות של דוחות. נתוני הטקסט מובנה המתקבל כולל הקשר סמנטי מספיק כדי לתמוך במגוון של זרימות עבודה ניתוח הטקסט הבא: מטא-ניתוח כדי לקבוע כיצד למקסם את קרידנס קלירווטר רבייבל בפרטים, מחקרים אפידמיולוגיים של מחלות נדירות, ופיתוח מודלים של שפה רפואית כל עשוי להיות יותר יפרק, לניהול באמצעות נתוני טקסט מובנית.

Introduction

הדו חות הקליניים (CCRs) הם אמצעי בסיסי של שיתוף תצפיות ותובנות ברפואה. אלה משמשים כמנגנון בסיסית של תקשורת וחינוך עבור קלינאים וסטודנטים לרפואה. מבחינה היסטורית, CCRs סיפקו גם חשבונות של מחלות המתעוררים, הטיפולים שלהם שלהם רקע גנטי¹^,²^,³^,⁴. לדוגמה, הטיפול הראשון של כלבת האנושית על ידי לואי פסטר בשנת 1885⁵^,⁶ לבין היישום הראשון של פניצילין בחולים⁷ היו שניהם דיווח דרך CCRs. יותר מ- 1.87 מיליון CCRs פורסמו בשנת 2018 אפריל, עם יותר מחצי מיליון בתוך העשור האחרון; כתבי עת ממשיכים לספק מקומות חדשים עבור דוחות אלה⁸. למרות ייחודי צורה ותוכן, CCRs מכילים נתוני טקסט כי הם במידה רבה לא מובנים, מכילים אוצר מילים עצום וזה נוגע תופעות לתקצב, להגביל את השימוש בהם כמשאב מובנית. מאמץ משמעותי נדרש כדי לחלץ נתונים היסטוריים מטא-נתונים (קרי, “המידע אודות המידע”, או במקרה הזה, תיאורים של תוכן המסמך) מ- CCRs ולהקים אותם בתור נתונים (הוגן), findable, נגיש, לשילוב, לשימוש חוזר⁹ משאב.

כאן, אנו מתארים תהליך לחילוץ טקסט וערכים מספריים כדי לתקנן את התיאור של מושגים ביו ספציפיים בתוך CCRs שפורסמו. מתודולוגיה זו כוללת תבנית מטא-נתונים כדי להנחות ביאור; לקבלת סקירה כללית של תהליך זה, ראה איור 1 . יישום של תהליך ביאור על אוסף גדול של דוחות (למשל, כמה אלפים של סוג מסוים של מחלת המצגת) מאפשר הרכבה של ערכה לניהול ומובנים של טקסטים קליניים המבואר, להשגת machine-readable תיעוד והתופעות ביו מוטבע בתוך כל מצגת קליניים. על פי נתונים בתבניות כגון אלה המסופקים על ידי HL7 (למשל., גרסה 3 של העברת הודעות רגיל¹⁰ או מהר בריאות יכולת פעולה הדדית משאבים [FHIR]¹¹), LOINC¹², גרסה 10 של הבינלאומי סטטיסטי סיווג של מחלות ובעיות הקשורות בריאות (ICD-10)¹³ לספק סטנדרטים המתארת והחלפת מחקרים קליניים, הם אינם לוכדים את הטקסט סביב נתונים אלה, וגם הם נועדו. התוצאות של המתודולוגיה שלנו משמשים הטובה ביותר כדי לאכוף מבנה על CCRs וכדי להקל על ניתוח עוקבות, נורמליזציה באמצעות בסכימות מבוקרת ומערכות קידוד (למשל., ICD-10), ו/או המרה לתבניות נתונים קליניים המפורטים לעיל .

כריית CCRs הוא אזור פעיל של עבודה בתוך אינפורמטיקה ביו וקלינית. למרות הצעות קודמות כדי לתקנן את המבנה של קייס דוחות (למשל., באמצעות HL7 v2.5¹⁴ או סטנדרטית פנוטיפ טרמינולוגיה¹⁵) הם ראויים לשבח, סביר להניח כי CCRs ימשיכו לעקוב אחר מגוון שונה טפסים בשפה טבעית, המסמך פריסות, כפי שהם יש עבור הרבה של המאה האחרונה. בתנאים אידיאליים, מחברי הדו חות חדשים לעקוב אחר הנחיות טיפול¹⁶ כדי להבטיח שהן מקיף. גישות רגיש בשפה טבעית והן ביחס למושגים רפואיים ולכן ייתכן היעיל ביותר בעבודה עם דוחות חדשים, בארכיון. משאבים כגון מלאכה¹⁷ ואלה המיוצר על ידי אינפורמטיקה עבור שילוב ביולוגיה והן curation¹⁸ מיטתו (i2b2) תמיכה עיבוד שפה טבעית (NLP) גישות אינם במיוחד דגש על CCRs או סיפורים קליניים. באופן דומה, כלי NLP רפואי כגון cTAKES¹⁹ ו קלאמפ²⁰ פותחו אבל בדרך כלל לזהות מילים או ביטויים (קרי, ישויות) מסוימים בתוך מסמכים ולא את המושגים הכללי בדרך כלל המתוארים CCRs.

עיצבנו תבנית סטנדרטית מטא-נתונים עבור תכונות כלולים בדרך כלל בתוך CCRs. תבנית זו מגדירה תכונות להטיל מבנה על CCRs — קודמן חיוני עבור חומר השוואתי של תוכן המסמך-עדיין מאפשר גמישות מספיקה לשמור על הקשר סמנטי. למרות עיצבנו את התבנית המשויכת לתבנית זו להיות מתאימות גם ביאור ידנית וגם כריית טקסט בסיוע שהמפתחות, אנחנו הבטיחו את שזה במיוחד קל לשימוש עבור annotators ידנית. הגישה שלנו באופן ניכר שונה מן יותר מסובכים (ו, לכן, פחות מובן מיד להיות מאומנת חוקרים) מסגרות, כגון FHIR²¹. הפרוטוקול הבא מתאר כיצד לבודד תכונות המסמך המתאים לסוג הנתונים בכל תבנית, עם ערכה אחת של ערכים המתאימים לאלו CCR יחיד.

סוגי הנתונים בתוך התבנית הם אלה ביותר תיאורי עבור CCRs ומסמכים רפואיים ממוקדות המטופל באופן כללי. ביאור של תכונות אלה מקדם findability, נגישות, אינטראופרביליות ויכולת שימושית של טקסט קרידנס קלירווטר רבייבל, בעיקר על ידי מתן מבנה. סוגי הנתונים נמצאים בארבע קטגוריות כלליות: זיהוי המסמך ואת ביאור, דו ח מקרה זיהוי (קרי, מאפיינים ברמת המסמך), מושגים תוכן רפואי (בעיקר ברמת הקונספט מאפיינים), תודות (קרי כולל מתן עדות מימון). בתהליך זה ביאור ‘, כל מסמך כולל הטקסט המלא של קרידנס קלירווטר רבייבל, תוך השמטת כל חומר תוכן מסמך עצמאי למקרה (למשל, ניסיוני פרוטוקולים). CCRs הם בדרך כלל פחות מ-1000 מילים כל; קורפוס יחיד יש ליצור אינדקס באופן אידיאלי על ידי באותו מסד נתונים ביבליוגרפי ולהיות באותה שפה כתובה.

המוצר של הגישה המתוארת כאן, כאשר חל על קורפוס CCR, היא ערכה מובנית של טקסט קליניים המבואר. בעוד מתודולוגיה זו יכול להתבצע באופן ידני מלא ואת תוכנן להתבצע על ידי מומחים בתחום ללא ניסיון אינפורמטיקה, היא משלימה את הגישות עיבוד שפה טבעית שצוינה לעיל ומספקת נתונים מתאים ניתוח חישובית. ניתוחים כאלה עשויים לעניין קהלים של חוקרים מעבר לאלה שקראו בתדירות גבוהה CCRs, כולל:

מודאג אלה עם מחלת מצגות, שלהם symptomology מפתח, כרגיל גישות אבחון וטיפולים
למי שרוצה להשוות את התוצאות של ניסויים קליניים עם האירועים המתוארים בתוך הספרות הקלינית, שעשוי להיות מתן תצפיות נוספות יותר עוצמה סטטיסטית.
ביואינפורמטיקה, ביו אינפורמטיקה, חוקרים במדעי המחשב הזקוקים ערכות נתונים מובנים בשפה רפואית או ההבנות ברמה גבוהה של נרטיבים רפואי
חוקרים מדיניות הממשלה התמקדות ניסויים קליניים איך עשוי לשקף בצורה הטובה ביותר כיצד אבחון וטיפול כפי שהיא מתרחשת במציאות

אכיפת מבנה על CCRs יכול לתמוך רבות ולמאמצים להבין טוב יותר את השפה הרפואית והן תופעות ביו.

Protocol

1. מסמך וזיהוי ביאור הערה: ערכים בקטגוריה זו תומכות תהליך ביאור. באמצעות התבנית ביאור, לספק שמזהה ספציפי זה במטה-נתונים מוגדר, למשל Case123. מזהה התבנית צריך להיות עקבי לאורך כל הפרויקט (למשל, Case001 דרך Case500). ציין את התאריך שבו היה מסמך לקרוא, מבואר. השתמש בתבנית הדומה “Jan 10 2018” על עקביות וקריאות. 2. שיהיה זיהוי הערה: ערכים בקטגוריה זו מספקים תכונות ברמת המסמך ולתרום findability של מסמך. להיות עקבי עם הפורמט של כל שדה על-פני כל ביאורי, למשל, ערכים בודדים להפרידם באמצעות נקודה-פסיק ללא רווחים הבאים בכל הערכים. השתמש בתבניות זהים לאלה המשמשים את מסמך המקור או בשימוש במסד נתונים ביבליוגרפי כגון MEDLINE. לספק את הכותרת של המסמך. לספק את השמות של כל המחברים של המסמך לפי הסדר שסופקו. לנרמל את הפורמט של כל שמות, כך כל השמות ללבוש הצורה של שם משפחה אחד ואחריו מספר כלשהו של ראשי התיבות, למשל פארק B. ג’יין הופך להיות פארק JB. אל תכלול כותרות. להפריד מחברים מרובים באמצעות נקודה-פסיק ללא פיסוק נוספים, כך ג’ון א. סמית, ג’יין B. פארק לוקח צורה של סמית יה; פארק ג’יי בי לספק את שנת הפרסום של המסמך. התואר המלא של כתב העת שבו פורסם המסמך לספק. רשימה של שמות יומנים מבוקרת מסופק על ידי הקטלוג מיסיון החיים החדשים (https://www.ncbi.nlm.nih.gov/nlmcatalog). לספק הכתובת של המוסד בבית של מחברי המסמך, כפי שצוין במסמך. זה עשוי לכלול מחלקות, מיקומים גיאוגרפיים ופרטים כתובת למשלוח דואר. אם במיקומים מרובים ניתנים (למשל, אם שיוכים שונים בין סופרים), לציין רק פרטים עבור המחבר המקביל. אם לא ניתן לזהות מחבר המתאימים, להשתמש בזה של המחבר הראשון או לא תציין מוסד. אם המחבר המקביל של שיוכים מרובים, ציינו את שניהם, נפרדות באמצעות נקודה-פסיק. לספק המחבר המקביל של המסמך, כפי שצוין בתוך כותרת מסמך תוך שימוש באותה התבנית כמו בשימוש בסוג הנתונים מחברים. לספק מזהה מסמך (למשל רמב”ם). לספק מזהה עצם דיגיטלי, היכן אפשרי וזמין, שניתן לפתור את המסמך URL (דרך https://www.doi.org/), לא מרכזי PubMed דף. הזן כתובת URL יציבה על הטקסט המלא של המסמך, אם הם זמינים. כדי להגדיל את הנגישות, זה עשוי להתייחס אל הגירסה המרכזית PubMed. לספק את שפת המסמך. עבור מסמכים זמין במספר שפות, בשניהם, מופרדים באמצעות נקודה-פסיק. 3. תוכן רפואי הערה: ערכים בקטגוריה זו לזהות תכונות ברמת המסמך ברמת קונספט, ברמת טקסט. הם משמשים כדי לשפר את הנגישות של מסמך, אינטראופרביליות ויכולת שימושית. תכונות אלה מספקות דרכים להתבונן קונספטואלי, סמנטי קווי דמיון בין תוכן המסמך, עם דגש על נושאים ביו ואירועים. רוב הקטגוריות בסעיף זה יכולים לכלול מספר הצהרות טקסט, כל אחד צריך להיות מופרדים באמצעות נקודה-פסיק. לכלול פירוט הקשרי בכל שדה (למשל, “אמא היה סרטן השד בגיל 50”) יותר מאשר רק במונחים של אוצר מילים מבוקר (למשל, לא “סרטן השד” לבד). אל תכלול פירוט נרחב מעבר כל תצפית. השמט בדרך כלל חוזרים ונשנים מילים וביטויים (למשל, כינויי, המילה “החולה”, לבין ביטויים “התלוננו על” או “מוצג”). למרות הסובייקטיביות על פני מספר annotators הוא סביר, זה עשוי להצטמצם בכך annotators מרובים עבור כל מסמך ודרך נורמליזציה אוטומטית לאחר איסוף נתונים. שיטות חישוביות לצורך עיבוד דפוס ישתנו לפי לאחר מכן ניתוח הצרכים, לא דנו כאן בפירוט. ספק את המידע הבא ב תבנית ביאור. לספק תנאים ספציפיים בתוך מסמך, בדרך כלל בכותרת שלה, מזוהה מושגי המפתח. הפרד באמצעות פסיק התנאים עשויים לכלול סימן פיסוק אחר. לספק ערכים דמוגרפי, במיוחד כל הצהרות טקסט המתאר את הרקע של החולה, כולל יחסי מין ו/או מגדר, גיל, מוצא אתני או לאום. לספק מיקומים גיאוגרפיים שהוזכרו בתוך הנרטיב קליני, שאינו מוסד ספציפי כתובות. זה לא צריך לכלול את מיקומם האנטומי/חלקים, אך עשויים לכלול כל האזור הגיאוגרפי שבו החולה מתגורר או נוסע. לספק ערכים סגנון החיים, כולל הצהרות טקסט המתאר פעילויות המטופל בתדירות גבוהה או התנהגויות הרלוונטיות שלהם לבריאות הכללית. בפועל, זה לעתים קרובות כרוך עישון או הרגלי הצריכה של אלכוהול, אך עשוי לכלול גם חשיפה לשמש, תזונה או התדירות של סוגים מסוימים של פעילות גופנית. לספק ערכי ההיסטוריה הרפואית מתייחס להיסטוריה המשפחתית. כוללים כל הצהרות טקסט המתאר תצפיות קליניות של אירועים מנוסים על ידי אחים, הורים, בני משפחה אחרים. זה כולל מצבים גנטיים ותצפיות שלילי (קרי, היסטוריה משפחתית שלילית עבור מחלה). לספק ערכים מתייחס היסטוריה חברתית, כולל הצהרות טקסט המתאר רקע המטופל אינו מכוסה דמוגרפיה או סגנון חיים. ייתכנו חופף תוכן בין קטגוריות אלה. הדוחות עשויים לכלול היסטוריה תעסוקתית של כישורים חברתיים. לספק ערכים מתייחס להיסטוריה רפואי וכירורגי של המטופל. כוללים הצהרות טקסט המתאר כל התצפיות רפואי, טיפולים או אירועים אחרים המתרחשים לפני תחילת המצגת קליניים. זה כולל היסטוריה להיריון ותקופות של בריאות טובה, שלצדם. ציין אחד או יותר של הקטגוריות הבאות של מערכת 16 המחלה. שימו לב כי ערכים אלה קטגורית במקום טקסט חופשי. קטגוריות אינם מקיף אבל צריך לציין רוב מערכות מושפע האירועים המתוארים במצגת קליני ולא אובחנה המחלה. עקוב אחר קבוצה ספציפית של קטגוריות, המבוסס על הקטגוריות בשימוש הבינלאומי סטטיסטי סיווג של מחלות ובעיות הקשורות בריאות, תיקון מערכת קוד (ICD-10) 10. לקבלת הרשימה של מחלות מערכת הקטגוריות יחד עם טווחים קוד ICD-10, ראה טבלה 1 . לספק פרטים של כל הסימנים והתסמינים. כוללים הצהרות טקסט המתאר כל התצפיות רפואי של סימנים או תסמינים שמתחילים במצגת ראשונית, לרבות שלהם התחלתה, משך, חומרת ברזולוציה, אם ניתן. אינם כוללים התסמינים המתוארים התוצאה. ערכים אלה עשוי לחפוף עם סוגים אחרים, אם הסימפטומים ממשיכים מההיסטוריה המצגת ההתחלתית. לספק פרטים של כל מחלות רקע. כוללים כל מונחים או ביטויים המתארים מחלות נפרדות קיים בזמנו של מצגת קלינית ראשונית. יש חפיפה סביר בין ערכים אלה לבין אלה בהיסטוריה קליני, למרות תחלואה נלווית לא צריך לכלול תנאים זהים לאלה באבחון. לספק פרטים של כל טכניקות אבחון והתהליכים. לכלול את שמות פרוצדורות רפואיות נעשה למטרות אבחון, כולל בדיקות, בדיקות הדמיה, כמו גם התנאים תחת אשר היו בדיקות אלה שבוצעו ורלוונטי אנטומי מיקומים (למשל, “העליון הגפיים ורידים אולטרסאונד”). אל תכלול את תוצאות הבדיקה. לספק פרטים של אבחון. כוללים הצהרות טקסט המתאר אבחנות של מחלות, גם אם האבחנה הסופית הוא רב-משמעי. לספק כל הערכים מעבדה, תוצאות הבדיקה. כוללת שמות של בדיקות אבחון, שלהם ערכים והתנאים שבהם הם נערכו. פעולה זו כוללת חפיפה עם תנאים לשימוש טכניקות אבחון סוג הנתונים הליכים. ערכים מספריים והן איכותי (למשל, ספירת דם היה בגבולות הנורמה) הם מקובל. אם השמות של בדיקות אבחון לא מסופקים, להשתמש במונחים המתארת את התוצאות (למשל, לויקופניה), למרות שהם צריכים להיכלל גם הסימנים והתסמינים. לספק פרטים של פתולוגיה. כוללים הצהרות טקסט המתאר את התוצאות של מחקרים פתולוגיה, היסטולוגיה, כולל מחקרים פתולוגיה, היסטולוגיה, מיקרוסקופיה ברוטו. תנאי ייתכן חופפים עם אלה המשמשים טכניקות אבחון ונהלים (שלב 3.11), למשל, עם ההליכים שבוצעו כדי לקבל דוגמאות כגון ביופסיה. מספקים את כל הטיפולים תרופתי. כוללים הצהרות טקסט המתאר טיפולים תרופתיים בשימוש במהלך הטיפול, כולל תנאים כלליים כגון אנטיביוטיקה או תרופות ספציפיות שמות. בנוסף, כוללים תיאורים של מתי ואיך טיפולים תרופתיים הופסקו. לספק כל ההליכים התערבותית. כוללים הצהרות טקסט המתאר הליכים טיפוליים המשמשים במהלך הטיפול, כולל הליכים פולשניים, השרשה של מכשירים רפואיים, הטיפולים כדי להקל על טיפולים אחרים. כוללים גם תיאורים של מתי ואיך הופסקו ההליכים טיפולית מתמשכת, במידת הצורך. לספק את התוצאה החולה. כוללים הצהרות טקסט המתאר הבריאותי של המטופל נכון לסוף המצגת הקליני שתוארו בדוח, כולל בדיקות מעקב. לספק סעיפים של כל אבחון תמונות, איורים, קטעי וידאו/אנימציות, וטבלאות. כלול בכל הסעיפים של תקשורת חזותית הכלולים בדוח, בתבנית הבאה: ספירה של תמונות; ספירה של דמויות; ספירה של סרטי וידאו או הנפשה; ספירה של טבלאות. הבחנה בין תמונות ואיורים בדרך זו: תמונות כוללות כל המוצרים של אבחון קליני, כולל תמונות, micrographs, רל קצב תמונות ומוצרים אחרים של הדמיה לאבחון, ואילו דמויות כל תמונות אחרות, בדרך כלל כולל נתונים חלקות ואיורים. לספק ראיות של מערכות יחסים אחרות CCRs. שדה זה עשויים לכלול מזהים (לדוגמה, PMIDs) של דוחות אחרים ערכת הנתונים שהודגשו או הפניה בדוח זה. לספק הוכחה של קשרי ניסויים קליניים. שדה זה עשוי לכלול מזהים של ניסויים קליניים בצטטו CCR הזה. לזהות ניסויים באמצעות מזהי ClinicalTrials.gov שלהם, כשלפניו NCT, או מזהה יציב אחר. כוללים crosslinks מסד נתונים התואם את המסמך הזה, לרבות מזהי, רצוי כשמות מסד נתונים, יציבה כתובות Url. 4. תודות הערות: ערכים בקטגוריה זו לזהות תכונות ברמת המסמך עדיין יש מבנה קטן עקבית על פני פרסומים. הם מספקים פרטים בנוגע הארגונים מתן תמיכה עבור CCR ועבודה הקשורה. קטגוריה זו כוללת גם שדה עבור הספירה הכוללת של הפניות שצוטטו על ידי מאמר: זה מיועד לספק מדד גס של מידת שאליה מסמך כולל קשרי גומלין קונספטואליים עם מסמכים אחרים ביו-רפואי מכל סוג. בתוך סוגי הנתונים 4 בסעיף זה, לספק את הפעולות הבאות. ציין כל מקורות המימון התומכים בעבודה, המתאים PI בנוסף למספרים פרס הרלוונטיים. הערך הראשון, מקור מימון, עליך לכלול את השמות של כל הארגונים למתן תמיכה כספית עבור העבודה. ארגונים נפרדים עם נקודה-פסיק, רווחים, למשל, מוסדות של בריאות/לאומי מכון הסרטן הלאומי; DOE; קרן סמית-פארק . עבור הערך הבא, מספר פרס, לציין כל פרס מספרים או ייעוד ספציפי מסופקים יחד עם מקבלי הפרסים, במידת הצורך, כמו ראשי התיבות של הנמענים בסוגריים, למשל, R01HL123123 (ל- JP) , NS12312 (כדי. ג’יי. פי, JS), מחקר לאגודה הדרכה (כדי. JS). מחברים עשויים במפורש כי אין מידע התואם זמין (לדוגמה, “אין מימון התקבלה”); במקרים אלה, השתמש בטקסט המופיע על ידי המחברים כערך מקור מימון. אחרת, הערך צריך להיות הערך לא ישים ציין גילויים/התנגשויות של עניין כפי שצוין על-ידי המחברים, למשל, JP הוא יועץ DrugCo. מחברים עשויים במפורש כי אין מידע התואם זמין (לדוגמה, “אין ניגוד אינטרסים מוכרז”); במקרים אלה, השתמש בטקסט המופיע על ידי המחברים כמו הסכסוך/גילויים של ערך ריבית. אחרת, כאמור לעיל, הערך צריך להיות הערך לא ישים לציין ספירה המספרי של כל ההפניות שצוטטו על ידי המסמך, לא כולל אלו הניתנים חומר משלים. אין טקסט ההפניה צריכה להיכלל בתחום זה.

Representative Results

דוגמה של התהליך ביאור מוצג באיור2. במקרה הזה,22 מתאר מצגת של זיהום על ידי המחלה חיידקי Burkholderia thailandensis. לעיון, בחלק הרלוונטי של CCR הזה מסופק בתבנית טקסט רגיל 1 הקבצים המשלימים; כמה ממצאי המחקר מוצגים בדו ח זה, כלולים עבור השוואה. בפועל, המרת דוחות מסופקים בתבנית HTML, או PDF לטקסט רגיל עשוי לשפר את יעילות ונוחות החילוץ מטא-נתונים. דוגמאות של שתי קבוצות של ביאורים שהושלמו של מטה-נתונים CCR ניתנים בטבלה מס ‘ 2. הראשון של דוגמאות אלה הם נתונים מדומה כדי להמחיש את הפורמט האידיאלי של כל ערך, בעוד הדוגמה השניה מכילה ערכים מופק CCR שפורסמו על מצב נדיר, acrodermatitis enteropathica23. איור 1. זרימת עבודה עבור העבודה ביאור. הפרוטוקול המתואר כאן מספק שיטה לזיהוי התכונות טקסטואליים לעתים קרובות מתנה בתוך הדו חות הקליניים. תהליך זה דורש הרכבה של קורפוס המסמך. התוצר של תהליך ביאור, פעם מצטברים לקובץ יחיד, מאפשר זיהוי של תכונות טקסט המשויך מושגים רפואיים והתיאורים שלהם בתוך הדו חות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. באיור 2. זיהוי של טקסט ספציפי קונספט בדו ח מקרה קליני. Annotator ידני החל מהטקסט של דו ח מקרה, ייתכן להתקדם דרך המסמך, זיהוי חלקי הטקסט המתאים לכל מרכיב של תבנית מטא-נתונים. זיהוי תכונות מסומנים בכחול. טקסט המתאים מושגים רפואיים הם אדום, שכותרתו עם סוג שלהם; כל טקסט מסומן בעמודה השלישית מתייחסת לסוג פתולוגיה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. קטגוריה תיאור פרק ICD-10 טווח קוד ICD-10 סרטן כל סוג של סרטן או ממאיר. II C00-D49 עצבני מחלות של המוח, עמוד השדרה, או עצבים. השישי G00-G99 לב וכלי דם מחלות של הלב או מערכת כלי הדם. אינו כולל מחלות hematological. IX I00-I99 השלד והשרירים, ראומטיזם כל מחלה של השרירים, מערכת השלד, המפרקים, רקמות החיבור. השלושה עשר M00-M99 העיכול מחלות של מערכת העיכול, אברי העיכול, כולל הכבד, הלבלב. האחד עשר K00-K95 ונסיון עם הגינקולוגית כל מחלה הנוגעים הריון, לידה, מערכת הרבייה הנשית או על החזה. הארבעה עשר; החמישה עשר O00-O9A; N60-N98 זיהומיות כל מחלה גורם במיקרו אורגניזמים זיהומיות. . אני A00-B99 מערכת הנשימה כל מחלה של הריאות ושל מערכת הנשימה. X J00-J99 המטולוגיות כל מחלה של דם, מח העצם, בלוטות הלימפה, או הטחול. III D50-D89 כליות, אורולוגית כל מחלה של הכליות או שלפוחית השתן, כולל את ureters, כמו גם איברי הרבייה הגברית, כולל הערמונית. הארבעה עשר N00-N53; N99 אנדוקריניות מחלות של בלוטות אנדוקריניות, כמו גם הפרעות מטבוליות. IV E00-E89 פה ולסת. כל תנאי המערבים את הפה, הלסתות, הראש, הפנים או הצוואר. XI; השלושה עשר K00-K14; M26 M27 עין כל תנאי מעורבים בעיניים, לרבות עיוורון. השביעי H00-H59 otorhinolaryngologic בכל מצב האוזן, האף, ו/או הגרון. השמיני H60-H95; J30-J39 העור כל מחלה של העור. XII L00-L99 נדיר קטגוריה מיוחדת שמורות עבור דוחות של מחלות נדירות, כהגדרתו אלו להשפיע על פחות מ-200,000 אנשים בארצות הברית (ראה https://rarediseases.info.nih.gov/diseases) נה נה טבלה 1. מחלת קטגוריות עבור המסמך ביאור. הקטגוריות המפורטות כאן הן אלה כדי לשמש עבור סוג הנתונים מחלות מערכת בתבנית מטא-נתונים של מסמך ‘. כמו כל מצגת המחלה עשויה להיות כרוכה מערכות איברים או חבלות מסיבות מרובות, דו ח מקרה קליני יחיד עשוי תואמים מספר קטגוריות. קטגוריות אלה בעיקר הולכים בעקבות אלו נהגו להבדיל מקטעים של הבינלאומי סטטיסטי סיווג של מחלות, בעיות בריאות הקשורות, מהדורה 10 (ICD-10) קוד המערכת: המתאימים ICD-10 פרקים וטווחים קוד הינם מסופקים. קטגוריות מסוימות, כגון זה להתפתחות מחלות פה ולסת , תואמים מספר מקטעים של מערכת ICD-10. סוג הנתונים דוגמה #1 דוגמה #2 (קמרון, מקליין 1986) המסמך וזיהוי ביאור מזהה פנימי CCR005 CCR2000 ביאור תאריך Mar 2 2018 Mar 1 2018 דו ח מקרה זיהוי כותרת במקרה של דלקת פנים הלב. עינית histopathology של acrodermatitis enteropathica. מחברים גרנט AB; תקליטור צ’אנג קמרון ג’יי; CJ מקליין השנה 2017 1986 יומן היומן של העולם לרפואה של הדו חות כתב העת הבריטי של רפואת עיניים מוסד המחלקה לרפואה, מחלקת קרדיולוגיה, ביה”ח הכללי הראשון, בוסטון, מסצ’וסטס ארצות הברית מחלקת עיניים, בית הספר לרפואה אוניברסיטת מינסוטה, מיניאפוליס, מינסוטה 55455 המחבר המתאים גרנט אלב קמרון ג’יי. די רמב”ם 25555555 3756122 דוי 10.1011/wjmcr.2017.11.001 נה קישור https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9555555/ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1040795/ שפה אנגלית אנגלית תוכן רפואי מילות מפתח ברוצלוזיס; דלקת פנים הלב; הדו-צניפי נה דמוגרפיה גבר בן 37 בן זכר מיקומים גיאוגרפיים פלורידה; ריו דה ז’נרו, ברזיל נה סגנון חיים מעשן; משקאות אלכוהול מדי פעם נה היסטוריה משפחתית השלישי של חמישה ילדים של הורים consanguineous; אחיו הצעיר יש אקזמה כרונית נה היסטוריה חברתית פועל בניין נה היסטוריה רפואית/כירורגי היסטוריה של עייפות לירה 8 9 גרם (3884 g) תוצר של היריון המונח מסובכת, מלא; בריאות טובה עד גיל חודש כאשר הוא פיתח פריחה בעור בועות על לחייו; הפריחה התפשטה לערב את העור סביב העיניים, האף והפה; נגעים בעור נרשמו גם על הבטן ועל הגפיים; שלשול, כשלון לשגשג; ביופסיה העור בזמן הזה הראה parakeratosis אופייני של acrodermatitis enteropathica; מטופלים מעל שש שנים עם קורסים לסירוגין של אנטיביוטיקה רחבת-טווח, חלב אם, diodoquin; הגיבו באופן חלקי; פיתח התקרחות מוחלטת, acrodermatitis לסירוגין, ושלשול לסירוגין עם עלייה במשקל שיוצרת; ספסטיות מיוחסת מעורבות מערכת העצבים המרכזית על ידי ae פותחו על ידי 8 חודשים של גיל; מספר פרקים של מעצר ריאות בגיל 11 חודשים; חוסר תיאום של מיתרי הקול שלו; מיכשור וציוד; עד גיל 18 חודשים הילד התפתח ניסטגמוס-חיפוש הקשורים אטרופיה דו-צדדית אופטיים הנחתה קלה של כלי ברשתית וכן סימנים של פיגור psychomotor; keratoconjunctivitis דו צדדיים; פריחה בעור; ביופסיה העור השני לבצע בגיל 3 שוב הראה parakeratosis אופייניים עבור ae; פריחה בעור חמורה ושלשול; דו צדדיים ברוטו לאטימות הקרנית הקדמי נראו אשר גמלה לחלוטין בזמן שהוא היה בחנת מחדש בגיל חמש; זיהומים תכופים כולל התקשורת אזנים, דלקות בדרכי השתן, דלקות עור מחלות מערכת לב וכלי דם; זיהומיות העיכול; העור; העין; נדיר סימנים וסימפטומים דפיקות לב, קוצר נשימה בשבוע שעבר; הציג עם עייפות, כאבי ראש, צמרמורות חמור blepharoconjunctivitis ו- vascularisation הקרנית קדמית דו-צדדית; פריחה בעור חמורה ושלשול; אלח דם חיידקי גראם שליליים; נגעים בעור אופיינית של acrodermatitis enteropathica, היעדרות של רקמות הרתי, מסומנים ניוון של העצבים האופטים, chiasm, ספינלי אופטיים והתנוונות אסטרוציטומה נרחב תחלואה נלווית יתר לחץ דם; היפרליפידמיה נה טכניקות אבחון ונהלים בדיקה גופנית; אלקטרוקרדיוגרם; תרביות דם עינית בדיקה; necropsy אבחון דלקת פנים הלב brucella acrodermatitis enteropathica ערכי מעבדה לודיג חלבון מגיב c (9 מ”ג/ד”ל); אלקליין פוספטאז (250 u/l) נה פתולוגיה Brucella melitensis היה תרבותי של דגימות דם ימינה ושמאלה העיניים היו דומות במראן; אפיתל הקרנית צומצם בעובי 1-שלוש שכבות תאים של תאי אפיתל קשקשיים שעברו שיטוח על פני השטח כולו של הקרנית; כל קוטביות של האפיתל אבד. הממברנה של באומן יכול להיות מזוהה רק בפריפריה של הקרנית הנכון. הממברנה של באומן לא יכול להיות מזוהה הקרנית השמאלי. לא ניווניות ולא דלקתית pannus יכול להיות מזוהה בעין או; מקיף אטרופיה של השרירים מעגלית, עקיפה של הגוף ריסי; כמה העברה אחורי של אפיתל העדשה דרכים, שינויים ניווניים קורטיקלית מוקדם; מקיף להתנוונות אפיתל הפיגמנט ברשתית ברחבי הקוטב האחורי; רשתית העין היה מצורף והראה שינויים autolytic קלים לאורך; כמה שימור רוד חרוט החיצוני וקטעים בקוטב האחורי, אולם המבנים הללו היו לגמרי אבוד והשתרשה עמוק בלבה המשווה; אובדן נרחב של גנגליון תא ועצב fibre שכבות של שתי העיניים; ניוון כמעט מוחלטת של דיסק, עצב הראייה סמוכים טיפול תרופתי gentamycin 240 מ”ג/iv/יומי נה טיפול Inverventional החלפת שסתום תותבת נה הערכת תוצאות המטופל השחזור היה ללא אירועים מיוחדים; משוחררים הביתה נפטר בשנת 1971 (גיל 7) הדמיה לאבחון/ההקלטה 2 1; 0; 1 7; 0; 0; 0 הקשר הדו חות אחרים 5555555 23430849 היחסים עם ניסיון Clinial NCT05555123 נה Crosslink עם מסד נתונים מידע רפואי MedlinePlus: https://medlineplus.gov/ency/article/000597.htm HighWire – PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; מרכז אירופה PubMed: http://europepmc.org/abstract/MED/3756122; הברית גנטית: http://www.diseaseinfosearch.org/result/143 תודות מקור מימון המכונים הלאומיים לבריאות/לאומי הלב, ריאות, ודם המכון במועדון האריות מינסוטה; מחקר כדי למנוע עיוורון; למינהלה; משרדו של אלכוהול וסמים אחרים לרעה תכנות של מדינת מינסוטה מספר הפרסים R01HL123123 (כדי AG) נה גילויים/ניגוד עניינים ד ר גרנט הוא דובר בשכר DrugCo. נה הפניות 4 27 בטבלה 2. תבנית מטא-נתונים מתוקננים עבור מקרה קליני דוחות, עם ביאורים דוגמה. סט של תכונות נפוצות למקרה קליני דוחות, הקלת הביאורים ברמת הקונספט שלהם מוצגים כאן. תבנית זו מסודרים שלושה מדורים עיקריים: זיהוי רפואי תוכן, וידועים, המציין את המטרה ואת ערך נוסף המוענקת על ידי כל סוג של תכונת דוח המקרה. טבלה זו מכילה שתי ערכות של ביאורים דוגמה, אחת בדוח המקרה בדיוני, ולהגדיר עוד נגזרת דו ח על מצב acrodermatitis enteropathica23. קובץ משלים 1. הטקסט של דו ח מקרה קליני (צ’אנג. et al. 2017). אנא לחץ כאן כדי להוריד את הקובץ.

Discussion

הטמעת תבנית מטא-נתונים מתוקננים עבור CCRs יכול להפוך שלהם הוגן יותר תוכן, להרחיב את קהל היעד שלהם, להרחיב את היישומים שלהם. בעקבות השימוש המסורתי CCRs ככלים חינוכיים בתחום התקשורת רפואי, המתלמדים הבריאות (למשל, סטודנטים לרפואה, מתמחים ו עמיתי), וחוקרים ביו עלול למצוא בכך שיהיה מסוכם תוכן מאפשרים מהירה יותר הבנת הנקרא. הכוח הגדול ביותר של מטה-נתונים תקינה עם CCRs, עם זאת, כי יצירת האינדקסים המרות נתונים אלה אחרת מבודד תצפיות לתבניות interpretable. פרוטוקול שסופק כאן יכול לשמש בשלב הראשון של זרימת עבודה עבור עבודה עם CCRs, בין אם זרימת עבודה זו כוללת ניתוח אפידמיולוגיים, אחרי שיווק תרופה או טיפול מעקב או סקרים רחבה יותר של פתוגנזה או יעילות טיפולית. תכונות מובנות מזוהה בתוך CCRs יכול לספק משאב שימושי עבור חוקרים התמקדות מצגות מחלות וטיפולים, במיוחד עבור מצבים נדירים. חוקרים קליניים עלול למצוא נתונים על משטרי הטיפול האחרונים כדי לנתח הסימפטומים מוקלט או תופעות לוואי ואת מידת השיפור תחת תקנים קודמים של טיפול. הנתונים עשויים לנהוג גם ניתוחים רחבה של טיפולים חדשים מבוסס על יעילות, היעדר תופעות לוואי או רעילות, או על סמים מיקוד הבדלי מגדר, קבוצת גיל או הרקע הגנטי.

היתרונות המסופקים על ידי מטה-נתונים מובנים חלים באופן דומה לזרימות חישובית נועד לנתח או מודל השפה הרפואית. תכונות מובנות CCR עשויים גם כן לספק תוכן ראיות של אזורים לאן מחברים דוח עשוי לספק בקלות רבה יותר machine-readable (וגם במקרים מסוימים, קריא). השונות בין CCRs יכול לנבוע חוסר תצפיות במפורש שסופקו: למשל, לא ניתן לציין הגיל המדויק של המטופל. באופן דומה, קלינאים אולי לא להזכיר בדיקות אם האבחון או התוצאות שלהם נחשבו טריוויאלי. על-ידי מתן דוגמאות של הפערים הנחוצים עבור ניתוח מעמיק, לאכוף מבנה על CCRs מדגיש שיפורים פוטנציאליים. בפרספקטיבה רחבה מאוד, זמינות רבה יותר של נתונים מובנים טקסט ממסמכים רפואיים תומך (NLP) מאמצים כדי ללמוד מנתוני גדול הבריאות²⁴^,²⁵לעיבוד שפה טבעית.

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכת באופן חלקי על ידי הלאומי ללב, ריאות ודם המכון: R35 HL135772 (כדי פינג פ); לאומי כללי לרפואה למדעי: U54 GM114833 (כדי פינג פ ק ווטסון, וואנג ו); המכון הלאומי של הדמיה ביו, בביו-הנדסה: T32 EB016640 (עם הח א); מתנת קרן הוג, סטי ד ר ס; התרומה T.C. Laubisch ב UCLA (כדי פינג עמ’).

Materials

A corpus of clinical case reports

n/a

Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l’Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017)
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

גישה החילוץ של מטה-נתונים עבור דוחות מקרה קליני לאפשר מתקדם הבנה של מושגי ביו

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

גישה החילוץ של מטה-נתונים עבור דוחות מקרה קליני לאפשר מתקדם הבנה של מושגי ביו

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below