אנו מציגים את הפרוטוקול ואת תבנית מטא-נתונים המשויכים על החילוץ של טקסט המתאר מושגים ביו בדוחות מקרה קליני. ערכי הטקסט מובנים מיוצר באמצעות פרוטוקול זה יכול לתמוך ניתוח עמוק של אלפי סיפורים קליניים.
הדו חות הקליניים (CCRs) הם אמצעי חשוב של שיתוף תצפיות ותובנות ברפואה. הטופס של מסמכים אלה משתנה, ואת התוכן שלהם כולל תיאורים של מחלות רבות, הרומן מצגות וטיפולים. עד כה, נתוני הטקסט בתוך CCRs הוא ברובו לא מובנים, הדורשות מאמץ אנושי וחישובית משמעותי לעיבוד נתונים אלה שימושיות עבור ניתוח מעמיק. ב פרוטוקול זה, אנו מתארים שיטות לזיהוי מטא-נתונים המתאימים ספציפית מושגים ביו נשמרים לעתים קרובות ב- CCRs. אנו מספקים תבנית מטא-נתונים כמדריך עבור המסמך ביאור, מתוך הכרה כי הטלת מבנה על CCRs עשוי להיות נרדף על ידי צירופים של מאמץ ידניים ואוטומטיים. הגישה המוצגת כאן מתאימה עבור הארגון של טקסט הקשורות קונספט מ ספרות גדולות קורפוס (למשל, אלפים של CCRs) אבל עשוי להיות מותאם בקלות כדי להקל על יותר ממוקד פעילויות או קבוצות קטנות של דוחות. נתוני הטקסט מובנה המתקבל כולל הקשר סמנטי מספיק כדי לתמוך במגוון של זרימות עבודה ניתוח הטקסט הבא: מטא-ניתוח כדי לקבוע כיצד למקסם את קרידנס קלירווטר רבייבל בפרטים, מחקרים אפידמיולוגיים של מחלות נדירות, ופיתוח מודלים של שפה רפואית כל עשוי להיות יותר יפרק, לניהול באמצעות נתוני טקסט מובנית.
הדו חות הקליניים (CCRs) הם אמצעי בסיסי של שיתוף תצפיות ותובנות ברפואה. אלה משמשים כמנגנון בסיסית של תקשורת וחינוך עבור קלינאים וסטודנטים לרפואה. מבחינה היסטורית, CCRs סיפקו גם חשבונות של מחלות המתעוררים, הטיפולים שלהם שלהם רקע גנטי1,2,3,4. לדוגמה, הטיפול הראשון של כלבת האנושית על ידי לואי פסטר בשנת 18855,6 לבין היישום הראשון של פניצילין בחולים7 היו שניהם דיווח דרך CCRs. יותר מ- 1.87 מיליון CCRs פורסמו בשנת 2018 אפריל, עם יותר מחצי מיליון בתוך העשור האחרון; כתבי עת ממשיכים לספק מקומות חדשים עבור דוחות אלה8. למרות ייחודי צורה ותוכן, CCRs מכילים נתוני טקסט כי הם במידה רבה לא מובנים, מכילים אוצר מילים עצום וזה נוגע תופעות לתקצב, להגביל את השימוש בהם כמשאב מובנית. מאמץ משמעותי נדרש כדי לחלץ נתונים היסטוריים מטא-נתונים (קרי, “המידע אודות המידע”, או במקרה הזה, תיאורים של תוכן המסמך) מ- CCRs ולהקים אותם בתור נתונים (הוגן), findable, נגיש, לשילוב, לשימוש חוזר9 משאב.
כאן, אנו מתארים תהליך לחילוץ טקסט וערכים מספריים כדי לתקנן את התיאור של מושגים ביו ספציפיים בתוך CCRs שפורסמו. מתודולוגיה זו כוללת תבנית מטא-נתונים כדי להנחות ביאור; לקבלת סקירה כללית של תהליך זה, ראה איור 1 . יישום של תהליך ביאור על אוסף גדול של דוחות (למשל, כמה אלפים של סוג מסוים של מחלת המצגת) מאפשר הרכבה של ערכה לניהול ומובנים של טקסטים קליניים המבואר, להשגת machine-readable תיעוד והתופעות ביו מוטבע בתוך כל מצגת קליניים. על פי נתונים בתבניות כגון אלה המסופקים על ידי HL7 (למשל., גרסה 3 של העברת הודעות רגיל10 או מהר בריאות יכולת פעולה הדדית משאבים [FHIR]11), LOINC12, גרסה 10 של הבינלאומי סטטיסטי סיווג של מחלות ובעיות הקשורות בריאות (ICD-10)13 לספק סטנדרטים המתארת והחלפת מחקרים קליניים, הם אינם לוכדים את הטקסט סביב נתונים אלה, וגם הם נועדו. התוצאות של המתודולוגיה שלנו משמשים הטובה ביותר כדי לאכוף מבנה על CCRs וכדי להקל על ניתוח עוקבות, נורמליזציה באמצעות בסכימות מבוקרת ומערכות קידוד (למשל., ICD-10), ו/או המרה לתבניות נתונים קליניים המפורטים לעיל .
כריית CCRs הוא אזור פעיל של עבודה בתוך אינפורמטיקה ביו וקלינית. למרות הצעות קודמות כדי לתקנן את המבנה של קייס דוחות (למשל., באמצעות HL7 v2.514 או סטנדרטית פנוטיפ טרמינולוגיה15) הם ראויים לשבח, סביר להניח כי CCRs ימשיכו לעקוב אחר מגוון שונה טפסים בשפה טבעית, המסמך פריסות, כפי שהם יש עבור הרבה של המאה האחרונה. בתנאים אידיאליים, מחברי הדו חות חדשים לעקוב אחר הנחיות טיפול16 כדי להבטיח שהן מקיף. גישות רגיש בשפה טבעית והן ביחס למושגים רפואיים ולכן ייתכן היעיל ביותר בעבודה עם דוחות חדשים, בארכיון. משאבים כגון מלאכה17 ואלה המיוצר על ידי אינפורמטיקה עבור שילוב ביולוגיה והן curation18 מיטתו (i2b2) תמיכה עיבוד שפה טבעית (NLP) גישות אינם במיוחד דגש על CCRs או סיפורים קליניים. באופן דומה, כלי NLP רפואי כגון cTAKES19 ו קלאמפ20 פותחו אבל בדרך כלל לזהות מילים או ביטויים (קרי, ישויות) מסוימים בתוך מסמכים ולא את המושגים הכללי בדרך כלל המתוארים CCRs.
עיצבנו תבנית סטנדרטית מטא-נתונים עבור תכונות כלולים בדרך כלל בתוך CCRs. תבנית זו מגדירה תכונות להטיל מבנה על CCRs — קודמן חיוני עבור חומר השוואתי של תוכן המסמך-עדיין מאפשר גמישות מספיקה לשמור על הקשר סמנטי. למרות עיצבנו את התבנית המשויכת לתבנית זו להיות מתאימות גם ביאור ידנית וגם כריית טקסט בסיוע שהמפתחות, אנחנו הבטיחו את שזה במיוחד קל לשימוש עבור annotators ידנית. הגישה שלנו באופן ניכר שונה מן יותר מסובכים (ו, לכן, פחות מובן מיד להיות מאומנת חוקרים) מסגרות, כגון FHIR21. הפרוטוקול הבא מתאר כיצד לבודד תכונות המסמך המתאים לסוג הנתונים בכל תבנית, עם ערכה אחת של ערכים המתאימים לאלו CCR יחיד.
סוגי הנתונים בתוך התבנית הם אלה ביותר תיאורי עבור CCRs ומסמכים רפואיים ממוקדות המטופל באופן כללי. ביאור של תכונות אלה מקדם findability, נגישות, אינטראופרביליות ויכולת שימושית של טקסט קרידנס קלירווטר רבייבל, בעיקר על ידי מתן מבנה. סוגי הנתונים נמצאים בארבע קטגוריות כלליות: זיהוי המסמך ואת ביאור, דו ח מקרה זיהוי (קרי, מאפיינים ברמת המסמך), מושגים תוכן רפואי (בעיקר ברמת הקונספט מאפיינים), תודות (קרי כולל מתן עדות מימון). בתהליך זה ביאור ‘, כל מסמך כולל הטקסט המלא של קרידנס קלירווטר רבייבל, תוך השמטת כל חומר תוכן מסמך עצמאי למקרה (למשל, ניסיוני פרוטוקולים). CCRs הם בדרך כלל פחות מ-1000 מילים כל; קורפוס יחיד יש ליצור אינדקס באופן אידיאלי על ידי באותו מסד נתונים ביבליוגרפי ולהיות באותה שפה כתובה.
המוצר של הגישה המתוארת כאן, כאשר חל על קורפוס CCR, היא ערכה מובנית של טקסט קליניים המבואר. בעוד מתודולוגיה זו יכול להתבצע באופן ידני מלא ואת תוכנן להתבצע על ידי מומחים בתחום ללא ניסיון אינפורמטיקה, היא משלימה את הגישות עיבוד שפה טבעית שצוינה לעיל ומספקת נתונים מתאים ניתוח חישובית. ניתוחים כאלה עשויים לעניין קהלים של חוקרים מעבר לאלה שקראו בתדירות גבוהה CCRs, כולל:
אכיפת מבנה על CCRs יכול לתמוך רבות ולמאמצים להבין טוב יותר את השפה הרפואית והן תופעות ביו.
הטמעת תבנית מטא-נתונים מתוקננים עבור CCRs יכול להפוך שלהם הוגן יותר תוכן, להרחיב את קהל היעד שלהם, להרחיב את היישומים שלהם. בעקבות השימוש המסורתי CCRs ככלים חינוכיים בתחום התקשורת רפואי, המתלמדים הבריאות (למשל, סטודנטים לרפואה, מתמחים ו עמיתי), וחוקרים ביו עלול למצוא בכך שיהיה מסוכם תוכן מאפשרים מהירה יותר הבנת הנקרא. הכוח הגדול ביותר של מטה-נתונים תקינה עם CCRs, עם זאת, כי יצירת האינדקסים המרות נתונים אלה אחרת מבודד תצפיות לתבניות interpretable. פרוטוקול שסופק כאן יכול לשמש בשלב הראשון של זרימת עבודה עבור עבודה עם CCRs, בין אם זרימת עבודה זו כוללת ניתוח אפידמיולוגיים, אחרי שיווק תרופה או טיפול מעקב או סקרים רחבה יותר של פתוגנזה או יעילות טיפולית. תכונות מובנות מזוהה בתוך CCRs יכול לספק משאב שימושי עבור חוקרים התמקדות מצגות מחלות וטיפולים, במיוחד עבור מצבים נדירים. חוקרים קליניים עלול למצוא נתונים על משטרי הטיפול האחרונים כדי לנתח הסימפטומים מוקלט או תופעות לוואי ואת מידת השיפור תחת תקנים קודמים של טיפול. הנתונים עשויים לנהוג גם ניתוחים רחבה של טיפולים חדשים מבוסס על יעילות, היעדר תופעות לוואי או רעילות, או על סמים מיקוד הבדלי מגדר, קבוצת גיל או הרקע הגנטי.
היתרונות המסופקים על ידי מטה-נתונים מובנים חלים באופן דומה לזרימות חישובית נועד לנתח או מודל השפה הרפואית. תכונות מובנות CCR עשויים גם כן לספק תוכן ראיות של אזורים לאן מחברים דוח עשוי לספק בקלות רבה יותר machine-readable (וגם במקרים מסוימים, קריא). השונות בין CCRs יכול לנבוע חוסר תצפיות במפורש שסופקו: למשל, לא ניתן לציין הגיל המדויק של המטופל. באופן דומה, קלינאים אולי לא להזכיר בדיקות אם האבחון או התוצאות שלהם נחשבו טריוויאלי. על-ידי מתן דוגמאות של הפערים הנחוצים עבור ניתוח מעמיק, לאכוף מבנה על CCRs מדגיש שיפורים פוטנציאליים. בפרספקטיבה רחבה מאוד, זמינות רבה יותר של נתונים מובנים טקסט ממסמכים רפואיים תומך (NLP) מאמצים כדי ללמוד מנתוני גדול הבריאות24,25לעיבוד שפה טבעית.
The authors have nothing to disclose.
עבודה זו נתמכת באופן חלקי על ידי הלאומי ללב, ריאות ודם המכון: R35 HL135772 (כדי פינג פ); לאומי כללי לרפואה למדעי: U54 GM114833 (כדי פינג פ ק ווטסון, וואנג ו); המכון הלאומי של הדמיה ביו, בביו-הנדסה: T32 EB016640 (עם הח א); מתנת קרן הוג, סטי ד ר ס; התרומה T.C. Laubisch ב UCLA (כדי פינג עמ’).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |