Мы представляем протокола и связанных с ними метаданных шаблон для извлечения текста, описывающий биомедицинских концепций в клинических случаев. Структурированные текстовые значения производится через этот протокол может поддерживать глубокий анализ тысяч клинических повествования.
Клинические случаи (КЦДЗ) являются ценным средством обмена наблюдения и исследования в области медицины. Меняется форма этих документов, и их содержание включает в себя описания многочисленных, Роман болезни презентаций и лечения. До настоящего времени текстовые данные в КЦДЗ основном неструктурированных, требующих значительных усилий человека и вычислительные вынести эти данные полезны для углубленного анализа. В этом протоколе мы описываем методы для определения метаданных, соответствующих конкретным биомедицинских понятия, часто наблюдается в КЦДЗ. Мы предоставляем шаблон метаданных как руководство для документа аннотации, признавая, что введение структуры на КЦДЗ могут осуществляться путем комбинации ручного и автоматизированного усилий. Представленный здесь подход подходит для организации связанных с концепцией текста от большой литературе корпус (например, тысячи из КЦДЗ), но может быть легко адаптирована для облегчения более целенаправленных задач или небольшие наборы отчетов. Результате структурированных текстовых данных включает в себя достаточно семантического контекста для поддержки различных рабочих процессов анализа последующего текста: мета анализ для определения как максимизировать CCR подробно, эпидемиологические исследования редких заболеваний и разработка моделей медицинские языка могут все быть сделаны более реализуемы и управляемой с помощью структурированных текстовых данных.
Клинические случаи (КЦДЗ) являются основные средства обмена, замечания и идеи в медицине. Они служат как основной механизм коммуникации и образования для врачей и студентов-медиков. Исторически КЦДЗ также предоставили счетов возникающих заболеваний, их лечения и их генетическим стола1,2,и3,4. Например первый лечения человека бешенство Луи Пастер в 18855,6 и первое применение пенициллина в пациентов,7 были оба сообщили через КЦДЗ. Начиная с апреля 2018, были опубликованы более 1,87 миллионов КЦДЗ с более половины миллиона в течение последнего десятилетия; журналы продолжают предоставлять новые места для этих докладов8. Хотя уникальные по форме и содержанию, КЦДЗ содержат текстовые данные, которые в основном неструктурированных, содержат широкий словарный запас и касаются взаимосвязанных явлений, ограничивая их использования в качестве ресурса структурированной. Требуются значительные усилия для извлекать подробные метаданные (например, «данные о данных», или в данном случае, описания содержимого документа) от КЦДЗ и установить их как данные обнаружимым, доступной, совместимых и многоразовые (ярмарка)9 ресурсов.
Здесь мы описываем процесс для извлечения текста и числовых значений для стандартизации описания конкретных биомедицинских концепций в опубликованных КЦДЗ. Эта методология включает шаблон метаданных для руководства заметки; Смотрите Рисунок 1 обзор этого процесса. Применение процесса аннотации к большой коллекции отчетов (например, несколько тысяч определенного типа болезни презентации) позволяет Ассамблее управляемой и структурированного набора аннотированный клинических текстов, достижение machine-readable Документация и биомедицинских явления встроенные в каждой клинической картины. Хотя форматы данных, таких как предоставляемые HL7 (например., версии 3 стандарта обмена сообщениями10 или быстро здравоохранения ресурсов совместимости [FHIR]11), LOINC12и пересмотр 10 международной статистической Классификация болезней и связанных с ними проблем со здоровьем (МКБ-10)13 обеспечивают стандартов для описания и обмена клинических наблюдений, они не поимка текст, окружающих эти данные, они не предназначены для. Результаты нашей методологии лучше всего использовать для реализации структуры на КЦДЗ и облегчения последующего анализа, нормализации через контролируемые словари и систем кодирования (например., МКБ-10), и/или преобразования в форматы клинических данных, перечисленных выше .
Добыча ресурсов КЦДЗ является активной области работы в рамках биомедицинских и клинических информатики. Хотя предыдущие предложения стандартизировать структуру дело отчеты (например., используя HL7 v2.514 или стандартизированной терминологии фенотип15) заслуживают похвалы, вполне вероятно, что КЦДЗ будет продолжать следить за целый ряд различных естественный язык форм и документов макеты, как они имеют большую часть прошлого века. В идеальных условиях авторы новых отчетов следуйте уход Руководство16 чтобы убедиться, что они являются всеобъемлющими. Подходы, чувствительных к естественного языка и его отношение к медицинской концепции, поэтому может быть наиболее эффективным в работе с новым и архивированных отчетов. Ресурсы, такие как ремесло17 и те производства информатики для интеграции биологии и курирование18 прикроватная (i2b2) поддерживать подходы, обработки естественного языка (NLP) пока не специально сосредоточиться на КЦДЗ или клинических повествования. Аналогично медицинские инструменты НЛП такие cTAKES19 и зажим20 были разработаны, но как правило определить конкретные слова или фразы (то есть, подразделений) в документы, вместо того, чтобы общие концепции, обычно описывается в КЦДЗ.
Мы разработали стандартизированных метаданных шаблон для функции, обычно включаемых в КЦДЗ. Этот шаблон определяет возможности наложить структуры на КЦДЗ — важным прекурсором для углубленного сравнения содержимого документа-еще не обеспечивает достаточную гибкость, чтобы удерживать семантического контекста. Хотя мы разработали формат, связанный с этим шаблоном, подходящими для ручной аннотации и вычислений с помощью текста, мы обеспечили, что это особенно легко использовать для ручного комментаторы. Наш подход заметно отличается от более сложных (и, следовательно, менее сразу понятно неподготовленным исследователей) рамки как FHIR21. Следующий протокол описывает изолировать функции документов, соответствующий типу данных каждого шаблона с одним набором значений, соответствующих этим в одной CCR.
Типы данных в шаблоне являются те самые описательные КЦДЗ и медицинских документов, ориентированных на пациента в целом. Аннотации этих функций способствует находимости, доступность, совместимости и повторное использование CCR текста, главным образом путем предоставления в ее структуре. Типы данных, в четыре общие категории: идентификации документа и аннотации, судебный отчет идентификации (например, свойства документа уровня), медицинское содержание концепции (главным образом концепции уровня свойства) и подтверждения (т.е. особенности предоставления доказательств финансирования). В этом процессе аннотации каждый документ включает в себя полный текст CCR, минуя любой материал содержимое документа, независимых дела (например, экспериментальные протоколы). КЦДЗ, как правило, меньше, чем 1000 слов каждая; один корпус идеально быть проиндексирован же библиографическая база данных и находиться в том же письменного языка.
Продуктом подход, описанный здесь, при применении к CCR корпус, является структурированный набор аннотированных клинических текста. Хотя эта методика может быть выполнена полностью вручную и была разработана чтобы быть выполнены специалистами домена без опыта информатики, он дополняет подходы обработки естественного языка, указанного выше и предоставляет данные, подходящие для Вычислительный анализ. Такой анализ может представлять интерес для аудитории исследователей, помимо тех, которые часто читают КЦДЗ, включая:
Обеспечение соблюдения структуры на КЦДЗ может поддерживать многочисленные последующие усилия, чтобы лучше понять язык медицинских и биомедицинских явлений.
Осуществление стандартизированных метаданных шаблона для КЦДЗ можно сделать их содержание более СПРАВЕДЛИВОЙ, расширить их аудиторию и расширять их приложения. После традиционного использования КЦДЗ как образовательные инструменты в медицинской коммуникации, здравоохранения стажеров (например, студентов-медиков, стажеры и стипендиаты) и биомедицинских исследователи могут найти что содержание резюме доклада включить более быстрое понимания. Самая большая сила стандартизация метаданных с КЦДЗ, однако, является, что индексирование преобразует эти данные в противном случае изолирован наблюдений в интерпретации моделей. Протокол, здесь может служить в качестве первого шага в рабочем процессе для работы с КЦДЗ, ли этот процесс состоит из эпидемиологического анализа, постмаркетингового наркотиков или лечения наблюдения или более широкие исследования патогенеза или терапевтической эффективности. Структурированных функций, определенных в КЦДЗ может предоставить полезным ресурсом для исследователей, упором на презентации болезни и лечения, особенно редких заболеваний. Клинические исследователи могут найти данные о прошлых схемы лечения для анализа записанных симптомы или побочные эффекты и степень улучшения при предыдущих стандартов медицинской помощи. Данные также могут управлять более широкого анализа новых методов лечения, основанной на эффективности, отсутствие отрицательных последствий или токсичности, или наркотиков, ориентация различий пола, возрастной группы или генетический фон.
Преимущества, предоставляемые структурированных метаданных также применимы к вычислительных процессов, предназначенных для разбора или модель медицинского языка. Структурированные функции CCR могут также предоставлять доказательства из районов, где авторы отчетов могут предоставлять более легко machine-readable (и в некоторых случаях, читаемую) содержание. Разница между КЦДЗ может быть результатом отсутствия явно предоставленных замечаний: например, точный возраст пациента не может быть указан. Аналогичным образом клиницисты не упомянуть тесты Если диагностики или их результаты были рассмотрены тривиальным. Путем предоставления примеров необходимых для углубленного анализа пробелов, соблюдения структуры на КЦДЗ освещаются возможные улучшения. В более широкой перспективе большей доступности структурированных текстовых данных из медицинских документов поддерживает усилия (НЛП) чтобы узнать от больших данных в области здравоохранения24,25обработки естественного языка.
The authors have nothing to disclose.
Эта работа частично поддержали национальные сердца, легких и крови института: R35 HL135772 (для P. Ping); Национальный институт Генеральной медицинских наук: U54 GM114833 (для P. Ping, K. Уотсон и W. Wang); Национальный институт биомедицинских изображений и биоинженерии: T32 EB016640 (для A. Bui); подарок от Фонда Хоаг и д-р S. Сетти; и T.C. Laubisch облечение в Калифорнийском университете (для P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |