プロトコルや臨床事例研究の医学の概念を説明するテキストの抽出のための関連するメタデータ テンプレートを紹介しています。このプロトコルを介して生成された構造化されたテキスト値は、臨床の物語の何千もの深い分析をサポートできます。
臨床症例報告 (Ccr) は、観察や医学の洞察力を共有する貴重な手段です。これらのドキュメントの形式が異なります、コンテンツには説明が含まれています多数、新規疾患のプレゼンテーションとトリートメント。これまでのところ、Ccr 内のテキスト データは綿密な分析に役立つこれらのデータをレンダリングする重要な人間と計算の努力を必要とする主な構造ではありません。このプロトコルでは Ccr 内でよくみられる特定の生物医学的概念に対応するメタデータを識別する方法をについて説明します。提供メタデータ テンプレート ガイドとしてドキュメント アノテーション手動および自動の努力の組み合わせにより Ccr の構造を課すことを追求可能性があることを認識します。ここで紹介した方法が (例えば、何千人も Ccr の) 大きい文献コーパスから概念関連テキストの組織にとって適切なより集中されたタスクまたはレポートの小さなセットを容易に簡単に適応させること。結果として得られる構造化されたテキスト データを含むさまざまな後続のテキスト解析ワークフローをサポートするための十分な意味的文脈: CCR を最大化する方法を決定するためのメタ分析の詳細、希少疾患の疫学的研究とモデル開発医療言語すべて作られるかもしれないより実現可能な構造化されたテキスト データを使用して管理します。
臨床症例報告 (Ccr) は、観察や医学の洞察力を共有する基本的な手段です。これらはコミュニケーションと臨床医および医学生のための教育の基本的なメカニズムとして機能します。歴史的に、Ccr は、新興感染症のアカウント、その治療とその遺伝的背景1,2,3,4も提供しています。たとえば、18855,6のルイ ・ パスツールによって人間の狂犬病の最初の治療と7であった患者にペニシリンの最初のアプリケーション両方の Ccr を報告しました。以上 187 万 Ccr は、過去 10 年間の内半分以上 100万 2018 年 4 月に現在公開されています。雑誌は、これらのレポートの8の新しい会場を提供し続けています。独特のフォームとコンテンツ、Ccr が主として構造化されたテキスト データを含む、広大な語彙が含まれて、構造化されたリソースとしての使用を制限する、相互に関連する現象を懸念します。詳細なメタデータを抽出する多大な労力が必要 (すなわち、 「データに関するデータ」、または、この場合は、ドキュメントの内容の説明) Ccr からあり、検索、アクセス、相互運用性、再利用可能な (フェア)9データとして構築します。リソース。
ここでは、テキストと公開された Ccr 内特定生物医学的概念の記述を標準化する数値値を抽出するプロセスをについて説明します。この方法には、注釈をガイドするメタデータ テンプレートが含まれていますこのプロセスの概要については、図 1を参照してください。注釈プロセスのレポートの大規模なコレクションへの応用 (例えば、数千人の疾患の特定の種類の) 機械可読を達成する管理しやすく構造化された注釈付き臨床テキスト、一連のアセンブリを許可ドキュメントで、それぞれの臨床プレゼンテーション内で埋め込まれた生体現象。HL7 によって提供されるようなデータ形式が (e.g、メッセージング標準10または高速医療相互運用性リソース [FHIR]11のバージョン 3)、LOINC12、およびリビジョン 10 の国際統計。病気および関連の健康上の問題 (ICD-10) の分類13記述および臨床的観察を交換するための標準を提供する、これらのデータを囲むテキストをキャプチャしないでくださいも彼らがするものです。私たちの方法論の結果を最高使用して Ccr の構造を適用し、その後の分析、統制語彙とコーディング システムを正常化を容易にする (e.g、ICD 10)、および/または上記臨床データ フォーマットへの変換。.
Ccr をマイニングは、生物医学および臨床情報内の作業の活動領域です。以前の提案の構造を標準化するケース レポートが (e.g、HL7 v2.514を使用してまたは標準化表現用語15) 称賛に値するが、Ccr は次の異なるさまざまないくなりそうだ。自然言語の形式とドキュメントのレイアウト、彼らとして過去世紀の多くのために持っています。理想的な条件の下で新しいケース レポートの著者する包括的なケアのガイドライン16に従ってください。医療の概念を自然言語との関係に敏感なアプローチは、新しいおよびアーカイブ済みレポートでの作業に最も効果的なしたがってかもしれません。統合生物学プロデュース クラフト17などそれらのリソースとベッドサイド (i2b2)18キュレーション自然言語処理 (NLP) の方法をサポートまだ特に焦点 Ccr または臨床物語はありません。同様に、cTAKES19などクランプ20医療自然言語処理ツールは開発されているが、一般的に Ccr の一般的説明されている一般的な概念ではなく、ドキュメント内で特定の単語や句 (すなわちエンティティ) を識別します。
我々 は、Ccr に一般的に含まれる機能のための標準化されたメタデータ テンプレートを設計しています。このテンプレートは、Ccr の構造を課す機能を定義-ドキュメントの内容の詳細な比較のための重要な前駆体-まだ意味のコンテキストを保持するための十分な柔軟性が可能になります。手動アノテーションと計算支援テキストマイニングの両方に適したこのテンプレートに関連付けられている形式を設計するが、それは特に使いやすいマニュアル人手の確認しました。我々 のアプローチは、FHIR21などのフレームワークにからより複雑な (そして、したがって、あまり未熟なすぐに理解できる研究者) を著しく異なります。次のプロトコルでは、各テンプレート データ型、単一の単一の CCR のそれらに対応する値のセットに対応するドキュメント機能を分離する方法について説明します。
テンプレート内のデータ型は、Ccr と患者中心の医療文書の最もわかりやすい一般に。これらの機能の注釈は、主に構造を与えることによってファインダビリティ、アクセシビリティ、相互運用性、および CCR テキストの再利用性を促進します。データ型は、4 つの一般的なカテゴリ: 文書と注釈の識別、ケース レポート識別 (すなわち、文書レベルのプロパティ)、医療コンテンツの概念 (主に概念レベルのプロパティ) および受信確認 (すなわち、の資金の証拠を提供する機能)。この注釈プロセスでは、各ドキュメントには CCR、省略する場合 (実験プロトコルなど) に独立した任意のドキュメントの内容材料の完全なテキストが含まれています。Ccr は、一般的に未満 1,000 単語各;単一コーパスは、理想的には同じ書誌データベースでインデックスを作成するされ、同じ言語で書かれました。
CCR コーパスに適用した場合、ここで説明するアプローチの製品は、臨床の注釈テキストの構造化されたセットです。この方法は完全に手動で実行することができますおよび情報学経験がなくてもドメイン専門家によって行われるように設計されています、それ上で指定した自然言語処理のアプローチを補完するものし、に適切なデータを提供します解析。そのような分析は、Ccr などをよく読む人を超える研究者の観客に興味のある可能性があります。
Ccr の構造体を強制医療言語と生体現象を理解し多数のそれに続く努力をサポートできます。
Ccr の標準化されたメタデータのテンプレートの実装は、彼らのコンテンツより公正を作る、彼らの聴衆を拡大および、応用を拡張できます。医療コミュニケーション教育のツールとして Ccr の伝統的な使用は、次の医療研修 (例えば、医学部学生、インターン、および仲間)、生物医学研究者見つけることができます要約のケース レポートの内容を有効にすることより迅速です理解します。Ccr、メタデータ標準の最大の強みは、ただし、ことは解釈のパターンには、観測を分離データ変換をそれ以外の場合インデックスです。このワークフローは、病態の解明や治療効果のより広範な調査または治療監視ポスト マーケティングの薬剤疫学的解析から構成されるかどうか、ここで提供されるプロトコルは、Ccr を操作するためのワークフローの最初のステップとして使用できます。Ccr 内で識別される構造の特徴は、病気プレゼンテーションと特に珍しい条件のための治療研究者に有用なリソースを提供できます。臨床研究者は、過去の治療記録された症状や副作用やケアの前の基準の改善の程度を分析するためにデータにあります。また、データは新しい治療法の効果、副作用や毒性の欠如またはターゲティング性別、年齢グループ、または遺伝的背景の差異に基づいてのより広範な分析を運転するかもしれない。
構造化メタデータによって提供される利点は、解析または医療言語をモデルに設計されている計算ワークフローに同様に適用されます。構造化された CCR 機能は、レポート作成者がより簡単に機械可読な提供することが地域の (およびいくつかのケースでは、人間が判読できる) の証拠のコンテンツもあります。Ccr 分散できます明示的に指定された観測の欠如に起因する:例えば、患者さんの正確な年齢が指定されていない可能性があります。同様に、臨床医は診断やその結果は自明と考えられていた場合にテストを述べないことがあります。詳細な分析に必要なギャップの例を提供し、潜在的な改善をハイライト Ccr の構造を適用します。広い視野で医療ドキュメントの構造化されたテキスト データの可用性の向上は、自然言語処理 (NLP) 医療24,25で大きなデータから学ぶ努力をサポートしています。
The authors have nothing to disclose.
この作品は、国民の中心、肺および血の協会によって部分で支えられた: R35 HL135772 (P. Ping のような) に国立総合医学研究所: U54 GM114833 (P. Ping、k. ワトソン、西王し)生体イメージング ・生体工学研究所: (A. Bui); する T32 EB016640ホーグ財団と忍博士 Setty; からの贈り物(P. Ping) に UCLA で T.C. Laubisch 基金。
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |