Wir präsentieren eine Protokolls und zugehörigen Metadaten-Vorlage für die Extraktion von Text Beschreibung biomedizinische Konzepte in klinische Fallberichte. Die strukturierte Textwerte produziert durch dieses Protokoll unterstützen Tiefe Analyse Tausender von klinischen Erzählungen.
Klinische Fallberichte (CCRs) sind ein wertvolles Mittel des Teilens, Beobachtungen und Erkenntnisse in der Medizin. Die Form dieser Dokumente variiert, und deren Inhalt enthält Beschreibungen der zahlreichen, neuartige Krankheit Präsentationen und Behandlungen. Bisher ist die Textdaten in CCRs weitgehend unstrukturiert, erfordert erhebliche menschliche und rechnerische Aufwand zum Rendern dieser Daten nützlich für eine detaillierte Analyse. Dieses Protokoll beschreibt Methoden zur Identifizierung von Metadaten entsprechend bestimmte biomedizinische Konzepte innerhalb CCRs häufig beobachtet. Wir bieten eine Metadatenvorlage als Leitfaden für Annotations, anerkennend, dass imposante Bauwerk auf CCRs durch eine Kombination von manuellen und automatisierten Aufwand verfolgt werden kann. Der hier vorgestellte Ansatz kann eignet sich für Organisation der Konzept-bezogenen Text aus einem großen Literatur-Korpus (z. B. Tausende von CCRs) jedoch leicht angepasst, um mehr fokussierte Aufgaben oder kleine Gruppen von Berichten zu erleichtern. Die daraus resultierende strukturierten Textdaten enthält ausreichend semantischen Kontext, um eine Vielzahl von nachfolgenden Text Analyse Arbeitsabläufe unterstützen: Meta-Analysen zu bestimmen, wie CCR zu maximieren detail, epidemiologische Studien von seltenen Krankheiten und die Entwicklung von Modellen der medizinischen Sprache kann alle realisierbaren und durch den Einsatz von strukturierten Textdaten überschaubar gemacht werden.
Klinische Fallberichte (CCRs) sind ein grundlegendes Mittel des Teilens, Beobachtungen und Erkenntnisse in der Medizin. Diese dienen als grundlegenden Mechanismus der Kommunikation und Ausbildung für Ärzte und Medizinstudenten. In der Vergangenheit haben CCRs auch Konten von neu auftretenden Krankheiten, ihre Behandlung und ihre genetische Hintergründe1,2,3,4zur Verfügung gestellt. Beispielsweise berichtet die erste Behandlung der menschlichen Tollwut durch Louis Pasteur im Jahre 18855,6 und die erste Anwendung von Penicillin bei Patienten7 waren beide durch CCRs. Mehr als 1,87 Millionen CCRs wurden ab April 2018, mit mehr als 500.000 innerhalb der letzten Dekade veröffentlicht; Zeitschriften sind, neue Gelegenheiten für diese Berichte8fort. Obwohl einzigartig in Form und Inhalt, CCRs enthalten, die weitgehend unstrukturierten Textdaten enthalten ein umfangreiches Vokabular und betreffen zusammenhängende Phänomene, ihre Verwendung als strukturierte Ressource zu beschränken. Erheblicher Aufwand ist erforderlich, um detaillierte Metadaten extrahieren (z.B. “Daten über Daten”, oder in diesem Fall, Beschreibungen der Dokumentinhalte) von CCRs und als ein auffindbares, zugänglich, interoperable und wiederverwendbar (FAIR)9 -Daten zu etablieren Ressource.
Hier beschreiben wir einen Prozeß für das Extrahieren von Text und numerische Werte, die Beschreibung der spezifischen biomedizinische Konzepte im veröffentlichten CCRs zu standardisieren. Diese Methode beinhaltet eine Metadatenvorlage, Anmerkung zu führen; siehe Abbildung 1 für einen Überblick über diesen Prozess. Anwendung des Verfahrens Anmerkung zu einer großen Sammlung von Berichten (z. B. mehrere tausend eines bestimmten Typs von Krankheit Präsentation) erlaubt Montage einer überschaubar und strukturierte Gruppe von kommentierten klinischen Texte, maschinenlesbar zu erreichen Dokumentation und biomedizinische Phänomene in jeder klinischen Präsentation eingebettet. Obwohl wie HL7 Datenformate (z.B.., Version 3 von der Messaging-Standard10 oder schnell Healthcare Interoperabilität Ressourcen [FHIR]11), LOINC12und 10 Revision der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme (ICD-10)13 bieten Standards für die Beschreibung und den Austausch von klinischen Beobachtungen, sie erfassen nicht den Text, um diese Daten, noch sollen sie. Die Ergebnisse unserer Methodik werden am besten zur Struktur auf CCRs durchzusetzen und die anschließende Analyse, Normalisierung durch kontrollierte Vokabulare und Kodierungen erleichtern (zB., ICD-10), bzw. Umstellung auf die oben aufgeführten klinischen Daten-Formate .
CCRs Bergbau ist ein aktives Gebiet der Arbeit innerhalb der biomedizinischen und klinischen Informatik. Obwohl frühere Vorschläge zur Standardisierung der Struktur der Berichte Fall (zB., mit HL7 v2. 514 oder standardisiert Phänotyp Terminologie15) sind lobenswert, es ist wahrscheinlich, dass CCRs weiterhin eine Vielzahl von verschiedenen Folgen Natürlich-sprachlichen Formen und Dokumentlayouts, wie sie für einen Großteil des vergangenen Jahrhunderts haben. Unter idealen Bedingungen folgen Autoren der neuen Fallberichte Pflege Leitlinien16 um sicherzustellen, dass sie umfassend sind. Ansätze zur medizinischen Konzepte empfindlich auf natürlicher Sprache und ihre Beziehung können daher am effektivsten in der Arbeit mit neuen und archivierte Berichte sein. Ressourcen wie Handwerk17 und diejenigen von Informatik für die Integration von Biologie und Krankenbett (i2b2)18 Kuration Verarbeitung natürlicher Sprache (NLP) Ansätze unterstützen noch nicht speziell Schwerpunkt CCRs oder klinischen Erzählungen. In ähnlicher Weise medizinische NLP-Tools wie cTAKES19 und Klemme20 wurden entwickelt, aber im allgemeinen identifiziert bestimmte Wörter oder Sätze (d.h., Entities) innerhalb von Dokumenten, anstatt die allgemeinen Konzepte, die häufig in CCRs beschrieben.
Wir haben eine standardisierte Metadatenvorlage CCRs üblicherweise enthaltenen Funktionen entwickelt. Diese Vorlage definiert Funktionen, um die Struktur auf CCRs verhängen — ein wesentlicher Vorläufer für detaillierte Vergleiche von Dokumentinhalt-noch sorgt für ausreichend Flexibilität, semantischen Kontext zu behalten. Obwohl wir diese Vorlage für manuelle Beschriftung und rechnerisch unterstützt Textmining geeignet zugeordnete Format entwickelt haben, haben wir dafür gesorgt, dass es für manuelle Kommentatoren besonders einfach zu bedienen ist. Unser Ansatz unterscheidet sich deutlich von komplizierter (und daher weniger für ungeübte sofort verständlich Forscher) Frameworks wie z. B. FHIR21. Das folgende Protokoll beschreibt die Dokumentfunktionen entspricht jede Vorlage Datentyp mit einem einzigen Satz von Werten, die in einem einzigen CCR entspricht zu isolieren.
Die Datentypen in der Vorlage sind die beschreibenden CCRs und patientenorientierte medizinische Unterlagen im Allgemeinen. Anmerkung dieser Funktionen fördert Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von CCR Text, in erster Linie durch die Struktur zu geben. Die Datentypen sind in vier allgemeine Kategorien: Dokument und Annotation Identifikation, Fallbericht Identifikation (d. h. auf Dokumentebene Eigenschaften), medizinische Inhalte Konzepte (Eigenschaften in erster Linie Konzept-Ebene) und Bestätigungen (d.h. Funktionen, die den Nachweis der Finanzierung). In diesem Prozess Annotation enthält jedes Dokument im Volltext ein CCR, Verzicht auf jegliches Dokument Inhalt Material unabhängig von der Fall (z. B. experimentelle Protokolle). CCRs sind in der Regel weniger als 1000 Worte; ein einziger Korpus sollte im Idealfall von der gleichen bibliographischen Datenbank indiziert werden und werden in der gleichen Schriftsprache.
Das Produkt des Ansatzes, die hier beschrieben wird, angewandt auf einem CCR-Korpus ist ein strukturierter Satz von kommentierte klinische Text. Während dieser Methodik vollständig manuell ausgeführt werden kann und wurde entwickelt, um durch Fachexperten ohne Informatik Erfahrung durchgeführt werden, es ergänzt die Verarbeitung natürlicher Sprache-Ansätze, die oben genannten und liefert Daten für computergestützte Analyse. Solche Analysen können für Publikum von Wissenschaftlern über die von Interesse sein, die häufig CCRs, einschließlich lesen:
Durchsetzung der Struktur auf CCRs unterstützen zahlreiche spätere Bemühungen medizinischen Sprache und biomedizinische Phänomene besser zu verstehen.
Durchführung einer standardisierten Metadaten-Vorlage für CCRs kann machen ihre Inhalte mehr FAIR, ihr Publikum zu erweitern und erweitern Sie ihre Anwendungen. Im Anschluss an die traditionelle Verwendung von CCRs als Lehrmittel in der medizinischen Kommunikation Gesundheitswesen Auszubildende (z. B. Studenten, Praktikanten und Fellows) und Biomediziner vorkommen, dass zusammengefasste Fallbericht Inhalte ermöglichen eine schnellere Verständnis. Die größte Stärke von Metadaten Standardisierung mit CCRs, ist jedoch, dass die Indizierung dieser Daten Transformationen sonst Beobachtungen in interpretierbare Muster isoliert. Das Protokoll hier zur Verfügung gestellten dient als der erste Schritt in einem Workflow für die Arbeit mit CCRs, ob dieses Workflows aus epidemiologischen Analyse, Post-Marketing-Arzneimittel oder Behandlung Überwachung oder größeren Erhebungen der Pathogenese oder therapeutische Wirksamkeit besteht. Strukturierte Funktionen innerhalb von CCRs bieten eine nützliche Ressource für Forscher mit Schwerpunkt auf Krankheit Präsentationen und Behandlungen, insbesondere für seltene Erkrankungen. Klinische Forscher finden Daten auf vergangenen Behandlungsschemata aufgezeichneten Symptome oder Nebenwirkungen und Grad der Verbesserung unter bisherigen Standards der Versorgung zu analysieren. Die Daten können auch breitere Analysen ein neuer Behandlungen basierend auf Wirksamkeit, Nebenwirkungen oder Toxizität, Mangel oder Drug targeting Unterschiede in Geschlecht, Altersgruppe oder genetischen Hintergrund fahren.
Die Vorteile von strukturierten Metadaten gelten ebenso für computergestützte Arbeitsabläufe zu analysieren oder das Modell der medizinischen Sprache entwickelt. Strukturierte CCR-Funktionen können auch Beweise für Bereiche wo Berichtsautoren leichter maschinenlesbare vorsehen (und in einigen Fällen, lesbare) Inhalte bereitstellen. Varianz unter CCRs unter einem Mangel an explizit angegebenen Beobachtungen führen kann: z. B. genaue Alter des Patienten nicht angegeben werden kann. In ähnlicher Weise können Kliniker Tests nicht erwähnen, wenn die Diagnose oder ihre Ergebnisse trivial betrachtet wurden. Durch die Beispiele für Lücken für eingehende Analyse notwendig, betont die Durchsetzung Struktur auf CCRs Verbesserungspotenziale. Aus einer weiteren Perspektive unterstützt eine größere Verfügbarkeit von strukturiertem Textdaten aus medizinischen Dokumenten Sprachverarbeitung (NLP) Bemühungen von big Data im Gesundheitswesen24,25lernen.
The authors have nothing to disclose.
Diese Arbeit wurde teilweise durch National Heart, Lung and Blood Institute unterstützt: R35 HL135772 (auf s. Ping); National Institute of General Medical Sciences: U54 GM114833 (zu P. Ping, K. Watson und W. Wang); Nationales Institut für biomedizinische Bildgebung und Bioingenieurwissenschaften: T32 EB016640 (zu A. Bui); ein Geschenk der Hoag-Stiftung und Dr. S. Setty; und der t.c. Laubisch-Stiftung an der UCLA (auf s. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |