Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

Ein Metadaten-Extraktion-Ansatz für klinische Fallberichte zu ermöglichen erweiterte Verständnis für biomedizinische Konzepte

Published: September 20, 2018 doi: 10.3791/58392

Summary

Wir präsentieren eine Protokolls und zugehörigen Metadaten-Vorlage für die Extraktion von Text Beschreibung biomedizinische Konzepte in klinische Fallberichte. Die strukturierte Textwerte produziert durch dieses Protokoll unterstützen Tiefe Analyse Tausender von klinischen Erzählungen.

Abstract

Klinische Fallberichte (CCRs) sind ein wertvolles Mittel des Teilens, Beobachtungen und Erkenntnisse in der Medizin. Die Form dieser Dokumente variiert, und deren Inhalt enthält Beschreibungen der zahlreichen, neuartige Krankheit Präsentationen und Behandlungen. Bisher ist die Textdaten in CCRs weitgehend unstrukturiert, erfordert erhebliche menschliche und rechnerische Aufwand zum Rendern dieser Daten nützlich für eine detaillierte Analyse. Dieses Protokoll beschreibt Methoden zur Identifizierung von Metadaten entsprechend bestimmte biomedizinische Konzepte innerhalb CCRs häufig beobachtet. Wir bieten eine Metadatenvorlage als Leitfaden für Annotations, anerkennend, dass imposante Bauwerk auf CCRs durch eine Kombination von manuellen und automatisierten Aufwand verfolgt werden kann. Der hier vorgestellte Ansatz kann eignet sich für Organisation der Konzept-bezogenen Text aus einem großen Literatur-Korpus (z. B. Tausende von CCRs) jedoch leicht angepasst, um mehr fokussierte Aufgaben oder kleine Gruppen von Berichten zu erleichtern. Die daraus resultierende strukturierten Textdaten enthält ausreichend semantischen Kontext, um eine Vielzahl von nachfolgenden Text Analyse Arbeitsabläufe unterstützen: Meta-Analysen zu bestimmen, wie CCR zu maximieren detail, epidemiologische Studien von seltenen Krankheiten und die Entwicklung von Modellen der medizinischen Sprache kann alle realisierbaren und durch den Einsatz von strukturierten Textdaten überschaubar gemacht werden.

Introduction

Klinische Fallberichte (CCRs) sind ein grundlegendes Mittel des Teilens, Beobachtungen und Erkenntnisse in der Medizin. Diese dienen als grundlegenden Mechanismus der Kommunikation und Ausbildung für Ärzte und Medizinstudenten. In der Vergangenheit haben CCRs auch Konten von neu auftretenden Krankheiten, ihre Behandlung und ihre genetische Hintergründe1,2,3,4zur Verfügung gestellt. Beispielsweise berichtet die erste Behandlung der menschlichen Tollwut durch Louis Pasteur im Jahre 18855,6 und die erste Anwendung von Penicillin bei Patienten7 waren beide durch CCRs. Mehr als 1,87 Millionen CCRs wurden ab April 2018, mit mehr als 500.000 innerhalb der letzten Dekade veröffentlicht; Zeitschriften sind, neue Gelegenheiten für diese Berichte8fort. Obwohl einzigartig in Form und Inhalt, CCRs enthalten, die weitgehend unstrukturierten Textdaten enthalten ein umfangreiches Vokabular und betreffen zusammenhängende Phänomene, ihre Verwendung als strukturierte Ressource zu beschränken. Erheblicher Aufwand ist erforderlich, um detaillierte Metadaten extrahieren (z.B. "Daten über Daten", oder in diesem Fall, Beschreibungen der Dokumentinhalte) von CCRs und als ein auffindbares, zugänglich, interoperable und wiederverwendbar (FAIR)9 -Daten zu etablieren Ressource.

Hier beschreiben wir einen Prozeß für das Extrahieren von Text und numerische Werte, die Beschreibung der spezifischen biomedizinische Konzepte im veröffentlichten CCRs zu standardisieren. Diese Methode beinhaltet eine Metadatenvorlage, Anmerkung zu führen; siehe Abbildung 1 für einen Überblick über diesen Prozess. Anwendung des Verfahrens Anmerkung zu einer großen Sammlung von Berichten (z. B. mehrere tausend eines bestimmten Typs von Krankheit Präsentation) erlaubt Montage einer überschaubar und strukturierte Gruppe von kommentierten klinischen Texte, maschinenlesbar zu erreichen Dokumentation und biomedizinische Phänomene in jeder klinischen Präsentation eingebettet. Obwohl wie HL7 Datenformate (z.B.., Version 3 von der Messaging-Standard10 oder schnell Healthcare Interoperabilität Ressourcen [FHIR]11), LOINC12und 10 Revision der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme (ICD-10)13 bieten Standards für die Beschreibung und den Austausch von klinischen Beobachtungen, sie erfassen nicht den Text, um diese Daten, noch sollen sie. Die Ergebnisse unserer Methodik werden am besten zur Struktur auf CCRs durchzusetzen und die anschließende Analyse, Normalisierung durch kontrollierte Vokabulare und Kodierungen erleichtern (zB., ICD-10), bzw. Umstellung auf die oben aufgeführten klinischen Daten-Formate .

CCRs Bergbau ist ein aktives Gebiet der Arbeit innerhalb der biomedizinischen und klinischen Informatik. Obwohl frühere Vorschläge zur Standardisierung der Struktur der Berichte Fall (zB., mit HL7 v2. 514 oder standardisiert Phänotyp Terminologie15) sind lobenswert, es ist wahrscheinlich, dass CCRs weiterhin eine Vielzahl von verschiedenen Folgen Natürlich-sprachlichen Formen und Dokumentlayouts, wie sie für einen Großteil des vergangenen Jahrhunderts haben. Unter idealen Bedingungen folgen Autoren der neuen Fallberichte Pflege Leitlinien16 um sicherzustellen, dass sie umfassend sind. Ansätze zur medizinischen Konzepte empfindlich auf natürlicher Sprache und ihre Beziehung können daher am effektivsten in der Arbeit mit neuen und archivierte Berichte sein. Ressourcen wie Handwerk17 und diejenigen von Informatik für die Integration von Biologie und Krankenbett (i2b2)18 Kuration Verarbeitung natürlicher Sprache (NLP) Ansätze unterstützen noch nicht speziell Schwerpunkt CCRs oder klinischen Erzählungen. In ähnlicher Weise medizinische NLP-Tools wie cTAKES19 und Klemme20 wurden entwickelt, aber im allgemeinen identifiziert bestimmte Wörter oder Sätze (d.h., Entities) innerhalb von Dokumenten, anstatt die allgemeinen Konzepte, die häufig in CCRs beschrieben.

Wir haben eine standardisierte Metadatenvorlage CCRs üblicherweise enthaltenen Funktionen entwickelt. Diese Vorlage definiert Funktionen, um die Struktur auf CCRs verhängen — ein wesentlicher Vorläufer für detaillierte Vergleiche von Dokumentinhalt-noch sorgt für ausreichend Flexibilität, semantischen Kontext zu behalten. Obwohl wir diese Vorlage für manuelle Beschriftung und rechnerisch unterstützt Textmining geeignet zugeordnete Format entwickelt haben, haben wir dafür gesorgt, dass es für manuelle Kommentatoren besonders einfach zu bedienen ist. Unser Ansatz unterscheidet sich deutlich von komplizierter (und daher weniger für ungeübte sofort verständlich Forscher) Frameworks wie z. B. FHIR21. Das folgende Protokoll beschreibt die Dokumentfunktionen entspricht jede Vorlage Datentyp mit einem einzigen Satz von Werten, die in einem einzigen CCR entspricht zu isolieren.

Die Datentypen in der Vorlage sind die beschreibenden CCRs und patientenorientierte medizinische Unterlagen im Allgemeinen. Anmerkung dieser Funktionen fördert Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von CCR Text, in erster Linie durch die Struktur zu geben. Die Datentypen sind in vier allgemeine Kategorien: Dokument und Annotation Identifikation, Fallbericht Identifikation (d. h. auf Dokumentebene Eigenschaften), medizinische Inhalte Konzepte (Eigenschaften in erster Linie Konzept-Ebene) und Bestätigungen (d.h. Funktionen, die den Nachweis der Finanzierung). In diesem Prozess Annotation enthält jedes Dokument im Volltext ein CCR, Verzicht auf jegliches Dokument Inhalt Material unabhängig von der Fall (z. B. experimentelle Protokolle). CCRs sind in der Regel weniger als 1000 Worte; ein einziger Korpus sollte im Idealfall von der gleichen bibliographischen Datenbank indiziert werden und werden in der gleichen Schriftsprache.

Das Produkt des Ansatzes, die hier beschrieben wird, angewandt auf einem CCR-Korpus ist ein strukturierter Satz von kommentierte klinische Text. Während dieser Methodik vollständig manuell ausgeführt werden kann und wurde entwickelt, um durch Fachexperten ohne Informatik Erfahrung durchgeführt werden, es ergänzt die Verarbeitung natürlicher Sprache-Ansätze, die oben genannten und liefert Daten für computergestützte Analyse. Solche Analysen können für Publikum von Wissenschaftlern über die von Interesse sein, die häufig CCRs, einschließlich lesen:

  • die betroffenen mit Krankheit Präsentationen, ihre wichtigsten Symptomatik, übliche diagnostische Ansätze und Behandlungen
  • diejenigen, die die Ergebnisse klinischer Studien mit innerhalb der klinischen Literatur beschriebenen Ereignisse vergleichen wollen, bietet möglicherweise zusätzliche Beobachtungen und größere statistische Aussagekraft.
  • Bioinformatik, biomedizinische Informatik und Computer-Science-Forscher, die strukturierte medizinische Sprache Datensätze oder allgemeine Verständnis von medizinischen Erzählungen benötigen
  • Regierung Politik Forscher mit Schwerpunkt auf wie klinische Studien können am besten widerspiegeln wie Diagnose und Behandlung als es in Wirklichkeit auftritt

Durchsetzung der Struktur auf CCRs unterstützen zahlreiche spätere Bemühungen medizinischen Sprache und biomedizinische Phänomene besser zu verstehen.

Protocol

1. Dokument und Annotation Identifikation

Hinweis: Werte in dieser Kategorie die Annotation-Prozess unterstützen.

  1. Mit der anmerkungsvorlage bieten Sie, dass ein Bezeichner speziell für diese Metadaten festgelegt, z.B. Case123. Das ID-Format sollten im Verlauf des Projekts (z. B. Case001 durch Case500).
  2. Geben Sie das Datum, an dem ein Dokument gelesen und kommentiert wurde. Verwenden Sie ein Format ähnlich "10. Januar 2018" für Konsistenz und Lesbarkeit.

(2) Fallbericht Identifikation

Hinweis: Werte in dieser Kategorie bieten Funktionen, die auf Dokumentebene und tragen zur Auffindbarkeit des Dokuments.

  1. Seien Sie konsequent mit dem Format der einzelnen Felder über alle Anmerkungen, z. B. einzelne Werte sollten durch Semikolons ohne folgende Leerzeichen in allen Einträgen getrennt werden. Verwenden Sie identische Formate mit denen in das Originaldokument oder diejenigen in einer bibliografischen Datenbank z. B. MEDLINE verwendet.
  2. Geben Sie den Titel des Dokuments.
  3. Geben Sie die Namen aller Autoren des Dokuments in der angegebenen Reihenfolge. Das Format aller Namen zu normalisieren, so dass alle Namen in Form einer einzigen Nachnamen, gefolgt von einer beliebigen Anzahl von Initialen erfolgen, z. B. Jane B. Park wird Park JB. Enthalten Sie Titel nicht. Trennen Sie mehrere Autoren mit einem Semikolon ohne zusätzliche Satzzeichen, so dass John A. Smith, Jane B. Park nimmt eine Form von Smith JA; Park JB.
  4. Geben Sie das Jahr der Veröffentlichung des Dokuments.
  5. Geben Sie den vollständigen Titel der Zeitschrift, in der das Dokument veröffentlicht wurde. Eine Liste der kontrollierten Journale erfolgt durch die NLM-Katalog (https://www.ncbi.nlm.nih.gov/nlmcatalog).
  6. Geben Sie die Adresse der Heimatinstitution der Autoren des Dokuments, wie im Dokument angegeben. Dazu gehören Abteilungen, Standorten und Postanschrift Details.
    1. Wenn mehrere Standorte zur Verfügung gestellt werden (z.B., wenn Verbindungen zwischen Autoren unterscheiden), geben Sie nur die Details für den entsprechenden Autor. Wenn ein entsprechender Autor identifiziert werden kann, verwenden Sie, die des ersten Autors oder geben Sie keine Institution. Wenn ein korrespondierende Autor mehrere Verbindungen hat, geben Sie beide und mit einem Semikolon trennen.
  7. Bereitstellen des entsprechenden Autors des Dokuments, wie angegeben innerhalb der Dokument-Rubrik mit dem gleichen Format wie die in den Autoren-Datentyp verwendet.
  8. Bieten Sie eine Dokument-ID (z. B. ein PMID).
  9. Bieten ein Digital Object Identifier, sofern möglich, URL (durch https://www.doi.org/), kein PubMed Central auflösbar in das Dokument Seite.
  10. Geben Sie eine stabile URL zum Volltext des Dokuments, falls vorhanden. Um die Zugänglichkeit zu maximieren, kann dies auf die PubMed Central-Version beziehen.
  11. Geben Sie die Sprache des Dokuments. Für Dokumente in mehreren Sprachen verfügbar, bieten beide, getrennt durch ein Semikolon getrennt.

3. medizinische Inhalte

Hinweis: Werte in dieser Kategorie auf Dokumentebene, Konzept, und Text-Ebene Features identifizieren. Sie dienen zur Barrierefreiheit, Interoperabilität und Wiederverwendbarkeit des Dokuments zu verbessern. Diese Funktionen bieten Möglichkeiten zum konzeptionellen und semantische Ähnlichkeiten zwischen Dokumentinhalt, mit einem Fokus auf biomedizinische Themen und Ereignisse zu beobachten. Die meisten Kategorien dieses Abschnitts können mehrere Text-Anweisungen und jeweils durch ein Semikolon getrennt werden sollten.

  1. Geben Sie kontextbezogene Details in den einzelnen Bereichen (z. B. "Mutter hatte Brustkrebs im Alter von 50") anstatt nur Begriffe aus einem kontrollierten Vokabular (z. B. nicht "Brustkrebs" allein). Enthalten Sie umfangreiche Details über jede Beobachtung nicht.
  2. Lassen Sie häufig wiederholte Wörter und Phrasen (z. B. Pronomen, das Wort "Patient", und die Phrasen "klagte über" oder "präsentiert mit"). Obwohl Subjektivität über mehrere Kommentatoren wahrscheinlich, kann reduziert werden, indem man mehrere Kommentatoren für jedes Dokument und durch automatisierte Normalisierung nach der Datenerfassung. Computergestützte Nachbearbeitung Ansätze durch anschließende Analyse Bedürfnisse variieren und sind hier nicht im Detail behandelt.
  3. Geben Sie die folgenden Informationen in der anmerkungsvorlage.
    1. Bieten Sie konkret als zentrale Begriffe innerhalb eines Dokuments, in der Regel in der Kopfzeile identifiziert. Mit einem Semikolon zu trennen, da Begriffe Interpunktionszeichen enthalten können.
    2. Geben Sie demografische Werte, speziell Text Aussagen beschreiben einen Patienten Hintergrund, einschließlich Geschlecht und/oder Geschlecht, Alter, Ethnie oder Nationalität.
    3. Bieten Sie geografische Standorte innerhalb der klinischen Erzählung, außer bestimmten Institution Adressen erwähnt. Dies sollte nicht anatomische Standorte, jedoch dürfen geografischen Gebietsschema, wo der Patient wohnt oder reist.
    4. Bieten Sie Life-Style-Werte, einschließlich Text Aussagen beschreiben häufig Patienten Aktivitäten oder Verhaltensweisen, die relevant für ihre allgemeine Gesundheit. In der Praxis dies häufig Rauchen oder Alkohol Konsumgewohnheiten beinhaltet, sondern kann auch Sonnenbestrahlung, Ernährung oder Häufigkeit bestimmter Arten von körperlicher Aktivität.
    5. Bereitstellen Sie Krankengeschichte Werte bezogen auf Familiengeschichte. Enthalten Sie Text Angaben beschreiben klinische Beobachtungen von und Erfahrungen mit Geschwistern, Eltern und andere Familienmitglieder. Dazu gehören genetische Voraussetzungen und negativen Beobachtungen (z. B. Familiengeschichte war negativ für eine Krankheit).
    6. Geben Sie Werte unter Bezugnahme auf Sozial-und Gesellschaftsgeschichte, einschließlich Text Aussagen beschreiben Patienten Hintergrund in Demographie oder Lebensstil nicht behandelt. Möglicherweise gibt es Überschneidungen zwischen diesen Kategorien inhaltlich. Die Aussagen zählen berufliche Geschichte und soziale Gewohnheiten.
    7. Geben Sie Werte unter Bezugnahme auf die medizinische und chirurgische Anamnese. Gehören Sie jeder Text Aussagen beschreiben alle medizinischen Beobachtungen, Behandlungen oder andere Veranstaltungen statt vor dem Beginn der klinischen Präsentation. Dazu gehören geburtshilflichen Geschichte und Epochen der guten Gesundheit, wo vermerkt.
    8. Geben Sie eine oder mehrere der folgenden 16 Krankheit Systemkategorien. Beachten Sie, dass diese Werte statt Freitext-kategorisch. Kategorien sind nicht umfassend, aber anzugeben, die meisten Systeme betroffen von den Ereignissen in der klinischen Präsentation beschrieben und Krankheit diagnostiziert.
      1. Folgen einer bestimmten Gruppe von Kategorien, basierend auf die Kategorien verwendet in der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme, Revision 10 (ICD-10)-Code-System. Siehe Tabelle 1 für die Liste der Krankheit Systemkategorien zusammen mit entsprechenden ICD-10 Code reicht.
    9. Einzelheiten Sie über alle Anzeichen und Symptome. Enthalten Sie jeder Text Aussagen beschreiben alle medizinischen Beobachtungen von Anzeichen oder Symptome beginnend bei Erstvorstellung, einschließlich deren Beginn, Dauer, Schweregrad und Auflösung, sofern. Enthalten Sie im Ergebnis beschriebenen Symptome nicht. Diese Werte können mit anderen Arten überlappen, wenn die Symptome weiterhin aus der Geschichte zur Erstvorstellung.
    10. Einzelheiten Sie über alle Begleiterkrankungen. Gehören Sie alle Begriffe oder Ausdrücke beschreiben verschiedene Krankheiten, die zum Zeitpunkt der ersten klinischen Präsentation. Es gibt wahrscheinlich Überschneidungen zwischen diesen Werten und den in der Anamnese, obwohl Komorbidität Begriffe identisch mit denen bei der Diagnose nicht enthalten sollte.
    11. Geben Sie Details aller diagnostischen Techniken und Verfahren. Enthalten Sie die Namen der medizinischen Verfahren zu diagnostischen Zwecken, einschließlich Prüfungen, Tests und Bildgebung sowie die Bedingungen, unter denen diese Tests durchgeführt und relevante anatomische Standorte (z. B. "obere Extremität venösen waren, getan "Ultraschall"). Testergebnisse auszuschließen.
    12. Einzelheiten der Diagnose. Enthalten Sie keine Text Aussagen beschreiben Diagnosen von Krankheiten, auch wenn die endgültige Diagnose nicht eindeutig ist.
    13. Bieten alle Laborwerte und Testergebnisse. Enthalten Sie Namen von diagnostischen Tests, ihre Werte und Bedingungen, unter denen sie durchgeführt wurden. Dazu gehört die Überlappung mit Begriffen in der diagnostischen Techniken und Verfahren Datentyp verwendet. Sowohl qualitative als auch numerische Werte (z. B. Blutbild innerhalb der normalen Grenzen war) sind akzeptabel. Wenn die Namen der Diagnosetests nicht bereitgestellt werden, verwenden Sie Begriffe zur Beschreibung der Ergebnisse (z. B. Leukopenie), obwohl sie auch in die Anzeichen und Symptome einbezogen werden sollten.
    14. Einzelheiten der Pathologie. Jeder Text Geschäftsberichte, Ergebnisse der Pathologie und Histologie Studien, inklusive Brutto Pathologie, Immunologie und Mikroskopie zu beschreiben. Begriffe überschneiden sich mit denen in diagnostischen Techniken und Verfahren (Schritt 3.11), z. B. mit den Verfahren durchgeführt, um Proben wie Biopsie zu erhalten.
    15. Bieten Sie alle pharmakologische Therapien. Enthalten Sie keine Text Aussagen beschreiben medikamentöse Therapien verwendet im Laufe der Behandlung, einschließlich allgemeine Begriffe wie Antibiotika oder bestimmten Medikamentennamen. Darüber hinaus enthalten Sie Beschreibungen der wann und wie medikamentöse Therapien gestoppt wurden.
    16. Bieten Sie alle interventionellen Verfahren. Enthalten Sie keine Text Aussagen beschreiben therapeutische Verfahren im Verlauf der Behandlung, einschließlich der invasive Eingriffen, Implantation von medizinischen Geräten und Verfahren durchgeführt, um andere Therapien zu erleichtern. Darüber hinaus enthalten Sie Beschreibungen der wann und wie laufende therapeutische Verfahren gestoppt wurden, falls erforderlich.
    17. Geben Sie das Patienten-Outcome. Jeder Text Geschäftsberichte, beschreibt der Gesundheitszustand des Patienten zum Jahresende die klinische Präsentation, die in dem Bericht, einschließlich keine Follow-up-Tests beschrieben.
    18. Bieten Sie Grafen von alle diagnostischen Bilder, Abbildungen, Videos/Animationen und Tabellen. Umfassen alle Grafen von visuellen Medien, die in dem Bericht, in dem folgenden Format enthalten: Anzahl der Bilder; Anzahl der Zahlen; Anzahl der Videos oder Animationen; Anzahl der Tabellen.
      1. Unterscheiden zwischen Bildern und Figuren auf diese Weise: Bilder enthalten alle Produkte der klinischen Diagnostik, einschließlich Fotos, Aufnahmen, Elektrokardiogramm Rhythmus Bilder und andere Produkte der diagnostischen Bildgebung, während alle anderen Bilder sind in der Regel einschließlich Daten Diagramme und Abbildungen.
    19. Beziehungen zu anderen CCRs belegen. Dieses Feld kann Bezeichner (z. B. PMIDs), der andere Berichte in den Datensatz von zitiert oder verweisen auf diesen Bericht enthalten.
    20. Beziehungen zu klinischen Studien belegen. Dieses Feld kann Bezeichner von klinischen Studien unter Berufung auf diese CCR aufgenommen. Prüfungen durch ihre ClinicalTrials.gov Identifier, NCT, vorangestellt oder andere stabile Kennung zu identifizieren.
    21. Enthalten Datenbank Querverbindungen zu diesem Dokument, einschließlich Identifikatoren, vorzugsweise als Datenbanknamen entsprechend und stabile URLs.

4. Danksagungen

Hinweise: Werte in dieser Kategorie auf Dokumentebene Features identifizieren noch wenig einheitliche Struktur über Publikationen haben. Sie liefern Informationen über die Organisationen, die Unterstützung für CCR und Verwandte Arbeiten. Zu dieser Kategorie gehören auch ein Feld für die Gesamtanzahl der Verweise, die durch einen Artikel zitiert: Dies soll eine grobe Metrik des Grades, ein Dokument begrifflichen Zusammenhänge mit anderen biomedizinischen Dokumenten jeglicher Art hat. Innerhalb der vier Datentypen in diesem Abschnitt bieten Sie die folgenden.

  1. Geben Sie alle Finanzierungsquellen, die Arbeit zu unterstützen und entsprechende sowie der jeweiligen Prämie zahlen PI. Der erste Wert, Finanzierungsquelle, sollten die Namen aller Organisationen, die finanzielle Unterstützung für die Arbeit enthalten.
    1. Getrennte Organisationen mit Semikolons und Räume, z.B. Nationale Institute der Gesundheit/National Cancer Institute; DOE; Smith-Park-Stiftung .
    2. Für der folgende Wert, Prämien-Nummer, geben Sie Preis zahlen oder spezifische Bezeichnungen zusammen mit dem Empfänger des Awards, gegebenenfalls als Initialen Empfänger in Klammern, z. B. R01HL123123 (, JP) , NS12312 (zu JP, JS), Training Forschungsstipendium (an JS). Autoren können explizit angeben, dass keine entsprechenden Informationen verfügbar sind (z. B. "keine finanzielle Unterstützung erhielt"); Verwenden Sie in diesen Fällen den Text, die von den Autoren als Finanzierungsquelle Wert bereitgestellt. Andernfalls sollte der Wert na sein.
  2. Geben Sie Angaben/Interessenkonflikte gemäß den Angaben der Autoren, z. B. JP ist als Berater für DrugCo. Autoren können explizit angeben, dass keine entsprechenden Informationen verfügbar sind (z. B. "kein Interessenkonflikt ist erklärte,"); Verwenden Sie in diesen Fällen den Text, die von den Autoren als die Angaben/Konflikt von Interesse Wert bereitgestellt. Ansonsten, wie oben beschrieben, sollte der Wert na sein.
  3. Geben Sie einen numerischen Zähler aller Referenzen angeführt von dem Dokument nicht namentlich in jedem ergänzendes Material zur Verfügung gestellt. Kein Verweistext sollte in diesem Feld enthalten.

Representative Results

Ein Beispiel für die Anmerkung-Prozess ist in Abbildung 2dargestellt. Diesem Fall22 beschreibt eine Präsentation der Infektion durch den bakteriellen Erreger Burkholderia Thailandensis. Als Referenz ist der relevante Teil des dieses CCR im nur-Text-Format in ergänzende Datei 1vorgesehen; Einige Forschungsergebnisse sind auch in diesem Bericht vorgestellten und zum Vergleich enthalten sind. In der Praxis kann Berichte im HTML- oder PDF-Format in nur-Text konvertieren die Effizienz und Benutzerfreundlichkeit der Metadaten-Extraktion verbessern.

Beispiele von zwei Sätzen von abgeschlossenen CCR Metadaten Anmerkungen sind in Tabelle 2angegeben. Die erste dieser Beispiele ist simulierten Daten veranschaulichen das ideale Format für jeden Wert, während das zweite Beispiel Werte extrahiert aus einem veröffentlichten CCR auf eine seltene Erkrankung, Acrodermatitis Enteropathica23enthält.

Figure 1
Abbildung 1: Workflow für Fallbericht Annotation. Das hier beschriebene Protokoll stellt eine Methode zur Identifizierung der textuelle Merkmale, die häufig in klinische Fallberichte. Dieser Prozess erfordert die Montage eines Dokument-Korpus. Das Produkt des Prozesses Annotation, einmal in einer einzigen Datei zusammengefasst ermöglicht die Identifizierung der Textfunktionen medizinische Konzepte und ihre Beschreibungen in Fallberichten zugeordnet. Bitte klicken Sie hier für eine größere Version dieser Figur.

Figure 2
Abbildung 2: Identifizierung von Konzept-spezifischen Text in einem klinischen Fallbericht. Beginnend mit dem Text ein Fallbericht, kann eine manuelle Annotator durch das Dokument Fortschritt Segmente des Textes entspricht jeder Bestandteil der Metadatenvorlage zu identifizieren. Identifikationsmerkmale sind blau hervorgehoben. Text entsprechend medizinische Konzepte sind in rot und beschriftet mit ihrer Art; alle markierten Text in der dritten Spalte bezieht sich auf die Pathologie. Bitte klicken Sie hier für eine größere Version dieser Figur.

Kategorie Beschreibung ICD-10 Kapitel ICD-10 Code Bereich
Krebs Jede Art von Krebs oder Bösartige Neubildung. II C00-D49
nervös Jede Krankheit des Gehirns, der Wirbelsäule oder des Nerven. VI G00-G99
Herz-Kreislauf- Jede Erkrankung des Herzens oder der Kreislauf-System. Hämatologische Erkrankungen enthalten nicht. IX I00-I99
Muskel-Skelett- und rheumatischen Jede Erkrankung der Muskeln, Skelett, Gelenke und Bindegewebe. XIII M00-M99
Magen-Darm Jede Erkrankung des Magen-Darm-Trakt und der Verdauungsorgane einschließlich Leber und der Bauchspeicheldrüse. XI K00-K95
geburtshilfliche und gynäkologische Jede Krankheit, die im Zusammenhang mit Schwangerschaft, Geburt, das weibliche Fortpflanzungssystem oder die Brüste. XIV; XV O00-O9A; N60-N98
infektiöse Jede Krankheit verursacht durch infektiöse Mikroorganismen. Ich A00-B99
Atemwege Jede Krankheit der Lunge und der Atemwege. X J00-J99
hämatologischen Jede Krankheit von Blut, Knochenmark, Lymphknoten oder Milz. III D50-D89
Niere und urologischen Jede Erkrankung der Nieren oder Blase, einschließlich die Harnleiter sowie der männlichen Geschlechtsorgane einschließlich der Prostata. XIV N00-N53; N99
Endokrine Drüse Jede Erkrankung der endokrinen Drüsen, sowie Stoffwechselstörungen. IV E00-E89
Mund- und Kieferheilkunde Jede Bedingung, an denen der Mund, Kiefer, Kopf, Gesicht oder Hals. XI; XIII K00-K14; M26-M27
Auge Jede Bedingung, die mit den Augen, einschließlich Erblindung. VII H00-H59
Hals- Voraussetzung für das Ohr, Nase und Hals. VIII H60-H95; J30-J39
Haut Jede Krankheit der Haut. XII L00-L99
seltene Eine spezielle Kategorie reserviert für Berichte über seltene Krankheiten, definiert als jene Auswirkungen auf weniger als 200.000 Personen in den Vereinigten Staaten (siehe https://rarediseases.info.nih.gov/diseases) NA NA

Tabelle 1. Krankheit-Kategorien für Annotations. Die hier aufgeführten Kategorien sind jene, die für die Krankheit System-Datentyp in der Dokumentvorlage Metadaten verwendet werden. Wie jede Krankheit Präsentation mehrere Organsysteme oder Ätiologien umfassen kann, kann eine klinische einzelfallbericht mehrere Kategorien entsprechen. Diese Kategorien folgen weitgehend denen verwendet, um Teile der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme, unterscheiden Revision 10 (ICD-10) code-System: entsprechenden ICD-10 Kapitel und Code-Bereiche stehen zur Verfügung. Einige Kategorien, wie, für Mund- und Kieferheilkunde Krankheit entsprechen mehrere Abschnitte des ICD-10-Systems.

Datentyp Beispiel #1 Beispiel #2 (Cameron und McClain 1986)
Dokument und Annotation Identifikation
Interne ID CCR005 CCR2000
Anmerkung Datum 2. März 2018 1. März 2018
Fallbericht-Identifikation
Titel Ein Fall von Endokarditis. Okuläre Histopathologie der Acrodermatitis Enteropathica.
Autoren Grant AB; Chang-CD Cameron JD; McClain CJ
Jahr 2017 1986
Zeitschrift Weltjournal von Medizin und Fallberichten British Journal of Ophthalmology
Institution Abteilung für Medizin, Abteilung Kardiologie, erste General Hospital, Boston, Massachusetts, USA Abteilung für Augenheilkunde, medizinische Fakultät der Universität von Minnesota, Minneapolis, Minnesota 55455
Korrespondierende Autor Grant AB Cameron JD
PMID 25555555 3756122
DOI 10.1011/wjmcr.2017.11.001 NA
Link https://www.ncbi.nlm.nih.gov/PMC/articles/PMC9555555/ https://www.ncbi.nlm.nih.gov/PMC/articles/PMC1040795/
Sprache Englisch Englisch
Medizinische Inhalte
Key Words Brucellose; Endokarditis; Mitralklappe NA
Demografie 37 Jahre alt, männlich männliches Kind
Geografische Standorte Florida; Rio De Janeiro, Brasilien NA
Life Style Raucher; trinkt Alkohol gelegentlich NA
Familiengeschichte als drittes von fünf Kindern von blutsverwandten Eltern; jüngerer Bruder hat chronische Ekzeme NA
Sozial-und Gesellschaftsgeschichte Bauarbeiter NA
Medizinische/chirurgische Geschichte Geschichte der Ermüdung 8 Pfund 9 Unzen (3884 g) Produkt einer unkomplizierten, volle Amtszeit Schwangerschaft; bei guter Gesundheit bis ins Alter 1 Monat, wenn er auf seinen Wangen einen Blasenbildung Hautausschlag entwickelt; Ausschlag, die Haut um die Augen, Nase und Mund einzubeziehen verbreiten; Hautveränderungen sind auch auf den Bauch und Extremitäten zu beobachten; Durchfall und Gedeihstörungen; Hautbiopsie damals zeigte Parakeratosis typisch für Acrodermatitis Enteropathica; in den nächsten sechs Jahren mit intermittierenden Kurse von Breitspektrum-Antibiotika, Muttermilch und Diodoquin behandelt; teilweise reagierte; totale Alopezie, intermittierende atrophicans und intermittierende Durchfall mit suboptimalen Gewichtszunahme entwickelt; Spastik, ZNS-Beteiligung durch die Ae zugeschrieben hatte bis 8 Monaten des Alters entwickelt; mehrere Episoden von Herzstillstand 11 Monate; mangelnde Koordination von seinen Stimmbändern; Tracheostoma; vom Alter von 18 Monaten entwickelt das Kind Suche Nystagmus bilaterale Optikusatrophie und leichte Dämpfung der Netzhautgefäße sowie Anzeichen für eine psychomotorische Retardierung zugeordnet; bilateralen Keratokonjunktivitis; Hautausschlag; zweite Hautbiopsie durchgeführt im Alter von 3 Jahren zeigte wieder Parakeratosis typisch für Ae; schwerer Hautausschlag und Durchfall; bilateralen Brutto anteriore Hornhauttrübungen wurden gesehen, die vollständig mit der Zeit gelöst hatte, die er im Alter von fünf neu überdacht wurde; häufige Infektionen einschließlich Otitis Media, Infektionen der Harnwege und Infektionen der Haut
Krankheit-System Herz-Kreislauf; infektiöse Magen-Darm; Haut; Auge; seltene
Anzeichen und Symptome Herzklopfen und Atemnot in der Vorwoche; präsentiert mit Lethargie, Kopfschmerzen und Schüttelfrost schwere Blepharoconjunctivitis und bilaterale vorderen Hornhaut Vaskularisation; schwerer Hautausschlag und Durchfall; gramnegativen bakteriellen Sepsis; Hautveränderungen, die typisch für Acrodermatitis Enteropathica, Abwesenheit von zebrafischembryonen Gewebe, deutliche Degeneration der Sehnerven, Chiasmus und faseroptische Traktate und umfangreiche zerebelläre degeneration
Komorbidität Hypertonie; Hyperlipidämie NA
Diagnostische Techniken und Verfahren Körperliche Untersuchung; Elektrokardiographie; Blutkulturen Okuläre Prüfung; Autopsie
Diagnose Brucella Endokarditis Acrodermatitis enteropathica
Laborwerte Anstieg des C - reaktiven Proteins (9 mg/dl); alkalische Phosphatase (250 u/l) NA
Pathologie Brucella Melitensis wurde aus Blutproben kultiviert. Rechtes und linkes Auge waren ähnlich im Aussehen; Hornhaut-Epithel verringerte sich in der Dicke auf ein bis drei Zellschichten der abgeflachten Plattenepithelkarzinom Epithelzellen über die gesamte Oberfläche der Hornhaut; Alle Polarität des Epithels ging verloren. Bowman Membran konnte nur in der Peripherie der Hornhaut richtig identifiziert werden. in der linken Hornhaut konnten keine Bowman Membran identifiziert werden. weder die degenerative als auch die entzündlichen Pannus waren in beiden Augen erkennbar; umfangreichen Atrophie der Kreis- und schrägen Muskeln der ziliarkörper; Einige posterior Migration von Objektiv Kapsel Epithel und frühen kortikalen degenerative Veränderungen; umfangreiche Degeneration des retinalen Pigmentepithels im gesamten hinteren Pol; Netzhaut war befestigt und zeigte leichte autolytischen Veränderungen in der gesamten; Einige Erhaltung der Rute und Kegel außensegmenten im hinteren Pol, fielen jedoch diese Strukturen vollständig anterior des Äquators; umfangreichen Verlust des Ganglion Zellen und Nerven Faserschichten beider Augen; fast komplette Atrophie der Scheibe und angrenzenden Sehnervs
Medikamentöse Therapie Gentamycin 240 mg/iv/täglich NA
Inverventional Therapie prothetischer Herzklappenersatz NA
Patienten-Outcome Assessment Erholung war ereignislos; entladene zuhause Gestorben 1971 (7 Jahre)
Diagnostische Bildgebung/Video Aufnahme 2; 1; 0; 1 7; 0; 0; 0
Beziehung zu anderen Fallberichte 5555555 23430849
Beziehung mit Clinial Versuch NCT05555123 NA
Crosslink mit Datenbank MedlinePlus Gesundheitsinformationen: https://medlineplus.gov/ency/article/000597.htm HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; PubMed Central Europe: http://europepmc.org/abstract/MED/3756122; Genetischen Alliance: http://www.diseaseinfosearch.org/result/143
Danksagungen
Finanzierungsquelle National Institutes of Health/National Heart, Lung and Blood Institute Der Minnesota-Lions-Club; Forschung, Blindheit zu verhindern; Veterans Administration; Büro von Alkohol und anderen Drogen missbrauchen Programmierung des Staates Minnesota
Prämiennummer R01HL123123 (bis AG) NA
Angaben/Konflikt von Interesse Dr. Grant ist eine bezahlte Sprecher DrugCo. NA
Referenzen 4 27

Tabelle 2: Standardisierte Metadatenvorlage für klinische Fall berichtet, mit Beispiel Anmerkungen. Eine Reihe von Gemeinsamkeiten auf klinischen Fall berichtet und Erleichterung ihrer Konzept-Ebene Anmerkungen wird hier angezeigt. Diese Vorlage ist in drei Bereiche gegliedert: Identifikation, medizinische Inhalte und Bestätigungen, bezeichnet den Zweck und die zusätzlichen Wert durch jede dieser Fallbericht Funktion gewährt. Diese Tabelle enthält zwei Gruppen von Beispiel Anmerkungen, einer der eine fiktionalisierte Fallbericht und eine andere Serie einen Bericht über den Zustand Acrodermatitis Enteropathica23abgeleitet.

Ergänzende Datei 1. Text von einem klinischen Fallbericht (Chang Et al. 2017). Bitte klicken Sie hier, um diese Datei herunterladen.

Discussion

Durchführung einer standardisierten Metadaten-Vorlage für CCRs kann machen ihre Inhalte mehr FAIR, ihr Publikum zu erweitern und erweitern Sie ihre Anwendungen. Im Anschluss an die traditionelle Verwendung von CCRs als Lehrmittel in der medizinischen Kommunikation Gesundheitswesen Auszubildende (z. B. Studenten, Praktikanten und Fellows) und Biomediziner vorkommen, dass zusammengefasste Fallbericht Inhalte ermöglichen eine schnellere Verständnis. Die größte Stärke von Metadaten Standardisierung mit CCRs, ist jedoch, dass die Indizierung dieser Daten Transformationen sonst Beobachtungen in interpretierbare Muster isoliert. Das Protokoll hier zur Verfügung gestellten dient als der erste Schritt in einem Workflow für die Arbeit mit CCRs, ob dieses Workflows aus epidemiologischen Analyse, Post-Marketing-Arzneimittel oder Behandlung Überwachung oder größeren Erhebungen der Pathogenese oder therapeutische Wirksamkeit besteht. Strukturierte Funktionen innerhalb von CCRs bieten eine nützliche Ressource für Forscher mit Schwerpunkt auf Krankheit Präsentationen und Behandlungen, insbesondere für seltene Erkrankungen. Klinische Forscher finden Daten auf vergangenen Behandlungsschemata aufgezeichneten Symptome oder Nebenwirkungen und Grad der Verbesserung unter bisherigen Standards der Versorgung zu analysieren. Die Daten können auch breitere Analysen ein neuer Behandlungen basierend auf Wirksamkeit, Nebenwirkungen oder Toxizität, Mangel oder Drug targeting Unterschiede in Geschlecht, Altersgruppe oder genetischen Hintergrund fahren.

Die Vorteile von strukturierten Metadaten gelten ebenso für computergestützte Arbeitsabläufe zu analysieren oder das Modell der medizinischen Sprache entwickelt. Strukturierte CCR-Funktionen können auch Beweise für Bereiche wo Berichtsautoren leichter maschinenlesbare vorsehen (und in einigen Fällen, lesbare) Inhalte bereitstellen. Varianz unter CCRs unter einem Mangel an explizit angegebenen Beobachtungen führen kann: z. B. genaue Alter des Patienten nicht angegeben werden kann. In ähnlicher Weise können Kliniker Tests nicht erwähnen, wenn die Diagnose oder ihre Ergebnisse trivial betrachtet wurden. Durch die Beispiele für Lücken für eingehende Analyse notwendig, betont die Durchsetzung Struktur auf CCRs Verbesserungspotenziale. Aus einer weiteren Perspektive unterstützt eine größere Verfügbarkeit von strukturiertem Textdaten aus medizinischen Dokumenten Sprachverarbeitung (NLP) Bemühungen von big Data im Gesundheitswesen24,25lernen.

Disclosures

Die Autoren haben nichts preisgeben.

Acknowledgments

Diese Arbeit wurde teilweise durch National Heart, Lung and Blood Institute unterstützt: R35 HL135772 (auf s. Ping); National Institute of General Medical Sciences: U54 GM114833 (zu P. Ping, K. Watson und W. Wang); Nationales Institut für biomedizinische Bildgebung und Bioingenieurwissenschaften: T32 EB016640 (zu A. Bui); ein Geschenk der Hoag-Stiftung und Dr. S. Setty; und der t.c. Laubisch-Stiftung an der UCLA (auf s. Ping).

Materials

Name Company Catalog Number Comments
A corpus of clinical case reports n/a n/a Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

DOWNLOAD MATERIALS LIST

References

  1. Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
  2. Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
  3. Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
  4. Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
  5. Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l'Académie des Sciences. 101, 765-774 (1885).
  6. Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
  7. Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
  8. Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
  9. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
  10. Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
  11. HL7 FHIR Release 3 (STU; v3.0.1-11917). , Available from: http://hl7.org/implement/standards/fhir/ (2018).
  12. McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
  13. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting. , Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017).
  14. Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
  15. Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
  16. Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
  17. Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
  18. Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
  19. Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
  20. Soysal, E., et al. CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
  21. Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
  22. Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
  23. Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
  24. Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
  25. Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Tags

Medizin Ausgabe 139 datenwissenschaft Medizininformatik Textmining Annotation Kuration klinische Fallberichte
Ein Metadaten-Extraktion-Ansatz für klinische Fallberichte zu ermöglichen erweiterte Verständnis für biomedizinische Konzepte
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Caufield, J. H., Liem, D. A.,More

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter