COMPLEX - Visus Technology Transfer GmbH

COMPLEX - Visus Technology Transfer GmbH COMPLEX - Visus Technology Transfer GmbH

03.01.2013 Aufrufe

COMPETENCE | PATIENTENAKTEN Information Retrieval: VomSuchen und Finden von Freitextinformationen in der EPA Am JOANNEUM RESEARCH wurde der Prototyp eines klinischen Information Retrieval Systems entwickelt. Aufgezeigt wird ein möglicher Weg, relevante Informationen aus klinischen Freitextdokumenten zu gewinnen. 56 EHEALTHCOM TEXT: STEPHAN SPAT E lektronische Patientenakten (EPA) in Spitälern und Spitalsverbünden stellen neue Anforderungen an die Suche nachmedizinischrelevanten Informationen in klinischen Freitextbeständen. Die Steiermärkische Krankenanstaltenges.m.b.H. (KAGes), die Trägergesellschaft von20Spitälern der Steiermark mit über 6000 Betten und 16 000 Mitarbeitern, führte im Jahr 2004 ein neues Krankenhausinformationssystem unter dem Projektnamen openMEDOCS ein. Ziel wares, die heterogenen IT-Systeme der einzelnen Spitäler durchein einheitliches, zentrales System zu ersetzen. openMEDOCS basiert auf dem Softwarepaket IS-H vonSAP sowie i.s.h.med vonGSD und T-Systems.Den Kern vonopenMEDOCS bildet eine elektronische Patientenakte, in der die gesamte medizinische Dokumentation der KAGes-Patienten erfasst wird. Dadurch wurde es für Mediziner möglich, die elektronische Akte eines Patienten –unabhängig davon, wo einzelne Dokumente erstellt wurden –von jedem KAGes-Krankenhaus abzurufen. Ein beträchtlicher Teil der gespeicherten Patienteninformationen sind Freitextdokumente. Da die medizinischen Informationen dieser Dokumente eine große Bedeutung für die Entscheidungsfindung der Ärzte hinsichtlichder weiteren Behandlung ihrer Patienten haben, bedarf es effektiver und effizienter Techniken zur Suche vonrelevanten Informationen in der EPA. Diese Arbeit stellt einen kombinierten Ansatz aus Text Information Retrieval und automatisierter Textklassifikation zur Suche nachrelevanten Informationen in klinischen Freitextdokumenten vor. [1] Freitextdokumente haben eine große Bedeutung für die Entscheidungsfindung der Ärzte. Entwickelte Lösung Prototyp eines klinischen Information Retrieval Systems: Gemeinsam mit der KAGes wurde am Institut für Medizinische Systemtechnik und Gesundheitsmanagement der JOANNEUMRESEARCH Forschungsgesellschaft.m.b.H der Prototyp eines klinischen Information Retrieval (IR) Systems entwickelt. Ziel des Prototyps ist die Unterstützung von Ärzten bei der gezielten Suche nachrelevanten medizinischen Freitextinformationen in elektronischen Akten vonPatienten. Abb.1gibt einen Überblicküber die wesentlichen Module der Systemarchitektur: Unstrukturierte klinische Freitextdokumente werden aus der elektronischen Patientenakte eines Patienten durch das Datenbank-Modul angefordert. Anschließend werden die Dokumente im Klassifikations-Modul in zuvor definierte medizinische Fachbereiche kategorisiert. Das Indexierungs-Modul extrahiert Index-Terme –Terme, die den Inhalt beschreiben –aus den Dokumenten und speichert diese Information, zusammen mit vorhandenen Metadaten, sowie die durchdie Dokumentenklassifikation ermittelten medizinischen Fachbereiche des Dokuments,imIndex. Der Benutzer definiert seine Suchanfrage über das Benutzeroberflächen-Modul. Die Benutzeranfrage, bestehend aus Termen und Metadaten, wird an den Index weitergeleitet und klinische Textdokumente werden nachRelevanz sortiert an den Benutzer zurückgeliefert. Durchdie Auswahl vonmedizinischen Fachbereichen in der Benutzeroberfläche kann der Benutzer direkt Einfluss auf die Relevanz der zurückgelieferten Dokumente nehmen. EPA: Da im Pilotprojekt ein direkter Zugriff auf die klinischen Freitextdokumente der KAGes aus Datenschutzgründen nicht möglichwar,wurde für die Speicherung eine vereinfachte elektronische Patientenakte (EPA) modelliert. Die KAGes extrahierte und anonymisierte aus openMEDOCS 18 000 Freitextdokumente, die im modellierten EPA-System gespeichert wurden. Insgesamt finden sichindem extrahierten Dokumentensatz 26 unterschiedliche Dokumenttypen wie Arztbriefe oder Befunde aus acht medizinischen Fachbereichen. Dokumente wurden als Textdokumente zur Verfügung gestellt. Jedes Dokument ist einem Patienten zugeordnet. Klassifikations-Modul: Zur automatisierten Klassifikation vonunstrukturierten klinischen Textdokumenten in medizinische Fachbereiche wurde ein multi-label Klassifikationssystem [2] basierend auf dem Open-Source Data-Mining-Framework WEKA [3] entwickelt. Multi-label Klassifikation bietet den Vorteil, dass einem Dokument mehrere medizinische Fachbereiche zugeordnet

werden können. Der folgende Fall soll den Nutzen verdeutlichen: Patientin Maier hatte einen Unfall, bei dem sie sichden Fuß brach. Nach der Einlieferung im Unfallkrankenhaus wurde ihr Fuß geröntgt. Anschließend wurde der Fuß operiert. Alle Behandlungsschritte, Therapien und Medikamente wurden in einem Dokument zusammengefasst. Die multi-label Klassifikation ermöglicht die Zuordnung des Dokuments zu dessen medizinischrelevanten Fachbereichen Radiologie und Chirurgie. Abb. 2zeigt den Klassifikationsprozess. Ausden 18 000 klinischen Freitextdokumenten wurden zufällig 1500 Dokumente ausgewählt. Weiters wurden acht medizinische Fachbereiche als Kategorien definiert. Ein Fachexperte (Internist) wies aufgrund des Inhalts jedem Dokument einen oder mehrere Fachbereiche zu. Der manuell kategorisierte Dokumentensatz wurde anschließend in einen Trainings- und einen Testdokumentsatz geteilt. Vier unterschiedliche Klassifikationsalgorithmen -– J48 Tree Classifier, Support Vector Machines (SMO), k-Nearest Neighbor (k-NN) Classifier,und Naïve Bayes [4-7] –wurden mit diesen Datensätzen trainiert bzw.evaluiert. Der Einfluss vonText- Vorverarbeitung (z.B.Stoppwortentfernung, Stemming, Kleinschreibung) auf das Klassifikationsergebnis wurde untersucht. Die F-Measure [8] wurde als Erfolgsmaßzahl verwendet. J48, der Klassifikator mit dem besten Evaluationsergebnis,wurde schließlichimInformation Retrieval System verwendet um die restlichen klinischen Textdokumente automatisiert zu klassifizieren. Indexierungs- und Such-Modul: Für die Entwicklung des Indexierungs- bzw.Suchmechanismus wurde das etablierte Open-Source Text-Information-Retrieval-Framework Apache Lucene [9] verwendet. Lucene stellt Funktionalität zum Analysieren, Indexieren und Suchen vonTextdokumenten zur Verfügung. Weiters können Dokumente nachRelevanz sortiert werden. Lucene bietet auchdie Möglichkeit einen „boost factor“ zu setzen, um die Relevanz vonDokumenten durchMetadaten zu beeinflussen. Im Falle des klinischen IR-Systems wird Dokumenten, die medizinischen Fachbereichen zugeordnet wurden, bei der Auswahl dieser Fachbereiche in der Suchmaske eine höhere Relevanz zugewiesen als Dokumenten, die nicht in diese Fachbereiche klassifiziert wurden. J2EE Webanwendung: Die Konzeption des klinischen IR-Systems als J2EE-Webanwendung erlaubt, neben Plattformunabhängigkeit, Modularität, Erweiterbarkeit und Datenschutzfunktionen, einen einfachen Zugriff auf das IR-System. Mediziner –und in Zukunft möglicherweise auch Patienten –können somit über einen Webbrowser auf die Abb. 1–Systemarchitektur des Prototyps eines klinischen Information Retrieval Systems Beispielhafte Anwendung des klinischen IR-Systems Der folgende Anwendungsfall demonstriert anhand eines konkreten Beispiels die Funktionalität des Systems: Aufgrund von Schmerzen im Brustbereich kommt ein Patient auf die Interne Abteilung. Der Patient erzählt, dass er schon mehrmals am Herzen behandelt worden sei. Die diensthabende Internistin möchte sich daher einen Überblick über die bisherige Krankengeschichte des Patienten machen. Vorallem ist sie an bisherigen Behandlungen am Herzeninteressiert. Also gibt sie „Herz*“ in die Suchmaske ein. Der „*“ ist Platzhalter für beliebige weitere Zeichen nach dem Wort „Herz“. Neben medikamentösen Therapien sind auchmögliche Operationen vonBedeutung. Sie sucht daher nach Dokumenten der Fachbereiche „Innere Medizin“ sowie „Chirurgie“, und setzt daher in der Suchmaskeeine Marke für diese Fachbereiche. Nach der Übermittlung der Suchanfrage, ermittelt das klinische IR-System alle Dokumente die das Wort „Herz“ beinhalten. Zusätzlichwird die Relevanz dieser Dokumente bezüglichder Suchanfrage berechnet. Im nächsten Schritt werden jene Dokumente, die vom Klassifikationsalgorithmus in die Kategorien „Innere Medizin“ bzw. „Chirurgie“ klassifiziert wurden mit einem höheren Relevanz-Faktor gewichtet, als jene, die nicht in diese Kategorien fallen. Höher gewichtete Dokumente erscheinen in der Ergebnisliste vor Patientenakte zugreifen. niedriger gewichteten. Dokumente, die zwar das Wort „Herz“ > EHEALTHCOM 57

COMPETENCE | PATIENTENAKTEN<br />

Information Retrieval: VomSuchen und Finden<br />

von Freitextinformationen in der EPA<br />

Am JOANNEUM RESEARCH wurde der Prototyp eines klinischen Information Retrieval Systems entwickelt.<br />

Aufgezeigt wird ein möglicher Weg, relevante Informationen aus klinischen Freitextdokumenten zu gewinnen.<br />

56 EHEALTHCOM<br />

TEXT: STEPHAN SPAT<br />

E<br />

lektronische Patientenakten (EPA) in Spitälern und<br />

Spitalsverbünden stellen neue Anforderungen an<br />

die Suche nachmedizinischrelevanten Informationen<br />

in klinischen Freitextbeständen. Die Steiermärkische<br />

Krankenanstaltenges.m.b.H. (KAGes), die<br />

Trägergesellschaft von20Spitälern der Steiermark mit über<br />

6000 Betten und 16 000 Mitarbeitern, führte im Jahr 2004<br />

ein neues Krankenhausinformationssystem unter dem Projektnamen<br />

openMEDOCS ein. Ziel wares, die heterogenen<br />

IT-Systeme der einzelnen Spitäler durchein einheitliches,<br />

zentrales System zu ersetzen. openMEDOCS basiert auf dem<br />

Softwarepaket IS-H vonSAP sowie i.s.h.med vonGSD und<br />

T-Systems.Den Kern vonopenMEDOCS bildet eine elektronische<br />

Patientenakte, in der die gesamte medizinische Dokumentation<br />

der KAGes-Patienten erfasst<br />

wird. Dadurch wurde es für Mediziner<br />

möglich, die elektronische Akte eines Patienten<br />

–unabhängig davon, wo einzelne<br />

Dokumente erstellt wurden –von jedem<br />

KAGes-Krankenhaus abzurufen.<br />

Ein beträchtlicher Teil der gespeicherten<br />

Patienteninformationen sind Freitextdokumente.<br />

Da die medizinischen Informationen<br />

dieser Dokumente eine große<br />

Bedeutung für die Entscheidungsfindung der Ärzte hinsichtlichder<br />

weiteren Behandlung ihrer Patienten haben, bedarf<br />

es effektiver und effizienter Techniken zur Suche vonrelevanten<br />

Informationen in der EPA. Diese Arbeit stellt einen<br />

kombinierten Ansatz aus Text Information Retrieval und<br />

automatisierter Textklassifikation zur Suche nachrelevanten<br />

Informationen in klinischen Freitextdokumenten vor. [1]<br />

Freitextdokumente<br />

haben eine große<br />

Bedeutung für die<br />

Entscheidungsfindung<br />

der Ärzte.<br />

Entwickelte Lösung<br />

Prototyp eines klinischen Information Retrieval<br />

Systems: Gemeinsam mit der KAGes wurde am Institut für<br />

Medizinische Systemtechnik und Gesundheitsmanagement<br />

der JOANNEUMRESEARCH Forschungsgesellschaft.m.b.H<br />

der Prototyp eines klinischen Information Retrieval (IR) Systems<br />

entwickelt. Ziel des Prototyps ist die Unterstützung von<br />

Ärzten bei der gezielten Suche nachrelevanten medizinischen<br />

Freitextinformationen in elektronischen Akten vonPatienten.<br />

Abb.1gibt einen Überblicküber die wesentlichen Module<br />

der Systemarchitektur: Unstrukturierte klinische Freitextdokumente<br />

werden aus der elektronischen Patientenakte eines<br />

Patienten durch das Datenbank-Modul angefordert.<br />

Anschließend werden die Dokumente im Klassifikations-Modul<br />

in zuvor definierte medizinische Fachbereiche kategorisiert.<br />

Das Indexierungs-Modul extrahiert Index-Terme –Terme,<br />

die den Inhalt beschreiben –aus den Dokumenten und<br />

speichert diese Information, zusammen mit vorhandenen Metadaten,<br />

sowie die durchdie Dokumentenklassifikation ermittelten<br />

medizinischen Fachbereiche des Dokuments,imIndex.<br />

Der Benutzer definiert seine Suchanfrage über das Benutzeroberflächen-Modul.<br />

Die Benutzeranfrage, bestehend aus<br />

Termen und Metadaten, wird an den Index weitergeleitet und<br />

klinische Textdokumente werden nachRelevanz sortiert an<br />

den Benutzer zurückgeliefert. Durchdie Auswahl vonmedizinischen<br />

Fachbereichen in der Benutzeroberfläche kann der<br />

Benutzer direkt Einfluss auf die Relevanz der zurückgelieferten<br />

Dokumente nehmen.<br />

EPA: Da im Pilotprojekt ein direkter Zugriff auf die klinischen<br />

Freitextdokumente der KAGes aus Datenschutzgründen<br />

nicht möglichwar,wurde für die Speicherung eine vereinfachte<br />

elektronische Patientenakte (EPA) modelliert. Die<br />

KAGes extrahierte und anonymisierte aus openMEDOCS<br />

18 000 Freitextdokumente, die im modellierten EPA-System<br />

gespeichert wurden. Insgesamt finden sichindem extrahierten<br />

Dokumentensatz 26 unterschiedliche Dokumenttypen wie<br />

Arztbriefe oder Befunde aus acht medizinischen Fachbereichen.<br />

Dokumente wurden als Textdokumente zur Verfügung<br />

gestellt. Jedes Dokument ist einem Patienten zugeordnet.<br />

Klassifikations-Modul: Zur automatisierten Klassifikation<br />

vonunstrukturierten klinischen Textdokumenten in medizinische<br />

Fachbereiche wurde ein multi-label Klassifikationssystem<br />

[2] basierend auf dem Open-Source Data-Mining-Framework<br />

WEKA [3] entwickelt.<br />

Multi-label Klassifikation bietet den Vorteil, dass einem<br />

Dokument mehrere medizinische Fachbereiche zugeordnet

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!