Ist von unstrukturierten Daten in der medizinischen Versorgung die Rede, meint man neben Bildern und Biosignalen vor allem Freitexte. Die Medizin ist eine text- und kommunikationsintensive Disziplin, und die medizinische Fachsprache ist Dreh- und Angelpunkt für die Dokumentation und Kommunikation in der Krankenversorgung. Befundberichte, Pflegeberichte, Verlaufsprotokolle, Arztbriefe und andere Dokumente werden entweder von ärztlichem und pflegerischem Personal selbst oder durch Schreibkräfte und Spracherkennungssysteme in Informationssysteme eingegeben. Klinische Freitexte sind eine zentrale Grundlage für das Treffen patientengerechter Entscheidungen in Diagnose und Therapie.
Medizinische Kommunikation und die Erstellung klinischer Dokumente erfolgt üblicherweise unter Zeitdruck. Sie sind stark auf das menschliche Sprachverstehen zugeschnitten. So hält sich klinischer Fachjargon wenig an das Standardvokabular aus Lehrbüchern oder an Regeln der Rechtschreibung und Grammatik. Sprachliche Prägnanz und Knappheit dominieren, was sich beispielsweise in der großzügigen Verwendung von Abkürzungen manifestiert. So bedeutet “RA” je nach Kontext “rechtes Atrium”, “rechtes Auge” oder “rheumatoide Arthritis”, ohne dass es bei den Adressaten - die eben genau diesen Kontext teilen - dadurch zu Missverständnissen kommt. Auch Floskeln wie “Die Vorgeschichte ist bekannt” oder “Krea leicht erhöht, sonst Labor o.B.” gehen davon aus, dass die Kommunikationspartner von ähnlichem medizinischen Grundwissen und klinischen Prozesswissen ausgehen können.
Man hört zuweilen das Argument, die freitextliche Dokumentation sei eine Übergangslösung, so dass in Zukunft, unterstützt durch benutzerfreundliche Benutzerschnittstellen, klinische Dokumentation weitgehend strukturiert und kodiert, das heißt, an internationalen Standards orientiert, stattfindet. Doch spricht in der Praxis wenig dafür, dass wichtige Inhalte ausschließlich strukturiert erfasst werden. Das Ausfüllen von Formularen und Bildschirmmasken ist zeitraubend und unbefriedigend, wenn diese Erhebungsinstrumente unzureichend an den Dokumentationsbedarf angepasst sind. Noch mehr Zeitaufwand für die Dokumentation zu Lasten der Arbeit am Patienten wird nicht toleriert werden.
Im Gegenteil spricht einiges dafür, dass die Bedeutung der natürlichen Sprache zunimmt. Qualität und somit auch Akzeptanz von Software, die gesprochene Sprache erkennt, sind gestiegen. Das lässt erwarten, dass in der klinischen Routine eher noch größere Textmengen erzeugt werden. Auch der derzeitige Hype um ChatGPT zeugt von ungebrochenem Interesse, mit Computern in menschlicher Sprache zu interagieren. ChatGPT ist ein äußerst umfangreiches Sprachmodell, das trainiert wurde, um Antworten auf Fragen jeglicher Art zu erzeugen. Dabei ist es so erfolgreich, dass selbst Prüfungsfragen korrekt und in kaum oder nicht zu entlarvender Art und Weise beantwortet werden können. Gleichzeitig macht er auch sichtbar, welche Fortschritte die Kombination aus Massendaten, Rechenleistung und neuronalen Netzen in nur wenigen Jahren verzeichnet hat.
Die Textlastigkeit klinischer Dokumentation ist überall dort ein Problem, wo Information maschinell weiterverarbeitet werden soll, so z. B. für die Leistungsdokumentation wie die §21-Kodierung, die Befüllung klinischer Register, die Datenerfassung für wissenschaftliche und betriebswirtschaftliche Zwecke oder auch die Implementation entscheidungsunterstützender Verfahren. Die redundante Erfassung gleicher Inhalte einmal als Freitext und einmal strukturiert stößt zu Recht auf Widerstand und führt letztendlich zu Qualitätsproblemen. Allerdings ist auch bekannt, dass die strukturierte Erfassung für einen bestimmten Zweck die Verwendung derselben Daten für einen anderen Zweck einschränkt. So werden im Rahmen der §21-Kodierung viele Komorbiditäten nicht erfasst, da sie nicht abrechnungsrelevant sind. Das schränkt den Wert dieser Daten für klinisch-epidemiologische Fragestellungen ein.
Ein Fernziel ist daher, klinische Informationen in möglichst benutzergerechter Form, also weitestgehend textbasiert, zu erfassen, und dann durch Algorithmen des Natural Language Processing (NLP) in eine interoperable Form zu überführen, die sich an internationalen Standards orientiert, insbesondere an die Terminologiesysteme ICD, SNOMED CT und LOINC, eingebettet in Informationsmodelle wie FHIR.
Die maschinelle Erschließung von Textinhalten mittels NLP wird seit Jahrzehnten intensiv beforscht. NLP ist ein wichtiger Teilbereich der Künstlichen Intelligenz. Algorithmen zur Inhaltserschließung und Informationsextraktion sind angewiesen auf Sprachmodelle und Lexika. Ebenso muss eine Zielstruktur definiert sein, welche die extrahierte Information aufnimmt und so strukturiert, dass datenbankähnliche Abfragen möglich sind.
Methoden des Maschinellen Lernens, basierend auf tiefen neuronalen Netzen und Transformer-Architekturen, haben die NLP in den letzten zehn Jahren revolutioniert. Der Erfolg dieser Systeme steht und fällt mit der Verfügbarkeit großer Mengen an Trainingsdaten, die typisch für den Anwendungsbereich sind. Während publizierte medizinische Texte in großem Maßstab im Web zur Verfügung stehen, erfordert eine gute Analyse von Kliniktexten entsprechendes Trainingsmaterial aus elektronischen Patientenakten. Aus datenschutzrechtlichen Gründen steht dieses derzeit - insbesondere für die deutsche Sprache - nicht in ausreichendem Umfang zur Verfügung. Die Einholung der Zustimmung durch Patienten (informed consent) kann eine Lösung darstellen. Eine andere Möglichkeit ist eine zuverlässige Anonymisierung, zusammen mit der Beschränkung der extrahierten Inhalte auf kurze Fragmente, die keine Rekonstruktion des Ursprungsdokuments zulassen.
Die Bemühungen der Computerlinguistik und der entwickelten Methoden des Natural Language Processing münden schließlich in einer inhaltlichen Repräsentation und Erschließung der Freitexte. Dies ist wiederum Basis der sogenannten semantischen Interoperabilität und somit Kernelement der Digitalisierung des Gesundheitswesen. Es geht also am Ende darum, die Inhalte der Freitexte so abzubilden und zu übertragen, dass die Verarbeitung algorithmisch durch Computer erfolgen kann. Damit soll beispielsweise erreicht werden, dass die Arzneimittel- und Therapiesicherheit (AMTS) erhöht werden kann. Ein Computer “liest” einen Arztbrief, versteht den Inhalt und kann Hinweise geben, ob die empfohlenen Medikamente tatsächlich zum Patienten passen: Sowohl zu dessen Diagnosen als auch zu den Umständen, in denen sich ein Patient befindet (Schwangerschaft, Leistungssportler, aber z.B. auch Laborwerte, die auf Nieren- oder Leberinsuffizienz hinweisen). Auch die standardisierte und vor allem automatisierte Übertragung von Diagnosen und Medikationen zwischen verschiedenen Institutionen des Gesundheitswesens soll damit ermöglicht werden. Schlussendlich soll(te) es möglich sein, große Freitextkorpora semantisch auswerten zu können.
Damit Algorithmen Wissen verarbeiten können, muss dieses Wissen auf formale, mathematische Konstrukte abgebildet werden. Mittel der Wahl sind sogenannte Terminologien und Ontologien. Genau genommen müssen es Ordnungssysteme sein, die sich als Beschreibungslogiken (description logic) ausdrücken lassen. Aber auch Klassifikationen wie ICD-10 (Diagnosen) oder OPS (Prozeduren) enthalten bis zu einem gewissen Grade die Fähigkeit, Wissen abbilden zu können. Insbesondere Ontologien bilden jedoch eben auch Zusammenhänge ab, die bei der Auswertung von größtem Interesse sind. Eine kurze Begriffsbestimmung zur Erläuterung: Klassifikationen sind Ordnungssysteme, die zweckgebunden sind und für eine begrenzte Domäne die Klassifizierung von Patienten erlauben. So ist die ICD-10 eine weltweit verbreitete Klassifikation zur Abbildung von Diagnosen, die in Deutschland und vielen anderen Ländern zur Abrechnung genutzt wird. Klassifikationen haben einige Besonderheiten, die die Abbildung und Verarbeitung von Wissen schwierig machen:
1.) Sie enthalten sogenannte “Resteklassen”. Das ist notwendig, um eine vollständige Abbildung zu ermöglichen. So sollen alle Patienten abgerechnet werden können, also müssen für Ausnahmen eben Resteklassen vorhanden sein, in welche Diagnosen, die durch die ICD-10 nicht abgebildet werden, einsortiert werden können. Die ICD-10 unterscheidet beispielsweise bei bakteriellen Pneumonien zwischen sieben konkreten Erregern. Pneumonien mit anderen Erregern müssen eben unter “sonstige” einsortiert werden. Dabei wird das Wissen über den Erreger derart verallgemeinert, dass es nicht mehr vorhanden ist.
2.) Klassifikationen haben einen engen Kontext, wodurch Informationen verloren gehen können. In der ICD-10 kann beispielsweise die Diagnose “Syndaktylie” (also das Verschmelzen zweier Finger) abgebildet werden, aber es kann nicht dargestellt werden, um welche Finger es sich dabei handelt.
3.) Klassifikationen unterliegen Anwendungsregeln. In Deutschland können beispielsweise nur Diagnosen mit der ICD-10 abgebildet werden, die behandelt wurden. Insbesondere Symptome gehen dabei oft verloren. Aber auch Informationen aus der Verlaufsdokumentation können häufig nicht abgebildet werden.
Da fast alle Klassifikationen eine taxonomische Hierarchie abbilden, eignen sich Klassifikationen vor allem für rein statistische Auswertungen, die auf Gruppenbildung basieren.
Aus diesen Gründen wird heute versucht, das Wissen mit Terminologien abzubilden. Insbesondere SNOMED CT ist dabei in den letzten Jahren in den Fokus gerückt. Es handelt sich um eine recht weit gefasste Terminologie und Ontologie, die große Teile der Medizin abzudecken versucht. Oft sogar als die “Lingua franca” der Medizin dargestellt, konzentrieren sich heute viele Aktivitäten zur semantischen Interoperabilität nur auf diese eine Terminologie. Das wird allerdings in eine Sackgasse führen, denn auch SNOMED CT bildet natürlich nicht die ganze Medizin ab. Bei der Abbildung von gemessenen, individuellen Werten im Bereich der Labormedizin und darüber hinaus ist man sich dieser Einschränkung bereits bewusst und verwendet dafür ein eigenes Ordnungssystem (LOINC). Aber viele andere Bereiche werden leider “zunächst” ignoriert, obwohl es passende Terminologien gibt. Darunter fallen beispielsweise genomische Daten (GO), radiologische Untersuchungen (RadLex), detaillierte anatomische Informationen (FMA), phänotypische Beschreibungen (HPO) und seltene Erkrankungen (OrphaNet). Es gibt zurzeit viele Dutzend relevanter Terminologien und Ontologien, die nur in ihrer Pluralität die Aspekte und Details der Medizin befriedigend abbilden können.
Zudem haben auch Terminologien Fallstricke, von denen einige im Folgenden dargestellt werden sollen. Viele NLP-Verfahren berücksichtigen den Kontext der Terminologie. Ordnungssysteme wie SNOMED CT, die einen sehr weit gefassten Kontext bzw. großen Umfang haben, stellen solche Verfahren damit vor große Herausforderungen. So bildet SNOMED CT mit seinen ca. 360.000 Konzepten auch Bereiche ab, die recht weit von der Humanmedizin entfernt sind. Es gibt derzeit fünf Klassen für Wohnmobile, 90 für Waffen, über 50 katzenartige Tiere und besonders extrem: etwa 2500 Fische. Je größer der Umfang einer Terminologie, desto wahrscheinlicher werden Doppeldeutigkeiten. So führt ein SNOMED CT Konzept wie “Taxifahrer wurde bezahlt” die NLP-Algorithmen doch schon recht weit weg von der eigentlichen Medizin. Hier ist die Verwendung der etablierten Terminologien durch spezielle Terminologien zu ergänzen. mit denen dann die Texte aus bestimmten “Blickwinkeln” betrachtet werden.
Terminologien enthalten oft Konzepte mit Eigennamen, die mit einer mitunter komplexen Definition verbunden sind. So ist beispielsweise eine “Whipple-OP” als “Partielle Duodenopankreatektomie mit Teilresektion des Magen (sowie der Gallenblase, des distalen Gallengangs und des Magenantrums)” definiert. Ein NLP-Algorithmus muss somit in der Lage sein, einen OP-Bericht mit einer narrativen Beschreibung einer solchen Whipple-OP, aber ohne deren explizite Nennung auf genau diese zurückzuführen. Für diese Herausforderung sind allerdings Ontologien auch Teil der Lösung, denn sie können solche Zusammenhänge abbilden. Mit Hilfe geeigneter Algorithmen lässt sich diese Deduktion implementieren. Definitionen, die zu Konzepten gehören, können aber auch gänzlich außerhalb der narrativen Beschreibung liegen und führen dann zum sogenannten Äquivalenzproblem. Darunter ist zu verstehen, dass bestimmte Konzepte an externe Definitionen gebunden sind. Beispielsweise ist Diabetes u.a. über Laborwerte definiert. Sollte sich diese Definition ändern, dann können “Diabetes-Konzepte” nicht mehr direkt miteinander verglichen werden. Definitionen können sich aber nicht nur im zeitlichen Verlauf ändern, sondern auch parallel gelten, wenn sie wie z.B. bei der Definition einer Totgeburt an gesetzliche Vorgaben gebunden sind.
Die Interpretation von Konzepten einer Terminologie ist allerdings nicht nur von Definitionen abhängig, sondern auch vom textuellen Kontext, in dem das Konzept identifiziert wurde. So kann das Konzept für “Narkose” in den folgenden drei Sätzen identifiziert werden: “Der Patient steht unter Narkose.”, “Eine Narkose wurde eingeleitet.” und “Eine Narkose lehnte der Patient ab.”. Die Narkose ist mal Zustand, mal Verfahren und mal gar nicht vorhanden. Während das letzte Problem ein typisches Problem der Computerlinguistik darstellt, zeigen die beiden anderen ein zentrales Problem bei der Repräsentation von Freitexten durch Terminologien: Eine Liste von Codes, die aus einem Freitext extrahiert wird, bildet die Informationen nur unzureichend ab. Das wird insbesondere deutlich, wenn kausale Zusammenhänge abgebildet werden sollen. Die Liste der Konzepte “Vergiftung”, “Methanol” und “Ethanol” kann keinesfalls verwendet werden, um Patienten mit einer Alkoholvergiftung zu identifizieren. Unabhängig davon, dass der Begriff “Alkohol” der Oberbegriff sowohl für Ethanol als auch Methanol (und einige weitere Stoffe) ist, dürfte der Zusammenhang hier vielmehr sein, dass der Patient mit “Ethanol” behandelt wurde, da eine Methanolvergiftung vorlag. Um solche Zusammenhänge darzustellen, können sogenannte “post coordinated expressions” (PCE) verwendet werden. Diese können natürlich auch direkt in eine Terminologie integriert werden. Für SNOMED CT wird so beispielsweise die narrative Beschreibung einer "Whipple-OP" formal abgebildet. Die Extraktion solcher PCEs aus Freitexten ist sicherlich eine der größten aktuellen Herausforderungen, aber für ein tiefes Verständnis und damit die Auswertbarkeit von Zusammenhängen eine notwendige Voraussetzung.
Für die semantische Auswertung freitextlicher, unstrukturierter Textkorpora ist es also unerlässlich, NLP-Verfahren zu implementieren, die eine Inhaltsrepräsentation ermöglichen und so die korrekte Anwendung von formalen Ordnungssystemen erlauben. Solche Verfahren können und sollten gleichzeitig in der Lage sein, die Quellen so zu manipulieren, dass eine möglichst breite Verwendung möglich wird, aber dennoch eine Referenzierbarkeit auf den eigentlichen Freitext erhalten bleibt. Nur so lassen sich intelligente Systeme tatsächlich in die Medizin integrieren. Mit Hilfe geeigneter Werkzeuge, insbesondere Terminologieserver mit integrierter NLP-Funktionalität, können diese Herausforderungen effizient angegangen werden.
Die hier dargestellten Limitationen und Schwierigkeiten führen zu folgenden Empfehlungen der Autoren:
1.) Die Verwendung von Freitexten als Quelle klinischer Informationen wird an Bedeutung zunehmen.
2.) Kombination aus Verfahren des Maschinellen Lernens und der Symbolischen KI zur Implementierung moderner NLP-Pipelines.
3.) Einsatz von De-Identifikations-Algorithmen zur sicheren Anonymisierung und zum Erreichen einer Verkehrsfähigkeit der Daten und Ergebnisse.
4.) Die Verwendung von Terminologien und Ontologien ist der Nutzung von Klassifikationen vorzuziehen.
5.) Es sollte die Pluralität von Terminologien implementiert werden, um Aussagen und Ergebnisse genauer zu machen.
6.) Es sollten Informationsmodelle (z.B. auf Basis von PCE’s) entwickelt werden, um die Inhalte klinischer Freitexte im Kontext richtig abzubilden.
7.) Es sollten Standards für Terminologien und Informationsmodelle verwendet werden, mit denen die semantischen Inhalte abgebildet werden können.
Auf dieser Basis können große Mengen klinischer Freitexte in hoher Qualität für die inhaltliche Analyse verfügbar gemacht werden.
Autoren: André Sander (Berlin) und Stefan Schulz (Graz / Freiburg)