ChatGPT in der Klinik

In diesem Artikel wird der Begriff ChatGPT als Synonym für große Sprachmodelle (sog. Large Language Models, LLMs) verwendet, um die Funktionsweise und die Anwendungsmöglichkeiten dieser Modelle im Gesundheitswesens zu erläutern. Seit dem Erscheinen von ChatGPTwurde von klinisch tätigen Kolleginnen und Kollegen häufig die Frage gestellt, wie ChatGPT zur Automatisierung der Erstellung von klinischen Briefen und Dokumentationen eingesetzt werden kann. Das ist natürlich eine naheliegende Idee, da wir alle innerhalb kürzester Zeit gelernt haben, ChatGPT zur Erzeugung von verschiedenen Texten zu nutzen. Dennoch halte ich das für die grundsätzlich falsche Frage. Warum?

Betrachten wir einen Bericht, der in einer nummerierten Liste (1., 2., 3. usw.) verfasst ist und knapp sowie präzise das Ergebnis einer diagnostischen Maßnahme oder die Durchführung eines Verfahrens beschreibt. Man könnte diesen Bericht natürlich an ChatGPT übergeben und auffordern, daraus einen detaillierten Befundbrief zu erstellen. ChatGPT würde daraufhin einen ausführlichen und gut formulierten Befundbrief generieren. Doch stellt sich die Frage: Ist das tatsächlich sinnvoll?

Nein, das ist definitiv nicht sinnvoll. Im besten Fall fügt ChatGPT der ursprünglichen Stichpunktliste keine neuen Informationen hinzu, sondern umschreibt sie lediglich und fügt allgemeine Phrasen hinzu, die keine relevanten Informationen vermitteln. Ein Beispiel hierfür könnte sein: "Eine gezielte weiterführende Diagnostik und Therapieempfehlungen sollten im Rahmen einer interdisziplinären Tumorkonferenz diskutiert werden." Obwohl diese Aussage im Zusammenhang mit einer onkologischen Diagnostik und Behandlung meist zutreffend ist, handelt es sich dabei nur um eine allgemeine Bemerkung, die den beteiligten Leistungserbringern bereits bekannt sein sollte. Es werden keine relevanten Informationen vermittelt. Daher bietet selbst ein inhaltlich korrekter Bericht, der von ChatGPT erstellt wurde, keinen klinischen Mehrwert und führt lediglich zu einer Art Informationsverdünnung. Im ungünstigeren Fall könnte ChatGPT sogar Informationen "erfinden", was zu einem fehlerhaften Bericht führen kann, der negative Auswirkungen auf die Patientenversorgung haben könnte, wenn diese Fehler nicht erkannt und korrigiert werden.

Dies muss jedoch im Kontext eines hochverdichteten Arbeitsalltags im Gesundheitswesen betrachtet werden. Den Leistungserbringern stehen zunehmend kürzere Zeiträume für die Diagnostik und Therapie der einzelnen Patientinnen und Patienten zur Verfügung. Jeder Arbeitsschritt muss auf hohen Durchsatz und Effizienz optimiert werden. Im Alltag von Stationsärztinnen und Stationsärzten muss beispielsweise ein Befundbericht aus einer diagnostischen Abteilung in kürzester Zeit gelesen und verstanden werden, um sofort die richtigen Schlussfolgerungen für die Patientinnen und Patienten ziehen zu können. Was wir also brauchen, ist eine Informationsverdichtung im Sinne von kompakten, nach Wichtigkeit geordneten Ergebnisberichten und nicht ausufernde, epische Freitexte. Diese Informationsverdünnung führt nicht nur zu Effizienzverlusten, sondern schlimmer noch dazu, dass wichtige Informationen in der Flut der leeren Zeilen verloren gehen, was zu Fehlentscheidungen im Behandlungskontext führen kann.

In der Tat existiert im Gesundheitswesen bereits ein enormes Problem in Bezug auf Freitexte. Der überwiegende Teil der Informationen wird ohne einheitliche Struktur und Standardisierung in Form von kurzen und langen Freitexten erfasst. Die Digitalisierung dieser Texte ermöglicht immerhin den schnellen elektronischen Austausch, eine effiziente Speicherung und die Zugänglichkeit für Volltextsuchen.

Obwohl diese Art der Informationsspeicherung und -übermittlung einige Vorteile bietet, gibt es auch erhebliche Nachteile:

Erstens tritt häufig die zuvor erwähnte Informationsverdünnung auf. Neben der Ausdehnung von Freitexten durch ausschweifende Formulierungen und Scheininhalte findet in der klinischen Routine auch eine erhebliche Informationsduplikation statt, indem ganze Passagen aus anderen Dokumenten per Copy & Paste übernommen werden.

Zweitens führt der Mangel an Standardisierung zu Ungenauigkeiten, die zu schwerwiegenden Fehlinterpretationen führen können und letztendlich der evidenzbasierten Medizin im Weg stehen. Ein typisches Beispiel hierfür ist der ungenau quantifizierende menschliche Sprachgebrauch, in dem Ausdrücke wie „mäßig ausgeprägt“, „eine Vielzahl von“ oder „altersentsprechend unauffällig“ verwendet werden, die nicht eindeutig definiert sind und somit einen großen Interpretationsspielraum zulassen.

Drittens hängt der Fortschritt im Gesundheitswesen zweifellos eng mit dem Einsatz digitaler Technologien zusammen. Diese könnten bereits heute erhebliche Effizienzsteigerungen und Behandlungsverbesserungen ermöglichen, wenn die medizinische Informationsverarbeitung strukturiert und standardisiert durchgeführt würde.

Nuance, ein im Gesundheitswesen weit verbreiteter Anbieter von Sprachverarbeitungslösungen und kürzlich von Microsoft erworben, hat gerade eine Software vorgestellt, die mithilfe des GPT-4-Sprachmodells die klinische Dokumentation eines Arzt-Patienten-Gesprächs automatisch erstellen kann. Dies ermöglicht es dem medizinischen Personal, sich voll und ganz auf das Gespräch mit dem Patienten zu konzentrieren, während die KI die notwendigen und wichtigen Dokumentationsaufgaben im Hintergrund erledigt. Dabei liegt es nahe, dass diese Dokumentation gleich in strukturierter und standardisierter Form erstellt und entsprechend in den Krankenhausinformationssystemen gespeichert wird. Gleichzeitig kann die KI eine laienverständliche Version dieses und anderer Dokumente erstellen, die dazu beitragen kann, die Patienten besser in den Behandlungsprozess einzubeziehen und dadurch die Patientencompliance positiv zu beeinflussen.

In Zukunft wird die Menge an unstrukturierten Freitextdokumenten im Behandlungskontext deutlich zunehmen, nicht zuletzt durch die eigentlich sehr begrüßenswerte flächendeckende Einführung der elektronischen Patientenakte (ePA). Für die Leistungserbringer ergibt sich daraus allerdings das Problem, dass die Informationen zwar prinzipiell vorhanden sind, es aber schwierig ist, diese aus der Fülle der Freitexte mit vertretbarem Zeitaufwand zu extrahieren. In solchen Fällen können leistungsfähige Sprachmodelle mit einem tiefen Verständnis der menschlichen Sprache sinnvoll eingesetzt werden, um relevante Informationen zu identifizieren, zusammenzufassen und zu verdichten.

Dank großer Sprachmodelle wie GPT-4 erscheint eine flächendeckende, semantisch interoperable Informationsverarbeitung im Gesundheitswesen, beispielsweise durch den FHIR-Standard, nun im Bereich des Möglichen. Dies würde die Grundlage für den Einsatz digitaler Technologien schaffen und zu erheblichen Verbesserungen im Gesundheitswesen führen, etwa durch Effizienzsteigerung, Kosten- und Fehlerreduktion sowie letztendlich bessere Behandlungsergebnisse. Darüber hinaus würde die Entlastung der Leistungserbringer von verschiedenen, an Software delegierbaren Aufgaben mehr Zeit für direkte Interaktionen zwischen Leistungserbringern und Patienten ermöglichen. Die Medizin würde durch den Einsatz von Maschinen wieder menschlicher.

Vorheriger Artikel Nächster Artikel
>> Dank großer Sprachmodelle wie GPT-4 erscheint eine flächendeckende, semantisch interoperable Informationsverarbeitung im Gesundheitswesen, beispielsweise durch den FHIR-Standard, nun möglich. <<
Prof. Dr. Felix Nensa
Institut für diagnostische und interventionelle Radiologie und Neuroradiologie, Universitätsmedizin Essen