KI schlägt Ärzte im klinischen Wissenstest
Dreizehn KI-Sprachmodelle haben in einer Studie der Universität Marburg im Schnitt 90 Prozent der Fragen eines klinischen Wissenstests richtig beantwortet. Die 123 menschlichen Teilnehmer, darunter Internisten von einem Fachkongress, kamen auf 49 Prozent. Das ist kein Beweis dafür, dass KI Ärzte ersetzt. Es zeigt aber, dass KI im medizinischen Fachwissen bereits mithalten kann und es stellt eine Frage, die deutsche Kliniken noch nicht beantwortet haben: Wie wollen sie das nutzen?
Die Studie: 15 Fragen, 2 Patientenfälle, 13 Modelle
Die Studie stammt von Dr. Philipp Russ und Prof. Dr. Ivica Grgic vom Universitätsklinikum Gießen und Marburg und erschien 2026 im Fachmagazin Scientific Reports. Das Testformat: zwei reale Patientenfälle zur akuten Nierenschädigung, 15 Testfragen im Multiple-Choice-Format auf Deutsch. Auf der menschlichen Seite standen 123 Teilnehmer, darunter Medizinstudierende und Ärzte der Inneren Medizin vom 131. Jahreskongress der Deutschen Gesellschaft für Innere Medizin in Wiesbaden.
Die KI-Modelle beantworteten im Schnitt 90 Prozent der Fragen korrekt, mehrere Modelle lösten alle 15 Aufgaben richtig. Menschliche Teilnehmer kamen auf durchschnittlich 49 Prozent. Zusätzlich benötigte die KI nur einen Bruchteil der Zeit.
Was die Studie nicht misst: die klinische Urteilsfähigkeit. Ein Arzt erhebt Anamnese, beobachtet den Patienten, liest Körpersignale und kommuniziert unter Druck. Solche Wissenstests erfassen das nicht. Die Studie belegt, dass KI medizinisches Fachwissen abrufbereit hat. Sie sagt nichts darüber aus, was zwischen Arzt und Patient passiert, wenn kein Lehrbuchfall vorliegt.
Wie KI in deutschen Kliniken tatsächlich eingesetzt wird
Ein Wissenstest ist eine Sache, der Klinikalltag eine andere. Derzeit nutzen 18 Prozent der deutschen Krankenhäuser KI, etwa zur Auswertung von Röntgenaufnahmen, Computertomografien oder MRT-Scans. Das entspricht einer Verdoppelung seit 2022, als der Anteil noch bei 9 Prozent lag. In Arztpraxen setzen 12 Prozent KI zur Diagnoseunterstützung ein, so eine Befragung des Digitalverbands Bitkom von 616 Ärzten aus dem Jahr 2025.
Die Diskrepanz zwischen Potenzial und Wirklichkeit ist beträchtlich. 78 Prozent der befragten Ärzte bewerten KI als riesige Chance für die Medizin, 60 Prozent erwarten, dass KI langfristig bessere Diagnosen liefert als Menschen. Gleichzeitig fühlen sich 77 Prozent nicht ausreichend auf den KI-Einsatz vorbereitet und 76 Prozent fordern strenge Regulierung.
Das ist ein bemerkenswerter Befund: Ärzte erkennen das Potenzial der Technologie, zweifeln aber an ihrer eigenen Bereitschaft und verlangen politische Leitplanken.
April 2026: KI wird erstmals zur Pflicht
Im April 2026 ist in Deutschland das nationale Lungenkrebs-Früherkennungsprogramm gestartet. Erstmals ist der Einsatz von KI dabei gesetzlich vorgeschrieben: Nur Radiologiepraxen und Kliniken, die Lungenaufnahmen mit KI-Unterstützung auswerten, dürfen am Programm teilnehmen.
Bislang war KI in der Medizin überall freiwillig und ergänzend. Der Gesetzgeber hat mit dieser Vorschrift erstmals festgestellt, dass ein KI-gestütztes Verfahren für eine bestimmte Aufgabe zuverlässiger ist als ein rein manuelles. Das dürfte als Präzedenzfall wirken, an dem sich künftige Regulierungsentscheidungen orientieren werden.
Gleichzeitig gilt: Die EU-Verordnung zu Künstlicher Intelligenz klassifiziert medizinische KI-Systeme als Hochrisikoanwendungen. Das bedeutet umfangreiche Zulassungsverfahren und Prüfungen durch Zertifizierungsstellen. Was Patienten schützt, verlängert den Weg vom Labor in die Klinik erheblich, manchmal um Jahre.
Was bis 2028 noch entschieden werden muss
Das BMBF hat das Wissenschaftsjahr 2026 unter das Thema "Medizin der Zukunft" gestellt, mit einem Schwerpunkt auf KI-Anwendungen. Parallel läuft der Krankenhauszukunftsfonds, der Investitionen in digitale Infrastruktur fördert. Die Bundesregierung hat das strategische Ziel ausgegeben, KI bis 2028 in mehr als 70 Prozent der Gesundheitseinrichtungen zur administrativen Unterstützung zu etablieren. Der aktuelle Anteil liegt bei 15 bis 18 Prozent.
Ob dieser Sprung gelingt, hängt von drei Faktoren ab: ob Ärzte und Pflegepersonal ausgebildet werden, Systeme sicher zu verwenden; ob der regulatorische Rahmen praxistauglich bleibt; und ob Krankenhäuser mit begrenzten Budgets die Mittel aufbringen können.
Die Marburger Studie hat gezeigt, was KI-Sprachmodelle in kontrollierten Tests leisten. Die nächste Frage ist, was sie in einem Berliner Uniklinikum, einer Hausarztpraxis in der Uckermark oder einer Notaufnahme leisten, wenn kein standardisierter Wissenstest auf dem Tisch liegt.