Zum Inhalt springen
©SusanneB/ iStockphoto.com

Vom Assistenten zum Akteur?

Was kann künstliche Intelligenz in der Medizin leisten?

Big Data und künstliche Intelligenz werden oft als die neuen Wunderwaffen in der Medizin angepriesen. Was steckt überhaupt hinter diesen eher blumigen Begriffen? Und vor allem, sind die Versprechungen überhaupt realistisch? Wir befragten Gerd Antes, der sich mit medizinischer Statistik und Datenverarbeitung bestens auskennt.

GPSP: Was macht Sie skeptisch bei Big Data und KI in der Medizin?

Die Versprechungen sind ja wirklich atemberaubend. Automatisches Autofahren senkt dank KI die Anzahl der Verkehrstoten auf null, gegen Krankheiten sprudeln dank Big Data neue Therapien nur so aus dem Computer, und der Kampf gegen den Krebs wird in spätestens zehn Jahren gewonnen sein. Dass automatisierte Entscheidungen aber nicht in die ideale Zukunft führen, wurde in tragischer Weise gerade durch die Abstürze der beiden Boeing 737 Max demonstriert. Und dieser angeblich kleine Softwarefehler konnte durch einen Weltkonzern in nun fast einem Jahr nicht korrigiert werden. Das zeigt sehr deutlich, dass etwas fundamental nicht stimmt.

Ist die Boeing 737 Max nicht etwas ganz anderes als KI in der Medizin?

Es gibt einen übergeordneten Zusammenhang. Eine der Schlüs­selfragen in der Diskussion um den Einsatz von KI ist, ob solche Verfahren als reine Assistenz in Abläufen dienen sollen, in denen der Mensch aber die Kontrolle behält, oder ob die KI die alleinige Entscheidungshoheit erhalten soll. Also: Wird KI vom Assistenten zum Akteur? Die dramatischen Folgen der Steuerung von Maschinen durch den betriebsmäßigen Einsatz von KI zeigen eben die zwei Abstürze der Boeing 737 Max. Der Einbau neuer, noch effektiverer Triebwerke führte zur Instabilität im Flugverhalten der Maschine, die dann durch eine Software automatisch korrigiert werden sollte. Die versagte aber, und die fehlenden Eingriffsmöglichkeiten des Menschen sowie fehlende Schulung für eine solche Situation führten letztlich zu 346 Todesopfern. Das sollte auch für die Medizin eine Warnung sein.

Was ist mit Big Data und KI überhaupt gemeint? Eine klare Definition scheint zu fehlen.

Der Wirrwarr ist die Folge davon, dass die Entwicklung vor allem von wirtschaftlichen Interessen bestimmt wird. Begriffe werden so hingebogen, dass sie den eigenen Interessen am besten nützen. Gemeinsam ist allen Definitionen, dass sie in oft abenteuerlicher Weise alles vergessen, was man bei Definitionen beachten muss. Man definiert Big Data üblicherweise als etwas, was möglichst groß, möglichst schnell auswertbar und möglichst heterogen ist. Das ist natürlich keine nützliche Definition, weil diese Begriffe so vage sind. Das Gleiche gilt für die künstliche Intelligenz. Jeder einigermaßen anspruchsvolle Text dazu stellt fest, dass es dafür keine weithin gültige, belastbare Definition gibt. Trotzdem wird der Begriff natürlich ununterbrochen gebraucht.

Stecken hinter der wachsenden Popularität von KI und Big Data auch in der Medizin Eigeninteressen?

Die Entwicklung wird vor allem durch die Softwaregiganten getrieben. Das Fatale ist, dass viele der nicht erfüllbaren Versprechungen mit der Forderung nach der Vernetzung der Welt verbunden sind. Die hat jedoch vor allem das Ziel, die Nutzer möglichst lange zum Aufenthalt auf Internet-Plattformen zu verführen und damit die Werbezeit zu verlängern.

Sie bemängeln, dass sich die meisten Diskussionen zu sehr auf einen möglichen Nutzen konzentrieren.

Ja. Risiken und Kosten werden vollkommen ausgeklammert. Dabei sind Nutzen, Risiko und Kosten die drei Komponenten bei der Abschätzung von Technologiefolgen, wie sie nach Einführung in den USA in den 1960er Jahren weltweit etabliert wurde. Das scheint in Vergessenheit geraten zu sein. Vom Marketing der IT-Welt über Regierungen bis hin zu Forschungsförderern, aber auch bei den in der Gesundheitsversorgung und Forschung Tätigen, erscheint es allen Beteiligten offensichtlich bequemer, die möglichen negativen Auswirkungen zu ignorieren. Eine verantwortliche Bewertung sieht anders aus.

Big Data und KI beruhen auf dem Sammeln von immer mehr Daten. Warum halten Sie das für problematisch für die Forschung?

Alle Verkündigungen unter dem Schlagwort Big Data bauen auf die Annahme, dass mehr Daten besser sind, was auch zunächst völlig plausibel erscheint. Es ist jedoch ein fundamentaler Irrtum. Den aber zu verstehen – das geht stark gegen unsere Intuition und unser gewohntes Denken. In universitären Zirkeln wird dieses scheinbare Paradox diskutiert. In der Marketingwelt und in den politischen Kreisen, die die Digitalisierung über alles stellen, wird er aber vollständig ignoriert und nicht ansatzweise verstanden.

Wie erklären Sie das?

Daten sind alles andere als Wissen. Sie sind ein Rohstoff, mit dessen Verwendung alles Mögliche schief laufen kann. Dabei kann das nützliche Wissen von falschen Erkenntnissen schlimmstenfalls vollständig verdeckt werden. Ingenieure nennen das richtige Wissen „Signal“ und die Falschmeldungen „Rauschen“. Bedrohlich wird es, wenn mit zunehmender Menge von Daten das Rauschen schneller wächst als die richtigen Signale. Sie gehen damit im Rauschen unter. Bei der Suche nach der Nadel im Heuhaufen erreiche ich also nur, dass ich die Nadel in einem viel größeren Haufen suchen muss. Genau das passiert, wenn ich unüberlegt Daten sammle.

Wir verwechseln also Daten mit Wissen?

Ja! Daten lassen sich etwa als Wolke von Punkten veranschaulichen. Sie zeigt erst mal als einzige Information nur die Werte dieser Datenpunkte, also einzelner Messungen. Inhaltliche Bedeutung bekommen die Daten erst, wenn ich etwas damit mache, etwa eine Gerade oder Kurve darüber legen kann, die zeigt, dass die Punkte einer bestimmten Regelmäßigkeit folgen. Aus Daten zuverlässig Wissen abzuleiten ist eine Kunst, die hohe Kompetenz und die konsequente Berücksichtigung wissenschaftlicher Prinzipien erfordert. Allein auf eine große Datenmenge zu setzen, reicht bei Weitem nicht aus.

Mehr Daten sind also nicht immer besser?

Planloses Suchen und Testen in großen Datenbeständen führt zu einem Desaster, weil damit vor allem sogenannte falsch-positive Ergebnisse gefunden werden. Das sind scheinbare Zusammenhänge zwischen Faktoren, die als ursächliche Abhängigkeit interpretiert werden, tatsächlich aber ein zufälliges Ergebnis sind. Wenn man den nächsten Datensatz unter gleichen Bedingungen auswertet, taucht es nicht wieder auf. Wieder mehr Heu also. Diese Probleme von übermäßigem Testen sind seit Urzeiten bekannt und werden in jeder anspruchsvollen Statistikeinführung behandelt. Ein häufiger Fallstrick ist etwa, bei einer Studie, die keinen Unterschied zwischen zwei Behandlungen zeigt, die Daten dann nochmal in Untergruppen, etwa nach Alter, zu unterteilen und dort Unterschiede zu suchen. Und mit Sicherheit findet man einen scheinbaren Zusammenhang, der in Wirklichkeit aber dem Zufall geschuldet ist.

Schon die Erfassung der Daten ist problematisch?

Big Data verspricht Nutzen aufgrund unbegrenzter Datenmengen. Genau das ist jedoch eine fundamentale und systematische Fehleinschätzung, wie das Beispiel mit dem Rauschen schon zeigt. Gerade auch in Deutschland wird an vielen Stellen die goldene Zukunft durch Daten als neues Öl verkündet. Als Fußnote wird dabei auf die Notwendigkeit eines ausreichenden Datenschutzes verwiesen. Genau das ist jedoch nicht ausreichend. Die unkontrollierte Sammlung macht einerseits den Schutz technisch unmöglich und schafft andererseits durch ungebremste Zunahme des Rauschens die Basis für systematisch falsche Erkenntnis. Viele Daten, viele Fehler.

Wie unterscheiden sich die neuen Ansätze von klassischem wissenschaftlichem Vorgehen?

Es gibt zwei sich grundsätzlich unterscheidende Verfahren, aus Daten Wissen zu erzeugen. Einmal durch Studien, die möglichst sorgfältig geplant und durchgeführt werden. Im einfachsten Fall werden Patienten in zwei Gruppen unterschiedlich behandelt. Eine Gruppe bekommt eine neue Behandlung und die andere etwas, das schon etabliert ist, die Ergebnisse werden verglichen, um dann hoffentlich die Überlegenheit der neuen Behandlung nachzuweisen. Die Zusammensetzung der Gruppen ist dabei sehr wichtig, damit der Unterschied im Behandlungserfolg tatsächlich auf die Therapie zurückgeht – und nicht auf Unterschiede in der Beschaffenheit der Gruppen, etwa, wenn eine Gruppe im Schnitt älter ist als die andere. Der sicherste Weg, solche Fehler auszuschließen, ist, die Patienten zufällig auf die beiden Gruppen zu verteilen, dazu sagt man Randomisierung. Wer welche Behandlung erhält, entscheidet also kein Arzt, sondern der Computer. Dieses Vorgehen nennt man experimentell.

Ihm steht die Beobachtung ohne Beeinflussung gegenüber, etwa die Auswertung von sogenannten Routinedaten wie zum Beispiel ärztlichen Abrechnungen, die den Krankenkassen vorliegen und nutzbar sind. Big Data beruht zum großen Teil auf solchen Daten, die aber problematisch sind, weil sie nicht unter kontrollierten Bedingungen entstehen.. Erkenntnisse können systematisch falsch sein, ohne dass dies einfach zu erkennen ist. Solche Fehler nennt man Bias. Dazu kommt eine mögliche Flut von Zufallsfehlern durch Rauschen.

KI zeigt anscheinend auch Erfolge. Software kann etwa bestimmte Arten von Haut- und Brustkrebs, Herzrhythmusstörungen und Augenkrankheiten ähnlich gut wie Ärzte diagnostizieren. Wie sind solche Ansätze zu bewerten?

Die Erfolge werden in der Regel unter Laborbedingungen erzielt. Eine Reihe von Arbeiten betrachten KI im normalen klinischen Alltag und die zeigen, dass dieser Einsatz mit großer Vorsicht betrachtet werden muss. Gerade in der Diagnostik gibt es eine etablierte Methodik, mit der diese Verfahren erst einmal bewertet werden müssen, bevor sie in den breiten Einsatz kommen. Daran muss sich KI erst noch beweisen.

Welche Chancen bieten die neuen Ansätze?

Durch die Rückkehr zum Ziel, das die Medizin seit jeher bestimmen sollte: größter Patientennutzen bei minimalem Schaden. Das ist das Grundprinzip der Arzneimittelentwicklung und kann als Architektur genauso für Big Data und KI dienen. Um das zu erreichen, sind die bekannten Forderungen an wissenschaftliche Qualität unverzichtbar: Also klare Fragestellungen und nachvollziehbare Methoden sowie eine Überprüfbarkeit der Ergebnisse. Notwendig ist also die Rückkehr zur Qualität im Erkenntnisgewinn, die gegenwärtig weitgehend aus der Welt von Big Data und KI verschwunden ist.

Vielen Dank für das sehr erhellende Gespräch!

Gute Studien
GPSP 1/2019 S. 19

Randomisierung
GPSP 2/2019, S. 24

PDF-Download

– Gute Pillen – Schlechte Pillen 02/2020 / S.19