Zum Inhalt springen
© RgStudio /iStockphoto.com

Was zählt?

Tricksen bei der Studienauswertung

Wann sind Studien gut? Diese Frage stellt sich nicht nur bei deren Planung und Durchführung, sondern auch bei ihrer Auswertung. Denn hier gibt es jede Menge Tricks, die Ergebnisse „hinzubiegen“.

Im Theater wird ein neues experimentelles Stück aufgeführt. Das Publikum ist zu Beginn sehr gemischt. Aber im Laufe des ersten Akts leeren sich die Reihen zunehmend, viele verlassen unter lauten Buhrufen den Saal. Am Schluss befragt der Lokalreporter die verbliebenen Zuschauerinnen und Zuschauer – und bekommt nur begeisterte Rückmeldungen. Ist das ein unverzerrtes und damit repräsentatives Ergebnis, wie das Stück angekommen ist? Sicherlich nicht: Diejenigen, denen die Aufführung nicht gefallen hat, waren ja schon auf und davon.

Kritischer Blick

Ein ganz ähnliches Problem kann auch bei Studien auftreten, die den Nutzen von Medikamenten untersuchen. Selbst wenn bei der Planung und Durchführung alles optimal gelaufen ist (siehe Kasten), darf man sich deshalb nicht blindlings auf die Ergebnisse einer Studie verlassen, wie man sie in der wissenschaftlichen Veröffentlichung nachlesen kann. Denn bei der Auswertung und Darstellung der Daten kann sich ebenfalls noch einiges an Verzerrung einschleichen.

Aussortierte Patienten

Eine ganz beliebte Schummelei: Einige Patientinnen und Patienten werden in der Auswertung „vergessen“. Wohin das führt, zeigt eine Studie aus den 1970er Jahren:1 Damals sollte untersucht werden, ob bei Patienten mit verengten Halsschlagadern und verringerter Hirndurchblutung eine Operation besser einen Schlaganfall verhindern kann als eine Behandlung  mit Medikamenten.
Nach vier Jahren Beobachtung schnitt die Operation wesentlich besser ab. Allerdings waren beim Warten auf die Operation schon einige Patienten gestorben oder sie hatten einen Schlaganfall erlitten – diese Personen hatten die Forscher am Ende aber nicht mitgezählt. Als zehn Jahre später die Studie von einem anderen Wissenschaftlerteam erneut, aber diesmal richtigerweise mit allen Patienten ausgewertet wurde, gab es auf einmal keinen Vorteil mehr für die Operation.2 Der Ausschluss von Teilnehmerinnen und Teilnehmern bei der Auswertung verzerrte also das Ergebnis der Studie.

© DigitalStorm/ istockphoto.com
© DigitalStorm/ istockphoto.com

Alle zählen

Dieses Beispiel ist kein Einzelfall: Oft erscheinen Therapieeffekte größer, wenn nicht alle Patientinnen und Patienten bei der Auswertung berücksichtigt werden – und zwar in der Teilnehmergruppe, der sie zu Studienbeginn zugeordnet waren.3 Denn Patienten, die vorzeitig aus einer Studie ausscheiden, aus welchem Grund auch immer, unterscheiden sich in der Regel von den Patienten, die in der Studie verbleiben (durch Gruppenmerkmale wie Alter, Geschlecht, Vorerkrankungen usw.). Analysiert man dann nur die verbliebenen Patienten, handelt man sich eine systematische Verzerrung ein.

Richtig wäre es in den meisten Fällen, die Patienten so zu berücksichtigen, wie sie ursprünglich behandelt werden sollten. Diese Art der Auswertung wird im Fachjargon auch als „intention-to-treat“-Analyse bezeichnet (intention to treat = Absicht zu behandeln). Wenn wir nach guten Studien suchen, prüfen wir deshalb, ob alle Patientinnen und Patienten, die in die Studie aufgenommen wurden, auch tatsächlich in der Auswertung auftauchen und wie mit fehlenden Daten umgegangen wurde.

Nur für alte weiße Männer?

Manchmal müssen wir noch genauer hinschauen: Denn es gibt noch mehr Tricks, Studienergebnisse zu „frisieren“, besonders, wenn eine Studie eigentlich ein negatives Ereignis zeigt. Wenn also zum Beispiel das getestete neue Mittel nicht besser hilft als ein bewährtes Medikament, sind manche Forschungsteams versucht, die Studienteilnehmenden in immer kleinere Gruppen aufzuteilen, etwa nach Geschlecht, Alter oder anderen Aspekten. Anschließend suchen sie danach, ob sich nicht vielleicht in einer dieser Gruppen – etwa für ältere Männer – doch ein Vorteil finden lässt. Das bezeichnet man auch als „Subgruppen-Analysen“. Das Problem: Wurden diese Untergruppen nicht schon bei der Planung der Studie bedacht, ist das Risiko groß, dass man rein zufällig ein anscheinend positives Ergebnis erhält, das aber in Wirklichkeit nicht aussagekräftig ist.

Kein Aspirin für Zwilling und Waage?

Diese Lektion hat der Oxforder Statistiker Richard Peto den Herausgebern einer bekannten medizinischen Fachzeitschrift erteilt: In einer Studie, an der Peto beteiligt war, wurde getestet, ob durch die Behandlung mit Acetylsalicylsäure (ASS, z.B. in Aspirin®) nach einem akuten Herzinfarkt weniger Betroffene sterben.4 Die Herausgeber wollten den Statistiker dazu überreden, eine ganze Reihe von nachträglichen Subgruppen-Ana­ly­sen zu berechnen – obwohl Peto sie auf die Gefahr irreführender Ergebnisse hinwies.

Als die Herausgeber nicht locker ließen, billigte Peto zum Schein ihre Forderungen – und brockte ihnen eine offensichtlich unsinnige Analyse ein: Er wertete die Studienergebnisse nämlich anhand der Sternzeichen der Teilnehmenden aus. Verblüffenderweise zeigte sich dabei, dass ASS Zwilling- und Waage-Geborenen scheinbar keinen Vorteil brachte, allen anderen Sternzeichen aber schon. Dahinter steckte  allerdings nicht die vermeintliche Macht der Astrologie, sondern das Walten des Zufalls.

Wir werden deshalb misstrauisch, wenn eine Studie sehr euphorisch über positive Befunde in einzelnen Untergruppen von Patienten berichtet. Noch skeptischer werden wir, wenn gleichzeitig das Ergebnis für die Gesamtheit der Teilnehmer negativ ausfällt.

Vorzeitig den Schlussstrich ziehen

Andere Aspekte sind jedoch deutlich schwieriger zu prüfen: So kann es durchaus vorkommen, dass ein Forschungsteam eine Studie vorzeitig abbricht, weil sich in einer Zwischenauswertung Vorteile für eines der geprüften Mittel zeigen. Der Anreiz, dann den Schlussstrich zu ziehen, ist hoch, weil sich positive Ergebnisse meist besser publizieren lassen als negative, und kürzere Studien weniger Geld kosten. Es besteht aber die Gefahr, dass das Ergebnis nur zufällig zu diesem Zeitpunkt positiv war und sich bei längerer Be­obachtung verflüchtigt oder sogar umgekehrt hätte.5,6

Rosinenpickerei

Wenn Kinder miteinander spielen, macht es ihnen sehr viel Spaß, Regeln einfach willkürlich zu ändern: Zum Beispiel, dass nicht derjenige gewinnt, der am schnellsten rennt, sondern derjenige, der als Letzter ins Ziel kommt. Wenn allerdings der Verlierer im Nachhinein versucht, dem Spiel einen anderen Dreh zu geben, sorgt das meistens für Unmut. Etwas ähnliches kommt auch bei klinischen Studien vor: dass Forschungsteams nachträglich die Kriterien für die Auswertung ändern.

Wie funktioniert die Auswertung von klinischen Studien, etwa mit einem Medikament? Die Wissenschaftlerinnen und Wissenschaftler überlegen sich am Anfang, welche gesundheitlichen Effekte („Endpunkte“) sie untersuchen wollen. In der Regel wird dabei ein Aspekt als wichtigster festgelegt („primärer Endpunkt“), hinzu kommen untergeordnete Fragestellungen („sekundäre Endpunkte“). Nach der guten wissenschaftlichen Praxis wird bereits vor Beginn der Studie festgelegt, wie bei der Auswertung mit diesen verschiedenen Endpunkten umgegangen werden soll, um Rosinenpickerei zu vermeiden. Leider passiert es aber immer wieder, dass Forschungsteams im Nachhinein ein eher nebensächliches Ergebnis in den Vordergrund rücken, wenn das Behandlungsergebnis nicht so ausfiel, wie sie es sich erhofft hatten. Solche Rosinenpickerei  gaukelt nicht nur positivere Ergebnisse vor, sondern kann auch Patientinnen und Patienten gefährden.

Nützlich – oder nur riskant?

Ein Beispiel dafür ist die „Studie 329“:7 Darin wurden Nutzen und Risiken von Antidepressiva bei Jugendlichen getestet. In der Auswertung, die im Jahr 2001 veröffentlicht wurde, zeigten sich scheinbar ein großer Nutzen und vernachlässigbare Risiken. Als über ein Jahrzehnt später andere Wissenschaftlerinnen und Wissenschaftler genauer hinschauten, ergab sich aber ein erschreckend anderes Bild: Die Studienautoren hatten damals die ursprüngliche Festlegung der Endpunkte verändert und so ein positives Ergebnis erzeugt. Als die neue Analyse die ursprünglichen Endpunkte durchrechnete, waren die Antidepressiva nicht wirksamer als Placebo. Sie erhöhten aber das Risiko für Selbsttötungen.8

Die Krux: Diese Art der Trickserei lässt sich nicht auf den ersten Blick entlarven. Deshalb kommt sie meistens erst dann ans Licht, wenn andere Forschungsteams auch die bereits publizierten Studienergebnisse systematisch überprüfen können.9 Dabei werden selbst renommierte medizinische Fachzeitschriften ihren Aufgaben bei der Begutachtung von wissenschaftlichen Auswertungen nicht immer gerecht.

PDF-Download

– Gute Pillen – Schlechte Pillen 04/2019 / S.16