Statistik-Experten erklären Fallstricke von Globuli-Studien

  • Dr. med. Thomas Kron
  • Medizinische Nachrichten
Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten. Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten.

Der p-Wert oder auch Signifikanz-Wert spielt eine wichtige Rolle bei der Auswertung von Studien-Ergebnissen, etwa zu neuen Therapien. Allerdings wird der p-Wert, wie von „Univadis“ bereits berichtet, immer wieder falsch verstanden, worauf schon oft hingewiesen wurde, so etwa von dem US-Wissenschaftler John P.A. Ioannidis (Stanford University) und auch den Hamburger Wissenschaftlern Hans-Hermann Dubben und Hans-Peter Beck-Bornholdt. Am Beispiel von Studien zur angeblichen Wirksamkeit von homöopathischen Behandlungen haben Katharina Schüller und ihre Kollegen der so genannten „Unstatistik des Monats“ die Bedeutung der statistischen Signifikanz und des p-Werts erläutert. Dabei gehen sie auch auf die Aussagekraft von oft angeführten Studien zur Globuli-Therapie ein. Anlass sind Diskussionen zur Sinnhaftigkeit von homöopathischen Therapien und zur Homöopathie-Weiterbildung, die von immer mehr Ärztekammern eingestellt wird. 

Im besten Fall basierten Argumente für die Wirksamkeit von Globuli auf randomisierten und verblindeten Studien, erläutern Schüller und ihre Mitautoren. Durch die zufällige Aufteilung der Studienteilnehmer sollen alle weiteren Störfaktoren ausgeschaltet werden, beispielsweise unterschiedliche Schweregrade der Erkrankung, Alters- oder Geschlechtseffekte. Mit der Verblindung solle sichergestellt werden, dass nicht allein der Glaube an Globuli zu einer Veränderung des Wohlbefindens führt.

Ein Rest an zufälliger Schwankung bleibe aber immer, selbst wenn man erfolgreich alle weiteren Faktoren neutralisiere, die die Studienergebnisse verzerren könnten. Daher würden statistische Tests eingesetzt, die anzeigen sollen, ob ein möglicher Effekt auf System oder Zufall beruhte. Die Idee dahinter: Wenn ein Wirkungs-Unterschied zwischen den Gruppen so groß sei, dass er sich zu 95 Prozent nicht mehr durch Zufall erklären lässt, sei er „echt“ bzw. „signifikant“. Das heiße aber umgekehrt: Selbst der beste Test komme auch bei Abwesenheit jedweden Effekts in 5 Prozent der Fälle zu falsch-positiven Ergebnissen. Anders gesagt: Wenn man 100 derartige Studien durchführe, sei zu erwarten, dass man allein aufgrund der statistischen Unsicherheit in 5 Studien eine Wirkung finde, selbst wenn keine Wirkung vorliege. Und diese Studien würden von den Anhängern der Homöopathie natürlich in den Vordergrund gerückt, betonen Schüller und ihre Kollegen.

Ein zweites Qualitätskriterium wissenschaftlicher Studien mag den Autoren zufolge zunächst erstaunen: Die Studien dürfen nicht zu groß sein. Denn mit großen Teilnehmer-Zahlen würden selbst winzig kleine Unterschiede zwischen Gruppen signifikant. Aus diesem Grund seien Studien zu homöopathischen Mitteln oder auch Nahrungsergänzungsmitteln gerade dann mit Vorsicht zu genießen, wenn Tausende von Menschen daran teilgenommen hätten.

Ein weiteres Problem sei das bekannte Phänomen, dass generell eher Studien mit positiven Resultaten veröffentlicht würden. Das trifft auch auf Studien zur Homöopathie zu - mit der Folge, dass in Fachzeitschriften Studien, die eine Wirksamkeit von Globuli zeigten, überrepräsentiert seien. Die vielen Studien ohne Wirknachweis „verschwinden hingegen in den Schubladen der Wissenschaft“.

Wie wichtig ein kritischer Blick auf den p-Wert ist, hat vor fast 15 Jahren der US-Wissenschaftler Professor Steven Goodman (Johns Hopkins Schools of Medicine and Public Health, Baltimore) deutlich Genacht, indem er insgesamt 12 Missverständnisse zum p-Wert aufgelistet und erläutert hat („Seminars in Hematology“). Nur ein Missverständnis sei zum Beispiel die Annahme, dass ein statistisch signifikantes Ergebnis automatisch bedeutsam sei. Ein Resultat könne jedoch völlig irrelevant sein, obwohl es statistisch hoch signifikant sei.

Der p-Wert wird allerdings nicht nur missverstanden. Er wird laut Ioannidis auch missbraucht: Der häufigste Missbrauch des p-Wertes bestehe darin, ihn für wissenschaftliche, politische und auch ökonomische Entscheidungen heranzuziehen - obwohl er weder etwas über die Bedeutung eines Ergebnisses noch über die Größe eines Effektes (etwa eines Arzneimittel-Effektes) aussage. 

 

Mit der „Unstatistik des Monats“ hinterfragen der Berliner Psychologe Gerd Gigerenzer, der Dortmunder Statistiker Walter Krämer, die STAT-UP-Gründerin Katharina Schüller und RWI-Vizepräsident Thomas K. Bauer jeden Monat sowohl jüngst publizierte Zahlen als auch deren Interpretationen.