Vom Tanz um ein Goldenes Kalb namens „P-Wert"

Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten. Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten.

Immer mehr Studien in der biomedizinischen Wissenschaft enthalten den P-Wert. Eine Auswertung von mehr als zehn Millionen Abstracts ergab, dass 1990 rund sieben Prozent den P-Wert enthielten, 2014 waren es dann schon fast 16 Prozent ( „JAMA“ ). Der P-Wert ermöglicht, vereinfacht formuliert, eine Aussage zur statistischen Signifikanz eines Studien-Ergebnisses. Wobei meist ein Wert von fünf Prozent (0,05) verwendet wird. Was eine reine Konvention ist. Nur Studien mit statistischen signifikanten Resultaten gelten als wirklich relevante Studien, etwa etwas für die Empfehlungen in Leitlinien und die Bewertung des so genannten Zusatznutzens eines neuen Medikamentes. Nur solche Studien mit signifikanten Resultaten und ihre Autoren erhalten in der Regel die höheren Weihen der Wissenschaft.

Häufig missverstanden

Allerdings wird der P-Wert immer wieder falsch verstanden und sogar missbraucht, worauf in den vergangenen Jahren unter anderen der US-Wissenschaftler Professor John P.A. Ioannidis (Stanford University) und auch die Hamburger Wissenschaftler Privatdozent Hans-Hermann Dubben und Professor Dr. Hans-Peter Beck-Bornholdt schon mehrfach hingewiesen haben. In einem Zeitschriften-Aufsatz erläutern der Physiker Dauben und der Rechtsmediziner Beck-Bornholdt die Bedeutung des P-Wertes und das Problem. Eine typische Frage eines Arztes oder eines Wissenschaftlers laute: ,,Wie groß ist die Wahrscheinlichkeit, dass ich die neue Therapie irrtümlich für besser als die Standardbehandlung halte?" Um diese Frage zu klären, wendet er sich an einen Experten…. Nach Durchführung … von Berechnungen erhält der Arzt folgende Antwort: Die neue Therapie ist signifikant besser als die Standardbehandlung (p = 0,03).“

Was aber bedeutet dieser Satz? „Er bedeutet nicht das, was die meisten Ärzte glauben. Er bedeutet nicht: Wenn ich die neue Therapie für besser als die Standardbehandlung halte, dann ist meine Irrtumswahrscheinlichkeit 3%." Der Satz, so die beiden Autoren bedeute etwas ganz anderes, nämlich: ,,Falls die neue Therapie und die Standardbehandlung gleich gut sind, dann beträgt die Wahrscheinlichkeit 3 %, dass die beobachteten oder noch extremere Ergebnisse zufällig auftreten." Dies sei keine Wortklauberei, sondern möglicherweise der häufigste und folgenreichste Irrtum der modernen internationalen medizinischen Forschung.

Die häufigste Fehlannahme sei die, dass der P-Wert die Wahrscheinlichkeit dafür sei, dass die Studien-Hypothese zutreffe, so auch John P.A. Ioannidis: Ein P-Wert von zwei Prozent werde als Wahrscheinlichkeit dafür gehalten, dass die Null-Hypothese einer Studie (das Verum-Präparat ist so effektiv wie Placebo) zutreffe und somit die Alternative, das Serum-Präparat sei effektiver als ein Schein-Medikament, mit einer Wahrscheinlichkeit von 98 Prozent korrekt sei.

Insgesamt 12 Missverständnisse hat der US-Wissenschaftler Professor Steven Goodman (Johns Hopkins Schools of Medicine and Public Health, Baltimore) vor wenigen Jahren zu diesem P-Wert aufgelistet ( „Seminars in Hematology“ ). Ein Missverständnis ist zum Beispiel auch die Annahme, dass ein statistisch signifikantes Ergebnis automatisch bedeutsam sei. Ein Resultat kann jedoch völlig irrelevant sein, obwohl es statistisch hoch signifikant ist.

Der P-Wert wird allerdings nicht nur missverstanden. Er wird laut Ioannidis auch missbraucht: Der häufigste Missbrauch des P-Wertes besteht darin, ihn für wissenschaftliche, politische und auch ökonomische Entscheidungen heranzuziehen - obwohl er weder etwas über die Bedeutung eines Ergebnisses noch über die Größe eines Effektes (etwa eines Arzneimittel-Effektes) aussagt. 

Vorschlag: ein kleinerer P-Wert

Mit dem P-Wert sind nach Ansicht vieler Wissenschaftler ohnehin einige Probleme eng verknüpft. Eine Ursache dafür sei die Übereinkunft, von einem signifikanten Ergebnis dann zu reden, wenn der Wert von unter 0,05 liege. Dies wiederum könnte die Ursache für die mangelnde Reproduzierbarkeit vieler Studien sein. Denn Ergebnisse bereits dann als statistisch signifikant zu bezeichnen, wenn P < 0,05 liege, habe eine hohe Rate falsch positiver Resultate zur Folge. Dies habe der Vertrauenswürdigkeit so mancher Ergebnisse zu neuen Therapien geschadet und das Misstrauen in Wissenschaft und Wissenschaftler gefördert, so ein internationales Autorenteam um Dr. Daniel J. Benjamin (University of Southern California, Los Angeles) im Fachmagazin „Nature Human Behaviour“

Benjamin und seine Kollegen schlagen daher vor, die meist verwendete Hürde für statistische Signifikanz - ein Wert von unter 0,05 - herabzusetzen. Eine Senkung auf einen P-Wert von unter 0,05 auf unter 0,005 könne die Rate falsch positiver Ergebnisse reduzieren und die Reproduzierbarkeit der Ergebnisse verbessern. Derzeit als statistisch signifikant bezeichnete Ergebnisse, die das neue Kriterium nicht erfüllten, sollten dann nur noch als „suggestiv“ und nicht mehr als signifikant bezeichnet werden. Diese neue Definition der Signifikanz würde bedeuten, dass rund ein Drittel der bislang als signifikant bezeichneten Studien-Resultate nur noch suggestive Ergebnisse wären, bemerkt dazu Ioannidis. Selbstverständlich gibt es Gegenargumente. Ein Gegenargument lautet, dass die Rate der falsch-negativen Ergebnisse inakzeptabel in die Höhe ginge. Ein weiteres Argument, das ins Feld geführt werden kann, ist, dass für die Studien immer mehr Teilnehmer notwendig würden, um überhaupt noch signifikante Ergebnisse erzielen zu können. Ein Folge wäre, dass deutlich weniger Studien realisiert werden könnten.

Aber wären weniger Studien angesichts der täglichen Flut an retrospektiven Beobachtungs-Studien oder Metaanalysen von Beobachtungs-Studien wirklich ein Verlust? Vielleicht könnten sich viele Wissenschaftler und Ärzte dann wichtigeren Aufgaben widmen als dem Produzieren von „Papers“, die eh kaum noch jemand lesen kann.