Im Prinzip kann der Zufallstipper jeden beliebigen Punktestand erreichen. Die oben farbig gekennzeichneten Punktestände sind nur die, die der Zufallstipper am wahrscheinlichsten erreicht. Wie kann ich dann einigermaßen sicher sein, dass ich besser als der Zufallstipper war?
Genau das gleiche Problem haben Wissenschaftler, wenn sie entscheiden müssen, ob ein beobachtetes Phänomen nur zufällig entstanden ist, oder tatäschlich von ihrer experimentellen Manipulation verursacht wurde. Zum Beispiel, könnte sich ein Arzt fragen, ob ein verabreichtes Medikament tatsächlich gewirkt hat. Dazu vergleicht er dann eine Kontrollgruppe, die nur ein Placebo bekommen hat mit einer anderen Gruppe, die das Medikament eingenommen hat. Die Kontrollgruppe ist hier der Zufallstipper, ich bin die Medikamentengruppe und wie stark die Beschwerden zurück gegangen sind ist der Punktestand. Der Arzt muss dann entscheiden, ob der Rückgang der Beschwerden in der Medikamentengruppe größer war als der in der Kontrollgruppe. Dazu schaut er sich an wie wahrscheinlich der Rückgang der Beschwerden in der Medikamentengruppe ist, wenn er die Variabilität des Rückgangs der Beschwerden in der Kontrollgruppe zu Grunde legt. Nur wenn der Rückgang der Beschwerden weit außerhalb des Bereiches liegt, der häufig in der Kontrollgruppe vorkommt, kann der Arzt sicher sein, dass das Medikament gewirkt hat und dass er den Rückgang der Beschwerden in der Medikamentengruppe nicht falsch dem Medikament zuschreibt (schließlich könnten die Beschwerden auch zufällig zurück gegangen sein). Genau dieses Prinzip wende ich nun auf mich und den Zufallstipper an.
Die Abbildung oben hat mir schon einen guten Eindruck davon vermittelt, dass ich zumindest zum Schluss des Tippspiels außerhalb des Punktebereiches lag, den der Zufallstipper häufiger erreichen würde. Das möchte ich nun auch noch anhand einer konkreten Zahl fest machen. Wenn der Zufallstipper viele Male mitgetippt hätte, würde diese Zahl ausdrücken in wieviel Prozent der wiederholten Tipps der Zufallstipper mehr Punkte bekommen hätte als ich. In der Wissenschaft nennt man das den
p-Wert. Dort wird er allerdings eher als erwartete Fehlerwahrscheinlichkeit interpretiert: Wenn ein Experiment hypothetisch viele Male wiederholt werden würde, gäbe der p-Wert den Prozentsatz von Wiederholungen an, in denen der Wissenschaftler den falschen Schluss aus dem Experiment gezogen hätte. Im obigen Beispiel: Wie oft der Arzt den Rückgang der Beschwerden auf das Medikament zurück führen würde, obwohl tatsächlich nur der Zufall dafür sorgte.
In der Psychologie reicht oft schon ein p-Wert von 5% (0,05) um als 'signifikantes' Ergebnis in einem Experiment anerkannt zu werden. Häufiger müssen p-Werte unter 1% liegen. In der folgenden Abbildung zeige ich daher die Punktebereiche, für die ich mit einem p-Wert von 0.01 sagen kann, dass ich besser (schwarz), oder schlechter (gold) als der Zufall war. Der rote Bereich markiert Punktestände, die man vom Zufallstipper erwarten kann (die Abbildung oben zeigt diesen Bereich im Detail).