Question 1

Was berechnet ein A/B-Test-Signifikanz-Rechner?

Accepted Answer

Der Rechner führt einen Two-Proportion z-Test durch — das Standardverfahren, um zwei Conversion-Rates statistisch zu vergleichen. Er gibt dir: (1) den p-Wert (Wahrscheinlichkeit, das beobachtete Ergebnis durch reinen Zufall zu erhalten, wenn es in Wahrheit keinen Unterschied gäbe), (2) das Konfidenzintervall für die Differenz, (3) die z-Statistik und (4) eine Empfehlung zur benötigten Stichprobengröße bei 80 % Power.

Question 2

Welche Konfidenzstufe soll ich wählen — 90, 95 oder 99 %?

Accepted Answer

95 % ist die etablierte Standardstufe in der Web-Optimierung und im wissenschaftlichen Mainstream. 90 % reduziert die benötigte Stichprobe deutlich (~40 % weniger Besucher), erhöht aber das Risiko falsch positiver Ergebnisse (Type-I-Fehler) — sinnvoll bei niedrigen Implementierungskosten und schnellen Iterationen. 99 % nutzt du, wenn ein falsches Positiv teure Folgen hat (z.B. eine Preisänderung, die alle Kunden betrifft) — die Stichprobe wächst ca. 70 % gegenüber 95 %.

Question 3

Wann nutze ich einen einseitigen statt eines zweiseitigen Tests?

Accepted Answer

Default: zweiseitig. Ein einseitiger Test (H1: B > A) hat zwar mehr statistische Power, ist aber methodisch nur sauber, wenn du a priori ausschließen kannst, dass B schlechter ist als A. In der Praxis ist das fast nie der Fall — ein neues Design könnte auch eine niedrigere Conversion-Rate erzeugen, eine neue Preisstufe könnte abschrecken. Wer einseitig testet, "nur um signifikant zu werden", trickst sich selbst und produziert systematisch falsch positive Ergebnisse. Die meisten seriösen Testing-Plattformen (Optimizely, VWO) berichten standardmäßig zweiseitig.

Question 4

Was ist der Unterschied zwischen p-Wert und Konfidenz?

Accepted Answer

Das sind komplementäre Sichten auf dasselbe: Konfidenz = 1 - p-Wert. Beispiel: p-Wert = 0,03 bedeutet 97 % Konfidenz — also nur 3 % Wahrscheinlichkeit, dass der beobachtete Unterschied rein zufällig auftritt. Wichtig: Der p-Wert ist KEINE Aussage über die Wahrscheinlichkeit, dass deine Hypothese stimmt. Er sagt nur: "Wenn die Null-Hypothese (kein Unterschied) wahr wäre, wie wahrscheinlich wären meine Beobachtungen?" Niedrig = unwahrscheinlich → Null-Hypothese verwerfen.

Question 5

Wie viele Besucher brauche ich pro Variante?

Accepted Answer

Hängt von drei Faktoren ab: (1) Baseline-Conversion-Rate — je näher an 50 %, desto mehr Stichprobe; (2) Minimum Detectable Effect (MDE) — je kleiner der nachzuweisende Lift, desto deutlich mehr Stichprobe; (3) Power und Konfidenz. Faustregel: Bei 5 % Baseline-CR, 95 % Konfidenz und 80 % Power brauchst du ~6.300 Besucher pro Variante für 20 % relativen Lift. Für 10 % relativen Lift bereits ~25.000 pro Variante. Der Rechner zeigt dir die exakte Zahl nach Eingabe deiner Daten.

Question 6

Wann ist der z-Test nicht das richtige Verfahren?

Accepted Answer

Der Two-Proportion z-Test funktioniert gut, wenn beide Stichproben groß sind und Conversion-Rates nicht extrem niedrig — die übliche Faustregel ist n · p ≥ 5 und n · (1-p) ≥ 5 in beiden Varianten. Bei sehr kleinen Stichproben oder sehr niedrigen Conversion-Rates (< 1 %) wird der z-Test ungenau — dann ist der Fisher Exact Test korrekter. Bei mehrstufigen Funnels oder kontinuierlichen Metriken (Revenue per User, Sessions) sind andere Tests nötig (t-Test, bootstrap).

Question 7

Was bedeutet "Peeking" und warum ist es problematisch?

Accepted Answer

Peeking heißt: Du schaust dir während des Tests mehrfach den p-Wert an und entscheidest auf Basis dessen, ob du den Test stoppst. Das inflationiert dramatisch die Type-I-Fehlerrate — statt 5 % falsch-positiver Ergebnisse können es 30 %+ werden. Lösung: vorab Stichprobengröße festlegen (Rechner oben), bis dahin durchziehen, dann erst auswerten. Wer früher abbrechen will, muss sequenzielle Methoden wie Always-Valid Inference (Optimizely Stats Engine) oder Bayesian A/B-Testing verwenden.

Question 8

Welche Faktoren berücksichtigt der Rechner NICHT?

Accepted Answer

Der Rechner liefert nur einen statistischen Hypothesen-Test. Er berücksichtigt nicht: (1) Multiple-Testing-Korrektur bei mehreren Varianten oder gleichzeitigen Tests (Bonferroni, Holm); (2) Sequential Testing für frühere Auswertung; (3) Mid-funnel-Effekte (B könnte z.B. die Top-of-Funnel-CR erhöhen aber Customer Lifetime Value senken); (4) Saisonalität, Wochentags-Effekte oder kampagnengetriebenen Traffic-Mix; (5) Bayesian Priors. Für Production-Tests in einem CRO-Programm: spezialisierte Software wie GrowthBook, Optimizely oder Statsig nutzen.

A/B-Test
Signifikanz-Rechner

A/B-Test-Signifikanz-Rechner

Wie der Test funktioniert

Worauf es im echten CRO-Programm ankommt

Häufige Fragen zur statistischen Auswertung

Mehr zum Thema

Der DACH-SaaS-Stack, einmal pro Woche.

A/B-TestSignifikanz-Rechner