SaaS-Welt
Alle Rechner
Kalkulator

A/B-Test
Signifikanz-Rechner

Two-Proportion z-Test mit p-Wert, Konfidenzintervall, Lift und Stichprobengröße. Standardverfahren für CRO und Web-Optimierung.

KostenlosKein Loginz-Test80 % Power-Empfehlung
Beispiel-AusgabeKostenlos · Kein Login

Beispiel: A 3,20 % vs. B 3,85 % bei je 10.000 Besuchern

p-Wert

0,0124

Lift

+20,3 %

Verdikt

signifikant

95 % Konfidenzintervall: [+0,14 pp bis +1,16 pp]

Ressourcen

A/B-Test-Signifikanz-Rechner

Two-Proportion z-Test mit p-Wert, Konfidenzintervall und Stichprobengrößen-Empfehlung.

Variante A — Kontrolle

Variante B — Variation

Methodik

Wie der Test funktioniert

Two-Proportion z-Test mit gepooltem Standardfehler. Quellen: Abramowitz & Stegun (1972) Handbook of Mathematical Functions, Kapitel 26; Walpole & Myers, Probability & Statistics for Engineers.

Größe

Formel

Bedeutung

Conversion-Rate

p̂ = c / n

Anteil der Besucher mit Conversion in einer Variante

Gepoolte Rate

p̂_pool = (c₁ + c₂) / (n₁ + n₂)

Gemeinsame Schätzung der Conversion-Rate unter H₀ (kein Unterschied)

Standardfehler

SE = √(p̂_pool · (1 - p̂_pool) · (1/n₁ + 1/n₂))

Streuung der Differenz unter H₀

z-Statistik

z = (p̂₂ − p̂₁) / SE

Wie viele Standardabweichungen Variante B von A entfernt ist

p-Wert (zweiseitig)

p = 2 · (1 − Φ(|z|))

Wahrscheinlichkeit, das Ergebnis durch Zufall zu erhalten

Konfidenzintervall

(p̂₂ − p̂₁) ± z_α · √(p̂₁(1-p̂₁)/n₁ + p̂₂(1-p̂₂)/n₂)

Wertebereich, in dem die wahre Differenz liegt (unpooled SE)

Stichprobe (80 % Power)

n = (z_α + z_β)² · (p₁(1-p₁) + p₂(1-p₂)) / Δ²

Benötigte Besucher pro Variante für Effekt-Nachweis

Praxis-Kontext

Worauf es im echten CRO-Programm ankommt

Lege die Stichprobengröße VOR dem Test fest

Erst MDE und Power festlegen (z.B. 20 % relativer Lift, 80 % Power, 95 % Konfidenz), dann die Stichprobe berechnen, dann starten. Wer den p-Wert während des Tests beobachtet und auf "signifikant!" wartet, produziert systematisch falsch positive Ergebnisse — Effekt: Type-I-Fehler kann auf über 30 % steigen, obwohl das Konfidenzlevel 5 % verspricht.

Mindestens eine volle Wochenwelle laufen lassen

Conversion-Verhalten variiert massiv über Wochentage — B2B-SaaS-Trials wandeln Dienstag/Mittwoch besser, B2C-E-Commerce am Wochenende. Selbst bei rechnerisch ausreichender Stichprobe ist ein Test, der nur Montag bis Donnerstag lief, methodisch problematisch. Faustregel: mindestens 7 Tage, idealerweise 14, um Wochenrhythmen zu glätten.

Eine Metrik primär, alles andere sekundär

Lege vor dem Test fest, welche Conversion entscheidend ist (z.B. Trial-Signup-Rate). Sekundäre Metriken (Bounce, Time on Page, Scroll-Depth) schaust du dir an, aber zur Entscheidung ist nur die Primary Metric maßgeblich. Wer fünf Metriken parallel testet ohne Multiple-Testing-Korrektur, findet zwangsläufig irgendwo einen "signifikanten" Effekt — auch wenn keiner real ist.

Signifikanz ist nicht Relevanz

Bei sehr großen Stichproben (Pipedrive-Skala: 100.000+ Besucher pro Variante) wird fast jede Mini-Änderung statistisch signifikant — auch wenn der absolute Lift nur 0,1 pp ist und sich kaum amortisiert. Vor der Signifikanzprüfung immer fragen: Welcher MDE wäre überhaupt geschäftlich relevant? Lift unter MDE → nicht in Production rollen, selbst wenn signifikant.

Praxis-Tipp: Wer im DACH-Raum CRO ernst betreibt, sollte für laufende Tests auf Plattformen wie GrowthBook (EU-Hosting möglich), Statsig oder VWO setzen — die liefern Sequential Testing, automatische Multiple-Testing-Korrektur und sauberes Reporting. Dieser Rechner ist die richtige Wahl für Ad-hoc-Auswertungen einzelner Tests, Lehrzwecke oder eine schnelle Validierung außerhalb der Plattform.

FAQ

Häufige Fragen zur statistischen Auswertung

Was berechnet ein A/B-Test-Signifikanz-Rechner?
Der Rechner führt einen Two-Proportion z-Test durch — das Standardverfahren, um zwei Conversion-Rates statistisch zu vergleichen. Er gibt dir: (1) den p-Wert (Wahrscheinlichkeit, das beobachtete Ergebnis durch reinen Zufall zu erhalten, wenn es in Wahrheit keinen Unterschied gäbe), (2) das Konfidenzintervall für die Differenz, (3) die z-Statistik und (4) eine Empfehlung zur benötigten Stichprobengröße bei 80 % Power.
Welche Konfidenzstufe soll ich wählen — 90, 95 oder 99 %?
95 % ist die etablierte Standardstufe in der Web-Optimierung und im wissenschaftlichen Mainstream. 90 % reduziert die benötigte Stichprobe deutlich (~40 % weniger Besucher), erhöht aber das Risiko falsch positiver Ergebnisse (Type-I-Fehler) — sinnvoll bei niedrigen Implementierungskosten und schnellen Iterationen. 99 % nutzt du, wenn ein falsches Positiv teure Folgen hat (z.B. eine Preisänderung, die alle Kunden betrifft) — die Stichprobe wächst ca. 70 % gegenüber 95 %.
Wann nutze ich einen einseitigen statt eines zweiseitigen Tests?
Default: zweiseitig. Ein einseitiger Test (H1: B > A) hat zwar mehr statistische Power, ist aber methodisch nur sauber, wenn du a priori ausschließen kannst, dass B schlechter ist als A. In der Praxis ist das fast nie der Fall — ein neues Design könnte auch eine niedrigere Conversion-Rate erzeugen, eine neue Preisstufe könnte abschrecken. Wer einseitig testet, "nur um signifikant zu werden", trickst sich selbst und produziert systematisch falsch positive Ergebnisse. Die meisten seriösen Testing-Plattformen (Optimizely, VWO) berichten standardmäßig zweiseitig.
Was ist der Unterschied zwischen p-Wert und Konfidenz?
Das sind komplementäre Sichten auf dasselbe: Konfidenz = 1 - p-Wert. Beispiel: p-Wert = 0,03 bedeutet 97 % Konfidenz — also nur 3 % Wahrscheinlichkeit, dass der beobachtete Unterschied rein zufällig auftritt. Wichtig: Der p-Wert ist KEINE Aussage über die Wahrscheinlichkeit, dass deine Hypothese stimmt. Er sagt nur: "Wenn die Null-Hypothese (kein Unterschied) wahr wäre, wie wahrscheinlich wären meine Beobachtungen?" Niedrig = unwahrscheinlich → Null-Hypothese verwerfen.
Wie viele Besucher brauche ich pro Variante?
Hängt von drei Faktoren ab: (1) Baseline-Conversion-Rate — je näher an 50 %, desto mehr Stichprobe; (2) Minimum Detectable Effect (MDE) — je kleiner der nachzuweisende Lift, desto deutlich mehr Stichprobe; (3) Power und Konfidenz. Faustregel: Bei 5 % Baseline-CR, 95 % Konfidenz und 80 % Power brauchst du ~6.300 Besucher pro Variante für 20 % relativen Lift. Für 10 % relativen Lift bereits ~25.000 pro Variante. Der Rechner zeigt dir die exakte Zahl nach Eingabe deiner Daten.
Wann ist der z-Test nicht das richtige Verfahren?
Der Two-Proportion z-Test funktioniert gut, wenn beide Stichproben groß sind und Conversion-Rates nicht extrem niedrig — die übliche Faustregel ist n · p ≥ 5 und n · (1-p) ≥ 5 in beiden Varianten. Bei sehr kleinen Stichproben oder sehr niedrigen Conversion-Rates (< 1 %) wird der z-Test ungenau — dann ist der Fisher Exact Test korrekter. Bei mehrstufigen Funnels oder kontinuierlichen Metriken (Revenue per User, Sessions) sind andere Tests nötig (t-Test, bootstrap).
Was bedeutet "Peeking" und warum ist es problematisch?
Peeking heißt: Du schaust dir während des Tests mehrfach den p-Wert an und entscheidest auf Basis dessen, ob du den Test stoppst. Das inflationiert dramatisch die Type-I-Fehlerrate — statt 5 % falsch-positiver Ergebnisse können es 30 %+ werden. Lösung: vorab Stichprobengröße festlegen (Rechner oben), bis dahin durchziehen, dann erst auswerten. Wer früher abbrechen will, muss sequenzielle Methoden wie Always-Valid Inference (Optimizely Stats Engine) oder Bayesian A/B-Testing verwenden.
Welche Faktoren berücksichtigt der Rechner NICHT?
Der Rechner liefert nur einen statistischen Hypothesen-Test. Er berücksichtigt nicht: (1) Multiple-Testing-Korrektur bei mehreren Varianten oder gleichzeitigen Tests (Bonferroni, Holm); (2) Sequential Testing für frühere Auswertung; (3) Mid-funnel-Effekte (B könnte z.B. die Top-of-Funnel-CR erhöhen aber Customer Lifetime Value senken); (4) Saisonalität, Wochentags-Effekte oder kampagnengetriebenen Traffic-Mix; (5) Bayesian Priors. Für Production-Tests in einem CRO-Programm: spezialisierte Software wie GrowthBook, Optimizely oder Statsig nutzen.

Mehr zum Thema

Weiterführende Inhalte rund um diesen Rechner.

Verwandte Artikel

Alle Artikel

Passende Tools

Alle Tools
Typeform Logo
Typeform
Formulare und Umfragen die Menschen tatsächlich ausfüllen
Kostenlos verfügbarAusprobieren
Kissmetrics Logo
Kissmetrics
Verhaltensbasierte Analytics mit personen-basiertem Tracking und Funnel-Analyse
Dub Logo
Dub
Link-Management mit echten Analytics - kurze Links, Custom Domains, Affiliate-Tracking
Kostenlos verfügbarAusprobieren

* Einige Links sind Affiliate-Links. Für dich entstehen keine Mehrkosten.

Newsletter

Der DACH-SaaS-Stack, einmal pro Woche.

Neue Tools, ehrliche Analysen und Ressourcen für Teams im deutschsprachigen Raum - kein Spam, jederzeit abmeldbar.

Newsletter abonnieren