A/B-Test
Signifikanz-Rechner
Two-Proportion z-Test mit p-Wert, Konfidenzintervall, Lift und Stichprobengröße. Standardverfahren für CRO und Web-Optimierung.
Beispiel: A 3,20 % vs. B 3,85 % bei je 10.000 Besuchern
p-Wert
0,0124
Lift
+20,3 %
Verdikt
signifikant
95 % Konfidenzintervall: [+0,14 pp bis +1,16 pp]
Methodik
Wie der Test funktioniert
Two-Proportion z-Test mit gepooltem Standardfehler. Quellen: Abramowitz & Stegun (1972) Handbook of Mathematical Functions, Kapitel 26; Walpole & Myers, Probability & Statistics for Engineers.
Praxis-Kontext
Worauf es im echten CRO-Programm ankommt
Lege die Stichprobengröße VOR dem Test fest
Erst MDE und Power festlegen (z.B. 20 % relativer Lift, 80 % Power, 95 % Konfidenz), dann die Stichprobe berechnen, dann starten. Wer den p-Wert während des Tests beobachtet und auf "signifikant!" wartet, produziert systematisch falsch positive Ergebnisse — Effekt: Type-I-Fehler kann auf über 30 % steigen, obwohl das Konfidenzlevel 5 % verspricht.
Mindestens eine volle Wochenwelle laufen lassen
Conversion-Verhalten variiert massiv über Wochentage — B2B-SaaS-Trials wandeln Dienstag/Mittwoch besser, B2C-E-Commerce am Wochenende. Selbst bei rechnerisch ausreichender Stichprobe ist ein Test, der nur Montag bis Donnerstag lief, methodisch problematisch. Faustregel: mindestens 7 Tage, idealerweise 14, um Wochenrhythmen zu glätten.
Eine Metrik primär, alles andere sekundär
Lege vor dem Test fest, welche Conversion entscheidend ist (z.B. Trial-Signup-Rate). Sekundäre Metriken (Bounce, Time on Page, Scroll-Depth) schaust du dir an, aber zur Entscheidung ist nur die Primary Metric maßgeblich. Wer fünf Metriken parallel testet ohne Multiple-Testing-Korrektur, findet zwangsläufig irgendwo einen "signifikanten" Effekt — auch wenn keiner real ist.
Signifikanz ist nicht Relevanz
Bei sehr großen Stichproben (Pipedrive-Skala: 100.000+ Besucher pro Variante) wird fast jede Mini-Änderung statistisch signifikant — auch wenn der absolute Lift nur 0,1 pp ist und sich kaum amortisiert. Vor der Signifikanzprüfung immer fragen: Welcher MDE wäre überhaupt geschäftlich relevant? Lift unter MDE → nicht in Production rollen, selbst wenn signifikant.
Praxis-Tipp: Wer im DACH-Raum CRO ernst betreibt, sollte für laufende Tests auf Plattformen wie GrowthBook (EU-Hosting möglich), Statsig oder VWO setzen — die liefern Sequential Testing, automatische Multiple-Testing-Korrektur und sauberes Reporting. Dieser Rechner ist die richtige Wahl für Ad-hoc-Auswertungen einzelner Tests, Lehrzwecke oder eine schnelle Validierung außerhalb der Plattform.
FAQ
Häufige Fragen zur statistischen Auswertung
Was berechnet ein A/B-Test-Signifikanz-Rechner?
Welche Konfidenzstufe soll ich wählen — 90, 95 oder 99 %?
Wann nutze ich einen einseitigen statt eines zweiseitigen Tests?
Was ist der Unterschied zwischen p-Wert und Konfidenz?
Wie viele Besucher brauche ich pro Variante?
Wann ist der z-Test nicht das richtige Verfahren?
Was bedeutet "Peeking" und warum ist es problematisch?
Welche Faktoren berücksichtigt der Rechner NICHT?
Weiterführende Inhalte rund um diesen Rechner.
Verwandte Artikel
Alle ArtikelPassende Tools
Alle Tools* Einige Links sind Affiliate-Links. Für dich entstehen keine Mehrkosten.