A/B Testing - ein Leitfaden für Anfänger

December 21, 2021
Raphael Nerz
A/B-Testing ist eine bewährte Methode, um unterschiedliche Versionen eines Produkts live am Markt testen zu können. Dabei gilt es einige Regeln bei der Anwendung zu beachten.

Die Anwendung von A/B-Tests, insbesondere im Online-Bereich, ist in den letzten Jahren nicht nur bei Tech-Unternehmen sprunghaft angestiegen, sondern auch bei Firmen aus anderen Branchen. Sie führen Tausende von solchen Online-Experimenten pro Jahr durch. Dabei testen sie, ob die Methode «A», also die aktuelle Anwendung eines Produkts, gegenüber der Methode «B», die eine Verbesserung darstellt, überlegen oder unterlegen ist. 

«Wir führen gleichzeitig Hunderte, wenn nicht Tausende von Experimenten durch, an denen Millionen von Besuchern beteiligt sind. Wir müssen nicht raten, was die Kunden wollen, sondern können die umfangreichsten 'Kundenbefragungen', die es gibt, immer wieder durchführen, damit sie uns sagen, was sie wollen.»

Mark Okerstrom, CEO der Expedia Group

Ein einfaches Beispiel dafür ist die Startseite eines Unternehmens. Auf was wird geklickt, auf was nicht? Was passiert, wenn ein gewisser Button links anstatt rechts angebracht wird. Um den A/B-Test durchzuführen, werden zwei verschiedenen Gruppen jeweils eine unterschiedliche Version der Website gezeigt. Dabei kann auch zwischen der Mobile-Version und der Desktop-Version unterschieden werden. Diese Anwendung eines A/B-Tests erscheint logisch und nachvollziehbar. Trotzdem gibt es auch eine weitere Ebene: So besteht beispielsweise die Möglichkeit, dass mobile Nutzer im Vergleich zu Desktop-Anwendern generell weniger auf Buttons klicken. Wie fliesst dieser Umstand nun in die Tests ein? Neben Webdesign werden A/B-Tests etwa auch bei der SEO-Optimierung eingesetzt. Die Tests dienen in erster Linie zur Messung des Traffics, zur Senkung der Absprungrate von Nutzern oder eben bei der Messung von neuen Produkten.

A/B-Tests sind vor allem beliebt, weil sie kostengünstig sind und rasch Resultate liefern. Die Reaktionen der Nutzer auf Änderungen bei Produkten sind dank der Online-Interaktion in Echtzeit nachvollziehbar. Deshalb ist ein A/B-Test eine beliebte Methode zur Aktualisierung von digitalen Produkten oder bei der Schaffung von neuen Produkten. Sie werden in Newsrooms von Online-Medien eingesetzt, im Finanzbereich, bei der Lancierung von neuen Apps, aber können auch für die Innovation bei physischen Produkten eingesetzt werden. 

Auch wenn die meisten A/B-Tests heute online durchgeführt werden, gibt es sie schon seit Jahrzehnten. Der Konsumgüter-Gigant P&G hat bereits 1997 ein Virtual-Reality-Tool für die Marktforschung eingesetzt. Dabei hat der Konzern bei der Entwicklung einer sport-fokussierten Febreze-Variante die Entwicklungszeit um bis zu 50 Prozent bis zur Markteinführung reduziert. Dabei entwickelten sie verschiedene Designvarianten, ohne physische Prototypen mit Kunden zu testen. So war schon früh klar, was funktioniert  und was nicht.

Erfolgreiche A/B-Tests sind matchentscheidend

Die Tests geben ein erstes Feedback der Nutzer und verringern das Risiko von Fehlinvestitionen. Die Konsequenz von Änderungen kann zumindest in einer ersten Phase objektiv gemessen werden. Dabei geben die A/B-Tests eine Richtung vor, wie sich die Umsätze durch Änderungen und Verbesserungen steigern können. Für viele Unternehmen sind A/B-Tests inzwischen unabdingbar bei der Entwicklung von neuen Produkten. Sie dienen als Entscheidungsgrundlage, wann und ob überhaupt neue Produkte eingeführt werden. Zudem zeigen sie auch auf, wie bestehende Produkte verbessert werden können. Wenn ein Unternehmen neue Märkte erschliessen oder neue Zielgruppen ansprechen möchte, nutzen sie dazu die Testergebnisse. 

Vor allem Tech-Unternehmen wie Linkedin, Netflix oder Spotify könnten ohne A/B-Tests gar nicht existieren. Die Methode entscheidet über die Zukunft von Anwendungen. So hat beispielsweise jeder der rund 220 Millionen Netflix-Nutzer weltweit einen individuellen, auf sein Verhalten zugeschnittenen Start-Screen, wenn er die App öffnet. Dieser beruht teilweise auf A/B-Tests, die automatisch im Hintergrund durchgeführt werden. Dabei wird vor allem das Nutzerverhalten analysiert.Ein ebenfalls bekanntes Beispiel dafür ist Booking.com. Sie führen über 25’000 Growth-Tests pro Jahr durch. Dank diesen Methoden und Mechanismen hat sich das Startup aus Amsterdam zur grössten Unterkunftsbuchungsplattform der Welt entwickelt. Dieser Erfolg beruht laut Eigenaussagen des Unternehmens auch auf A/B-Testings. Ohne diese wäre das Wachstum von Booking.com nicht so rasch gestiegen. Jeder Mitarbeiter darf solche Tests ausführen und braucht keine Erlaubnis des Vorgesetzten.

Bei der Interpretation der Ergebnisse eines A/B-Tests wenden Unternehmen meist eine Software, beispielsweise Optimizely, an, welche die Berechnungen durchführt. Einige beschäftigen aber zur Messung der Ergebnisse auch Statistiker, welche die Ergebnisse interpretieren oder sie arbeiten mit einem externen Dienstleister zusammen, der diese Aufgabe übernimmt. Diese können dann auch komplexere Tests durchführen, bei denen gleichzeitig mehr Tests mit verschiedenen Gruppen durchgeführt werden können.  Diese verschiedenen Ausführungen werden dann ausgewertet und mit den maschinell erzeugten Daten verglichen und interpretiert. Die Software liefert Ergebnisse in Echtzeit. Dabei sollte aber vermieden werden, nur schnelle Entscheidungen aufgrund dieser Resultate zu fällen, sondern die Geduld aufgebracht werden, die Test zu Ende laufen zu lassen.  

Trotz der Einfachheit und auch der Effektivität von A/B-Tests gibt es dennoch einige Punkte zu beachten. 

1. Ziele definieren (Wohin wollen wir mit dem Produkt?)

2. Fragen priorisieren: Welches sind die 2-3 wichtigsten Fragen, die wir mit dem Test sicher beantworten möchten?

3. Welche Daten haben wir bereits in vergangenen Tests erhoben, welche sind für ein bestimmtes  Thema relevant? (bspw. als mögliche Benchmarks)

4. Test Design: Wie setzen wir den Test optimal auf um diejenigen Daten erheben zu können, welche wir zur Beantwortung unserer Fragen benötigen

5. Aufbau des Tests (A/B/C, Kanäle, Tools, Budget, Laufzeit, etc.)

6. Dann erfolgt die eigentliche Datenerhebung.

7. Erstellen der Datenanalyse und Reporting: Welche Hypothesen können widerlegt und welche bestätigt werden?

8. Welche strategischen Entscheidungen können aufgrund des Tests festgemacht werden und werden weitere Datenpunkte benötigt, bzw. brauchen wir einen weiteren Test, bevor wir die grosse Entscheidung treffen können?

Nicht nur auf den Durchschnitt achten

Ein A/B-Test misst das Verhalten einer bestimmten Nutzergruppe. Dabei zeigt er Resultate an, die ein Durchschnitt von Personen liefert. In der realen Welt gibt es aber nach wie vor frappante Unterschiede im Verhalten von verschiedenen Kundinnen und Kunden. Das kann dazu führen, dass bei einer Änderung, die anhand von A/B-Tests ermittelt wurde, eine Diskrepanz entsteht. Die einen nutzen das Produkt noch viel mehr, andere gar nicht.

Die am meisten genutzten Dashboards beim A/B-Testing unterscheiden nicht zwischen zwei Szenarien. Sie gehen davon aus, dass beide Gruppen von Nutzern ein gleiches Verhalten an den Tag legen. Wenn sie nun beispielsweise eine Änderung in einer App vornehmen und die Nutzer dann mehr Umsatz bringen, kann auch der Fall eintreten, dass nicht alle Nutzer mehr Geld ausgeben, sondern ein gewisser Teil mehr Geld ausgibt als vorher. So werden reale Nutzer zu idealen Kunden hochstilisiert. 

Deshalb ist es ratsam, verschiedene Versionen von A/B-Tests für die jeweiligen Nutzersegmente einzusetzen, um das Bild zu schärfen. Inzwischen übernimmt auch KI diese Aufgabe eines Reportings, aber auch da sollte die Homogenität vermieden werden. Das Ziel sollte sein, alle Nutzer in dem Testing zu repräsentieren. Dafür sollten verschiedene Testdesigns eingerichtet und zwischen den Zielgruppen hin und her geswitcht werden. Dann erhält man von der gleichen Nutzergruppe verschiedene Daten. Es gilt, die Wahrnehmung jedes einzelnen Nutzer möglichst genau abzubilden. Dafür müssen verschiedene Märkte aufgeschlüsselt und die regionspezifischen Gewohnheiten mitberücksichtigt werden. 

Die Nutzer sind untereinander vernetzt

Bei den gängigen A/B-Tests werden Gruppe A und B miteinander verglichen und Schlüsse daraus gezogen. Dabei wird davon ausgegangen, dass die beiden Gruppen nicht miteinander interagieren. Das stimmt aber so nicht. Die beiden Gruppen kommunizieren miteinander und das kann die Ergebnisse beeinflussen. Die Kontrollgruppen sind im Austausch und können deshalb nicht völlig autark voneinander betrachtet werden. Um eine Verzerrung der Ergebnisse zu vermeiden, sollte die Gruppeninteraktion ebenfalls gemessen werden oder die beiden Gruppen werden voneinander isoliert. Es besteht aber auch die Möglichkeit, A/B-Tests nach einem Zufallsgenerator anzuwenden, der abwechselnd in verschiedenen Szenarien getestet wird. Damit kann vermieden werden, dass alle Nutzer in dasselbe Szenario eingebunden sind und das Produkt nur diesem Resultat entsprechend geändert wird. 

Keinen Schnellschuss starten

A/B-Tests sind nur dann erfolgreich, wenn sie über einen gewissen Zeitraum eingesetzt werden. Es reicht nicht, nur für ein paar Tage einige Tests zu machen und dann diese Schlussfolgerung für die Lancierung von neuen Produkten zu verwenden. Erste Signale von Nutzern können zwar eine Richtung angeben, aber es ist ratsam, danach auch erste Änderungen am Produkt wiederum zu testen. Das liegt auch daran, dass sich Nutzer im Allgemeinen erstmals positiv über neue Produkte oder deren Änderungen zeigen. Sie zeigen ein hohes Engagement für  neue Features – aber dieses Nutzungsverhalten kann dann rasch wieder einbrechen. Zudem kann bei einer länger angesetzten Testserie auch auf die Interaktion der Nutzer mit dem neuen Produkt eingegangen werden. Änderungen können schrittweise erfolgen. 

Dabei sind vor allem Benchmarks von zentraler Bedeutung: Was ist ein guter und was ist ein schlechter Wert? In Bezug auf die «Click Trough Rate» oder die «Conversion Rate» sind je nach Produkt, Markt, Sättigung der Kanäle oder der Brand Unterschiede auszumachen. Deshalb ist es wichtig, eigene Benchmarks über Zeit genau zu tracken, um bei Bedarf auf Vergleichswerte zurückgreifen zu können. Langfristigkeit ist also auch in diesem Zusammenhang zentral.

Schneller Überblick

Deshalb sollte eine neue Funktion immer wieder gemessen werden und nicht nur am Anfang. Die Faszination der Nutzer für neue Anwendungen kann rasch verpuffen. Dabei kann ein Unternehmen bei den A/B-Tests auch wieder zwischen einer grösseren Gruppe und einer kleineren Untergruppe unterscheiden - und die längere Testserie bei einer kleineren Anzahl von Nutzern anwenden. Sie können dieser Gruppe mehr Zeit lassen, neue Produkte zu testen und dann auch ein umfangreicheres Feedback erhalten. Damit lässt sich die Qualität und Relevanz des neuen Produkts steigern.

Online-A/B-Tests sind eine effektive Möglichkeit, neue Produkte in unterschiedlichen Kundensegmenten zu testen. Wenn diese aber nur oberflächlich und eben nicht auch indvidualisert durchgeführt werden und nur auf kurzfristige Auswirkungen der Nutzer geachtet wird, kann das zu einer falschen Interpretation der Ergebnisse führen. Dabei können solche Tests aber durchaus für längerfristige Erkenntnisse genutzt werden, wenn man sie bei verschiedenen Gruppen über einen längeren Zeitraum einsetzt. 

Kultur im Unternehmen ist entscheidend

Trotz der Effektivität stellt sich auch die Frage, weshalb nicht mehr Unternehmen ihre Produkte und Konzepte einem A/B-Testing unterziehen. Dabei geht es vor allem auch um die Unternehmenskultur. Deshalb ist es wichtig zu verstehen, dass ein A/B-Testing nicht nur eine technische, sondern auch eine kulturelle Angelegenheit ist. Dabei sind zwei Fragen von zentraler Bedeutung:

  • Wie sehr sind Sie bereit, jeden Tag damit konfrontiert zu werden, falsch zu liegen?

  • Wie viel Autonomie sind Sie bereit, Ihren Mitarbeitern zuzugestehen?

Dabei gibt es immer wieder eine abwehrende Haltung gegenüber solchen Tests, weil die Daten eben die Realität der Nutzer widerspiegeln und nicht die Wahrheit, die sich das Unternehmen wünscht. Ein Beispiel ist dabei das A/B-Testing beim Titel setzen bei journalistischen Artikeln. Der Journalist wünscht sich einen Titel, dieser wird aber dann angepasst und stösst  bei der Leserschaft auf  einen grösseren Anklang als der alte. Diese Wahrheit  zu ertragen ist bei allen willkommen.

«Wenn die Antwort lautet, dass Sie sich nicht gern eines Besseren belehren lassen und nicht wollen, dass Ihre Mitarbeiter über die Zukunft Ihrer Produkte entscheiden, wird das nicht funktionieren. Sie werden nie die Vorteile des Experimentierens voll ausschöpfen können.»

David Vismans, Chief Product Officer bei Booking.com

A/B-Test sind allgegenwärtig, aber es gibt auch andere und genauere Formen, Kontrollgruppen zu testen. Die A/B-Tests können aber schnell ausgeführt werden und liefern deshalb einen raschen Überblick und damit ein Verständnis für die Nutzer. Weil erste Resultate in Echtzeit vorliegen, besteht der Vorteil des A/B-Testing darin, dass auch rasch reagiert werden kann oder neue Framings eingerichtet werden können. Das lässt einen vielseitigen Handlungsspielraum zu. 

Hast du Fragen, Anmerkungen oder möchtest dich gerne eifach einmal austauschen?

Mich würde es freuen von dir zu hören. Kontaktiere mich direkt via Linkedin oder Email.

Weitere Artikel

Das könnte dich auch interessieren