Kolik vám vydělá A/B testování?

Nedávno vyšel na ConversionXL článek, který analyzoval 28,304 A/B testů. A vyvozoval z toho zajímavé závěry. A já jim nevěřím. Takže jsem k tomu vzal cca 215 testů z GoodUI. A jelikož jsem magor, tak jsem zapátral na webu a našel meta-studii dalších 6700 A/B testů e-shopů. K tomu dotazníkové šetření CXL z 2018 a statistiky z VWO. Což už by nám mělo dát realističtější obrázek.

Tak jsem na základě toho spočítal:

  • jak moc se vám vyplatí rok A/B testování,
  • kolik testů ročně byste měli optimálně spouštět,
  • které A/B testy mají největší pozitivní efekt.

Červená nebo modrá pilulka

Začnu věci, na kterých se shoduje více zdrojů.

Jaký nástroj na A/B testování?

7 % webů z top 1 milionu má naimplementován A/B testovací nástroj.

Níže uvádím celosvětová / česká procenta (podle BuiltWith).

37 % / 49 % Google Optimize 360 (cca 150 000 $ ročně)
14 % / 10 % Optimizely (od cca 30 000 $ ročně)
14 % /  7 % Mixpanel (cca 1000 $ ročně při 300 000 uživatelích)
12 % / 17 % VWO (cca 4200 $ ročně při 600 000 uživatelích)
5 % /   4 % Adobe Test&Target
18 % ostatní nástroje

Předpokládám ale, že Google Optimize, který je součástí balíku s Google Analytics tomu bude v segmentu free nástrojů výrazně dominovat. A je pravděpodobné, že ho nástroj BuiltWith počítá jako součást balíku 360, protože 4 míče ročně v Čechách dá za analytiku málokdo.

Kolik testů dojede do statistické jistoty?

Podle Convert.com je to 1 z 5 (r. 2019). Podle VWO 1 ze 7 (r. 2014), podle GoodUI 1 ze 3 (r. 2017), to samé prý podle eConsultancy.

Počítejte tedy s tím, že většina experimentů bude na pokrčení ramen. Délka testu by neměla být menší než týden, spíš dva. A delší než cca 6 týdnů. Když si to hodíte do AB testovací kalkulačky, tak ta vám ukáže, o kolik se to musí zlepšit, abyste za 6 týdnů měli jistotu. Čím větší procento uvidíte, tím radikalněji odlišný experiment musíte udělat.

Počítejte tedy s tím, že budete mít jistotu u 20 % testů, které pojedete. Je dobré na tohle upozornit šéfa nebo klienta. Protože ho všichni krmí případovkami, kde jsou nárůsty ve vyšších desítkách až stovkách procent.

Jaké druhy testů se nejčastěji spouštějí?

V naprosté většině případů je to A/B test. Tzn. že testujete dvě a více různých variant jedné věci.

97, 5 % jsou A/B testy (81 % prvek na stránce, 17 % různé stránky mezi sebou – pravděpodobně s více změnami)
1 % A/A testy (kvůli kontrole implementace nástroje, zjištění statistické odchylky atd.)
1 % multivariační testy (testujete všechny kombinace více změn na stránce)
0,5 % personalizace (odlišný web pro každého uživatele zvlášť)

Předpokládám, že v našich končinách, kde je málo návštěv to bude 99 % A/B test. Nicméně A/B testy personalizace a segmentace ztrojnásobují potenciální zvýšení obratu.

Kolik variant se průměrně testuje?

Zjistil jsem, že šance, že jsem geniální se s časem limitně blíží nule. A začal jsem tudíž vymýšlet víc variant, které otestovat. Protože představa, že se zrovna já trefím do lepší verze čehokoliv je poměrně malá. A hřebínek mi spadl už hodně dávno. Takže se snažím vytvářet minimálně 2, spíše 3 varianty, které zápasí se stávajícím stavem.

Což by odpovídalo, convert.com uvádí 2,45 variant (+ ta původní). Hlavní výhoda více variant je zvýšení frekvence testování, respektive čím víc variant vyzkoušíte, tím dřív narazíte na tu pozitivní.

Frekvence testování

VWO uvádí jako průměr 75 testů ročně. ConversionXL v dotazníku z 2018 uvádí průměrně 1 test týdně. Já jsem rozhodil sítě a v Čechách  nejvíc testuje Avast, co vím.

Zajímal mě názor Michala Pařízka, který dělal v Avastu a teď je v Rohlíku. Ptal jsem se na srovnání.

„V Avastu jsme jeli i kolem 200 A/B testů ročně. V Rohlíku je to mnohem méně. Proč? 1) Skladba a povaha projektů – v Avastu se dělali spíš menší, iterativní zlepšení: ladění copy, cen, nákupních flow. Ty ale díky globální působnosti (a milionům zákazníků) a SaaS byznys modelu měla potenciálně velký dopad. V Rohlíku se soustředíme spíše na větší změny typu Rohlik Chef nebo Můj Regál. Validujeme nápady v early fázích se zákazníky, pak pilotujeme MVP, sbíráme zpětnou vazbu a iterativně zlepšujeme. V minulosti jsme v Rohlíku spouštěli více A/B testů zaměřených na menší změny, ale nemělo to velký přínos.
2) Avast působí globálně. Mohli jsme mít spuštěných více A/B testů napříč zeměmi, a také napříč produkty. To pozitivně ovlivnilo kvantitu.
3) E-commerce tým v Avastu už před lety čítal nižší desítky lidí. Což je v porovnání s Rohlíkem několikanásobné. Jednotlivé pod-týmy se tak mohly věnovat dílčím segmentům nebo zemím a ladily pomocí A/B testování jednotlivá prodejní flow.“

Většina běžných e-shopů a webů ale bude limitovaná počtem konverzí. Budu optimista a vezmu nadstandardně fungující e-shop jako příklad. Konverzní poměr 3,5 %, minimální detekovatelný efekt 10 %, jistota 95 % a síla testu 80 %. S těmito čísly potřebujete 43 900 návštěvníků na každou variantu. Ne celého webu, jedné testované verze stránky.

K tomu si připočtěte čas strávený analýzou, návrhem, implementací, testováním a vyhodnocením a většina e-shopů bude ráda, když udělá 1 test měsíčně. Respektive většina e-shopů si testování vůbec nemůže kvůli počtu konverzí a návštěv dovolit.

Tady článek, co dělat, když nemůžu A/B testovat.

O kolik vám průměrně A/B test zlepší čísla (obrat, konverze)?

Tady už se to rozchází hodně.

VWO říká, že statisticky jistý pozitivní test vám zlepší čísla průměrně o 49 %. Podle mě je to nesmysl, respektive mohla to být pravda, pokud většina jejich uživatelů s testováním teprve začínala. Neuvádí ale, jak vám to zhorší statisticky jistý negativní test. Takže to pojďme, prosím, ignorovat.

Convert.com říká, že u pozitivního testu je to dokonce 61 %. Nicméně férově uvádějí, že negativní experiment vám to sníží o 26 %. Takže jsem si to hodil do kalkulačky, protože negativní experiment po cca měsíci zastavíte a pozitivní implementujete. Pokud budu předpokládat, že se pozitivní výsledky v průběhu času zmenšují, tak pokud beru 1 rok jako rozumnou míru, tak z toho vychází, že … tomu pořád nevěřím. Po prvním pozitivním testu byste měli být 39 % v plusu. In your dreams, baby.

GoodUI.org je v tomhle trochu realističtější. Jakub hodně preferuje agregované změny, tzv. best shot strategie. Fakticky vymýšlí optimální variantu s více změnami najednou. Tam prý dosahuje průměrného zvýšení o 23 %. Ale možná si Jakub jen přihřívá vlastní polívčičku.

Pokud vezmeme databázi sdílených testů, tak tam je průměrné zvýšení 4 %. A tomu už bych věřil. Samozřejmě se započtením biasu, protože tam lidi budou mít tendenci dávat spíš pozitivní testy než negativní. Kdyby byl Jakub behaviorální ekonom, tak by za publikovaný negativní test nabízel dvojnásobnou odměnu oproti pozitivnímu. Protože se dvakrát víc vyhýbáme ztrátě před tím něco získat.

No a poslední studie, které věřím asi nejvíc – protože tam má komplet metodiku a je zkontrolovaná PwC, je ta od Qubit Digital. Kde si vzali databázi 6700 statisticky jistých experimentů a došli k tomu, že testování přinese kolem 0,5-1 %. Což sice vypadá málo, ale je to pro každý jednotlivý test. Při 50 testech ročně už to není málo, navíc se to kumuluje jako úrok.

No a já klientům říkám, počítejte, že při roční spolupráci bude nárůst dělat 5-30 %, dvojnásobek, pokud jste nikdy před tím netestovali. Po 100 testech se mi jen jednou povedlo to zvýšit o 680 %.

Co (ne)funguje v A/B testování?

A tohle mě hodně překvapilo. Beru výsledky z Qubitu, který má větší vzorek. Většina zlepšení souvisí s přesvědčivostí. A jen 40 % změn vede k pozitivnímu výsledku.

RPV – revenue per visitor neboli obrat na zákazníka.

změna medián zvýšení RPV pravděpodobnost zlepšení zásah počet testů
Nedostatek
Skladovost a poslední kus(y).
2.9%

84%

38%

125

Social proof
Chování ostatních, např.: oblíbené produkty, zrovna se prodává sekce.
2.3%

82%

63%

119

Urgence
Časově omezené akce s odpočtem.
1.5%

70%

36%

119

Opuštění
Motivace neopouštět web, většinou popup se slevou.
1.1%

71%

18%

105

Produktové doporučení
Doporučení alternativních produktů.
0.4%

76%

74%

119

Uvítání
Přivítání uživatelů na stránce pomocí popupu nebo celé stránky.
0.2%

64%

44%

78

Redesign stránky
Větší překopání stránky, více změn najednou.
0.2%

59%

67%

83

Banner
Přidání / změna bannerů
0.1%

63%

44%

212

Popup
Vyskakovací okno. Například se slevou. (V RPV započítána i výše slevy.)
0.0%

50%

34%

91

Barevnost
Změna barevnosti prvků.
0.0%

49%

81%

81

Zvýraznění
Různé zvýrazňovače, šipky, tooltipy atd.
-0.0%

48%

44%

105

Velikost
Změna velikosti prvků
-0.0%

49%

85%

36

Filtry
Úprava filtrace produktů
-0.0%

48%

57%

126

Upsell
Snaha prodat dražší verzi produktu, zvýšení AOV
-0.1%

41%

49%

99

Lepítka
Certifikace, lepítka slevy/akce atd.
-0.2%

42%

64%

39

Tlačítka
Všechny změny tlačítek (barva, velikost, text)
-0.2%

33%

75%

197

Obrázky
Všechny změny obrázků
-0.2%

34%

40%

105

Doprava zdarma -0.2%

44%

50%

65

Navigace
Změny ve struktuře navigace.
-0.2%

35%

62%

216

Vyhledávání
Změna grafiky vyhledávacího pole nebo výsledků.
-0.2%

20%

60%

219

Předvýběr
Změna předvybraného, například řazení v kategorii.
-0.2%

45%

50%

58

Vstupní stránky
Test vstupních stránek a první stránky, co uživatel uvidí.
-0.3%

36%

39%

55

CTA texty
Změna textu výzev k akci.
-0.3%

24%

71%

172

Back to top -0.4%

12%

78%

54

Ukázat vše
Ukázat všechny produkty ve výpisu zboží.
-0.7%

36%

34%

30

Sticky navigace
Navigační lišta, co cestuje při skrolování s vámi.
-0.7%

32%

45%

40

Mobilní vyhledávání -1.0%

5%

33%

30

Počasí
Změna obsahu stránek na základě počasí venku.
-1.1%

13%

43%

27

Mobilní navigace -1.7%

17%

30%

33

GoodUI v sekci e-commerce uvádí jako nejefektivnější tyto změny (přesná čísla vám kvůli licenci nemůžu říct):

  1. Plovoucí liště s call to action
  2. Call to action na první obrazovce
  3. Objednávka bez hlavičky a patičky
  4. Opožděná platba
  5. Nákup bez registrace

Závěr

Netestujte, pokud na to nemáte konverze. Netestujte kraviny. Zkuste víc různých variant, špatné můžete v průběhu testu vypnout (hardcore statistikům se omlouvám). Testujte co nejčastěji, ideálně 1 test týdně, rozumné minimum je jeden test měsíčně. A připravte šéfa nebo klienta na to, že u většiny testů nebudete mít jistotu a spíš čísla trochu zhorší. Ale ten, co to zlepší to posune do černých čísel. Řiďte se zásadou: Dělejte rychle inteligentní chyby.

 

Zdroje:
https://conversionxl.com/blog/learning-analyzing-experiments/
http://blog.analytics-toolkit.com/2018/analysis-of-115-a-b-tests-average-lift-statistical-power/
http://www.qubit.com/wp-content/uploads/2017/12/qubit-research-meta-analysis.pdf
https://vwo.com/blog/cro-industry-insights/
https://conversionxl.com/blog/2018-conversion-optimization-report/
https://vwo.com/blog/a-b-testing-tips/

No comments yet.

Napsat komentář

Powered by WordPress. Designed by WooThemes