Zpět na seznam článků

15 druhů AB testů a kdy je použít

Hodně lidí se mně ptá, jak se mnou může manželka vydržet. A já odpovídám: „Proč se nezeptáte mé manželky? Já se bojím zeptat.“

Chalks

Nedávno jsem zkoušel, kdy si všimne, že ji každý den přidávám o jednu kostku cukru do kafe navíc.

Teď zkouším dvě věci:

  • Citlivost na teplotu.
    Lucka byla vždycky zmrzlina. Zatímco já spím v tričku, tak ona má flanelové pyžamo, župan, chlupatou deku, na tom nejtlustší deku z IKEA. A pak startuje jadernou fúzi. Takže fyzicky nejde usínat nalepení na sebe, protože do 3 minut je to stejné, jako se mazlit s odporovým drátem. No a já – v rámci úspory rodinného rozpočtu za plyn – zkouším, kdy začne brblat nad zimou. Zatím to vychází na 19,5 stupňů Celsia.
  • Pozornost při nízké hladině cukru (snídani).
    V rámci zlepšení zdraví jsem se rozhodl nesnídat, abych si omezil časové okno, kdy do sebe něco futruju. A přišlo mi menší zlo zrušit snídaní než večeři. Takže jsem si začal dávat jen čaj, a pozoroval, kdy si manželka všimne, že nesnídám. Trvalo to 25 dní.

Ke statistickému testu to má dost daleko, byť určitá zaslepenost tu taky je. Ale spíš mi jde o to vám říct, že je daleko více možností, než jen porovnávat variantu A a variantu B.

Tak jsem si říkal, že vám popíšu 15 druhů AB testů, a proč a kdy je použít. Co to vlastně A/B testování, říkáte si?

A/A test

Na první pohled je to nesmysl, proč bych měl porovnávat dvě identické verze?

Hlavní důvody jsou následující:

  1. Ověříte si, že chyba typu I (falešně pozitivní) je v normě (do 5 %).
  2. Zjistíte míru šumu (variance), neboli jak velká je míra náhody a co už se dá považovat za důvěryhodné výsledky.
  3. Zkontrolujete si, že mezi původní a novou variantou není žádné zkreslení (bias).
  4. Porovnáte si, zda vám souhlasí čísla v testovacím nástroji a v analytice.
  5. Zjistíte rozptyl pro citlivost testu (power). To vám pomůže při výpočtech délky následných A/B testů a minimálním detekovatelném efektu (MDE).

Více v samostatném článku o A/A testování.

Kdy to použít:

  • Před prvním A/B testem pro ověření správné implementace.
  • Průběžně pro nastavení minimálního detekovatelného efektu a intervalu pro sledované metriky.

A/B test

Testujete stávající verzi a jednu variantu. S ohledem na počet uživatelů a konverzí v ČR bude toto váš nejčastější test. Protože statisticky je efektivnější testovat více změn najednou spíše než jednotlivé změny postupně.

Když už jsme u efektivity, váš nejčastěji první test je barevnost tlačítka. A taky je téměř jisté, že tím nic nezlepšíte, pokud nemáte červené tlačítko na červeném podkladu.

Kdy to použít:

  • Testování jednoho prvku.
  • Testování více prvků najednou v jedné variantě.
  • Vždy, když na více variant nemáte dost konverzí.

A/B/n test

Tohle je vlastně varianta A/B testu, akorát kromě varianty A a B přidáte další. Většinou tímto testem zjišťujete optimální verzi jednoho prvku. Například fotky produktu, struktury stránky nebo hlavního nadpisu pro vstupní stránky.

Předpokladem tohoto testu je, že máte dostatek konverzí. A navíc musíte upravit míru statistické jistoty (korekce Šidákova, Bonferroniho, Dunnetova – tady jsou detaily ), protože čím více variant přidáte, tím víc si zvyšujete šanci, že zvolíte falešně pozitivní výsledek.

A tady tabulka, na jakou jistotu mířit při počtu variant:

Strategie-jistota

Kdy to použít:

  • Když chcete otestovat více varianty jednoho prvku…
  • a máte na to dost konverzí.

Multivariantní test

Na tohle zapomeňte. Jen pro forma – jedná se o test, kdy máte více variant více prvků. Takže například 3 typy obrázku, 2 typy nadpisu a 2 texty na tlačítku. Tohle si může dovolit tak Seznam.cz nebo možná Bazoš.cz.

Navíc si budete muset ohlídat, aby kombinace dávaly smysl. Aby se vám nestalo, že budete mít modrý text na modrém pozadí :). Lze to ošetřit Taguchiho metodou ap.

Kdy to použít:

  • Reálně? Nikdy.

Vícestránkový test

Tohle je test, který spouštíte na více různých stránkách. Důležité slovo je různých. Když testujete hlavičku na všech stránkách webu, stačí vám A/B test. Když testujte layout detailu produktu, je to A/B test.

Ale když testujete, zda fungují dárky k objednávce, tak musíte použít vícestránkový test. Zrovna mi jeden takový běží a je na následujících stránkách:

  1. výhody na homepage,
  2. předkošík,
  3. košík,
  4. souhrn objednávky,
  5. děkovačka a transakční e-maily.

Kdy to použít:

  • Když potřebujete různé změny na různých stránkách, třeba v jednotlivých krocích funnelu.

Personalizace

Personalizace je jen jiný termín pro cílení. Takže jde jen o to, jak daleko to chcete tlačit. Zda vám „stačí“ například typ zařízení, zdroj návštěvnosti nebo například předchozí chování přihlášeného uživatele.

Pozor ale na to, že každá personalizace je vlastně separátní varianta. A menší vzorek uživatelů.

Kdy to použít:

  • Když potřebujete ukázat různé věci různým lidem.

(Multi-arm) Bandit test

Před rokem jsem pomáhal jednomu z největších nakladatelství novin vybírat AB testovací nástroj. A jeden z hlavních požadavků byla nutnost bandit testů. O co jde?

Zjednodušeně řečeno ukazujete právě vyhrávající variantu více uživatelům. A v průběhu času nejlépe fungující varianta dostává více a více návštěv, až jich má 100 %.

Proč to dělat? Hlavně kvůli času. Často totiž testujete prvek nebo promo, které platí týdny. A tak nedává smysl strávit měsíc zjišťováním, která varianta je lepší, protože po měsíci už je to passé.

Typický příklad je nadpis aktuálního článku, promo akce pro Black Friday nebo třeba týden dopravy zdarma.

Variantou Bandit testu je evoluční algoritmus, ale to tu dávám jen pro forma.

Kdy to použít:

  • Když to, co testujete platí dny nebo týdny a chcete maximalizovat jednu variantu.

Různé URL adresy

Doteď jsme se bavili o testech jednoho či pár prvků. Ale dříve nebo později se dostanete do situace, kdy budete měnit tolik věcí najednou, že nedává smysl to injektovat pomocí AB testovacího nástroje. Protože to bude příliš dlouhé nebo to nepůjde vůbec.

V té chvíli je ideální udělat dvě samostatné stránky. Navíc to má tu výhodu, že to snadno uvidíte v analytice, jednoduše na to cílíte z PPC kampaní atp.

Doporučuji toto testovat tak, že budete porovnávat dvě varianty, na které obě přesměrujete. Takže takový A/A/B.

Kdy to použít:

  • Když jsou varianty stránky velmi odlišné a je tam hodně různých změn.

Existenční test

Zkusíte něco na webu schovat a zjistit, zda to má nějaký vliv na konverze. Tohle je jeden z mých oblíbených testů, protože tím jednoduše bořím představy o tom, co funguje. Tipy na to, co schovávat:

  • postranní bannery,
  • lišta s výhodami,
  • certifikace, Heureka widget,
  • novinky na homepage,
  • patička v objednávce.

Kdy to použít:

  • Když potřebujete zjistit, zda či jak moc daný prvek přispívá ke konverzi.

Falešné dveře

Programovat věc, kterou pak nikdo nepoužije, je ztráta času a peněz. Nejdříve chcete zjistit, zda je to danou věc zájem. Můžete zkusit dotazník, rozhovory, ale taky lze udělat tzv. falešné dveře. Je to přesnější a nepodléhá to kognitivním zkreslení.

Prostě ukažte web s grafikou funkce, aniž byste tu funkci programovali. Lze tím testovat poptávku po službě, napadá mě:

  • nová kategorie sortimentu,
  • nová značka či druh zboží,
  • dárkové balení,
  • prodloužená záruka,
  • sestavení zboží (IKEA),
  • livestream z fyzického obchodu,
  • doprava do 2 hodin.

Překvapivě to vadí cca 1–2 % lidí. Doporučuji tento test nechat běžet spíš jednotky dní.

Kdy to použít:

  • Když chcete otestovat zájem o novou službu či zboží.

Objevitelský test

Před testováním byste měli mít hypotézu opřenou o výzkum. Někdy ale potřebujete trochu rozšířit obzory a zkusit něco trochu „crazy“. Proponentem tohoto typu testování je Andrew Anderson, který říká: „Udělejte co nejvíce odlišné varianty. Ignorujte názory a řiďte se jen daty.“ Objevitelský test je vlastně taková kombinace A/B/n testu na různých URL adresách. Jen opět pozor na tu opravu statistické jistoty při vícero variantách.

Wider Funnel takto testoval porovnávač pojištění auta a vyhrála tato varianta.

Kdy to použít:

  • Když jste ustrnuli na mrtvém bodě a potřebujete radikálnější variantu.

Iterativní test (postupné zlepšování)

Málokdy se napoprvé trefíte do černého. A byť se to může zdát jako nuda, je důležité ten samý prvek testovat postupně a zlepšovat. A zlepšovat.

Hezkou případovou studii na to má již zmíněný Wider Funnel. Testovali banner pro porovnání autopojištění.

Původní banner:

Varianta s relevantnějším textem (+ 14 %):

Varianta s názvem státu, ve kterém se uživatel nachází (+3,9 %):

Počet Američanů vs počet Kaliforňanů (-5,4 %):

Crazy varianta se siluetou auta (+89,6 % proklik):

Kdy to použít:

  • Když hledáte optimální stav a dává smysl průběžně zlepšovat.

Non-inferiority test

Nejde o to, aby nová varianta byla lepší, ale stačí vám, aby nebyla horší. Zní to jako nesmysl, ale stává se to poměrně často. Většinou v situacích, kdy vám jde o ostatní metriky. Dám vám příklad z farmacie. Máte nový lék. A jeho výroba je oproti stávajícímu léku výrazně levnější. Takže vám jde o to, aby ten nový lék nebyl horší – to vám stačí. Protože hlavní je úspora nákladů.

My takto například testujeme patičku v košíku. V testu nám vyšlo, že redukovaná patička funguje stejně jako originál. A tak tam necháváme originál, protože je pro programátora jednodušší mít všude stejnou patičku.

Často tento typ testu používám, když za mnou přijde vedení firmy s geniálním nápadem, který vehementně prosazují. Ano, je v tom trochu politiky. A ano, ve chvíli, kdy jejich nápad není horší, tak ho nasazujeme. Napadá mě rčení o koze a vlku :).

Kdy to použít:

  • Když nám stačí, aby test nezhoršoval primární metriku (obrat, počet konverzí).

Test funkce a správného kódu

Tohle je čistě programátorská věc. Velké firmy často testují novou verzi kódu tím, že ji pustí na omezené publikum a porovnávají se současnou verzí. A zjišťují, zda na něco nezapomněli a zda vše běží, jak má. Ideálně lépe, ale znáte to :). Proto nespouštíme žádný test v pátek.

Kdy to použít:

  • Když si chcete být extra jistí, že nová verze kódu není horší než stávající.

B/A test a quaziexperimenty

Občas přijdete s křížkem po funuse, občas je tvorba varianty nebo nastavení testu tak složité, že to prostě pustíte do světa a uvidíte.

Nebo porovnáváte off-line – například zkrácení otevírací doby nebo pouštění hudby/vůně v obchodě.

Pak přichází na řadu porovnání před a po. Prostě vezmete stejný časový úsek před změnou a po změně, a spočítáte si AB test, jako by tyto verze běžely paralelně.

Je dobré si pohlídat sezónnost tím, že porovnáte před a po, a pak upravíte o meziroční nárůst (YoY).

Kdy to použít:

  • Když potřebujete otestovat věci v reálném světě.
  • Když už ke změně došlo a chcete zjistit efekt.
  • A když je nasazení testu příliš složité (třeba kompletní redesign).

Související články

Pexels-pixabay-277593

Vaše nápady jsou většinou příšerné

Laura-gariglio-kviuwtcw4ji-unsplash-donkey

Jste Buridanův osel?

Twins

A/A testování a Sample Ratio Mismatch

Threelines

Hamburger menu je zlo

Smysluplná debata