Co je to Randomizace?
Randomizace je proces, při kterém se používají metody náhody k rozdělení subjektů do skupin. V A/B testu to obvykle budou uživatelé (potenciální klienti) nebo klienti. Pokud jsou velikosti cílových skupin stejné, pak má díky randomizaci každý účastník experimentu stejnou pravděpodobnost, že bude zařazen do některé ze skupin.
V tomto smyslu není randomizace náhodná, ale je to prostě proces, jehož výsledky se neřídí deterministickým vzorem, ale vývojem popsaným rozdělením pravděpodobnosti. Náhodný vzorek uživatelů z návštěvníků vašich webových stránek tedy označuje vzorek, u něhož má každý jedinec známou pravděpodobnost, že bude vybrán do vzorku. Uživatelé nebyli vybráni libovolně.
Náhodný výběr je klíčovou součástí každého náhodného řízeného experimentu včetně online řízeného experimentu vzhledem k jeho úloze při zajištění platnosti jakéhokoli statistického výpočtu (např. následně provedeného testu významnosti vzhledem k tomu, že mnoho statistických metod předpokládá, že byl proveden náhodný výběr a všechny faktory vyvolávající chybu jsou náhodně rozptýleny. Její význam poprvé zdůraznil Ronald Fisher, který ji zavedl jako metodu kontroly neznámých příčin variability sledovaného parametru. Pomocí randomizace můžeme vytvořit statistický model, v němž lze výslednou proměnnou modelovat jako náhodnou veličinu. Důvodem je skutečnost, že jakékoli neznámé matoucí proměnné mají stejnou pravděpodobnost, že ovlivní jakoukoli testovanou skupinu (za předpokladu rovnoměrného rozdělení).
Randomizace také zajišťuje, že rozdělení uživatelů mezi testované skupiny je nezávislou proměnnou s ohledem na testovací zásah: žádný uživatel nebo skupina uživatelů není přednostně zařazena do určité skupiny z důvodu žádoucích nebo nežádoucích vlastností (např.např. umístění, prohlížeč, rychlost připojení).
Všimněte si, že i když randomizace směřuje k rovnoměrnému rozdělení mezi faktory při větších velikostech vzorku, nezaručuje rovnoměrné rozdělení všech relevantních faktorů (např. zdroj provozu, umístění, zařízení, prohlížeč). Rovnoměrné rozdělení není nezbytným předpokladem pro platnou statistickou analýzu, protože šance, že dojde k nerovnoměrnému rozdělení, je ve výsledné statistice zohledněna.
Randomizované blokování lze použít, pokud je známo, že jeden nebo více faktorů má příčinnou souvislost se zájmovým parametrem, avšak vzhledem k průběžné povaze sběru dat při A/B testování je v praxi často obtížné faktory vyvážit. Také blokování a čistá randomizace vedou vzhledem k velikosti vzorku většiny online A/B testů ke stejnému rozložení hlavních faktorů. Pokud někdo použije blokový design, pak by měl použít vhodné metody, protože naivní výpočet p-hodnoty, který nebere v úvahu blokování, pravděpodobně výrazně podhodnotí, jak neočekávaný je výsledek.