Mit jelent a “randomizáció”?

Mi a randomizáció?

A randomizáció az a folyamat, amelynek során véletlenszerű módszereket alkalmaznak az alanyok kezelési csoportokhoz való hozzárendelésére. Egy A/B tesztben ez általában a felhasználók (potenciális ügyfelek) vagy az ügyfelek lennének. Ha a célcsoportok mérete egyenlő, akkor a randomizáció révén a kísérlet minden résztvevője egyenlő valószínűséggel kerül bármelyik csoportba.

A randomizáció ebben az értelemben nem véletlenszerű, hanem egyszerűen egy olyan folyamat, amelynek kimenetele nem egy determinisztikus mintát követ, hanem egy valószínűségi eloszlással leírt fejlődést. Így a weboldal látogatói közül a felhasználók véletlenszerű mintája olyan mintára utal, ahol minden egyes egyednek ismert valószínűsége van a mintavételre. A felhasználókat nem önkényesen választották ki.

A véletlenszerűség kulcsfontosságú része minden véletlenszerűen ellenőrzött kísérletnek, beleértve az online ellenőrzött kísérletet is, mivel szerepe van bármely statisztikai számítás érvényességének biztosításában (pl. az utólag elvégzett szignifikanciatesztben), mivel számos statisztikai módszer feltételezi, hogy a véletlenszerűség megtörtént, és minden hibát okozó tényező véletlenszerűen szóródik szét. Fontosságát először Ronald Fisher hangsúlyozta, aki a vizsgált paraméter variációjának ismeretlen okainak ellenőrzésére szolgáló módszerként vezette be. A randomizálás segítségével olyan statisztikai modellt állíthatunk elő, amelyben a kimeneti változó véletlen változóként modellezhető. Ez annak köszönhető, hogy minden ismeretlen zavaró változónak egyenlő valószínűséggel van hatása bármelyik vizsgálati csoportra (egyenlő allokációt feltételezve).

A véletlenszerűség azt is biztosítja, hogy a felhasználók vizsgálati csoportok közötti eloszlása a vizsgálati beavatkozástól független változó: egyetlen felhasználó vagy felhasználói csoport sem kerül előnyben valamelyik csoportba a kívánatos vagy nem kívánatos tulajdonságok miatt (pl.pl. hely, böngésző, kapcsolódási sebesség).

Megjegyzendő, hogy bár a randomizálás nagyobb mintanagyság esetén a tényezők közötti egyenlő eloszlás felé tendál, nem garantálja az összes releváns tényező (pl. forgalmi forrás, hely, eszköz, böngésző) egyenlő eloszlását. Az egyenlő eloszlás nem szükséges előfeltétele az érvényes statisztikai elemzésnek, mivel az egyenlőtlen eloszlás bekövetkezésének esélyét a kapott statisztikában figyelembe vesszük.

A véletlenszerű blokkolás akkor alkalmazható, ha egy vagy több tényezőről ismert, hogy ok-okozati kapcsolatban áll a vizsgált paraméterrel, azonban az A/B tesztelés során végzett adatgyűjtés folyamatos jellege miatt a gyakorlatban gyakran nehéz kiegyensúlyozni a tényezőket. Emellett a blokkolás és a tiszta randomizálás is ugyanahhoz az eloszláshoz vezet a főbb tényezők tekintetében, tekintettel a legtöbb online A/B tesztek mintaméretére. Ha valaki blokkolós dizájnt használ, akkor megfelelő módszereket kell alkalmazni, mivel egy naiv p-érték számítás, amely nem veszi figyelembe a blokkolást, valószínűleg jelentősen alulértékeli, hogy mennyire váratlan az eredmény.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.