Vad är Randomisering?
Randomisering är en process där man använder sig av slumpmässiga metoder för att tilldela försökspersoner till behandlingsgrupper. I ett A/B-test är det vanligtvis användare (potentiella kunder) eller kunder. Om målgruppernas storlek är lika stor har varje deltagare i ett experiment genom randomisering lika stor sannolikhet att tilldelas någon av grupperna.
I denna mening är randomisering inte slumpmässig utan helt enkelt en process vars utfall inte följer ett deterministiskt mönster, utan en utveckling som beskrivs av en sannolikhetsfördelning. Ett slumpmässigt urval av användare från besökarna på din webbplats avser således ett urval där varje individ har en känd sannolikhet att ingå i urvalet. Användarna valdes inte godtyckligt ut.
Randomisering är en viktig del av varje slumpmässigt kontrollerat experiment, inklusive ett kontrollerat experiment på nätet, på grund av dess roll när det gäller att försäkra sig om giltigheten av alla statistiska beräkningar (t.ex. signifikanstest som utförs i efterhand) på grund av att många av de statistiska metoderna förutsätter att slumpmässigt urval har utförts och att alla felinducerande faktorer är slumpmässigt utspridda. Dess betydelse betonades först av Ronald Fisher, som introducerade den som en metod för att kontrollera de okända orsakerna till variation av den intressanta parametern. Med hjälp av randomisering kan vi ta fram en statistisk modell där utfallsvariabeln kan modelleras som en slumpvariabel. Detta beror på att alla okända förväxlingsvariabler har lika stor sannolikhet att påverka alla testgrupper (om man antar en jämn fördelning).
Randomisering säkerställer också att fördelningen av användarna mellan testgrupperna är en oberoende variabel med avseende på testinterventionen: ingen användare eller grupp av användare föredras att tilldelas en viss grupp på grund av önskvärda eller oönskade egenskaper (t.ex.t.ex. plats, webbläsare, anslutningshastighet).
Observera att även om randomisering tenderar att leda till en jämn fördelning mellan faktorer med större urvalsstorlekar garanterar den inte en jämn fördelning av alla relevanta faktorer (t.ex. trafikkälla, plats, enhet, webbläsare). En jämn fördelning är inte en nödvändig förutsättning för en giltig statistisk analys eftersom chansen att en ojämlik fördelning inträffar beaktas i den resulterande statistiken.
Randomiserad blockering kan användas när en eller flera faktorer är kända för att vara kausalt kopplade till den intressanta parametern, men med tanke på den kontinuerliga karaktären av datainsamling vid A/B-testning är det ofta svårt att balansera faktorerna i praktiken. Dessutom leder blockering och ren randomisering också till samma fördelning på viktiga faktorer med tanke på urvalsstorleken för de flesta online A/B-tester. Om man använder en blockdesign bör lämpliga metoder användas eftersom en naiv p-värdesberäkning som inte tar hänsyn till blockering sannolikt kommer att avsevärt undervärdera hur oväntat resultatet är.