Che cos’è la randomizzazione?
La randomizzazione è il processo di utilizzo di metodi casuali per assegnare i soggetti ai gruppi di trattamento. In un test A/B di solito sarebbero gli utenti (potenziali clienti) o i clienti. Se le dimensioni dei gruppi target sono uguali, allora attraverso la randomizzazione ogni partecipante a un esperimento ha una probabilità uguale di essere assegnato a uno qualsiasi dei gruppi.
In questo senso la randomizzazione non è casuale ma semplicemente un processo i cui risultati non seguono un modello deterministico, ma un’evoluzione descritta da una distribuzione di probabilità. Così, un campione casuale di utenti tra i visitatori del tuo sito web si riferisce a un campione in cui ogni individuo ha una probabilità nota di essere campionato. Gli utenti non sono stati selezionati arbitrariamente.
La randomizzazione è una parte fondamentale di qualsiasi esperimento controllato randomizzato, compreso un esperimento controllato online, a causa del suo ruolo nell’assicurare la validità di qualsiasi calcolo statistico (ad esempio il test di significatività eseguito in seguito, a causa del fatto che molti dei metodi statistici presuppongono che la randomizzazione sia stata eseguita e che qualsiasi fattore di errore sia disperso in modo casuale. La sua importanza fu sottolineata per la prima volta da Ronald Fisher che la introdusse come metodo per controllare le cause sconosciute di variazione del parametro di interesse. Usando la randomizzazione possiamo produrre un modello statistico in cui la variabile di risultato può essere modellata come una variabile casuale. Questo è dovuto al fatto che qualsiasi variabile sconosciuta di confondimento ha una probabilità uguale di influenzare qualsiasi gruppo di test (assumendo un’assegnazione uguale).
La randomizzazione assicura anche che la distribuzione degli utenti tra i gruppi di test sia una variabile indipendente rispetto all’intervento di test: nessun utente o gruppo di utenti è preferito ad essere assegnato ad un gruppo particolare a causa di caratteristiche desiderabili o indesiderabili (es.
Nota che anche se la randomizzazione tende a una distribuzione uguale tra i fattori con dimensioni del campione più grandi, non garantisce una distribuzione uguale di tutti i fattori rilevanti (ad esempio, fonte di traffico, posizione, dispositivo, browser). Una distribuzione uguale non è un prerequisito necessario per un’analisi statistica valida, poiché la possibilità che si verifichi una distribuzione disuguale viene presa in considerazione nelle statistiche risultanti.
Il blocco randomizzato può essere impiegato quando uno o più fattori sono noti per essere causalmente legati al parametro di interesse, tuttavia, data la natura continua della raccolta dei dati nei test A/B, è spesso difficile bilanciare i fattori nella pratica. Inoltre, il blocco e la randomizzazione pura portano alla stessa distribuzione sui fattori principali, data la dimensione del campione della maggior parte dei test A/B online. Se si utilizza un disegno a blocchi, è necessario utilizzare metodi appropriati, poiché un calcolo ingenuo del valore di p che non tiene conto del blocco probabilmente sottovaluterà significativamente quanto sia inaspettato il risultato.