O que é Randomização?
Randomização é o processo de usar métodos aleatórios para atribuir sujeitos a grupos de tratamento. Em um teste A/B que normalmente seriam usuários (potenciais clientes) ou clientes. Se o tamanho do grupo alvo for igual, então através da randomização cada participante de um experimento tem uma probabilidade igual de ser atribuído a qualquer um dos grupos.
Neste sentido a randomização não é casual, mas simplesmente um processo cujos resultados não seguem um padrão determinístico, mas uma evolução descrita por uma distribuição de probabilidade. Assim, uma amostra aleatória de usuários dos visitantes do seu site refere-se a uma amostra onde cada indivíduo tem uma probabilidade conhecida de ser amostrado. Os usuários não foram arbitrariamente selecionados.
Randomização é uma parte chave de qualquer experimento controlado aleatoriamente, incluindo um experimento controlado online devido ao seu papel em assegurar a validade de qualquer cálculo estatístico (por exemplo, teste de significância realizado posteriormente devido ao fato de que muitos dos métodos estatísticos assumem que a randomização foi realizada e que quaisquer fatores indutores de erro estão dispersos aleatoriamente. Sua importância foi primeiramente enfatizada por Ronald Fisher que o introduziu como um método para controlar as causas desconhecidas de variação do parâmetro de interesse. Usando a randomização podemos produzir um modelo estatístico no qual a variável de resultado pode ser modelada como uma variável aleatória. Isto é devido ao fato de que qualquer variável de confusão desconhecida tem uma probabilidade igual de afetar qualquer grupo de teste (assumindo alocação igual).
Randomização também garante que a distribuição dos usuários entre grupos de teste é uma variável independente com relação à intervenção do teste: nenhum usuário ou grupo de usuários é preferível a ser atribuído a qualquer grupo em particular devido a características desejáveis ou indesejáveis (e.Por exemplo, localização, navegador, velocidade de conexão).
Note que mesmo que a randomização tenda a uma distribuição igual entre fatores com tamanhos de amostra maiores, ela não garante uma distribuição igual de todos os fatores relevantes (por exemplo, fonte de tráfego, localização, dispositivo, navegador). Uma distribuição igual não é um pré-requisito necessário para uma análise estatística válida, uma vez que a chance de uma distribuição desigual acontecer é levada em conta nas estatísticas resultantes.
O bloqueio aleatório pode ser empregado quando um ou mais fatores são conhecidos como causalmente ligados ao parâmetro de interesse, no entanto, dada a natureza contínua da coleta de dados em testes A/B, muitas vezes é difícil equilibrar os fatores na prática. Além disso, o bloqueio e a aleatorização pura também levam à mesma distribuição nos principais fatores dado o tamanho da amostra da maioria dos testes A/B online. Se for utilizado um desenho de bloco, então devem ser utilizados métodos apropriados, uma vez que um cálculo ingênuo do valor p que não leve em conta o bloqueio provavelmente subvalorizará significativamente o quão inesperado o resultado é.