Qu’est-ce que la Randomisation?
La Randomisation est le processus qui consiste à utiliser des méthodes de hasard pour affecter des sujets à des groupes de traitement. Dans un test A/B, ce serait généralement les utilisateurs (clients potentiels) ou les clients. Si les tailles des groupes cibles sont égales alors, grâce à la randomisation, chaque participant à une expérience a une probabilité égale d’être affecté à l’un des groupes.
En ce sens, la randomisation n’est pas hasardeuse mais simplement un processus dont les résultats ne suivent pas un schéma déterministe, mais une évolution décrite par une distribution de probabilité. Ainsi, un échantillon aléatoire d’utilisateurs parmi les visiteurs de votre site Web fait référence à un échantillon où chaque individu a une probabilité connue d’être échantillonné. Les utilisateurs n’ont pas été sélectionnés de manière arbitraire.
La randomisation est un élément clé de toute expérience contrôlée aléatoire, y compris une expérience contrôlée en ligne, en raison de son rôle dans l’assurance de la validité de tout calcul statistique (par exemple, le test de signification effectué par la suite en raison du fait que de nombreuses méthodes statistiques supposent que la randomisation a été effectuée et que tout facteur induisant des erreurs est dispersé de manière aléatoire. Son importance a été soulignée pour la première fois par Ronald Fisher qui l’a présentée comme une méthode permettant de contrôler les causes inconnues de variation du paramètre d’intérêt. En utilisant la randomisation, nous pouvons produire un modèle statistique dans lequel la variable de résultat peut être modélisée comme une variable aléatoire. Cela est dû au fait que toutes les variables confusionnelles inconnues ont une probabilité égale d’affecter n’importe quel groupe de test (en supposant une répartition égale).
La randomisation garantit également que la distribution des utilisateurs parmi les groupes de test est une variable indépendante par rapport à l’intervention de test : aucun utilisateur ou groupe d’utilisateurs n’est préféré pour être assigné à un groupe particulier en raison de caractéristiques souhaitables ou indésirables (par ex.
Notez que même si la randomisation tend vers une distribution égale entre les facteurs avec des tailles d’échantillon plus importantes, elle ne garantit pas une distribution égale de tous les facteurs pertinents (par exemple, la source de trafic, l’emplacement, le dispositif, le navigateur). Une distribution égale n’est pas une condition préalable nécessaire pour une analyse statistique valide puisque la chance qu’une distribution inégale se produise est prise en compte dans les statistiques résultantes.
Le blocage randomisé peut être employé lorsqu’un ou plusieurs facteurs sont connus pour être liés de manière causale au paramètre d’intérêt, cependant, étant donné la nature continue de la collecte de données dans les tests A/B, il est souvent difficile d’équilibrer les facteurs dans la pratique. De plus, le blocage et la randomisation pure conduisent également à la même distribution des principaux facteurs étant donné la taille de l’échantillon de la plupart des tests A/B en ligne. Si l’on utilise un plan en blocs, il faut alors utiliser des méthodes appropriées, car un calcul naïf de la valeur p qui ne tient pas compte du blocage risque de sous-estimer considérablement le caractère inattendu du résultat.