Tests de Kolmogorov-Smirnov et de Kuiper de la variabilité temporelle – CSC

Test de Kolmogorov-Smirnov

Le test K-S est un test de qualité d’ajustement utilisé pour évaluer l’uniformité d’un ensemble de distributions de données. Il a été conçu en réponse aux lacunes du test du chi carré, qui ne produit des résultats précis que pour des distributions discrètes et binées. Le test K-S a l’avantage de ne faire aucune hypothèse sur la binaison des ensembles de données à comparer, ce qui supprime le caractère arbitraire et la perte d’information qui accompagnent le processus de sélection des binaisons.

En statistique, le test K-S est le test accepté pour mesurer les différences entre des ensembles de données continues (distributions de données non binées) qui sont fonction d’une seule variable. Cette mesure de différence, la statistique K-S \(D\), est définie comme la valeur maximale de la différence absolue entre deux fonctions de distribution cumulative. Le test K-S unilatéral est utilisé pour comparer un ensemble de données à une fonction de distribution cumulative connue, tandis que le test K-S bilatéral compare deux ensembles de données différents. Chaque ensemble de données donne une fonction de distribution cumulative différente, et son importance réside dans sa relation avec la distribution de probabilité dont est tiré l’ensemble de données : la fonction de distribution de probabilité pour une variable indépendante unique \(x\) est une fonction qui attribue une probabilité à chaque valeur de \(x\). La probabilité supposée par la valeur spécifique \(x_{i}\) est la valeur de la fonction de distribution de probabilité à \(x_{i}\) et est notée \(P(x_{i})\).La fonction de distribution cumulative est définie comme la fonction donnant la fraction de points de données à gauche d’une valeur donnée \(x_{i}\), \(P(x <x_{i})\) ; elle représente la probabilité que \(x\) soit inférieure ou égale à une valeur spécifique \(x_{i}\).

Ainsi, pour comparer deux fonctions de distribution cumulative différentes \(S_{N1}(x)\) et \(S_{N2}(x)\), la statistique K-S est

D = max|S_N1(x) – S_N2(x)|

où \(S_{N}(x)\) est la fonction de distribution cumulative de la distribution de probabilité dont est tiré un ensemble de données avec \(N\) événements. Si \(N\) événements ordonnés sont situés aux points de données \(x_{i}\), où \(i = 1, \ldots, N\), alors

S_N(x_i) = (i-N)/N

où le tableau de données \(x\) est trié par ordre croissant. Il s’agit d’une fonction échelon qui augmente de \(1/N\) à la valeur de chaque point de données ordonné.

Kirkman, T.W. (1996) Statististes à utiliser.
http://www.physics.csbsju.edu/stats/

Pour nos besoins, les deux distributions comparées sont la distribution mesurée des temps d’arrivée, et la fraction accumulée sur l’intervalle de temps écoulé. Si l’hypothèse nulle (pas de variabilité) se vérifie, nous obtenons 50% de vos événements dans 50% du temps écoulé, et la statistique \(D\) devrait se distribuer selon la distribution de Kolmogorov pour de nombreuses réalisations de la distribution des temps d’arrivée. La probabilité renvoyée par le test est donc \(p_{KS} = 1 – \alpha\), où \(\alpha\) est la probabilité (selon la distribution de Kolmogorov) que la valeur de \(D\) soit supérieure ou égale à la valeur mesurée. Une petite valeur de \(p_{KS}\) indique donc une cohérence avec l’hypothèse nulle, tandis qu’une grande valeur de \(p_{KS}\) indique que l’intervalle entre les événements n’est pas constant, et que l’on peut donc en déduire une variabilité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.