Teste Kolmogorov-Smirnov e testes de variabilidade temporal de Kuiper – CSC

Kolmogorov-Smirnov Test

O teste K-S é um teste de ajuste de boa qualidade usado para avaliar a uniformidade de um conjunto de distribuições de dados. Ele foi projetado em resposta às falhas do teste de qui-quadrado, que produz resultados precisos apenas para distribuições discretas e de forma binária. O teste K-S tem a vantagem de não fazer nenhuma suposição sobre o descarte dos conjuntos de dados a serem comparados, removendo a natureza arbitrária e a perda de informação que acompanha o processo de seleção de posições no depósito.

Em estatística, o teste K-S é o teste aceito para medir as diferenças entre conjuntos de dados contínuos (distribuições de dados não encartados) que são uma função de uma única variável. Essa medida de diferença, a estatística K-S \(D\), é definida como o valor máximo da diferença absoluta entre duas funções de distribuição cumulativa. O teste K-S unilateral é usado para comparar um conjunto de dados com uma função de distribuição cumulativa conhecida, enquanto o teste K-S bilateral compara dois conjuntos de dados diferentes. Cada conjunto de dados dá uma função de distribuição cumulativa diferente, e seu significado reside em sua relação com a distribuição de probabilidade da qual o conjunto de dados é extraído: a função de distribuição de probabilidade para uma única variável independente (x) é uma função que atribui uma probabilidade a cada valor de x). A probabilidade assumida pelo valor específico \(x_{i}}) é o valor da função de distribuição de probabilidade em \(x_{i}) e é denotada em P(x_{i}).A função de distribuição cumulativa é definida como a função que dá a fração de pontos de dados à esquerda de um determinado valor \i(x_{i}), \i(P(x <x_{i}); ela representa a probabilidade de que \i(x) seja menor ou igual a um valor específico \i(x_{i}).

Assim, para comparar duas funções de distribuição cumulativa diferentes \(S_{N1}(x)\) e \(S_{N2}(x)\), a estatística K-S é

D = max|S_N1(x) – S_N2(x)|

onde \(S_{N}(x)\) é a função de distribuição cumulativa da distribuição de probabilidade da qual um conjunto de dados com eventos \(N\) é extraído. Se os eventos ordenados estão localizados em pontos de dados (x_{i}), onde \(i = 1, \ldots, N\), então

S_N(x_i) = (i-N)/N

onde a matriz de dados é ordenada em ordem crescente. Esta é uma função de passo que aumenta em \\(1/N\) no valor de cada ponto de dados ordenado.

Kirkman, T.W. (1996) Statistists to Use.
http://www.physics.csbsju.edu/stats/

Para nossos propósitos, as duas distribuições comparadas são a distribuição medida dos tempos de chegada, e a fração acumulada no intervalo de tempo decorrido. Se a hipótese nula (sem variabilidade) se mantém, obtemos 50% dos seus eventos em 50% do tempo passado, e a estatística \(D\) deve distribuir de acordo com a distribuição de Kolmogorov para muitas realizações da distribuição das horas de chegada. A probabilidade retornada pelo teste é assim (p_{KS} = 1 – alfa), onde (alfa) é a probabilidade (sob a distribuição de Kolmogorov) de que o valor de Kolmogorov é maior ou igual ao valor medido. Portanto, um valor pequeno de {KS} indica consistência com a hipótese nula, enquanto um valor grande de {KS} indica que o intervalo entre eventos não é constante, e portanto a variabilidade pode ser inferida.

Deixe uma resposta

O seu endereço de email não será publicado.