Statistique d\'ordre

Dans les statistiques , la statistique d'ordre de de Th du k d'un échantillon statistique est égale à sa Th-petite valeur du k . En même temps que les statistiques de grade de les statistiques d'ordre sont parmi les outils les plus fondamentaux dans les statistiques non paramétriques et l'inférence .

Les cas spéciaux importants des statistiques d'ordre sont le minimum et valeur maximum du d'un échantillon, et (quelques qualifications étant discuté ci-dessous) l'échantillon médian de et d'autres quantiles d'échantillon de .

En employant la théorie des probabilités pour analyser des statistiques d'ordre des échantillons aléatoires d'une distribution continue , la fonction de répartition cumulative est employée pour ramener l'analyse au cas des statistiques d'ordre de la distribution uniforme .

Notation et exemples

Par exemple, supposer que quatre nombres sont observés ou enregistrés, ayant pour résultat un échantillon de la taille n=4. si les valeurs d'échantillon sont

6, 9, 3, 8, de

elles seront habituellement dénotées

x_1=6;\ \ x_2=9 ; \ \ x_3=3 ; \ \ x_4=8 \,

là où on suppose qu'habituellement le souscrit i dans x_i indique simplement l'ordre dans lequel les observations ont été enregistrées et n'est pas significatif. Un cas quand l'ordre est significatif est quand les observations font partie d'une série chronologique .

Les statistiques d'ordre seraient dénotées x_ de

{(1)} =3 ; \ \ x_ {(2)} =6 ; \ \ x_ {(3)} =8 ; \ \ x_ {(4)} =9 \,

là où l'indice inférieur ( i ) joint entre parenthèses indique la statistique d'ordre de Th du i de l'échantillon.

La première statistique d'ordre de (ou statistique de la commande de ) est toujours le minimum l'échantillon, c., = de X_ de

{(1)} \ minute \ {\, X_1, \ ldots, X_n \, \}

là où, suivant une convention commune, nous employons les lettres majuscules pour nous référer à des variables aléatoires, et à des lettres minuscules (comme ci-dessus) pour se rapporter à leurs valeurs observées réelles.

De même, pour un échantillon du n de taille, la statistique d'ordre de Th du n de (ou statistique d'ordre le plus important de ) est le maximum de , c., X_ de

{(n)} = \ maximum \ {\, X_1, \ ldots, X_n \, \}.

La gamme témoin de est la différence entre le maximum et le minimum. C'est clairement une fonction des statistiques d'ordre :

{\} gamme de rm \ {\, X_1, \ ldots, X_n \, \} = X_ {(n)} - X_ {(1)}.

Une statistique importante semblable dans l'analyse de données exploratoire qui est simplement liée aux statistiques d'ordre est la gamme interquartile témoin.

Échantillon les mai ou mai médians ne pas être une statistique d'ordre, puisqu'il y a une valeur moyenne simple seulement quand le nombre n d'observations est le impair. Plus avec précision, si n=2m+1 pour un certain m, alors la médiane d'échantillon est X_ {(m+1)} et ainsi est une statistique d'ordre. D'une part, quand n est le même , n=2m et là sont deux valeurs, X_ {(m)} et X_ moyens {(m+1)} , et la médiane d'échantillon est une certaine fonction des deux (habituellement la moyenne) et par conséquent pas une statistique d'ordre. Les remarques semblables s'appliquent à tous les quantiles d'échantillon.

Analyse probabiliste

Donné toutes les variables aléatoires le X_ {1}, X_ {2}, \ ldots, X_ {n} , le X_ de statistiques d'ordre {(1)}, X_ {(2)}, \ ldots, X_ {(n)} sont également des variables aléatoires, définies en assortissant les valeurs (réalisations ) du X_ {1}, X_ {2}, \ ldots, X_ {n} dans l'ordre croissant.

Quand le X_ de variables aléatoires {1}, X_ {2}, \ ldots, forme de X_ {n} un échantillon , ils sont indépendant et identiquement distribué (iid ). C'est la caisse traitée ci-dessous. Généralement le X_ de variables aléatoires {1}, X_ {2}, \ ldots, X_ {n} peut surgir par l'échantillonnage de plus d'une population. Alors ils sont le indépendant mais pas nécessairement identiquement distribué, et leur distribution de probabilité commune est donnée par le Bapat-Prient le théorème .

Dorénavant, nous supposerons que les variables aléatoires sont à l'étude le continu et, lorsque c'est possible nous supposera également qu'elles ont une densité (c'est-à-dire, elles sont le absolument continu). Les particularités de l'analyse des distributions assignant la masse aux points (en particulier, les répartitions discrètes sont discutées à l'extrémité.

Distribution de chaque statistique d'ordre d'une distribution absolument continue

Laisser le X_ {1}, X_ {2}, \ ldots, X_ {n} soit les variables aléatoires absolument sans interruption distribuées de l'iid et le X_ {(1)}, X_ {(2)}, \ ldots, X_ {(n)} soit les statistiques d'ordre correspondantes. Laisser le f (x) soit la fonction de densité de probabilité et F (x) soit la fonction de répartition cumulative du X_ {I} . Alors la densité de probabilité de la statistique du k th peut être trouvée comme suit.


\ commencer {aligner} f_ {X_ {(k)}} (x) et {} = {d \ au-dessus de dx} F_ {X_ {(k)}} (x)

{d \ au-dessus de dx} P \ parti (X_ {(k)} \ leq X \ droit) {d \ au-dessus de dx} P (\ mathrm {à} \ \ mathrm {moins} \ k \ \ mathrm {de} \ \ mathrm {} \ n \ \ de X \ mathrm {s} \ \ de mathrm {être} \ leq x) \

et {} = {d \ au-dessus de dx} P (\ geq k \ \ mathrm {succès} \ \ mathrm {dedans \} \ n \ mathrm {épreuves}) = {d \ au-dessus de dx} \ ^n de sum_ {j=k} {n \ choisissent j} P (X_1 \ x)^j de leq ((X_1 \ leq x)) \ de ^ 1-P {n-j} \ et {} = {d \ au-dessus de dx} \ ^n de sum_ {j=k} {n \ choisissent j} F (x)^j (\ de ^ 1-F (x)) {n-j} \ et {} = \ sum_ {j=k} ^n {n \} choisissent j \ à gauche (jF (x)^ {j-1} f (x) (^ 1-F (x)) {n-j} \ de +F (x)^j (n-j) (^ 1-F (x)) {n-j-1} (- f (x)) \ droit) \ et {} = \ ^n de sum_ {j=k} \ (n {n-1 \ choisissent j-1} F (x)^ {j-1} (^ 1-F (x)) {n-j} - n {n-1 \ choisissent j} F (x)^j (^ 1-F (x)) {n-j-1} \ droit) f laissé (x) \ \ et {} = N-F (x) \ est parti (\ ^ de sum_ {j=k-1} {n-1} {n-1 \ choisissent j} F (x)^j ((x)) ^ 1-F {(n-1) - j} - \ ^n de sum_ {j=k} {n-1 \ choisissent j} F (x)^j ((x)) ^ 1-F {(n-1) - j} \ droits) \ extrémité {aligner}

et la somme au-dessus des télescopes , de sorte que toute l'annulation de limites excepté le premier et le bout : de

{} = N-F (x) \ parti ({n-1 \ choisissent k-1} F (x)^ {k-1} ((x)) ^ 1-F {(n-1) - (k-1)} - \ underbrace -1 \ choisissent n} F (x)^n ((x)) ^ 1-F {(n-1) - n \) droit

et la limite au-dessus de l'underbrace est zéro, ainsi :

\ commencer {aligner} et {} = N-F (x) {n-1 \ choisissent k-1} F (x)^ {k-1} ((x)) ^ 1-F {(n-1) - (k-1)} \ \ et {} = {n ! \ plus de (k-1) ! (n-k) !} F (x)^ {k-1} (^ 1-F (x)) {n-k} f (x). \ extrémité {aligner}

Distributions de probabilité des statistiques d'ordre

Dans cette section nous prouvons que les statistiques d'ordre de la distribution uniforme sur l'intervalle unitaire ont des distributions marginales appartenir à la bêta famille du . Nous donnons également une méthode simple pour dériver la distribution commune de tout nombre de statistiques d'ordre, et traduisons finalement ces résultats aux distributions continues arbitraires using le cdf .

Nous supposons dans toute cette section que le X_ {1}, X_ {2}, \ ldots, X_ {n} est un échantillon aléatoire tirés d'une distribution continue avec le cdf F_X. Dénotant le U_i=F_X (X_i) nous obtenons l'échantillon aléatoire correspondant U_1, \ ldots, U_n de la distribution uniforme standard. Noter que les statistiques d'ordre satisfont également le =F_X de U_ {(i)} (X_ {(i)}) .

Les statistiques d'ordre de la distribution uniforme

La probabilité du U_ de statistique d'ordre {(k)} tombant dans l'intervalle est égale à de

{n ! \ plus de (k-1) ! (n-k) !}^ de l'u^ {k-1} (1-u) {n-k} du+O (du^2),

c'est-à-dire, la statistique d'ordre de Th du k de la distribution uniforme est une bêta variable aléatoire du .

U_ {(k)} \ sim B (k, n+1-k).

La preuve de ces rapports est comme suit. Afin du U_ {(k)} à être entre le u du u et du u +d, il est nécessaire qu'exactement les éléments du k -1 de l'échantillon soient plus petits que le u , et qu'au moins on est entre le u du u et du u +d. La probabilité que plus d'une est dans ce dernier intervalle est déjà O (du^2), ainsi nous doivent calculer la probabilité qui exactement le k -1, 1 et n - les observations du k tombent dans le d'intervalles (0, u), (u, u+du) et (u+du, 1) respectivement. Ceci égales (se référer à la distribution polynôme pour des détails) de

{n ! \ plus de (k-1) ! 1 ! (n-k) !}u^ {k-1} \ ^ du cdot du \ cdot (1-u-du) {n-k}

et le résultat suit.

Distributions communes

De même, pour le   du i ; <  ; j , la fonction de densité de probabilité commune deux du i   de du U de statistiques d'ordre ; <  ; Le j de du U peut être montré pour être f_ de

{U_ {(i)}, U_ {(j)}} (u, v) du \, dv= n ! {u^ {i-1} \ plus de (i-1) !}{^ (vu) {j-i-1} \ plus de (j-i-1) !}{^ (1-v) {} de n-j \ plus de (n-j) !}\, du \, dv

ce qui est (jusqu'aux limites d'évolué que O (du \, dv) ) la probabilité ce   du i ; &minus ;   ; 1, 1,   du j ; &minus ;   ; 1  ; &minus ;   ; i , 1 et   du n ; &minus ;   ; les éléments témoin du j tombent dans le d'intervalles (0, u), (u, u+du) , (u+du, v), (v, v+dv) , (v+dv, 1) respectivement.

On raisonne d'une manière entièrement analogue de dériver les distributions communes évoluées. Peut-être étonnant, la densité commune des statistiques d'ordre du n s'avère être le constant : f_ de

{U_ {(1)}, U_ {(2)}, \ ldots, U_ {(n)}} (u_ {1}, u_ {2}, \ ldots,) de l'u_ {n} \, du_1 \, \ cdots \, du_n = n ! \, du_1 \ cdots du_n.

L'one-way pour comprendre ceci est que l'échantillon non commandé a la densité constante égale à 1, et qu'il y a le n ! différentes permutations de l'échantillon correspondant au même ordre des statistiques d'ordre. Ceci est lié au fait ce 1 n ! est le volume de la région 0.

Application : intervalles de confiance pour des quantiles

Une question intéressante est à quel point les statistiques d'ordre exécutent comme estimateurs des quantiles de la distribution fondamentale.

Estimation de la médiane

Le cas le plus simple à considérer est à quel point les évaluations de médiane d'échantillon la médiane de population.

Un exemple de petit-échantillon-taille

Comme exemple, considérer un échantillon aléatoire de la taille 6. Dans ce cas, la médiane d'échantillon est habituellement définie comme point médian de l'intervalle délimité par les 3èmes et 4èmes statistiques d'ordre. Cependant, nous savons de la discussion précédente que la probabilité que cet intervalle contient réellement la médiane de population est

{6 \ choisissent 3} 2^ {- 6} = {5 \ plus de 16} \ approximativement 31 \ %.

Bien que la médiane d'échantillon soit parmi le meilleur point distribution-indépendant de estime probablement de la médiane de population, ce que cet exemple illustre est qu'il n'est pas particulièrement bon en termes absolus. Dans ce point de droit particulier, un meilleur intervalle de confiance pour la médiane est celui délimité par les 2èmes et 5èmes statistiques d'ordre, qui contient la médiane de population avec la probabilité

\ est parti 2} + {6 \ choisissent 3} + {6 \ choisissent 4} \ right2^ {- 6} = {25 \ plus de 32} \ approximativement 78 \ %.

Avec une si petite dimension de l'échantillon, si on veut au moins la confiance de 95%, une est réduite à dire que la médiane est entre le minimum et le maximum des 6 observations avec la probabilité 31/32 ou approximativement 97%. La taille 6 est, en fait, la plus petite dimension de l'échantillon tels que l'intervalle déterminé du minimum et du maximum est au moins un intervalle de confiance de 95% pour la médiane de population.

Si la distribution est connue pour être symétrique et pour avoir fini le désaccord (de même que la caisse pour le de distribution normale) le moyen de population égale la médiane, et le moyen d'échantillon a des intervalles de confiance bien meilleurs que la médiane d'échantillon. C'est une illustration de la faiblesse relative des méthodes statistiques distribuées gratuitement. D'une part, suivre des méthodes conçues en fonction la distribution fausse peut mener à de grandes erreurs systématiques dans l'évaluation.

Grandes dimensions de l'échantillon

Estimation des quantiles

Traiter des variables discrètes

Statistiques d'ordre de calcul

voient également :

l'algorithme de choix de

Le problème de calculer élément de Th du k le plus petit (ou le plus grand) d'une liste s'appelle le problème de choix et est résolu par un algorithme de choix de . Bien que ce problème soit difficile pour les listes très grandes, on a créé des algorithmes sophistiqués de choix qui peuvent résoudre ce problème à temps proportionnel au nombre d'éléments dans la liste, même si la liste est totalement non commandée. Si les données sont stockées en certaines structures de données spécialisées, cette fois peut être rapportée à O ( n de notation).

Voir également


quantile
médian
Rankit
Parcelle de terrain de boîte de
Distribution de Fisher-Tippett de
Le Bapat-Prient le théorème pour les statistiques d'ordre de l'indépendant mais des variables aléatoires pas nécessairement identiquement distribuées

.

Random links:Wendover, Utah | Plate-forme de tarot de Thoth | Bill Van Auken | X.121 | Estadística_de_orden