Dimension de l\'échantillon

La dimension de l'échantillon de d'un échantillon statistique est le nombre d'observations qui le constituent. C'est le typiquement dénoté n , et est un nombre entier non négatif (nombre normal de ).

Typiquement, les différentes dimensions de l'échantillon mènent à la précision différente de la mesure. Ceci peut être vu dans des règles statistiques telles que la loi de des grands nombres et du théorème de limite centrale . Tout l'être d'autre égale, un plus grand n de dimension de l'échantillon mène à la précision accrue dans les évaluations de diverses propriétés de la population .

Un exemple typique serait quand un statisticien souhaite estimer la moyenne arithmétique d'une variable aléatoire continue (par exemple, la taille d'une personne). Supposant qu'ils ont un échantillon aléatoire du avec des observations indépendantes du , puis si la variabilité de la population (comme mesuré par le σ d'écart type ) est connue, puis l'erreur type du moyen d'échantillon est donnée par la formule : de de
\ sigma \ racine carrée {n}.

Il est facile de prouver que car le n devient grand, cette variabilité devient très petite. Ceci rapporte à des essais plus sensibles d'hypothèse de avec la puissance statistique de plus grand et les plus petits intervalles de confiance .

Avec des techniques d'échantillonnage plus compliquées, telles que le prélèvement stratifié , l'échantillon peut souvent être fractionné dans des sous-échantillons. Typiquement, s'il y a le k de tels sous-échantillons (de différentes strates de k ) puis chacune de elles aura un ni , le i de dimension de l'échantillon = 1, 2,…, le k . Ces le ni doit se conformer à la règle ce n 1 + n 2 +… + le k de du n = n (c. que toute la dimension de l'échantillon est indiqué par la somme des tailles de sous-échantillon). La sélection ces le ni de façon optimale peut être faite dans diverses manières, using (par exemple) l'attribution optimale de Neyman de .

D'autres exemples

Théorème de limite centrale

Le théorème de limite centrale est un résultat significatif qui dépend de la dimension de l'échantillon. Il déclare que pendant que la taille d'un échantillon d'observations indépendantes approche l'infini, si les données viennent d'une distribution avec le désaccord fini, que la distribution de prélèvement du moyen d'échantillon approche un de distribution normale.

Estimation des proportions

Un but statistique typique est de démontrer avec la certitude de 95% que la valeur vraie d'un paramètre est dans un B de distance de l'évaluation : Le B est une gamme d'erreur qui diminue avec l'augmentation de la dimension de l'échantillon ( n ). La valeur du B produit désigné sous le nom de l'intervalle de confiance de 95%.

Par exemple, une situation simple estime une proportion dans une population . Pour faire ainsi, un statisticien estimera les limites d'un intervalle de confiance de de 95% pour une proportion inconnue .

Le principe de base pour (un maximum ou un « conservateur ") le B pour une proportion dérive du fait l'estimateur d'une proportion , \ chapeau de p = X/n, (où le X est le nombre observations) « positives de » a la distribution binomiale d'a (mesuré) et est également une forme du moyen témoin (d'une distribution de Bernoulli qui a un désaccord maximum de 0.25 pour le p du paramètre = 0. Ainsi, le X / n de moyen d'échantillon a le maximum n du désaccord 0. Pour le suffisamment grand n (habituellement ceci signifie que nous devons avoir observé des réponses au moins 10 positifs et 10 négatifs), cette distribution sera étroitement rapprochée par un de distribution normale avec le mêmes moyen et désaccord.

Using cette approximation, il peut montrer que ~95% de la probabilité de cette distribution se trouve en dessous de 2 écarts type du moyen. Pour cette raison, un intervalle de la forme de

(\, de chapeau p -2 \ racine carrée {0.25/n} \ chapeau p +2 \ racine carrée {0.25/n}) = (\ chapeau p -, de B \ chapeau p+B)

formera un intervalle de confiance de 95% pour la proportion vraie.

Si nous exigeons du ε de l'erreur de prélèvement de n'être pas plus grand qu'un certain B attaché, nous pouvons résoudre l'équation de

\ varepsilon \ approximativement B=2 \ racine carrée {0.25/n} =1/\ racine carrée {n}

pour nous donner

1/\ varepsilon^2 \ approximativement 1/B^2=n

Ainsi, n de = B 100 <=> = 10%, n de = B 400 <=> = 5%, n = 1000 de <=> B = ~3%, et n de = B 10000 <=> = 1%. On voit ces nombres cités souvent dans des rapports de nouvelles des sondages d'opinion et d'autres enquêtes par échantillonnage

Prolongation à d'autres cas

Généralement si un moyen de la population est estimé using le moyen témoin des observations du n d'une distribution avec le ² de σ de désaccord, puis si le n est assez grand (typiquement >30) le théorème de limite centrale peut être appliqué pour obtenir un intervalle de confiance approximatif de 95% du de de forme (\ barre X -, de B \ barre X + B), B=2 \ sigma \ racine carrée {n}

Si le ε de l'erreur de prélèvement est exigé pour n'être pas plus grand que le lié B , comme ci-dessus, puis le 4 \ sigma^2/\ varepsilon^2 \ approximativement 4 \ sigma^2/B^2=n

Note, si le moyen est d'être prévu par using les paramètres du P qui doivent d'abord être estimés du même échantillon , puis pour préserver le suffisamment de " ; degrés de de liberté , " ; la taille de l'échantillon devrait être au moins   du n ; +  ; P .

Dimensions de l'échantillon Required pour des essais d'hypothèse

Les statisticiens d'un revêtement de problème commun calcule la dimension de l'échantillon priée pour rapporter une certaine puissance pour un essai, donnée un type prédéterminé α de de taux de l'erreur d'I. Un exemple typique pour ceci est comme suit :

Laisser le X i , le i = 1, 2,…, le n soit des observations indépendantes prises d'un de distribution normale avec le μ et le désaccord moyens σ2 . Considérons deux hypothèses, une hypothèse nulle :

H_0:\ mu=0

et une hypothèse alternative : = de H_ a:\mu de de

\ mu^*

pour une certaine « plus petite différence significative » μ* >0. C'est la plus petite valeur dont nous nous inquiétons d'observer une différence. Maintenant, si nous souhaitons (1) au H 0 de rejet avec une probabilité au moins de 1 β quand Le H a est vrai (c. une puissance de 1 β), et (2) le H 0 de rejet avec le α de probabilité quand le H 0 est vrai, alors nous avons besoin de ce qui suit :

Si le z α est le point supérieur de α du de distribution normale standard, puis

\ P. (\ barre X >z_ {\} d'alpha \ sigma \ racine carrée {n}|= de H_0 \ textes {vrais}) \ alpha

et ainsi

'rejet H 0 si notre échantillon moyenne ( \ barre x) est plus que z_ {\} d'alpha \ sigma \ racine carrée {n}

est une règle de décision qui satisfait (2). (La note, ceci est un 1 essai coupé la queue)

Maintenant nous souhaitons ceci nous produire avec une probabilité au moins 1 β quand Le H a est vrai. Dans ce cas-ci, notre moyenne d'échantillon viendra d'un de distribution normale avec μ* moyen. Par conséquent nous exigeons

\ P. (\ barre X >z_ {\} d'alpha \ sigma \ racine carrée {n}|H_a \) {vrai} des textes \ geq 1 \ bêta

Par la manipulation soigneuse, ceci peut être montré pour se produire quand de

n \ geq \ ^2 laissé (\ frac {\ Phi^ {- 1} (1 \ bêta) +z_ {\ alpha}} {\ MU \ sigma} \ droit)

là où le \ Phi est la fonction de répartition cumulative de normal .

Voir également

Conception de des expériences
Prélèvement de (statistiques)
Puissance statistique
Prélèvement stratifié

.

Random links:Arcade de zen | Montée subite pyroclastique | Clic dentaire | Adam Woodyatt | Langues de Kalenjin | Tamaño_de_muestra