Marge d\'erreur

La marge de de l'erreur est une statistique exprimant la quantité de l'erreur de prélèvement aléatoire en le résultats de s d'aperçu des '. Plus la marge de l'erreur est grande, moins la confiance une devrait avoir que le scrutin rapporté des résultats sont proche du " ; true" ; figures ; c'est-à-dire, les figures à la population entière .

Explication

La marge de l'erreur est habituellement définie comme rayon d'un intervalle de confiance pour une statistique particulière d'un aperçu. Un exemple est le pour cent de personnes qui préfèrent le produit A contre le produit B. Quand une marge d'erreur simple et globale est rapportée pour un aperçu, elle se rapporte à la marge de l'erreur maximum pour tous les pourcentages rapportés using le plein échantillon provenant de l'aperçu. Si la statistique est un pourcentage, cette marge d'erreur maximum peut être calculée comme rayon de l'intervalle de confiance pour un pourcentage rapporté de 50%.

La marge de l'erreur a été décrite comme " ; absolute" ; quantité, égale à un rayon d'intervalle de confiance pour la statistique. Par exemple, si la valeur vraie est 50 points, et la statistique a un rayon d'intervalle de confiance de 5 points, puis nous disons que la marge de l'erreur est 5 points. Comme un autre exemple, si la valeur vraie est 50 personnes, et statistique a un rayon d'intervalle de confiance de 5 personnes, puis nous pourrions dire que la marge de l'erreur est 5 personnes.

Dans certains cas, la marge de l'erreur n'est pas exprimée comme " ; absolute" ; quantité ; plutôt elle est exprimée comme " ; relative" ; quantité. Par exemple, supposer que la valeur vraie est 50 personnes, et la statistique a un rayon d'intervalle de confiance de 5 personnes. Si nous employons le " ; absolute" ; la définition, la marge de l'erreur serait 5 personnes. Si nous employons le " ; relative" ; définition, alors nous exprimons cette marge d'erreur absolue comme pour cent de la valeur vraie. Tellement dans ce cas-ci, la marge de l'erreur absolue est 5 personnes, mais le " ; pour cent de relative" ; la marge de l'erreur est 10% (parce que 5 personnes sont de dix pour cent de 50 personnes). Souvent, cependant, la distinction n'est pas explicitement faite, pourtant ressort habituellement du contexte.

Comme des intervalles de confiance, la marge de l'erreur peut être définie pour n'importe quel niveau de confiance désiré, mais habituellement un niveau de 90%, de 95% ou de 99% est choisi (en général 95%). Ce niveau est la probabilité qu'une marge d'erreur autour du pourcentage rapporté inclurait le " ; true" ; pourcentage. Avec le niveau de confiance, la conception d'échantillon pour un aperçu, et en particulier sa dimension de l'échantillon , détermine l'importance de la marge de l'erreur. Une plus grande dimension de l'échantillon produit une plus petite marge d'erreur, toute l'égale restante d'autre.

Si les intervalles de confiance exacts sont employés, alors la marge de l'erreur tient compte de l'erreur de prélèvement et de l'erreur non-sampling. Si un intervalle de confiance approximatif est employé (par exemple, en assumant la distribution est normal et puis modelant l'intervalle de confiance en conséquence), alors la marge de l'erreur peut seulement tenir compte de l'erreur de prélèvement aléatoire . Elle ne représente pas d'autres sources d'erreur potentielles ou le polarisé tel qu'un non-representative échantillon-conçoivent, les questions mal exprimées , les gens se trouvant ou refusant de répondre, l'exclusion des personnes qui ne pourraient pas être contactées, ou des erreurs de calcul et des erreurs de calcul.

Concept

Exemple courant

Un exemple courant de la campagne présidentielle des États-Unis du 2004 sera employé pour illustrer des concepts dans tout cet article. Selon le le 2 octobre , enquête du 2004 par le Newsweek , 47% de d'électeurs enregistrés voterait pour le John Kerry / John Edwards si l'élection étaient tenues ce jour, 45% voterait pour le George W. Bush / Dick Cheney , et 2% voterait pour le Ralph Nader / Peter Camejo . La taille de de l'échantillon était 1. Sauf indication contraire, le reste de cet article emploie un niveau de 95% de confiance.

Concept de base

Les scrutins impliquent typiquement de prélever un échantillon provenant d'une certaine population. Dans le cas du scrutin de Newsweek de , la population d'intérêt est la population des personnes qui voteront. Puisqu'il est impraticable de voter chacun qui votera, les sondeurs prélèvent de plus petits échantillons qui sont prévus pour être représentatifs ; c'est-à-dire, un échantillon aléatoire de la population. Il est possible que les sondeurs prélèvent 1.013 électeurs qui s'avèrent justement voter pour Bush quand en fait la population est également dédoublée entre Bush et Kerry, mais c'est extrêmement peu probable ( p = 2-1013 × 10-305 de ≈ 1.13923782) étant donné que l'échantillon est aléatoire.

La théorie de prélèvement de fournit des méthodes pour calculer la probabilité que les résultats de scrutin diffèrent de la réalité par plus qu'une certaine quantité, simplement devant chance ; par exemple, ce les rapports de scrutin 47% pour Kerry mais son appui est réellement aussi haut que 50%, ou est vraiment aussi bas que 44%. Cette théorie et quelques prétentions bayésiennes du suggèrent que le " ; true" ; le pourcentage sera probablement assez de près de 47%. Plus sont prélevées personnes, plus confiants les sondeurs peuvent être que le " ; true" ; le pourcentage est proche du pourcentage observé. La marge de l'erreur est une mesure de la façon dont étroit les résultats sont susceptibles d'être.

Cependant, la marge de l'erreur explique seulement l'erreur d'échantillonage aléatoire, ainsi elle est sans visibilité aux erreurs systématiques qui peuvent être présentées par la non réaction ou par des interactions entre l'aperçu et ont soumis la mémoire, la motivation, la communication et la connaissance.

Échantillonage aléatoire arrogant de calculs

Cette section discutera brièvement l'erreur type d'un pourcentage, l'intervalle de confiance correspondant , et relie ces deux concepts à la marge de l'erreur. Pour la simplicité, les calculs ici supposent que le scrutin a été basé sur un échantillon aléatoire simple d'une grande population.

L'erreur type d'un rapporté p de proportion ou de pourcentage mesure son exactitude, et est l'écart type prévu de ce pourcentage. Il peut estimer à partir juste du p et de la dimension de l'échantillon, le n , si le n est petit relativement à la taille de population, using la formule suivante : erreur type de

= \ racine carrée {\ frac {p (1-p)}{n}}

Quand l'échantillon n'est pas un échantillon aléatoire simple d'une grande population, l'erreur type et l'intervalle de confiance doivent être estimés par des calculs plus avancés. Dans la plupart des cas, le véritable intervalle de confiance est rapproché en assumant la distribution est normal, et inputing l'intervalle. Pour des répartitions normales, les rayons d'intervalle de confiance sont proportionnels à l'erreur type. Habituellement, la véritable erreur type est inconnue, ainsi l'erreur type d'une évaluation est calculée à partir des données d'échantillon.

Noter qu'il n'y a pas nécessairement un raccordement strict entre le véritable intervalle de confiance, et la véritable erreur type. Le véritable intervalle de confiance de p-pour cent est l'intervalle qui contient des pour cent de p de la distribution, et où (100-p) /2 pour cent de la distribution se trouve au-dessous de a, et (100-p) /2 pour cent de la distribution se trouve au-dessus de b. La véritable erreur type de la statistique est la racine carrée du véritable désaccord de prélèvement de la statistique. Ces deux ne peuvent être directement rapportés, bien que généralement pour les grandes distributions qui ressemblent aux courbes normales, il y a un rapport direct.

Dans le scrutin de Newsweek de , le niveau de Kerry du p de soutien = 0.6%) aide à donner un sens de l'exactitude du pourcentage prévu de Kerry (47%). Une interprétation bayésienne du de l'erreur type est que bien que nous ne connaissions pas le " ; true" ; pourcentage, il est fortement pour être situé dans les limites de deux erreurs types du pourcentage prévu (47%). L'erreur type peut être employée pour créer un intervalle de confiance dans lequel le " ; true" ; le pourcentage devrait être à un certain niveau de confiance.

Le prévu de pourcentage plus ou sans sa marge d'erreur est un intervalle de confiance pour le pourcentage. En d'autres termes, la marge de l'erreur est moitié de la largeur de l'intervalle de confiance. Il peut calculer comme multiple de l'erreur type, avec dépendre de facteur du niveau de la confiance désiré ; une marge d'une erreur type donne un intervalle de confiance de 68%, alors que l'évaluation plus ou sans 1.96 erreur type est un intervalle de confiance de 95%, et des courses d'un intervalle de confiance de 99% 2.58 erreurs types de chaque côté de l'évaluation.

Définition

La marge de l'erreur pour une statistique particulière d'intérêt est habituellement définie en tant que le rayon (ou moitié de la largeur) de l'intervalle de confiance pour cette statistique. Le terme peut également être employé pour signifier l'erreur de prélèvement en général. Dans des rapports de médias des résultats de scrutin, la limite se rapporte habituellement à la marge de l'erreur maximum pour n'importe quel pourcentage de ce scrutin.

Marge d'erreur maximum

La marge de l'erreur maximum pour n'importe quel pourcentage est le rayon de l'intervalle de confiance quand   du p ; =  ; 50%. En soi, il peut calculer directement à partir du nombre de répondants de scrutin. Pour la confiance de 95%, assumant un échantillon aléatoire simple d'une grande population : marge de

(maximum) des × 1.96 de l'erreur (95%) = ; \ racine carrée {\ frac {0.98} {\ racine carrée {n}}

Ce calcul donne une marge d'erreur de 3% pour le scrutin de Newsweek, qui a rapporté une marge d'erreur de 4%. La différence était probablement due à la pondération ou aux dispositifs complexes de la conception de prélèvement qui a exigé des calculs alternatifs pour l'erreur type. Il est également possible que Newsweek aient arrondi conservativement pour éviter d'exagérer la confiance de leurs résultats.

Différents niveaux de confiance

Pour un échantillon aléatoire simple d'une grande population, la marge de l'erreur maximum est une re-expression simple du n de dimension de l'échantillon. Les numérateurs de ces équations sont arrondis à deux décimales décimales.

marge de erreur à 99% confiance \ approximativement 1.29/\ racine carré {} de n \,

marge de erreur à 95% confiance \ approximativement 0.98/\ racine carré {} de n \,

marge de erreur à 90% confiance \ approximativement 0.82/\ racine carré {} de n \,

Si un article concernant un scrutin ne rapporte pas la marge de l'erreur, mais déclare qu'un échantillon aléatoire simple d'une certaine taille a été employé, la marge de l'erreur peut être calculée pour un degré de confiance désiré using une des formules ci-dessus. Également, si la marge de 95% de l'erreur est donnée, on peut trouver la marge de 99% de l'erreur en augmentant la marge de l'erreur rapportée environ de 30%.

Marges d'erreur maximum et spécifiques

Tandis que la marge de l'erreur typiquement rapportée dans les médias est une figure scrutin-large qui reflète la variation maximum de prélèvement de n'importe quel pourcentage basé sur tous les répondants de ce scrutin, la marge de de limite de l'erreur se rapporte également au rayon de l'intervalle de confiance pour une statistique particulière.

La marge de l'erreur pour un pourcentage individuel particulier sera habituellement plus petite que la marge de l'erreur maximum citée pour l'aperçu. Ce maximum s'applique seulement quand le pourcentage observé est 50%, et la marge de l'erreur se rétrécit pendant que le pourcentage approche les extrémités de 0% ou de 100%.

En d'autres termes, la marge de l'erreur maximum est le rayon d'un intervalle de confiance de 95% pour un pourcentage rapporté de 50%. Si le p s'éloigne de 50%, l'intervalle de confiance pour le p sera plus court. Ainsi, la marge de l'erreur maximum représente une limite supérieure à l'incertitude ; on est le au moins 95% certain que le " ; true" ; le pourcentage est dans la marge de l'erreur maximum d'un pourcentage rapporté pour n'importe quel pourcentage rapporté.

Effet de taille de population

Les formules ci-dessus pour la marge de l'erreur supposent qu'il y a une population infiniment grande et ne dépendent pas ainsi de la taille de la population d'intérêt. Selon la théorie de prélèvement de , cette prétention est raisonnable quand la fraction de prélèvement est petite. La marge de l'erreur pour une méthode de prélèvement particulière est essentiellement identique indépendamment de si la population d'intérêt est la taille d'une école, d'une ville, d'un état, ou d'un pays, tant que la fraction de prélèvement est moins de 10%.

Dans les cas où la fraction de prélèvement dépasse 10%, les analystes peuvent ajuster la marge de l'erreur using le " ; correction de population finie, " ; (FPC) pour expliquer la précision supplémentaire gagnée par fin de échantillonnage un plus grand pourcentage de la population. FPC peut être calculé using la formule : = de \ operatorname de

{FPC} \ racine carrée {\ frac {N-n} {N-1}}.

Pour s'ajuster à une grande fraction de prélèvement, le fpc factorisé dans sur le calcul de la marge d'erreur, qui a l'effet de rétrécir la marge de l'erreur. Elle soutient que le fpc approche zéro pendant que la dimension de l'échantillon ( n ) approche la taille de population ( N ), qui a l'effet d'éliminer la marge de l'erreur entièrement. Ceci semble raisonnable intuitif parce que quand le N = n , l'échantillon devient un recensement et erreur de prélèvement devient discutable.

Les analystes devraient être conscients qui l'échantillon restent vraiment tout aléatoire que la fraction de prélèvement se développe, de peur que l'échantillonnage de biais soit présenté.

D'autres statistiques

Des intervalles de confiance peuvent être calculés, et ainsi peuvent des marges d'erreur, pour une gamme des statistiques comprenant différents pourcentages, des différences entre les pourcentages, des moyennes, des médianes et des totaux.

La marge de l'erreur pour la différence entre deux pourcentages est plus grande que les marges de l'erreur pour chacun de ces pourcentages, et peut même être plus grande que la marge de l'erreur maximum pour n'importe quel pourcentage individuel de l'aperçu.

Comparer des pourcentages

Dans un système de vote de pluralité , il est important de savoir qui est en avant. Le " de limites ; tie" statistique ; et " ; heat" mort statistique ; sont parfois employés pour décrire les pourcentages rapportés qui diffèrent par moins qu'une marge d'erreur, mais ces limites peuvent être fallacieuses. Pour une chose, la marge de l'erreur en tant que généralement calculé s'applique à un pourcentage individuel de et pas à la différence entre les pourcentages, ainsi la différence entre deux évaluations de pourcentage peut ne pas être le statistiquement significatif même lorsqu'elles diffèrent par plus que la marge de l'erreur rapportée. Les résultats d'aperçu fournissent également souvent des informations fortes même lorsqu'il n'y a pas une différence statistiquement significative.

En comparant des pourcentages, il peut en conséquence être utile de considérer la probabilité qu'un pourcentage est plus haut que des autres. Dans des situations simples, cette probabilité peut être dérivée avec 1) le calcul d'erreur type présenté plus tôt, 2) la formule pour le désaccord de la différence de deux variables aléatoires et 3) une prétention que si n'importe qui ne choisit pas Kerry ils choisira Bush, et vice versa ; ils sont parfaitement négativement corrélés par que ceci peut ne pas être une prétention défendable quand il y a plus de deux réponses possibles de scrutin. Pour des conceptions d'aperçu plus complexes, différentes formules pour calculer l'erreur type de la différence doivent être employées.

L'erreur type de la différence du de pourcentages p pour Kerry et du q pour Bush, supposant qu'elles sont parfaitement négativement corrélées, suit : erreur type de

de la différence = du \ racine carrée {\ frac {p (1-p) +q (1-q) +2pq} {n}}.

Etant donné le &minus observé du p de différence de pourcentage ; le q (2% ou 0.02) et l'erreur type de la différence calculée ci-dessus (.03), n'importe quelle calculatrice statistique peuvent être employés pour calculer la probabilité qu'un échantillon provenant d'un de distribution normale avec le moyen 0.02 de et l'écart type 0.03 de est plus grand que 0.

L'application de ces calculs à l'exemple de Newsweek de a comme conséquence une probabilité de 75% que Kerry était " ; truly" ; conduite.

Random links:Caracal, Roumanie | Embeth Davidtz | Coesfeld | La paternelle, Buenos Aires | Surface procédurale | Margen_de_error