Parcelle de terrain de boîte

Dans les statistiques descriptives , un boxplot (également connu sous le nom de diagramme de boîte-et-favori de ou parcelle de terrain ou diagramme de chandelier de ) est une manière commode de dépeindre graphiquement des groupes de données numériques par leurs résumés (la plus petite observation de cinq-nombre de , quartile inférieur (Q1) de , médian, quartile supérieur (Q3) de , et plus grande observation). Un boxplot indique également que quelles observations, le cas échéant, pourraient être considérées les annexes le boxplot a été inventé en 1977 par le américain John Tukey de statisticien.

Boxplots peuvent montrer visuellement différents types de populations , sans fabrication d'aucune prétention de la distribution statistique fondamental. Les espacements entre les différentes parties de l'aide de boîte indiquent le désaccord , l'obliquité de et identifient des annexes de que Boxplots peut être dessiné horizontalement ou verticalement.

Construction

Pour un ensemble de données , on construit une parcelle de terrain horizontale de boîte de la façon suivante :
Calculer le premier quartile (x_ {.25} ) de , le médian (x_ {.50} ) et le troisième quartile (x_ {.75} ) de
Calculer la gamme interquartile (différence interquartile) de en soustrayant le premier quartile du troisième quartile.25} )
Construire une boîte au-dessus de la ligne de nombre liée du côté gauche par le premier quartile (x_ {.25} ) et du côté droit par le troisième quartile (x_ {. La boîte peut être aussi grande qu'on aime, bien que les boxplots raisonnablement proportionnés soient usuels.
Indiquer où la médiane se trouve à l'intérieur de la boîte avec la présence d'un symbole ou d'une ligne divisant la boîte à la valeur médiane.
La valeur moyenne des données peut également être marquée avec un point.
N'importe quelle observation de données qui se trouve davantage que le \ scriptstyle 1.5 \ cdot \ mathrm {différence interquartile} plus bas que le premier quartile ou le \ scriptstyle 1.5 \ cdot \ mathrm {différence interquartile} plus haut que le troisième quartile est considérée une annexe . Indiquer où la plus petite valeur qui n'est pas une annexe est par une marque ou un " tic verticale ; whisker" ; , et relier le favori dans la boîte par l'intermédiaire d'un trait horizontal. De même, indiquer où la plus grande valeur qui n'est pas une annexe est par un " ; whisker" ; , et relier ce favori dans la boîte par l'intermédiaire d'un autre trait horizontal.
Indiquer les annexes par les points ouverts et fermés. " ; Extreme" ; des annexes, ou ceux qui se trouvent plus de trois fois la différence interquartile aux left and right des premiers et troisième quartiles, respectivement, sont indiquées par la présence d'un point ouvert. " ; Mild" ; les annexes - c., ces observations qui se trouvent plus de 1.5 fois la différence interquartile du premier et troisième quartile mais ne sont pas également des annexes extrêmes sont indiquées par la présence d'un point fermé.
Ajouter une étiquette appropriée à la ligne de nombre et intituler le boxplot.
Un boxplot peut être construit d'une façon semblable verticalement par opposition à horizontalement en échangeant simplement le " ; bottom" ; pour le " ; left" ; et " ; top" ; pour le " ; right" ; dans la description ci-dessus.

Exemple

Une version de plain-text pourrait ressembler à ceci :

+-----+-+ o * |-------| + | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+ ligne de nombre 0 1 2 3 4 5 6 7 8 9 10

Pour cet ensemble de données :
la plus petite observation non- de l'annexe = 5 (" gauche ; whisker" ;)
abaisser (le premier) quartile (Q1, x_ {.25} ) = 7
médian (deuxième quartile) (Med, x_ {.5
(troisième) quartile supérieur (Q3, x_ {.75} ) = 9
la plus grande observation de non-annexe = 10
Gamme interquartile , \ mathrm {différence interquartile} de = Q3-Q1 = 2
la valeur 3.5 est un " ; mild" ; Annexe , entre le \ scriptstyle 1.5 \ cdot \ mathrm {différence interquartile} et le \ scriptstyle 3 \ cdot \ mathrm {différence interquartile} au-dessous de Q1
la valeur 0.5 est un " ; extreme" ; Annexe , plus de que le \ scriptstyle 3 \ cdot \ mathrm {différence interquartile} au-dessous de Q1
les données sont de travers par vers le gauche ( négativement de travers)

Les traits horizontaux (le " ; whiskers" ;) prolonger à tout au plus 1.5 fois la largeur de boîte (la gamme interquartile ) l'une ou l'autre ou des deux extrémités de la boîte. Elles doivent finir à une valeur observée, de ce fait reliant toutes les valeurs en dehors de la boîte qui ne sont pas plus de 1.5 fois la largeur de boîte à partir de la boîte. Trois fois la largeur de boîte délimite entre le " ; mild" ; et " ; extreme" ; annexes. Dans ce boxplot, " ; mild" ; et " ; extreme" ; des annexes sont différenciées par les points fermés et ouverts, respectivement.

Il y a des réalisations alternatives de ce détail de la parcelle de terrain de boîte dans divers progiciels, tels que les favoris se prolongeant tout au plus (ou à encore plus d'extrémité) de percentiles 5th et 95th. De telles approches ne se conforment pas à la définition du de Tukey de , à son emphase sur la médiane en particulier et les méthodes de comptage généralement et elles tendent à produire le " ; outliers" ; pour tous les ensembles de données plus en grande partie que dix, n'importe ce que la forme de la distribution.

Visualisation

Le boxplot est une approche graphique rapide pour examiner un ou plusieurs ensembles de données. Boxplots peut sembler plus primitif qu'un histogramme ou la fonction de densité de probabilité (pdf) mais ils ont quelques avantages. Sans compter que l'espace d'économie sur le papier, les boxplots sont plus rapides pour se produire à la main. Les histogrammes et les fonctions de densité de probabilité exigent des acceptations de la distribution statistique . Cette prétention peut être une barrière importante parce que les techniques binning peuvent fortement influencer l'histogramme et les calculs incorrects de désaccord affecteront fortement la fonction de densité de probabilité.

Puisque regarder une distribution statistique est plus intuitif que regardant un boxplot, comparer le boxplot contre la fonction de densité de probabilité (histogramme théorique) pour une distribution normale de N (0,1σ2) peut être un outil utile pour comprendre le boxplot (le schéma 2).

Voir également


analyse de données exploratoire

.

Random links:Alfonso VIII de la Castille | Monde animal | Liste d'organismes militaires fictifs | Jambon Nghi | Compartiment de lavande, Nouvelle-Galles du Sud | Diagrama_de_la_caja