Histogramme
Dans les statistiques , un histogramme est un affichage graphique des fréquences sous forme de tableaux . Un histogramme est la version graphique d'une table qui montre quelle proportion de cas tombent dans chacune de plusieurs ou de beaucoup de catégories spécifiques . L'histogramme diffère d'un histogramme parce que c'est le secteur la barre qui dénote la valeur, pas la taille, une distinction cruciale quand les catégories ne sont pas de largeur uniforme (Lancaster, 1974). Les catégories sont habituellement spécifiées en tant qu'intervalles non-recouverts d'une certaine variable. Les catégories (barres) doivent être adjacentes.
L'histogramme mot est dérivé du grec : les histos « quelque chose de ont placé le montant » (comme mâts d'un bateau, barre d'un manche, ou barres verticales d'un histogramme) ; gramma « schéma, disque, écriture » de . L'histogramme est l'un des sept outils de base du contrôle de qualité, qui incluent également le diagramme de Pareto de , la feuille de contrôle de , le diagramme de commande , le diagramme de cause et l'effet de , l'organigramme , et le diagramme d'éparpillement . Une généralisation de l'histogramme est des techniques douces du grain . Ceci construira une fonction de densité très douce de probabilité des données fournies.
Exemples
Comme exemple nous considérons des données rassemblées par le bureau du recensement des États-Unis à l'heure de voyager au travail (recensement 2000, tableau 5). Le recensement a constaté qu'il y avait 124 millions de personnes qui travaillent en dehors de leurs maisons. Les gens ont été demandés combien de temps il les prend pour obtenir de travailler, et leurs réponses ont été divisées en catégories : plus moins de 5 minutes, plus de 5 minutes et plus moins de 10, plus de 10 minutes et plus moins de 15, et ainsi de suite. Le ajourne des expositions de les nombres de personnes par catégorie dans les milliers, de sorte que 4.Les données dans les tables suivantes sont montrées graphiquement par des histogrammes. Un dispositif intéressant des deux diagrammes est la transitoire dans la catégorie de 30 minutes. Il semble probablement que c'est un objet façonné : une demi-heure est une unité commune de la mesure sans cérémonie de temps, ainsi les gens dont les temps de déplacement étaient peut-être un peu moins que, ou plus considérablement que 30 minutes pourraient être inclinées pour répondre au " ; minutes" 30 ;. Ce qui arrondit est un phénomène commun en rassemblant des données des personnes.
Activités et démonstrations
Les pages de ressource du SOCR contiennent un certain nombre d'activités interactives sur le tas démontrant le concept d'un histogramme , de la construction d'histogramme et de la manipulation using des Java applets et des diagrammes.
Définition mathématique
Dans un sens mathématique plus général, un histogramme est simplement un de cartographie qui compte le nombre d'observations qui tombent dans divers disjoignent des catégories (connues sous le nom de casiers de ), tandis que le graphique d'un histogramme est simplement à sens unique pour représenter un histogramme. Ainsi, si nous laissons être tout le nombre d'observations et soit tout le nombre de casiers, l'histogramme remplit les conditions suivantes :
Histogramme cumulatif
Un histogramme cumulatif est une cartographie cette des comptes le nombre cumulatif d'observations dans tous les casiers jusqu'au casier spécifique. C'est-à-dire, l'histogramme cumulatif d'un histogramme est défini comme :
Nombre de casiers et de largeur
Il n'y a aucun " ; best" ; le nombre de casiers, et les différentes tailles de casier peuvent indiquer différents dispositifs des données. Quelques théoriciens ont essayé de déterminer un nombre optimal de casiers, mais ces méthodes font généralement des prétentions fortes au sujet de la forme de la distribution. Vous devriez toujours expérimenter avec les largeurs de casier avant le choix d'un (ou de plus) qui illustrent les dispositifs saillants dans vos données.
Le nombre de casiers peut être calculé directement, ou à partir d'une largeur suggérée de casier : le Les croisillons indiquent la fonction de plafond de .
; La formule de Sturges : = de le quel base implicitement les tailles de casier sur la gamme des données, et peut exécuter mal si .
; Le choix de Scott : = de là où est la largeur commune de casier, et est l'écart type témoin.
; Choix de freedman-Diaconis': ce qui est basé sur la gamme interquartile
Données continues
L'idée d'un histogramme peut être généralisée aux données continues. Laisser le (voir l'espace de Lebesgue de ), puis l'opérateur cumulatif d'histogramme peut être défini par : avec seulement de façon finie beaucoup d'intervalles de la monotonie ceci peut être récrit comme