Corrélation

le

cet article est au sujet du coefficient de corrélation entre deux variables. Le de corrélation de la limite peut également signifier la corrélation croisée de deux fonctions ou de corrélation d'électron de dans les systèmes moléculaires.

Dans la théorie des probabilités et les statistiques , la corrélation , a également appelé le coefficient de corrélation de , indique la force et la direction d'un rapport linéaire entre deux variables aléatoires . En général l'utilisation, la corrélation de ou la Co-relation statistique se rapporte au départ de deux variables à l'indépendance. Dans ce large sens il y a plusieurs coefficients, mesurant le degré de corrélation, adapté à la nature des données.

Un certain nombre de différents coefficients sont employés pour différentes situations. Le plus connu est le coefficient de corrélation de produit-moment de Pearson , qui est obtenu en divisant la covariance des deux variables par le produit de leurs écarts type en dépit de son nom, il a été présenté la première fois par le Francis Galton .

Coefficient du produit-moment de Pearson

voient également :

du coefficient de corrélation de produit-moment de Pearson

Propriétés mathématiques

Le &rho de coefficient de corrélation ; X, Y de entre deux le X des variables aléatoires et le Y avec le &mu des valeurs prévues ; X et &mu de ; Y de et &sigma des écarts type ; X et &sigma de ; le Y de est défini comme : de

\ rho_ {X, Y} = {\ mathrm {cov} (X, Y) \ au-dessus de \ sigma_X \ sigma_Y} = {E ((x \ mu_X) (y \ mu_Y)) \ au-dessus de \ sigma_X \ sigma_Y}, là où le E est l'opérateur et le cov de la valeur prévue veut dire la covariance . Depuis le &mu ; X DE = E ( X ), &sigma ; X DE 2 = &NBSP D'E ( X 2) ; &minus ;   ; E2 ( X ) et de même pour le Y , nous pouvons également écrire = de \ rho_ de

{X, Y} \ frac {E (DE X/Y) - E (X) E (Y)} {\ racine carrée {E (X^2) - ~ E^2 (X)} \ racine carrée {E (Y^2) - E^2 (Y)}}.

La corrélation est définie seulement si tous les deux écarts type sont finis et les deux sont différents de zéro. C'est un corollaire de l'inégalité de Cauchy-Schwarz de que la corrélation ne peut pas dépasser 1 en valeur absolue .

La corrélation est 1 dans le cas d'un rapport linéaire croissant, &minus ; 1 dans le cas d'un rapport linéaire décroissant, et certains évaluent dans l'intervalle dans tous autres cas, indiquant le degré de la dépendance linéaire entre les variables. Plus le coefficient est à l'un ou l'autre &minus étroit ; 1 ou 1, plus la corrélation entre les variables est forte.

Si les variables sont le indépendant puis la corrélation est 0, mais l'inverse n'est pas vraie parce que le coefficient de corrélation détecte seulement des dépendances linéaires entre deux variables. Voici un exemple : Supposer que le X de variable aléatoire est uniformément distribué sur l'intervalle du &minus ; 1 à 1, et Y = X 2. Alors le Y est complètement déterminé par le X , de sorte que le X et le Y soient dépendants, mais leur corrélation est zéro ; ils sont le non-corrélatif. Cependant, dans le cas spécial quand le X et le Y sont le conjointement normal, l'uncorrelatedness est équivalent à l'indépendance.

Une corrélation entre deux variables est diluée en présence de l'erreur de mesure autour des évaluations une ou des deux variables, dans ce cas le Disattenuation fournit un coefficient plus précis.

La corrélation d'échantillon

Si nous avons une série de   du n ; mesures de   du X ; et   du Y ; écrit comme   du xi ; et   du yi ; là où le i = 1, 2,…, le n , alors le coefficient de corrélation de produit-moment de Pearson peut être employé pour estimer la corrélation du   du X ; et   du Y ;. Le coefficient de Pearson est également connu comme " ; coefficient" de corrélation d'échantillon ;. Le coefficient de corrélation de Pearson est alors la meilleure évaluation de la corrélation du   du X ; et   du Y ;. Le coefficient de corrélation de Pearson est écrit :

r_ {de x/y} = \ = de frac {\ somme x_iy_i-n \ barre {} de x \ barre {y}} {s_x (n-1) s_y} \ frac {x_i de x_iy_i- de n \ somme \ somme \ y_i de somme} {\ racine carrée {n \ somme x_i^2- (\ x_i de somme) ^2} ~ \ racine carrée {n \ somme y_i^2- (\ y_i de somme) ^2}}.

= {de x/y} de r_ \ frac {\ somme (x_i- \ barre {x}) (y_i- \ barre {y})}{s_x (n-1) s_y},

là où le \ barre {x} et \ barre {y} sont le témoin signifie de   du X ; et   du Y ; , X   de du s ; et y   de du s ; sont les écarts type témoin du   du X ; et   du Y ; et la somme est du i = 1 au n . Comme avec la corrélation de population, nous pouvons récrire ceci As

r_ {de x/y} = \ = de frac {\ somme x_iy_i-n \ barre {} de x \ barre {y}} {s_x (n-1) s_y} \ frac {x_i de x_iy_i- de n \ somme \ somme \ y_i de somme} {\ racine carrée {n \ somme x_i^2- (\ x_i de somme) ^2} ~ \ racine carrée {n \ somme y_i^2- (\ y_i de somme) ^2}}.

Encore, de même que vrai avec la corrélation de population, la valeur absolue de la corrélation d'échantillon doit être inférieur ou égal à 1. Cependant la formule ci-dessus suggère commodément un algorithme de passe simple pour des corrélations calculatrices d'échantillon, il est notoire pour son instabilité numérique (voir ci-dessous pour quelque chose plus précise).

La place du coefficient de corrélation d'échantillon, qui est également connu comme coefficient de de détermination , est la fraction du désaccord dans le   du yi ; cela est expliqué par un ajustement linéaire de   du xi ; au   du yi ;. Ceci est écrit r_ de

^2=1- {de x/y} \ frac {s_ {y|X} ^2} {s_y^2},

là où y de du s | X 2  ; est la place de l'erreur d'un linéaire du   du xi ; sur le   du yi ; par le de l'équation y = a + bx : s_ de

{y|X} ^2= \ frac {1} {n-1} \ ^n du sum_ {i=1} (y_i-a-bx_i) ^2,

et y 2  de du s ; est juste le désaccord du y :

s_y^2= \ frac {1} {n-1} \ ^n du sum_ {i=1} (y_i- \ barre {y}) ^2.

Noter cela puisque le coefficient de corrélation d'échantillon est symétrique dans le   du xi ; et   du yi ; , nous obtiendrons la même valeur pour un ajustement de   du yi ; au   du xi ; : r_ de

^2=1- {de x/y} \ frac {s_ {x|y} ^2} {s_x^2}.

Cette équation donne également une idée intuitive du coefficient de corrélation pour des dimensions plus élevées juste comme le coefficient de corrélation ci-dessus décrit d'échantillon est la fraction du désaccord expliquée par l'ajustement d'un submanifold linéaire à une dimension à un ensemble de vecteurs à deux dimensions (  de xi ; ,   du yi ;), ainsi nous pouvons définir un coefficient de corrélation pour un ajustement d'un m - submanifold linéaire dimensionnel à un ensemble de n - des vecteurs dimensionnels. Par exemple, si nous adaptions un plat z = a + bx +   de la CY ; à un ensemble de données (  de xi ; ,   du yi ; ,   du zi ;) puis le coefficient de corrélation de   du z ; au   du X ; et   du y ; est

r^2=1- \ frac {s_ {z|} ^2 de x/y} {s_z^2}.

La distribution du coefficient de corrélation a été examinée par le R.

Interprétation géométrique de corrélation

Le coefficient de corrélation peut également être regardé comme cosinus de l'angle entre les deux vecteurs des échantillons tirés des deux variables aléatoires.

Attention : Cette méthode fonctionne seulement < ! -- une fois donné --> avec des données centrées, c., données qui ont été décalées par le moyen d'échantillon afin d'avoir une moyenne de zéro. Quelques praticiens préfèrent un coefficient de corrélation (non-Pearson-conforme) uncentered. Voir l'exemple ci-dessous pour une comparaison.

Comme exemple, supposer que cinq pays s'avèrent pour avoir les produits nationaux bruts de 1, 2, 3, 5, et 8 milliards de dollars, respectivement. Supposer que ces mêmes cinq pays (dans le même ordre) s'avèrent avoir la pauvreté de 11%, de 12%, de 13%, de 15%, et de 18%. Laisser alors x et y être commandé 5 vecteurs d'élément contenant les données ci-dessus : x = (1, 2, 3, 5, 8) et y = (0.

Par la procédure habituelle pour trouver l'angle < ! -- &theta ; --> entre deux vecteurs (voir le produit scalaire ), le coefficient de corrélation de uncentered est :

< ! -- thêta de cos = (point de X Y)/ ||X|| ||Y|| = 2.93/racine carrée (103 * 0. -->

\ cos \ thêta = \ frac {\ "BOLD" {} de x \ cdot \ "BOLD" {y}} {\ est parti \| \ "BOLD" {x} \ droit \| \ est parti \| \ "BOLD" {y} \ droit \| } = \ frac {2.93} {\ racine carré {103} \ racine carrée {0.

Noter que les données ci-dessus ont été délibérément choisies pour être parfaitement corrélées : y = 0. Le coefficient de corrélation de Pearson doit donc être exactement un. Centrant les rendements des données (décalage x par E (x) = 3.042),

< ! -- thêta de cos = (point de X Y)/ ||X|| ||Y|| = 0.308/racine carrée (30. -->

\ cos \ thêta = \ frac {\ "BOLD" {} de x \ cdot \ "BOLD" {y}} {\ est parti \| \ "BOLD" {x} \ droit \| \ est parti \| \ "BOLD" {y} \ droit \| } = \ frac {0.308} {\ racine carré {30.8} \ racine carrée {0.00308}} = 1,

comme prévu.

Motivation pour la forme du coefficient de corrélation

Une autre motivation pour la corrélation vient d'inspecter la méthode de simple linéaire. Comme précédemment, X est le vecteur des variables indépendantes, x_i, et Y des variables dépendentes, de y_i, et d'un rapport linéaire simple entre X et Y est cherché, par une méthode des moindres carrés sur l'évaluation de Y : de \ Y = X \ bêta + \ varepsilon. \,

Puis, l'équation de la ligne des moindres carrés peut être dérivée pour être de la forme :

(- De Y \ barre {Y}) = \ frac {x_i de x_iy_i- de n \ somme \ somme \ y_i de somme} {n \ somme x_i^2- (\ x_i de somme) ^2} (- de X \ barre {X})

ce qui peut être réarrangé sous la forme :

(- De Y \ barre {Y}) = \ frac {r s_y} {s_x} (x \ barre {X})

là où r a la forme familière mentionnée ci-dessus : ~ de \ frac {x_i de x_iy_i- de n \ somme \ somme \ y_i de somme} {\ racine carrée {n \ somme x_i^2- (\ x_i de somme) ^2} \ racine carrée {n \ somme y_i^2- (\ y_i de somme) ^2}}.

Interprétation de la taille d'une corrélation

Coefficients de corrélation non paramétriques

Le coefficient de corrélation de Pearson est une statistique paramétrique et quand les distributions ne sont pas normales il peut être moins utile que des méthodes de corrélation non paramétriques du , telles que la Chi-place , la corrélation bisériale , le &rho de point de de l'homme armé d'une lance de ; et &tau de Kendall de ; . Ils sont un peu moins puissants que des méthodes paramétriques si les prétentions étant à la base de ce dernier sont rencontrées, mais sont moins pour donner des résultats tordus quand les prétentions échouent.

D'autres mesures de la dépendance parmi des variables aléatoires

Il vaut mieux d'il obtenir à une mesure pour des dépendances plus générales dans les données (aussi non linéaires) employer le rapport de corrélation de qui peut détecter presque n'importe quelle dépendance fonctionnelle, ou l'information réciproque /corrélation totale qui est capable de détecter des dépendances bien plus générales.

La corrélation polychorique est une autre corrélation appliquée aux données ordinales qui visent à estimer la corrélation entre les variables latentes théorisées.

Copule et corrélation

L'information fournie par un coefficient de corrélation n'est pas assez pour définir la structure de la dépendance entre les variables aléatoires ; pour la capturer entièrement nous devons considérer une copule entre elles. Le coefficient de corrélation définit complètement la structure de la dépendance seulement dans des cas très particuliers, par exemple quand les fonctions de répartition cumulatives sont les répartitions normales multivariables dans le cas des distributions elliptiques elle caractérise les ellipses (hyper-) de la densité égale, cependant, elle ne caractérise pas complètement la structure de la dépendance (par exemple, les degrés du t-distribution multivariable de liberté déterminent le niveau de la dépendance de queue).

Matrices de corrélation

La matrice de corrélation du X 1 de variables aléatoires du n ,…, le n de du X est le   du n ; × ;   ; matrice du n dont le i , entrée du j est le corr ( i ,   de de X ; j de du X ). Si les mesures de corrélation utilisées sont des coefficients de produit-moment, la matrice de corrélation est identique que la matrice de covariance du normalisé i /SD ( i de du X de variables aléatoires de de X ) pour le i = 1,   ; …,   ; n . En conséquence c'est nécessairement une matrice Positif-semi-définie .

La matrice de corrélation est symétrique parce que la corrélation entre X_i et X_j est identique que la corrélation entre X_j et X_i.

Enlever la corrélation

Il est toujours possible d'enlever la corrélation entre zéro-signifient que les variables aléatoires avec un linéaire transforment, même si le rapport entre les variables est non linéaire. Supposer qu'un vecteur des variables aléatoires du n est prélevé des temps du m . Laisser le X être une matrice où le X_ {I, j} est la variable de Th du j du i témoin. Laisser le Z_ {r, c} soit un r par la matrice du c avec chaque élément 1. Alors le D est les données a transformé ainsi chaque variable aléatoire a zéro moyen, et le T est les données a transformé ainsi toutes les variables ont le moyen zéro, le désaccord d'unité, et la corrélation nulle avec toutes autres variables. Les variables transformées seront non-corrélatives, quoiqu'elles puissent ne pas être le indépendant.

D = X T - \ de
Z_ du frac {1} {m} {m, m} X = D (D^T D)^ {- \ frac {1} {2}}

là où un exposant de -1/2 représente la racine carrée de Matrix de du inverse d'une matrice. La matrice de covariance du T sera la matrice d'identité. Si un nouveau X témoin de données est un vecteur de rangée des éléments du n , alors le même transforme peut être appliqué au X pour obtenir le transformé d de vecteurs et le t :

d = x t - \ de
Z_ du frac {1} {m} {1, m} X = d (D^T D)^ {- \ frac {1} {2}}.

Idées fausses communes au sujet de corrélation

Corrélation et causalité

La maxime conventionnelle qui " ; La corrélation de n'implique pas le " de la causation ; signifie que la corrélation ne peut pas être bien employée pour impliquer un rapport causal entre les variables. Cette maxime ne devrait pas être prise pour signifier que les corrélations ne peuvent pas indiquer des relations causales. Cependant, les causes étant à la base de la corrélation, le cas échéant, peuvent être indirectes et inconnues. En conséquence, l'établissement d'une corrélation entre deux variables n'est pas un état suffisant pour établir un rapport causal (dans l'une ou l'autre direction).

Voici un exemple simple : le temps chaud peut causer des achats de crime et de glace. Par conséquent le crime est corrélé avec des achats de glace. Mais le crime ne cause pas des achats de glace et les achats de glace ne causent pas le crime.

Une corrélation entre l'âge et la taille chez les enfants est assez causal transparente, mais une corrélation entre l'humeur et la santé dans les personnes est moins ainsi. L'humeur améliorée mène-t-elle à la santé améliorée ? Ou la bonne santé mène-t-elle à la bonne humeur ? Ou est-ce qu'autre facteur est à la base de tous les deux ? Ou est-ce coïncidence pure ? En d'autres termes, une corrélation peut être prise comme évidence pour un rapport causal possible, mais ne peut pas indiquer ce qu'être le rapport causal, le cas échéant, pourrait.

Corrélation et linéarités

Tandis que la corrélation de Pearson indique la force d'un rapport linéaire entre deux variables, sa seule valeur peut ne pas être suffisante pour évaluer ce rapport, particulièrement dans le cas où l'acceptation de la normalité est incorrecte.

L'image du côté droit montre le Scatterplots du quartet , un ensemble d'Anscombe de de quatre paires différentes de variables créées par le Francis Anscombe . Les quatre variables de y ont le même écart type (4.12), la corrélation (0.81) et la ligne de régression moyens (7.5) et (= 3 y + 0. Cependant, comme peut être vu sur les parcelles de terrain, la distribution des variables est très différente. Le premier (gauche supérieur) semble être distribué normalement, et correspond à ce qu'on compterait quand vu que deux variables corrélées et après l'acceptation de la normalité. Le second (droite supérieure) n'est pas distribué normalement ; tandis qu'on peut observer un rapport évident entre les deux variables, il n'est pas linéaire, et le coefficient de corrélation de Pearson n'est pas approprié. Dans le troisième cas (gauche inférieur), le rapport linéaire est parfait, excepté une annexe qui exerce assez d'influence pour abaisser le coefficient de corrélation de 1 à 0. En conclusion, le quatrième exemple (droite inférieure) montre un autre exemple quand une annexe est suffisante pour produire un coefficient de corrélation élevé, quoique le rapport entre les deux variables ne soit pas linéaire.

Ces exemples indiquent que le coefficient de corrélation, comme une statistique sommaire, ne peut pas remplacer l'examen individuel des données.

Corrélation de calcul exactement dans un passage simple

L'algorithme suivant (dans pseudo-code ) estimera la corrélation avec la bonne stabilité numérique

sum_sq_x = 0 = 0 sum_sq_y sum_coproduct = 0 mean_x = x mean_y = y pour I dans 2 à N : champ = (I - 1.0)/I delta_x = x - mean_x delta_y = y - mean_y delta_x du sum_sq_x += * delta_x * champ champ delta_y sum_sq_y de += * delta_y * delta_x du sum_coproduct += * delta_y * champ delta_x du mean_x +=/I += mean_y delta_y/I pop_sd_x = racine carrée (sum_sq_x/N) pop_sd_y = racine carrée (sum_sq_y/N) cov_x_y = sum_coproduct/N corrélation = cov_x_y/(pop_sd_x * pop_sd_y)

Pour assurer une expérience enlightening, examiner la corrélation de {900.000 + I pour i=1… 100} avec {900.000 - I pour i=1… 100}, peut-être avec quelques valeurs modifiées. Les algorithmes pauvres échoueront.

Une version légèrement modifiée du pseudocode est directement exécutable using le langage de programmation de python :

de la racine carrée d'importation de maths N = 100 X = gamme (900000000, 900000000+100) # 900000000, 900000001, 900000002… y = gamme (900000000, 900000000-100, -1) # 900000000, 899999999, 899999998. mean_x = x mean_y = y pour I dans la gamme (1, N) : champ = I/(I + 1.0) delta_x = x - mean_x delta_y = y - mean_y delta_x du sum_sq_x += * delta_x * champ champ delta_y sum_sq_y de += * delta_y * delta_x du sum_coproduct += * delta_y * champ delta_x du mean_x +=/(I + 1.0) += mean_y delta_y/(I + 1.0) pop_sd_x = racine carrée (sum_sq_x/N) pop_sd_y = racine carrée (sum_sq_y/N) cov_x_y = sum_coproduct/N corrélation = cov_x_y/(pop_sd_x * pop_sd_y) " d'impression ; La corrélation est : " ; + streptocoque (corrélation)

Voir également

style=" de

Autocorrélation
Corrélation croisée
Coefficient de de détermination
Fraction de du désaccord non expliqué
Le tau de Kendall
Coefficient de corrélation de produit-moment de Pearson
coefficient de corrélation Point-bisérial
Corrélation partielle
Coefficient de corrélation luxuriant de l'homme armé d'une lance
Arbitrage statistique
Corrélation de devise de

Notes et références

.
Random links:De langue italienne | Bataille de Monmouth | Twofish | Portmagee | Liste d'alliés de James Bond | Correlación