Multicollinearity

Le Multicollinearity est une limite statistique pour l'existence d'un niveau important de corrélation linéaire parmi des variables deux ou plus explicatifs dans une régression multiple modèlent. En présence du multicollinearity, il sera difficile d'évaluer l'effet des variables indépendantes sur la variable dépendente.

Définition

Le Collinearity se rapporte à un rapport linéaire entre les variables explicatives de du deux que les variables de deux sont situées sur la même droite s'il y a un rapport linéaire exact entre les deux. Par exemple, le X_ {1} et le X_ {2} sont situés sur la même droite si = de X_ de de

1} {\ lambda X_ {2}

Le Multicollinearity se rapporte à une situation dans laquelle des variables deux ou plus explicatifs dans un modèle de la régression multiple sont fortement corrélées. Nous avons le multicollinearity parfait si la corrélation entre deux variables indépendantes est égale à 1 ou à -1. Dans la pratique, nous faisons face rarement au multicollinearity parfait dans un ensemble de données. Généralement, la question du multicollinearity surgit quand il y a un niveau important de corrélation (positif ou négatif) entre des variables deux ou plus indépendants.

Mathématiquement, un ensemble de variables est situé sur la même droite si là existe un ou plusieurs rapports linéaires parmi les variables. Par exemple, nous pouvons avoir :

\ lambda_1 X_ {1i} + \ lambda_2 X_ {2i} + \ + de cdots \ lambda_k X_ {ki} = 0

là où le \ lambda_i sont les constantes et le X_i sont des variables explicatives. Nous pouvons explorer l'issue provoquée par multicollinearity en examinant les évaluations de paramètre pour les paramètres de l'équation de régression multiple : Y_ {I} de

= \ bêta _0 + \ bêta _1 X_ {1i} + \ cdots + \ bêta _k X_ {ki} + \ _ de varepsilon {I}

Les évaluations des moindres carrés ordinaires du impliquent d'inverser la matrice X^ {T} X de

là où le X de

= \ commencent {bmatrix}

1 et X_ {11} et \ cdots et \ de X_ {k1} \

\ vdots et \ vdots et et \ \ de vdots \

1 et X_ {N1} et \ cdots et X_ {kN}

\ extrémité {bmatrix}

S'il y a un rapport linéaire parmi les variables indépendantes, le grade de X est moins que k, et la matrice XTX ne sera pas inversible.

Dans la plupart des applications, le multicollinearity parfait est peu probable. Un analyste est pour faire face près du multicollinearity. Par exemple, supposer que vous ajoutez un v_i stochastique de de limite d'erreur à l'équation au-dessus de tels que

\ lambda_1 X_ {1i} + \ lambda_2 X_ {2i} + \ + de cdots \ lambda_k X_ {ki} + v_i = 0

Dans ce cas-ci, il n'y a aucun rapport linéaire exact parmi les variables, mais les variables de X_i de sont presque parfaitement corrélées. Dans ce cas-ci, la matrice XT X est inversible, mais est de mauvais tempérament.

Détection de multicollinearity

Indicateurs que le multicollinearity peut être présent dans un modèle :

1) Grands changements des coefficients prévus de la régression quand une variable de facteur prédictif est ajoutée ou supprimée

2) Coefficients de régression insignifiants pour les variables affectées dans la régression multiple, mais un rejet de l'hypothèse que ces coefficients sont insignifiants en tant que groupe (using un test F)

3) Grands changements des coefficients prévus de la régression quand une observation est ajoutée ou supprimée

Quelques auteurs ont proposé une détection-tolérance formelle ou le facteur d'inflation de variation (VIF) pour le multicollinearity : de

\ mathrm {tolérance} = 1-R^2, \ = de quadruple \ mathrm {VIF} \ frac {1} {\ mathrm {tolérance}}.

Une tolérance plus moins de 0.1 indique un problème de multicollinearity.

Conséquences de multicollinearity

En présence du multicollinearity, l'évaluation d'un impact de la variable sur y tandis que le contrôle pour les autres tend à être moins précis que si les facteurs prédictifs étaient non-corrélatifs entre eux. L'interprétation habituelle d'un coefficient de régression est qu'elle fournit une évaluation de l'effet d'un changement d'une unité d'une variable indépendante, X_ {1}, jugeant les autres variables constantes. Si X_ {1} est fortement corrélé avec une autre variable indépendante, X_ {2}, dans l'ensemble de données, alors nous donnés ont seulement des observations pour lesquelles X_ {1} et X_ {2} ont un rapport particulier (positif ou négatif). Nous n'avons pas des observations pour lesquelles les changements de X_ {1} indépendamment de X_ {2}, ainsi pour nous ont une évaluation imprécise de l'effet des changements indépendants de X_ {1}.

Dans un certain sens, les variables situées sur la même droite contiennent les mêmes informations sur la variable dépendente. Si nominalement " ; different" ; les mesures mesurent réellement le même phénomène alors qu'elles sont superflues. Alternativement, si les variables sont différents noms accordés et peut-être utilisent différentes balances numériques de mesure mais fortement sont corrélées les uns avec les autres, puis elles souffrir de la redondance.

Un des dispositifs du multicollinearity est que les erreurs types des coefficients affectés tendent à être grandes. Dans ce cas, l'essai de l'hypothèse que le coefficient est égal à zéro contre l'alternative qu'il n'est pas égal à zéro mène à un manque de rejeter l'hypothèse nulle. Cependant, si un linéaire simple de la variable dépendente sur cette variable explicative est estimé, le coefficient s'avérera significatif ; spécifiquement, l'analyste rejettera l'hypothèse que le coefficient est insignifiant. En présence du multicollinearity, un analyste pourrait faussement conclure qu'il n'y a aucun rapport linéaire entre une variable indépendante et dépendente.

Un danger principal d'une telle redondance de données est celui du Overfitting dans des modèles de l'analyse de régression . Les meilleurs modèles de régression sont ceux dans lesquels les variables de facteur prédictif chaque corrélation fortement avec la variable dépendante (de résultats) mais corrélation tout au plus seulement d'une façon minimum les uns avec les autres. Un tel modèle s'appelle souvent le " ; " à faible bruit ; et être statistiquement robuste (c'est-à-dire, il prévoira sûrement à travers de nombreux échantillons d'ensembles variables tirés de la même population statistique).

Voir l'inflation et l'orthogonalisation de désaccord de Multi-collinearity dans la régression par Dr.

Remède au multicollinearity

Le Multicollinearity a été également décrit comme micronumerosity (ou " ; trop peu de data" ;). Le Multicollinearity ne polarise pas réellement des résultats, il produit juste de grandes erreurs types dans les variables indépendantes relatives. Avec assez de données, ces erreurs seront réduites.

En outre, vous pouvez :

1) Laisser le modèle comme est, en dépit du multicollinearity. La présence du multicollinearity n'affecte pas le modèle adapté à condition que les variables de facteur prédictif suivent le même modèle du multicollinearity comme les données sur lesquelles le modèle de régression est basé.

2) Baisse une des variables. Une variable explicative peut être abandonnée pour produire un modèle avec des coefficients significatifs. Cependant, vous perdez l'information (parce que vous avez laissé tomber une variable). Omission de résultats variables appropriés dans des évaluations décentrées de coefficient pour les variables explicatives restantes.

3) Obtenir plus de données. C'est la solution preferred. Plus de données peuvent produire des évaluations plus précises de paramètre (avec des erreurs types inférieures).

Note : Le Multicollinearity n'effectue pas la fiabilité de la prévision, mais effectue plutôt l'interprétation des variables explicatives. Tant que les rapports situés sur la même droite dans vos variables indépendantes demeurent stables avec le temps, le multicollinearity n'affectera pas votre prévision. S'il y a raison de croire que les rapports situés sur la même droite ne demeurent pas stables avec le temps, il vaut mieux de considérer une technique comme la régression de Ridge.

Multicollinearity dans l'analyse de survie

Le Multicollinearity peut également représenter un problème grave dans l'analyse de survie de . Le problème est que les covariates variables dans le temps peuvent changer leur valeur au-dessus de la ligne de temps de l'étude. Un procédé spécial est recommandé pour évaluer l'impact du multicollinearity sur les résultats. Voir Van den Poel et le Larivière (2004) pour une discussion détaillée.

Random links:Banlieue noire d'accord, comté d'Erie, Pennsylvanie | Mlle Moneypenny | Liste d'étymologies de nom du comté des États-Unis, SZ | & de Sombras ; Figuras | Multicolinearidad