Analyse de composants principaux

ontradict

L'analyse de composants principaux (PCA) de est une technique employée pour ramener les ensembles de données multidimensionnels aux dimensions inférieures pour l'analyse. Selon le champ de l'application, c'est également appelé le discret Karhunen-Loève de transforment , le Hotelling de transforment ou décomposition orthogonale appropriée (POD) de .

L'APC est la plupart du temps employé comme outil dans l'analyse de données exploratoire et pour faire les modèles prédictifs. L'APC implique le calcul de la décomposition de valeur propre de ou de la décomposition de valeur singulière de d'un ensemble de données, habituellement après le moyen centrant les données pour chaque attribut. Les résultats d'un APC sont habituellement discutés en termes de points composants et chargements.

Détails

L'APC est mathématiquement défini comme transformation linéaire orthogonal du qui transforme les données à un système du même rang de nouveau tels que le plus grand désaccord par n'importe quelle projection des données vient pour se trouver sur la première coordonnée (appelée le premier composant principal), le deuxième plus grand désaccord sur la deuxième coordonnée, et ainsi de suite. L'APC est théoriquement l'optimum transforment pour des données données en moindres termes du carré.

L'APC peut être employé pour la réduction de dimensionnalité de d'un ensemble de données en maintenant ces caractéristiques de l'ensemble de données qui contribuent les la plupart à son désaccord , en gardant les composants principaux de bas-ordre et en ignorant les évolués. De tels composants d'ordre réduit contiennent souvent le " ; la plupart d'important" ; aspects des données. Cependant, selon l'application ceci peut toujours ne pas être le cas.

Pour une matrice de données, le XT , avec le moyen empirique nul (le moyen empirique de la distribution a été soustrait de l'ensemble de données), où chaque rangée représente une répétition différente de l'expérience, et chaque colonne donne les résultats d'une sonde particulière, la transformation de l'APC est donné par :

\ mathbf {Y^T} = \ mathbf {X^T} \ mathbf {W}

= \ mathbf {} de V \ mathbf {\ sigma} là où le V Σ WT est la décomposition (svd) de valeur singulière de du XT .

En cet article nous adopterons l'autre convention, de sorte que chaque colonne de se compose des résultats pour un sujet différent, et chaque rangée de les résultats d'une sonde différente. Ceci signifiera que l'APC pour notre X de matrice de données sera donné par :

\ mathbf {Y} = \ mathbf {W} ^T \ mathbf {X}

= \ mathbf {\} de sigma \ mathbf {V^T} là où le W Σ VT est le svd du X .

L'APC a la distinction d'être la transformation linéaire optimal pour garder le sous-espace qui a le plus grand désaccord. Cet avantage, cependant, vient au prix d'une plus grande condition informatique si comparé, par exemple, au cosinus discret de transformer . À la différence de l'autre linéaire transforme, l'APC ne fait pas dépendre un ensemble fixe de vecteurs de base de ses vecteurs de base de l'ensemble de données.

Discussion

Le moyen empirique supposant nul (le moyen empirique de la distribution a été soustrait de l'ensemble de données), le W 1 de composant principal d'un X d'ensemble de données peut être défini comme : de

\ mathbf {W} _1 = \ arg \ max_ {\ Vert \ mathbf {} de W \ Vert = 1} \ operatorname {variété} \ {\ mathbf {W} ^T \ mathbf {} de x \} = \ arg \ max_ {\ Vert \ mathbf {} de W \ Vert = 1} E \ parti \ {\ laissé (\ ^T de mathbf {W} \ mathbf {x} \ droit) ^2 \ droit \} (Voir le Arg maximum pour la notation.) Avec le premier k - les composants 1, le composant de k-th peut être trouvé en soustrayant le premier k - composants 1 principaux du X : de \ _ de mathbf {\ chapeau {x}} {k - 1} = \ mathbf {x} - \ ^ de sum_ {I = 1} {k - 1} \ _i du mathbf {W} \ _i^T du mathbf {W} \ mathbf {x} et en substituant ceci comme nouvel ensemble de données pour trouver un composant principal dans le de \ _k du mathbf {W} = \ arg \ max_ {\ Vert \ mathbf {} de W \ Vert = 1} E \ parti \ { \ ^T laissé (\ mathbf {W} \ mathbf {\ chapeau {x}} _ {k - 1} \) ^2 \ droit droits \}.

Le Karhunen-Loève transforment est donc équivalent à trouver la décomposition de valeur singulière de du X de matrice de données,

\ mathbf {X} = \ mathbf {} de W \ mathbf {\ sigma} \ ^T du mathbf {V},

et alors obtenant le Y de matrice de données du réduire-espace en projetant le X vers le bas dans l'espace réduit défini par seulement le premier L vecteurs singuliers de , WL :

\ mathbf {Y} = \ mathbf {W_L} ^T \ mathbf {X} = \ mathbf {\} de Sigma_L \ mathbf {V_L} ^T

Le W de matrice des vecteurs singuliers du X est d'une manière equivalente le W de matrice des vecteurs propres de la matrice du observé C de covariances = X XT ,

\ mathbf {X} \ mathbf {X} ^T = \ mathbf {} de W \ mathbf {\ sigma} \ ^T de mathbf {\ sigma} \ mathbf {W} ^T

Les vecteurs propres avec les plus grandes valeurs propres correspondent aux dimensions qui ont la corrélation la plus forte dans l'ensemble de données (voir le quotient de Rayleigh de ).

L'APC est équivalent aux fonctions orthogonales empiriques (EOF) de .

Un réseau neurologique d'Autoencoder avec une couche cachée linéaire est également équivalent à l'APC. Sur la convergence, les vecteurs de poids des neurones du K dans la couche cachée formeront une base pour l'espace enjambé par les premiers composants principaux du K . À la différence de l'APC, cette technique ne produira pas nécessairement des vecteurs orthogonaux du .

L'APC est une technique populaire en la reconnaissance des structures . Mais il n'est pas optimisé pour la séparabilité de classe. Une alternative est l'analyse discriminante linéaire , qui tient compte de ceci. L'APC réduit au minimum de façon optimale l'erreur de reconstruction sous la norme du L2.

Tableau des symboles et des abréviations

Propriétés et limitations de l'APC

L'APC est théoriquement l'arrangement linéaire optimal, en termes de moindre erreur de moyenne carrée , pour comprimer un ensemble de vecteurs dimensionnels élevés en jeu de vecteurs dimensionnels inférieurs et puis reconstruire l'ensemble original. C'est une analyse non paramétrique et la réponse est unique et indépendante. La compression et la décompression de l'APC sont des opérations faciles à exécuter donné les paramètres modèles. Cependant, les dernières deux propriétés sont considérées comme la faiblesse aussi bien que la force, dans cela qui est non paramétrique, aucunes prétentions d'a-priori peuvent être incorporées et les compressions du cet APC encourent souvent la perte d'information.

Une fois utilisée pour grouper, la limitation principale de l'APC est qu'elle ne considère pas la séparabilité de classe puisqu'elle ne tient pas compte de l'étiquette de classe du vecteur de dispositif. L'APC effectue simplement une rotation du même rang qui aligne les haches transformées avec les directions du désaccord maximum. Il n'y a aucune garantie que les directions du désaccord maximum contiendront de bons dispositifs pour la discrimination.

Indépendamment de cela, il doit adresser que plusieurs prétentions ont été faites en cours d'atteindre le résultat de l'APC, de ce fait limitant l'application de l'APC. Ces prétentions peuvent être brièvement énumérées comme :
Prétention de

sur des linéarités

Nous avons assumé l'ensemble de données observé pour être des combinaisons linéaires de certaine base. Des méthodes non linéaires telles que l'APC de grain sont développées sans linéarités arrogantes.
Prétention de

que les composants principaux sont orthogonaux Nous avons supposé que les composants principaux sont le orthogonal les uns avec les autres. Des méthodes telles que l'analyse composante indépendante (AIC) de sont développées pour adresser cette limitation.
Prétention de

sur l'importance statistique du moyen et de la covariance

L'APC emploie les vecteurs propres de la matrice de la covariance et il trouve seulement les haches indépendantes des données dans la prétention gaussienne. Pour des données gaussiennes non gaussiennes ou multimodales, l'APC De-corrèle simplement les haches. Une fois utilisée pour grouper, la limitation principale de l'APC est qu'elle ne considère pas la séparabilité de classe puisqu'elle ne tient pas compte de l'étiquette de classe du vecteur de dispositif.
Prétention de

que les grands désaccords ont la dynamique importante

L'APC effectue simplement une rotation du même rang qui aligne les haches transformées avec les directions du désaccord maximum. Il est seulement quand nous croyons que les données observées ont un rapport élevé de Signal-Bruit, pouvons nous atteignons le résultat que les composants de principe avec un plus grand désaccord correspond à la dynamique intéressante et abaissons ceux correspond au bruit. Il n'y a aucune garantie que les directions du désaccord maximum contiendront de bons dispositifs pour la discrimination.

Essentiellement, l'APC a évolué seulement la rotation et la graduation. Les prétentions ci-dessus sont faites plutôt afin de simplifier le calcul algébrique sur l'ensemble de données. Quelques autres méthodes sont développées sans assumer un ou certains d'entre eux, et sont brièvement discutées dans le suivant.

Algorithme #1 : la méthode de covariance

Être suit une description détaillée de l'APC suivre la méthode de covariance. Le but est de transformer un donné X d'ensemble de données du M de dimension à un alternatif Y d'ensemble de données d'un plus petit L de dimension. D'une manière equivalente, nous cherchons à trouver le Y de matrice, où le Y est le Karhunen-Loeve transforment (KLT) du X de matrice :

\ mathbf {Y} = \ mathbb {} de KLT \ {\ mathbf {} de X \}

Organiser l'ensemble de données

Le supposent que vous ont des données comporter un ensemble des observations des variables du M , et vous voulez réduire les données de sorte que chaque observation puisse être décrite avec seulement le L variables de , le L < M . Supposer plus loin, cela que les données sont arrangées comme ensemble de de vecteurs de données du N \ de mathbf {x} _1 \ ldots \ mathbf {x} _N avec chaque _n de \ mathbf {x} représentant une observation groupée simple des variables du M .

écrivent le \ mathbf {x} _1 \ ldots \ mathbf {x} _N comme vecteurs de colonne, qui a des rangées du M .
Placer les vecteurs de colonne dans un simple X de matrice des × du M de dimensions ; N .

Calculer le moyen empirique

Trouver le moyen empirique le long de chaque m de dimension = 1… M .
Placer les valeurs moyennes calculées dans un moyen empirique u de vecteur des × du M de dimensions ; 1. u de

de
= {1 \ au-dessus de N} \ ^N X du sum_ {n=1}

Calculer les déviations du moyen

Soustraire le moyen empirique u de vecteur de chaque colonne du X de matrice de données.
Stocker les données signifier-soustraites dans les × du M ; B de matrice du N .


\ mathbf {B} = \ mathbf {X} - \ mathbf {} d'u \
de cdot \ mathbf {h} où le h est un 1 vecteur de rangée du N de x de chacun des 1 : h de

de
de
= 1 \, \ qquad \ qquad \ mathrm {pour \} n = 1 \ ldots N

Trouver la matrice de covariance

Trouver les × du M ; empirique de matrice de covariance du M C du produit externe du de matrice B avec lui-même : de
\ mathbf {C} = \ mathbb {E} \ parti \ mathbf {B} \ otimes \ mathbf {B} \ droit = \ mathbb {E} \ parti \ mathbf {B} \ cdot \ mathbf {B} ^ {*} \ droit = {1 \ au-dessus de N} \ mathbf {} de B \ le
^ de cdot \ mathbf {B} {*}
où le de \ mathbb {E} est l'opérateur de la valeur prévue , de
\ otimes est l'opérateur du produit externe , et * de de
\ est Le conjugé de transposent l'opérateur de . Noter cela si B consiste entièrement en vrais nombres, qui est le cas dans beaucoup d'applications, le " ; conjuguer le transpose" ; est le même que le régulier transposent .

notent svp que l'information dans cette section est en effet un peu brouillé. Voir les sections de matrice de covariance à la page de discussion pour plus d'information.

Trouver les vecteurs propres et les valeurs propres de la matrice de covariance

Calculer le V de matrice des vecteurs propres que le diagonalizes le C de matrice de covariance :


\ mathbf {V} ^ {- 1} \ = du mathbf {C} \ mathbf {V} \ mathbf {D}

où le D est la matrice diagonale des valeurs propres du C . Cette étape comportera typiquement l'utilisation d'un algorithme sur ordinateur pour calculer des vecteurs propres et des valeurs propres. Ces algorithmes sont facilement disponibles comme sous-composants de la plupart des systèmes de l'algèbre de Matrix , tels que le MATLAB , le Mathematica , le SciPy , ou le IDL (langage de programmation interactif ). Voir, par exemple, le GEI fonctionnent.
Le D de Matrix prendra la forme de × du M un ; Matrice diagonale du M , où de
D = \ lambda_m \ qquad \ mathrm {pour} \ qquad p = q = m le

est la valeur propre de Th du m du C de matrice de covariance, et


D = 0 \ qquad \ mathrm {pour} \ qquad p \

    • de Ne q. V de Matrix, aussi des × du M de dimension ; Le M , contient les vecteurs de colonne du M , chacun de M de longueur, qui représentent les vecteurs propres du M du C de matrice de covariance.
      Les valeurs propres et les vecteurs propres sont commandés et appareillés. La valeur propre de Th du m correspond au vecteur propre de Th du m .

    Réarranger les vecteurs propres et les valeurs propres

    Assortir les colonnes du V de matrice de vecteur propre et du de matrice de valeur propre D par ordre de diminuant la valeur propre de .
    Veiller à maintenir les pairings corrects entre les colonnes dans chaque matrice.
  • Calculer la teneur en énergie cumulative pour chaque vecteur propre

    Les valeurs propres représentent la distribution de l'énergie des données de base parmi chacun des vecteurs propres, où les vecteurs propres forment une base pour les données. Le cumulatif de teneur en énergie g pour le vecteur propre de Th du m est la somme de la teneur en énergie à travers tous les vecteurs propres de 1 traversant m :


    g = \ sum_ {q=1} ^m D \ qquad \ mathrm {pour} \ qquad p = q \ qquad \ mathrm {et} \ qquad m = 1… M

    Choisir un sous-ensemble des vecteurs propres comme vecteurs de base

    Sauver le premier L colonnes de du V comme × du M ; L W de matrice de :


    W = V \ qquad \ mathrm {pour} \ qquad p = 1… M \ qquad q = 1… L

    1 de de
    \
    L de leq \ leq M. Employer le g de vecteur comme guide en choisissant une valeur appropriée pour le L . Le but est de choisir aussi petit une valeur du L comme possible tout en réalisant raisonnablement des valeurs élevées du g sur une base de pourcentage. Par exemple, vous pouvez vouloir choisir le L de sorte que le cumulatif g d'énergie soit au-dessus d'un certain seuil, comme 90 pour cent. Dans ce cas-ci, choisir la plus petite valeur du L tels que de

    de
    g \ GE 90%

    Convertir les données de base en z-points

    Créer les × du M un ; 1 empirique de vecteur d'écart type s de la racine carrée de chaque élément le long de la diagonale principale du C de matrice de covariance : de
    \ mathbf {s} = \ {s \} = \ racine carré {} de C \ qquad \ mathrm {pour \} p = q = m =
    1 \ ldots M Calculer les × du M ; Matrice des z-points du N : de
    de \ mathbf {Z} = {\ mathbf {B} \ au-dessus de \ mathbf {} de s \ cdot \ mathbf {h}}
    (élément-par-élément de clivage) Note : Tandis que cette étape est utile pour différentes applications car elle normalise l'ensemble de données en ce qui concerne son désaccord, ce n'est pas partie intégrale de PCA/KLT !

    Projeter les z-points des données sur la nouvelle base

    Les vecteurs projetés sont les colonnes de la matrice


    \ mathbf {Y} = \ mathbf {W} ^* \ cdot \ mathbf {Z} = \ mathbb {KLT} \ {\ mathbf {} de X \}.

    • Les colonnes du Y de matrice représentent le Karhunen-Loeve transforme (KLT) des vecteurs de données dans les colonnes du X de matrice.

    Algorithme #2 : la méthode de corrélation

    ect-moignon la note de rédacteur de de : Cette section subit actuellement une révision importante. Voir l'histoire de page pour des révisions précédentes.

    Dérivation l'APC suivre la méthode de covariance

    Laisser le X être un d - vecteur aléatoire dimensionnel exprimé comme le vecteur de colonne. Sans perte de généralité, supposer que le X a le moyen empirique zéro. Nous voulons trouver un d \ un orthonormal P de la matrice de transformation des périodes d tels que de

    \ mathbf {Y} = \ ^ \ dessus \ mathbf du mathbf {P} {X}

    avec la contrainte cela le de

    \ operatorname {cov} (\ mathbf {Y}) est une matrice diagonale et ^ de \ mathbf {P} {- 1} = \ ^ du mathbf {P} \ top.

    Par la substitution, et l'algèbre de matrice, nous obtenons :

    \ commencer {la matrice} \ operatorname {cov} (\ mathbf {Y}) &=& \ mathbb {} d'E \ mathbf {Y} \ \ de ^ \ dessus du mathbf {Y} \ \ &=& \ ^ du mathbb {E} \ mathbf {P} \ dessus \ \ de ^ \ dessus du mathbf {X}) (\ ^ \ dessus \ mathbf de mathbf {P} {X}) \ \ \ de &=& \ mathbb {E} \ mathbf {X}) (\ ^ \ dessus \ mathbf de mathbf {X} {P}) \ \ ^ de &=& \ mathbf {P} \ dessus \ mathbb {E} \ \ de ^ \ dessus \ mathbf du mathbf {X} {P} \ \ &=& \ mathbf {P} ^ \ dessus \ operatorname {cov} (\) de mathbf {X} \ mathbf {P} \ extrémité {matrice}

    Nous avons maintenant :

    \ commencer {la matrice} \ &=& du mathbf {P} \ operatorname {cov} (\ mathbf {Y}) \ ^ du mathbf {P} \ mathbf {P} \ dessus \ operatorname {cov} (\ mathbf {X}) \ \ du mathbf {P} \ \ &=& \ operatorname {cov} (\ mathbf {X}) \ \ du mathbf {P} \ \ extrémité {matrice}

    Récrire le P comme d de d \ vecteurs colonne des périodes 1, ainsi de

    \ mathbf {P} = P_2, \ ldots, P_d

    et \ operatorname {cov} (\ mathbf {Y}) comme :

    \ commencer {le bmatrix} \ lambda_1 et \ cdots et 0 \ \ \ vdots et \ ddots et \ \ de vdots \ 0 et \ et de cdots \ lambda_d \ extrémité {bmatrix}.

    Substituant dans l'équation ci-dessus, nous obtenons : , du P_1 de

    \ lambda_2 P_2, \, de ldots \ lambda_d P_d = \ operatorname {cov} (X) P_2, \, de ldots \ operatorname {cov} (X) P_d].

    Noter que dans = de P_i de \ lambda_i \ operatorname {cov} (X) P_i, le P i est un vecteur propre X&prime ; matrice de covariance de s. Par conséquent, en trouvant les vecteurs propres du X&prime ; matrice de covariance de s, nous trouvons un P de matrice de projection qui satisfait les contraintes originales.

    La relation à K-signifie le groupement

    On lui a montré récemment que la solution relaxed du K-signifie de groupement, spécifique par les indicateurs de faisceau, sont donnés par les composants principaux de l'APC, et le sous-espace de l'APC enjambé par les principales directions est identique au sous-espace centroïde de faisceau spécifique par la matrice d'éparpillement de d'entre-classe.

    Analyse de correspondance

    L'analyse de correspondance de est conceptuellement semblable à l'APC, mais mesure les données (qui doivent être positives) de sorte que des rangées et les colonnes soient traitées d'une manière equivalente. Elle est traditionnellement appliquée aux tables d'éventualité où l'essai de la chi-place de Pearson de a montré un rapport entre les rangées et les colonnes.

    Logiciel/code source

    Bibliothèque de vision d'ordinateur
    Logiciel d'analyse multivariable de données
    dans le Matlab , le " de fonction ; princomp" ; donne le composant principal
    dans le statistique R , le " de paquet de source ouverte de fonction ; princomp" ; peut être employé pour l'analyse de composant principal.
    Dans le XLMiner , l'étiquette composante de principes peut être employée pour l'analyse de composant principal.
    SciLab

    .

    Random links:Joanot Martorell | 418 AVANT JÉSUS CHRIST | Pommes de terre du Bengale | Souris-Elmira | Kamloops (district électoral provincial) | Análisis_de_componentes_principales