Analyse de composants principaux
ontradict
L'analyse de composants principaux (PCA) de est une technique employée pour ramener les ensembles de données multidimensionnels aux dimensions inférieures pour l'analyse. Selon le champ de l'application, c'est également appelé le discret Karhunen-Loève de transforment , le Hotelling de transforment ou décomposition orthogonale appropriée (POD) de .
L'APC est la plupart du temps employé comme outil dans l'analyse de données exploratoire et pour faire les modèles prédictifs. L'APC implique le calcul de la décomposition de valeur propre de ou de la décomposition de valeur singulière de d'un ensemble de données, habituellement après le moyen centrant les données pour chaque attribut. Les résultats d'un APC sont habituellement discutés en termes de points composants et chargements.
Détails
L'APC est mathématiquement défini comme transformation linéaire orthogonal du qui transforme les données à un système du même rang de nouveau tels que le plus grand désaccord par n'importe quelle
projection des données vient pour se trouver sur la première coordonnée (appelée le premier composant principal), le deuxième plus grand désaccord sur la deuxième coordonnée, et ainsi de suite. L'APC est théoriquement l'optimum transforment pour des données données en moindres termes du carré.
L'APC peut être employé pour la réduction de dimensionnalité de d'un ensemble de données en maintenant ces caractéristiques de l'ensemble de données qui contribuent les la plupart à son désaccord , en gardant les composants principaux de bas-ordre et en ignorant les évolués. De tels composants d'ordre réduit contiennent souvent le " ; la plupart d'important" ; aspects des données. Cependant, selon l'application ceci peut toujours ne pas être le cas.
Pour une matrice de données, le XT , avec le moyen empirique nul (le moyen empirique de la distribution a été soustrait de l'ensemble de données), où chaque rangée représente une répétition différente de l'expérience, et chaque colonne donne les résultats d'une sonde particulière, la transformation de l'APC est donné par :
là où le V Σ WT est la décomposition (svd) de valeur singulière de du XT .
En cet article nous adopterons l'autre convention, de sorte que chaque colonne de se compose des résultats pour un sujet différent, et chaque rangée de les résultats d'une sonde différente. Ceci signifiera que l'APC pour notre X de matrice de données sera donné par :
là où le W Σ VT est le svd du X .
L'APC a la distinction d'être la transformation linéaire optimal pour garder le sous-espace qui a le plus grand désaccord. Cet avantage, cependant, vient au prix d'une plus grande condition informatique si comparé, par exemple, au cosinus discret de transformer . À la différence de l'autre linéaire transforme, l'APC ne fait pas dépendre un ensemble fixe de vecteurs de base de ses vecteurs de base de l'ensemble de données.
Le moyen empirique supposant nul (le moyen empirique de la distribution a été soustrait de l'ensemble de données), le W 1 de composant principal d'un X d'ensemble de données peut être défini comme : (Voir le Arg maximum pour la notation.) Avec le premier , le composant de -th peut être trouvé en soustrayant le premier principaux du X : et en substituant ceci comme nouvel ensemble de données pour trouver un composant principal dans le
Le Karhunen-Loève transforment est donc équivalent à trouver la décomposition de valeur singulière de du X de matrice de données,
et alors obtenant le Y de matrice de données du réduire-espace en projetant le X vers le bas dans l'espace réduit défini par seulement le premier L vecteurs singuliers de , WL :
Le W de matrice des vecteurs singuliers du X est d'une manière equivalente le W de matrice des vecteurs propres de la matrice du observé C de covariances = X XT ,
Les vecteurs propres avec les plus grandes valeurs propres correspondent aux dimensions qui ont la corrélation la plus forte dans l'ensemble de données (voir le quotient de Rayleigh de ).
L'APC est équivalent aux fonctions orthogonales empiriques (EOF) de .
Un réseau neurologique d'Autoencoder avec une couche cachée linéaire est également équivalent à l'APC. Sur la convergence, les vecteurs de poids des neurones du K dans la couche cachée formeront une base pour l'espace enjambé par les premiers composants principaux du K . À la différence de l'APC, cette technique ne produira pas nécessairement des vecteurs orthogonaux du .
L'APC est une technique populaire en la reconnaissance des structures . Mais il n'est pas optimisé pour la séparabilité de classe. Une alternative est l'analyse discriminante linéaire , qui tient compte de ceci. L'APC réduit au minimum de façon optimale l'erreur de reconstruction sous la norme du L2.
Tableau des symboles et des abréviations
Propriétés et limitations de l'APC
L'APC est théoriquement
l'arrangement linéaire optimal, en termes de moindre erreur de moyenne carrée , pour comprimer un ensemble de vecteurs dimensionnels élevés en jeu de vecteurs dimensionnels inférieurs et puis reconstruire l'ensemble original. C'est une
analyse non paramétrique et la réponse est unique et indépendante. La
compression et la décompression de l'APC sont des opérations faciles à exécuter donné les paramètres modèles. Cependant, les dernières deux propriétés sont considérées comme la faiblesse
aussi bien que la force, dans cela qui est non paramétrique, aucunes prétentions d'a-priori peuvent être incorporées et les compressions du cet APC encourent souvent la perte d'information.
Une fois utilisée pour grouper, la limitation principale de l'APC est qu'elle ne considère pas la séparabilité de classe puisqu'elle ne tient pas compte de l'étiquette de classe du vecteur de dispositif. L'APC effectue simplement une rotation du même rang qui aligne les haches transformées avec les directions du désaccord maximum. Il n'y a aucune garantie que les directions du désaccord maximum contiendront de bons dispositifs pour la discrimination.
Indépendamment de cela, il doit adresser que plusieurs prétentions ont été faites en cours d'atteindre le résultat de l'APC, de ce fait limitant l'application de l'APC. Ces prétentions peuvent être brièvement énumérées comme :
Prétention de
sur des linéarités
Nous avons assumé l'ensemble de données observé pour être des combinaisons linéaires de certaine base. Des méthodes non linéaires telles que l'APC de grain sont développées sans linéarités arrogantes.
Prétention de
que les composants principaux sont orthogonaux Nous avons supposé que les composants principaux sont le orthogonal les uns avec les autres. Des méthodes telles que l'analyse composante indépendante (AIC) de sont développées pour adresser cette limitation.
Prétention de
sur l'importance statistique du moyen et de la covariance
L'APC emploie les vecteurs propres de la matrice de la covariance et il trouve seulement les haches indépendantes des données dans la prétention gaussienne. Pour des données gaussiennes non gaussiennes ou multimodales, l'APC De-corrèle simplement les haches. Une fois utilisée pour grouper, la limitation principale de l'APC est qu'elle ne considère pas la séparabilité de classe puisqu'elle ne tient pas compte de l'étiquette de classe du vecteur de dispositif.
Prétention de
que les grands désaccords ont la dynamique importante
L'APC effectue simplement une rotation du même rang qui aligne les haches transformées avec les directions du désaccord maximum. Il est seulement quand nous croyons que les données observées ont un rapport élevé de Signal-Bruit, pouvons nous atteignons le résultat que les composants de principe avec un plus grand désaccord correspond à la dynamique intéressante et abaissons ceux correspond au bruit. Il n'y a aucune garantie que les directions du désaccord maximum contiendront de bons dispositifs pour la discrimination.
Essentiellement, l'APC a évolué seulement la rotation et la graduation. Les prétentions ci-dessus sont faites plutôt afin de simplifier le calcul algébrique sur l'ensemble de données. Quelques autres méthodes sont développées sans assumer un ou certains d'entre eux, et sont brièvement discutées dans le suivant.
Algorithme #1 : la méthode de covariance
Être suit une
description détaillée de l'APC suivre la méthode de covariance.
Le but est de transformer un donné X d'ensemble de données du M de dimension à un alternatif Y d'ensemble de données d'un plus petit L de dimension. D'une manière equivalente, nous cherchons à trouver le Y de matrice, où le Y est le Karhunen-Loeve transforment (KLT) du X de matrice :
Organiser l'ensemble de données
Le supposent que vous ont des données comporter un ensemble des
observations des variables du M , et vous voulez réduire les données de sorte que chaque observation puisse être décrite avec seulement le L variables de , le L < M . Supposer plus loin, cela que les données sont arrangées
comme ensemble de
avec chaque _n de