Machine de vecteur de soutien

Les machines de vecteur de soutien (SVMs) de sont un ensemble de relatif dirigé apprendre des méthodes de employées pour la classification et la régression . Elles appartiennent à une famille des classificateurs linéaires généralisés qu'elles peuvent également être considérées un cas spécial de la régularisation de Tikhonov de . Une propriété spéciale de SVMs est qu'elles réduisent au minimum simultanément l'erreur empirique de classification et maximisent la marge géométrique ; par conséquent elles sont également connues en tant que classificateurs maximum de marge de .

Soutenir les vecteurs d'entrée de carte de machines de vecteur à un espace dimensionnel plus élevé où un hyperplan de séparation maximal est construit. Deux hyperplans parallèles sont construits de chaque côté de l'hyperplan qui sépare les données. L'hyperplan de séparation est l'hyperplan qui maximise la distance entre les deux hyperplans parallèles. Une prétention est faite que plus la marge ou la distance entre ces est grande hyperplans parallèles plus l'erreur de généralisation du classificateur sera est meilleure. Un excellent cours d'instruction a été produit par C. Une comparaison du SVM à d'autres classificateurs a été faite par van der Walt et Barnard.

Motivation

Souvent nous sommes intéressés à classifier des données comme partie d'un processus de machine-étude. Chaque point de repères sera représenté par un vecteur de p-dimensional (une liste de nombres de p). Chacun de ces points de repères appartient seulement à un de deux classes. Nous sommes intéressés dedans si nous pouvons les séparer avec un " ; p sans 1" ; hyperplan dimensionnel . C'est une forme typique du classificateur linéaire . Il y a beaucoup de classificateurs linéaires qui pourraient satisfaire cette propriété. Cependant, nous sommes en plus intéressés à découvrir si nous pouvons réaliser la séparation maximum (marge ) entre les deux classes. Par ceci nous voulons dire que nous sélectionnons l'hyperplan de sorte que la distance de l'hyperplan au point de repères le plus proche soit maximisée. C'est-à-dire que la distance la plus proche entre un point dans un hyperplan de séparé par et un point dans l'autre hyperplan de séparé par est maximisée. Maintenant, si un tel hyperplan existe, elle est clairement d'intérêt et est connue comme hyperplan de Maximum-marge de et un classificateur si linéaire est connu comme classificateur maximum de la marge .

Formalisation

Nous considérons des points de repères de la forme :

\ {(\ mathbf {x} _1, c_1), (\ mathbf {x} _2, c_2), \ ldots, (\ _n de mathbf {x},) de c_n \} là où le i de du c est 1 ou &minus ; 1, une constante dénotant la classe à laquelle le _i de \ mathbf de point {x} appartient. Chaque _i de \ mathbf {x} est de p-dimensional un vrai vecteur du , habituellement de normaliser ( normalisant constant) ou des valeurs. Il est importante garder la graduation contre des variables (attributs) avec un plus grand désaccord qui pourrait autrement dominer la classification. Nous pouvons regarder ceci en tant que données de formation de , qui dénotent la classification correcte que nous voudrions que le SVM distingue par la suite, au moyen de l'hyperplan de division (ou séparant), qui prend la forme

\ mathbf {} de W \ cdot \ mathbf {x} - b=0. Le de vecteur \ mathbf {W} indique la perpendiculaire l'hyperplan de séparation. Ajouter le b de paramètre d'excentrage nous permet d'augmenter la marge. En son absence, l'hyperplan est forcé pour passer par l'origine, limitant la solution.

Pendant que nous sommes intéressés par la marge maximum, nous sommes intéressés par les vecteurs de soutien et les hyperplans parallèles (à l'hyperplan optimal) le plus étroitement à ces vecteurs de soutien dans l'une ou l'autre classe. Ce peut être shown< ! -- fera ceci plus tard--> qui ces parallèle hyperplan peut être décrit par équation (en mesurant W et b sinon)

\ mathbf {W} \ cdot \ mathbf {x} - b=1,
\ mathbf {} de W \ cdot \ mathbf {x} - b=-1. Si les données de formation sont le linéairement séparable, nous pouvons choisir ces hyperplans de sorte qu'il n'y ait aucun point entre eux et puis essayer de maximiser leur distance. En employant la géométrie, nous trouvons que la distance entre les hyperplans est 2| W de |, ainsi nous voulons réduire au minimum | W de |. Pour exclure repère point, nous ont besoin pour s'assurer que pour tout i l'un ou l'autre

\ mathbf {W} \ cdot \ mathbf {x_i} - b \ GE 1 \ qquad \ mathrm {ou}
\ mathbf {} de W \ cdot \ mathbf {x_i} - b \ le -1 \ qquad \ mathrm {} Ceci peut être récrit comme :

c_i (\ mathbf {} de W \ cdot \ mathbf {x_i} -, de b) \ GE 1 \ quadruple 1 \ le i \ le n. \ qquad \ qquad (1)

Forme principale

Le problème est maintenant de réduire au minimum | W de | sujet à la contrainte (1). C'est un problème de l'optimisation de la programmation quadratique (QP) de . Plus clair, le réduisent au minimum le \ frac {1} {2}||\ mathbf {W}||^2, sujet à c_i (\ mathbf {} de W \ cdot \ mathbf {x_i} -, de b) \ GE 1 \ quadruple 1 \ le i \ le n. Le facteur de 1/2 est employé pour la convenance mathématique.

Forme duelle

L'inscription de la règle de classification sous sa forme duelle sans contrainte indique que la classification est seulement une fonction des vecteurs , c., les données de soutien de de formation qui se trouvent sur la marge. Le duel du SVM peut être montré pour être :

\ maximum \ sum_ {i=1} ^n \ alpha_i - \ frac {1} {2} \ sum_ {I,} de j \ c_j c_i d'alpha_i \ alpha_j \ _i^T du mathbf {x} \ mathbf {x} _j sujet au \ à alpha_i \ au geq 0 , et ^n de \ sum_ {i=1} \ c_i d'alpha_i = 0 là où les limites du \ alpha constituent une représentation duelle pour le vecteur de poids en termes de formation réglée : = de \ mathbf de {W} \ c_i de sum_i \ alpha_i \ mathbf {x} _i

Marge molle

Dans le 1995 , le Corinna Cortes et le Vladimir Vapnik ont suggéré une idée maximum modifiée de marge qui tient compte des exemples mislabeled. Si là existe aucun hyperplan qui peut dédoubler le " ; yes" ; et " ; no" ; les exemples, la méthode douce de la marge de choisiront un hyperplan qui dédouble les exemples aussi propres comme possible, tout en maximisant toujours la distance aux exemples de fente propres les plus proches. Ce travail a popularisé la machine de vecteur de soutien de d'expression ou le SVM . Méthode présente lâche variable, \ xi_i, qui mesurent degré de classification faux de information x_i

c_i (\ mathbf {} de W \ cdot \ mathbf {x_i} - - de b) \ GE 1 \ xi_i \ quadruple 1 \ le i \ le n \ quadruple \ quadruple (2). La fonction objective est alors augmentée par une fonction qui pénalise le différent de zéro \ xi_i, et l'optimisation devient une différence entre une grande marge, et une petite pénalité des erreurs. Si la fonction de pénalité est linéaire, l'équation (3) transforme maintenant au \ à minute de ||\ mathbf {W}||^2 + C \ sum_i \ xi_i \ quadruple \ mbox {tel que} \ quadruple c_i (\ mathbf {} de W \ cdot \ mathbf {x_i} - - de b) \ GE 1 \ xi_i \ quadruple 1 \ le i \ le n. Cette contrainte dans (2) avec l'objectif de la minimisation | W de | peut être résolu using les multiplicateurs de Lagrange de . L'avantage principal d'une fonction de pénalité linéaire est que les variables lâches disparaissent du problème duel, avec le constant C apparaissant seulement comme contrainte additionnelle sur les multiplicateurs de Lagrange. Des fonctions de pénalité non linéaires ont été employées, pour réduire en particulier l'effet des annexes sur le classificateur, mais à moins que le soin soit pris, le problème devient non convexe, et il est ainsi considérablement plus difficile de trouver une solution globale.

Classification non linéaire

L'algorithme optimal original d'hyperplan a proposé par le Vladimir Vapnik dans le 1963 était un classificateur linéaire . Cependant, dans le 1992 , le Bernhard Boser , le Isabelle Guyon et le Vapnik ont suggéré une manière de créer des classificateurs non linéaires en appliquant le tour de grain de (à l'origine proposé par Aizerman et autres. < ! -- --> ) hyperplans de maximum-marge. L'algorithme en résultant est formellement semblable, sauf que chaque produit scalaire est remplacé par une fonction non linéaire du grain . Ceci permet à l'algorithme d'adapter l'hyperplan de maximum-marge dans l'espace transformé de dispositif. La transformation peut être non linéaire et l'espace transformé haut dimensionnel ; ainsi bien que le classificateur soit un hyperplan dans l'espace de dispositif haut-dimensionnel elle peut être non linéaire dans l'espace original d'entrée.

Si le grain utilisé est une fonction de base radiale gaussien du , l'espace de dispositif correspondant est un espace de Hilbert de dimension infinie. Les classificateurs maximum de marge sont régularisés par bon, ainsi la dimension infinie n'abîme pas les résultats. Quelques grains communs incluent,
Polynôme (homogène) : k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} de x \ cdot \ mathbf {x »}) ^d
Polynôme (non homogène) : k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} de x \ cdot \ mathbf {x »} + 1)^d
Fonction de base radiale : k (\ mathbf {x}, \ ")= de mathbf {x} \ exp (- \ gamma \|\ mathbf {x} - \} du mathbf {x » \|^2), pour le \ gamma > le 0
Fonction de base radiale gaussienne : k (\ mathbf {x}, \ ")= du mathbf {x} \ exp \ est parti (- \ frac {\|\ mathbf {x} - \} du mathbf {x » \|^2} {2 \ sigma^2} \) droit
sigmoïde : k (\ mathbf {x}, \ mathbf {x} ")= \ tanh (\ kappa \ mathbf {} de x \ cdot \ mathbf {x »} +c), pour un certains (non chaque) \ kappa > 0 et le c < 0

Régression

On a proposé une version d'un SVM pour la régression dans le 1996 par le Vladimir Vapnik , Harris Drucker, Chris Burges, Linda Kaufman et Alex Smola. Cette méthode s'appelle la régression (SVR) de vecteur de soutien de . Le modèle a produit par classification de vecteur de soutien (comme décrit ci-dessus) dépend seulement d'un sous-ensemble des données de formation, parce que la fonction de coût pour établir le modèle ne s'inquiète pas des points de formation qui se trouvent au delà de la marge. De façon analogue, le modèle produit par SVR dépend seulement d'un sous-ensemble des données de formation, parce que la fonction de coût pour établir le modèle ignore n'importe quelles données de formation qui sont proches (dans un de seuil \ epsilon) de la prévision modèle.

Exécution

Les paramètres de l'hyperplan de maximum-marge sont dérivés en résolvant l'optimisation. Là existent plusieurs algorithmes spécialisés pour résoudre rapidement le problème de QP qui résulte de SVMs, la plupart du temps dépendants sur l'heuristique pour diviser le problème vers le bas en plus petits, plus-maniables morceaux. Une méthode commune pour résoudre le problème de QP est l'algorithme du SMO de Platt, qui divise le problème vers le bas en sous-problèmes à deux dimensions qui peuvent être résolus analytiquement, éliminant le besoin d'algorithme d'optimisation numérique tel que des méthodes du gradient conjugué .

Algorithmes rapides de formation

Il y a eu quelques travaux récents par le Thorsten Joachims qui a gagné la meilleure récompense de papier dans le KDD 2006, qui donne un algorithme de plan sécant pour des machines de vecteur de soutien de formation.

C'est le premier algorithme qui optimise la formulation traditionnelle de la charnière-perte SVM à temps qui est linéaire dans la taille des données de formation (où la formation des données est représentée dans le format clairsemé avec les attributs évalués zéro non inclus). C'est disponible dans SVMPerf, qui est un paquet disponible immédiatement librement téléchargeable.

Voir également

Le grain de usine
Analytics prédictif
Machine , un modèle clairsemé probabiliste de vecteur de pertinence de de grain identique en forme fonctionnelle à SVM.
Random links:Modeleur de Moray | Chemin de fer de Leadhills et de Wanlockhead | Spamware | Station de Howrah | Routes d'état dans le du Wyoming | Máquina_del_vector_de_la_ayuda