Algorithme C4.5
L'algorithme
C4.5 construit des arbres de décision d'un ensemble de données de formation in the same way as ID3, using le concept de l'entropie de l'information de . Les données de formation sont un des échantillons déjà classifiés. Chaque s_i de est un vecteur où le représentent des attributs ou des dispositifs de l'échantillon. Les données de formation sont augmentées avec un où le représentent la classe que chaque échantillon appartient à.5 emploie le fait que chaque attribut des données peut être employé pour prendre une décision qui coupe les données en plus petits sous-ensembles.5 examine le gain normal (différence de l'information de dans l'entropie) ce des résultats de choisir un attribut pour dédoubler les données. L'attribut avec le gain normal le plus élevé de l'information est celui employé pour prendre la décision. L'algorithme se reproduit alors sur les sous-listes plus petites.
Cet algorithme a quelques situations de base, la situation de base la plus commune est quand tous les échantillons dans votre liste appartiennent à la même classe. Une fois que ceci se produit, vous créez simplement un noeud de feuille pour votre arbre de décision vous indiquant choisir cette classe. Il pourrait également se produire qu'aucun des dispositifs ne te donne n'importe quel gain de l'information, dans ce cas-ci C4.5 crée un noeud de décision plus haut vers le haut de l'arbre using la valeur prévue de la classe. Il pourrait également se produire que vous n'avez jamais vu aucun exemple d'une classe, encore, C4.5 crée un noeud de décision plus haut vers le haut de l'arbre using la valeur prévue.
Dans le pseudo-code l'algorithme ressemble à ceci :
Vérifier les situations de base Pour chaque d'attribut un Trouver le gain normal de l'information de dédoubler sur le un Laisser le le a_best être l'attribut avec le gain normal le plus élevé de l'information Créer un noeud noeud de décision qui se dédouble sur le le a_best se reproduire sur les sous-listes obtenues par la division sur le le a_best et ajouter ces noeuds comme enfants du noeud de
Gain de l'information et entropie de l'information
Bien qu'expliqué plus loin dans leurs sections respectives, peut être considéré comme mesure de la façon dont aléatoire la distribution de classe est dans le S . Le gain de l'information est une mesure donnée à un d'attribut un . Le d'attribut un peut séparer le S dans les sous-ensembles le gain de l'information du qu'un est alors entropie de . Le gain de l'information est alors normalisé en multipliant l'entropie de chaque choix d'attribut par la proportion de valeurs d'attribut qui ont ce choix.5 et ID3
C4.5 a apporté un certain nombre d'améliorations à ID3. Certaines de ces derniers sont :
Les attributs continus et discrets de
manipulant - afin de manipuler les attributs continus, C4.5 crée un seuil et puis coupe la liste en ceux dont la valeur d'attribut est au-dessus du seuil et ceux qui sont inférieur ou égal à il. 96
Traitant des données de formation avec des valeurs d'attribut absentes - C4.5 permet à des valeurs d'attribut d'être marquées As ? pour manquer. Des valeurs d'attribut absentes ne sont pas simplement employées dans des calculs de gain et d'entropie.
Manipulation des attributs avec des coûts différents.
Arbres d'élagage après création - C4.5 passe en arrière par l'arbre une fois qu'il a été créé et essaye d'enlever les branches qui n'aident pas en les remplaçant par des noeuds de feuille.
C4.0/See5
Quinlan a continué pour créer C5.0 pour Unix/Linux, See5 pour Windows) qu'il lance sur le marché commercialement.0 offre un certain nombre d'améliorations sur C4. Certaines de ces derniers sont :
Vitesse de
- C5.0 est sensiblement plus rapide que C4.5 (plusieurs ordres de grandeur)
Utilisation de mémoire - C5.0 est plus de mémoire efficace que C4.5
De plus petits arbres de décision - C5.0 obtient des résultats similaires à C4.5 avec des arbres de décision considérablement plus petits.
Soutien du amplifiant - l'amplification améliore les arbres et leur donne plus d'exactitude.
Pondération - C5.0 te permet de peser différents attributs et types de classification fausse.0 vanne automatiquement les données pour aider à réduire le bruit.0/See5 est un film publicitaire et le produit de fermé-source, bien que le code source libre soit disponible pour interpréter et usage des arbres et de la règle de décision la place produit.
Voir également
Algorithme du ID3 .
| Random links: | 1390 | Ongole | Le Roi Watzke | CAF | Aéroport de Hamilton | Algoritmo_C4.5 |