Calcul granulaire
Le de calcul granulaire est un paradigme de calcul naissant du de traitement de l'information. Il concerne le traitement des granules complexes de l'information appelée d'entités de l'information, qui surgissent en cours d'abstraction de données et dérivation de la connaissance de l'information. D'une façon générale, les granules de l'information sont des collections d'entités qui commencent habituellement au niveau numérique et sont disposé ensemble dus à leur similitude, contiguîté fonctionnelle, indistinguishability, concordance, ou analogues.
Actuellement, le calcul granulaire est plus une perspective théorique de qu'un ensemble logique de méthodes ou de principes. Comme perspective théorique, il encourage une approche aux données qui identifient et exploitent la connaissance actuelle dans les données à de divers niveaux de résolution ou la mesurent. Dans ce sens, il entoure toutes les méthodes qui fournissent la flexibilité et l'adaptabilité dans la résolution à laquelle la connaissance ou l'information est extraite et représentée.
Types de granulation
Comme mentionné ci-dessus, le de calcul granulaire n'est pas un algorithme ou un processus ; il n'y a pas une méthode particulière qui s'appelle le " ; computing" granulaire ;. C'est plutôt une approche à regarder les données qui identifient que les différentes et intéressantes régularités dans les données peuvent apparaître à différents niveaux de granularité, beaucoup pendant que les différents dispositifs deviennent saillants dans les images satellites de plus grand ou de peu de résolution. Sur une image satellite à basse résolution, par exemple, l'on a pourrait noter les modèles intéressants de nuage représenter les cyclones ou d'autres phénomènes à grande échelle de temps, tandis que dans une image plus élevée une de résolution manque ces phénomènes atmosphériques à grande échelle mais note à la place les phénomènes sur une échelle plus petite, tels que le modèle intéressant qui est les rues du Manhattan . Le même est généralement vrai de toutes les données : À différentes résolutions ou granularités, les différents dispositifs et rapports émergent. Le but du calcul granulaire est finalement simplement d'essayer de tirer profit de ce fait en concevant des systèmes de étude de machine et de motif plus efficaces.Il y a plusieurs types de granularité qui sont souvent produits dans l'exploitation de données et l'étude de machine , et nous les passons en revue ci-dessous :
Granulation de valeur (discrétisation/quantification)
Un type de granulation est la quantification des variables. Il est très commun que dans l'exploitation de données ou les applications d'étude de machine des lesquelles la résolution des variables a besoin pour être diminué par afin d'extraire des régularités signicatives. Un exemple de ceci serait une variable telle que le " ; temperature" extérieur ; , (), qui dans une application donnée pourrait être enregistré à plusieurs décimales décimales d'exactitude (selon l'appareil de détection). Cependant, aux fins d'extraire des rapports entre le " ; temperature" extérieur ; et par exemple " ; nombre d'applications" de club de santé ; , (), il sera généralement avantageux de quantifier le " ; temperature" extérieur ; dans un plus petit nombre d'intervalles.
Motivations
Il y a plusieurs raisons en corrélation des variables de granulation de cette fa4con :Basé sur la connaissance antérieure de domaine, nous ne comptons pas que des variations minutieuses de la température (par exemple, la différence entre 80°F et 80.7°F) pourrait avoir une influence sur des comportements conduisant le nombre d'applications de club de santé. Pour cette raison, tout " ; regularity" ; ce que nos algorithmes d'étude pourraient détecter à ce niveau de la résolution devrait être le faux , un objet façonné d'overfitting. Par coarsening la variable de la température dans des intervalles la différence entre laquelle nous faisons prévoient (basé sur la connaissance antérieure de domaine) pourrait influencer le nombre d'applications de club de santé, nous éliminent la possibilité de détecter ces faux modèles. De ce fait, dans ce cas-ci, la réduction de la résolution est une méthode de commander le Overfitting .
En réduisant le nombre d'intervalles dans la variable de la température (c., augmentant son grosseur du grain de ), nous augmentons la quantité de données d'échantillon répertoriées par chaque désignation d'intervalle. Ainsi, par coarsening la variable, nous augmentons des dimensions de l'échantillon et réalisons une meilleure évaluation statistique. Dans ce sens, la granularité croissante fournit un antidote à la soi-disant malédiction de de la dimensionnalité , qui se rapporte exponentiellement à la diminution de la puissance statistique avec l'augmentation en nombre des dimensions ou de la cardinalité variable.
Indépendant de la connaissance antérieure de domaine, c'est souvent le cas que les régularités signicatives (c., qui peut être détectée par une méthodologie de étude donnée, langue représentative, etc.) peuvent exister à un niveau de résolution et pas à des autres.
Par exemple, un étudiant ou un système simple de reconnaissance des structures peut chercher à extraire des régularités satisfaisant un seuil conditionnel de la probabilité tel que le . Dans le cas spécial où le , ce système d'identification détecte essentiellement l'implication logique de du ou, dans les mots, du " ; si , puis " ;. La capacité de systèmes d'identifier de telles implications (ou, généralement probabilités conditionnelles dépassant le seuil) est partiellement contingente sur la résolution avec laquelle le système analyse les variables.
Comme exemple de ce dernier point, considérer l'espace de dispositif montré vers la droite. Les variables peuvent chacun être considérées à deux résolutions différentes. variable peut être considéré à une résolution (quaternaire) élevée où il prend sur le ou à une résolution (binaire) inférieure où il prend le . De même, variable peut être considéré à une résolution (quaternaire) élevée ou à une résolution (binaire) inférieure, où il prend le ou le , respectivement. On le notera qu'à la résolution, il y a aucunes implications discernables de du , puisque chaque est associé à plus d'un , et ainsi, pour tout le , . Cependant, à la basse résolution variable (binaire), deux implications bilatérales deviennent discernables : et , puisque chaque se produit le IFF et se produit le IFF . Ainsi, un balayage de système de reconnaissance des structures pour des implications de cette sorte les trouverait à la résolution de variable binaire, mais ne les a pas trouvées à la résolution variable quaternaire plus élevée.
Issues et méthodes
Il n'est pas faisable d'examiner exhaustivement toutes les résolutions possibles de discrétisation concernant toutes les variables afin de voir quelle combinaison des résolutions donne des résultats intéressants ou significatifs. Au lieu de cela, l'espace de dispositif doit être prétraité (souvent par une analyse d'entropie d'une certaine sorte) de sorte que quelques conseils puissent être donnés quant à la façon dont le procédé de discrétisation devrait procéder. D'ailleurs, on ne peut pas généralement réaliser de bons résultats naïvement en analysant et en discrétisant chacun variable indépendamment, puisque ceci peut effacer les interactions mêmes que nous avions espéré découvrir.Un échantillon de papiers qui abordent le problème de la discrétisation variable généralement et de la discrétisation multiple-variable en particulier, sont comme suit : , .
Granulation variable (groupement/agrégation/transformation)
La granulation variable est une limite qui pourrait décrire une série de techniques, plus dont sont visés en réduisant la dimensionnalité, la redondance, et les conditions de stockage. Nous décrivons brièvement certaines des idées ici, et présentons des indicateurs à la littérature.Transformation variable
Un certain nombre de méthodes classiques, telles que l'analyse de composant principal de , la graduation multidimensionnelle , l'analyse factorielle , et l'équation structurale de modelant , et leurs parents, chute sous le genre du " ; transformation." variable ; Également dans cette catégorie sont des domaines d'étude plus modernes tels que la réduction de dimensionnalité de , la poursuite de projection de , et l'analyse composante indépendante . L'objectif commun de ces méthodes est en général de trouver une représentation des données en termes de nouvelles variables, qui sont une transformation linéaire ou non linéaire des variables originales, et dans les quels rapports statistiques importants émergent. Les ensembles variables en résultant sont presque toujours plus petits que l'ensemble original de variable, et par conséquent on peut lâchement dire que ces méthodes imposent une granulation à l'espace de dispositif. Ces méthodes toutes de réduction de dimensionnalité sont passées en revue dans les textes standard, comme, et.
Agrégation variable
Une classe différente des méthodes variables de granulation dérivent plus des données de groupant des méthodologies de que de la théorie de systèmes linéaire informant les méthodes ci-dessus. On l'a noté assez tôt qu'on peut considérer le " ; clustering" ; variables relatives juste de la même manière dont on considère des données relatives de groupement. Dans les données groupant, on identifie un groupe d'entités semblables (using une mesure de " ; similarity" ; approprié au domaine), et alors dans un certain de sens remplace ces entités par un prototype d'une certaine sorte. Le prototype peut être la moyenne simple des données dans le faisceau identifié, ou une autre mesure représentative. Mais l'idée principale est celle dans des opérations suivantes, nous peut pouvoir employer le prototype simple pour le faisceau de données (avec peut-être un modèle statistique décrivant comment des exemplaires sont dérivés du prototype) au stand de dans pour l'ensemble d'exemplaires beaucoup plus grand. Ces prototypes sont généralement comme de saisir la majeure partie d'information d'intérêt au sujet des entités.De même, il est raisonnable de demander si un grand ensemble de variables pourrait être agrégé dedans à un plus petit ensemble de variables du prototype de qui capturent les rapports les plus saillants entre les variables. Bien que variable on a proposé des méthodes de groupement basées sur la corrélation linéaire (;), des méthodes plus puissantes de groupement variable sont basées sur l'information réciproque entre les variables. Watanabe a montré (;) cela pour réglé des variables une peut construire un arbre polychotomic du (c., n-ary) représentant une série d'agglomérations variables dans lesquelles le " final ; total" ; la corrélation parmi l'ensemble complet de variable est la somme du " ; partial" ; corrélations montrées par chaque sous-ensemble de agglomération (voir la figure). Watanabe propose qu'un observateur pourrait chercher à ainsi divisent un système de façon à réduire au minimum l'interdépendance entre le " de pièces ; … comme si elles recherchaient une division normale ou un crack." caché ;
Une approche pratique à construire un tel arbre est de choisir successivement pour l'agglomération les deux variables (des variables atomiques ou des variables précédemment agglomérées) qui ont l'information par paires réciproque la plus élevée. Le produit de chaque agglomération est une nouvelle variable (construite) qui reflète la distribution commune local des deux variables de agglomération, et possède ainsi une entropie égale à leur entropie commune . (D'un point de vue procédural, cette étape d'agglomération implique de remplacer deux colonnes dans l'attribuer-valeur table-représentant les deux agglomérant variable-avec une colonne simple qui a une valeur unique pour chaque combinaison unique des valeurs dans les colonnes remplacées. Aucune information n'est perdue par une telle opération ; cependant, il convient noter que si on explore les données pour des rapports inter-variables, il généralement le pas serait souhaitable de fusionner des variables superflues de cette façon, puisque dans un tel contexte il est liklely d'être avec précision la dépendance de redondance ou de entre les variables qui est d'intérêt ; et une fois que des variables superflues sont fusionnées, leur rapport avec un un autre peut plus n'être étudié.
Voir également l'agrégation du OLAP pour une application de l'agrégation dans les systèmes de base de données .
Granulation de concept (analyse composante)
Les origines de l'idéologie de calcul granulaire du doivent être trouvées dans les ensembles approximatifs et des literatures des ensembles brouillés . Une des perspicacités principales de l'ensemble approximatif recherche-bien que nullement unique à -est celle, généralement le choix de différents ensembles de dispositifs ou les variables rapporteront différentes granulation du concept de . Ici, comme dans la théorie des ensembles approximative élémentaire, par le " ; concept" ; nous voulons dire un ensemble d'entités qui sont le indistinguible ou le imperceptible à l'observateur (c., un concept simple), ou un ensemble d'entités qui se compose de tels concepts simples (c., un concept complexe). Pour le mettre en d'autres termes, en projetant un ensemble de données (le Valeur-attribuent le système ) sur différents ensembles de variables, nous identifions les ensembles alternatifs de " d'équivalence-classe ; concepts" ; dans les données, et ces différents ensembles de concepts favoriser en général l'extraction de différents rapports et régularités.Granulation d'équivalence de classe
Nous illustrons avec un exemple. Considérer le système d'attribuer-valeur ci-dessous :
Granulation composante
Une autre perspective sur la granulation de concept peut être obtenue à partir du travail sur les modèles paramétriques des catégories. Dans le mélange de le modèle apprenant, par exemple, un ensemble de données est expliqué comme mélange des distributions gaussiennes de distinct (ou autre). Ainsi, un grand nombre de données est " ; replaced" ; par un nombre restreint de distributions. Le choix du nombre de ces distributions, et leur taille, peuvent encore être regardés comme problème de la granulation de concept de . Généralement un meilleur ajustement aux données est obtenu par un plus grand nombre de distributions ou de paramètres, mais afin d'extraire les modèles signicatifs, il est nécessaire de contraindre le nombre de distributions, ainsi délibérément de coarsening la résolution de concept. Conclusion du " ; right" ; la résolution de concept est un problème rusé pour lequel on a proposé beaucoup de méthodes (par exemple, AIC , BIC , MDL , etc.), et ceux-ci sont fréquemment considérés sous la rubrique du " ; " modèle de la régularisation ;.
Différentes interprétations du calcul granulaire
Le calcul granulaire peut être conçu comme cadre des théories, des méthodologies, des techniques, et des outils qui se servent des granules de l'information en cours de résolution des problèmes. Dans ce sens, le calcul granulaire est employé comme limite de parapluie pour couvrir les matières qui ont été étudiées dans divers champs en isolation. En examinant toutes ces études existantes à la lumière du cadre unifié de calculer granulaire et d'extraire leurs vulgarisations, il peut être possible de développer une théorie générale pour la résolution des problèmes.Dans un sens plus philosophique, le calcul granulaire peut décrire une façon de penser qui se fonde sur la capacité humaine de percevoir le monde réel sous de divers niveaux de granularité (c., abstraction) afin de soustraire et considérer seulement ces choses qui servent un intérêt spécifique et commuter parmi différentes granularités. En se concentrant sur différents niveaux de granularité, on peut obtenir différents niveaux de la connaissance, comme un plus grand arrangement de la structure inhérente de la connaissance. Le calcul granulaire est ainsi essentiel dans la résolution des problèmes humaine et par conséquent a un impact très significatif sur la conception et l'exécution des systèmes intelligents.
Voir également
Ensemble approximatif , discrétisation de .
| Random links: | Comportement déviant | Mpatrol | Tasse de Rous | Scarborough, Tobago | Rishirifuji, Hokkaidō | Computación_granular |