Biclustering

Le Biclustering , le Co-groupant , ou le deux-mode de groupant est une technique de l'exploitation de données qui permet le simultané groupant des rangées et des colonnes d'une matrice. La limite a été présentée la première fois par Mirkin (récemment par Cheng et église dans l'analyse d'expression de gène ), bien que la technique ait été à l'origine présentée beaucoup plus tôt (c.

Donné un ensemble de m rame dans des colonnes de n (c., des m× ; la matrice de n), l'algorithme biclustering produit des biclusters - un sous-ensemble de rangées qui montrent le comportement semblable à travers un sous-ensemble de colonnes, ou vice versa.

Complexité

La complexité du problème biclustering dépend de la formulation exacte de problème, et en particulier de la fonction de mérite employée pour évaluer la qualité d'un bicluster donné. De quelque manière que la plupart des variantes intéressantes de ce problème sont NP-complètes exigeant le grand effort informatique ou l'utilisation de l'heuristique de lossy de court-circuiter le calcul.

Type de Bicluster

Les différents algorithmes biclustering ont différentes définitions de bicluster.

Ils sont :

Bicluster avec les valeurs de constante (a),

  • Bicluster avec des valeurs constantes sur les rangées ou les colonnes (b, c),
  • Bicluster avec les valeurs logiques (d, e).

    Algorithmes

    Il y a beaucoup algorithme biclustering développé pour la bio-informatique , incluant : Bloquer le groupement, le CTWC, l'ITWC, le δ-bicluster, le δ-pCluster, le δ-modèle, la FLOCULATION, l'OPC, le modèle de plaid, l'OPSMs, le Gibbs, la SAMBA, l'algorithme robuste de Biclustering (RoBA), la minimisation, le cMonkey, le PRMs et le DCC de croisement. Des algorithmes de Biclustering ont été également proposés et employés dans d'autres domaines d'application sous coclustering, biodimentional des noms groupant, et groupement de sous-espace.

    Quelques algorithmes récents ont essayé d'inclure le soutien additionnel de biclustering des matricies rectangulaires sous forme d'autres datatypes. Un tel algorithme, cMonkey, a été développé récemment et appliqué à plusieurs ensembles de données de système-biologie.

    Il y a une discussion continue au sujet de la façon juger les résultats de ces méthodes, comme biclustering permet le chevauchement entre les faisceaux et quelques algorithmes permettre à l'exclusion de dur de réconcilier des colonnes/conditions. Non tous les algorithmes disponibles sont déterministes et vous devez prêter l'attention au degré auquel les résultats représentent des minimum stables. Puisque c'est un problème non surveillé de classification, le manque d'étalon or le rend difficile de repérer des erreurs dans les résultats. Une approche est d'utiliser des algorithmes biclustering multiples, avec la majorité ou la superbe-majorité votant parmi elles décidant le meilleur résultat. Une autre manière est d'analyser la qualité du décalage et des modèles de graduation dans les biclusters.

    Voir également

    Analyse de concept formelle
    Biclique
    Raccordement de Galois de
  • .

    Random links:Algèbre linéaire | Glencoe, montagne | Ruud Janssen | Trustix | Biclustering