Motif d\'ordre
ontext Dans la génétique , un motif d'ordre de est un nucléotide ou le modèle de l'ordre de l'acide aminé qui sont répandus et ont, ou est conjecturé pour avoir, une signification biologique du . Pour des protéines, un motif d'ordre est distingué d'un motif structural , un motif de constitué par l'arrangement tridimensionnel des acides aminés, qui peuvent ne pas être adjacents.
Un exemple est le motif d'emplacement du glycosylation du '' N '' - : le Asn de
, suivi de n'importe quoi mais pro, a suivi de Ser ou de thr, suivi de n'importe quoi mais de pro
là où les abréviations de trois-lettre sont les désignations conventionnelles pour les acides aminés (voir le code génétique ).
Vue d'ensemble
Quand un motif d'ordre apparaît dans le Exon d'un gène , il peut coder le " ; " structural du motif ; d'une protéine ; c'est un élément stéréotypé de la structure globale de la protéine. Néanmoins, des motifs n'ont pas besoin d'être associés à une structure secondaire distinctif. " ; Noncoding " les ordres ne sont pas traduits par dans des protéines, et les acides nucléiques avec de tels motifs n'ont pas besoin de dévier de la forme typique (par exemple le " ; B-form" ; Spirale d'ADN double).
L'extérieur des exons de gène, existent là les motifs de normalisation de l'ordre de et les motifs dans le " ; ordure , " de ; comme l'ADN satellite . Certaines de ces derniers sont censées pour affecter la forme des acides nucléiques (voir par exemple l'ARN de individu-épisser ), mais c'est seulement parfois le cas. Par exemple, beaucoup de protéines obligatoires d'ADN de qui ont des affinités pour des motifs spécifiques lient seulement l'ADN sous sa forme double-hélicoïdale. Elles peuvent identifier des motifs par le contact avec double la cannelure principale ou mineure de spirale.
Les motifs courts de codage, qui semblent manquer de la structure secondaire, incluent ceux que des protéines de l'étiquette pour la livraison aux parties particulières d'une cellule , ou les marquent pour la phosphorylation .
Dans un ordre ou une base de données des ordres, les chercheurs recherchent et trouvent des motifs using des techniques sur ordinateur de l'analyse d'ordre de , tel que le SOUFFLE . De telles techniques appartiennent à la discipline de la bio-informatique .
Voir également la séquence consensus .
Bio-informatique de motif
Considérer le N - motif d'emplacement de glycosylation mentionné ci-dessus : le Asn de
, suivi de n'importe quoi mais pro, a suivi de Ser ou de thr, suivi de n'importe quoi mais de pro
Ce modèle peut être écrit comme N de {P} {P} où N=Asn, P=Pro, S=Ser, T=Thr ; Le {X} signifie n'importe quel acide aminé excepté X ; et signifie X ou Y.
La notation ne donne aucune indication de la probabilité de X ou de Y se produisant dans le modèle. Parfois des modèles sont définis en termes de modèle probabiliste tel que Markov caché par modèle.
Motifs et séquences consensus
La notation signifie X ou Y ou Z, mais n'indique pas la probabilité de n'importe quelle allumette particulière. Pour cette raison, deux modèles ou plus sont souvent associés à un motif simple : le modèle de définition, et divers modèles typiques.
Par exemple, l'ordre de définition pour le motif de Q. peut être pris pour être :
QxxxGxxxxx
là où x signifie n'importe quel acide aminé, et les crochets indiquent une alternative (voir ci-dessous pour d'autres détails au sujet de notation).
Habituellement, cependant, la première lettre est I, et résolution de les deux choix de à R. Puisque le dernier choix est si large, le modèle IQxxxRGxxxR est parfois égalisé avec le motif de Q. lui-même, mais une description plus précise serait une séquence consensus de pour le motif de Q.
Découverte informatique de De novo des motifs
Il y a des logiciels qui, donnés des ordres à entrées multiples, tentative d'identifier un ou plusieurs motifs de candidat. Un exemple est MEME, qui produit de l'information statistique pour chaque candidat. D'autres algorithmes incluent : CisModule, AlignAce, PhyloGibbs, sarcloir.
Découverte par la conservation évolutionnaire
Des motifs ont été découverts en étudiant les gènes semblables dans différentes espèces. Par exemple, en alignant les ordres d'acide aminé spécifiques par le gène de GCM (cellules glial de manquant ) dans le melanogaster de l'homme, de souris et de D., l'Akiyama et d'autres a découvert un modèle qu'ils ont appelé le motif de GCM. Il enjambe environ 150 résidus d'acide aminé, et commence comme suit : *** du
WDIND*.*H*S*WAMRNTNNHN
Ici chaque . signifie un acide aminé simple ou un espace, et chaque * indique un membre d'une famille closely-related des acides aminés.
Les auteurs pouvaient prouver que le motif a l'activité obligatoire d'ADN. Un algorithme de découverte de motif qui considère la conservation phylogénétique est PhyloGibbs.
Notations de description de modèle
Plusieurs notations pour décrire des motifs sont en service mais la plupart d'entre eux est des variantes des notations standard pour les expressions régulières et emploie ces conventions :
le
il y a un alphabet des caractères simples, chacun qui dénote un acide aminé spécifique ou un ensemble d'acides aminés ;
une corde des caractères dessinés de l'alphabet dénote un ordre des acides aminés correspondants ;
n'importe quelle corde des caractères dessinés de l'alphabet joint entre crochets assortit des n'importe quels des acides aminés correspondants ; par exemple assortit les acides aminés l'uns des représentés par a ou b ou c.
L'idée fondamentale derrière toutes ces notations est le principe assorti, qui assigne une signification à un ordre des éléments de la notation de modèle : le
un ordre des éléments de la notation de modèle assortit un ordre des acides aminés si et seulement si le dernier ordre peut être divisé dans des subsequences de telle manière que chaque élément de modèle assortisse le subsequence correspondant alternativement.
Ainsi le F de modèle assortit les six ordres d'acide aminé correspondant à ACF, à ADF, à AEF, à BCF, à BDF, et à BEF.
Les différentes notations de description de modèle ont d'autres manières de former des éléments de modèle. Une de ces notations est la notation de PROSITE, décrite dans la sous-section suivante.
Notation de modèle de PROSITE
La notation du PROSITE emploie les codes d'un-lettre du IUPAC et se conforme à la description ci-dessus excepté qu'un symbole de concaténation, « - », est employé entre les éléments de modèle, mais il est souvent abandonné entre les lettres de l'alphabet de modèle.
PROSITE permet les éléments suivants de modèle en plus de ceux décrits précédemment :
La lettre minuscule « x » peut être employée comme élément de modèle pour dénoter n'importe quel acide aminé.
Une corde des caractères dessinés de l'alphabet et inclus dans les croisillons (accolades) dénote n'importe quel acide aminé excepté ceux dans la corde. Par exemple, le {rue} dénote n'importe quel acide aminé autre que S ou T.
Si un modèle est limité à la N-borne d'un ordre, le modèle est mis en tête avec le « < ; ».
Si un modèle est limité à la C-borne d'un ordre, le modèle est suffixé avec le « > ; ».
> du caractère « ; » peut également se produire intérieur un modèle de terminaison de crochet, de sorte que S assortisse les deux le " ; ST" ; et " ; S> ; " ;.
Si e est un élément de modèle, et m et n sont deux nombres entiers décimaux avec le <= n de m, puis :
e (m) est équivalent à la répétition des temps de e exactement m ;
e (m, n) est équivalent à la répétition des temps de e exactement k pour tout satisfaire du nombre entier k : m <= k <= n.
Quelques exemples :
x (3) est équivalent à x-x-x.4) assortit n'importe quel ordre qui assortit x-x ou x-x-x ou x-x-x-x.
La signature du domaine du doigt de zinc de de C2H2-type est :
C-x (2.4) - CX (3)--X (8) - H-x (3.5) - H
Matrices
Une matrice des nombres contenant des points pour chaque résidu ou nucléotide à chaque position d'un motif de longueur constante. Il y a deux types de matrices de poids.Une matrice de fréquence de position (PFM) enregistre la fréquence position-dépendante de chaque résidu ou nucléotide. PFMs peut être expérimentalement déterminé des expériences de SELEX ou être informatique découvert par des outils tels que MEME using les modèles cachés de Markov.
Une matrice (PWM) de poids de position de contient des poids de chance de notation pour calculer des points d'allumette. Une coupure est nécessaire pour spécifier si un ordre d'entrée assortit le motif ou pas. PWMs sont calculés à partir de PFMs.
Un exemple d'un PFM de la base de données de TRANSFAC pour le facteur AP-1 de transcription :
Un autre arrangement
Cet exemple vient du papier par Matsuda et des collègues cités ci-dessous.
Le répresseur LacI (identification 1lccA d'Operon de lactose d'Escherichia coli de d'APB ) et l'activateur de gène de catabolite d'Escherichia coli de (identification d'APB 3gapA) toutes les deux ont un motif de la spirale-tourner-spirale de , mais leurs ordres d'acide aminé ne montrent pas beaucoup de similitude, suivant les indications de la table ci-dessous.
Matsuda et collègues ont conçu un code appelé le code à enchaînement du 3D pour représenter une structure de protéine comme corde des lettres. Cet arrangement de codage indique la similitude entre les protéines beaucoup plus clair que l'ordre d'acide aminé :
Voir également
Motif structural .
| Random links: | Station du sud d'Irving | L'Orégon, mon Orégon | Curettage | Arcul de Triumf | Adorno_de_la_secuencia |