Format de FASTA

En bio-informatique , le format du FASTA est un texte basé format pour représenter les ordres ou les ordres de l'acide nucléique de peptide de dans lesquels les paires basses ou les acides aminés sont représentés using des codes single-letter. Le format également tient compte des noms d'ordre et commente pour précéder les ordres.

La simplicité du format de FASTA le rend facile de manoeuvrer et analyser des ordres using des outils de traitement de texte et des langues Scripting comme le python et le Perl .

Format

Un ordre dans le format de FASTA commence par une description d'une seule ligne, suivie des lignes des données d'ordre. La ligne de description est distinguée des données d'ordre par a grand-que (" ; >" ;) symbole dans la première colonne. Le mot suivant le " ; >" ; le symbole est la marque de l'ordre, et le reste de la ligne est la description (tous les deux sont facultatifs). Il ne devrait y avoir aucun espace entre le " ; >" ; et la première lettre de la marque. On lui recommande que toutes les lignes de texte soient plus courtes que 80 caractères. L'ordre finit si une autre ligne commençant par un " ; >" ; apparaît ; ceci indique le début d'un autre ordre. Un exemple simple d'un ordre dans le format de FASTA :

>gi|5524211|gigaoctet|AAD44166.1| éléphant de du cytochrome b| de maximus de maximus d'Elephas]] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Des dossiers de FASTA peuvent être convertis à ou du format de MultiFASTA using les outils libres comme FASTA en convertisseur multi-FASTA et multi-FASTA en convertisseur de FASTA

Ligne d'en-tête

La ligne d'en-tête, par laquelle commence « > », fournit un nom et/ou une marque unique pour l'ordre, et souvent un bon nombre d'autre information aussi. Beaucoup l'utilisation différente des bases de données de d'ordre de a normalisé des en-têtes, qui aide quand l'information automatiquement d'extraction de l'en-tête. La ligne d'en-tête peut contenir plus d'un en-tête, séparé par un caractère de ^A (Control-A) (en tant que dedans).

Dans le format original de Pearson FASTA, un ou plusieurs commentaires, distingués par un point-virgule au début de la ligne, peuvent se produire après l'en-tête. La plupart des bases de données et applications de bio-informatique n'identifient pas ces commentaires et ne suivent pas les spécifications de NCBI FASTA. Un exemple d'un dossier multiple de l'ordre FASTA suit :

 >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH 

Représentation d'ordre

Après que la ligne et les commentaires d'en-tête, une ou plusieurs lignes puissent suivre décrire l'ordre : chaque ligne d'un ordre devrait avoir moins de 80 caractères. Les ordres peuvent être les ordres de protéine de ou les ordres de l'acide nucléique , et ils peuvent contenir des lacunes ou des caractères d'alignement (voir le ordonnancer l'alignement ). On s'attend à ce que des ordres soient représentés en acide aminé standard d'IUB/IUPAC et codes de l'acide nucléique , à ces exceptions : des lettres minuscules sont acceptées et sont tracées dans le haut de casse ; un trait d'union ou un tiret simple peut être employé pour représenter un caractère d'espace ; et dans des ordres d'acide aminé, U et * sont les lettres acceptables (voir ci-dessous). Des chiffres numériques ne sont pas permis mais sont employés dans quelques bases de données d'indiquer la position dans l'ordre.

Les codes d'acide nucléique soutenus sont :

Marques d'ordre

Le NCBI a défini une norme pour la marque unique utilisée pour l'ordre (SeqID) dans la ligne d'en-tête. La page d'homme de de Formatdb a ceci à dire sur le sujet : " ; le formatdb analysera automatiquement le SeqID et créera des index, mais les marques de base de données dans la ligne de définition de FASTA doivent suivre les conventions du FASTA Defline Format." ;

Toutefois elles ne donnent pas une description définitive du format de defline de FASTA, une tentative de créer un tel format est donnée ci-dessous.

Gi de GenBank| gi-nombre de |gigaoctet| accession de | lieu de Gi de bibliothèque de données d'EMBL| gi-nombre de |emb| accession de | lieu de DDBJ, base de données d'ADN de gi du Japon| gi-nombre de |dbj| accession de | lieu de Pir de NBRF PIR|| entrée de PRF de base de recherches de protéine|| nommé PS de SWISS-PROT| accession de | nommé APB de la banque de données de protéine de Brookhaven (1)| entrée de | à chaînes Entrée la banque de données de protéine de Brookhaven (2) : à chaînes |PDBID|CHAÎNE|ORDRE Tapotement de brevets|pays|nombre BBS d'identification d'épine dorsale de GenInfo|nombre Gnl général de marque de base de données|base de données|marque Référence d'ordre de référence de NCBI|accession|lieu Lcl local de marque d'ordre|marque

Les barres verticales dans la liste ci-dessus ne sont pas des séparateurs dans le sens de la forme de Backus-Naur de , mais font partie du format.

Prolongation de dossier

Il n'y a aucune prolongation de dossier standard pour un dossier des textes contenant des ordres composés par FASTA. Les dossiers de format de FASTA ont souvent des prolongements de dossier comme .fasta

Format de HUPO-PSI

Il y a plusieurs pièges au format traditionnel de FASTA que ce format est censé pour résoudre :

    les lignes de
  • Definition varient considérablement pour aucune bonne raison. Ceci pose des problèmes pour les utilisateurs qui veulent employer ces dossiers avec des outils d'identification de protéine. Les créateurs de ces outils sont confrontés à un défi significatif de soutenir toutes ces variations ou de permettre à un utilisateur de faire face à them.
  • base de données de
  • Same traitée dans différents moteurs de recherche - > différentes marques - > difficile de tracer (P00761 contre ALBU_HUMAN)
  • la protéine de
  • Same dans différentes bases de données peut avoir les marques très différentes (P00761 contre le gi|3446572|PS|p00761 contre IPI : 12345678)
  • l'information de
  • The extraite à partir des formats de fasta est hétérogène : issues de parsability. Devrait venir du DB
  • Description et disponibilité de taxonomie (noms latins, noms communs, NCBI TaxID)

Bloc d'en-tête

Inclut des informations sur les bases de données incluses. Toutes les lignes dans le bloc commencent par « # » le caractère. Une limite d'en-tête de la liste ci-dessous par la ligne :

Ligne d'en-tête d'ordre

Voir également

Recherche du FASTA

.

Random links:Ejea de los Caballeros | Modèle de délégation | James Caan | Liste de leaders d'État en 1553 | Astacus d'Astacus | Formato_de_FASTA