Format de FASTA
En bio-informatique , le format du FASTA est un texte basé format pour représenter les ordres ou les ordres de l'acide nucléique de peptide de dans lesquels les paires basses ou les acides aminés sont représentés using des codes single-letter. Le format également tient compte des noms d'ordre et commente pour précéder les ordres.
La simplicité du format de FASTA le rend facile de manoeuvrer et analyser des ordres using des outils de traitement de texte et des langues Scripting comme le python et le Perl .
Format
Un ordre dans le format de FASTA commence par une description d'une seule ligne, suivie des lignes des données d'ordre. La ligne de description est distinguée des données d'ordre par a grand-que (" ; >" ;) symbole dans la première colonne. Le mot suivant le " ; >" ; le symbole est la marque de l'ordre, et le reste de la ligne est la description (tous les deux sont facultatifs). Il ne devrait y avoir aucun espace entre le " ; >" ; et la première lettre de la marque. On lui recommande que toutes les lignes de texte soient plus courtes que 80 caractères. L'ordre finit si une autre ligne commençant par un " ; >" ; apparaît ; ceci indique le début d'un autre ordre. Un exemple simple d'un ordre dans le format de FASTA :
>gi|5524211|gigaoctet|AAD44166.1| éléphant de Des dossiers de FASTA peuvent être convertis à ou du format de MultiFASTA using les outils libres comme FASTA en convertisseur multi-FASTA et multi-FASTA en convertisseur de FASTA La ligne d'en-tête, par laquelle commence « > », fournit un nom et/ou une marque unique pour l'ordre, et souvent un bon nombre d'autre information aussi. Beaucoup l'utilisation différente des bases de données de d'ordre de a normalisé des en-têtes, qui aide quand l'information automatiquement d'extraction de l'en-tête. La ligne d'en-tête peut contenir plus d'un en-tête, séparé par un caractère de ^A (Control-A) (en tant que dedans). Dans le format original de Pearson FASTA, un ou plusieurs commentaires, distingués par un point-virgule au début de la ligne, peuvent se produire après l'en-tête. La plupart des bases de données et applications de bio-informatique n'identifient pas ces commentaires et ne suivent pas les spécifications de NCBI FASTA. Un exemple d'un dossier multiple de l'ordre FASTA suit : Après que la ligne et les commentaires d'en-tête, une ou plusieurs lignes puissent suivre décrire l'ordre : chaque ligne d'un ordre devrait avoir moins de 80 caractères. Les ordres peuvent être les ordres de protéine de ou les ordres de l'acide nucléique , et ils peuvent contenir des lacunes ou des caractères d'alignement (voir le ordonnancer l'alignement ). On s'attend à ce que des ordres soient représentés en acide aminé standard d'IUB/IUPAC et codes de l'acide nucléique , à ces exceptions : des lettres minuscules sont acceptées et sont tracées dans le haut de casse ; un trait d'union ou un tiret simple peut être employé pour représenter un caractère d'espace ; et dans des ordres d'acide aminé, U et * sont les lettres acceptables (voir ci-dessous). Des chiffres numériques ne sont pas permis mais sont employés dans quelques bases de données d'indiquer la position dans l'ordre. Les codes d'acide nucléique soutenus sont : Le NCBI a défini une norme pour la marque unique utilisée pour l'ordre (SeqID) dans la ligne d'en-tête. La page d'homme de de Formatdb a ceci à dire sur le sujet : " ; le formatdb analysera automatiquement le SeqID et créera des index, mais les marques de base de données dans la ligne de définition de FASTA doivent suivre les conventions du FASTA Defline Format." ; Toutefois elles ne donnent pas une description définitive du format de defline de FASTA, une tentative de créer un tel format est donnée ci-dessous. Gi de GenBank| gi-nombre de |gigaoctet| accession de | lieu de Gi de bibliothèque de données d'EMBL| gi-nombre de |emb| accession de | lieu de DDBJ, base de données d'ADN de gi du Japon| gi-nombre de |dbj| accession de | lieu de Pir de NBRF PIR|| entrée de PRF de base de recherches de protéine|| nommé PS de SWISS-PROT| accession de | nommé APB de la banque de données de protéine de Brookhaven (1)| entrée de | à chaînes Entrée la banque de données de protéine de Brookhaven (2) : à chaînes |PDBID|CHAÎNE|ORDRE Tapotement de brevets|pays|nombre BBS d'identification d'épine dorsale de GenInfo|nombre Gnl général de marque de base de données|base de données|marque Référence d'ordre de référence de NCBI|accession|lieu Lcl local de marque d'ordre|marque Les barres verticales dans la liste ci-dessus ne sont pas des séparateurs dans le sens de la forme de Backus-Naur de , mais font partie du format. Il n'y a aucune prolongation de dossier standard pour un dossier des textes contenant des ordres composés par FASTA. Les dossiers de format de FASTA ont souvent des prolongements de dossier comme .fasta Il y a plusieurs pièges au format traditionnel de FASTA que ce format est censé pour résoudre : Inclut des informations sur les bases de données incluses. Toutes les lignes dans le bloc commencent par « # » le caractère. Une limite d'en-tête de la liste ci-dessous par la ligne : Recherche du FASTA .
Ligne d'en-tête
>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Représentation d'ordre
Marques d'ordre
Prolongation de dossier
Format de HUPO-PSI
les lignes de
Bloc d'en-tête
Ligne d'en-tête d'ordre
Voir également
Random links: Ejea de los Caballeros | Modèle de délégation | James Caan | Liste de leaders d'État en 1553 | Astacus d'Astacus | Formato_de_FASTA