Format de fichier
Un format de fichier est une manière particulière de coder l'information pour le stockage dans un fichier électronique .
Depuis une unité de disques , ou en effet n'importe quelle mémoire interne , peut stocker seulement le peu que l'ordinateur doit avoir une certaine manière de convertir l'information en 0s et 1s et vice-versa. Il y a différents genres de formats pour différents genres d'information. Dans n'importe quel type de format, par exemple, documents de l'unité de traitement de texte , il y aura typiquement plusieurs différents formats. Parfois ces formats concurrencent les uns avec les autres.
Généralité
Quelques formats de fichier sont conçus pour stocker des sortes très particulières de données : le format de JPEG , par exemple, est conçu pour stocker seulement les images photographiques statiques d'autres formats de fichier, cependant, sont conçus pour le stockage de plusieurs différents types de données : le stockage de soutiens de format de GIF de tous les deux toujours des images et des animations simples, et le format de QuickTime peuvent agir en tant que récipient pour beaucoup de différents types de multimédia . Un dossier des textes de est simplement un qui stocke n'importe quel texte, dans un format tel que le ASCII ou le UTF-8 , avec peu le cas échéant les caractères de commande quelques formats de fichier, tels que HTML , ou le code source d'un certain langage de programmation particulier, sont en fait également des dossiers des textes, mais adhèrent à des règles plus spécifiques qui leur permettent d'être employées pour des buts spécifiques.Il est parfois possible de faire lire un programme un dossier codé dans un format comme si il ont été codés dans un autre format. Par exemple, on peut jouer un document de Microsoft Word comme si c'étaient une chanson en employant un programme musique-de jeu qui s'occupe du " ; headerless" ; dossiers audio. Le résultat ne semble pas très musical, cependant. C'est ainsi parce qu'un arrangement sensible du peu dans un format est presque toujours absurde dans des autres.
Caractéristiques
Beaucoup de formats de fichier, y compris certains des formats de fichier les plus bien connus, ont un document édité des spécifications (souvent avec une exécution de référence de ) qui décrit exactement comment les données doivent être codées, et qui peut être employé pour déterminer si un programme particulier traite un format de fichier particulier correctement. Il y a, cependant, deux raisons pour lesquelles ce n'est pas toujours le cas. D'abord, quelques réalisateurs de format de fichier regardent leurs documents de spécifications car les secrets commerciaux et donc ne les libèrent pas au public. En second lieu, quelques lotisseurs de format de fichier ne passent jamais le temps écrivant un document séparé de spécifications ; en revanche, le format est défini seulement implicitement, par les programmes qui manoeuvrent des données dans le format.Using des formats de fichier sans a publiquement - les spécifications disponibles peuvent être coûteuses. Apprenant comment les travaux de format exigeront le désossage il d'une exécution de référence ou acquérir le document de spécifications pour des honoraires des réalisateurs de format. Cette deuxième approche est possible seulement quand là le est par document de spécifications, et exige typiquement la signature d'un accord de Non-disclosure . Les deux stratégies exigent le temps significatif, l'argent, ou tous les deux. Par conséquent, en règle générale, formats de fichier avec publiquement - des caractéristiques disponibles sont soutenues par un grand nombre de programmes, alors que des formats non publics sont soutenus par seulement quelques programmes.
La loi du brevet , plutôt que copyright , est plus employée souvent pour protéger un format de fichier. Bien que des brevets pour des formats de fichier ne soient pas directement autorisés en vertu de la loi des USA, quelques formats exigent le codage des données avec les algorithmes brevetés . Par exemple, le format de fichier de GIF exige l'utilisation d'un algorithme breveté, et bien qu'au commencement le propriétaire de brevet ne l'ait pas imposé, ils plus tard ont commencé à percevoir des honoraires pour l'usage de l'algorithme. Ceci a eu comme conséquence une diminution significative de l'utilisation du GIFs et est partiellement responsable du développement du format alternatif de png . Cependant, le brevet a expiré aux USA dans le mid- 2003 , et mondial dans le mid- 2004 . Des algorithmes sont habituellement tenus pour pas pour brevetables en vertu de la loi européenne courante, qui inclut également une disposition ce " de membres ; s'assurera que, là où l'utilisation d'une technique brevetée est nécessaire pour un but significatif tel qu'assurer la conversion des conventions utilisées dans deux systèmes informatiques ou réseaux différents afin de permettre la communication et l'échange du contenu de données entre eux, une telle utilisation n'est pas considéré un infringement" de brevet ; , qui permettrait apparemment l'exécution d'un système de fichiers breveté en cas de besoin pour permettre à deux ordinateurs différents d'interopérer.
Identification du type d'un dossier
Puisque des dossiers sont vus par des programmes comme jets des données, une méthode est exigée pour déterminer le format d'un dossier particulier dans le &mdash du système de fichiers ; un exemple des méta-données . Les différents logiciels d'exploitation ont traditionnellement adopté différentes approches à ce problème, avec chaque approche ayant ses propres avantages et inconvénients.Naturellement, la plupart des logiciels d'exploitation modernes, et différentes applications, le besoin d'employer toutes ces approches pour traiter de divers dossiers, pour pouvoir au moins lire les formats de fichier « étrangers », sinon le travail avec eux complètement.
Prolongation de nom de fichier
Une méthode populaire en service par plusieurs logiciels d'exploitation, y compris le Mac de OS x , CP/M , DOS , VMS , VM/CMS , et Windows , est de déterminer le format d'un dossier basé sur la section de son nom après la période finale. Cette partie du nom de fichier est connue comme prolongation de nom de fichier . Par exemple, des documents de HTML sont identifiés par les noms qui finissent avec .htm), et les images de GIF par . Dans le système de fichiers original de FAT , des noms de fichier ont été limités à une marque de huit-caractère et à une prolongation à trois caractères, qui est connue comme nom de fichier du 8. Beaucoup de formats emploient ainsi toujours des prolongements à trois caractères, quoique les logiciels d'exploitation et les programmes d'application modernes n'aient plus cette limitation. Puisqu'il n'y a aucune liste standard de prolongements, plus d'un format peut employer la même prolongation, qui peut confondre le du système d'exploitation et par conséquent les utilisateurs.Un dispositif de cette approche est que le système peut facilement être dupé dans traiter un dossier comme format différent simplement en retitrant l'it&mdash ; un dossier de HTML peut, par exemple, facilement être traité en tant que texte plat en le retitrant de filename.html à filename. Bien que cette stratégie ait été utile aux utilisateurs experts qui pourraient facilement comprendre et manoeuvrent cette information, elle confondait fréquemment aux utilisateurs moins techniques, qui pourraient accidentellement rendre un dossier inutilisable (ou « le perdre ») en le retitrant inexactement. Ceci a mené les coquilles du système d'exploitation plus récent tel que Windows 95 et le Mac de OS x , pour cacher la prolongation en montrant des listes de dossiers identifiés. Ceci sépare l'utilisateur du nom de fichier complet, empêchant le changement accidentel d'un type de dossier, tout en permettant aux utilisateurs experts de maintenir toujours la fonctionnalité originale en permettant le déploiement des prolongements de dossier.
Nombre magique
voient également :
nombre magique de (programmation) Une méthode alternative, souvent liée au Unix et à ses dérivés, est de stocker un " ; number" magique ; à l'intérieur du dossier lui-même. À l'origine, ce terme a été employé pour un ensemble spécifique de 2 - des marques du byte au début d'un dossier, mais puisque n'importe quel ordre binaire undecoded peut être considéré comme un nombre, n'importe quel dispositif d'un format de fichier qui le distingue uniquement peuvent être employés pour l'identification. Les images de GIF, par exemple, commencent toujours par la représentation du ASCII de GIF87a ou de GIF89a, selon la norme auxquels elles adhèrent. Beaucoup de types de dossier, le plus particulièrement plain-text classe, est plus difficile de repérer par cette méthode. Les dossiers de HTML, par exemple, pourraient commencer par le < de corde ; html> ; (qui ne distingue pas les majuscules et minuscules), ou un Document type definition approprié qui commence par le < ; ! DOCTYPE, ou, pour le XHTML , la marque du XML , qui commence par le < ; ? xml. Les dossiers ont pu également commencer par n'importe quel texte aléatoire ou plusieurs lignes vides, mais soient toujours HTML utilisable.
Cette approche offre de meilleures garanties que le format sera identifié correctement, et peut souvent déterminer des informations plus précises sur le dossier. Depuis le " fiable ; number" magique ; les essais peuvent être assez complexes, et chaque dossier doit effectivement être examiné contre chaque possibilité dans la base de données magique, cette approche est également relativement inefficace, particulièrement pour montrer de grandes listes de dossiers (en revanche, le nom de fichier et les méthodes méta-donnée-basées ont besoin de l'une seule pièce de contrôle seulement des données, et l'assortissent contre un index assorti). En outre, des données doivent être lues à partir du dossier lui-même, augmentant la latence par opposition aux méta-données stockées dans l'annuaire. Là où les filetypes ne se prêtent pas à l'identification de cette façon, le système doit retomber aux méta-données. C'est, cependant, la meilleure manière pour qu'un programme vérifie si un dossier on lui a dit que de traiter est du format correct : tandis que le nom ou les méta-données du dossier peut être changé indépendamment de son content, le manqu un essai bien projeté de nombre magique est un signe assez sûr que le dossier est ou corrompent ou du type inapproprié.
Les soi-disant lignes du shebang dans les dossiers de manuscrit de sont un cas spécial des nombres magiques. Ici, le nombre magique est un texte lisible pour l'homme qui identifie un interpréteur de commandes spécifique et des options à passer à l'interpréteur de commandes.
Méta-données explicites
Une manière finale de stocker le format d'un dossier est de stocker explicitement des informations sur le format dans le système de fichiers.Cette approche garde les méta-données séparé des données principales et du nom, mais est également moins portatif que les prolongements de dossier ou le " ; numbers" magique ; , puisque le format doit être converti du système de fichiers en système de fichiers. Tandis que c'est également vrai jusqu'à un degré avec le &mdash de prolongements de nom de fichier ; par exemple, pour la compatibilité avec le &mdash à trois caractères de la limite du MS-DOS ; la plupart des formes de stockage ont une définition rudement équivalente des données et du nom d'un dossier, mais peuvent ne pas avoir la variation ou aucune représentation d'autres de méta-données.
Noter que les dossiers de fermeture éclair ou les fichiers d'archives résolvent le problème de manipuler des méta-données. Un programme utilitaire rassemble les dossiers multiples ensemble avec des méta-données au sujet de chaque dossier et des chemises/des annuaires qu'ils sont venus de tous à moins d'un nouveau dossier (par exemple un dossier de fermeture éclair avec prolongation . Le nouveau dossier est également comprimé et probablement chiffré, mais est maintenant transmissible comme dossier simple à travers des logiciels d'exploitation par des systèmes de ftp ou attachés à l'email. À la destination, il doit être défait la fermeture éclair par une utilité compatible pour être utile, mais les problèmes de la transmission sont résolus de cette façon.
Type-codes d'OS de Mac
Le système de fichiers hiérarchique de d'OS de Mac de ' stocke des codes pour le créateur de et le type de en tant qu'élément de l'entrée de répertoire pour chaque dossier. Ces codes désigné sous le nom du OSTypes et par exemple d'un " de HyperCard ; stack" ; le dossier a un créateur WILD (du nom précédent de Hypercard, " ; WildCard" ;) et un type STAK. OS du RISC emploie un système semblable, se composant des 12 - le nombre du peu qui peut être recherché dans une table des descriptions - par exemple le nombre hexadécimal FF5 est " ; aliased" ; à PoScript, représentant un dossier du post-scriptum .
Type uniforme marques d'OS X de Mac (UTIs)
voient également : Type uniforme
de la marque Un type uniforme marque (UTI) est une méthode employée dans le Mac de OS x pour identifier uniquement le " ; typed" ; classes d'entité, telles que des formats de fichier. Elle a été développée par le Apple comme remplacement pour le OSType (type et codes de créateur de .
L'UTI est une corde de la base de noyau de , qui emploie une corde du Renversé-DNS . Les types communs ou standard emploient le domaine de public (par exemple public.png pour une image portative de graphiques de réseau de ), alors que d'autres domaines peuvent être employés pour les tiers types (par exemple com.pdf pour format de document portatif ). UTIs peut être défini dans une structure hiérarchisée, connue sous le nom de hiérarchie de conformité.png se conforme à un supertype de public.image, que lui-même conforme à un supertype de public. Un UTI peut exister dans des hiérarchies multiples, qui fournit la grande flexibilité.
En plus des formats de fichier, UTIs peut également être employé pour d'autres entités qui peuvent exister dans le système de fichiers de d'OS X , incluant :
Données de carton de
Chemises (annuaires) de
Types traduisibles (comme manipulé par le directeur de traduction)
Paquets
Cadres
Couler des données
Noms d'emprunt et symlinks
Le d'OS/2 prolongé attribue
Le HPFS , le FAT12 et les systèmes de fichiers de FAT16 (mais pas FAT32) permettent le stockage du " ; attributes" prolongé ; avec des dossiers. Ceux-ci comportent un ensemble arbitraire des triplets avec un nom, un type codé pour la valeur et une valeur, où les noms sont uniques et les valeurs peuvent être de jusqu'à 64 KBs de long. Il y a des significations normalisées pour de certains types et noms (sous OS/2). On tels est que le " ; .TYPE" ; l'attribut prolongé est employé pour déterminer le type de dossier. Sa valeur comporte une liste d'un ou plusieurs types de dossier liés au dossier, qui est une corde, telle que le " ; Text" plat ; ou " ; Document" de HTML ;. Ainsi un dossier peut avoir plusieurs types.Le système de fichiers du NTFS laisse également stocker des attributs prolongés par OS/2, car une de fourchettes dossier, mais ce dispositif est simplement présent pour soutenir le sous-système d'OS/2 (pas présent dans XP), ainsi le sous-système Win32 traite cette information comme bloc opaque de données et ne l'emploie pas. Au lieu de cela, il se fonde sur d'autres fourchettes de dossier pour stocker la méta-information dans des formats de Win32-specific. OS/2 a prolongé des attributs peut être lu et toujours écrit par les programmes Win32, mais les données doivent être entièrement analysées par des applications.
Attributs prolongés par POSIX
Sur le Unix et le Unix-comme des systèmes de , le Ext2 , le Ext3 , les systèmes de fichiers de la version 3 de ReiserFS , du XFS , du JFS , du FFS , et du HFS+ permettre le stockage des attributs prolongés avec des dossiers. Ceux-ci incluent une liste arbitraire de " ; name=value" ; cordes, où les noms sont uniques, qui peuvent être accédés par leur " ; name" ; pièces.
Marques uniques de PRONOM (PUIDs)
La marque unique persistante du (PUID) PRONOM est un arrangement extensible des marques persistantes, uniques et non ambiguës pour des formats de fichier, qui a été développé par le les archives nationales du R-U en tant qu'élément de son service technique de l'enregistrement du PRONOM. PUIDs peut être exprimé en tant que marques de ressource uniforme using le info : namespace de pronom/. Bien que pas encore employé couramment l'extérieur du gouvernement BRITANNIQUE et de quelques programmes de la conservation de Digitals de , l'arrangement de PUID fournit une plus grande granularité que la plupart des arrangements alternatifs.
Types de MIME
Les types de MIME sont employés couramment dans les beaucoup l'Internet - applications relatives de , et de plus en plus ailleurs, bien que leur utilisation pour le type l'information de sur-disque soit rare. Ceux-ci se composent d'un système normalisé des marques (contrôlées par IANA ) se composant d'un type de et d'un sous-type de , séparé par un &mdash de la barre oblique ; par exemple, text/html ou image/gif. Ceux-ci ont été à l'origine prévus comme manière d'identifier quel type de dossier a été attaché à un email , à l'indépendant de la source et aux logiciels d'exploitation de cible. Les types de MIME identifient des dossiers sur le BeOS , aussi bien que les signatures uniques d'application de magasin pour le lancement d'application.Il y a des problèmes avec les types de MIME cependant ; plusieurs organismes et personnes ont créé leurs propres types de MIME sans les enregistrer correctement avec l'IANA, qui fait l'utilisation de ce maladroit standard dans certains cas.
Marques de format de fichier (FFIDs)
Les marques de format de fichier est des autres, manière non employée couramment identifier des formats de fichier selon leur origine et leur catégorie de dossier. Il a été créé pour la suite d'explorateur de description du logiciel. Il se compose de plusieurs chiffres de la forme NNNNNNNNN-XX-YYYYYYY. La première partie indique l'origine d'organisation/défenseur (ce nombre représente une valeur dans une compagnie/une base de données organisme de normalisation), les 2 chiffres suivants classent le type de dossier dans l'hexadécimal. La partie finale se compose de prolongation de dossier habituelle du dossier ou de nombre de norme internationale du dossier, capitonné à gauche avec des zéros. Par exemple, les spécifications de dossier de png ont le FFID de 000000001-31-0015948 où 31 indique un dossier d'image, 0015948 sont le nombre standard et 000000001 indique l'organisation d'OIN.
Structure de dossier
Il y a plusieurs types de manières de structurer des données dans un dossier. Le plus habituel est décrit ci-dessous.
Décharges de mémoire crues/formats non structurés
Des formats de fichier plus tôt ont employé les formats de données brutes qui se sont composés vider directement les images de mémoire d'une ou plusieurs structures dans le dossier.Ceci a plusieurs inconvénients. À moins que les images de mémoire également aient réservé les espaces pour de futurs prolongements, se prolongeant et s'améliorant ce type de dossier structuré est très difficile. Il crée également les dossiers qui pourraient être spécifiques à un langage de plate-forme ou de programmation (par exemple une structure contenant une corde de Pascal n'est pas identifiée en tant que tels dans le C ). D'une part, se développer usine pour la lecture et l'écriture ces types de dossiers est très simple.
Les limitations des formats non structurés ont mené au développement d'autres types de formats de fichier qui pourraient être facilement prolongés et étés en arrière - compatible en même temps.
Le morceau a basé des formats
Electronic Arts et Commodore-Amiga ont frayé un chemin ce format de fichier en 1985, avec leur format de fichier d'IFF (format de fichier d'échange de ). Dans ce genre de structure de dossier, chaque morceau de données est inclus dans un récipient qui contient une signature identifiant les données, aussi bien la longueur des données (pour les dossiers codés binaires). Ce type de récipient s'appelle un morceau. La signature s'appelle habituellement une identification de morceau, une marque de morceau, ou une marque d'étiquette.Avec ce type de structure de dossier, les outils qui ne savent pas certaines marques de morceau sautent simplement ceux qu'ils ne comprennent pas.
Ce concept a été pris à plusieurs reprises par RIFF (équivalent de Microsoft-IBM d'IFF), png , stockage de JPEG , jets codés et dossiers de DER (le codage distingué de ordonne ), et format d'échange de données structuré par (SDXF) . Même le XML peut être considéré un genre de format basé par morceau, puisque chaque élément d'informations est entouré par les étiquettes qui sont apparentées aux marques de morceau.
L'annuaire a basé des formats
C'est un autre format extensible, cela ressemble étroitement à un système de fichiers (VIEUX documents de sont des systèmes de fichiers réels), où le dossier se compose de « entrées de répertoire » qui contiennent l'endroit des données dans le dossier lui-même aussi bien que ses signatures (et dans certains cas son type). Les bons exemples de ces types de structures de dossier sont de de disque des images de VIEUX documents du et images de tiff .| Random links: | Modèle de secteur | Bâti Helicon | Paul McCoy | Armes de la ZM | Shane McLeod | Formato_de_archivo |