ASCII prolongée
Le par ASCII prolongée de limite (ou ASCII élevée de ) décrit le de huit bits ou les plus grands codages de caractère de qui incluent les sept caractères standard du ASCII du peu aussi bien que d'autres. L'utilisation de la limite est parfois critiquée, parce qu'il peut de manière erronée interpréter que la norme d'ASCII a été mise à jour pour inclure plus de 128 caractères ou que la limite identifie clairement un codage simple, qui sont faux.
Motifs pour l'élargissement
Puisque le nombre de symboles écrits utilisés dans les langages naturels commun dépasse de loin la gamme limitée du code d'ASCII, beaucoup de prolongements à lui ont été employés pour faciliter la manipulation de ces langues. Les marchés pour les ordinateurs et le matériel de transmission en dehors des pays d'expression anglaise étaient historiquement ouverts longtemps avant que les organismes de normalisation aient eu le temps pour délibérer sur la meilleure manière de leur adapter, tellement là sont beaucoup de prolongements de propriété industrielle incompatibles à l'ASCII.Puisque l'ASCII est un code de sept-peu et la plupart des ordinateurs manoeuvrent des données dans de huit bits de prolongements des bytes beaucoup emploient les 128 codes additionnels disponibles en employant chacun des huit bits de chaque byte. Ceci aide à inclure beaucoup de langues autrement pas facilement représentables dans l'ASCII, mais à couvrir toujours pas assez toutes les langues des pays dans lesquels des ordinateurs sont vendus, ainsi même ces prolongements de huit bits ont dû avoir des variantes locales.
Prolongements de propriété industrielle
Les divers prolongements de propriété industrielle sont apparus sur l'unité centrale non- et les mini-ordinateurs de l'EBCDIC , particulièrement aux universités. Les micro-ordinateurs de commodore ont ajouté beaucoup de symboles graphiques à leur ASCII non standard ( PETSCII , basé sur le niveau original d'ASCII de 1963). IBM a présenté des codes prolongés de huit bits d'ASCII sur le PC d'IBM original de et des variations produites postérieures pour différentes langues et cultures. IBM a appelé de telles pages de code de de jeux de caractères et assigned number aux les deux ceux elles elles-mêmes inventées comme beaucoup inventés et employés par d'autres fabricants. En conséquence, des jeux de caractères sont très souvent indiqués par leur numéro de page de code d'IBM. En pages de code ASCII-compatibles, les 128 caractères inférieurs ont maintenu leurs valeurs standard d'US-ASCII, et différentes pages (ou ensembles de caractères) pourraient être rendus disponibles en 128 caractères supérieurs. Les ordinateurs de DOS construits pour le marché nord-américain, par exemple, ont employé la page de code de 437 , qui a inclus les caractères accentués requis pour français, allemand, et quelques autres langues européennes, aussi bien que quelques caractères de traçage de lignes graphiques. Le jeu de caractères plus grand a permis pour créer des documents dans une combinaison des langues telles que le anglais et le français (bien que les ordinateurs français emploient habituellement la page de code de 850 ), mais pas, par exemple, en anglais et le grec (qui la page de code required 737).Le Digital Equipment Corporation a développé un " ; " multinational de jeu de caractères ; , qui a eu peu de caractères mais plus de combinaisons de lettre et de signe diacritique, basés sur des versions provisoires d'OIN 8859 . Il a été soutenu par le VT220 et les terminaux d'ordinateur postérieurs de de DEC
OIN 8859 et adaptations de propriété industrielle
Par la suite, OIN a libéré cette norme comme OIN 8859 décrivant son propre ensemble de prolongements de huit bits d'ASCII. Le plus populaire était OIN 8859-1 , également appelée l'OIN Latin1, qui a contenu des caractères suffisamment pour les langues d'Europe occidentale les plus communes. Des variations ont été aussi bien normalisées pour d'autres langues : OIN 8859-2 pour oriental - langues européennes et OIN 8859-5 pour des langues cyrilliennes, par exemple. Une manière notable dont les jeux de caractères d'OIN diffèrent des pages de code est que les positions d'impression 128 159, correspondant aux caractères de commande de d'ASCII à l'ensemble de peu d'ordre élevé, sont spécifiquement inutilisées et non définies dans les normes de l'OIN, bien qu'ils aient été souvent employés pour les caractères imprimables en pages de code de propriété industrielle, une rupture des normes de l'OIN qui était presque universelle. Microsoft plus tard a créé la page de code de 1252 , un superjeu compatible d'OIN 8859-1 avec les caractères supplémentaires dans la gamme inutilisée d'OIN. La page de code 1252 est le codage de caractère standard des versions linguistiques d'Europe occidentale du Microsoft Windows , y compris des versions anglaises. OIN 8859-1 est le codage commun de caractère employé par le système de fenêtre du X, et la plupart des normes de l'Internet . Le Apple Macintosh , sous le Mac de OS x , emploie actuellement le Unicode en tant que son codage de défaut. Sous OS de Mac de , il a employé OS romain de Mac de .
Confusion de jeu de caractères
Puisque ces prolongements d'ASCII ont tant de variantes, il est nécessaire d'identifier que réglé est employé pour un texte particulier pour qu'il soit interprété correctement. Cependant, parce que les caractères plus-utilisés (ceux dans l'ASCII, les points de code de sept-peu) sont communs à tous les ensembles--même plus classe des propriétaires ceux--le manque d'identifier correctement un jeu de caractères ne souffre souvent aucune conséquence défavorable si l'utilisateur introduit au clavier anglais. De plus, parce que beaucoup de normes d'Internet emploient OIN 8859-1, et parce que Microsoft Windows (using le superjeu 1252 de page de code d'OIN 8859-1) est le du système d'exploitation dominant pour des PCs aujourd'hui, l'utilisation inattendue d'OIN 8859-1 est tout à fait banale, et devrait généralement être supposée sans évidence à l'effet contraire.Dans beaucoup de protocoles, d'une manière plus importante email et HTTP , le codage de caractère du contenu doit être étiqueté avec IANA - marques assignées de de jeu de caractères.
Unicode
Une proposition appelée le Unicode a été faite dans le 1991 pour aborder plusieurs de ces problèmes, et est maintenant largement acceptée.112 (= 220 + 216) points de code, et assigne actuellement des caractères plus d'à 101.000 de ces points de code. Les 256 premiers codes assortissent avec précision ceux du ISO-8859-1 .000 points de code, actuellement, sont employées pour le chinois, le japonais et les caractères coréens du .
Voir également
Méthode d'entrée .
| Random links: | Empereur il de Han | Vendeurs de piliers | Chute de l'empire de tabouret | Terry Garrity | Seax | ASCII_extendido |