UTF-32/UCS-4
Unicode capable Le UTF-32 et le UCS-4 sont des noms alternatifs pour une méthode de coder des caractères d'Unicode , using la quantité fixe d'exactement 32 bits pour chaque point de code de d'Unicode . Il peut être considéré comme la forme de codage la plus simple, car tous autres formats de transformation d'Unicode ont des codages de longueur variable pour différents points de code.
Cependant, parce qu'UTF-32 emploie 4 bytes pour chaque caractère c'est tout à fait l'espace inefficace. Spécifiquement, les caractères non- de BMP sont si rare en la plupart de texte qu'ils peuvent être aussi bien considérés inexistants pour des discussions de classement par taille. Ceci signifie qu'UTF-32 est généralement au moins deux fois la taille d'autres codages et parfois pas moins de 4 fois la taille.
Également tandis qu'un nombre de bytes fixe par point de code peut sembler commode d'abord on ne l'emploie pas vraiment que beaucoup. Il facilite la troncation légèrement mais pas de manière significative ainsi comparé au UTF-8 et au UTF-16 . Il ne facilite pas calculant la largeur montrée d'une corde excepté dans des cas très limités puisque même avec une police « a fixé largeur » là peut être plus d'un point de code par position d'impression ( combinant marques ) ou en effet plus d'une position d'impression par point de code (par exemple idéographes de CJK ). Combinant les marques signifient également que les rédacteurs ne peuvent pas traiter un point de code en tant qu'étant identiques qu'une unité pour l'édition.
Histoire
La norme originale d'OIN 10646 définit une forme de codage de de 31 bits appelée UCS-4 , dans lequel chaque caractère codé dans le jeu de caractères universel (UCS) de est représenté par un élément de code amical à 32 bits de dans l'espace de code de des nombres entiers entre 0 et du hexadécimal 7FFFFFFF.UCS-4 est suffisant pour représenter tout les espace de code d'Unicode, qui a 1114112 (= 220+216) points de code et les exige donc seulement jusqu'à 10FFFF hexadécimal. Certains le considèrent inutile de réserver un si grand espace de code pour tracer un ensemble relativement petit de points de code, ainsi une nouvelle forme de codage, UTF-32, a été proposée. UTF-32 est un sous-ensemble d'UCS-4 qui emploie des éléments de code à 32 bits seulement dans le 0 à l'espace du code 10FFFF.
UTF-32 était à l'origine un sous-ensemble de la norme UCS-4, mais le document de principes et de procédures du JTC1/SC2/WG2 déclare que toutes les futures attributions des caractères seront contraintes au BMP ou aux 14 premiers avions supplémentaires et a enlevé d'anciennes dispositions pour privé-emploient des positions de perforations dans les groupes 60 à 7F et dans des avions E0 au FF.
En conséquence UCS-4 et UTF-32 peuvent être maintenant pris pour être identiques sauf que la norme UTF-32 a la sémantique additionnelle d'Unicode qui doit être observée.
Voir également
Comparaison de des codages d'Unicode .
| Random links: | Blaireau, le Dakota du Sud | Pénélope Spheeris | Liste des maladies (d) | Avicenna (cratère) | Tamara Karsavina | UTF-32/UCS-4 |