Gigaoctet 2312

Le GB2312 est le nom Internet inscrit pour un jeu de caractères officiel principal du République populaire de Chine , utilisé pour les caractères chinois simplifiés par . Le le gigaoctet abrège le Guojia Biaozhun (国家标准), qui signifie la norme nationale de dans le Chinois.

GB2312 (1980) a été remplacé par GBK et GB18030 , qui incluent les caractères spéciaux, mais GB2312 est toujours néanmoins dans l'utilisation répandue.

Tandis que GB2312 couvre 99.75% des caractères utilisés pour l'entrée chinoise, les textes historiques et beaucoup de noms demeurent hors de la portée.763 caractères chinois (à deux niveaux : le premier est arrangé par la lecture, la deuxième par le nombre de radical puis de courses), avec des symboles et ponctuation, kana japonais, les alphabets grecs et cyrilliens, Zhuyin, et un ensemble de double-byte de lettres de Pinyin avec des marques de tonalité.

Il y a un jeu de caractères analogue étroitement lié à GB2312, avec les formes traditionnelles de caractère du remplaçant les formes simplifiées, connues sous le nom de GB/T 12345. les polices Gigaoctet-codées viennent souvent dans les paires, une avec le jeu de caractères du gigaoctet 2312 (jianti) et l'autre avec le jeu de caractères de GB/T 12345 (fanti).

< ! -- traduit du wikipedia chinois -->

Caractères

Des caractères dans GB2312 sont arrangés dans une grille 94x94 (comme dans ISO_2022 ), et le codepoint à deux bits de chaque caractère est exprimé sous la forme de kuten (ou quwei), qui spécifie une rangée (ku ou qu) et la position du caractère dans la rangée (dix ou wei).

Les rangées (numérotées de 1 à 94) contiennent des caractères comme suit :
01-09, comportant la ponctuation et d'autres caractères spéciaux.
16-55, le premier avion pour les caractères chinois, disposé selon Pinyin.
56-87, le deuxième avion pour les caractères chinois, disposé selon le radical et les courses.

Les rangées 10-15 et 88-94 sont non affectées.

Codages de GB2312

EUC-CN

Le EUC-CN est employé souvent comme codage de caractère de (c. pour le stockage externe) dans les programmes qui traitent GB2312, de ce fait maintenant compatibilité avec le ASCII . Deux bytes sont employés pour représenter chaque caractère non trouvé dans l'ASCII. La valeur de la première le byte est de 0xA1-0xF7 (161-247), alors que la valeur du deuxième byte est de 0xA1-0xFE (161-254). Par conséquent, comme le UTF-8 , il est possible pour vérifier si un byte fait partie d'une construction à deux bits en employant EUC-CN.

Comparé à UTF-8, GB2312 (s'indigène ou codé dans EUC-CN) est également plus de stockage efficace, puisque des caractères chinois sont limités à un maximum de deux bytes chacun, alors qu'UTF-8 emploie au moins trois bytes.

Pour tracer les points de code aux bytes, additionner 160 (0xA0) au 1000's et à la valeur de 100 du point de code pour former le byte élevé, et additionner 160 (0xA0) aux 10 et 1 valeurs du point de code pour former le bas byte.

Par exemple, si vous avez le point de code GB2312 4566 (" ; étranger, " ;), le byte élevé viendra de 45 (4500), et le bas byte viendra de 66 (0066). Pour le byte élevé, additionner 45 à 160, en donnant 205 ou 0xCD. Pour le bas byte faire la même chose, additionner 66 à 160, en donnant 226 ou 0xE2. Ainsi, le plein codage est 0xCDE2.

Hertz

Le hertz est un autre codage de GB2312 qui est employé la plupart du temps pour des signalisations de l'USENET .

Voir également

Code de Guobiao de
CJK
Codage de caractère chinois de
Unicode
GB18030
GBK
Big5 - norme utilisée Taiwan et à Hong Kong

.

Random links:Alfons Mucha | Étang de Peter | Récompense de service de longévité de l'Armée de l'Air | Traînée de fleuve de Yarra | Gabriel Zubeir Wako | GB_2312