Big5

Le Big-5 ou le Big5 est une méthode du codage de caractère de employée dans le Taiwan , Hong Kong et le Macao pour équivalent de la Chine continentale des caractères de chinois traditionnel de son est le le gigaoctet .

Organisation

Le jeu de caractères Big5 original est assorti d'abord par la fréquence d'utilisation, en second lieu par compte de course, pour finir par le Kangxi radical.

Le jeu de caractères Big5 original a manqué de beaucoup de caractères utilisés généralement. Pour résoudre ce problème, chaque fournisseur a développé sa propre prolongation. La prolongation d'ETen est devenue une partie de la norme Big5 courante par la popularité.

La structure de Big5 ne se conforme pas à la norme d'OIN 2022 , mais soutient plutôt une certaine similitude au codage du décalage JIS . C'est un jeu de caractères de double-byte de (DBCS) avec la structure suivante :

Un regard plus détaillé à l'organisation

Dans le Big5 original, le codage est compartimenté dans différentes zones :

Quel code Big5 code réellement

Le contraire à la croyance populaire, un code Big5 individuel ne représente pas toujours une unité sémantique complète. Les codes Big5 des logograms sont toujours des logograms, mais des codes dans le " ; characters" graphique ; la section ne sont pas toujours " complet ; characters" graphique ;. Quel Big5 code sont les représentations graphiques particulières des caractères ou la partie de caractères qui arrivent à l'ajustement dans l'espace pris par deux caractères d'ASCII de monospaced. C'est une propriété des jeux de caractères de double-byte comme normalement utilisée dans CJK (chinois, japonais, et Coréen) calculant, et n'est pas un problème unique de Big5.

(Le besoin ci-dessus de force une certaine explication en la mettant dans la perspective historique, car c'est le théoriquement incorrect : Soutenir quand mode des textes le calcul que personnel était toujours la norme, des caractères ont été normalement représentés comme les bytes simples et chaque caractère prend une position sur l'écran. Il y avait donc une raison pratique d'insister sur le fait que les caractères de double-byte doivent prendre deux positions sur l'écran, à savoir qui le logiciel disponible immédiatement et American-made serait alors utilisable sans modification dans un système DBCS-basé. Si un caractère peut prendre un nombre arbitraire de positions d'écran, le logiciel qui a été écrit avec la prétention qu'un byte texte prend une position d'écran produirait le rendement incorrect. Naturellement, si un ordinateur devait ne jamais traiter l'écran des textes, le fabricant n'imposerait pas cette restriction artificielle ; Apple Macintosh est un exemple. Néanmoins, le codage lui-même doit être conçu de sorte qu'il travaille correctement sur les systèmes texte-écran-basés.)

Pour illustrer ce point, considérer Big5 le code 0xa14b (…). Aux anglophones ceci ressemble à des points de suspension et la norme d'Unicode les identifie en tant que tels ; cependant, dans le Chinois, les points de suspension se composent de six points qui se sont adaptés en l'espace de deux caractères chinois (.), là ne sont tellement en fait aucun code Big5 pour les points de suspension chinois, et Big5 le code 0xa14b représente juste la moitié des points de suspension chinois. Il représente seulement la moitié des points de suspension parce que les points de suspension entiers devraient prendre l'espace de deux caractères chinois, et dans beaucoup de systèmes de DBCS un caractère de DBCS doit prendre exactement l'espace d'un caractère chinois.

Les caractères codés dans Big5 ne représentent pas toujours les choses qui peuvent être aisément employées dans des dossiers des textes plats ; un exemple est " ; mark" de citation ; (0xa1ca, ﹋), qui est, une fois utilisé, requis pour être composé sous le titre des ouvrages littéraires. Un autre exemple est les numéros de Suzhou de , qui est une forme de la notation scientifique qui exige du nombre d'être présenté sous une 2-D forme se composant au moins de deux rangées.

Les ordinateurs monocarte assortis

Dans la pratique, Big5 ne peut pas être employé sans jeu de caractères simple assorti de byte de (ordinateurs monocarte) ; c'est la plupart du temps de faire avec une raison de compatibilité. Cependant, comme dans le cas d'autres jeux de caractères de CJK DBCS, les ordinateurs monocarte à employer n'a été jamais spécifiés. Big5 a été toujours défini comme DBCS, bien qu'une fois utilisé lui doit être appareillé avec un approprié, les ordinateurs monocarte de unspecfied par et employé donc car ce que certains appellent un MBCS ; néanmoins, Big5 par lui-même, comme défini, est strictement un DBCS.

Les ordinateurs monocarte pour utiliser être non spécifiés implique que les ordinateurs monocarte utilisés peuvent théoriquement varier de système/système. De nos jours, l'ASCII est les seuls ordinateurs monocarte possibles un emploierait. Cependant, dans vieux DOS - systèmes basés, la page de code de 437 - avec ses symboles spéciaux supplémentaires dans le secteur de code de commande comprenant la position 127 était beaucoup plus commun. Cependant, sur un système de Macintosh avec le kit chinois de langue, ou sur un système Unix Courant le terminal emulator de cxterm, les ordinateurs monocarte appareillés avec Big5 ne seraient pas la page de code 437.

En dehors de la gamme valide de Big5, les vieux systèmes DOS-basés interpréteraient par habitude des choses selon les ordinateurs monocarte qui est appareillé avec Big5 sur ce système. Dans de tels systèmes, les caractères 127 160, par exemple, étaient très probables non évités parce qu'ils produiraient Big5 inadmissible, mais ont employé parce qu'ils seraient les caractères valides en page de code 437.

La caractérisation moderne de Big5 comme MBCS comprenant le DBCS de Big5 plus les ordinateurs monocarte de l'ASCII est donc historiquement incorrecte et potentiellement défectueuse, comme le choix des ordinateurs monocarte assortis était, et est théoriquement toujours, tout à fait indépendant de la saveur de Big5 étant employé.

Histoire

Le codage Big5 a été défini par l'institut pour l'industrie de l'information de Taiwan en 1984. Le " nommé ; Big5" ; peut dériver des cinq compagnies (Acer, MiTAC, JiaJia, zéro un, FIC) qui ont développé la norme, ou elle peut se rapporter au développement et à l'appui prévus de cinq progiciels importants. Selon quelques comptes, Big5 a été popularisé par son adoption dans plusieurs progiciels commerciaux, en particulier ET système chinois qui ont fonctionné sur le MS-DOS .

Le gouvernement du Republic Of China l'a déclaré leur norme au milieu des années 80 puisque Big5 était déjà la norme de fait du à ce moment-là.

Prolongements

Les Big-5 originaux incluent seulement des logograms de CJK de et, mais pas des lettres des noms des personnes, des noms de lieu, dialectes, la chimie , la biologie , japonais Kana de . En conséquence, le logiciel de soutien beaucoup de Big-5 incluent des prolongements pour aborder les problèmes.

Prolongements de fournisseur

Prolongements d'ETEN

Dans du système d'exploitation chinois du ETEN (倚天), les points de code suivants sont ajoutés pour le rendre conforme avec la page de code du IBM5550 :
Caractères de commande de 0h33 du

A3C0-A3E.
C6A1-C875 : cercle 1-10, parenthèse 1-10, lettres romaines 1-9 (i-ix), glyphs radicaux de CJK, Hiragana japonais , katakanas japonais , caractères cyrilliens de de du
F9D6-F9FE : « 碁 », « 銹 », « 恒 », « 裏 », « 墻 », « 粧 », « 嫺 », et 34 symboles supplémentaires.

Dans quelques versions d'Eten, il y a des symboles extra graphiques et des caractères du Chinois simplifié .

Pages de code de Microsoft

Microsoft (微軟) a créé sa propre version de la prolongation Big5 en tant que page de code de 950 pour l'usage avec le Microsoft Windows qui soutient les prolongements d'ETEN, mais seulement les points de code de F9D6-F9FE. Dans le Windows JE , l'euro symbole monétaire de du est tracé au point de code Big-5 A3E1, mais pas dans des versions postérieures du du système d'exploitation.

Après installation de la pièce rapportée du HKSCS de Microsoft sur le chinois traditionnel Windows (ou toute version de Windows 2000 et en haut avec le paquet approprié de langue), les applications using la page de code 950 emploient automatiquement une table cachée de la page de code 951. La table soutient tous les points de code dans HKSCS-2001, excepté les points de code de compatibilité spécifiques par la norme.

La page de code 950 a employé par le Windows 2000 et les hiragana de cartes de Windows Xp et les caractères de kanatana au secteur privé d'utilisation d'Unicode bloquent quand exportant vers Unicode, mais vers les blocs appropriés d'Unicode de hiragana et de kanatana dans Windows Vista.

Police de ChinaSea

Les polices de ChinaSea (中國海字集) sont des polices de chinois traditionnel faites par ChinaSea. Les polices sont rarement vendues séparément, mais sont empaquetées avec d'autres produits, tels que la version chinoise du Microsoft Office 97 . Les polices soutiennent le japonais Kana , le Kokuji , et d'autres caractères manquant dans Big-5. En conséquence, les prolongements de ChinaSea sont devenus plus populaires que les prolongements gouvernement-soutenus. Un certain BBSes de Hong Kong avait employé des codages dans des polices de ChinaSea avant l'introduction du HKSCS .

Police de « Sakura »

La police de « Sakura » (version de Sakura de 日和字集) est développée à Hong Kong et est conçue pour être compatible avec le HKSCS . Elle ajoute le soutien du Kokuji et du de propriété industrielle Dingbats ( y compris Doraemon ) non trouvé dans HKSCS.

Unicode-à-une fois

Unicode-à-une fois (), autrefois la prolongation BIG5, se prolonge BIG-5 en changeant des tables de pages de code, mais emploie les prolongements de ChinaSea commençant par la version 2. Cependant, avec la faillite de ChinaSea, de développement en retard, et de la popularité croissante du HKSCS et du Unicode (le projet n'est pas compatible avec HKSCS), le succès de cette prolongation est limité au mieux.

En dépit des problèmes, les caractères précédemment tracés à l'utilisation privée d'Unicode sont remapped aux équivalents normalisés en exportant des caractères vers Unicode composent.

OPG

Les sites Web des nouvelles quotidiennes d'Oriental de et du Sun quotidien, appartient au Oriental Press Group Limited (東方報業集團有限公司) à Hong Kong, emploient une police téléchargeable que le codage de la prolongation Big-5 diffèrent du HKSCS .

Prolongements officiels

Ministère de l'éducation de Taiwan la police

Le ministère de l'éducation de Taiwan a fourni sa propre police, le ministère de l'éducation de Taiwan la police (臺灣教育部造字檔) pour l'usage intérieurement.

Le Conseil de Taiwan de la police d'agriculture

Le Conseil du de Taiwan de la police d'agriculture, le yuan exécutif a présenté une police à la carte de 133 caractères, le Conseil de Taiwan de la police d'agriculture (臺灣農委會常用中文外字集) qui inclut 84 caractères du radical de « poissons » et 7 du radical de « oiseau ».

Big5+

La base chinoise de pour la technologie (中文數位化技術推廣委員會) de numérotisation a présenté Big5+ en 1997, qui a employé plus de 20000 points de code pour incorporer tous les logograms de CJK dans Unicode 1. Cependant, les points de code supplémentaires ont dépassé la définition Big-5 originale (valeurs 81-FE de byte élevé d'utilisations de Big5+ et valeurs basses 40-7E et 80-FE de byte), l'empêchant d'être installée sur Microsoft Windows.

Big-5E

Pour permettre à des utilisateurs de Windows d'employer les polices à la carte, la base chinoise de pour la technologie de numérotisation a présenté Big-5E, qui a inclus 3954 caractères. Le système est incompatible avec Big5+ et a enlevé le kana japonais de la prolongation d'ETEN, ainsi il est devenu inpopulaire.

Big5-2003

La base chinoise de pour la technologie de numérotisation faite une définition Big5 et l'a mise dans le CNS 11643 sous la forme de note, lui faisant une partie de la norme de fonctionnaire dans Taiwan.

Big5-2003 incorpore tous les caractères Big-5 présentés dans les 1984 prolongements d'ETEN (points de code A3C0-A3E0, C6A1-C7F2, et F9D6-F9FE) et l'euro symbole. Les caractères cyrilliens n'étaient pas inclus parce que l'autorité a réclamé CNS 11643 n'inclut pas de tels caractères.

Pdc

Le Academia Sinica a fait une police de pdc (漢字構形資料庫) dans 90s en retard, qui derniers caractères inclus de la version de dégagement 2.533, certains moins que les polices de Mojikyo .

HKSCS

Le Hong Kong a également adopté Big5 pour le codage de caractère. Cependant, le Cantonese emploie beaucoup de caractères chinois archaïques et quelques familiers qui n'étaient pas disponibles dans le jeu de caractères Big5 normal. Pour résoudre ce problème, le gouvernement de Hong Kong a créé le jeu de caractères chinois de gouvernement de des prolongements Big5 dans le 1995 et jeu de caractères supplémentaire de Hong Kong de dans le 1999 . Les prolongements de Hong Kong ont été généralement distribués sous forme d'une pièce rapportée. Elle est toujours en train d'être distribuée sous forme d'une pièce rapportée par Microsoft, mais une pleine police d'Unicode est également fournie par le site Web de gouvernement de Hong Kong.

Il y a deux arrangements de codage de HKSCS : un arrangement de codage est pour le Big-5 codant la norme et l'autre est pour la norme d'OIN 10646. À la suite du dégagement initial, il y a également HKSCS-2001 et de HKSCS-2004. Le HKSCS-2004 est aligné techniquement avec le 10646:2003 et sa modification 1 d'ISO/IEC édités en avril 2004 par l'International Organization for Standardization (OIN).

Le HKSCS inclut tous les caractères de la prolongation commune d'ETEN, plus quelques caractères du chinois simplifié , des noms de lieu, des noms des personnes, et des expressions de Cantonese (blasphème y compris ).

Voir également

Unicode
Unification de Han de
Méthodes d'entrée chinoises de pour les ordinateurs

.

Random links:1066 et tout cela | Endicott, Washington | Parc industriel | Bétail de Nguni | La fille de Gregory | Big5