汉字交换码是用于不同计算机系统之间交换汉字信息的标准化编码,其具体形式和结构如下:
一、编码形式
双字节结构 汉字交换码采用双字节编码方式,每个汉字由两个8位二进制字节组成,总长度为16位。
编码规则
- 每个字节的最高位固定为0,其余7位用于表示字符编码,实际可用编码数量为94×94=8836个汉字。
- 通过94个区(01-94)×94个位(01-94)的二维矩阵组织,每个汉字由唯一的“区位码”(区号+位号)确定。
二、编码内容
汉字部分: 包含6763个常用汉字(3755个一级汉字+3008个二级汉字)。
非汉字符号:涵盖682个西文字符、标点符号、数字等。
三、编码示例
以汉字“你”为例:
区位码:
根据字典序,“你”位于第3755个汉字位置,对应的区位码为“4E2D”(十进制)。
国标码:
将区位码转换为十六进制后加0x80,即“540D”。
机内码:
为避免与西文字符冲突,机内码在国标码基础上加0x20,最终为“5C2D”。
四、兼容性与扩展
兼容性:GB2312-80标准自1980年代起长期作为国家标准,后续的GBK、GB18030等扩展标准在原有基础上增加了更多汉字和符号。
扩展方案:通过增加高位区(如扩展区)实现更大字符集的编码,例如UTF-8采用变长编码以支持全Unicode字符。
总结
汉字交换码通过双字节结构、区位码体系和扩展机制,实现了不同系统间的汉字信息标准化交换。其设计兼顾了兼容性与扩展性,是计算机处理汉字的基础编码标准之一。