汉字编码是用于将汉字转换为计算机可识别数字形式的技术,主要分为以下几类:
一、常见汉字编码标准
GB2312 - 中国国家强制标准,包含6763个常用汉字及符号,采用双字节编码(每个汉字2个7位二进制数)。
- 编码范围:汉字部分为0xB0-0xF7(高字节)和0xA0-0xFE(低字节)。
GBK
- GB2312扩展版,支持超过20000个汉字(含繁体字),同样采用双字节编码。
- 编码范围:汉字部分为0x81-0xFE(129-255)。
GB18030
- 最新国家标准,收录超7万个汉字,包括生僻字、少数民族文字等,支持单/双/四字节编码。
Unicode
- 全球通用字符集,包含所有已知语言字符,采用变长编码(1-4个字节)。
二、编码体系结构
区位码: 将汉字映射到94×94矩阵中的坐标(区+位),用于早期汉字编码。 机内码
三、其他相关概念
输入码:
用户通过键盘输入的编码,如拼音码、五笔字型码等。
输出码:
将汉字以图形形式输出到设备(如显示器)的编码,通常为点阵形式。
交换码:
计算机间信息交换的标准编码,如ASCII。
四、补充说明
Big5:主要用于香港和台湾地区,繁体字编码范围0x81-0xFE。
HZ码:互联网常用编码,基于“纯国标”与美标混合方案。
UCS/ISO-8859:国际标准,包含所有语言字符,与Unicode兼容。
以上编码标准根据应用场景和需求选择使用,例如网页显示多用Unicode,数据库存储可能采用GB18030等。