汉字编码是计算机对汉字进行存储、传输和处理的编码体系,其构成可分为以下核心部分:
一、主要分类
输入码 用于将汉字输入计算机的编码方式,如拼音码、五笔字型码、区位码等。
交换码(国标码)
计算机内部用于信息交换的标准编码,如GB2312、GBK等。
机内码
计算机内部实际存储和处理的编码,通常在国标码基础上加8083转换为全大写形式。
字形码
汉字输出时所使用的编码,将汉字转换为图形显示,如点阵字形、矢量字形等。
二、补充说明
区位码
属于交换码的一种,通过将汉字在字符矩阵中的位置用两个字节表示(区号+位号),例如“我”字的区位码为01-09区+49位。
扩展编码
如GBK扩展了GB2312的简繁体汉字支持,Big5专门用于繁体汉字。
国际标准
Unicode是跨平台的通用编码标准,包含全球所有字符,如汉字、英文等。
三、编码结构示例(以GB2312为例)
编码范围: 0xB0-0xF7(高字节)+0xA0-0xFE(低字节) 区位计算
四、总结
汉字编码体系通过输入、交换、存储、输出等多环节的转换,实现汉字与计算机的有效交互。随着技术发展,Unicode已成为全球最广泛使用的字符编码标准。