汉字编码是计算机处理汉字信息的核心技术,主要分为以下三类:
一、输入码(外码)
输入码是用户通过键盘输入汉字时使用的编码方式,其作用是将汉字转换为计算机可识别的二进制数据。常见的输入码包括:
区位码:
将汉字按区位表转换为4位十进制数,前2位表示区码,后2位表示位码;
国标码:
将区位码转换为十六进制后,每个字节加20H(即0x80),用于区分中文字符与英文字符;
拼音码:
如全大写拼音(如"你好"为"nihao");
五笔字型码:
基于汉字笔画结构设计的输入码;
电报码:
通过短横、短竖等符号表示汉字。
二、内码(机内码)
内码是计算机内部存储和处理的编码方式,用于统一管理汉字信息。其特点包括:
结构特点:
采用16位二进制数表示一个汉字,其中前6位为区码+20H,后10位为位码(国标码);
作用:
避免不同系统对汉字编码的差异,确保计算机内部的一致性;
示例:
国标码"好"(十六进制652D)转换为内码为"EB82"(十六进制)。
三、输出码(字形码)
输出码是汉字输出到显示器或打印设备时的编码方式,用于控制字形显示。其形式包括:
点阵码:
用二维矩阵表示汉字笔画,如8×8点阵;
矢量码:
通过数学公式描述字形轮廓,可无损缩放;
位图码:
以二进制图像形式存储字形。
补充说明
编码标准:常用汉字编码标准包括GB2312(简体)、GBK(简繁体)、GB18030(全汉字)、Unicode(全球通用)等;
扩展性:Unicode支持超过100万种字符,是国际通用标准。
通过以上三类编码的协同工作,计算机能够实现汉字的输入、存储、传输和显示。