汉字在计算机中的二进制表示主要通过以下两种方式实现:
一、内码表示
概念与作用 内码是计算机内部存储汉字时使用的编码,用于区分汉字与ASCII字符。由于计算机底层以二进制形式处理数据,内码直接以二进制形式存储汉字。
常见编码标准
- GB2312/GBK: 单字内码通常为16位二进制数,例如“大”对应`B3F3H`(十六进制),转换为二进制为`1101 0000 1010 0001`。 - Unicode扩展编码
- UTF-16:2个16位代码单元(如“啊”为`B0A1H`);
- UTF-8:2-4个32位代码单元(如“啊”为`E4B8AD`);
- UTF-32:固定4个32位代码单元。
示例 汉字“大”的内码为`B3F3H`,二进制表示为:
```
1101 0000 1010 0001
```
二、区位码与字模表示
区位码
属于汉字编码的早期形式,通过将汉字映射到94×94的区位表中,每个汉字用一个两位十六进制数表示(如“大”为`B3F3H`),需转换为二进制存储。
字模表示
通过8×8矩阵(共64个点阵)表示汉字字形,每个点阵对应二进制位(0表示白色,1表示黑色),但字模与汉字语义无关,仅用于显示。
三、编码转换关系
国标码转内码:
在国标码的每个字节最高位加`0x80`(即二进制加`10000000`),例如“啊”的国标码`3021H`转为内码为`B0A1H`。
总结
汉字的二进制表示主要依赖内码,其形式因编码标准不同而有所差异。现代系统普遍采用Unicode编码(如UTF-8),以支持更广泛的字符集。理解时需注意区分国标码、内码及显示字模的不同作用。