汉字的二进制表示主要通过字符编码实现,常见编码方式包括GB2312、GBK、UTF-8等。以下是具体说明:
一、GB2312/GBK编码(2字节)
国标码转机内码 每个汉字的国标码(如“啊”为3021H)在机内码中最高位加1,即B0A1H。
二进制表示
以“啊”为例,国标码3021H转换为二进制为`0011 0010 0000 0010 0001 0010 0001 0011`,机内码为`1010 1010 1000 1010 1000 1010 1010 1101`。
二、UTF-8编码(3-4字节)
基本多文种平面(BMP)
前3个字节组成一个16位代码单元,如“中”对应`1110 0100 1100 1010`(十进制20018),转换为二进制为`10101000 10101000 10101010`。
辅助平面
第4个字节用于扩展,如“