汉字的码数体系主要包括以下五类编码方式,涵盖输入、存储、显示等不同场景:
区位码 - 由4位十进制数表示,前2位为区码,后2位为位码,共94×94=8836个汉字。
- 示例:汉字“一”的区位码为4E00,对应十六进制0x10000。
国标码(GB码)
- 将区位码转换为十六进制后,每个字节加20H(即0x14),形成双字节的国标码。
- 示例:区位码4E00对应的国标码为5200H(0x10000+0x14)。
内码(机器码)
- 采用双字节表示,每个字节7位,实际存储时占8位。例如,国标码5200H转换为内码为4D20H(0x5200+0x14)。
扩展码(如GBK码)
- 在国标码基础上扩展,支持更多汉字(如繁体字),采用双字节编码,单字占2个字节。
字形码
- 用于显示汉字的具体字形,由计算机内部存储的字符形状信息组成,通常与字体相关联。
总结:
汉字编码从区位码到字形码,涉及输入、存储、显示全流程,不同编码方式适用于不同场景(如区位码用于输入,内码用于计算机存储,字形码用于显示)。