汉字在计算机中的存储方式涉及多个层面的编码概念,具体如下:
一、汉字存储的核心编码
机内码(内码)
汉字在计算机内部存储、处理和传输时使用的编码。它是将汉字转换为二进制形式的标准代码,由0和1组成,用于计算机硬件识别。
存储结构
- 每个汉字通常占用 2个字节(16位),采用双字节编码方式。例如,简体汉字常用GB2312、GBK或Unicode的UTF-16编码。
- 两个字节按位组合成一个完整的16位编码,确保每个汉字具有唯一性。
二、其他相关编码概念
区位码
以十进制表示的汉字编码,需转换为十六进制后加80H(即每个字节加128)得到国标码。
国标码
区位码转换为十六进制后加2020H(即每个字节加320)得到的标准编码。
三、编码转换过程
输入码到机内码的转换
用户通过输入法输入汉字时,输入码(如拼音或全码)由输入法转换模块转换为机内码,这一过程与所使用的键盘输入法无关。
显示与传输
计算机内部以机内码形式处理汉字,显示时需通过字型库转换为点阵图象(如16×16、32×32点阵)。
四、总结
汉字的存储核心是 机内码,其采用双字节编码方式(16位)以节省存储空间并确保唯一性。其他编码形式(如区位码、国标码)主要用于编码转换过程,而非直接存储。