汉字在计算机中的存储方式涉及多个层面的编码和存储形式,具体如下:
一、存储编码形式
机内码(汉字ASCII码) 汉字在计算机内部以机内码形式存储,这是计算机识别、处理和传输汉字的核心编码方式。机内码是国标码(如GB2312-80)每个字节加128后得到的编码,用于避免与ASCII码冲突。例如,汉字“天”的机内码为“E5 83 81”(十六进制)。
区位码与字型码
- 区位码: 早期汉字系统(如GB2312)中,汉字通过区位表中的位置编号存储,每个汉字占用两个字节表示其区位。 - 字型码
二、存储载体与过程
二进制存储 所有数据(包括汉字)在计算机中均以二进制形式存储。汉字的机内码通过8位二进制数表示,例如“天”的机内码“E5 83 81”对应二进制“11100101 10000011 10000001”。
存储结构
- 字符型数据类型: 数据库或文件中常用`CHAR`(固定长度)或`VARCHAR`(可变长度)存储汉字字符串。 - 二进制型数据类型
三、扩展说明
兼容性处理:由于ASCII码与部分汉字国标码冲突,实际存储时需通过加128转换(如“天”的机内码为“E5 83 81”而非直接存储“4F 4F”)。
输入与输出:用户通过输入法输入的汉字需先转换为机内码,显示时再转换为字形码。
综上,汉字的存储核心在于机内码的转换与存储,同时涉及点阵图形的显示和数据库中的字符型存储。