汉字在计算机中的编码方式经历了多次发展,目前主要采用以下格式:
一、常用编码标准
Unicode(推荐使用) - 全球通用字符集,包含汉字、英文字符、符号等,采用变长编码(1-4个字节)。
- 在内存和存储中普遍使用,支持国际化应用。
GB2312/GBK
- 中国国家标准,GB2312(1980年发布)包含约6763个汉字,GBK(扩展版)支持超过20000个汉字。
- 早期中文系统(如Windows 98/2000)常用,现多用于信息交换。
GB18030
- 最新国家标准,覆盖7万+汉字及少数民族文字,支持多种输入法,兼容GB2312和GBK。
二、编码特点
编码方式: 汉字采用 区位码+字型码
存储形式:在内存中通常以 二进制补码形式存储,磁盘存储可能采用压缩或编码优化技术。
三、补充说明
兼容性:现代软件(如Windows、Linux)默认支持Unicode,旧系统可能通过兼容模式运行。
特殊场景:部分系统(如银行系统)可能使用EBCDIC编码。
综上, Unicode是当前最通用、最全面的汉字编码标准,而GB2312/GBK等仍被部分场景使用。