汉字的编码体系主要由以下四类组成,涵盖从输入到显示的全过程:
输入码(外码) 用于将汉字输入计算机的编码方式,包括:
- 区位码:
通过行列坐标表示汉字(如“北京”对应区位码672B);
- 拼音码(如全拼、简拼);
- 电报码等。
内码(机内码) 计算机内部存储、运算的汉字编码,采用两个字节表示:
- GB2312码:
国家标准,支持约7000个简体汉字;
- GBK码:扩展国标,支持2万多个简繁汉字。
交换码(标准码) 用于不同系统间传输的编码,如:
- GB18030码:
兼容国标与扩展码,覆盖更多汉字;
- UTF-8码:国际通用编码,支持全Unicode字符。
字形码
汉字在屏幕或打印时的显示编码,将汉字分解为部首或笔画进行图形化表示。
总结:
汉字编码从输入的区位码或拼音码,转换为计算机内部存储的GB2312/GBK码,再通过标准码进行系统间交换,最终以字形码呈现为具体字形。