幽灵汉字的存在主要有以下原因,结合不同场景可作以下归纳:
一、编码标准缺陷
JIS编码的疏漏 日本本土的JIS编码系统在制定时存在收录不规范问题,部分汉字未严格审核音义用例,导致60余个汉字被收录为“幽灵汉字”。例如“彁”(U+5F41)可能是“疆”的误记,因纸张粘连错误多记一横。
Unicode的兼容性收录
为兼容JIS等本土编码,Unicode将部分来源不明的汉字收录进来,如“妛”(U+7532)原为记录“山女”的错误,后因纸张粘连成为有效字符。
二、人为因素导致
登记错误
台湾“内政部”曾收录大量台湾人名用字,其中部分为已存在汉字的误写或讹变,例如将“黄”误写为“皇”。
书写不规范
日本JIS X 0208编码标准未详细标注字符来源(如页码、行数),导致书写错误(如“山女”误记为“妛”)被纳入编码。
三、汉字文化特性
部分汉字因文化背景特殊,存在多义性或象形演变,易被误用或创造新含义:
象形文字的延伸: 如“鬼”字从“田”演变而来,本义指神灵,后扩展为鬼魂; 文化符号的借用
总结
幽灵汉字是编码标准缺陷、人为失误及汉字自身特性的共同结果。随着技术发展,部分字词已通过学术研究确认来源(如“妛”),但仍有少数(如“彁”)可能长期存在。这一现象也提醒我们,文字系统需在规范性与兼容性之间找到平衡。