文档介绍:第三章汉字编码与全面解决方案
一、物质“三态”与汉字“三性”
恰如物质有固、液、气“三态”,汉字作为世界上最长寿的图形文字,则有形、音、义3个属性,简称“三性”。
请看以下“重”字的“三性”:
物质的“三态”与汉字的“三性”可作如下类比:
电脑只“认识”代码,不“认识”汉字。为了向电脑输入汉字,就得从汉字的3种属性入手,从中选取必要信息,再编制成代码,然后将它们分配到电脑键盘的26个英文字母键上,即所谓“汉字编码”。
之所以必须这么做,必得“拐个弯”,间接地输入汉字,是因为谁也没有办法把几千乃至几万个汉字,一个个地摆到只有26个字母键的键盘上,让人们再直接按键输入。也就是说,解决汉字输入电脑最根本的问题就是如何利用电脑键盘26个英文字母键、10个数字键与汉字形成一一对应的问题。
为此,人们可以从上述汉字的三种属性中,选择一种或同时选择几种,为汉字编制输入代码。根据选用的汉字属性不同,就形成了以下不同类型的汉字输入法。
二、形码
形码是完全从汉字的图形中选取的信息(即:不考虑读音,完全依据笔画和字形特征为汉字编
制代码的方法)。因图形相当于“固态”,直观易辨,有确定的“形”,只要规则一贯到底,由此形成的编码,不因地而变,不因人而异,不受方言口音、地域范围之影响。另外,因为汉字的图形千姿百态,笔画繁杂,结构各异,所以可供提取的信息资源非常丰富,比较容易设计出唯一性特别强、重码率特别低的编码方案。
其实,要说重码低,莫过于丹麦人为清朝政府设计的电报码:一字一码,没有重码,唯一性强。然而,这种码是人为规定的码与字毫无关系,必须死记硬背,所以推广应用是不可能的。
可见,仅有编码的唯一性,还是远远不够的。键盘汉字输入法,必须考虑编码是否好学易记,是否便于推广;手指的负担是否合理,是否便于
提高效率等许多更复杂的问题。所以,一个科学实用的编码,实际上是同时涉及多个学科、难度很大的综合性设计。
五笔字型就是依据作者提出的“形码设计三原理”,即相容性(重码少)、规律性(易学习)、协调性(效率高),而设计完成的一种纯形码。五笔字型之所以被国内外广泛应用20年之久而长盛不衰,主要应归因于其综合设计的科学性。
三、音码
音码是指完全从汉字的读音中提取信息而设计的汉字输入法。可分为全拼和简拼两大类。简拼中包括由扶良文先生发明的“双拼”输入法。
在我国,因为绝大多数学生从上小学起,就学习了很长时间的汉语拼音,打下了拼音的基础。
所以长大以后,拼音输入就成了“不用学习”的输入法。这无疑是拼音输入易于普及的社会文化基础。正因为如此,目前有许多用户,特别是非专业录入人员都习惯使用“音码”进行输入。
其实,这并不是“不用学习”!而是因为您忘了儿时长年累月的学习之苦。
会了拼音,不等于会打键。不要说中国人,就是英美等国家的孩子,不经过几个星期的指法练习,“输入”英文也不会打得快。所以,即使您会了拼音,也不能说您就“天生”会输入。
然而,用拼音输入也有其缺点。这就是重码太多,总要在屏幕前摇头晃脑地挑选。
汉字数万之多,而读音只有400多种,加上音调也不过1200种左右。而且,各种读音对应的字
数分配极不均匀。何况,正如物质的“液态”无一定的外形一样,汉字的读音在不同的地或,也因地而异。
四、义码和音义码
与形码、音码不同,在“万码奔腾”的汉字输入法中,好像还设有出现过单纯的“义码”。对汉字来说,这大概是由于“按义取码”比“按音取码”更加抽象飘忽,更加难以捉摸的缘故。这就象气体比液体更不直观、更难从中提取特征信息进行测度一样。
毕竟“义”是汉字的三大属性之一,虽然没有独挑大梁,用于汉字编码,却也在克服音码的大量“重码”中,可以与音码“并肓作战”而形成所谓的“音义码”。例如,联合国总部一位知名学者就发明
了一种音义码,即在全拼之后,加上一个”义项”或”义尾”,以区分大量的同音字。
象“音义码”,您不能说这种设计不是一种“码”。然而,这种“码”是否实用?作为把重码“切分”开来的“刀”是否锋利?遇到一字多音、遇到方言、遇到更多一字多义、一字多类以及不认识的字怎么办?恐怕只有靠实践来检验了。
五、音形码
区分“同音重码”字最有效的办法莫过于“音形”结合了。即在拼音之后,追加若干个字形信息、部首、笔画、字型、笔画结构等,把这些字形信息用数码或字母表示,追加在音码之后,即形成了“音形码”。
如上所述,“音”相当于“液态”,“形”相当于
“固态”,那么“音形码”就恰似把“液体装进有形的容器”中,如水装入杯、壶、桶中一样,形态不同,就有了区别。
在设计音形码时,一种比较好的方案就是在全拼之后,加上汉字的“首笔画”和“末笔画”的数字代码,或者加上由首、末两个笔画的代码对应的字母,即五笔字型键盘区位上的字母。因为这种“音