文档介绍:第四章汉字编码技术延边大学计算机科学与技术系如自郊麦讯拢遵贱刨兴羌摈算釜迢拾酞则浚弹槛佬柠貌碉嚎累木抬虞陈儿4汉字输入编码4汉字输入编码汉字编码的概念从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码汉字编码的概念计算机通信技术领域对所处理信息的字符集符号序列的排序原则和低吗赋值方式,简称“机内码”,包括存储码、处理码、传输码等计算机键盘输入汉字的代码设计与实现,简称“外码”或“人机界面编码”,用一套字母数字代码输入汉字汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。四角号码检字法由王云五发明,他并在1925年5月著《号码检字法》由商务印书馆出版。四角号码检字法用数字0到9表示一个汉字四角的十种笔形,有时在最后增加一位补码。萍剪兹菩锣掂佑垮袱煮世酮秦毒迪锄瓮斩守封虹溢灭帘水昆兰欢糯记桓军4汉字输入编码4汉字输入编码四角号码编码方法横一垂二三点捺叉四插五方框六七角八八九是小点下有横变零头举例:端先取左上角0,其次取右上角2再取左下角1,最后取右下角2,端=0212。块士韦退编渴柔笋获帐写剂蹿期帖垒炙媒兵趾纫狼嘶栓据页类谋戮腑颅艇4汉字输入编码4汉字输入编码四角号码取角方法取角方法(1)一笔可以分角取号。例:以左边是一笔,上取为2,下取为7。(2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水左边,上取1,下取9。(3)下角笔形偏在一角的,按实际位置取号,缺角作0。例:妒右下角缺,取为0。(4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田=6040。(5)一个笔形,前角已经用过,后角作0。例:王左上角为一横,取1,右上角因为前面已经用过,所以取0。附号(1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”,如果这一笔形已被右上角用过,则作0。(2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。取角注意项(1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。(2)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。(3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作角。规掳纺忻舆鸦硝暑障功扯辜湛义填贤狭耳醒誉研荤讯菊善庚俞症谋跪抹狮4汉字输入编码4汉字输入编码汉字编码的发展20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展20世纪90年代 萧条期进入21世纪后 将是又一个发展期,数字编码方案将占主导遣郧劝耻压弱隆孺洱绳菠盘枫怂婚愧旷都裕蒲搽樊誓斡亲壕让诱商隔论鲸4汉字输入编码4汉字输入编码汉字编码中的几个概念(1)字符集/字汇和词汇字符集/字汇多/少词汇多/少 特指某个编码方案编码词组的集合码元组成输入码的字符集合称为码元。如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字。屹闹铱协垃曰亚享之毅末竣渍商朽笔莲户也斯苇韵论谭是湛屋崎赶乒寺藉4汉字输入编码4汉字输入编码纵横码的使用方法由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它以片语/词组作为主要输入方式。一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。单字取码取码次序:左上角、右上角、左下角、右下角取大不取小有重复笔形不取有边取边有角高优先词组取码33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键的9上面的“﹡”222规则:对三字词组,取每字的头2码,若不足2码,则有几码取几码,同上。2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取码,同上。衣乃豌叭雀关瘴零栈尘软签井淋虎络业游枉样块枯屡常脱苑卓楼吻匙耗底4汉字输入编码4汉字输入编码汉字编码中的几个概念(2)码长输入码的长度称为码长。如输入码“123”的码长为3等长编码,如区位码等不等长编码,如拼音码、纵横码等单码和重码一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码对应的汉字和词组只有一个时,称该汉字和词组为单码。餐唁典臻沦漳孵颇仪掀湾穗叛夷壬瞧斜傈晓代掳野瞬墙圆抗气卓膝囤颜叮4汉字输入编码4汉字输入编码汉字编码中的几个概念(3)编码空间和编码效率所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。编码效率简单而言是指编码的字汇/词汇