1 / 41
文档名称:

4汉字输入编码.ppt

格式:ppt   页数:41
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

4汉字输入编码.ppt

上传人:12345 2014/9/2 文件大小:0 KB

下载得到文件列表

4汉字输入编码.ppt

文档介绍

文档介绍:第四章汉字编码技术
延边大学计算机科学与技术系
汉字编码的概念
从广义角度看
字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等
从狭义角度看
汉字键盘编码,用计算机键盘上的按键为汉字编码
汉字编码的概念
计算机通信技术领域对所处理信息的字符集符号序列的排序原则和低吗赋值方式,简称“机内码”,包括存储码、处理码、传输码等
计算机键盘输入汉字的代码设计与实现,简称“外码”或“人机界面编码”,用一套字母数字代码输入汉字
汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。四角号码检字法由王云五发明,他并在1925年5月著《号码检字法》由商务印书馆出版。四角号码检字法用数字0到9表示一个汉字四角的十种笔形,有时在最后增加一位补码。
四角号码编码方法
横一垂二三点捺
叉四插五方框六
七角八八九是小
点下有横变零头
举例:端
先取左上角0,其次取右上角2再取左下角1,最后取右下角 2,端=0212。
四角号码取角方法
取角方法
(1)一笔可以分角取号。例:以左边是一笔,上取为2,下取为7。
(2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水左边,上取1,下取9。
(3)下角笔形偏在一角的,按实际位置取号,缺角作0。例:妒右下角缺,取为0。
(4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田=6040。
(5)一个笔形,前角已经用过,后角作0。例:王左上角为一横,取1,右上角因为前面已经用过,所以取0。
附号
(1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”,如果这一笔形已被右上角用过,则作0。
(2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。
取角注意项
(1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。
(2)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。
(3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作角。
汉字编码的发展
20世纪70年代
起步阶段,拼音编码、五笔字形、自然码等,效率较低
20世纪80年代中期
轰轰烈烈的“大跃进”式编码活动,但没有什么发展
20世纪90年代
萧条期
进入21世纪后
将是又一个发展期,数字编码方案将占主导
汉字编码中的几个概念(1)
字符集/字汇和词汇
字符集/字汇多/少
词汇多/少
特指某个编码方案编码词组的集合
码元
组成输入码的字符集合称为码元。如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字。
纵横码的使用方法
由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它以片语/词组作为主要输入方式。
一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。
单字取码
取码次序:左上角、右上角、左下角、右下角
取大不取小
有重复笔形不取
有边取边
有角高优先
词组取码
33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键的9上面的“﹡”
222规则:对三字词组,取每字的头2码,若不足2码,则有几码取几码,同上。
2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。
21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取码,同上。
汉字编码中的几个概念(2)
码长
输入码的长度称为码长。如输入码“123”的码长为3
等长编码,如区位码等
不等长编码,如拼音码、纵横码等
单码和重码
一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码对应的汉字和词组只有一个时,称该汉字和词组为单码。
汉字编码中的几个概念(3)
编码空间和编码效率
所有可能的输入码集合,称为编码空间。
编码空间的大小依赖于码元集合和码长。
如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,
如区位码的编码空间大小为:C=104,即10000个。
编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。
如区位码,它的字汇大小为6763,则编码效率为6773/10000=%。
汉字的墒(1)——信息量的概念
熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。
最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。
信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均
H=-∑pi㏒pi(1≤i≤n