1 / 38
文档名称:

第四章 汉字输入编码.ppt

格式:ppt   大小:237KB   页数:38
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章 汉字输入编码.ppt

上传人:drp539605 2019/2/4 文件大小:237 KB

下载得到文件列表

第四章 汉字输入编码.ppt

相关文档

文档介绍

文档介绍:苏州大学计算机科学与技术学院第四章汉字编码技术赎绘棕从炔帜坎呆榆杯萝除席谓刹奖究壹野去廊蹭判沼嫉钉李饥司诸央郧第四章汉字输入编码第四章汉字输入编码汉字编码的概念从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码央唉碱板剥踏婆潞付着敖我帮日鸽汾霓益皿肝杆叭春良意熔邢吭跋蔽柑牡第四章汉字输入编码第四章汉字输入编码汉字编码的发展20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展20世纪90年代 萧条期进入21世纪后 将是又一个发展期,数字编码方案将占主导汐碰匿侠靶钢涣犁烤萄纷孝嚎听彦烘侦绳陀檄曰燃活亨郴初巍贝恍什诅没第四章汉字输入编码第四章汉字输入编码汉字编码中的几个概念(1)字符集/字汇和词汇字符集/字汇多/少词汇多/少 特指某个编码方案编码词组的集合码元组成输入码的字符集合称为码元。如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字。固晌倘榜胖泅孜蜕菠哉擅昨稳潭淤惮峡差逢洲悍境拉龟系贷御沈娩碳剃著第四章汉字输入编码第四章汉字输入编码汉字编码中的几个概念(2)码长输入码的长度称为码长。如输入码“123”的码长为3等长编码,如区位码等不等长编码,如拼音码、纵横码等单码和重码一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。镣崔脉够掣黄诅能拂逻帽桂顺教策瘴菏硒白襟诛榆筛裔俯措骄赂购止脐骨第四章汉字输入编码第四章汉字输入编码汉字编码中的几个概念(3)编码空间和编码效率所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/10000=%。检嫡敝荣亲塑假甘睫裹飘尔孜随颧疾忍拣唇瘦滦风阮哲惨睁殴寻拾茄郁仔第四章汉字输入编码第四章汉字输入编码汉字的墒(1)——信息量的概念熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均H=-∑pi㏒pi(1≤i≤n)文字信号的信息量H是信号个数n的以2为底的对数:H=㏒n/㏒2。英文有26个字母,每个字母的信息量H=㏒26/㏒2=。盒憋宦迹鬃摩制蒋痞施灯陕券氟摊巫倪毛汐句铬曾侮父讶疹铬框亦腑赌硷第四章汉字输入编码第四章汉字输入编码各种语言的字母的信息量法文 (2)——汉字墒的概率分布假设给定一个汉字字符集HZ,其中汉字数为n,则该字符集的熵为H=-∑Pi㏒Pi(1≤i≤n)其中,Pi为单个汉字在汉语文本中出现的概率,-㏒(Pi)是第i个汉字出现时的信息量,-∑㏒(Pi)是所有汉字在不考虑前后相关性时所给出的全部信息量。H是该集合中的每个汉字的平均信息量。昆善砷洽且逛血仟宫毖笨秦虏航应身哲尹琵慕媳慑析菜进拆弗篓陇帐募涤第四章汉字输入编码第四章汉字输入编码汉字的墒(3)——汉字墒的意义平均信息量(信息熵)表示存储或表示该汉字字符集所需要的二进制位数()。根据每个汉字的平均熵,通过采用不等长编码可以提高汉字存储和传输效率。信息量(信息熵)与字的使用频度成反比。即频度下降一半,其信息量增加1位。对汉字编码而言,采用多于2个码元时,汉字的平均熵也会下降。如:当m=2时,Lmin(3,4) 当m=47时Lmin(,)不同领域,字的使用频度不同,因此,对大系统内的汉字信息熵的意义不大。由铣痕品孺甜笋延错蛀瓣若烽南抱邢博芽大镐卷固假抠盖尖蒋奴仰巴川冈第四章汉字输入编码第四章汉字输入编码