文档介绍:苏州大学计算机科学与技术学院第四章汉字编码技术汉字编码的概念?从广义角度看字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等?从狭义角度看汉字键盘编码,用计算机键盘上的按键为汉字编码汉字编码的发展? 20 世纪 70 年代起步阶段,拼音编码、五笔字形、自然码等,效率较低? 20 世纪 80 年代中期轰轰烈烈的“大跃进”式编码活动,但没有什么发展? 20 世纪 90 年代萧条期?进入 21 世纪后将是又一个发展期,数字编码方案将占主导汉字编码中的几个概念( 1) ?字符集/字汇和词汇?字符集/字汇多/少?词汇多/少特指某个编码方案编码词组的集合?码元?组成输入码的字符集合称为码元。如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字。汉字编码中的几个概念( 2) ?码长?输入码的长度称为码长。如输入码“ 123 ”的码长为 3 ?等长编码,如区位码等?不等长编码,如拼音码、纵横码等?单码和重码?一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。汉字编码中的几个概念( 3) ?编码空间和编码效率?所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有 K个,编码采用等长码, 长度为 i,则编码空间大小为: C=K i,如区位码的编码空间大小为: C=10 4,即 10000 个。?编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为 6763 ,则编码效率为 6773/10000 = %。汉字的墒(1) ——信息量的概念?熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。?最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫 1比特( bit )。如果可能性数目有 2 的n次方( N=2n ),那就是 n比特,即信息量等于可能性数目 N的“以2为底的对数”: H= ㏒ 2N =㏒ N/ ㏒2。?信息量应按符号的可能性(数学上叫概率大小)来计算, 它是概率的负对数。平均信息量就是它们的加权平均 H= -∑ pi㏒ pi(1≤i≤n) ?文字信号的信息量 H是信号个数 n的以 2为底的对数: H= ㏒ n/ ㏒2。英文有 26 个字母,每个字母的信息量 H= ㏒ 26/ ㏒2= 。各种语言的字母的信息量法文 比特意大利文 比特西班牙文 比特英文 比特德文 比特罗马尼亚文 比特俄文 比特中文 比特汉字的墒(2) ——汉字墒的概率分布?假设给定一个汉字字符集 HZ ,其中汉字数为n,则该字符集的熵为 H= -∑ Pi㏒ Pi (1≤i≤n) ?其中, Pi为单个汉字在汉语文本中出现的概率, -㏒(Pi) 是第 i个汉字出现时的信息量,- ∑㏒(Pi) 是所有汉字在不考虑前后相关性时所给出的全部信息量。 H是该集合中的每个汉字的平均信息量。汉字的墒(3) ——汉字墒的意义?平均信息量(信息熵)表示存储或表示该汉字字符集所需要的二进制位数(中文约为 )。根据每个汉字的平均熵,通过采用不等长编码可以提高汉字存储和传输效率。?信息量(信息熵)与字的使用频度成反比。即频度下降一半,其信息量增加 1位。?对汉字编码而言,采用多于 2个码元时,汉字的平均熵也会下降。如: 当 m=2 时, Lmin ?(3,4) 当 m=47 时 Lmin ? (,) ?不同领域,字的使用频度不同,因此,对大系统内的汉字信息熵的意义不大。