文档介绍:第五届 CDF
2008 年 10 月 Oct., 2008
关于中文数字化几个问题的思考
Wang Xiuli 1;1)
1 (Anhui University Hefei 23009)
摘要本文考察中文数字化的几个问题:繁简转换的问题、古文字编码的问题、文字统一问题、汉
字简化等问题,就这几个问题提出了自己的看法和一些对策。
关键词繁简转换、信息论,汉字字体,汉字结构,汉字编码。
1 繁简问题
I(X,Y ) = H(X)+H(Y )−H(X,Y )
首先,要明确区分语言和文字两个层面“激光”
其中H(X,Y) 是联合熵(Joint Entropy),其定义为:
转换为“鐳射”是语言翻译或者方言翻译的问题,不
是繁简转换的问题。文字的分歧在文字层面上解决, H(X,Y ) = −σx,yp(x,y)logp(x,y)
语言的分歧要在语言层面上解决。有关汉语变体之间
从信息论的角度看,自然语言的各个单位之间都是有
如何翻译或者统一或者做其他处理,尤其是书面语之
关联的,作为记录汉语语素的汉字,在记录自然语言
间如何翻译或者统一或者做其他处理,需要在语言层
时自然也记录或者映射了汉语语素之间的关联,这
面上解决。一个办法就是,不翻译,不处理,让几种
样的关联可以用几种数学模型来刻画,如n阶马尔可
平行或者对应的词语等等竞争从而自然统一,或者任
夫链可以较好地刻画汉语文字之间的关联,互信息
由其存在。一种办法是动用行政或者法律。显然,目
(mutual information)也可以刻画汉语语素进而汉
前,这在两岸四地是不现实的。不过将来则未必不可
字之间的互信息。考虑汉字之间的互信息或者n阶马
能。将文字层面的问题揉合到语言层面来解决,我们
尔可夫链,可以看出,繁简转换出现一定比例的错
没有看出有什么益处。
误,并不一定导致交流或者交际的困难,试举一例,
繁简转换“令人发指”即使转换为“令人發指”.人们也一定
能够明白而不影响交际。换言之,繁简转换允许一定
一般认为,繁简转换是两岸四地中文信息化的一的出错率,这个出错率当然需要计算或者实验确定。
个重要方面。大家就简繁转换碰到的问题做了很多探在没有准确的计算结果前,要求越准确越好。但这其
讨。我们从信息论的角度和机器翻译的角度来看一下实除了社交礼仪等非信息交流方面而外没有必要。所
这个问题。以,浅见认为,找出或者计算出容许的出错率,是目
先给出信息论的几个概念和公式: 前一项需要做的工作。
熵公式的一般形式: 繁简转换可类比机器翻译,只是机器翻译是对两
1 种语言的,繁简转换是对一种语言的两种文字符号
H = lim Σp(Bn)log2 p(Bn)
n−>∞ n 的。机器翻译自动评测问题。繁简转换既然不要求准
互信息(Mutual Information)是另一有用的信息度确率为100%,同样有评测或者准确率是否达到要求
量,它是指两个事件集合之间的相关性。两个事的问题。一种机器翻译自动评测方法是基于平行句
件X和Y的互信息定义为: 对。作为繁简转换评测的一种方法,可以借鉴机器翻
2008 – 10 –收稿
1) @
2 中文数字化问题思考(