文档介绍:太原理 L大学硕 J:研究生学位论文
取得了值得芮定的成绩。但这项研究工作不会停止,它仍然有着研究空间和应用前景。
. 2 研究目的与意义
HMM 是在马尔可夫模型的基础上变形应用而来,最早于 1957 年被提出181
HMM
在统计学习技术中占据着不可动摇的地位,主应用于语音处理技术、词性标注和信息
提取中e 目前, HMM 也被引入到文本分类、信息压缩、模式识别[9) 、故障诊断等领域。
HMM 是词性标注研究中基于统计方法的典型应用,HMM 的灵活性,给词性标注的研究带来了方便。随着 HMM 研究的不断深入,各种基于一般 HMM 而i进行的改进、演变、扩展方法层:B不穷,为词性标注效果的改进注入了新的活力。
随着词性标注的应用覆盖面不断增加,汉语词性标注的研究也得到了广泛关注。汉语词性标注对汉语i在料库研究、机器翻译、信息检索等都具有重要意义。具体来说,它给语言学的深入学习打下了结实的基础:为深层次的自然语言文本信息处理准备资料: 能从经过词性标注处理的文本中提取词类信息和词汇的词性标注信息。
词性标注的发展史
国外很早就开始了英文自动词性标注研究,到日前己经达到昌盛的阶段,不同的改进方法各具风骚,大体可以分为以下几个阶段:
(1)上世纪五十年代末,出现了最早的词类指派(也就是现在所称的词性标注) 算法,它是 ZeJling Harris[I O-l l)的"转换和话语分析课题" (Transfonnation and Discourse Analysis Project ,简称 TDAP ) 的剖析程序的一个部分。 TDAP 使用了 14 条规则进行词性歧义消除,用到的词性标记序列是捕后所有算法的雏形。
(2) 上肚纪六十年代初,在丁 DAP 后,Klein and Simmonsl12)提出了由词典、形态分析器和土下末歧义消解器工部分组成的"计算语、法编码器" (Computational Grall1mar Coder ,简称CGC) 。运行时,一个单词通过词典和形态分析器后产生候选的词性集合, 运用包含 1500 条上下文规则的规则集来消除歧义。
)
(3)到了七十年代初,基于规则的标注方法迅速崛起,最典型的就是 TAGGITI 13) 系统。它是由 Greene 和 Rubin 于 1971 年在Klein and Simmons 的基础上提出的。与 CGC 相比,TAGGIT 扩大了词典规模,增加了标记集个数。 TAGGlT被用来标记 Brown 语料库, 正确率达到 77%(14 。
(4) 七十年代末到八十年代初,基于统计的标注方法开始在经验主义方浩思潮的
太原}..lll汇大学硕士例:究生学位论文
影响 F活跃起来。随着 Lancaster-OslolBcrgen ( LOB) 115J 的编制成功, CLAWS 势'法116J ( Marshall , 1 983. 1987; Garside,1 987) 浮出水面。它是一个概率算沽,近似于 HMM
标校方法。 CLAWS 算法使用标记的二元语法概率,徊不储存每个标记的单词似然度,
而是给"taglword" (标记单词)标上 rare (罕用), infrequent (低频〉或 nonna lJy frequent (jf常额度〉这样的等级符号。 Church -f J 988 年提出了接近千完全 HMM 标注$1.:法的 PARTS 概率标注算法!l7],它是对 CLAWS 算法思想的扩充,采用了 Viterbi 算法来找出
标i己序列。
(5)到了九十年代,基于统计的方法卅始在词性本'J;注舞台 l'.扮演主角。研究有在标江系统巾明确使用了 HMM ,而且常与 EM 算法结合运用,包括使用变长马尔可夫模型( 18) ( Variable-Iength Markov model ) 。近年来,各种统计和机器学习方法被应用到词性标泊:中, lelinek ( 1994) 和 Magerman ( 1995) 提出了使用决策树来估计标记概率: Ratnaparkl1jll9J ( 1996) 提出了运用最大脑算法对标记概率进行估计; Franz (1996 )提出了应用对数线性模型[20J来实现标记概率的估计等。 Eric Bril1 于 1995 午,提出了 TBL 算陆来进行训性标注 l川。
与国外词性标注研究现状棉比,国内刘汉语进行词性标泣的研究展开得比较迟,再加上训练 7J料规模的限制,以及汉语本身的复杂性,增加了汉语词性标注研究的难度。 80 'rf代以来,汉语信息处理技术的研究不断被重视,汉语知识库、语法规则的出现为
词性标注提供了基础信息。 1988 年,山国大学基于统