文档介绍:太原理L大学硕J:研究生学位论文取得了值得芮定的成绩。但这项研究工作不会停止,它仍然有着研究空间和应用前景。,最早于1957年被提出181HMM在统计学习技术中占据着不可动摇的地位,主应用于语音处理技术、词性标注和信息提取中e目前,HMM也被引入到文本分类、信息压缩、模式识别[9)、故障诊断等领域。HMM是词性标注研究中基于统计方法的典型应用,HMM的灵活性,给词性标注的研究带来了方便。随着HMM研究的不断深入,各种基于一般HMM而i进行的改进、演变、扩展方法层:B不穷,为词性标注效果的改进注入了新的活力。随着词性标注的应用覆盖面不断增加,汉语词性标注的研究也得到了广泛关注。汉语词性标注对汉语i在料库研究、机器翻译、信息检索等都具有重要意义。具体来说,它给语言学的深入学习打下了结实的基础:为深层次的自然语言文本信息处理准备资料:能从经过词性标注处理的文本中提取词类信息和词汇的词性标注信息。,到日前己经达到昌盛的阶段,不同的改进方法各具风骚,大体可以分为以下几个阶段:(1)上世纪五十年代末,出现了最早的词类指派(也就是现在所称的词性标注)算法,它是ZeJlingHarris[IO-ll)的"转换和话语分析课题"(TransfonnationandDiscourseAnalysisProject,简称TDAP)的剖析程序的一个部分。TDAP使用了14条规则进行词性歧义消除,用到的词性标记序列是捕后所有算法的雏形。(2)上肚纪六十年代初,在丁DAP后,KleinandSimmonsl12)提出了由词典、形态分析器和土下末歧义消解器工部分组成的"计算语、法编码器"(ComputationalGrall1marCoder,简称CGC)。运行时,一个单词通过词典和形态分析器后产生候选的词性集合,运用包含1500条上下文规则的规则集来消除歧义。)(3)到了七十年代初,基于规则的标注方法迅速崛起,最典型的就是TAGGITI13)系统。它是由Greene和Rubin于1971年在KleinandSimmons的基础上提出的。与CGC相比,TAGGIT扩大了词典规模,增加了标记集个数。TAGGlT被用来标记Brown语料库,正确率达到77%(14。(4)七十年代末到八十年代初,基于统计的标注方法开始在经验主义方浩思潮的太原}..lll汇大学硕士例:究生学位论文影响F活跃起来。随着Lancaster-OslolBcrgen(LOB)115J的编制成功,CLAWS势'法116J(Marshall,;Garside,1987)浮出水面。它是一个概率算沽,近似于HMM标校方法。CLAWS算法使用标记的二元语法概率,徊不储存每个标记的单词似然度,而是给"taglword"(标记单词)标上rare(罕用),infrequent(低频〉或nonnalJyfrequent(jf常额度〉这样的等级符号。Church-fJ988年提出了接近千完全HMM标注$1.:法的PARTS概率标注算法!l7],它是对CLAWS算法思想的扩充,采用了Viterbi算法来找出标i己序列。(5)到了九十年代,基于统计的方法卅始在词性本'J;注舞台l'.扮演主角。研究有在标江系统巾明确使用了HMM,而且常与EM算法结合运用,包括使用变长马尔可夫模型(18)(Variable-IengthMarkovmodel)。近年来,各种统计和机器学习方法被应用到词性标泊:中,lelinek(1994)和Magerman(1995)提出了使用决策树来估计标记概率:Ratnaparkl1jll9J(1996)提出了运用最大脑算法对标记概率进行估计;Franz(1996)提出了应用对数线性模型[20J来实现标记概率的估计等。EricBril1于1995午,提出了TBL算陆来进行训性标注l川。与国外词性标注研究现状棉比,国内刘汉语进行词性标泣的研究展开得比较迟,再加上训练7J料规模的限制,以及汉语本身的复杂性,增加了汉语词性标注研究的难度。80'rf代以来,汉语信息处理技术的研究不断被重视,汉语知识库、语法规则的出现为词性标注提供了基础信息。1988年,山国大学基于统计方撞开始汉语语料库的分词与词性标校研究;清华大学提出了《汉语树库》词件标记集。90年代初,北大计算讯育所提山了基于规则和统计方法相结合的一种切分和标注相融合的汉语语料库多级加工方洁i22lo到目前为止,出现了各种汉语标注方法,如,暮于完全HMM2[23J的汉语词性标H:研究、基于最大;脑模型的汉语词性标注研究等。汉语词性标注已经能到达令人比较满意的准确率,若要在更广范围内提高词性标注的实用性仍需要进