文档介绍:基于HMM的汉语词性标注及其改进
摘要
词性标注是自然语言处理中一个具有重要意义的研究方向,涉及的应用领域非常广泛在信息处理范畴内起着重要的基础性作用,词性标注的效果直接影响着基于标注结果的各种信息处理的准确度,诸如语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等。词性标注的实现过程中存在着一些难度,如兼类词歧义处理、未登录词处理,以及专有名词的处理等。由于汉语本身的特点以及汉语言学研究现状的限制,汉语词性标注就更加困难和复杂。
词性标注的方法有很多,大体上可以归为两类,基于规则的方法和统计的方法,而基于隐马尔可夫模型(HMM)的词性标注正是统计方法的典型例子。虽然HMM在词性标注中的应用已经非常成熟,但如何提高兼类词、未登录词的标注准确率依旧是基于HMM的词性标注研究的重点。本文在标记好的汉语语料库《人民日报(1998年1月)》的基础上,建立二阶隐马尔可夫模型(HMMZ),改进针对未登录词的标注,对模型进行训练、测试、评估,从而实现了汉语词性标注。具体如下:
(l)由于语料库的选取在词性标注效果中起着重要的影响作用,在测试前对语料库进行了预处理,去除了二级标注和专有名词标记符号(保留专有名词及其词性标注),来提高实验的准确率。
(2)一般的HMM在进行词性标注时仅仅依靠前一个词的词性来估计当前词汇的词性,基于语言学知识的考虑,这种方法对上下文语义信息的提取上不够详尽。于是提出了建立HMMZ的思想,来增加对_上下文语义信息的利用,进而提高词性标注效果的准确度。在建立HMMZ时,对训练数据得到的状态转移概率进行了平滑处理;同时,根据测试中实际情况,修正了观测概率的获取方法;井对未登录词进行了处理,以便进一步保证实验的准确率。
(3)在测试中,传统的Viterbi算法己不能适应改进后的HMMZ,于是对Viterbi算法进行了改进和拓展,使其符合修改后的HMMZ的需要。经过对一万词汇分别在26个标注集和39个标注集的训练语料下进行开放测试,证明本文改进后的HMMZ比一般的HMM、HMMZ标注效果好。本文最后对词性标注发展前景进行了展望。
关键词:词性标注、隐马尔可夫模型、二阶隐马尔可夫模型、Viterbi算法
目录
摘要 1
第一章绪论 2
2
3
3
3
4
第二章隐马尔可夫模型及其相关算法 5
5
5
7
Viterbi算法 9
9
第三章词性标注及其相关研究 11
11
-噪声信道模型在词性标注中的应用 12
13
13
13
第四章基于HMMZ的汉语词性标注的实现 14
14
15
第五章结论 19
第六章心得与体会……………………………………………………………………………………………………….20
第七章参考文献…………………………………………………………………………………………………………21
第一章绪论
自计算机问世以来,信息技术以不可挡之势疯狂般迅猛发展,尤其是21世纪以来,Intemet己成为人们生活中不可或缺的一部分。随着计算机科学技术,特别是Intemet相关技术的发展与不断成熟,人们从网络可获悉的信息已经多到让人困扰的地步。如何才能从这些繁杂的信息数据中准确高效地提取有价值的知识已成为人们思考的焦点。随之,自然语言处理、文本分类、信息检索等相关学科应运而生。
自然语言处理是研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。其研究的内容可归纳为自然语言理解和自然语言生成两个方面,应用的领域非常广泛,包括语音识别、信息检索、生物信息学、机器翻译、文本校对、文字自动识别、计算机辅助教学、自动文摘,此外还有互联网上的智能搜索,以及各种电子词典和术语数据库等。
自然语言处理的研究已经迎来了昌盛时期,正在朝着以下几个方向不断改进、完善。
首先,基于语料库的统计方法是对基于规则的方法的一个重要补充。基于规则的方法,带有很强的主观色彩,很难保证其不出现差异性,而且规则研究的领域也有限。目前,随着对语料库建立、语料库语言学I2]研究的重视度的提高,为自然语言处理提供了基于经验的方法,也弥补了基于规则的方法存在的不足。
其次,基于机器的自动学习来提取语言信息的方法备受关注。原始的语言知识是通过语言学家手工处理海量信