文档介绍:重庆理工大学
硕士学位论文
搜索引擎中文分词技术研究
姓名:任丽芸
申请学位级别:硕士
专业:计算机应用技术
指导教师:杨武
2011-06
摘要
摘要
中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜
索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统
计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度
上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普
遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不
仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。论文对
搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。
论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的
基础上,提出了一种改进的中文分词方法,该方法以人工切分和标注好的《人民日报》
语料库和专门的人名地名语料库为基础,对中文信息进行处理。一方面,论文针对现
有中文分词算法和词典机制存在的不足,提出了基于最大逆向匹配的概率分词算法和
基于有限自动机的中文分词词典机制,力求在完成分词功能的同时降低算法的时间和
空间复杂度;另一方面,对于目前普遍存在的歧义词和未登录词识别两个难点,论文
首先通过最大正向匹配、最大逆向匹配以及基于最大逆向匹配的概率分词算法提取分
词碎片,然后结合构词规则和特定的人名地名语料库进行纠错处理,以进一步提高分
词准确率。
以改进的分词方法为基础,论文设计实现了一个中文分词原型系统,该系统包括
提取文本、训练语料库、分词处理、性能测试四个部分。同时,利用人工切分和标注
好的《人民日报》语料库对原型系统的分词速度和准确率进行测试,实验表明,系统
的切分速度约为1 200字/秒,分词准确率达到了96%以上。
论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中
文分词技术,并设计实现了一个中文分词原型系统。在设计实现的过程中,论文对分
词技术从理论和实验上所做的探索都会对该领域的研究提供一定帮助。
关键词:中文分词;词典机制;最大匹配;搜索引擎;未登录词识别
I
Abstract
Abstract
Chinese word segmentation is not only the most widely used mean in natural
language processing but also an essential basic skill in information retrieval and search
engine. In recent years, there are some arithmetic, such as the method based on
characters, probability, understanding, path and semantics. The most widely used one is
based on characters. However, due to the special nature plexity of Chinese
language, there are two problems in the main Chinese word processing, which are called
ambiguity and unlisted words. Therefore, a good method of Chinese word segmentation
should have an efficient dictionary mechanism and can be able to accurately identify the
ambiguous words and unknown words.
The paper studied the existing Chinese word segmentation algorithms, dictionary
mechanisms, processing strategy of ambiguous words and unknown words, and then
proposed a segmentation method based on the corpus. The corpus was from People’s
Daily. On the one hand, the alg