文档介绍:基于蚁群算法的汉语自动分词的研究与实现摘要
摘要
汉语自动分词是中文信息处理领域中的基础课题,其中,歧义切分的消除是
影响分词精度的关键问题。国内外很多学者在自动分词领域展开了富有成效的工
作,但在提高分词精度上,仍然存在着很大的困难。
我们研究发现,对于汉语自动分词,首先,必须对影响分词精度的语言现象
作针对性的研究,做到对问题的实质从总体上把握其次,必需考虑分词算法的
设计,建立分词模型,提高模型的计算能力并研究在分词过程中提供更有效的
语台信息的度量。
本文在分词建模过程中,启发于蚁群算法在解决一系列复杂组合优化问题中
所表现出来的卓越性能,创造性地将蚁群算法模型运用到汉语自动分词问题中歧
义字段的识别和切分上面,通过汉语句子在内存中表示的数据结构的设计,构造
了我们的分词模型,以词频作为启发因子,巧妙的将纯粹分词问题转化为词的选
择问题,并从计算的角度,分别以绝对减值法和后备法给出我们相应方案的详细
设计。实验结果显示我们的基于蚁群算法的汉语自动分词方法是一个可行的解决
方案。
在统一的语料测试集上,我们就本文分词算法和中科院计算所的汉语词法分
析系统在歧义切分上做了一个全面的比较。并就分词知识从词频、语义信息层次
上展开了讨论,作出了展望。
关键字
汉语分词歧义切分蚁群算法
作者罗小虎
指导老师吕强
丫
苏州大学学位论文独创性声明及使用授权的声明
学位论文独创性声明
本人郑重声明所提交的学位论文是本人在导师的指导下,独立
进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文
不含其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏
州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作
出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本
声明的法律责任。
研究生签名季逸一一日期尸,华一才
学位论文使用授权声明
苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论
文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论
文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论
文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的
保密论文外,允许论文被查阅和借阅,可以公布包括刊登论文的
全部或部分内容。论文的公布包括刊登授权苏州大学学位办办理。
期
研究生签名伽峪一丫一
期
导师签名一甲
墓于蚁群算法的汉语自动分词的研究与实现第一章引言
第一章引言
汉字在计算机内部是以机内码的形式存储和传输的,中文信息处
理就是基于对汉字机内码的处理。处理的信息除了单个汉字外,词才
是自然语言中有意义的、可以独立运用的最小单位。汉语文本和西文
不同,词与词之间没有明显的分隔标记。而中文信息处理诸多重要的
应用领域如汉字输入、语音合成、简繁转换、文本校对、文献检索、
机器翻译、篇章理解等都要求至少建立在词这一平面上。因此,汉语
自动分词是中文自然语言处理系统必须面对的第一道基本“工序”,
只有对汉语文本进行正确无误的分词,才有可能满足上述各应用领域
的要求。实践却表明,分词已成为中文信息处理的“瓶颈”,我们只
有逾越这个障碍,中文信息处理系统才称得上打上了“智能”的印记,
构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。
研究背景
国内第一个实用性分词系统,是北京航空航天大学在年设
计的,采用无回溯最大匹配法,并辅以词尾字构词检错技术,
使用知识库纠错,这是汉语自动分词实践的首次尝试,具有很大的启
发作用和理论意义。该系统比较科学地阐述了汉语中的歧义切分字段
的类别、特征以及基本的对策。自此,科技工作者主要把精力集中在
下面两个方面分词算法设计和汉语歧义字段的语言研究。
在分词算法设计上,大致可以分为以下两类。一类旨在提高分词
的切分精度。对于这个问题,研究人员几乎动用了人工智能领域所有
“时髦”的计算手段。文献提出了一种改进的最大匹配分词方法
正向扫描十增字最大匹配含跳跃匹配十词尾歧义检查十归右规则对
连续型交集,需左部结合。这种方法,对于某些类型的歧义,虽然
可以取得正确的切分结果,但势必又造成了其它类型歧义的切分错
误。如例句“原子结合成分子”,由上述算法可获得正确的切分结果
对于“当原子结合成分子时”必须先把由介词或连词形成的“框型”
第一章引言基于蚁群算法的汉语自动分词的研究与实现
“当⋯⋯时”切分出来,才能获得正确的分词结果,而汉语是表意语
言,非常灵活,要正确无误地识别出这些“框型”,语言成分的基础
研究就不足对于“原子结合成分子时,⋯⋯”,因