1 / 52
文档名称:

基于蚁群算法的汉语自动分词的研究与实现.pdf

格式:pdf   页数:52
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于蚁群算法的汉语自动分词的研究与实现.pdf

上传人:jd234568 2014/7/19 文件大小:0 KB

下载得到文件列表

基于蚁群算法的汉语自动分词的研究与实现.pdf

文档介绍

文档介绍:基于蚁群算法的汉语自动分词的研究与实现摘要
摘要
汉语自动分词是中文信息处理领域中的基础课题,其中,歧义切分的消除是
影响分词精度的关键问题。国内外很多学者在自动分词领域展开了富有成效的工
作,但在提高分词精度上,仍然存在着很大的困难。
我们研究发现,对于汉语自动分词,首先,必须对影响分词精度的语言现象
作针对性的研究,做到对问题的实质从总体上把握其次,必需考虑分词算法的
设计,建立分词模型,提高模型的计算能力并研究在分词过程中提供更有效的
语台信息的度量。
本文在分词建模过程中,启发于蚁群算法在解决一系列复杂组合优化问题中
所表现出来的卓越性能,创造性地将蚁群算法模型运用到汉语自动分词问题中歧
义字段的识别和切分上面,通过汉语句子在内存中表示的数据结构的设计,构造
了我们的分词模型,以词频作为启发因子,巧妙的将纯粹分词问题转化为词的选
择问题,并从计算的角度,分别以绝对减值法和后备法给出我们相应方案的详细
设计。实验结果显示我们的基于蚁群算法的汉语自动分词方法是一个可行的解决
方案。
在统一的语料测试集上,我们就本文分词算法和中科院计算所的汉语词法分
析系统在歧义切分上做了一个全面的比较。并就分词知识从词频、语义信息层次
上展开了讨论,作出了展望。
关键字
汉语分词歧义切分蚁群算法
作者罗小虎
指导老师吕强

苏州大学学位论文独创性声明及使用授权的声明
学位论文独创性声明
本人郑重声明所提交的学位论文是本人在导师的指导下,独立
进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文
不含其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏
州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作
出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本
声明的法律责任。
研究生签名季逸一一日期尸,华一才
学位论文使用授权声明
苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论
文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论
文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论
文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的
保密论文外,允许论文被查阅和借阅,可以公布包括刊登论文的
全部或部分内容。论文的公布包括刊登授权苏州大学学位办办理。

研究生签名伽峪一丫一

导师签名一甲
墓于蚁群算法的汉语自动分词的研究与实现第一章引言
第一章引言
汉字在计算机内部是以机内码的形式存储和传输的,中文信息处
理就是基于对汉字机内码的处理。处理的信息除了单个汉字外,词才
是自然语言中有意义的、可以独立运用的最小单位。汉语文本和西文
不同,词与词之间没有明显的分隔标记。而中文信息处理诸多重要的
应用领域如汉字输入、语音合成、简繁转换、文本校对、文献检索、
机器翻译、篇章理解等都要求至少建立在词这一平面上。因此,汉语
自动分词是中文自然语言处理系统必须面对的第一道基本“工序”,
只有对汉语文本进行正确无误的分词,才有可能满足上述各应用领域
的要求。实践却表明,分词已成为中文信息处理的“瓶颈”,我们只
有逾越这个障碍,中文信息处理系统才称得上打上了“智能”的印记,
构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。
研究背景
国内第一个实用性分词系统,是北京航空航天大学在年设
计的,采用无回溯最大匹配法,并辅以词尾字构词检错技术,
使用知识库纠错,这是汉语自动分词实践的首次尝试,具有很大的启
发作用和理论意义。该系统比较科学地阐述了汉语中的歧义切分字段
的类别、特征以及基本的对策。自此,科技工作者主要把精力集中在
下面两个方面分词算法设计和汉语歧义字段的语言研究。
在分词算法设计上,大致可以分为以下两类。一类旨在提高分词
的切分精度。对于这个问题,研究人员几乎动用了人工智能领域所有
“时髦”的计算手段。文献提出了一种改进的最大匹配分词方法
正向扫描十增字最大匹配含跳跃匹配十词尾歧义检查十归右规则对
连续型交集,需左部结合。这种方法,对于某些类型的歧义,虽然
可以取得正确的切分结果,但势必又造成了其它类型歧义的切分错
误。如例句“原子结合成分子”,由上述算法可获得正确的切分结果
对于“当原子结合成分子时”必须先把由介词或连词形成的“框型”
第一章引言基于蚁群算法的汉语自动分词的研究与实现
“当⋯⋯时”切分出来,才能获得正确的分词结果,而汉语是表意语
言,非常灵活,要正确无误地识别出这些“框型”,语言成分的基础
研究就不足对于“原子结合成分子时,⋯⋯”,因

最近更新

2026年国开法律专题形考作业4考试题库附完整答.. 44页

2026年国开电大外国文学专题形考题库附参考答.. 41页

2026年在线廉政知识测试题及答案(网校专用).. 14页

2026年大学c语言考试题库往年题考 13页

2026年大连职业技术学院单招职业技能测试题库.. 43页

2025广东深圳市公安局第十三批招聘警务辅助人.. 48页

2026年安徽水利水电职业技术学院单招职业技能.. 44页

2026年宜春幼儿师范高等专科学校单招职业倾向.. 45页

2025浙江温州平阳县萧江镇中心卫生院招聘门诊.. 35页

2026年山西省财政税务专科学校单招职业倾向性.. 44页

2026年工贸试题-考试题库【模拟题】 42页

2025重庆沙坪坝区树人沙磁小学校教师招考试备.. 43页

2026年广东交通职业技术学院单招职业技能测试.. 44页

2026年广西省防城港市单招职业倾向性测试模拟.. 44页

2026北京师范大学附属实验中学教育集团教师及.. 36页

2026山西省面向江南大学选调优秀高校毕业生考.. 47页

2026年华文慕课 刑法学总论课后作业参考答案 16页

2026年注册造价工程师考试题库200道含完整答案.. 86页

2026年吉安幼儿师范高等专科学校单招职业倾向.. 44页

2026年福建省储备粮管理有限公司莆田直属库招.. 51页

2026年自考专业(营销)考试题库2000道及参考答.. 81页

2026年安徽电气工程职业技术学院单招职业倾向.. 44页

2026年阿勒泰职业技术学院单招职业倾向性考试.. 44页

2026年常用党纪法规知识测试题学生专用 18页

2026福建厦门轨道建设发展集团有限公司校园招.. 50页

C语言程序设计实例教程含答案 13页

2026年普通摩托车考试试历年真题带答案 29页

2026年本溪满族自治县辅警招聘考试历年真题必.. 30页

2026年法院廉政知识测试题(模拟题) 15页

2026年江苏省安全生产培训试题word 28页