1 / 66
文档名称:

现代汉语自动分词歧义分析及其消歧处理研究.pdf

格式:pdf   页数:66
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

现代汉语自动分词歧义分析及其消歧处理研究.pdf

上传人:化工机械 2012/9/14 文件大小:0 KB

下载得到文件列表

现代汉语自动分词歧义分析及其消歧处理研究.pdf

文档介绍

文档介绍:兰州理工大学
硕士学位论文
现代汉语自动分词歧义分析及其消歧处理研究
姓名:刘宽
申请学位级别:硕士
专业:计算机应用技术
指导教师:王继曾
20060524
摘要自然语言处理的目标之一就是找到一种方法把由简单词序列构成的句子中加没有空格隔开。因此汉语的自动分词就成了汉语信息处理的第一步,同时也是后上丰富的注释符号,使句子表达的含义从有结构标注的句子中比无结构信息标注的句子中更易于抽取出来。众所周知,汉语的句子是由字串构成的,词与词之间续的词性标注、句法分析和语义分析的基础。其中,分词歧义排歧和未登录词识别成为汉语自动分词的两大障碍,本文集中研究了分词歧义的特征与消歧处理。首先给撕河锓执始捌淦缫謇嘈偷男问交枋觯蝗缓蠓直鸲粤街种饕7执势缫及其消歧处理做了详细的研究;最后给出了实验结果。对于组合型歧义,通过语料库学习到歧义字段的消歧规则列表并对其进行优化,然后用来纠正这些歧义字段的分词错误。与语言学专家总结的规则相比,自动学习到的规则更客观、更全面、更节省人力,是今后计算语言学研究的发展方向。对于交集型歧义,首先通过语料库学习到了每一类交集型歧义的消歧规则,然后用于纠正交集型歧义字段。同时也采用了最大概率算法和查表的方法对交集型歧义字段进行排歧,实验取得了较好的效果。关键词:自然语言处理;自动分词;交集型歧义;组合型歧义;硕士学位论文
;现代汉语自动分词歧义分析及其消歧处理研究..琺餺丘Ⅱ.,协&餺.﹗.里籹篺鵼陀“,,譬瓹﹗〆瑃琣&.,產,山:;鎐
插图索引图自然语言处理的层次结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图扑慊斫夂河锏囊话悴街琛图句法驱动的语义分析管道流方法示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于转换的错误驱动学习原理框图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图词典中的词数及词频分布图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图组合型歧义字段按词长分布图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图规则的学习过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图消歧算法过程示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图当规则的荡笥谀骋环е凳惫嬖蚶嘈的消歧效果⋯⋯⋯⋯⋯⋯⋯⋯⋯图交集型歧义字段分类示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图交集型歧义宁段按链长分布图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯硕士学位论文
当4市詔时,η蟹治狹墓嬖颉附表索引表二宇词组合型歧义统计分析结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表简单名词短语的剖析数目与一连串介词短语的数目的关系表⋯⋯⋯⋯表几种流行的自然语言研究方法比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表生成的词典信息统计表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表分词歧义字段出现频次分类统计汇总表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表组合型歧义字段按词长分布表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯〔煌凳惫嬖蚶嘈消歧效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表交集型歧义字段按链长分布表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯锪峡饨患推缫遄侄畏植急怼戳峡饬丛疚R坏慕患推缫遄侄瓮臣票怼斗諴语料库主要歧义字段类型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表当4市詔时,η蟹治狝疊的规则⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表最大概率算法嬖蚶嘈纠正执势缫迨笛榻峁现代汉语自动分词歧义分析及其消歧处理研究
蒜墨戮豸詈刷噬氢刃少豸作者签名:训吼吼毹年日作者签名:‘⒃日期:苣阩,月功曰学位论文原创性声明兰州理工大学学位论文版权使用授权书本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果自本人承本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书。⒉槐C芡拧!朐谝陨舷嘤Ψ娇蚰诖颉啊獭担。●舦/’,
第滦髀前言词既是语言学研究的对象,也是信息处理的基本单位。如图所示,如果将来简单划界,唯独词没有一个形式上的分界符。因此,汉语比英文多了一道分词法和分词系统的优劣主要在于分词结果的正确率和分词速度。渲校仿视任迪制ヅ溲〈实木咛逅惴āR虼耍捎糜行У陌旆ń饩龇执誓训阄侍獠攀翘岣分词系统正确率和分词速度的关键。限于篇幅,本