1 / 56
文档名称:

综合字典和统计分析的中文分词系统的研究与实现.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

综合字典和统计分析的中文分词系统的研究与实现.pdf

上传人:qujim2013 2013/11/24 文件大小:0 KB

下载得到文件列表

综合字典和统计分析的中文分词系统的研究与实现.pdf

文档介绍

文档介绍:武汉理工大学
硕士学位论文
综合字典和统计分析的中文分词系统的研究与实现
姓名:李宏波
申请学位级别:硕士
专业:计算机应用技术
指导教师:胡燕
20100501
摘要中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中,统计策略对于待切分文本来说,对于未登录词和词典词条,本文算法的本质均是先基于统计的方法扩充核心词典,然后采用基于字符串匹配的分词方法切词。总体上讲,本系统具有以下三方面的特点。专用性:适合计算机学科专业领域的分词,这主要取决于训练文本的选择;分词效率高:算法核心是基于字符串匹配的方法;分词精度较好:利用简单统计量模型与机械分词的有机结合解决了第一、分词词典的设计。在整体结构上,词典分成两级结构,临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据,为了提高查询速度,结合中文二字词比例较大的特点,核心词典采用双层哈希结构。模块中,根据汉语的后重心特点以及“长词优先”准侧,我们选择逆向最大匹配总体上讲,系统在初始化后即能够满足一定程度的应用,准确率等分词精度精度参数可以提高将近一个百分点左右;分词效率指标不会发生明显变化。关键词:词典,统计,未登录词,和词典设计的关系往往是相互独立的,词典主要是作为机械分词的标准,而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。本文所阐述的中文分词系统,将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入,部分歧义词和未登录词问题。解决方案中涉及到的关键技术主要包括以下三个部分:第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法,本文选择了基于互信息原理的方法进行词频统计。该统计模型,原理简单,实现方便,有较强的实用价值。第三、机械分词方法的应用。为了简化系统结构,提高算法效率,核心分词算法。指标保持在%以上:选择合适的训练语料,经过一定强度的统计学习后,分词歧义词
...,瑃..:,,.畉,,.,琲,””,.瑂瑃%,琣琣
期:出砂/乏≥‘独创性声明学位论文使用授权书本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已研究生┟:保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武公众提供信息服务。成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人在论文中作了明确的说明并表示了谢意。期:本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会C艿穆畚脑诮饷芎笥ψ袷卮斯娑师┟:
第滦髀引言中文分词发展现状及特点题。随着人们对汉语自然语言处理技术研究的逐渐深入,中文分词技术不断发展,标,开发难度较大,开发周期长。目前针对专业领域【删【闹形姆执氏低巢⒉多见,并且自身的开发能力和研究时间都有限,本系统选择了计算机专业领域的语料作为训练文本。计算机专业领域的知识更新很快,这有利于系统研究阶段学习样本的收集,并且针对这一知识更新较快的专业领域做技术研究才是有价值的,这样能够充分体现统计分词的优势。在通用领域,中文分词技术目前的主要瓶颈是在处理未登录词和复杂多变的增长,时代的发展,新词出现的频度可想而知,甚至已经达到了不能完全收集的程度。中文分词中的歧义词出现的形式多样、灵活。我们选择针对计算机专业领域语料进行训练,从实际上减小了待分析的信息量,缩小了研究范围,本质上降低了分词系统开发的难度,同时,该系统在专业领域又有着通用系统不能比拟的优势。总之,虽然综合性的分词系统功能非常强大齐全,但是用来分析某一特定领设计一套适用于计算机专业领域的中文分词解决方案。适用于未登录词以及歧义词的分解,单纯的统计方法是构造不出完善的分词系统中文分词既是中文信息处理技术中的基础组成部分又是其领域中的前沿课各种性能优良的中文分词系统层出不穷。其中绝大部分系统的使用范围广泛,有较好的通用性。通用中文分词系统的设计要综合考虑各种情况,兼顾各种性能指歧义词识别,技术上很难再有更大的突破。因为在通用领域,随着网络信息量的域的信息就会力不从心,所以建立一个针对专业领域的中文