1 / 64
文档名称:

基于最大熵模型特征选择算法的中文分词增量学习研究.pdf

格式:pdf   页数:64页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于最大熵模型特征选择算法的中文分词增量学习研究.pdf

上传人:quality 2014/1/16 文件大小:0 KB

下载得到文件列表

基于最大熵模型特征选择算法的中文分词增量学习研究.pdf

文档介绍

文档介绍:密级:——挂林理工大学基于最大熵模型特征选择算法的中文分词增量学****研究硕士研究生学位论文专业:研究方向:研究生:指导教师:计算机应用技术人工智能王来跃麦范金教授论文起止日期:编号:至≥至月至月
㈣洲叭篈:
签字日期:——;伊匀咔弛王秉政王寥逖签字日秘签字日期:功裁拢胰研究生学位论文独创性声明和版权使用授权书学位论文版权使用授权书独创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的完成提供过帮助的有关人员已在论文中作了明确的说明并表示谢意。学位论文作者┳:本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权校梢越宦畚牡娜ú炕虿糠帜谌荼嗳胗泄厥菘饨屑焖鳎梢圆捎糜坝⑺跤或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到泄宦畚娜氖菘狻罚学位论文在解密后适用本授权书学位论文作者签名:并通过网络向社会公众提供信息服务。C艿导师签字:
摘要随着信息化社会的发展,网络的不断瞥及,中文信息处理技术的应用越来越广泛。中文分词技术作为中文信息处理技术的基础,已经成为制约中文信息处理技术发展的一项关键和核心技术。目前,中文分词方法主要有两大类,,此外还有一些综合方法和其它方法。虽然这些方法大大推动了中文分词研究的发展,但在实际应用中,仍然面临着以下三个常见问题:分词规范问题、歧义问题、未登录词问题。目前,已经应用于中文分词技术的机器学****算法有简单贝叶斯、最大熵、神经网络、支持向量机、遗传算法等,这些算法在中文分词的应用中都有非常好的效果。但是,这些算法仍然难以应对与日俱增的数据规模。当出现新增的训练数据样本时,算法为了适应新的数据样本,必须将所有的数据重新学****一遍,以建立新的计算模型。。因此,本文将最大熵模型特征选择算法引入到中文分词技术的研究中,以应对训练语料库规模的日益增大,:芯吭隽垦暗幕纠砺酆突舅惴ā芯啃畔⒙壑刑跫畲箪氐睦砺郏慕畲箪啬P偷奶卣餮≡袼惴ㄒ允视υ隽垦暗囊G螅芯拷患推缫搴妥楹闲推缫宓奶卣髂0宓墓菇ǎ⑶依霉菇ǖ奶卣髂0褰刑卣餮≡瘢选出有代表性的、≡袼惴ü菇ㄒ桓鲋形姆执氏低常褂貌欢显龃蟮挠锪峡饨醒盗罚避免重训练,:中文分词:增量学****特征选择;最大熵;歧义消解
、·
‘啪啪④甌,.琣,.以、“:诵;:.辭籱、.他,琲,甌.、Ⅳ璽...,篊;