1 / 64
文档名称:

基于优化类中心分类算法的文本分类系统设计与实现.pdf

格式:pdf   页数:64
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于优化类中心分类算法的文本分类系统设计与实现.pdf

上传人:banana 2014/2/26 文件大小:0 KB

下载得到文件列表

基于优化类中心分类算法的文本分类系统设计与实现.pdf

文档介绍

文档介绍:桂林理工大学
硕士学位论文
基于优化类中心分类算法的文本分类系统设计与实现
姓名:刘振
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘忠
20090401
桂林理工大学硕士学位论文摘要本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受并针对传统类中心分类算法由于训练文档分散,不能准确的表示各类别的中心向关键词:文本分类;向量空间模型;特征项;分类算法面对如今信息技术的飞快发展,各种电子文档和电子邮件都爆炸式的增长,为了从海量文本中及时准确的获得有效的知识和信息,就需要处理大量的文本。由于互联网上大部分信息都是以文本的形式存在,文本的识别就构成了高效信息获取的基础。利用文本分类识别技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高检索信息、利用信息的效率。文本分类已经成为组织和管理文本数据的重要形式。传统的人工分类已经不能满足如今的需要,它耗费大量的人力、物力和精力,并且分类结果一致性不高。为了能在海量的文到了广泛的关注。本文详细介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,研究现有的特征抽取和特征权重算法,介绍了常用的文本分类算法,量,提出了优化算法,从而提高了分类准确度。主要研究如下:首先,阐述了文本分类的理论基础:分词、文本表示、特征提取、特征权重算法。其次,介绍了文本分类常用的分类算法:贝叶斯方法,椒ā⒗嘀行分类方法、支持向量机方法、决策树方法,并对它们进行对比研究,最后提出了改进的类中心分类算法。最后,在文本分类的相关技术的支持下,利用改进的类中心分类算法设计一个文本分类系统,并得到了良好的效果。
:桂林理工大学硕士学位论文甌,籉琾琧甌琄,琩,,,猚;;瓸.,,獁,,,瓵篢瑃
童:学位论文作者签名:当签字日期:枷口晔铝羧研究生学位论文独创性声明和版权使用授权书导师签字:多、签字日期:型翌名笸:星学位论文版权使用授权书签字日期。例诈骆萑本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究独创性声明成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的完成提供过帮助的有关人员已在论文中作了明确的说明并表示谢意。学位论文作者┳:本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ
桂林理工大学硕士学位论文第滦髀课题的意义和背景中如何快速有效的获得有用的信息已经成为一个非常重要的研究课题。人们已经分类。文本分类系统的目的就是对文本集进行有序组织,把相似的、相关的文本的预测。自动文本分类的相关研究早在上个世纪六十年代已经展开,现在已经成为信息科学的主要分支。由于文本分类处理的对象是真实的自然文本,由于语言的爆炸性增长,以及文本分类的应用领域也很广泛,文本分类以及相关技术的研随着信息技术尤其是喙丶际醯姆⒄褂氤墒欤琁、企业内部网和电子图书馆中可获得的信息越来越多并且还在不断增长。因此,从海量信息不能简单地靠人工来处理所有的信息,需要有更好的方法来帮助人们更好地发现、过滤和管理这些信息资源。对资源进行管理的最常用的方法就是对它们进行组织在一起,为信息检索提供了更高效的搜索策略和更准确的查询结果。传统的文本分类是有人工完成的,它要耗费大量的人力、物力和精力,并且文分类结果一致性不高。文本自动分类不仅方便用户准确定位所需的信息,很大程度上解决了目前网上信息杂乱问题,而且很好的解决了人工分类周期长、费用高、效率低的缺点,已成为一项具有较大使用价值的关键技术。文本自动分类技术已经广泛的应用到献试吹乃阉鳎缱油际榈姆掷啵绨踩性诜阑鹎郊际跎的应用以及电子邮件分类的应用等等,通过文本分类技术可以弥补传统搜索引擎的不足,过滤用户不需要的文章,并将检索结果分门别类,使用户能够清晰地发现自己感兴趣的内容。一些机构可以通过文本分类,将不同类别的材料发送到不同的部门,从而提高工作效率。自动文本分类是机器学习的一种,它是通过给定的训练文本学习分类模型,新的待分类文本到来时,通过该分类模型进行分类。也就是说根据给定的训练样本求出某系统输入输出之间的依赖关系的估计,使得它能够对未知分类做出准确的复杂性,所以它涉及的学科知识比较多,技术也比较复杂,包括语言学、认知科学、信息论、人工智能、统计学、计算机科学等。由于

最近更新

2026年工贸试题-考试题库含答案【黄金题型】 42页

2025辽宁鞍山市铁西区事业单位面向应届毕业生.. 36页

2026“梦工场”招商银行西宁分行寒假实习生招.. 45页

2026公务员时事政治热点试卷及答案(必刷) 13页

2026四川成都国际铁路港投资发展有限公司招聘.. 50页

2026年廉政教育测考试题库完美版 14页

2026年C语言专升本真题(培优) 13页

2026年一级注册建筑师之建筑物理与建筑设备考.. 79页

2026年廉政知识问卷测试题审定版 14页

2026年保安资格考试题汇编 15页

2026年时事政治测试题库含答案(达标题) (2).. 13页

2026年刑法分则期末测试题必考题 15页

2026年江西制造职业技术学院单招职业倾向性测.. 44页

2026年叉车工理论考试题库及答案(易错题) 14页

2026年消毒技术题库及答案(名师系列) 40页

2026年商场保安考试试题word版 15页

2026年国开形成性考核《劳动关系与社会保障实.. 41页

2026年福建省福州新区(长乐区)优秀教育人才.. 46页

2026年自考专业(国贸)考试题库200道及完整答案.. 85页

2026年药物分析题库(全优) 42页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

2025年江西信息应用职业技术学院单招职业倾向.. 73页

喝酒给老婆的检讨书 6页

vae乳液低温发泡工艺 29页

隧道工程课后习题答案-中南大学-彭立敏 6页

《口蹄疫》ppt课件 42页

DL T 5783-2019《水电水利地下工程地质超前预.. 36页

德国科隆柯伦巴艺术博物馆_建筑空间解析 14页