文档介绍:桂林理工大学
硕士学位论文
基于优化类中心分类算法的文本分类系统设计与实现
姓名:刘振
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘忠
20090401
桂林理工大学硕士学位论文摘要本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受并针对传统类中心分类算法由于训练文档分散,不能准确的表示各类别的中心向关键词:文本分类;向量空间模型;特征项;分类算法面对如今信息技术的飞快发展,各种电子文档和电子邮件都爆炸式的增长,为了从海量文本中及时准确的获得有效的知识和信息,就需要处理大量的文本。由于互联网上大部分信息都是以文本的形式存在,文本的识别就构成了高效信息获取的基础。利用文本分类识别技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高检索信息、利用信息的效率。文本分类已经成为组织和管理文本数据的重要形式。传统的人工分类已经不能满足如今的需要,它耗费大量的人力、物力和精力,并且分类结果一致性不高。为了能在海量的文到了广泛的关注。本文详细介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,研究现有的特征抽取和特征权重算法,介绍了常用的文本分类算法,量,提出了优化算法,从而提高了分类准确度。主要研究如下:首先,阐述了文本分类的理论基础:分词、文本表示、特征提取、特征权重算法。其次,介绍了文本分类常用的分类算法:贝叶斯方法,椒ā⒗嘀行分类方法、支持向量机方法、决策树方法,并对它们进行对比研究,最后提出了改进的类中心分类算法。最后,在文本分类的相关技术的支持下,利用改进的类中心分类算法设计一个文本分类系统,并得到了良好的效果。
:桂林理工大学硕士学位论文甌,籉琾琧甌琄,琩,,,猚;;瓸.,,獁,,,瓵篢瑃
童:学位论文作者签名:当签字日期:枷口晔铝羧研究生学位论文独创性声明和版权使用授权书导师签字:多、签字日期:型翌名笸:星学位论文版权使用授权书签字日期。例诈骆萑本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究独创性声明成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的完成提供过帮助的有关人员已在论文中作了明确的说明并表示谢意。学位论文作者┳:本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ
桂林理工大学硕士学位论文第滦髀课题的意义和背景中如何快速有效的获得有用的信息已经成为一个非常重要的研究课题。人们已经分类。文本分类系统的目的就是对文本集进行有序组织,把相似的、相关的文本的预测。自动文本分类的相关研究早在上个世纪六十年代已经展开,现在已经成为信息科学的主要分支。由于文本分类处理的对象是真实的自然文本,由于语言的爆炸性增长,以及文本分类的应用领域也很广泛,文本分类以及相关技术的研随着信息技术尤其是喙丶际醯姆⒄褂氤墒欤琁、企业内部网和电子图书馆中可获得的信息越来越多并且还在不断增长。因此,从海量信息不能简单地靠人工来处理所有的信息,需要有更好的方法来帮助人们更好地发现、过滤和管理这些信息资源。对资源进行管理的最常用的方法就是对它们进行组织在一起,为信息检索提供了更高效的搜索策略和更准确的查询结果。传统的文本分类是有人工完成的,它要耗费大量的人力、物力和精力,并且文分类结果一致性不高。文本自动分类不仅方便用户准确定位所需的信息,很大程度上解决了目前网上信息杂乱问题,而且很好的解决了人工分类周期长、费用高、效率低的缺点,已成为一项具有较大使用价值的关键技术。文本自动分类技术已经广泛的应用到献试吹乃阉鳎缱油际榈姆掷啵绨踩性诜阑鹎郊际跎的应用以及电子邮件分类的应用等等,通过文本分类技术可以弥补传统搜索引擎的不足,过滤用户不需要的文章,并将检索结果分门别类,使用户能够清晰地发现自己感兴趣的内容。一些机构可以通过文本分类,将不同类别的材料发送到不同的部门,从而提高工作效率。自动文本分类是机器学习的一种,它是通过给定的训练文本学习分类模型,新的待分类文本到来时,通过该分类模型进行分类。也就是说根据给定的训练样本求出某系统输入输出之间的依赖关系的估计,使得它能够对未知分类做出准确的复杂性,所以它涉及的学科知识比较多,技术也比较复杂,包括语言学、认知科学、信息论、人工智能、统计学、计算机科学等。由于