文档介绍:西南交通大学
硕士学位论文
WEB中文文本聚类分类系统的设计与实现
姓名:张宇
申请学位级别:硕士
专业:计算机应用技术
指导教师:唐慧佳
20090501
摘要西南交通大学硕士研究生学位论文文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作本文首先从理论上介绍了诰颍治隽薟挖掘的不同,并对挖掘中的两个重要分支聚类和分类以及涉及到的相关理论做了阐述。其次牡抵械奶卣鞅硎尽⑻卣骷尤ń辛讼低车难芯浚⒖7⒘艘惶状咏馕文档、提取特征、计算权值、聚类、分类、可视化的软件。软件采用介绍和实现了常用聚类算法对文本聚类的应用,其中采用了最常用的四种聚类算法,惴ā⒛:齝均值算法⒉愦尉劾喾粒子群优化算法2⒍灾鞒煞址治做了相应介绍,通过对高维数分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的聚类效果。对仿真数据和真实数据的实验结果证明,该算法聚类效果优于传统粒子群聚类算法和邓惴ā实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验关键词:预处理;特征选择;文本聚类;文本分类;可视化第为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。了多线程技术。据进行主成分变换达到降维的效果,最后选取浠缓蟮那傲轿魑6显示的可视化结果。比较。最后对系统进行了总体设计,各模块功能的详细设计,利用语言实现了整个系统。
,.,甌,.,.,瓼猰琭’‘‘’’,瑂,..琫,甀
西南交通大学硕士研究生学位论文篜第..畉;,..籉籘;】
肼箩.,学位论文作者签名:形向模一日期:如爿爹.,日期:≯训.’/秒.≯扩形9槐C堋问褂帽臼谌ㄊ椤西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。年解密后适用本授权书;指导老师签名:借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库本学位论文属于C芸冢朐谝陨戏娇蚰诖颉”日期:‘一。.
日期:、知夕,に辍≯缉西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。开发了一套从解析文档、提取特征、计算权值、聚类、分类、可视化的软件。分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验比较。得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体本学位论文的主要创新点如下:优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优聚类效果。最后对系统进行了总体设计,各模块功能的详细设计,利用语言实现了整个系统。学位论文作者签名:
第滦髀研究背景国内外研究状况西南交通大学硕士研究生学位论文万种,其他文献信息资料蛑郑环⒈砜蒲畚拇笤万篇,平均每天W笥遥刖陀篇论文发表,不到种泳陀本新书问世,每小时出现近项技术发明,每天约有亿个信息单位的信息量向全世界发送。德国学者哈根曾说,一个科学家即使目前夜以继日地工作,也只能阅读有关他随着及其相关技术的飞速发展,互联网上出现了海量的、异质的取信息的重要手段。在信息数据保持高速增长的同时,我们的吸收能力却并没有随之增强。因而,我们一方面感觉自己淹没在信息的海洋里,但另一方面又发现得不到最急需的信息。这就是我们经常所说的“信息发达,知识贫乏”。这息。如何在庋姆植际交肪持姓业接屑壑档男畔ⅲ⒋又刑崛〕鲋J兑经成为目前信息检索、数据挖掘和知识管理等研究领域的重要课题。分类⋯【烤拖缘酶悠惹小⒏佑肴嗣堑墓ぷ饔肷蠲芮邢喙亍M保ㄊ增长的文本信息给文本分类的精度与速度提