1 / 78
文档名称:

WEB中文文本聚类分类系统的设计与实现.pdf

格式:pdf   页数:78
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

WEB中文文本聚类分类系统的设计与实现.pdf

上传人:quality 2014/2/27 文件大小:0 KB

下载得到文件列表

WEB中文文本聚类分类系统的设计与实现.pdf

文档介绍

文档介绍:西南交通大学
硕士学位论文
WEB中文文本聚类分类系统的设计与实现
姓名:张宇
申请学位级别:硕士
专业:计算机应用技术
指导教师:唐慧佳
20090501
摘要西南交通大学硕士研究生学位论文文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作本文首先从理论上介绍了诰颍治隽薟挖掘的不同,并对挖掘中的两个重要分支聚类和分类以及涉及到的相关理论做了阐述。其次牡抵械奶卣鞅硎尽⑻卣骷尤ń辛讼低车难芯浚⒖7⒘艘惶状咏馕文档、提取特征、计算权值、聚类、分类、可视化的软件。软件采用介绍和实现了常用聚类算法对文本聚类的应用,其中采用了最常用的四种聚类算法,惴ā⒛:齝均值算法⒉愦尉劾喾粒子群优化算法2⒍灾鞒煞址治做了相应介绍,通过对高维数分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的聚类效果。对仿真数据和真实数据的实验结果证明,该算法聚类效果优于传统粒子群聚类算法和邓惴ā实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验关键词:预处理;特征选择;文本聚类;文本分类;可视化第为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。了多线程技术。据进行主成分变换达到降维的效果,最后选取浠缓蟮那傲轿魑6显示的可视化结果。比较。最后对系统进行了总体设计,各模块功能的详细设计,利用语言实现了整个系统。
,.,甌,.,.,瓼猰琭’‘‘’’,瑂,..琫,甀
西南交通大学硕士研究生学位论文篜第..畉;,..籉籘;】
肼箩.,学位论文作者签名:形向模一日期:如爿爹.,日期:≯训.’/秒.≯扩形9槐C堋问褂帽臼谌ㄊ椤西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。年解密后适用本授权书;指导老师签名:借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库本学位论文属于C芸冢朐谝陨戏娇蚰诖颉”日期:‘一。.
日期:、知夕,に辍≯缉西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。开发了一套从解析文档、提取特征、计算权值、聚类、分类、可视化的软件。分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验比较。得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体本学位论文的主要创新点如下:优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优聚类效果。最后对系统进行了总体设计,各模块功能的详细设计,利用语言实现了整个系统。学位论文作者签名:
第滦髀研究背景国内外研究状况西南交通大学硕士研究生学位论文万种,其他文献信息资料蛑郑环⒈砜蒲畚拇笤万篇,平均每天W笥遥刖陀篇论文发表,不到种泳陀本新书问世,每小时出现近项技术发明,每天约有亿个信息单位的信息量向全世界发送。德国学者哈根曾说,一个科学家即使目前夜以继日地工作,也只能阅读有关他随着及其相关技术的飞速发展,互联网上出现了海量的、异质的取信息的重要手段。在信息数据保持高速增长的同时,我们的吸收能力却并没有随之增强。因而,我们一方面感觉自己淹没在信息的海洋里,但另一方面又发现得不到最急需的信息。这就是我们经常所说的“信息发达,知识贫乏”。这息。如何在庋姆植际交肪持姓业接屑壑档男畔ⅲ⒋又刑崛〕鲋J兑经成为目前信息检索、数据挖掘和知识管理等研究领域的重要课题。分类⋯【烤拖缘酶悠惹小⒏佑肴嗣堑墓ぷ饔肷蠲芮邢喙亍M保ㄊ增长的文本信息给文本分类的精度与速度提

最近更新

国企廉政考试题库(能力提升) 14页

技术试题卷答案浙江省稽阳联谊学校2025年11月.. 5页

2027届高二上学期期中生物试题 8页

2025年黑龙江省黑河市单招职业适应性测试模拟.. 43页

2025广西来宾合山市统计局公开商调事业单位人.. 44页

2025福建省南平人力资源服务有限公司建阳分公.. 46页

2025贵州遵义市卫生健康事业单位秋季面向全国.. 43页

2026年C语言专升本真题精编答案 13页

2026年c语言文件考试题库(能力提升) 13页

2026年c语言知识测试题及答案(新) 13页

2026年c语言算法考试题库(综合题) 13页

2024年呼和浩特民族学院辅导员招聘备考题库附.. 30页

2026年主管中药师考试备考题100道含完整答案(.. 38页

2024年朔州师范高等专科学校辅导员招聘考试真.. 36页

2024年河北劳动关系职业学院辅导员考试参考题.. 36页

2025上海市事业单位考试模拟题-数量关系精选答.. 35页

2026年刑事诉讼原理与实务模拟题100道【黄金题.. 48页

2026年制冷与空调作业人员考试题库附答案(综.. 39页

2025四川广安安创人力资源有限公司招聘劳务派.. 48页

2025山西运城市河津市招聘社区工作者50人(一.. 31页

2026年司法考试题库100道及参考答案(基础题).. 50页

2026年吉林省白城市单招职业适应性测试模拟测.. 45页

2026年哈尔滨铁道职业技术学院单招职业倾向性.. 44页

2026年四川机电职业技术学院单招职业适应性测.. 45页

2026年国开电大城市管理学形考题库100道【考点.. 38页

2025年河北工程大学马克思主义基本原理概论期.. 13页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

2025年江西信息应用职业技术学院单招职业倾向.. 73页