1 / 78
文档名称:

基于改进CURE算法的短文本聚类研究与实现.doc

格式:doc   页数:78
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于改进CURE算法的短文本聚类研究与实现.doc

上传人:799474576 2013/7/17 文件大小:0 KB

下载得到文件列表

基于改进CURE算法的短文本聚类研究与实现.doc

文档介绍

文档介绍:分类号密级
U D C
工程硕士学位论文
基于改进CURE算法的短文本聚类
研究与实现
研究生姓名罗姗姗
指导教师姓名、职称龙华教授
学科专业电子与通信工程
研究方向信息处理技术
论文工作
起止日期 2011年1月~2012年4月
论文提交日期 2012年4月
昆明理工大学学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下(或我个人……)进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢意。本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年月日
…………………………………………………………………………………
关于论文使用授权的说明
本人完全了解昆明理工大学有关保留、使用学位论文的规定,即:学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布论文的全部或部分内容,可以采用影印或其他复制手段保存论文。、、、、、、、、、、、、、、、、、、、、、
(保密论文在解密后应遵守)
导师签名: 论文作者签名:
日期: 年月
摘要
在网络作为媒体传播信息日渐频繁的今天,如何从海量的网络文本中,特别是类似新浪微博、twitter这些信息量大、更新速度快的平台所产生的短文本中得到当下热点话题或者是焦点问题显得十分必要。文本聚类这一技术近年来一直被用于信息检索和舆情发现,结合其自身优势,并考虑到网络短文本数据量大、更新速度快等特点,可将文本聚类运用于分析网络短文本话题。
本文首先深入了解并分析了现有各种聚类算法的特性、适用范围以及优缺点。根据网络短文本的特性,选定了CURE算法作为基础进行聚类。保留了CURE算法中通过引入系数来选取代表点以表示类的形状等步骤,再考虑到网络文本集中孤立点较多的特殊情况,特别加入对孤立点的预处理过程,保证了在聚类前就去除掉大部分孤立点,从而减少聚类中一些不必要的计算同时降低了孤立点对聚类结果的干扰。在验证算法的过程中,还发现在文本表示中所使用的TFIDF公式并不十分适宜于短文本的聚类,所以也将其进行了改进,从而大大提高了聚类准确率。
本文提出了网络短文本聚类算法实现设计,为了验证文中提出的改进算法的聚类效果,从语料库中整理出网络短文本,通过该设计实现了对语料的聚类结果输出。并通过对由查准率和查全率构成的F-measure聚类评价指标和孤立点数量的统计,证明了改进后的算法在F-measure性能指标上优于改进前,并且能更好的避免孤立点对聚类的影响。
关键词:聚类;短文本;CURE;TFIDF
ABSTRACT
work as media es more and more frequent day by day, how to dig the Talking Point from a large amount of web short text, especially the similar micro-blog, twitter e very necessary. In recent years, text clustering has been used in information retrieval and public opinion discovery. Considering its own advantages and the amount of short text work is large and updated frequently, we can apply the text clustering into the analysis work short text topic.
This paper deeply analyzes the characteristics such as application scope, advantages and disadvantages of the existing clustering algorithms. According to the characteristics of web short text, we selected the CURE algorithm as a basis for clustering. Retaining in the representative points of CURE algorithm we add the process of Handling Outliers to filter the large amount of outliers. En

最近更新

2024年山西艺术职业学院单招职业倾向性考试模.. 40页

2024年崇左幼儿师范高等专科学校单招综合素质.. 42页

2024年平顶山工业职业技术学院单招职业技能考.. 41页

2024年广东女子职业技术学院单招职业倾向性考.. 41页

2024年广东机电职业技术学院单招职业倾向性测.. 39页

2024年广东省广州市单招职业倾向性测试题库附.. 41页

2024年广东省韶关市单招职业适应性考试模拟测.. 39页

2024年广州城建职业学院单招职业技能测试题库.. 41页

2024年广州铁路职业技术学院单招职业技能测试.. 39页

2024年广西农业职业技术大学单招职业倾向性测.. 41页

2024年广西培贤国际职业学院单招综合素质考试.. 41页

2024年广西工程职业学院单招职业适应性考试模.. 41页

2024年广西物流职业技术学院单招综合素质考试.. 39页

2024年广西省玉林市单招职业倾向性测试模拟测.. 40页

2024年广西经济职业学院单招职业倾向性考试题.. 40页

2024年延边职业技术学院单招职业适应性考试模.. 41页

2024年张家界航空工业职业技术学院单招职业适.. 41页

2024年徽商职业学院单招职业技能考试模拟测试.. 40页

2024年惠州卫生职业技术学院单招职业倾向性考.. 39页

2024年成都工业职业技术学院单招职业技能测试.. 40页

2024年成都航空职业技术学院单招职业技能考试.. 40页

2024年扬州工业职业技术学院单招职业技能测试.. 41页

2024年新疆伊犁哈萨克自治州单招职业适应性考.. 41页

2024年无锡城市职业技术学院单招职业适应性考.. 39页

2025年国家开放大学《建筑力学》章节测试参考.. 13页

2024年常州机电职业技术学院单招职业适应性测.. 78页

食品安全自查、从业人员健康管理、进货查验记.. 9页

康复医院设置标准1 14页

民间非盈利组织会计制度 7页

介绍医院门诊ppt 28页