1 / 89
文档名称:

基于数据挖掘的分类和聚类算法研究及R语言实现.pdf.pdf

格式:pdf   页数:89页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于数据挖掘的分类和聚类算法研究及R语言实现.pdf.pdf

上传人:omfadaz599 2016/6/6 文件大小:0 KB

下载得到文件列表

基于数据挖掘的分类和聚类算法研究及R语言实现.pdf.pdf

文档介绍

文档介绍:暨南大学硕士学位论文 1 暨南大学硕士学位论文题名(中英对照) :基于数据挖掘的分类和聚类算法研究及R 语言实现 A Study on Algorithm of Classification and Cluster Based on Data Mining and Realization by R programe 作者姓名: 方匡南指导教师姓名王斌会博士教授及学位、职称: 学科、专业名称: 经济学统计学论文提交日期: 2007 年 5 月论文答辩日期: 2007 年 6 月答辩委员会主席: 论文评阅人: 学位授予单位和日期: 基于数据挖掘的分类和聚类算法研究及 R 语言实现 2 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得暨南大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 签字日期: 年月日学位论文版权使用授权书本学位论文作者完全了解暨南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权暨南大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书) 学位论文作者签名: 导师签名: 签字日期: 年月日签字日期: 年月日学位论文作者毕业后去向: 工作单位: 电话: 通讯地址: 邮编: 暨南大学硕士学位论文 3 摘要数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学****等众多学科,正以其强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文着重于算法实现的研究,在国内首次利用 R语言实现数据挖掘算法,因为 R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介绍比较各分类算法及 R语言实现,包括基于距离分类的 KNN 算法;基于决策树方法的 算法、 CART 算法;基于神经网络的 BP 算法。第三章主要介绍比较各种聚类算法及 R语言实现。具体介绍了划分方法的 K-means 、 pam 、clara 算法;层次方法的 AGNES 、DIANA 算法; 基于密度聚类方法的 DBSCAN 算法;基于模型聚类方法的 COBWEB 、 SOM 算法;基于模糊聚类方法的 FCM 算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为例,按数据挖掘的标准流程 CRISP-DM 进行分析,首先对数据作初步统计分析,掌握护理人员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建立预测模型。第五章对本文的研究情况进行总结并展望。关键词: 数据挖掘分类算法聚类算法 R 语言实现基于数据挖掘的分类和聚类算法研究及 R 语言实现 4 ABSTRACT DataMing is a new study realm ,coming down to many subjects such as statistics 、 database 、 machine learning and so on,it was paid high attention for its strong functions and broad has many methods , classification and cluster are two of the most applied methods,but algorithm study is the most important fi eld in DataMing study ,whether the algorithm is good or bad will directly affect the efficiency of DataMing,so this paper will study deeply and systemly on classification and cluster al