文档介绍：石河子大学
信息科学与技术学院课程论文
课程名称:
信息管理与信息系统专业概论
学生姓名:
学号:
学院:
信息科学与技术学院
专业年级
信息系统与信息管理14级
:
完成日期:
二○一四年月日
样例:
数据挖掘中的 K-means聚类算法分析与实现(标题黑体三号字)
摘要
聚类分析是数据挖掘中的一个重要领域,是数据划分或分组处理的重要手段和方法,聚类分析已经应用于广泛的领域。聚类算法可以分为基于层次的方法、基于划分的方法、基于网格的方法、基于密度的方法和基于模型的方法。
K-means算法因为算法思想简单,适合于大量数据的聚类,所以是实际应用中聚类分析的支柱。本文重点对K-means算法进行了分析和研究,阐述了基于划分的 K-means算法及对其的改进,并实现了这种算法以及给出它们的聚类结果。
改进后的K-means算法对一个待聚类的数据集,首先选取尽可能远的对象作为初始聚类中心,这样可以有效防止目标准则函数陷入局部最优,努力得到数据集一个比较好的初始划分。该算法也不需要预先给出聚类个数,可以根据一定的计算规则智能地确定聚类中心的个数,并对孤立点和噪声进行剔除,同时也加快了运行效率。
关键词: 聚类分析; 划分; K-means
(摘要、关键词部分宋体小四号字,摘要部分用简洁的一到两小段内容完成,是对全文的高度概括。)
数据挖掘中的 K-means聚类算法分析与实现(标题黑体三号字)
随着信息技术和数据库技术的迅猛发展,人们可以非常方便地存储和获取大量的数据。面对数据的日新月异,人们利用信息技术生产和搜集数据的能力大幅度提高,大量的数据库被用于科学研究、政府办公、商业管理和工程开发等等,以前的的数据分析工具(如管理系统)只能进行一些表层的处理(如统计、查询等),而不能获得数据之间存在的隐含的信息和内在的关联。为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够自动地智能地把数据转换成有用信息和知识的工具和技术,这种对强有力的数据分析工具的迫切需要使得数据挖掘技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
聚类分析是根据一批样品的多个观测指标,找出能够试验样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类算法,将所有样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。聚类分析是一种无监督的学****方法,它已经被广泛地应用于统计学、机器学、空间数据库、生物学以及市场营销等领域,聚