1 / 31
文档名称:

数据挖掘算法_聚类数据挖掘..ppt

格式:ppt   页数:31页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法_聚类数据挖掘..ppt

上传人:用户头像没有 2016/6/15 文件大小:0 KB

下载得到文件列表

数据挖掘算法_聚类数据挖掘..ppt

文档介绍

文档介绍:数据挖掘算法——聚类数据挖掘内容提要?聚类的基本概念?聚类挖掘方法?聚类挖掘的形式化描述?基于距离的聚类聚类的基本概念?簇( Cluster ):一个数据对象的集合?在同一个簇中,对象之间具有相似性; ?不同簇中的对象之间是相异的。?聚类( 簇)挖掘或分析?把一个给定的数据对象集合分成不同的簇。?组内的对象具有很高的相似性,不同组的对象具有很低的相似性?典型的应用?作为一个独立的分析工具,用于了解数据的分布; ?作为其它算法的一个数据预处理步骤; 应用聚类分析的例子?市场销售:帮助市场人员发现客户中的不同群体, 然后用这些知识来开展一个目标明确的市场计划; ?土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区; ?保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; ?城市规划:根据类型、价格、地理位置等来划分不同类型的住宅; ?地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类; 聚类分析的应用实例,﹒.┇. . · ·. . · · .·﹒.﹒.·﹒.﹒.﹒. ﹒. ﹒. ﹒. ﹒.┇. . · · . . · · .·﹒.﹒.·﹒.﹒.﹒. ﹒. ﹒. ﹒. ﹒.┇. . · · . . · · .·﹒.﹒. ·﹒.﹒.﹒. ﹒. ﹒年龄 80类别1类别 2类别 3 ﹒. ·﹒.. ﹒. ·.收入 60000 30000 15000 0聚类分析的应用实例? 20 世纪初,天文学家试图了解星星的发光度和温度之间的关系?纵坐标:太阳明亮度的倍数?横坐标:表面开式温度?丹麦的 Hertzsprung 和美国的 Russell 独立提出?结果:星星落到三个簇中?解释:这三个簇代表了恒星生命周期中星体所处的不同阶段。每个簇中星星的发光度和温度是一致的,但簇间的关系则不同,揭示产生热和光的过程存在本质差异。占 80% ,通过原子核聚变有氢转化为氦产生能力聚类分析的应用实例?两个变量的例子很容易判断?当独立变量数目增加时,发现簇的难度开始增加?美陆军委托他人研究如何重新设计女兵服装,目的在于减少不同尺码制服的库存数,但必须保证每个士兵都有合体的制服。?选取了 3000 名女性,每人有 100 多个度量尺寸。?划分方法的基本思想是,给定一个 n个样本的数据库,划分方法将数据划分为 k个划分(k<=n ), 每个划分表示一个簇,同时满足: ; ? k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。?⑴首先将所有对象随机分配到 k个非空的簇中。?⑵计算每个簇的平均值,并用该平均值代表相应的簇。?⑶根据每个对象与各个簇中心的距离,分配给最近的簇。?⑷然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。常见的聚类方法-- 划分聚类方法 k-平均算法?“K”– circa 1967 – this algorithm looks for a fixed number of clusters which are defined in terms of proximity of data points to each other ? How K-means works ? Algorithm selects K data points randomly ? Assigns each of the remaining data points to one of K clusters (via perpendicular bisector) ? Calculate the centroids of each cluster (uses averages in each cluster to do this) K-means Clustering K-Means ? Example 0 1 2 3 4 5 6 7 8 9 10 0123456789 10 0 1 2 3 4 5 6 7 8 9 10 0123456789 10 0 1 2 3 4 5 6 7 8 9 10 0123456789 10 0 1 2 3 4 5 6 7 8 9 10 0123456789 10