文档介绍：数据仓库与数据挖掘
第一章数据仓库与数据挖掘概述
第二章数据仓库的分析
第三章数据仓库的设计与实施
第四章信息分析的基本技术
第五章数据挖掘过程
第六章数据挖掘基本算法
第七章非结构化数据挖掘
第八章离群数据挖掘
第九章数据挖掘语言与工具的选择
第十章知识管理与知识管理系统
第六章数据挖掘基本算法
分类规则挖掘
预测分析与趋势分析规则
数据挖掘的关联算法
数据挖掘的聚类算法
数据挖掘的统计分析算法
数据挖掘的品种优化算法
数据挖掘的进化算法
数据挖掘的聚类算法
聚类分析是对群体及成员进行分类的递归过程。
一个簇是一组数据对象的集合,在同一簇中的对象彼此类似,而不同簇中的对象彼此相异。
将一组物理或抽象对象分组成由类似对象组成的多个簇的过程被称为聚类。
聚类就是将数据对象分组成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
距离是经常采用的度量方式。
数据挖掘的聚类算法
聚类分析的应用:市场或客户分割、模式识别、生物学研究、空间数据分析、Web文档分类等。
聚类分析可以用作独立的数据挖掘式工具,来获得对数据分布的了解,也可以作为其他数据挖掘算法的预处理步骤。
聚类的质量是基于对象相异度来评估的。相异度是描述对象的属性值来计算的。
相异度可以对多种类型的数据来计算,包括区间标度变量、二元变量、标称变量、序数型变量和比例度型变量类型的组合。
数据挖掘的聚类算法
聚类分析的算法可以分为:
划分方法:首先得到初始的K个划分的集合。如K-平均、K-中心点、CLARANS以及对它们的改进。
层次方法:创建给定数据对象集合的一个层次性的分解。根据层次分解的过程可以分为凝聚(自底向上)或分裂(自顶向下)。
基于密度的方法:根据密度的概念来聚类对象,如DBSCAN、DENCLUE、OPTICS。
基于网格的方法:首先将对象空间量化为有限数目的单元,形成网格结构,然后在网格结构上进行聚类,如STING、CLIQUE、WaveCluster。
基于模型的方法:为每个簇假设一个模型,发现数据对模型的最好匹配,如COBWEB、CLASSIT和AutoClass。
数据挖掘的聚类算法
类别
算法
分裂/划分方法
K-MEANS(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(基于选择的方法)
层次法
BIRCH算法(平衡迭代规约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型)
基于密度的方法
DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCURE算法(密度分布函数)
基于网格的方法
STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)
基于模型的方法
统计学方法、神经网络方法
主要的聚类算法的分类
数据挖掘的聚类算法
聚类分析的概念
聚类分析中两个对象之间的相异度计算方法
划分方法
层次方法*
基于密度的方法*
基于网格的方法*
基于模型的聚类方法*
模糊聚类算法*
聚类分析的概念
聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。
聚类是一个无监督学****的过程,它与分类的根本区别在于,分类是需要事先知道所依据的数据特征,而聚类是要找到这个数据特征。因此在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。
聚类是一种对具有共同趋势和模式的数据元组进行分组的方法,试图找出数据集中的共性和差异并将具有共性的元组聚合在相应的类或段中。
聚类分析的概念
数据挖掘对聚类的典型要求如下:
1)可伸缩性:算法能够处理海量的数据库对象。
2)处理不同类型属性的能力
3)发现具有任意形状的聚类的能力
4)输入参数对领域知识的弱依赖性
5)处理噪声数据或离群数据的能力
6)结果对于输入记录顺序的无关性
7)处理高维度数据的能力
8)结果的可解释性和可用性
9)基于约束的聚类分析能力
聚类分析中两个对象之间的相异度计算方法
基于内存的聚类算法多选择如下两种有代表性的数据结构:
(1)数据矩阵(data matrix)
数据矩阵用m个变量(也称属性)来表现n个对象,这种数据结构是关系表的形式,或nm维(n个对象m 个属性)的矩阵。
(6-12)

第六章 数据挖掘基本算法.ppt

第六章 数据挖掘基本算法.ppt

第六章数据挖掘基本算法.ppt

第六章数据挖掘基本算法.ppt