文档介绍:在机器学****统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念,对相应属性进行计算已获得( 描述属性相关性) 的若干属性相关参量。这些参量包括: 信息增益、 Gini 值、不确定性和相关系数等。采用属性相关分析方法, 以帮助滤去统计无关或弱相关的属性并保留( 与挖掘任务) 最相关的属性。包含属性(维) 相关分析的定性概念描述就称为分析定性概念描述(analytical characterization )。包含属性(维) 相关分析的对比定性概念描述也就称为分析对比定性概念描述(parison) 。直观上讲, 若一个属性(维) 的取值可以帮助有效地区分不同类别的数据集(class , 那么这个属性(维) 就被认为是与相应类别数据集密切相关的。例如: 一个汽车的颜色不太可能用于区分贵贱汽车( 类别); 但是汽车的型号、品牌、风格可能是更相关的属性。此外即使同一个属性(维) ,其不同抽象层次的概念对不同类别数据集的分辨能力也不同。例如: 在出生日期(birth date) 维中, birth day 和 birth month 都不太可能与雇员的工资相关; 而只有 birth decade( 年龄) 可能与雇员的工资相关。这也就意味着属性(维) 相关分析应该在多层次抽象水平上进行,只有最相关的那个层次的属性(维) 应被包含到数据分析中。当属性相关分析应用在聚类算法时, 它根据数据在每个属性上的分布情况来删除稀疏的属性和数据,最终达到降维和缩小数据集的目的;当属性相关分析应用在离群数据挖掘时, 它根据数据在每个属性上的稀疏程度删除稠密的属性和数据,通过删除稠密属性和数据,也能达到降维和缩小数据集的目的。利用属性相关分析, 首先, 可以删除在所有维组合中都处于稠密区域的数据, 由于这些数据不可能出现在稀疏区域内, 因此他们也不可能出现在离群子空间中; 第二, 利用属性相关分析删除不相关属性, 不相关属性是指在这个属性中所有的数据都分布在稠密区域内,容易知道由稠密区域构成的维不可能成为构成离群子空间的维, 因此,不相关属性可以删除。关于属性相关分析, 在机器学****统计、模糊和粗糙集理论等方面都有许多研究。属性相关分析的基本思想是计算某种度量, 用于量化属性与给定类或概念的相关性。这种度量包括信息增益、 Gini 索引、不确定性和相关系数。这里,我们介绍一种方法,它将信息增益分析技术( 诸如在学****决策树 ID3 和 算法中提供的) 和基于多维数据分析的方法集成在一起。该方法删除信息量较少的属性,收集信息量较多的属性,用于概念描述分析。信息增益计算如何工作? 设S 是训练样本的集合,其中每个样本的类标号是已知的。事实上,每个样本是一个元组, 一个属性用于确定训练样本的类。例如, 属性 status 可以用于定义每个样本的类标号或者是“ graduate ”,或者是“ undergraduate ”。假定有 m 个类。设 S 包含 si个 Ci 类样本, i= 1, ...,m。一个任意样本属于类 Ci 的可能性是 si/s, 其中 s 是集合 S 中对象的总数。对一个给定的样本分类所需的期望信息是: ???? mi S SimS SsssI 1 221 log ),..., ,( 具有值{a1,a2