1 / 4
文档名称:

属性相关分析.doc

格式:doc   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

属性相关分析.doc

上传人:drp539601 2015/9/22 文件大小:0 KB

下载得到文件列表

属性相关分析.doc

文档介绍

文档介绍:在机器学****统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念,对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。这些参量包括:信息增益、Gini值、不确定性和相关系数等。
采用属性相关分析方法,以帮助滤去统计无关或弱相关的属性并保留(与挖掘任务)最相关的属性。包含属性(维)相关分析的定性概念描述就称为分析定性概念描述(analytical characterization )。包含属性(维)相关分析的对比定性概念描述也就称为分析对比定性概念描述(parison)。
直观上讲,若一个属性(维)的取值可以帮助有效地区分不同类别的数据集(class,那么这个属性(维)就被认为是与相应类别数据集密切相关的。例如:一个汽车的颜色不太可能用于区分贵贱汽车(类别);但是汽车的型号、品牌、风格可能是更相关的属性。此外即使同一个属性(维),其不同抽象层次的概念对不同类别数据集的分辨能力也不同。例如:在出生日期(birth date)维中,birth day和birth month都不太可能与雇员的工资相关;而只有birth decade(年龄)可能与雇员的工资相关。这也就意味着属性(维)相关分析应该在多层次抽象水平上进行,只有最相关的那个层次的属性(维)应被包含到数据分析中。
当属性相关分析应用在聚类算法时,它根据数据在每个属性上的分布情况来删除稀疏的属性和数据,最终达到降维和缩小数据集的目的;当属性相关分析应用在离群数据挖掘时,它根据数据在每个属性上的稀疏程度删除稠密的属性和数据,通过删除稠密属性和数据,也能达到降维和缩小数据集的目的。利用属性相关分析,首先,可以删除在所有维组合中都处于稠密区域的数据,由于这些数据不可能出现在稀疏区域内,因此他们也不可能出现在离群子空间中;第二,利用属性相关分析删除不相关属性,不相关属性是指在这个属性中所有的数据都分布在稠密区域内,容易知道由稠密区域构成的维不可能成为构成离群子空间的维,因此,不相关属性可以删除。
关于属性相关分析,在机器学****统计、模糊和粗糙集理论等方面都有许多研究。属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量包括信息增益、Gini 索引、不确定性和相关系数。 这里,我们介绍一种方法,它将信息增益分析技术(诸如在学****决策树 ID3  算法中提供的 )和基于多维数据分析的方法集成在一起。该方法删除信息量较少的属性,收集信息量较多的属性,用于概念描述分析。 
    信息增益计算如何工作?
设 S 是训练样本的集合,其中每个样本的类标号是已知的。事实上,每个样本是一个元组,一个属性用于确定训练样本的类。例如,属性 status 可以用于定义每个样本的类标号或者是“graduate”,或者是“undergraduate”。假定有 m 个类。设 S 包含 si个 Ci类样本,i = 1, ..., m。一个任意样本属于类 Ci的可能性是 si / s,其中s 是集合S 中对象的总数。对一个给定的样本分类所需的期望信息是:
具有值{a1,a2,...,av}的属性 A 可以用来将 S 划分为子集{ S1,S2,...,Sv },其中,Sj 包含 S 中A值为 aj的那些样本。设 Sj 包含类