文档介绍：该【数据挖掘导论第7章】是由【小落意】上传分享，文档一共【102】页，该文档可以免费在线阅读，需要了解更多关于【数据挖掘导论第7章】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。数据挖掘导论第7章
关联分析处理事务数据
RulesDiscovered:
{Diaper}-->{Beer}
处理分类属性
我们可能发现关于因特网用户特征的有趣信息:
{网上购物=是}{关注隐私=是}
许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。
处理分类属性
为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。
这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。
例如:标称属性文化程度可以用三个二元项取代
文化程度=大学
文化程度=研究生
文化程度=高中
类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。
解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。
{家庭计算机=是,网上购物=是}{关注隐私=是}
解决办法:使用处理具有宽支持度的极差数据集的技术。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。
解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。
处理连续属性
因特网调查数据可能还包含连续属性,如表7-3所示。
挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:
包含连续属性的关联规则通常称作量化关联规则(quantiativeassociationrule)。
对连续数据进行关联分析的方法:
基于离散化的方法
非离散化方法
基于统计学的方法
区间宽度对关联分析结果的影响。
(2)如果区间太窄,则可能因为缺乏支持度而失去某些规则
例如:当区间宽度为4岁时,上面的两个规则变为
[16,20)网上聊天=是(s=%,%)
[20,24)网上聊天=是(s=%,%)
(3)当区间宽度为8岁时,上面的两个规则变为
[44,52)网上聊天=否(s=%,70%)
[52,60)网上聊天=否(s=%,70%)
[12,20)网上聊天=是(s=%,%)
[20,28)网上聊天=是(s=%,%)