1 / 102
文档名称:

数据挖掘导论第7章.ppt

格式:ppt   大小:4,365KB   页数:102页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘导论第7章.ppt

上传人:小落意 2022/12/2 文件大小:4.26 MB

下载得到文件列表

数据挖掘导论第7章.ppt

文档介绍

文档介绍:该【数据挖掘导论第7章 】是由【小落意】上传分享,文档一共【102】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘导论第7章 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘导论第7章
关联分析处理事务数据
RulesDiscovered:
{Diaper}-->{Beer}
处理分类属性
我们可能发现关于因特网用户特征的有趣信息:
{网上购物=是}{关注隐私=是}
许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。
处理分类属性
为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。
这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。
例如:标称属性文化程度可以用三个二元项取代
文化程度=大学
文化程度=研究生
文化程度=高中
类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。
解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。
{家庭计算机=是,网上购物=是}{关注隐私=是}
解决办法:使用处理具有宽支持度的极差数据集的技术。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。
解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。
处理连续属性
因特网调查数据可能还包含连续属性,如表7-3所示。
挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:
包含连续属性的关联规则通常称作量化关联规则(quantiativeassociationrule)。
对连续数据进行关联分析的方法:
基于离散化的方法
非离散化方法
基于统计学的方法
区间宽度对关联分析结果的影响。
(2)如果区间太窄,则可能因为缺乏支持度而失去某些规则
例如:当区间宽度为4岁时,上面的两个规则变为
[16,20)网上聊天=是(s=%,%)
[20,24)网上聊天=是(s=%,%)
(3)当区间宽度为8岁时,上面的两个规则变为
[44,52)网上聊天=否(s=%,70%)
[52,60)网上聊天=否(s=%,70%)
[12,20)网上聊天=是(s=%,%)
[20,28)网上聊天=是(s=%,%)