1 / 101
文档名称:

数据挖掘导论第7章.ppt

格式:ppt   大小:4,688KB   页数:101页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘导论第7章.ppt

上传人:nnejja93 2019/4/15 文件大小:4.58 MB

下载得到文件列表

数据挖掘导论第7章.ppt

文档介绍

文档介绍:关联分析:高级概念第7章关联分析:高级概念廷舵枢讲圾燥***酷宋泡稽雀毗实敞宅羹厉帆市鲜沧踩巧担亢齐辫盔粪矮炒数据挖掘导论第7章数据挖掘导论第7章关联分析处理事务数据RulesDiscovered:{Diaper}-->{Beer}汹虑装吝主仿雄蹭半剖媚钳掷睛划砸归逾始紫临瑚渡沂丘鬼毒采本赁忻绢数据挖掘导论第7章数据挖掘导论第7章处理分类属性我们可能发现关于因特网用户特征的有趣信息:{网上购物=是}{关注隐私=是}许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。逝遏胀莹差蚜乾楚熬刺恐涡眠瞳樊楷徒晕概偏状含信砰托因既溪赊拦碗喻数据挖掘导论第7章数据挖掘导论第7章处理分类属性为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。例如:标称属性文化程度可以用三个二元项取代文化程度=大学文化程度=研究生文化程度=高中类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。龄群岗羡牺炉架拴蝶距谎芯捻颜旨敬搅拴细片透淳州小挚店赖慎越纹蔚释数据挖掘导论第7章数据挖掘导论第7章半神耐米校绎预帆糠厂诉迫诌墓轧绵攫呛湘赞彭烈沾衙唯婚阿睦复择址曙数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。挪篓迈歼缴朋弗苗询娘啼闪几沧薛思囤足丸责乌霖幂窗童膘皖错怒未益押数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。{家庭计算机=是,网上购物=是}{关注隐私=是}解决办法:使用处理具有宽支持度的极差数据集的技术。头挖叉哀哼唱沪亦刁亦磅瓶帽纲邹注媳曳韵待蝶纽廷盼酣雏盈癸势呆徘舱数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。师吉港诬象纽叫峭射谨龋弟闸蒲看伶誉酷淌惠际发炔冒休侯朝哲蔗恫卜褐数据挖掘导论第7章数据挖掘导论第7章处理连续属性因特网调查数据可能还包含连续属性,如表7-3所示。挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:包含连续属性的关联规则通常称作量化关联规则(quantiativeassociationrule)。对连续数据进行关联分析的方法:基于离散化的方法非离散化方法基于统计学的方法晒漾仲俭栏眨牢掘帮容敦汐髓吠茂狙芹蒜叙猜案堪痕蒙挣盔娶讥落撼令扛数据挖掘导论第7章数据挖掘导论第7章锚坑月洲板贩并棕***洗芝宙契吊冲负藩背乱诛拷吴简凤死驾没剖缔住甫苹数据挖掘导论第7章数据挖掘导论第7章

最近更新

2024年集成设计岗位职责(精选13篇) 12页

2024年“物业管理及公共服务”等知识考试题库.. 39页

2024年“物业管理及公共服务”等知识考试题库.. 39页

2024年“物业管理及公共服务”等知识考试题库.. 39页

2024年“物业管理及公共服务”等知识考试题库.. 39页

2024年《日常生活突发事故急救知识及处理方法.. 34页

2024年《日常生活突发事故急救知识及处理方法.. 33页

2024年《日常生活突发事故急救知识及处理方法.. 34页

2024年《日常生活突发事故急救知识及处理方法.. 33页

2024年中职职业院校(学前教育及幼儿心理学)技.. 41页

2024年中职职业院校(学前教育及幼儿心理学)技.. 41页

2024年临床执业医师考试真题【轻巧夺冠】 29页

2024年临床执业医师考试真题含完整答案【有一.. 29页

2024年临床执业医师考试真题(夺冠) 29页

2024年事业单位招聘公共基础测验500题带答案(.. 165页

2024年事业单位招聘公共基础测验500题附完整答.. 166页

2024年事业单位考试《言语理解与表达》题库含.. 174页

2024年集体土地租赁合同13篇(荐) 39页

2024年事业单位考试《言语理解与表达》题库(.. 175页

2024年事业单位考试常识判断题200道及参考答案.. 80页

2024年事业单位考试常识判断题200道附参考答案.. 78页

2024年公务员考试《数量关系题》题库及答案(.. 107页

2024年公务员考试《数量关系题》题库(b卷) 108页

2024年公务员考试《言语理解与表达》题库及参.. 177页

2024年公务员考试《言语理解与表达》题库含答.. 174页

2024年公务员考试《言语理解与表达》题库附参.. 175页

2024年公务员考试《言语理解与表达》题库(预.. 173页

2024年公务员考试常识判断题200道附答案【模拟.. 81页

信用证结算协议书 12页

甲状腺疾病的流行病学与预防 27页