1 / 32
文档名称:

《数据挖掘》 (2).ppt

格式:ppt   大小:2,614KB   页数:32页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《数据挖掘》 (2).ppt

上传人:相惜 2024/4/16 文件大小:2.55 MB

下载得到文件列表

《数据挖掘》 (2).ppt

相关文档

文档介绍

文档介绍:该【《数据挖掘》 (2) 】是由【相惜】上传分享,文档一共【32】页,该文档可以免费在线阅读,需要了解更多关于【《数据挖掘》 (2) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。,历经多个步骤,:了解领域特点,确定用户需求数据选取:从原始数据库中选取相关数据或样本数据预处理:检查数据的完整性及一致性,消除噪声等数据变换:通过投影或利用其他操作减少数据量数据挖掘阶段确定挖掘目标:确定要发现的知识类型选择算法:根据确定的目标选择适宜的数据挖掘算法数据挖掘:运用所选算法,提取相关知识并以一定的方式表示知识评估与表示阶段模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估知识表示:使用可视化和知识表示相关技术,:刻划数据库中数据的一般特性预测性挖掘任务:在当前数据上进行推断和预测精选课件关联分析关联分析是从给定的数据中发现频繁出现的模式,即关联规那么关联规那么通常的表述形式是XY,表示“数据库中满足条件X的记录(元组)可能也满足条件Y〞以某电器商场销售记录为例:含义:4%(支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65%(置信度)的人购置了笔记本电脑精选课件关联分析挖掘关联规那么,需要置信度和支持度越高越好根本概念项集:满足假设干条件的数据项的集合,如果条件数为k,那么称k项集满足年龄(顾客,“20~29〞)的项集是1项集满足年龄(顾客,“20~29〞)收入(顾客,“3000~5000〞)的项集是2项集计算步骤首先找到具备足够支持度的项集,即频繁项集然后由频繁项集构成关联规那么,并计算置信度精选课件关联分析如何寻找频繁项集Apriori算法根本思想:利用已求出的k项集来计算(k+1)项集首先计算频繁1项集然后根据两个频繁k项集{p1,p2,...,pk},{q1,q2,...,qk}计算频繁(k+1)项集,其中pi=qi,1<=i<=k-1,且该(k+1)项集为{p1,p2,...,pk,qk}最后判定该(k+1)项集是否频繁缺点:可能产生大量候选项集,并需要重复地扫描数据库FP-Growth算法利用树状结构保存项集,从而减小了计算频繁项集所需的存储空间精选课件关联分析如何由频繁项集构造关联规那么,并计算置信度关联规那么AB的置信度其中count(AANDB)为满足条件A以及B的数据项数目,count(A)为满足条件A的数据项数目计算步骤对于每一个频繁项集S,计算S的所有非空子集对于每个S的非空子集F,假设大于给定置信度阈值,那么得到一个关联规那么精选课件