1 / 25
文档名称:

《R语言数据挖掘》第十章-R的关联分析:揭示数据关联性.ppt

格式:ppt   大小:587KB   页数:25页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《R语言数据挖掘》第十章-R的关联分析:揭示数据关联性.ppt

上传人:Q+1243595614 2021/7/29 文件大小:587 KB

下载得到文件列表

《R语言数据挖掘》第十章-R的关联分析:揭示数据关联性.ppt

文档介绍

文档介绍:第十章
R的关联分析:揭示数据
关联性
学****目标
理论方面,理解简单关联和时序关联的含义,各种关联算法的特点、核心原理和基本实现思路,掌握不同方法的适用性和应用场景
实践方面,掌握R的各种关联算法实现、应用以及结果解读,能够正确运用不同关联算法解决找到实际数据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段
关联分析的目的就是基于已有数据,找到事物间的简单关联关系或序列关联关系
数据挖掘中,关联分析成果(即关联关系)的核心体现形式是关联规则(Association Rule)
简单关联规则
序列关联规则
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集
简单关联分析的分析对象是事务(Transaction)。事务可理解为一种商业行为,含义极为宽泛
事务通常由事务标识(TID)和项目集合X组成。事务标识是确定一个事务的唯一标识;项目集合简称项集,是一组项目的集合
简单关联规则及其测度
简单关联规则
例:面包牛奶(S=85%,C=90%)
例:性别(女) ∩ 收入(>5000)品牌(A)(S=80%,C=85%)
简单关联规则及其测度
简单关联规则的有效性评价
规则置信度:是对简单关联规则准确度的测量,定义为包含项目X的事务中同时也包含项目Y项的概率,反映X出现条件下Y出现的可能性
规则支持度:测度了简单关联规则应用的普适性,定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价
一个有效的简单关联规则应具有较高的置信度和较高的支持度
大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持度与统计中的列联表密切相关
简单关联规则及其测度
简单关联规则的实用性评价
简单关联规则应具有实际意义
例:牛奶性别(男)(S=40%,C=40%)。在最小置信度和支持度为20%时该规则是一条有效规则
规则反映的是一种前后项无关联下的随机性关联,没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价
简单关联规则应具有指导意义
例:成绩(优异)早餐(吃)(S=30%,C=60%),在最小置信度和支持度为20%时该规则是一条有效规则
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价
规则的提升度(Lift)定义为:规则置信度与后项支持度之比
规则提升度反映了项目X的出现对项目Y(研究项)出现的影响程度
有实用价值的简单关联规则应是规则提升度大于1的规则,意味着X的出现对Y的出现有促进作用。规则提升度越大越好