1 / 3
文档名称:

高效的关联规则挖掘算法.pdf.pdf

格式:pdf   页数:3页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

高效的关联规则挖掘算法.pdf.pdf

上传人:sftnqws018 2015/12/3 文件大小:0 KB

下载得到文件列表

高效的关联规则挖掘算法.pdf.pdf

相关文档

文档介绍

文档介绍:维普资讯
第卷第期计算机工程与设计年月
. .
高效的关联规则挖掘算法
郭健美, 宋顺林, 肖仁财
江苏大学计算机学院, 江苏镇江
摘要:算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集
和连接优化策略,得到一种新的关联规则挖掘算算法。该算法减小了数据库的规模以及候选项集的数目,避免了
连接过程中相同项目的重复比较。实验表明此方法比算法有更好的性能。
关键词:数据挖掘;关联规则;频繁项集:事务数据库;最小支持数
中图法分类号:, 文献标识码: 文章编号:———

—. —. —
,
:
,,.
—,
,.
,
: ; ; ; ;
选项集的数目,避免了连接过程中相同项目的重复比较。实
引言
验表明此方法比算法有更好的性能。
数据挖掘是从大型数据库中的大量原始数据中提取人
改进的算法的基本思想及其分析
们感兴趣的、隐含的、具有潜在应用价值的信息和知识,被认
为是目前解决数据丰富而信息贫乏的~种有效方法。.—. 修剪频繁集策略
等首先提出了挖掘关联规则的算法,算为了提高按层次搜索并产生相应频繁项集的处理效率,
法是挖掘布尔关联规则频繁项集的最有影响的数据挖掘算算法利用了以下几个重要性质:
法之一,其基本思想是重复扫描数据库,根据一个频繁集的性质一个频繁项目集的任一非空子集必定也是频繁
任意子集都是频繁集的原理,可以从长度为的频繁项目集。
集迭代地产生长度为的候选集,再扫描数据库以验证其是性质项数据项目集是频繁项目集的必要条件是它
否为频繁集,但是该方法存在着明显的不足:①。
为频繁项目集的非频繁项目重复扫描,如果能事先判断就可从算法可以看出,生成的过程中产生了过多的
以提高效率。②连接程序中相同的项目重复太多,如果能避候选项集,特别是一项集尤其多,如何减少候选项集的数量是
免这些重复的比较,则可提高算法的效率。③对数据库中无个问题。根据关联规则的定义,可以得到下面的性质。
用记录重复扫描,如果能避免这些不必要的扫描,则可以提性质如果维频繁项集集合中包含单个项目
高算法的效率。的个数小于,则不可能包含在频繁项集中。
针对算法的不足,本文提出一种新的优化在第步中,
算法:,该方法采用了一种新的数据库优化技术,并结维候选项目集,,我们可以实
合修剪频繁集和连接优化策略,减小了数据库的规模以及候现对该集中出现项目的个数进行计数处理。因此对某项目而
收稿日期:——:
一. ·
基金项目:江苏省产业信息化重点基金项目。
作者简介:郭健美一,女,山东菏泽人,硕士研究生,研究方向为数据挖掘、软件工程; 宋顺林一,男,江苏溧阳人,教授,博
士生导师,研究方向为企业信息化、软件工程、计算机图形学、数据挖掘等; 肖仁财一,男,山东临沂人,硕士研究生,研究方向为数
据挖掘。
维普资讯
言,若它的计数不到的话,可以事先删除该项目,从而排除的有些事务已经对频繁项集厶的生成不产生作用,因此减少数
了由该项目将以引起的大规模所有组合,减少了候选项目的据库